系统运输
学习爬虫的时候不用脑子,用python的爬虫脚本刚爬了两次,只测试过就打不开这个页面。 刚开始还有点迷糊,后来我才知道,python做爬虫的缺省用户代理是python的大版本,python2.7 .的用户代理:python3.5 .的用户代理
让我们做个实验:
python代码如下所示。
python2
import urllib2
url= http://www.baidu.com/
request=urllib2.request(URL )
response=urllib2. urlopen ( request )
print(response.read ) )
python3
来自urllib导入请求
url= http://www.baidu.com/
req=request.request(URL )
response=request.urlopen(req )
print ( response.read.decode ) )。
我们打开fiddler,执行完成代码,在fiddler上确认我们的数据
很明显是python的版本
所以我们学习爬行动物的时候不管爬什么,代码都要加上这个头的信息
把头放在代码里吧
来自urllib导入请求
头儿={
user-agent:Mozilla/5.0 ( windows nt 10.0; WOW64
}
url= http://www.baidu.com/
req=request.request(URL,headers=headers ) )。
response=request.urlopen(req )
print ( response.read.decode ) )
抓住包的结果如下。
详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn