收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫怎么设置请求头
来源:互联网 作者:admin 时间:2018-12-07 16:19:10

    有些新手在学习Python爬虫过程中,会遇到一些麻烦,比如,为什么使用爬虫请求失败,难度这爬虫这么没有用,还没有开始就失败了,到底是哪里出问题了?可能是请求头设置有问题。


    使用Python爬虫采集数据,需要先向目标网站发起请求,网站会进行自动检测,如果请求头设置有问题,即请求失败,返回失败码,那么Python爬虫怎么设置请求头


    Python爬虫请求流程:


    无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders:


Python爬虫怎么设置请求头


    这里面的大多数的字段都是浏览器向服务器“表明身份”用的,对于爬虫程序来说,最需要注意的字段就是:User-Agent


    很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


Python爬虫怎么设置请求头


    可以看到,这里的请求被拒绝了,并且返回了一个500的错误码:


    这里就是因为requests库本身的headers是这样的:


Python爬虫怎么设置请求头


    这里面并没有user-agent字段,自然不被知乎的服务器所接受了。


    解决方法:


    可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用,代码如下:


Python爬虫怎么设置请求头


    通过上文,我们可以知道Python爬虫怎么设置请求头有效,避免错误的设置,另外可以多备不同的user-agent,轮换使用,更好的伪装自己。如果遇到IP限制,可以使用智连代理进行IP切换,突破IP限制,可以持续的采集数据,提高工作效率。


推荐阅读
  • 14 2019-08
    手机更改ip地址用ip修改器

    手机更改ip地址用ip修改器,这是非常快速的更换ip方法,也是很多人都采用的方法,因为在智能化手机的应用范围日渐拓宽之后,相关的软件也为日常的手机应用提供了极大的便利。

  • 14 2019-10
    怎么判断代理ip​的匿名度?

    怎么判断代理ip​的匿名度?有一些朋友使用浏览器设置了代理后,访问百度查询IP,发现还是本机IP,于是得出结论,这个代理IP就是透明代理,因为它暴露了本机IP。真相真的是这样吗?其实不然

  • 18 2020-04
    爬虫用户选择代理ip使用

    网络用户的增加,对于代理ip的需求也在上升,网络中出现了很多专门提供代理ip业务的商家,可以供不同需求的用户购买使用。

  • 17 2019-05
    代理ip软件支持快捷键切换IP

    代理ip软件支持快捷键切换IP,如果电脑或者手机需要更换IP,可以使用代理ip软件就可以更换电脑ip地址,这是非常方便的,比自己手动慢慢换快多了。

  • 30 2019-12
    隐藏ip的代理模式选择

    很多用户都不知道代理服务器的作用是非常多的,代理服务器的活跃让我们能够使用到高质量的ip代理服务,这是互联网的进步与发展。

  • 14 2019-10
    请求http代理​协议的方法!

    请求http代理​协议的方法!http协议是指工作于客户端到服务端架构上,用于接收和返回web服务器请求的协议,通常web服务器接收到请求后都会进行协议解析并返回适当信息,所以如果http协议的