收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫怎么设置请求头
来源:互联网 作者:admin 时间:2018-12-07 16:19:10

    有些新手在学习Python爬虫过程中,会遇到一些麻烦,比如,为什么使用爬虫请求失败,难度这爬虫这么没有用,还没有开始就失败了,到底是哪里出问题了?可能是请求头设置有问题。


    使用Python爬虫采集数据,需要先向目标网站发起请求,网站会进行自动检测,如果请求头设置有问题,即请求失败,返回失败码,那么Python爬虫怎么设置请求头


    Python爬虫请求流程:


    无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders:


Python爬虫怎么设置请求头


    这里面的大多数的字段都是浏览器向服务器“表明身份”用的,对于爬虫程序来说,最需要注意的字段就是:User-Agent


    很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


Python爬虫怎么设置请求头


    可以看到,这里的请求被拒绝了,并且返回了一个500的错误码:


    这里就是因为requests库本身的headers是这样的:


Python爬虫怎么设置请求头


    这里面并没有user-agent字段,自然不被知乎的服务器所接受了。


    解决方法:


    可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用,代码如下:


Python爬虫怎么设置请求头


    通过上文,我们可以知道Python爬虫怎么设置请求头有效,避免错误的设置,另外可以多备不同的user-agent,轮换使用,更好的伪装自己。如果遇到IP限制,可以使用智连代理进行IP切换,突破IP限制,可以持续的采集数据,提高工作效率。


推荐阅读
  • 13 2019-04
    对于IP代理的使用有疑惑,可以进来看看

    对于IP代理的使用有疑惑,可以进来看看的。小编为大家收集了一些比较常见的IP代理问题,可以为大家解惑下,正确的认识IP代理。

  • 15 2019-01
    对于局域网限制,使用代理可以全部突破吗

    很多从事互联网工作者而言,使用的基本上都是局域网,有些还被限制了网络的使用,不能访问某某网站,不能登陆某某软件等等。对于局域网限制,大家常用的方法就是使用代理,是可以突破

  • 30 2018-10
    在贴吧发帖要注意些什么 怎么预防被删贴

    贴吧是个比较大的平台,用户比较多,所发的信息容易被收录,获得好的排名,所以一直都是网络营销人员的重要的平台。想在贴吧引流,肯定是要多宣传自身品牌,留有联系方式...

  • 29 2019-05
    自动换IP软件好用吗

    以前大家需要更换IP,还需要苦哈哈的不断重启,或者重新连接网络,这影响其他工作不说,这换IP的效果也不好,尤其是局域网,其对外IP都是一致的,很容易出问题。如今人们的生活速度越来

  • 16 2019-01
    手机游戏加速用什么软件好呢?

    近些年,游戏行业发展比较快,如今游戏玩家非常多,这给服务器带来非常大的负载,可能会影响游戏的流畅度,特别是高峰期。另外,还有设备的配置,网络环境等因素影响着,所以很多玩家

  • 29 2019-01
    代理服务器在工作中有什么作用

    相对于几十亿的网民而言,使用代理服务器的占比是非常小的,即使占比小,但使用的人数也不少。而且现在随着技术的进步,很多平台的限制越多了,需要使用到代理的地方也多了起来,那么