收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫怎么设置请求头
来源:互联网 作者:admin 时间:2018-12-07 16:19:10

    有些新手在学习Python爬虫过程中,会遇到一些麻烦,比如,为什么使用爬虫请求失败,难度这爬虫这么没有用,还没有开始就失败了,到底是哪里出问题了?可能是请求头设置有问题。


    使用Python爬虫采集数据,需要先向目标网站发起请求,网站会进行自动检测,如果请求头设置有问题,即请求失败,返回失败码,那么Python爬虫怎么设置请求头


    Python爬虫请求流程:


    无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders:


Python爬虫怎么设置请求头


    这里面的大多数的字段都是浏览器向服务器“表明身份”用的,对于爬虫程序来说,最需要注意的字段就是:User-Agent


    很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


Python爬虫怎么设置请求头


    可以看到,这里的请求被拒绝了,并且返回了一个500的错误码:


    这里就是因为requests库本身的headers是这样的:


Python爬虫怎么设置请求头


    这里面并没有user-agent字段,自然不被知乎的服务器所接受了。


    解决方法:


    可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用,代码如下:


Python爬虫怎么设置请求头


    通过上文,我们可以知道Python爬虫怎么设置请求头有效,避免错误的设置,另外可以多备不同的user-agent,轮换使用,更好的伪装自己。如果遇到IP限制,可以使用智连代理进行IP切换,突破IP限制,可以持续的采集数据,提高工作效率。


推荐阅读
  • 05 2019-08
    电脑为何要设置IP地址,怎么改IP地址?

    电脑为何要设置IP地址,怎么改IP地址?电脑中硬件涉及到的地址有两类,分别是IP地址与MAC地址。IP地址指的是逻辑地址,并不唯一,可以根据实际情况进行更改。MAC地址指的是硬件地址,具有

  • 25 2019-10
    Python爬虫必须用代理ip​吗?

    Python爬虫必须用代理ip​吗?大部分人以为,python爬虫必须要用代理ip,不然就无法进行数据爬取。事实上并不是这样,假如需要爬取的数据不多,一次爬一个网站上的上千篇文章内容,不使用代

  • 21 2019-03
    数据造假:网络爬虫借用代理IP刷量靠谱么

    互联网时代,很多数据都可以刷的,因为这些数据只要打开就增加了,如此容易获得,技术难度也就不高了。当然肯定是有利可图,才会吸引众多的刷手入场。我们使用网络爬虫进行刷量,这网

  • 13 2019-07
    快速换IP软件用自动切换ip

    快速换IP软件用自动切换ip,这样换ip会比较快,不然都要手动切换非常慢,因为手动即使加快速度也要几分钟,但是快速换IP软件即不用。

  • 31 2020-08
    性价比高的网络安全保护方式

    网络时代我们很多操作都无法脱离互联网来完成,随着更多的工作以及生活应用需要网络,我们对互联网的操作就更加需要注意。

  • 26 2021-07
    正确操作换ip代理发挥作用

    代理服务器在网络工作者的操作之下,能够完成很多功能,比如能够切换ip地址,也能够隐藏本地ip地址,增强网络安全性等等。

您好,当前有客服在线,请问有什么需要咨询的吗?