收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫怎么设置请求头
来源:互联网 作者:admin 时间:2018-12-07 16:19:10

    有些新手在学习Python爬虫过程中,会遇到一些麻烦,比如,为什么使用爬虫请求失败,难度这爬虫这么没有用,还没有开始就失败了,到底是哪里出问题了?可能是请求头设置有问题。


    使用Python爬虫采集数据,需要先向目标网站发起请求,网站会进行自动检测,如果请求头设置有问题,即请求失败,返回失败码,那么Python爬虫怎么设置请求头


    Python爬虫请求流程:


    无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders:


Python爬虫怎么设置请求头


    这里面的大多数的字段都是浏览器向服务器“表明身份”用的,对于爬虫程序来说,最需要注意的字段就是:User-Agent


    很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


Python爬虫怎么设置请求头


    可以看到,这里的请求被拒绝了,并且返回了一个500的错误码:


    这里就是因为requests库本身的headers是这样的:


Python爬虫怎么设置请求头


    这里面并没有user-agent字段,自然不被知乎的服务器所接受了。


    解决方法:


    可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用,代码如下:


Python爬虫怎么设置请求头


    通过上文,我们可以知道Python爬虫怎么设置请求头有效,避免错误的设置,另外可以多备不同的user-agent,轮换使用,更好的伪装自己。如果遇到IP限制,可以使用智连代理进行IP切换,突破IP限制,可以持续的采集数据,提高工作效率。


推荐阅读
  • 23 2019-05
    网络推广使用代理IP不必担心被封

    网络推广使用代理IP不必担心被封,这是那些网络推广人员使用代理IP的主要原因。 现在很多企业和个人点后认识到了网络带来的广告效益和传播速度,因此网络推广就成了必要的一种手段.如果

  • 20 2019-11
    动态ip和静态ip的优缺点!

    动态ip和静态ip的优缺点!在使用代理ip​的时候,我们通常会见到有动态ip和静态ip两种选择,IP地址作为我们访问网络的编号,每个人的号码都不一样的,不可能有其他人的身份证号码也跟你一

  • 15 2019-10
    哪个代理IP软件​好用?

    哪个代理IP软件​好用?随着互联网世界发展壮大,营销不再局限于现实生活中,对于做网络营销的工作人员来说,自然是离不开代理IP的。

  • 02 2019-09
    代理IP对于爬虫有多重要?

    代理IP对于爬虫有多重要?作为爬虫工作者来说,反爬虫策略是最大的敌人,为了应对反爬虫策略,各位大神都开发出了无数的应对方法,然而这么多的方法都无一例外需要用到代理IP​。

  • 05 2019-11
    使用代理ip​的正确方法!

    使用代理ip​的正确方法!在网络上,你可能会碰到各种无法预料的事情。就像上面的三种情况,其实并不是你的家庭网络IP出现了问题,而是对方网站系统因为其网站推广、盈利、展现需要,限

  • 26 2019-06
    使用动态IP有好处也有坏处

    使用动态IP有好处也有坏处,也就是说好坏并存,那么我们在使用的时候,就需要看清楚进行选择了。