收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫怎么设置请求头
来源:互联网 作者:admin 时间:2018-12-07 16:19:10

    有些新手在学习Python爬虫过程中,会遇到一些麻烦,比如,为什么使用爬虫请求失败,难度这爬虫这么没有用,还没有开始就失败了,到底是哪里出问题了?可能是请求头设置有问题。


    使用Python爬虫采集数据,需要先向目标网站发起请求,网站会进行自动检测,如果请求头设置有问题,即请求失败,返回失败码,那么Python爬虫怎么设置请求头


    Python爬虫请求流程:


    无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requestsheaders:


Python爬虫怎么设置请求头


    这里面的大多数的字段都是浏览器向服务器“表明身份”用的,对于爬虫程序来说,最需要注意的字段就是:User-Agent


    很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。


Python爬虫怎么设置请求头


    可以看到,这里的请求被拒绝了,并且返回了一个500的错误码:


    这里就是因为requests库本身的headers是这样的:


Python爬虫怎么设置请求头


    这里面并没有user-agent字段,自然不被知乎的服务器所接受了。


    解决方法:


    可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用,代码如下:


Python爬虫怎么设置请求头


    通过上文,我们可以知道Python爬虫怎么设置请求头有效,避免错误的设置,另外可以多备不同的user-agent,轮换使用,更好的伪装自己。如果遇到IP限制,可以使用智连代理进行IP切换,突破IP限制,可以持续的采集数据,提高工作效率。


推荐阅读
  • 28 2019-01
    爬虫使用代理IP可以快速获取大量数据

    如今,大部分的人都离不开互联网,每天工作生活都给互联网增加大量的资料,但其中很多数据可能对于一些企业来说是无效的。

  • 12 2019-02
    动态vps与vpn使用哪个好?

    使用动态vps与vpn的人群都不少,二者都能够实现更换IP的作用,但其基本原理是不一样的,因此使用的效果以及主要的用途也是有区别的,那么动态vps与vpn使用哪个好呢?对此,我们首先要先了

  • 22 2019-06
    网站排名被超能用代理IP刷回来吗

    网站排名被超能用代理IP刷回来吗?关键词排名是比较激烈的,平常波动比较大的,稍不注意,可能很多关键词就掉排名了,怎么才能让关键词排名升回来呢?或者是稳定关键词排名呢?能不能

  • 03 2019-09
    免费代理IP适用人群有哪些?

    免费代理IP适用人群有哪些?很多人在刚接触ip代理​的时候都不想花钱购买,这是很正常的,毕竟大家都只是想试一试水,使用免费的ip代理虽然有着各种的不方便,但也不妨碍大家使用,下面

  • 09 2020-01
    影响代理ip速度的因素

    平时大家在上网的时候,如果需要玩游戏同时多开好几个账号,或者是网络电商要进行刷单,那么这些操作都是需要用到不同的ip地址的,就需要我们用到ip代理来换ip。

  • 15 2019-05
    更换IP地址最简单有效的操作

    更换IP地址最简单有效的操作是怎样的?很多互联网工作人员喜欢使用代理IP,主要是因为可以切换IP地址,也就是一款更换IP地址的软件,有什么简单的办法更换IP?