收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么伪装成浏览器
来源:pdstar 作者:admin 时间:2018-12-12 17:32:32

    爬虫在获取数据的过程中,都会遇到网站的反爬虫机制,那么如何伪装好自己,别让对方知道你是一个爬虫呢?这就需要伪装,一个爬虫也可以伪装用户。因为爬虫的许多信息都可以伪装的,比如伪装成浏览器获取数据,本文为大家介绍一下爬虫怎么伪装成浏览器


    1.爬取目标方法


    对于网站url为http协议的,我们可以直接通过urlopen()直接爬取


    例如:


爬虫怎么伪装成浏览器


    爬取结果为


爬虫怎么伪装成浏览器


    2.被识别为爬虫


    但当我们要爬url为https协议的网站,就会返回403错误或报其它错误。这是因为对方服务器识别出是爬虫,把我们屏蔽了。


    例如把url换成"https://www.qiushibaike.com/"? 则python会报错如下图:


爬虫怎么伪装成浏览器


    3.伪装方法


    通过模拟浏览器登陆来实现伪装。即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。


    原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去:


    from urllib import request


    #爬嗅事百科


    url='https://www.qiushibaike.com/'


    #写入User-Agent,采用字典形式


    head={}


    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'


    #创建Request对象并添加heads


    req=request.Request(url,headers=head)


    #传入创建好的Request对象


    response=request.urlopen(req)


    #读取响应信息并解码


    html=response.read().decode('utf-8')


    #打印爬到的信息


    print(html)



推荐阅读
  • 18 2019-11
    哪儿有高质量代理ip​?

    哪儿有高质量代理ip​?高质量的代理ip不论是对爬虫还是刷票等行为都有着十分好的帮助,对于业务的开展和效率的提高也有十分巨大的好处,如今市面上的代理ip供应商这么多,我们该如何才

  • 30 2019-05
    代理IP可用于哪些项目防封

    如今网络无处不在,代理IP的使用也越来越广了,很多平台都有限制的,为了不被封,还需要代理IP出马,那么代理IP可用于哪些项目防封呢?

  • 17 2019-06
    动态ip代理的主要用途

    动态ip代理的主要用途都有哪些呢?对于动态ip代理估计使用的人数会比较多,主要是在换IP方面的,那么具体有哪些业务可以使用动态ip代理帮忙呢?

  • 06 2019-08
    廉价IP代理软件靠谱吗

    廉价IP代理软件靠谱吗?谁都有想占便宜的心理,就看这诱惑够不够大,不过这廉价的产品,要考虑到安全问题,质量问题的。如果我们的IP被封了,要解决,使用IP代理软件,找廉价的如何?

  • 12 2019-02
    动态vps与vpn使用哪个好?

    使用动态vps与vpn的人群都不少,二者都能够实现更换IP的作用,但其基本原理是不一样的,因此使用的效果以及主要的用途也是有区别的,那么动态vps与vpn使用哪个好呢?对此,我们首先要先了

  • 06 2019-09
    怎样使用代理ip上网?

    怎样使用代理ip上网?日常生活中,我们上网可能不想使用自己电脑的IP,又或者需要换IP申请某某的东西,甚至可以看看一些限制的网站,怎么办呢?下面教大家两种方法。