收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么伪装成浏览器
来源:pdstar 作者:admin 时间:2018-12-12 17:32:32

    爬虫在获取数据的过程中,都会遇到网站的反爬虫机制,那么如何伪装好自己,别让对方知道你是一个爬虫呢?这就需要伪装,一个爬虫也可以伪装用户。因为爬虫的许多信息都可以伪装的,比如伪装成浏览器获取数据,本文为大家介绍一下爬虫怎么伪装成浏览器


    1.爬取目标方法


    对于网站url为http协议的,我们可以直接通过urlopen()直接爬取


    例如:


爬虫怎么伪装成浏览器


    爬取结果为


爬虫怎么伪装成浏览器


    2.被识别为爬虫


    但当我们要爬url为https协议的网站,就会返回403错误或报其它错误。这是因为对方服务器识别出是爬虫,把我们屏蔽了。


    例如把url换成"https://www.qiushibaike.com/"? 则python会报错如下图:


爬虫怎么伪装成浏览器


    3.伪装方法


    通过模拟浏览器登陆来实现伪装。即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。


    原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去:


    from urllib import request


    #爬嗅事百科


    url='https://www.qiushibaike.com/'


    #写入User-Agent,采用字典形式


    head={}


    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'


    #创建Request对象并添加heads


    req=request.Request(url,headers=head)


    #传入创建好的Request对象


    response=request.urlopen(req)


    #读取响应信息并解码


    html=response.read().decode('utf-8')


    #打印爬到的信息


    print(html)



推荐阅读
  • 14 2019-01
    PPTP协议与L2TP协议有什么区别

    不同的协议,作用不同,像IP协议大家都知道的,没有IP就上不了网,那么大家认识PPTP协议与L2TP协议吗?二者有什么区别呢?小编一起去看看代理中的PPTP协议与L2TP协议有什么区别。

  • 19 2019-05
    哪家代理IP效率是最高

    哪家代理IP效率是最高?很多用户都喜欢尝试新奇的事物,但是在代理行业中,代理ip服务却历久弥新,经久不衰。很多人对此都不能理解,但是事实上,对于用户来说,代理ip服务永远是最实用

  • 17 2019-05
    代理ip软件支持快捷键切换IP

    代理ip软件支持快捷键切换IP,如果电脑或者手机需要更换IP,可以使用代理ip软件就可以更换电脑ip地址,这是非常方便的,比自己手动慢慢换快多了。

  • 13 2018-11
    用代理IP玩游戏可以防封吗,代理IP的防封效果

    如今网络游戏盛行,有些工作室或者个人通过游戏赚钱,这当然是需要使用到游戏多开,但是多开游戏容易导致IP被封,于是很多人都使用换IP软件,通过切换IP的方法预防被封。

  • 12 2019-03
    如何提高网络推广的有效性?改变IP软件至关重要

    如今网络时代,大到国有企业,小型私营小企业都已经开始做网络推广。但是,许多营销模式不再适用于网络时代,为了更好地进行网络推广,我们需要使用一些辅助的工具来优化营销的效果。

  • 15 2019-04
    实用的代理ip推荐,用户最喜欢哪家?

    实用的代理ip推荐,很多人都对代理IP的使用存在一些疑惑,也不知道使用哪家的代理IP会好些,花钱买东西自然是想要质量好的,价格低的,也就是性价比要高,讲究的实用性。