收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么伪装成浏览器
来源:pdstar 作者:admin 时间:2018-12-12 17:32:32

    爬虫在获取数据的过程中,都会遇到网站的反爬虫机制,那么如何伪装好自己,别让对方知道你是一个爬虫呢?这就需要伪装,一个爬虫也可以伪装用户。因为爬虫的许多信息都可以伪装的,比如伪装成浏览器获取数据,本文为大家介绍一下爬虫怎么伪装成浏览器


    1.爬取目标方法


    对于网站url为http协议的,我们可以直接通过urlopen()直接爬取


    例如:


爬虫怎么伪装成浏览器


    爬取结果为


爬虫怎么伪装成浏览器


    2.被识别为爬虫


    但当我们要爬url为https协议的网站,就会返回403错误或报其它错误。这是因为对方服务器识别出是爬虫,把我们屏蔽了。


    例如把url换成"https://www.qiushibaike.com/"? 则python会报错如下图:


爬虫怎么伪装成浏览器


    3.伪装方法


    通过模拟浏览器登陆来实现伪装。即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。


    原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去:


    from urllib import request


    #爬嗅事百科


    url='https://www.qiushibaike.com/'


    #写入User-Agent,采用字典形式


    head={}


    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'


    #创建Request对象并添加heads


    req=request.Request(url,headers=head)


    #传入创建好的Request对象


    response=request.urlopen(req)


    #读取响应信息并解码


    html=response.read().decode('utf-8')


    #打印爬到的信息


    print(html)



推荐阅读
  • 26 2019-09
    为什么代理ip​会有白名单?

    为什么代理ip​会有白名单?一些购买了代理ip的小伙伴跟我反映,为什么在使用之前需要添加进白名单这么麻烦,直接使用多方便多快捷,先还得多做一步效率都变慢了,太不科学了。其实添加i

  • 25 2019-04
    切换IP地址用ADSL还是代理IP好?

    切换IP地址用ADSL还是代理IP好?有些人讲,我可以使用ADSL拨号换IP,何必花钱去用代理IP呢?不过使用ADSL有条件,看看你是否支持使用ADSL拨号换IP呢?

  • 09 2019-07
    修改ip重新登录能破除限制吗?

    修改ip重新登录能破除限制吗?有时候我们的ip地址被限制了怎么办呢?修改这个被封的ip,换其他的ip重新进行登陆怎么样?

  • 11 2019-11
    代理ip​介绍主流网络攻击手段!

    代理ip​介绍主流网络攻击手段!如今互联网时代虽然给我们带来了许多的方便,但是也导致了许多的灰色行当,例如网络攻击。黑客的威胁无处不在,不知不觉中你就可能中招了,知己知彼方能

  • 13 2020-02
    选择ip代理商家的硬实力要关注

    如果你是网络的重度使用者,那么代理ip这个词可能对于你而言并不是太陌生,因为在玩游戏、网络营销、网络推广、网络数据抓取、网络投票等方面,都会用到它。

  • 20 2018-12
    文章阅读量上不去怎么办,刷阅读量效果好吗

    不管是做自媒体还是做SEO优化,对有文章的阅读量都是有需求的,阅读量越高的文章能获得更好的排名,更多被浏览的机会,但文章阅读量上不去怎么办?如何提高文章的阅读量呢?

您好,当前有客服在线,请问有什么需要咨询的吗?