收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么伪装成浏览器
来源:pdstar 作者:admin 时间:2018-12-12 17:32:32

    爬虫在获取数据的过程中,都会遇到网站的反爬虫机制,那么如何伪装好自己,别让对方知道你是一个爬虫呢?这就需要伪装,一个爬虫也可以伪装用户。因为爬虫的许多信息都可以伪装的,比如伪装成浏览器获取数据,本文为大家介绍一下爬虫怎么伪装成浏览器


    1.爬取目标方法


    对于网站url为http协议的,我们可以直接通过urlopen()直接爬取


    例如:


爬虫怎么伪装成浏览器


    爬取结果为


爬虫怎么伪装成浏览器


    2.被识别为爬虫


    但当我们要爬url为https协议的网站,就会返回403错误或报其它错误。这是因为对方服务器识别出是爬虫,把我们屏蔽了。


    例如把url换成"https://www.qiushibaike.com/"? 则python会报错如下图:


爬虫怎么伪装成浏览器


    3.伪装方法


    通过模拟浏览器登陆来实现伪装。即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。


    原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去:


    from urllib import request


    #爬嗅事百科


    url='https://www.qiushibaike.com/'


    #写入User-Agent,采用字典形式


    head={}


    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'


    #创建Request对象并添加heads


    req=request.Request(url,headers=head)


    #传入创建好的Request对象


    response=request.urlopen(req)


    #读取响应信息并解码


    html=response.read().decode('utf-8')


    #打印爬到的信息


    print(html)



推荐阅读
  • 22 2019-03
    网络攻击者使用了代理IP,是否可以追踪到对方的真实IP?

    网络攻击无时无刻不存在,很多攻击者都使用了代理IP,那么我们是否可以追踪到对方的真实IP呢?能否找到对方的位置信息?

  • 25 2019-11
    更换IP​的常见方法!

    更换IP​的常见方法!换IP是很多用户在上网的过程中都有过的需求,例如浏览网站浏览太频繁、发帖、网络营销、爬虫数据等等。换IP的方式也有很多,现在常见的是代理IP,其实还有很多方式可

  • 28 2019-04
    代理IP极速解决刷流量、数据采集、养号的IP限制问题

    代理IP极速解决刷流量、数据采集、养号的IP限制问题,如果没有代理IP,很多事情都不能完善的处理,因此代理IP适用于很多的行业,关于IP限制的问题,都可以使用代理IP的,比如:

  • 19 2019-08
    ip代理有什么样的功能可以干什么

    ip代理有什么样的功能可以干什么?网络现在已经是我们生活和工作中不能缺少的一部分,除了日常的娱乐灌水,很多的工作也是需要网络才可以完成,像问答推广、网络营销、数据采集等等,但

  • 01 2019-07
    一款合适的ip修改器

    一款合适的ip修改器,这是比较难找的?很多的ip修改器总是有各种各种的缺点,或者是不满足用户的需求。也不是说价格贵就一定适合了的,那么怎样的才是适合的呢?

  • 10 2019-10
    ip代理软件​能为我们做什么?

    ip代理软件​能为我们做什么?ip代理在我们的日常工作和生活中出现的频率越来越高,很多人都喜欢使用ip代理来辅助自己的工作开展,以前人们都是通过手动更改ip地址来进行ip代理,现在ip代