收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么伪装成浏览器
来源:pdstar 作者:admin 时间:2018-12-12 17:32:32

    爬虫在获取数据的过程中,都会遇到网站的反爬虫机制,那么如何伪装好自己,别让对方知道你是一个爬虫呢?这就需要伪装,一个爬虫也可以伪装用户。因为爬虫的许多信息都可以伪装的,比如伪装成浏览器获取数据,本文为大家介绍一下爬虫怎么伪装成浏览器


    1.爬取目标方法


    对于网站url为http协议的,我们可以直接通过urlopen()直接爬取


    例如:


爬虫怎么伪装成浏览器


    爬取结果为


爬虫怎么伪装成浏览器


    2.被识别为爬虫


    但当我们要爬url为https协议的网站,就会返回403错误或报其它错误。这是因为对方服务器识别出是爬虫,把我们屏蔽了。


    例如把url换成"https://www.qiushibaike.com/"? 则python会报错如下图:


爬虫怎么伪装成浏览器


    3.伪装方法


    通过模拟浏览器登陆来实现伪装。即通过设置User-Agent的方式来达到隐藏爬虫身份的目的。


    原理:User-Agent存放于Headers中,服务器就是通过查看Headers中的User-Agent来判断是谁在访问的。


    我们可以通过chrome的审查元素功能来查看User-Agent,然后添加进去:


    from urllib import request


    #爬嗅事百科


    url='https://www.qiushibaike.com/'


    #写入User-Agent,采用字典形式


    head={}


    head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'


    #创建Request对象并添加heads


    req=request.Request(url,headers=head)


    #传入创建好的Request对象


    response=request.urlopen(req)


    #读取响应信息并解码


    html=response.read().decode('utf-8')


    #打印爬到的信息


    print(html)



推荐阅读
  • 21 2019-09
    代理ip​能否隐藏自身的真实ip?

    代理ip​能否隐藏自身的真实ip?代理ip的作用越来越巨大,有用来抓取数据分析的;有用来进行网络推广的;还有用来保护自身安全的,在某些时候我们需要隐藏自己的真实IP地址,这时候就有很多

  • 27 2019-12
    代理服务器不等于路由器

    代理服务器跟路由器是不一样的,很多人以为代理服务器就是跟路由器一样的使用。其实还真是区别大了,不然也不会有换ip软件的诞生。下面我们来看看代理服务器的说明。

  • 06 2019-10
    网络推广用什么ip代理​好?

    网络推广用什么ip代理​好? 网络推广工作最常见的问题就是遇到IP限制,现在网站都有限制,来规范操作。对于IP限制,现在已经有了很好用的换IP软件,那就是代理IP,可以解决IP限制带来的问

  • 04 2020-01
    ip代理服务的优势亮点

    网络营销已经成为了一大主流业务,无论是什么行业,现在都需要借助网络的力量来进行推广。而想要推广有质量,能够传达到更多的地方,那么我们需要技巧与工具的帮助。

  • 16 2019-06
    用换IP工具极速帮电脑换ip地址

    用换IP工具极速帮电脑换ip地址,这样做营销更有效果的。比如:淘宝属于最早开始的大面积的网络营销,在淘宝之后,这几年网络营销行业发展越来越壮大。但是最近几年兴起的网络营销行业

  • 22 2019-10
    如何选择代理IP软件​呢?

    如何选择代理IP软件​呢?给大家科普一下,对于电脑来说,每时每刻、每台电脑都有一个唯一的IP地址,这个地址的作用就是用来确定这台电脑的位置。用ADSL等方式拨号上网的时候,每一次拨号