收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫用User-Agent可以绕过反爬虫
来源:互联网 作者:admin 时间:2019-02-21 16:35:10

    要想使用爬虫来获取数据,免不了要了解反爬虫的,如果不能绕过网站的反爬虫,这样无法爬取到大量的数据。那么爬虫要如何才能够绕过网站的反爬虫呢?


    网站设置的反爬虫比较多,就不一一详说了,这里以User-Agent为例,详细介绍下关于爬虫用User-Agent可以绕过反爬虫的知识点。


    我们首先要了解下User-Agent,中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站常常通过判断UA来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装UA可以绕过检测。浏览器向服务器发起请求的流程图,可以用下图表示:


爬虫用User-Agent可以绕过反爬虫


    这里以火狐浏览器和谷歌浏览器为例,UA的格式或者说表现形式是这样的:


爬虫用User-Agent可以绕过反爬虫


    User-Agent在网络请求中充当什么角色?


    在网络请求当中,User-Agent是标明身份的一种标识,服务器可以通过请求头参数中的User-Agent来判断请求方是否是浏览器、客户端程序或者其他的终端(当然,User-Agent的值为空也是允许的,因为它不是必要参数)。


爬虫用User-Agent可以绕过反爬虫


    浏览器的角色,如上图方框中所示,那么User-Agent的角色,就是表明身份。


    为什么反爬虫会选择User-Agent这个参数呢?


    从上面的介绍中,可以看出它是终端的身份标识。意味着服务器可以清楚的知道,这一次的请求是通过火狐浏览器发起的,还是通过IE浏览器发起的,甚至说是否是应用程序(比如Python)发起的。


    网站的页面、动效和图片等内容的呈现是借助于浏览器的渲染功能实现的,浏览器是一个相对封闭的程序,因为它要确保数据的成功渲染,所以用户无法从浏览器中大规模的、自动化的获取内容数据。


    而爬虫却不是这样的,爬虫生来就是为了获取网络上的内容并将其转化为数据。这是两种截然不同的方式,你也可以理解为通过编写代码来大规模的、自动化的获取内容数据,这是一种骚操作。


    选择User-Agent这个参数,是因为编程语言都有默认的标识,在发起网络请求的时候,这个标识在你毫不知情的情况下,作为请求头参数中的User-Agent值一并发送到服务器。比如Python语言通过代码发起网络请求时,User-Agent的值中就包含Python。同样的,Java和PHP这些语言也都有默认的标识。


    既然知道编程语言的这个特点,再结合实际的需求,那么反爬虫的思路就出来了。这是一中黑名单策略,只要出现在黑名单中的请求,都视为爬虫,对于此类请求可以不予处理或者返回相应的错误提示。

爬虫用User-Agent可以绕过反爬虫

    为什么用黑名单策略不用白名单策略?


    现实生活中,浏览器类型繁多(火狐浏览器、谷歌浏览器、360浏览器、傲游浏览器、欧普拉浏览器、世界之窗浏览器、QQ浏览器等),想要将所有的浏览器品牌、类型以及对应的标识收集并放到名单中,那是不实际的,假如漏掉了哪一种,那么对网站来说是一种损失。


    再者说来,很多的服务并不仅仅开放给浏览器,有些时候这些服务以API的形式向应用程序提供服务,比如安卓软件的后端API,为安卓软件程序提供数据服务,而软件本身只承担界面和结构的任务,而数据则从后端API获取。这个时候,发起的请求中,User-Agent就会变成Android。这就是不能使用白名单策略的原因。


    而黑名单在于简单,当你希望屏蔽来自于Python代码的请求或者来自于Java代码的请求时,只需要将其加入黑名单中即可。


    了解到这里,大家可以知道了为什么爬虫用User-Agent可以绕过反爬虫了。我们是使用User-Agent时,最好可以轮流使用不同的浏览器User-Agent,这样可以降低被发现的几率,否则全是同一种User-Agent肯定是由问题的。


推荐阅读
  • 14 2020-01
    adsl换ip还是ip代理换ip好?

    互联网操作中,我们经常会遇到一些难题,其中有很多问题都会与ip有关系,因为ip地址是我们连接互联网的桥梁。今天我们来一起了解一下ip的切换。

  • 01 2019-03
    使用HTTPS有什么优势?为什么HTTPS的普及率不高?

    对于HTTP和HTTPS,只要上网的人基本都是认识的,看起来HTTPS只是比HTTP多了一个“S”,但实际上并不是那么简单的。HTTPS可以说是HTTP的安全版,从这一点上来看,大家应该都会选择使用HTTPS的,但

  • 19 2019-11
    ip代理软件​的主要的功能有什么?

    ip代理软件​的主要的功能有什么?代理服务器英文全称是(Proxy Server),也叫做代理IP,其功能就是代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。代理服务器就好象一个大的Ca

  • 14 2019-01
    选用代理IP,独享IP比共享IP好用吗?

    如今互联网电商时代全面打开,很多的人资金投入到互联网营销中,这也促进了代理IP行业的发展,在某些互联网业务中,抢购、注册、投票、数据采集等都是使用代理IP。

  • 16 2019-08
    ip代理软件有什么好处?

    ip代理软件有什么好处?代理IP就是代理服务器,其功能就是代理网络用户去取得网络信息。

  • 08 2020-05
    找换ip服务选择代理服务器

    用电脑上网如果遇到需要更换ip地址的情况,比方说你不希望自己的本地ip被别人知道,那么你可以选择用一个代理ip来伪装。