收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫用User-Agent可以绕过反爬虫
来源:互联网 作者:admin 时间:2019-02-21 16:35:10

    要想使用爬虫来获取数据,免不了要了解反爬虫的,如果不能绕过网站的反爬虫,这样无法爬取到大量的数据。那么爬虫要如何才能够绕过网站的反爬虫呢?


    网站设置的反爬虫比较多,就不一一详说了,这里以User-Agent为例,详细介绍下关于爬虫用User-Agent可以绕过反爬虫的知识点。


    我们首先要了解下User-Agent,中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站常常通过判断UA来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装UA可以绕过检测。浏览器向服务器发起请求的流程图,可以用下图表示:


爬虫用User-Agent可以绕过反爬虫


    这里以火狐浏览器和谷歌浏览器为例,UA的格式或者说表现形式是这样的:


爬虫用User-Agent可以绕过反爬虫


    User-Agent在网络请求中充当什么角色?


    在网络请求当中,User-Agent是标明身份的一种标识,服务器可以通过请求头参数中的User-Agent来判断请求方是否是浏览器、客户端程序或者其他的终端(当然,User-Agent的值为空也是允许的,因为它不是必要参数)。


爬虫用User-Agent可以绕过反爬虫


    浏览器的角色,如上图方框中所示,那么User-Agent的角色,就是表明身份。


    为什么反爬虫会选择User-Agent这个参数呢?


    从上面的介绍中,可以看出它是终端的身份标识。意味着服务器可以清楚的知道,这一次的请求是通过火狐浏览器发起的,还是通过IE浏览器发起的,甚至说是否是应用程序(比如Python)发起的。


    网站的页面、动效和图片等内容的呈现是借助于浏览器的渲染功能实现的,浏览器是一个相对封闭的程序,因为它要确保数据的成功渲染,所以用户无法从浏览器中大规模的、自动化的获取内容数据。


    而爬虫却不是这样的,爬虫生来就是为了获取网络上的内容并将其转化为数据。这是两种截然不同的方式,你也可以理解为通过编写代码来大规模的、自动化的获取内容数据,这是一种骚操作。


    选择User-Agent这个参数,是因为编程语言都有默认的标识,在发起网络请求的时候,这个标识在你毫不知情的情况下,作为请求头参数中的User-Agent值一并发送到服务器。比如Python语言通过代码发起网络请求时,User-Agent的值中就包含Python。同样的,Java和PHP这些语言也都有默认的标识。


    既然知道编程语言的这个特点,再结合实际的需求,那么反爬虫的思路就出来了。这是一中黑名单策略,只要出现在黑名单中的请求,都视为爬虫,对于此类请求可以不予处理或者返回相应的错误提示。

爬虫用User-Agent可以绕过反爬虫

    为什么用黑名单策略不用白名单策略?


    现实生活中,浏览器类型繁多(火狐浏览器、谷歌浏览器、360浏览器、傲游浏览器、欧普拉浏览器、世界之窗浏览器、QQ浏览器等),想要将所有的浏览器品牌、类型以及对应的标识收集并放到名单中,那是不实际的,假如漏掉了哪一种,那么对网站来说是一种损失。


    再者说来,很多的服务并不仅仅开放给浏览器,有些时候这些服务以API的形式向应用程序提供服务,比如安卓软件的后端API,为安卓软件程序提供数据服务,而软件本身只承担界面和结构的任务,而数据则从后端API获取。这个时候,发起的请求中,User-Agent就会变成Android。这就是不能使用白名单策略的原因。


    而黑名单在于简单,当你希望屏蔽来自于Python代码的请求或者来自于Java代码的请求时,只需要将其加入黑名单中即可。


    了解到这里,大家可以知道了为什么爬虫用User-Agent可以绕过反爬虫了。我们是使用User-Agent时,最好可以轮流使用不同的浏览器User-Agent,这样可以降低被发现的几率,否则全是同一种User-Agent肯定是由问题的。


推荐阅读
  • 17 2020-01
    代理ip对游戏玩家的好处

    代理ip不是用在需要换ip的场景中吗?怎么对于玩游戏的用户也有帮助呢?今天,我们跟着智连代理一起来看看到底ip代理能给游戏玩家带来什么好处?

  • 25 2019-09
    ip代理软件​有什么用吗?

    ip代理软件​有什么用吗?人们为了实现隐藏ip地址或者突破ip限制都会使用ip代理,通常人们都是获得一个ip代理地址后手动输入从而让ip变换,在实际的操作中如果每次都这么变换将会非常麻烦

  • 01 2019-11
    代理IP​如何区分类型?

    代理IP如何区分类型?代理ip运用在网络营销和爬虫方面非常广泛,是网络营销等工作密不可分的帮手。从保护使用代理用户IP的级别上分,代理可以分为高匿名代理、普通匿名代理和透明代理三

  • 04 2019-11
    代理ip服务器有哪些作用?

    代理ip服务器有哪些作用?代理ip​服务器是介于浏览器与web服务器之间代理服务器,可以代理我们去获取互联网信息。大家经常用在突破网络限制方面,如IP被封后,通过更换IP地址,可以继续去

  • 20 2019-11
    网络营销如何更改IP​地址?

    网络营销如何更改IP​地址?相比互联网工作者都会经常遇到需要换IP的情况,像python爬虫和在网络营销中注册多个账号等操作等等,都遇到过IP限制的问题,这个时候你是如何操作的呢?

  • 05 2019-07
    上网的ip被封换ip地址可行吗?

    上网的ip被封换ip地址可行吗?IP被封,常见于各种网络场景,举个例子: