收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫用User-Agent可以绕过反爬虫
来源:互联网 作者:admin 时间:2019-02-21 16:35:10

    要想使用爬虫来获取数据,免不了要了解反爬虫的,如果不能绕过网站的反爬虫,这样无法爬取到大量的数据。那么爬虫要如何才能够绕过网站的反爬虫呢?


    网站设置的反爬虫比较多,就不一一详说了,这里以User-Agent为例,详细介绍下关于爬虫用User-Agent可以绕过反爬虫的知识点。


    我们首先要了解下User-Agent,中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站常常通过判断UA来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装UA可以绕过检测。浏览器向服务器发起请求的流程图,可以用下图表示:


爬虫用User-Agent可以绕过反爬虫


    这里以火狐浏览器和谷歌浏览器为例,UA的格式或者说表现形式是这样的:


爬虫用User-Agent可以绕过反爬虫


    User-Agent在网络请求中充当什么角色?


    在网络请求当中,User-Agent是标明身份的一种标识,服务器可以通过请求头参数中的User-Agent来判断请求方是否是浏览器、客户端程序或者其他的终端(当然,User-Agent的值为空也是允许的,因为它不是必要参数)。


爬虫用User-Agent可以绕过反爬虫


    浏览器的角色,如上图方框中所示,那么User-Agent的角色,就是表明身份。


    为什么反爬虫会选择User-Agent这个参数呢?


    从上面的介绍中,可以看出它是终端的身份标识。意味着服务器可以清楚的知道,这一次的请求是通过火狐浏览器发起的,还是通过IE浏览器发起的,甚至说是否是应用程序(比如Python)发起的。


    网站的页面、动效和图片等内容的呈现是借助于浏览器的渲染功能实现的,浏览器是一个相对封闭的程序,因为它要确保数据的成功渲染,所以用户无法从浏览器中大规模的、自动化的获取内容数据。


    而爬虫却不是这样的,爬虫生来就是为了获取网络上的内容并将其转化为数据。这是两种截然不同的方式,你也可以理解为通过编写代码来大规模的、自动化的获取内容数据,这是一种骚操作。


    选择User-Agent这个参数,是因为编程语言都有默认的标识,在发起网络请求的时候,这个标识在你毫不知情的情况下,作为请求头参数中的User-Agent值一并发送到服务器。比如Python语言通过代码发起网络请求时,User-Agent的值中就包含Python。同样的,Java和PHP这些语言也都有默认的标识。


    既然知道编程语言的这个特点,再结合实际的需求,那么反爬虫的思路就出来了。这是一中黑名单策略,只要出现在黑名单中的请求,都视为爬虫,对于此类请求可以不予处理或者返回相应的错误提示。

爬虫用User-Agent可以绕过反爬虫

    为什么用黑名单策略不用白名单策略?


    现实生活中,浏览器类型繁多(火狐浏览器、谷歌浏览器、360浏览器、傲游浏览器、欧普拉浏览器、世界之窗浏览器、QQ浏览器等),想要将所有的浏览器品牌、类型以及对应的标识收集并放到名单中,那是不实际的,假如漏掉了哪一种,那么对网站来说是一种损失。


    再者说来,很多的服务并不仅仅开放给浏览器,有些时候这些服务以API的形式向应用程序提供服务,比如安卓软件的后端API,为安卓软件程序提供数据服务,而软件本身只承担界面和结构的任务,而数据则从后端API获取。这个时候,发起的请求中,User-Agent就会变成Android。这就是不能使用白名单策略的原因。


    而黑名单在于简单,当你希望屏蔽来自于Python代码的请求或者来自于Java代码的请求时,只需要将其加入黑名单中即可。


    了解到这里,大家可以知道了为什么爬虫用User-Agent可以绕过反爬虫了。我们是使用User-Agent时,最好可以轮流使用不同的浏览器User-Agent,这样可以降低被发现的几率,否则全是同一种User-Agent肯定是由问题的。


推荐阅读
  • 05 2019-08
    哪个隐藏IP工具能一键切换IP地址

    哪个隐藏IP工具能一键切换IP地址?众所周知,以目前的互联网大环境来看,在某种情况下其实我们并不是特别自由。

  • 17 2020-02
    用代理ip多注册账号方便网络推广

    代理ip可以帮助到大家更好的换ip,只需要简单的操作就能够实现ip切换的功能,比起自己手动来进行ip的更换,更加的方便好用,而且使用匿名程度高的ip也不会那么容易被监测到。

  • 03 2018-12
    用共享IP好还是独享IP好?独享IP和共享IP区别

    现在许多场景都需要用到代理IP,通过换IP提高工作效率,达到更好的效果。比如发帖、爬虫、投票等等。那么使用代理IP,是用共享IP好还是独享IP好?二者有什么区别呢?

  • 25 2019-06
    手机ip地址怎么修改?

    手机ip地址怎么修改?手机现在用的人也多,普及度比电脑还厉害,所有手机的各类APP也是非常多的,如果想要换个IP,麻不麻烦呢?

  • 23 2019-04
    挂机经常掉线,是因为ip代理的原因吗?

    挂机经常掉线,是因为ip代理的原因吗?到底是ip代理不好用,还是说是挂机软件的原因呢?带着疑问跟小编一起去探讨下。

  • 30 2019-05
    IP加速器对游戏起到什么作用

    IP加速器对游戏起到什么作用?我们平常玩游戏,可能会经常遇到游戏的延迟比较高,甚至有时候卡掉线的情况,或者卡顿之后丢包等等,总之多多少少都会影响游戏的体验,这该怎么好呢?