收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
目前爬虫经常遇到的限制有哪些
来源:互联网 作者:admin 时间:2018-11-27 17:33:58

    以前网站都多爬虫非常的友好,但随着时间的发展,爬虫被应用于许多场景,比如有些人利用爬虫采集对方大量数据,通过分析,挖掘有价值的信息,并与对方进行商业竞争;也有是因为出于安全考虑,因此现在大部分的网站都设置了反爬机制,这给爬虫增加了许多难度,下面智连代理带大家去了解下目前爬虫经常遇到的限制有哪些。


    1.IP限制问题


    这是目前对后台爬虫中最致命的。网站的防火墙会对某个固定ip在某段时间内请求的次数做限制,如果没有超过上线则正常返回数据,超过了,则拒绝请求,如qq 邮箱。


    值得说明的是,ip限制有时并非是专门为了针对爬虫的,而大多数时候是出于网站安全原因针对DOS攻击的防御措施。后台爬取时机器和ip有限,很容易达到上线而导致请求被拒绝。目前主要的应对方案是使用代理,这样一来ip的数量就会多一些,但是建议选用安全高效的代理IP,保证数据安全。


    比如使用智连代理,智连代理是一款可以自动切换IP的软件,有全国上百的城市IP节点,每天可以提供几万的IP,上千万的IP资源,满足用户频繁换IP的需求。所有IP均为高匿名,可以隐藏用户真实IP,更加安全。


爬虫经常遇到的限制有哪些


    2.Javascript解析问题


    如前文所述,javascript可以动态生成dom。目前大多数网页属于动态网页(内容由javascript动态填充),尤其是在移动端,SPA/PWA应用越来越流行,网页中大多数有用的数据都是通过ajax/fetch动态获取后然后再由js填充到网页dom树中,单纯的html静态页面中有用的数据很少。


    目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url ,但是还有一些ajax的请求参数会依赖一段javascript动态生成,比如一个请求签名,再比如用户登陆时对密码的加密等等。


    如果一昧的去用后台脚本去干javascript本来做的事,这就要清楚的理解原网页代码逻辑,而这不仅非常麻烦,而且会使你的爬取代码异常庞大臃肿,但是,更致命的是,有些javascript可以做的事爬虫程序是很难甚至是不能模仿的,比如有些网站使用拖动滑块到某个位置的验证码机制,这就很难再爬虫中去模仿。


    其实,总结一些,这些弊端归根结底,是因为爬虫程序并非是浏览器,没有javascript解析引擎所致。针对这个问题,目前主要的应对策略就是在爬虫中引入Javascript 引擎,如PhantomJS,但是又有着明显的弊端,如服务器同时有多个爬取任务时,资源占用太大。


    还有就是,这些 无窗口的javascript引擎很多时候使用起来并不能像在浏览器环境中一样,页面内部发生跳转时,会导致流程很难控制。


    3.交互问题


    有些网页往往需要和用户进行一些交互,进而才能走到下一步,比如输入一个验证码,拖动一个滑块,选几个汉字。网站之所以这么做,很多时候都是为了验证访问者到底是人还是机器。


    而爬虫程序遇到这种情况很难处理,传统的简单图片验证码可以通过图形处理算法读出内容,但是随着各种各样,花样百出,人神共愤的、变态的验证码越来越多(尤其是买火车票时,分分钟都想爆粗口),这个问题就越来越严重。


    以上介绍了三个爬虫经常遇到的限制,每天网站的反爬虫机制都不一样,建议在抓取数据时,要尽可能的伪装好自己是个爬虫的事实,不然分分钟被封。


推荐阅读
  • 19 2019-09
    代理IP如何保证爬虫稳定运行?

    代理IP如何保证爬虫稳定运行?使用爬虫代理IP​的最佳方案是用智连代理动态VPS在服务器上维护一个IP池,这样才能更有效的保障爬虫工作的高效稳定持久的运行,那么如何通过代理IP保证爬虫程

  • 17 2019-09
    爬虫代理IP​从哪里来的?

    爬虫代理IP​从哪里来的?随着互联网的迅猛发展,爬虫工作日益重要,而爬虫工作者一般都绕不过代理IP这个问题,为什么呢,这是因为在网络爬虫抓取信息的过程中,抓取频率高过了目标网站

  • 30 2019-07
    怎么判断代理ip资源质量?

    怎么判断代理ip资源质量?选择租用代理ip之前,分析一下市场情况,这是很有必要的。我们需要断商家产品质量,这需要对产品进行检测,即对ip进行检测,检测其使用效果,若是效果不符合即

  • 08 2019-10
    代理ip​按匿名度怎么区分?

    代理ip​按匿名度怎么区分?我们都知道代理ip有这许多的分类,这些分类按不同的类型有着不同的分类,比如按服务器分,按返回类型分,今天就来为大家讲讲代理ip按匿名度应该怎么分类?

  • 20 2019-09
    爬虫代理ip​被封原因有哪些?

    爬虫代理ip​被封原因有哪些?爬虫工作者在用代理IP爬虫的时候都会因为一些奇奇怪怪的原因突然被封,明明运行的好好的,怎么就突然停止抓取了。这时候,要么就是触发了网站的反爬机制要

  • 15 2019-10
    爬虫采集需要注意什么?

    爬虫采集需要注意什么?在大数据时代,利用代理ip​进行爬虫采集数据已经很普遍了,我们在工作上的许多业务都需要利用爬虫和代理ip来辅助,通过数据来分析和决定下一步的战略目标,那么