收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
目前爬虫经常遇到的限制有哪些
来源:互联网 作者:admin 时间:2018-11-27 17:33:58

    以前网站都多爬虫非常的友好,但随着时间的发展,爬虫被应用于许多场景,比如有些人利用爬虫采集对方大量数据,通过分析,挖掘有价值的信息,并与对方进行商业竞争;也有是因为出于安全考虑,因此现在大部分的网站都设置了反爬机制,这给爬虫增加了许多难度,下面智连代理带大家去了解下目前爬虫经常遇到的限制有哪些。


    1.IP限制问题


    这是目前对后台爬虫中最致命的。网站的防火墙会对某个固定ip在某段时间内请求的次数做限制,如果没有超过上线则正常返回数据,超过了,则拒绝请求,如qq 邮箱。


    值得说明的是,ip限制有时并非是专门为了针对爬虫的,而大多数时候是出于网站安全原因针对DOS攻击的防御措施。后台爬取时机器和ip有限,很容易达到上线而导致请求被拒绝。目前主要的应对方案是使用代理,这样一来ip的数量就会多一些,但是建议选用安全高效的代理IP,保证数据安全。


    比如使用智连代理,智连代理是一款可以自动切换IP的软件,有全国上百的城市IP节点,每天可以提供几万的IP,上千万的IP资源,满足用户频繁换IP的需求。所有IP均为高匿名,可以隐藏用户真实IP,更加安全。


爬虫经常遇到的限制有哪些


    2.Javascript解析问题


    如前文所述,javascript可以动态生成dom。目前大多数网页属于动态网页(内容由javascript动态填充),尤其是在移动端,SPA/PWA应用越来越流行,网页中大多数有用的数据都是通过ajax/fetch动态获取后然后再由js填充到网页dom树中,单纯的html静态页面中有用的数据很少。


    目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url ,但是还有一些ajax的请求参数会依赖一段javascript动态生成,比如一个请求签名,再比如用户登陆时对密码的加密等等。


    如果一昧的去用后台脚本去干javascript本来做的事,这就要清楚的理解原网页代码逻辑,而这不仅非常麻烦,而且会使你的爬取代码异常庞大臃肿,但是,更致命的是,有些javascript可以做的事爬虫程序是很难甚至是不能模仿的,比如有些网站使用拖动滑块到某个位置的验证码机制,这就很难再爬虫中去模仿。


    其实,总结一些,这些弊端归根结底,是因为爬虫程序并非是浏览器,没有javascript解析引擎所致。针对这个问题,目前主要的应对策略就是在爬虫中引入Javascript 引擎,如PhantomJS,但是又有着明显的弊端,如服务器同时有多个爬取任务时,资源占用太大。


    还有就是,这些 无窗口的javascript引擎很多时候使用起来并不能像在浏览器环境中一样,页面内部发生跳转时,会导致流程很难控制。


    3.交互问题


    有些网页往往需要和用户进行一些交互,进而才能走到下一步,比如输入一个验证码,拖动一个滑块,选几个汉字。网站之所以这么做,很多时候都是为了验证访问者到底是人还是机器。


    而爬虫程序遇到这种情况很难处理,传统的简单图片验证码可以通过图形处理算法读出内容,但是随着各种各样,花样百出,人神共愤的、变态的验证码越来越多(尤其是买火车票时,分分钟都想爆粗口),这个问题就越来越严重。


    以上介绍了三个爬虫经常遇到的限制,每天网站的反爬虫机制都不一样,建议在抓取数据时,要尽可能的伪装好自己是个爬虫的事实,不然分分钟被封。


推荐阅读
  • 13 2020-02
    用高匿代理ip也会被发现?

    现在网络上,代理服务器的出现是越来越常见了,因为大家对于使用ip代理已经变成一件平常的事情了,不再是之前那样只是少部分人群才会利用到的换ip工具。

  • 05 2019-01
    市场上都有哪些换IP工具?vps、vpn、代理IP、pptp哪种好?

    针对某些需要换IP工作的人员而言,有几款适用自己的换IP软件是很有必要的。就譬如说,有的时候发帖子或者回答、回贴太频繁,网络平台就可以会对账户有些限制。

  • 14 2019-10
    请求http代理​协议的方法!

    请求http代理​协议的方法!http协议是指工作于客户端到服务端架构上,用于接收和返回web服务器请求的协议,通常web服务器接收到请求后都会进行协议解析并返回适当信息,所以如果http协议的

  • 28 2020-02
    用代理ip上对网络安全有何意义?

    我们每天都能够看到关于网络隐私泄露、个人信息被盗用的新闻,这让大家对于网络的安全使用有一个全新的认识,越来越多网友对于上网安全开始重视。

  • 28 2019-04
    代理IP极速解决刷流量、数据采集、养号的IP限制问题

    代理IP极速解决刷流量、数据采集、养号的IP限制问题,如果没有代理IP,很多事情都不能完善的处理,因此代理IP适用于很多的行业,关于IP限制的问题,都可以使用代理IP的,比如:

  • 12 2019-11
    ip代理​都有什么区别?

    ip代理​都有什么区别?在我们爬取某些网站的数据时都需要利用代理ip来变换ip地址,以达到逃避反爬虫机制检测的目的,那么我们在使用ip代理进行爬虫的时候,你又知不知道ip代理之间都有什