收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
常见的反网络爬虫以及突破方法
来源:互联网 作者:admin 时间:2019-01-19 16:41:14

    大家可能不知道,互联网中超过一半的流量是网络爬虫贡献的,若是网站不设置反爬虫机制,可能根本没法运营,于是都设置了各种各样的反爬虫机制,即使如此,网络爬虫还是有办法去突破。今天小编为大家介绍一些常见的反网络爬虫以及突破方法


    1.动态页面限制


    有的时候将目标页面抓取下来,发现关键的信息内容空白一片,只有框架代码,这是因为该网站的信息是通过用户Post的XHR动态返回内容信息,解决这种问题的方法就是通过开发者工具(FireBug等)对网站流进行分析,找到单独的内容信息request(如Json),对内容信息进行抓取,获取所需内容。


    更复杂一点的还有对动态请求加密的,参数无法解析,也就无法进行抓取。这种情况下,可以通过Mechanize,selenium RC,调用浏览器内核,就像真实使用浏览器上网那样抓取,可以最大限度的抓取成功,只不过效率上会打些折扣。


    经测试,用urllib抓取拉勾网招聘信息30页所需时间为三十多秒,而用模拟浏览器内核抓取需要2--3分钟。


常见的反网络爬虫以及突破方法


    2.用户行为检测


    还有一部分网站是通过检测用户行为,比如针对cookies,通过检查cookies来判断用户是否是有效用户,需要登录的网站常采用这种技术。更深入一点的还有,某些网站的登录会动态更新验证,如登录时,会随机分配用于登录验证的authenticity_token,authenticity_token会和用户提交的登录名和密码一起发送回服务器。


    3.限制IP访问频率


    有时候存在着一些恶意访问的情况,平台为了阻止这种情况的发生,当某个IP的访问在单位时间内超过一定的次数时,将禁止这个IP继续访问。


    对于这个限制IP访问频率,可以使用代理IP的方法来突破限制。网上有许多代理IP资源,因为免费代理IP基本上没有用,是需要花钱从代理IP商处购买IP使用的,像智连代理这样的代理IP商,IP数量多,价格低,能够顺利的突破平台的IP限制,提高工作效率。


    上文介绍了三种常见的反网络爬虫以及突破方法,通常来说,越是低级的爬虫,越容易被封锁,但是性能好,成本低;越是高级的爬虫,越难被封锁,但是性能低,成本也越高。当成本高到一定程度,我们就可以无需再对爬虫进行封锁。经济学上有个词叫边际效应。付出成本高到一定程度,收益就不是很多了。那么如果对双方资源进行对比,我们就会发现,无条件跟对方死磕,是不划算的。应该有个黄金点,超过这个点,那就让它爬好了。毕竟我们反爬虫不是为了面子,而是为了商业因素。


推荐阅读
  • 03 2019-06
    IP代理软件无效可以退款吗

    IP代理软件无效可以退款吗?一件商品,是无法做到人人都满意的,就像钱也是有人不喜欢的。同样,IP代理也会遇上这些问题,目前市场上IP代理软件不少,大家质量不一,有些时候这IP代理软

  • 28 2019-11
    怎样才能建立代理ip​池?

    怎样才能建立代理ip​池?对于网络爬虫来说,没有高质量和足够数量的代理ip将在采集过程当中寸步难行,在进行爬虫采集的时候通常会消耗大量的代理ip,为了能够更好的提高效率,许多爬虫

  • 23 2019-09
    ip代理​能保护我们的网络安全吗?

    ip代理​能保护我们的网络安全吗?随着时代的发展,互联网的不断进步,IP代理凭借它那可以隐藏真实ip的特点走进越来越多人的眼中,很多人都喜欢利用ip代理来保护自己的网络隐私安全,那么

  • 02 2019-12
    隐藏真实ip的方法!

    隐藏真实ip的方法!代理IP​是躲藏IP的一种办法,当用用户运用后,会给用户分配新的IP,当访问网络时也是经过这个新分配的IP去访问的。那么,用了代理IP还能被查到真实IP吗?

  • 30 2019-10
    代理ip​能不能优化关键词?

    代理ip​能不能优化关键词?很多网站在优化过程中用到过第三方工具,例如换IP工具,采用换IP工具优化排名,关键是利用不断的变换IP来浏览此网页,提高浏览量,让搜索引擎误认为是真实的用

  • 05 2019-01
    打码赚钱需要使用换IP工具吗?有什么区别?

    都说打码赚钱,这时一个网络兼职工作,这网上打码兼职可靠吗?从打码网赚兼职刚开始出现,就看见好多类似的评价,在网上的评价很多都是说打码辛苦,不挣钱的说法,这是真的吗?