收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫遇到IP限制和访问时间间隔限制,如何处理?
来源:互联网 作者:admin 时间:2019-02-25 17:41:05

  网站的反爬虫是限制爬虫采集的最大对手,如果不能绕过对方的防线,这是肯定采集不到什么数据的。因此,我们在编写爬虫之时,就要主要壮大我们的爬虫,否则闯不过去。


  一般上来说,没有过去的道,就看你能付出到少的代价,面对这些反爬虫,爬虫可以借助各方面的力量来伪装自己:


爬虫遇到IP限制和访问时间间隔限制,如何处理?


  1.使用代理IP破解IP限制


  对于一些保存重要信息的网站,它的反爬技术会比较严密,它会严苛检查每一个IP的请求操作,然后对于可能是异常的请求,返回某一页面给对应请求或是提示需要登录信息等等甚至可能把相应的IP拉入黑名单。


  这个时候我们可能就需要代理IP来隐藏我们的身份,以及通过更换IP来达到不断爬取数据的目的。


  那么这些代理IP要从哪儿获取呢?如果你百度,其实会有蛮多免费代理IP的网站,里面会有很多的代理IP,但是不要太开心,因为这里的代理IP大都不稳定甚至失效(不然为什么那么多都要钱呢),所以当你批量爬下来代理IP后,还需要再单独写一个程序,去利用每一个IP请求一个一定有的网站,例如百度,如果这个IP的requests.get(‘http://www.baidu.com‘, proxies = proxy)(这里的proxy就是你的IP地址)访问成功了,才能说明这个IP是可用的。


  当然,如果有成本,可以尝试使用付费代理IP,因为这样获得的IP会稳定很多,比如使用智连代理,可用的IP数量多,质量也好,当然会节省很多时间,还能提高爬虫的效率。不然就只能苦哈哈的先去采集检测IP再使用,还会经常报错,心情都不美丽了。


  2.调用time.sleep()函数破解间隔时间限制


  通常对于某些网站,在我们发送请求后,因为访问速度过快,网页会很快发现我们的IP地址在一段时间内,多次像页面发送请求。对于一般的网站,它的反爬技术很可能就是利用公式计算某一IP地址在一段时间内发送请求的次数,因为一个正常人,在一定时间的请求都是有限的。


  所以,对于这种情况,我们可以简单的尝试在爬虫的过程中,对我们的程序进行适当的延时,调用time.sleep()函数。这样既不会过快的访问网页,对对方的服务器产生严重的垃圾和负担,也可以防止程序被迫中止。


  举一个例子就是,当初我们尝试封锁IP破解的时候(接下来我说到),我找到了一个免费代理IP的地址,于是我就要想办法批量的把IP地址爬下来,然后在进行测试,因为免费的代理IP大都性能不好或者已经不能用了。这个时候当我第一次爬的时候,没有爬完一页程序就被迫中止了,(因为返回的页面内容变了),我就知道遇到了反爬,那么我首先尝试的就是利用时间延时,方法就是调用time.sleep()函数,并把延迟时间定为3s,没想到程序就顺利运行了,成功的爬了10页的代理IP地址。


  所以在遇到反爬时,如果你觉得你访问的页面是一般网站,不是那种存着比较重要信息的网站,可以首先尝试利用时间延时。


  以上主要介绍了爬虫遇到IP限制,以及访问时间间隔限制问题时如何处理的方法。合理的利用各种工具来伪装自己,可以帮助爬虫顺利的躲过检测,并能完成采集任务。


推荐阅读
  • 15 2018-12
    怎么把新网站做到首页,最快多久可以优化到首页

    一个网站从搭建到排名首页,需要花不少的时间,如果优化工作没有做好,所花的时间会更长。那么怎么把新网站做到首页?有什么技巧呢?

  • 04 2019-02
    网站经常使用三种反爬虫,突破方法分享

    通常网站都设置非常多的反爬虫,这是为了防止恶意爬虫的采集,因为这会影响网站的运营。当然,爬虫是不会怕的,只要技术到位,舍得花钱,没有爬不了的网站,为什么这么说呢?

  • 22 2019-08
    代理IP有什么作用与好处?

    代理IP有什么作用与好处?IP代理可以隐藏我们真实的IP地址,保护隐私安全,还可以保证访问速度。一般做推广工作常常会用到IP代理,因为隐藏真实IP地址在推广工作中十分有用。

  • 20 2019-03
    企业利用IP代理让爬虫采集什么数据?

    进入大数据以来,各行各业都逐渐应用了大数据,通过数据的变化,可以知道行业发展情况,并做出调整,那么企业利用IP代理让爬虫采集什么数据?毕竟数据并不一定都能产生价值的,何必花

  • 22 2019-06
    网站排名被超能用代理IP刷回来吗

    网站排名被超能用代理IP刷回来吗?关键词排名是比较激烈的,平常波动比较大的,稍不注意,可能很多关键词就掉排名了,怎么才能让关键词排名升回来呢?或者是稳定关键词排名呢?能不能

  • 17 2019-06
    切换ip软件能否保障安全

    现在网络很容易就暴露了自己的一些信息,大家也可能会担心使用一些软件会不会过分的泄露信息的,切换ip软件能否保障安全,对于自己的隐私,自然是想要保护好的。