收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
不用代理IP,设置延时访问怎么破不了限制?
来源:互联网 作者:admin 时间:2019-04-03 18:00:00

  很少看到网站没有限制的,为了采集数据,网络爬虫有什么招数?网站虽然有限制访问频率,但是我们是否可以通过设置延时访问来解决问题呢?这样降低了访问频率,不高于阈值,这总不用被封了吧。


  对于一般的网站,它的反爬技术很可能就是利用公式计算某一IP地址在一段时间内发送请求的次数,因为一个正常人,在一定时间的请求都是有限的。


  所以,对于这种情况,我们可以简单的尝试在爬虫的过程中,对我们的程序进行适当的延时,调用()函数。这样既不会过快的访问网页,对对方的服务器产生严重的垃圾和负担,也可以防止程序被迫中止。


不用代理IP,设置延时访问怎么破不了限制?


  比如说,当初我们尝试封锁IP破解的时候(接下来我说到),我找到了一个免费代理IP的地址,于是我就要想办法批量的把IP地址爬下来,然后在进行测试,因为免费的代理IP大都性能不好或者已经不能用了。这个时候当我第一次爬的时候,没有爬完一页程序就被迫中止了,(因为返回的页面内容变了),我就知道遇到了反爬,那么我首先尝试的就是利用时间延时,方法就是调用()函数,并把延迟时间定为3s,没想到程序就顺利运行了,成功的爬了10页的代理IP地址。


  因此,如果我们遇到反爬,访问的页面是一般网站,不是那种存着比较重要信息的网站,可以首先尝试利用时间延时。


  但是如果遇到反爬比较严的网站,这一套就不怎么管用了,还需要更换IP地址才行。因为同一IP地址,固定频率来访问,人也无法那么的精准,这等于告诉服务器,这是有问题的。


  另外呢,如果设置了延时访问,不使用代理IP,这速度提不上来,结果自然不美丽了。这也就失去了采集数据的作用,毕竟数据都是有时效性的,采集慢,这数据自然没有什么价值了。


  因此,即使设置延时访问能不被限制,但也没有什么意义了。大规模的采集还是少不了代理IP的。


相关文章内容简介
推荐阅读
  • 05 2020-05
    玩游戏要不掉线,代理ip效果明显

    网络游戏市场在不断发展,随着电竞行业的市场化,现在很多职业玩家以及个人玩家对游戏的追求是比较高的,而且投入的时间也更多。那么,如果我们想要玩游戏多开不掉线,可以怎么做呢?

  • 22 2019-10
    如何选择代理IP软件​呢?

    如何选择代理IP软件​呢?给大家科普一下,对于电脑来说,每时每刻、每台电脑都有一个唯一的IP地址,这个地址的作用就是用来确定这台电脑的位置。用ADSL等方式拨号上网的时候,每一次拨号

  • 22 2019-08
    高匿代理ip是什么意思?

    高匿代理ip是什么意思?现在在网上经常看到代理IP这个词汇,对于很多网络营销人员来说代理IP是在熟悉不过的了,但是代理IP当中又分为很多类,其中最受人推崇的高匿代理ip是什么意思呢?

  • 05 2019-11
    怎样可以更换IP​地址?

    怎样可以更换IP​地址?目前ip地址除去专用公司需要的固定iP,一般的都为统一运营商分配的动态IP。有些时候因为某些特殊的原因,需要对自己的IP地址进行更换,那么我们可以用那些方法去更

  • 01 2019-11
    代理ip​都有哪些用处?

    代理ip​都有哪些用处?一般而言,普通人使用代理ip的频率不会有那么高,使用代理ip大多都是网络工作从业者,虽然说普通人接触代理ip的几率不大,但是我们也应该了解它的作用用途,以备不

  • 10 2019-01
    爬虫分布式抓取有什么优点

    大数据时代,需要收集对比的数据非常多,因此爬虫在收集数据时需要提高效率,不可能仅使用一个抓取程序,通常都是使用多个程序进行抓取,最常用的就是分布式爬取,那么爬虫分布式抓取