收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
如何合理的控制爬虫采集速度
来源:互联网 作者:admin 时间:2019-02-25 17:23:10

  对于爬虫的速度,并不是越快越好的,采集的速度越快,越是容易被发现,也就是说越容易被封。那么如何避免这个问题呢?如何合理的控制爬虫采集速度?


  我们首先来了解下关于爬虫采集速度过快会导致什么问题:


  1.对于我们来说,抓取速度太快将导致致服务器禁止访问,从而丢失大量有效数据,甚至需要重新抓取。


  2.如果速度太快,将给服务器造成过大的负载;控制采集速度,对于目标网站来说是一种礼貌。


  那么如何合理的控制爬虫采集速度,才能使它不至于太快呢?


  通常情况下,在每个页面抓取之间设定较大的延时等待以限制最大访问频率,可以保证既不会给服务器造成过重负担,也不会因访问太频繁而被服务器禁止,然而这样的方法将导致网络利用率低,抓取速度慢,对于大量网页的抓取任务来说,往往是无法忍受的。


如何合理的控制爬虫采集速度


  上图是一个简化的理想模型,可以很好的说明这个问题,假设某网站允许的最大访问频率为6页/分钟,于是最小时间间隔为10s,这个时间要通过很多次重复试验来确定。网络流畅时每个网页读取时间为0.5s,为了保证不被服务器屏蔽,至少要等待9.5s的间隔时间才继续抓取下一个页面,这个9.5s的间隔时间是固定的,即使网络较差时也要等待这么长的时间。网络较差时,网页读取时间为9.5s,再延时等待9.5s,于是每个网页的读取时间变为19s,几乎是网络流畅时的两倍。而实际上网络较差时的理想情况下,只需要等待0.5s,这时便保持和网络流畅时相同的抓取速度,由此可见这种限制最大速度的方法是很低效的。


  另外延时等待时间对抓取频率的影响是很模糊的,延时1s时抓取频率是100页/分钟,那么延时10s就是10页/分钟吗?很难确定,尤其是在复杂的网络环境中。


  要改进上述方法,一种很自然的解决方案就是:使等待时间动态变化,即等于最小时间间隔减去网页读取时间,这样就能保证网页平均抓取时间在网络流畅和网络较差时都为最小时间间隔。这种方法对于单线程的爬虫访问小规模网站来说也许可行,但在多线程分布式的爬虫访问大规模网站时,整体上的抓取时间由许多并行的抓取任务共同决定,并且各种异常情况(页面无效或者连接超时)使得抓取时间更加不可计算,这种方法就显得相当笨拙了。


  综合考虑各种因素,显然我们需要一种模糊的,不需要精确计算的方法来控制爬虫抓取速度,而且这个速度是很直观的以频率(页/分钟)来表示——PID控制算法就是其中一种。PID控制器控制爬虫速度的原理简单来说就是:速度快了,增加延时时间;速度慢了,减小延时时间。


  以上介绍了关于如何合理的控制爬虫采集速度的问题,既然不能快速采集,那么爬虫是如何提高效率的呢?可以使用代理IP,更换IP,即可以持续采集,比如使用智连代理。还可以使用多线程,多进程,这样肯定是比单线程采集更快的。


推荐阅读
  • 23 2019-08
    ip代理主要有哪些功能?

    ip代理主要有哪些功能?ip代理是一种重要的服务器安全功能,从性质上来看这是一种特殊的网络服务主要起到一个中转站的作用,通俗点说就是家里的门出不去,只能通过窗户翻到邻居家,再从

  • 14 2019-11
    免费代理ip​是否安全?

    免费代理ip​是否安全?很多实用ip代理的朋友不免有疑惑,市面上免费的代理ip的安全性是否可靠?对日后的使用有没有什么影响?这都是正常的疑问。 那下面智连代理就给大家简单的说一下

  • 20 2019-05
    代理IP助力营销推广

    代理IP助力营销推广,是做网站推广必不可少的资源之一,尤其是一些需要换IP的平台推广,比如智连代理。如果不使用代理,容易被限制住,当IP来时被限制时,该怎么办呢?自然是要使用代理

  • 04 2020-02
    关于ip代理的入门介绍

    现在想要进行换ip,可以有很多不同的操作,其中使用换ip软件,即代理ip,是一种最为简单、方便、直接的途径。只需要通过换ip软件,就能够做到只能转换。

  • 03 2019-09
    高匿代理ip能查到源ip吗?

    高匿代理ip能查到源ip吗?代理IP​分为透明代理IP、匿名代理IP、高匿代理IP,我们都知道只有使用高匿名代理IP才可以实现完全隐藏真实IP地址。那么使用高匿代理IP之后,对方就完全没法子查到

  • 08 2019-07
    代理IP能提高网站的点击量

    代理IP能提高网站的点击量,网站是要看点击量的,因为点击量也会影响收录情况,进而影响到关键词的排名,为什么呢?