收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 20 2019-03
    企业利用IP代理让爬虫采集什么数据?

    进入大数据以来,各行各业都逐渐应用了大数据,通过数据的变化,可以知道行业发展情况,并做出调整,那么企业利用IP代理让爬虫采集什么数据?毕竟数据并不一定都能产生价值的,何必花

  • 21 2019-10
    怎样测试ip代理软件​的效果?

    怎样测试ip代理软件​的效果?代理ip对于互联网工作者的重要性相信不用多说了,市面上也涌现着越来越多的代理ip软件供大家选择,那么这么多的代理ip软件怎样才可以选到适合自己的哪一款?

  • 31 2019-12
    爬虫代理ip提高抓取效率

    数据是我们在信息智能时代最为关键的财富,不仅仅是互联网企业需要,传统企业也不能够离开数据的帮助。有价值的数据是能够帮助到我们在竞争中取得好成绩。

  • 24 2019-04
    代理IP让秒杀抢购更快人一步

    代理IP让秒杀抢购更快人一步,你没有抢到不是你网不好,也不是你手速不行,而且你还处于人的速度中,别人都使用机器抢了,不用一秒就抢光了,哪里还有你的事呢?

  • 01 2021-03
    网络常规改ip的使用

    随着网络的发展,ip在很多时候都会有很大的影响,特别是网络工作的过程中,改ip是常规的操作之一了。

  • 25 2019-09
    代理ip​可以匿名上网吗?

    代理ip​可以匿名上网吗?如今几乎每个人都听说过“ 匿名上网 ”,它允许访问网站,同时阻止任何人收集个人信息/或网络历史记录。嗯,至少在理论上是这样的,因为代理服务的质量不同。此

您好,当前有客服在线,请问有什么需要咨询的吗?