收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 06 2019-02
    哪个换IP软件价格低,效果还好用的?三种换IP软件效果对比

    有时我们需要隐藏自己的真实IP地址,或者通过借用他人的IP地址而绕过网络的屏蔽,这需要使用到代理服务器。不同的代理期具体作用是不一样的。

  • 23 2019-09
    代理ip​都有些什么用处?

    代理ip​都有些什么用处?虽然说代理ip在我们的生活中出现的评率越来越高,可是却很少人能够准确的说出代理ip都可以为我们提供什么功能,大多数人都只能说个大概,为了让大家能对代理ip有

  • 28 2019-01
    爬虫使用代理IP可以快速获取大量数据

    如今,大部分的人都离不开互联网,每天工作生活都给互联网增加大量的资料,但其中很多数据可能对于一些企业来说是无效的。

  • 30 2019-12
    https代理保护网络隐私安全

    互联网以网络互联为优势,但是在带来便捷的同时,也在滋生隐患,比如网络上面的信息盗窃、盗用现象屡禁不止,这是非常让用户担心的。

  • 30 2019-04
    爬虫代理找高匿名好还是不匿名好呢?

    爬虫代理找高匿名好还是不匿名好呢?什么是高匿名爬虫代理、匿名爬虫代理和透明爬虫代理?它们有什么区别?我们选择爬虫代理时,到底选择哪个比较好?

  • 12 2019-08
    看视频卡用代理IP降低延迟

    看视频卡用代理IP降低延迟!这样的方法你是否想过?使用过?我们在看视频的时候,经常会看着就卡住的问题,这该怎么解决?当我们看视频很卡的时候要从电脑和视频网站两个方面来看,有