收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 07 2018-12
    爬虫如何实现数据的爬取

    做数据分析,首先要有大量的数据,通常会使用爬虫去采集同行的信息进行分析,挖掘有用的资料。但这些资料非常多,仅靠人工去收集,耗时非常久,有个偷懒的方法,即使用爬虫进行...

  • 08 2019-07
    账号被秒封是ip代理质量不过关吗?

    大家有没有试过账号被秒封的情况,这账号为什么会被秒封?难道是因为使用了代理ip的原因?账号被秒封是ip代理质量不过关吗?

  • 26 2019-07
    高匿代理IP也不靠谱怎么办?

    高匿代理IP也不靠谱怎么办?大家有没有发现,有时候即使使用了高匿名代理IP,这效果也不怎么样?这是为什么呢?

  • 31 2019-10
    爬虫代理ip​用哪种比较好?

    爬虫代理ip​用哪种比较好?之前为大家介绍过,代理ip有高匿、普通和透明三种类型,对于爬虫工作者来说,这三种类型的代理ip哪种比较好用呢?

  • 16 2019-09
    代理ip都有哪些分类?

    代理ip都有哪些分类?代理ip的作用大家其实都很熟悉了,在例如爬虫数据采集、网络推广或者人气流量等等方面都有许许多多的用处,那么在使用代理ip的时候你又知不知道代理IP都可以分为哪些

  • 17 2019-04
    遇到代理IP超时问题的处理方法

    一个程序很慢百分百的保证没有问题的,需要在测试的过程中不断的修改,就像遇到代理IP时超问题时,这是如何解决的呢?