收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 09 2019-05
    问答推广IP地址被盯上了怎么办?

    问答推广IP地址被盯上了怎么办?不管你是做问答推广还是贴吧推广,亦或者是其他的营销推广,都是需要发布大量的信息,但是这同IP操作很容易被盯上,还需要借用多个账号的,否则很难形

  • 17 2019-01
    如何做好网络营销?换IP工具来助阵

    一个产品或者品牌要想获得好的销量,前提是要更多的人认识你的产品或者品牌,都不认识为什么要买你的产品呢?而网络营销就是让更多的人认识你产品的好方法,再说现在互联网无处不在,

  • 23 2019-01
    刷票使用代理IP,可以突破IP限制无限次投票吗?

    我们平常投票,都是由限制的,比如限制一个IP一天只能投一票,还有其他的限制,比如:手机号限制、COOKIE限制,身份证号限制等等。如果想多投票,那势必是要突破这些限制的,我们先去了

  • 19 2019-08
    怎么修改自己电脑的ip地址?

    怎么修改自己电脑的ip地址?网络给我们带来了便利的同时也开拓了我们的眼界,但是我们在上网的时候总会遇到一些不愉快的经历,比如被论坛禁言了,被网站封IP地址了,这时候我们就需要通

  • 06 2018-12
    品牌怎么进行营销推广?塑造品牌形象

    做广告讲究的是创意性,即使是大家讨厌的广告,也能走心,也能收获消费者的广泛认可甚至认同,但这并不容易,不然大大小小的品牌也不会使劲的扔广告费。

  • 30 2019-03
    获取招聘网的简历有几种方法?爬虫换代理IP进行采集

    通过简历可以拿到很多用户的个人信息,这也是当下非常多人都想获取到的信息,但招聘网也没有那么好抓取,信息泄露严重,也就没有什么用户敢使用了。因此,想要获取到招聘网的用户简历