收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 29 2018-12
    用静态IP上不了网怎么回事

    上网需要使用IP,然而IP资源稀少,许多人都只能使用动态IP上网,但有些人不喜欢自动获取IP,想用静态IP上网,在设置的过程中,也许会出现用静态IP上不了网,这是怎么回事呢?

  • 24 2019-04
    IP加速器对游戏进行加速靠谱吗?

    IP加速器对游戏进行加速靠谱吗?游戏玩着玩着,经常觉得卡,这是什么原因?到底是玩的人太多了,还是游戏性能不够好?或者是游戏的服务器不够稳定?

  • 25 2020-03
    ip代理上网成为趋势

    为什么要代理上网?就正常的使用网络难道不可以吗?当然了,有很多用户是觉得自己不需要用到动态代理ip的,不过你也应当了解一下代理ip能够为你的网络起到什么作用。

  • 26 2019-08
    为什么爬虫一定要用代理IP?

    为什么爬虫一定要用代理IP?很多学习爬虫的教程都会在爬虫准备这一项中要求准备好代理IP,网上的爬虫经验总结也强调了代理IP的重要性,使用代理IP​进行爬虫又有哪些好处呢?

  • 24 2019-07
    ip修改器切换ip破解ip限制

    ip修改器切换ip破解ip限制,想刷多少票就看ip修改器有多少ip资源。目前投票活动采取ip限制,平台通过记录投票的ip地址、投票数量和时间来判断该ip用户是否超过投票限制,超过限制则不能投

  • 27 2019-08
    代理IP按用途可以分几类?

    代理IP按用途可以分几类?关于代理IP的分类我们知道按照信息安全性来分,可以分为透明代理、匿名代理和高匿名代理三类,除了按照安全性来分代理ip还可以按照用途来分类,那么代理IP​按用