收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫是什么意思?设计分布式爬虫要注意什么?
来源:互联网 作者:admin 时间:2019-02-26 16:43:43

  我们使用爬虫的目的就是为了能够大量快速的抓取数据,满足抓取上百、上千、上万甚至更多网页的需求,这么单个爬虫何时能爬取完呢?怎么能够加快爬取的速度?可以使用多爬虫的框架。比如分布式爬虫,分布式爬虫是什么意思?设计分布式爬虫要注意什么呢?


  一、单机爬虫


  默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。


  二、分布式爬虫


  实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


分布式爬虫是什么意思?设计分布式爬虫要注意什么?


  三、设计分布式爬虫要注意什么


  1.分布式


  多网站抓取,数据量一般也比较大,可分布式扩展,这也是必需的功能了。分布式,需要注意做好消息队列,做好多结点统一去重。


  2.代码复用,功能模块化


  如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。


  3.架构简明


  要方便以后未知功能模块的添加。


  4.易扩展


  多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量必要的内容(如抓取规则、解析规则、入库规则),这样最快最好。


  5.爬虫优化


  这就是大话题了,但最基本的,框架应该要基于异步,或者使用协程+多进程。


  6.健壮性、可维护性


  这么多网站同时抓取,报错的概率更大,例如断网、中途被防爬、爬到“脏数据”等等。所以必须要做好日志监控,能实时监控爬虫系统的状态,能准确、详细地定位报错信息;另外要做好各种异常处理,如果你放假回来发现爬虫因为一个小问题已经挂掉了,那你会因为浪费了几天时间而可惜的(虽然事实上我个人会不时地远程查看爬虫状态)。


  上文介绍了关于分布式爬虫,其实要写一个支持分布式、多爬虫的框架,具体的实现上还是有一定难度的。另外,在实现主要功能以外,还要注意做到代码严谨规范,爬虫高效健壮的要求。


相关文章内容简介
推荐阅读
  • 26 2019-11
    为什么爬虫需要代理ip​?

    为什么爬虫需要代理ip​?大数据在如今越来越火,许多人都会利用爬虫对网站数据进行爬取和采集,而很多网站并不希望自己的数据被其他人掌握,所以设置了反爬虫机制来限制爬虫的访问。一

  • 30 2019-04
    爬虫代理找高匿名好还是不匿名好呢?

    爬虫代理找高匿名好还是不匿名好呢?什么是高匿名爬虫代理、匿名爬虫代理和透明爬虫代理?它们有什么区别?我们选择爬虫代理时,到底选择哪个比较好?

  • 09 2018-11
    爬虫如何添加IP池,解决IP被封窘境

    爬虫如何添加IP池?大数据时代来临,爬虫工作者的春天也随之来了。然而在我们进行爬虫业务时,却经常受到目标网站反爬虫机制的阻碍,因为采集信息量和采集速度过快,常常...

  • 19 2019-11
    比较常见的代理ip​方式!

    比较常见的代理ip​方式!到代理它的范围就比较广泛,ip代理其实也是代理的一种,ip加速器是通过IP服务器代理的形式达到全球服网游加速,公司内部系统的访问连接,及隐藏真实IP作用,目前

  • 08 2019-11
    代理ip软件​的作用有哪些?

    代理ip软件​的作用有哪些?代理ip就是通过代理网络用户去取得网络信息,它是网络信息的中转站,代理服务器就好象一个大的Cache,这样就能显著提高浏览速度和效率。那么,除此之外代理ip软

  • 02 2019-08
    修改本机上网ip地址找哪个换ip软件

    修改本机上网ip地址找哪个换ip软件?换ip是比较常见的操作,比如玩游戏需要切换ip地址,可以使用智连代理这个换ip软件,功效强大,使用简单,是个非常不错的选择。