收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
Python爬虫有什么类型?
来源:互联网 作者:admin 时间:2019-10-30 09:35:29

  Python爬虫有什么类型?很多用户之所以会使用代理ip都是为了爬虫采集,尽管爬虫采集能够爬取页面信息,但要实现这个效果却不是所有爬虫都可以做到。爬虫也有分类,不同的爬虫能够做到的效果也不一样,那么爬虫都有哪些类型呢?


timg (1).jpg


  1.增量式网络爬虫

  增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新,只爬取内容发生变化的网页或者新产生的网页,一定程度上能保证所爬取的网页,尽可能是新网页。


  2.通用爬虫

  爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。

  爬行策略:主要有深度优先爬行策略和广度优先爬行策略。

  基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。


  3.深层网络爬虫

  表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页。

  深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。

  深层网络爬虫最重要的部分即为表单填写部分。

  基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等。

  深层网络爬虫表单填写有两种类型:。

  基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)。

  基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)。


  4.聚焦网络爬虫

  将爬取目标定位在与主题相关的页面中,主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务。

  爬行策略:基于内容评价的爬行策略、基于链接评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略,关于聚焦网络爬虫具体的爬行策略。

  基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成。

  不同类型的爬虫有着不一样的爬行策略和基本构成,因而也用于不同的场景当中,不同的爬虫爬取的内容不一样,可以根据实际爬取需求来选择爬虫类型。【推荐阅读:代理ip能防止真实ip泄露吗?


推荐阅读
  • 25 2020-02
    找到合适的专业换ip软件

    怎么电脑改ip?如何才可以手机换ip?相信有不少网络使用者会对这些问题,感到困扰,因为现在的网络ip有着比较多的限制,需要我们来一一破除。

  • 23 2018-11
    设置代理服务器不能上网,是哪里出问题了?

    设置代理服务器不能上网,是哪里出问题了?是IP地址有问题呢?还是?如果不知道是什么原因导致的,建议重新安装,首先把之前的设置的都取消掉,跟智连代理去看看怎么设置代理服务器。

  • 17 2020-01
    ip代理帮助大家更好使用互联网

    现在很多人对于互联网的使用是非常的多样化的,根据网络的特性,我们可以借助它来完成很多操作,而代理ip能够帮助我们更好的发挥互联网的效果。

  • 17 2019-05
    代理ip软件支持短租吗?

    代理ip软件支持短租吗?有时候,有些项目并不需要每天都使用代理IP来切换IP地址的,这样如果我们选择长租代理IP,这样太浪费了,能不能选择短租呢?比如租一天,租半个月这样?

  • 02 2019-12
    代理ip软件​都有什么用?

    代理ip软件​都有什么用?我们在日常上网中都需要一个单独的IP地址,通常是经过IP地址访问网页,代理IP就相当于中间平台,可以通过代理IP来访问网页,而不是直接用自己IP访问。在访问记录

  • 24 2019-10
    哪种类型的代理ip​最安全?

    哪种类型的代理ip​最安全?我们使用代理ip的其中一个目的就是为了能够隐藏真实ip地址,因为现在很多个人信息的泄露都是从ip地址中暴露的,所以对于一些关注网络安全的人来说,掩护自己的