收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
分布式爬虫如何获取代理ip​?
来源:互联网 作者:admin 时间:2019-11-27 09:38:19

  分布式爬虫如何获取代理ip?分布式爬虫提取代理的方式有很多,有的使用白名单授权绑定api链接提取,有的使用账号+密码授权,根据个人的习惯和需求,编写程序代码领用提取方式自动提取代理ip使用,提取的方式有很多种,如何根据自己的需求有效最大化的使用代理ip。

分布式爬虫如何获取代理ip

  一:每个线程单次获取一个ip;

  每个进程从接口使用API链接中随机提取一个IP出来使用,如访问失败,无效则再调用API链接提取一个IP。

  每个线程,从接口通过api链接随机提取回一个IP出来,使用获取到的代理IP去访问资源,如果访问成功,则继续抓下一条。如果失败了(比如超时、出现验证码等),再从接口随机取一个IP,继续尝试。

  这种情况使用api链接频繁的调用API获取IP,会对代理服务器造成非常大的压力,影响API链接的稳定性,也有可能因频繁调用会被误以为遭受到攻击,api链接会被限制获取。所以这种方式不建议大家使用。


  二:每个线程单次获取一个ip列表;

  每个进程从接口使用API链接中随机取一个IP列表,如单次通过api链接获取100ip使用,访问失败或者失效则再调用API获取。

  每次每个线程,通过api链接随机提取回一批IP回来,循环使用IP列表去爬取采集数据;

  如果访问成功,则继续抓取下一条。如果失败了(比如超时、出现验证码等),再从接口取一批IP,继续尝试。

  这种方式获取到的ip没有在最佳的时间里使用,因为每个ip有效存活期限的,如果单次获取100个ip,当您用到前50个ip时候,可能后面的全部失效的,当从获取到的ip就开始计时有效存活时间,ip在等待使用时已经开始慢慢再在失效了。造成了ip很大的浪费,没有在提取第一时间使用。


  三:获取到的ip导入本地数据库;

  首先通过api链接提取出大量IP导入本地数据库,再从数据库里面提取ip,在数据库里面建一个表,写一个导入脚本,调用api链接间隔时间是多少,这个间隔时间可在购买代理ip的服务平台注明或者客服告知,然后将提取到的IP列表导入到数据库里面。在数据库里面记录好 导入时间、IP、Port、过期时间、IP可用状态 等字段;写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP进行使用。执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃这个IP,重新换一个IP。【推荐阅读:谈谈代理ip的功能作用!


推荐阅读
  • 21 2019-01
    怎么查一个网站的真实IP地址?黑客查找IP地址方法

    网站容易被攻击,以前都说想怎么隐藏好自己的IP地址,但有时候隐藏不住,那就换个方法,让你查到的IP地址是假的,并不是这网站的真实IP地址。如果想查找网站的真实IP地址,应该怎么找呢

  • 31 2019-05
    营销号要不要换IP?

    营销号要不要换IP?这主要看你怎么使用营销号咯,还是就是手上的营销号数量多不多,如果就一个,这就不要担心了,正常使用即可。但如果是营销号数量比较多,这就麻烦了。

  • 06 2020-03
    免费ip代理存在的意义

    免费ip代理的使用其实是很有必要的,虽然免费的ip资源质量有待商榷,但是免费的这个渠道,让很多人可以更加愿意来认识、体验代理ip服务,在这一点上是有积极意义的。

  • 18 2020-01
    面对代理服务商,用户该怎么选择?

    很多人在用代理ip的时候,除了是有换ip的需要之外,其实还有为了保护自己真实ip地址的原因存在的。

  • 23 2019-09
    免费ip代理​都有什么缺点?

    免费ip代理​都有什么缺点?对面免费ip代理很多人都很高兴,因为不用钱啊,成本就是零啊,但是使用免费ip代理虽然看起来不用钱成本为零,但是免费ip代理的那些缺点却很可能导致后续成本的

  • 25 2019-11
    代理IP速度变慢的原因?

    代理IP速度变慢的原因?代理IP​是现代社会中很多人经常使用的上网方式,特别是对于一些专业网络营销人员来说,动态IP资源是他们工作必不可少的工具之一。在选择使用代理IP时,除了IP的稳

您好,当前有客服在线,请问有什么需要咨询的吗?