收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫采集被封了怎么办?
来源:互联网 作者:admin 时间:2019-11-19 09:12:31

  爬虫采集被封了怎么办?在使用代理ip进行网络爬虫抓取信息的过程中,如果抓取频率过高或者使用了多线程,很容易被禁止访问。通常,网站的反爬虫机制都是依据IP和用户的User-Agent来标识爬虫的。

爬虫采集被封了怎么办

  于是在爬虫的开发者通常需要采取两种手段来解决这个问题:

  1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。

  2、第二种方法是通过设置代理IP等手段,突破反爬虫机制继续高频率抓取。但是这样需要大量稳定的代理IP。

  代理IP可以搜索到免费的,但是可能不太稳定,也有收费的,比如智连代理IP。下面介绍两种方式:

  普通的基于ADSL拨号的解决办法

  通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,

  同时也影响到了其他网站的抓取,整体来说也会降低抓取速度。

  一种可能的解决办法

  同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的服务器,抓取过程中使用这两台服务器作为代理。

  假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。

  综上,最简单方法就是购买现成的代理IP产品。【推荐阅读:哪儿有高质量代理ip?


推荐阅读
  • 04 2019-02
    网站经常使用三种反爬虫,突破方法分享

    通常网站都设置非常多的反爬虫,这是为了防止恶意爬虫的采集,因为这会影响网站的运营。当然,爬虫是不会怕的,只要技术到位,舍得花钱,没有爬不了的网站,为什么这么说呢?

  • 04 2019-10
    http代理怎么使用?

    http代理怎么使用?HTTP代理​相信大家都不陌生,有很多网站我们都是需要使用代理才能连接上去,HTTP代理就是不错的选择。但是很多人都不知道HTTP代理的设置方法,下面来为大家进行详细的介

  • 11 2019-10
    怎么在QQ上使用代理ip​?

    怎么在QQ上使用代理ip​?QQ是重要的通讯工具,很多交流都是在qq上进行,虽然现在微信的应用范围越来越广,但是QQ的作用依旧不可替代,那么如果我们需要在QQ上使用代理ip该怎么使用呢?其实

  • 21 2019-08
    国内ip代理软件哪个比较好?

    国内ip代理软件哪个比较好?国内ip代理软件还真不少,代理ip软件是一类提供国内固定或动态IP地址的工具,可以解决许多关于ip限制的问题,比如爬虫,ip封禁等等。如今国内ip代理软件这么多,

  • 19 2019-07
    电商为什么热衷于换ip刷单?

    怎么做电商赚钱?电商的流量怎么来的?新店上线没有流量怎么办?这是很多新手刚做电商时都很疑惑的问题,这有没有秘诀呢?很多人都说刷单!

  • 16 2019-10
    为什么API提取代理ip​不可用?

    为什么API提取代理ip​不可用?收到不少朋友问,为什么我通过API获取http代理之后,把IP+端口填入代理设置端口,然后发现不可用,这是什么原因?这里需要强调一下