收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫采集被封了怎么办?
来源:互联网 作者:admin 时间:2019-11-19 09:12:31

  爬虫采集被封了怎么办?在使用代理ip进行网络爬虫抓取信息的过程中,如果抓取频率过高或者使用了多线程,很容易被禁止访问。通常,网站的反爬虫机制都是依据IP和用户的User-Agent来标识爬虫的。

爬虫采集被封了怎么办

  于是在爬虫的开发者通常需要采取两种手段来解决这个问题:

  1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。

  2、第二种方法是通过设置代理IP等手段,突破反爬虫机制继续高频率抓取。但是这样需要大量稳定的代理IP。

  代理IP可以搜索到免费的,但是可能不太稳定,也有收费的,比如智连代理IP。下面介绍两种方式:

  普通的基于ADSL拨号的解决办法

  通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,

  同时也影响到了其他网站的抓取,整体来说也会降低抓取速度。

  一种可能的解决办法

  同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的服务器,抓取过程中使用这两台服务器作为代理。

  假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。

  综上,最简单方法就是购买现成的代理IP产品。【推荐阅读:哪儿有高质量代理ip?


推荐阅读
  • 07 2018-11
    电脑ip地址怎么查?简单的ip地址查询方法

    想上网,首先要获取到IP地址,办公区电脑几乎都是用局域网IP,局域网有内部IP以及外部IP,内部IP一般是供局域网内部使用,外网IP一般供外网使用,我们访问网页、登陆qq等都是用的...

  • 06 2019-12
    爬虫IP代理​都从哪儿来?

    爬虫IP代理​都从哪儿来?互联网如今发展势头迅猛也带动了大数据的起飞,而大数据的应用离不开代理ip的帮助,这是因为在爬虫采集的过程当中单一ip抓取频率过高会引发网站反爬措施的反制

  • 17 2018-12
    爬虫怎么突破反爬虫?更换IP、控制下载频率哪个管用?

    由于现在许多企业都需要大量的数据,所以很多人学习爬虫,其实怎么学爬虫并不难,难的是怎么应对反爬虫,毕竟别人也不想你去爬,不仅会影响服务器,另外也造成一定的竞争,那么...

  • 25 2019-11
    代理ip软件​有什么优势?

    代理ip软件​有什么优势?在网络世界中想要获得大量的数据进行分析,最好的方法就是利用爬虫进行网站数据的采集,但是对于进行过爬虫的人都知道,想要爬虫进行得顺利就必须使用代理ip,

  • 27 2020-03
    使用动态ip代理转发的好处

    无论是什么设备端,只要有ip地址,那么我们就可以用ip修改器来对它进行切换。怎么修改ip地址?如果是借助代理的力量,通常大家可以用在线web代理或者是http代理。

  • 23 2019-10
    使用代理ip​需要注意什么?

    使用代理ip​需要注意什么?代理ip软件的使用已经逐渐平民化,很多人都喜欢使用代理ip来辅助工作或者用来平日的上网,代理ip软件的好处正在被越来越多人了解,虽然使用代理ip好处多多,但