做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。
代理IP的获取,可以从以下几个途径得到:
从免费的网站上获取,质量很低,能用的IP极少
购买收费的代理服务,质量高很多
自己搭建代理服务器,稳定,但需要大量的服务器资源。
本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。
获取可用Proxy
获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:
创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。
Flowable.fromIterable(ProxyPool.proxyMap.keySet()) .parallel()
针对每一个页面进行抓取,返回List
map(new Function() { @Override public List apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) { e.printStackTrace(); } return null; } })
对每一个页面获取的代理IP列表进行校验,判断是否可用
flatMap(new Function() { @Override public Publisher apply(List proxies) throws Exception { if (proxies == null) return null; List result = proxies .stream() .parallel() .filter(new Predicate() { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } })
依次保存到proxyList
subscribe(new Consumer() { @Override public void accept(Proxy proxy) throws Exception { log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort()); proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } });
附上完整的流程图
再附上完整的ProxyManager代码:
import com.cv4j.proxy.domain.Proxy;import com.cv4j.proxy.http.HttpManager;import com.cv4j.proxy.task.ProxyPageCallable;import io.reactivex.Flowable;import io.reactivex.functions.Consumer;import io.reactivex.functions.Function;import lombok.extern.slf4j.Slf4j;import org.apache.http.HttpHost;import org.reactivestreams.Publisher;import org.springframework.stereotype.Component;import java.util.Date;import java.util.List;import java.util.function.Predicate;import java.util.stream.Collectors;/** * Created by tony on 2017/10/25. */@Slf4j@Componentpublic class ProxyManager { /** * 抓取代理,成功的代理存放到ProxyPool中 */ public void start() { Flowable.fromIterable(ProxyPool.proxyMap.keySet()) .parallel() .map(new Function() { @Override public List apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) { e.printStackTrace(); } return null; } }) .flatMap(new Function() { @Override public Publisher apply(List proxies) throws Exception { if (proxies == null) return null; List result = proxies .stream() .parallel() .filter(new Predicate() { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } }) .sequential() .subscribe(new Consumer() { @Override public void accept(Proxy proxy) throws Exception { log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort()); proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } }); }}
定时任务
每隔几个小时跑一次定时任务,在抓取完任务之后先删除旧的数据,然后再把新的数据插入到MongoDB中。
import com.cv4j.proxy.ProxyManager;import com.cv4j.proxy.ProxyPool;import com.cv4j.proxy.dao.ProxyDao;import com.cv4j.proxy.domain.Proxy;import com.safframework.tony.common.utils.Preconditions;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.scheduling.annotation.Scheduled;import org.springframework.stereotype.Component;import java.util.concurrent.CopyOnWriteArrayList;/** * Created by tony on 2017/11/22. */@Componentpublic class ScheduleJobs { @Autowired ProxyDao proxyDao; @Autowired ProxyManager proxyManager; /** * 每六个小时跑一次任务 */ @Scheduled(cron = "0 0 */6 * * ?") public void cronJob() { System.out.println("Job Start..."); proxyManager.start(); CopyOnWriteArrayList list = ProxyPool.proxyList; // 先删除旧的数据 proxyDao.deleteAll(); // 然后再进行插入新的proxy if (Preconditions.isNotBlank(list)) { for (Proxy p:list) { proxyDao.saveProxy(p); } } System.out.println("Job End..."); }}
展示到前端
整个项目使用Spring Boot搭建,预览效果如下:
在使用前,还可以再做一次检测,只要双击某个代理IP即可。
在第二次检测时,对于已经失效的IP会被ProxyPool删除。
总结
在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑购买比较好,比如智连代理。
智连代理,动态IP行业领导者,高质流量出口,IP代理全国线路任选,拥有千万IP资源,独享带宽,IP代理秒连秒换,连接切换速度小于等于100ms。支持多种设备,可以免费试用!
精彩推荐:哪一类的代理IP比较好用
ip代理都有什么区别?在我们爬取某些网站的数据时都需要利用代理ip来变换ip地址,以达到逃避反爬虫机制检测的目的,那么我们在使用ip代理进行爬虫的时候,你又知不知道ip代理之间都有什
免费的换IP软件风险性怎样?不管什么东西,可能都是存在风险的,因此我们在使用之前是有必要去了解下其风险性程度的,倘若风险性过大,与收益差之深远,这就没有必要了,是吧。
使用ip代理有什么好处?ip代理可能对于普通用户而言,使用率跟熟悉率都不高,通常是爬虫工作者或是某些项目需要大量不同IP才会利用到,可是ip代理的作用不仅仅如此,使用ip代理有什么好处
IP被限制访问怎么办?首先,如果你想解决这个问题那么晚就要清楚这个问题发生的原因,你要清楚网站为什么被限制了IP的访问。在这里为大家简单的讲解一下,有一部分的网站是因为要遏制数
遇到一些网络限制,我们只需要换一个ip就可以解决,方法其实非常简单。但是选择ip代理软件的过程,挑选,这才是问题。
代理ip服务,现在大家都知道在网络上是非常多人使用的,特别是如果要换ip,保护自己的本地ip信息,那么ip代理是非常靠谱的。