收藏 400-998-9776 转2 服务时间 周一至周日 9:00-23:00 注意:本站不提供境外服务
您的位置:首页 >文章内容
爬虫怎么构建代理IP池
来源:慕课网fengzhizi715 作者:admin 时间:2018-10-31 14:46:08

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取,可以从以下几个途径得到:

  • 从免费的网站上获取,质量很低,能用的IP极少

  • 购买收费的代理服务,质量高很多

  • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:

  1. 创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。

Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()
  1. 针对每一个页面进行抓取,返回List

    map(new Function() {
                    @Override
                    public List apply(String s) throws Exception {
    
                        try {
                            return new ProxyPageCallable(s).call();
                        } catch (Exception e) {
                            e.printStackTrace();
                        }
    
                        return null;
                    }
                })
  2. 对每一个页面获取的代理IP列表进行校验,判断是否可用

    flatMap(new Function() {
                    @Override
                    public Publisher apply(List proxies) throws Exception {
    
                        if (proxies == null) return null;
    
                        List result = proxies                            .stream()
                                .parallel()
                                .filter(new Predicate() {
                            @Override
                            public boolean test(Proxy proxy) {
    
                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                return HttpManager.get().checkProxy(httpHost);
                            }
                        }).collect(Collectors.toList());
    
                        return Flowable.fromIterable(result);
                    }
                })
  3. 依次保存到proxyList

    subscribe(new Consumer() {
                    @Override
                    public void accept(Proxy proxy) throws Exception {
                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                        proxy.setLastSuccessfulTime(new Date().getTime());
                        ProxyPool.proxyList.add(proxy);
                    }
                });

附上完整的流程图
ProxyPool流程.png

再附上完整的ProxyManager代码:

import com.cv4j.proxy.domain.Proxy;import com.cv4j.proxy.http.HttpManager;import com.cv4j.proxy.task.ProxyPageCallable;import io.reactivex.Flowable;import io.reactivex.functions.Consumer;import io.reactivex.functions.Function;import lombok.extern.slf4j.Slf4j;import org.apache.http.HttpHost;import org.reactivestreams.Publisher;import org.springframework.stereotype.Component;import java.util.Date;import java.util.List;import java.util.function.Predicate;import java.util.stream.Collectors;/**
 * Created by tony on 2017/10/25.
 */@Slf4j@Componentpublic class ProxyManager {

    /**
     * 抓取代理,成功的代理存放到ProxyPool中
     */
    public void start() {

        Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                .parallel()
                .map(new Function() {
                    @Override
                    public List apply(String s) throws Exception {

                        try {
                            return new ProxyPageCallable(s).call();
                        } catch (Exception e) {
                            e.printStackTrace();
                        }

                        return null;
                    }
                })
                .flatMap(new Function() {
                    @Override
                    public Publisher apply(List proxies) throws Exception {

                        if (proxies == null) return null;

                        List result = proxies                                .stream()
                                .parallel()
                                .filter(new Predicate() {
                            @Override
                            public boolean test(Proxy proxy) {

                                HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                return HttpManager.get().checkProxy(httpHost);
                            }
                        }).collect(Collectors.toList());

                        return Flowable.fromIterable(result);
                    }
                })
                .sequential()
                .subscribe(new Consumer() {
                    @Override
                    public void accept(Proxy proxy) throws Exception {
                        log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                        proxy.setLastSuccessfulTime(new Date().getTime());
                        ProxyPool.proxyList.add(proxy);
                    }
                });
    }}

定时任务

每隔几个小时跑一次定时任务,在抓取完任务之后先删除旧的数据,然后再把新的数据插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;import com.cv4j.proxy.ProxyPool;import com.cv4j.proxy.dao.ProxyDao;import com.cv4j.proxy.domain.Proxy;import com.safframework.tony.common.utils.Preconditions;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.scheduling.annotation.Scheduled;import org.springframework.stereotype.Component;import java.util.concurrent.CopyOnWriteArrayList;/**
 * Created by tony on 2017/11/22.
 */@Componentpublic class ScheduleJobs {

    @Autowired
    ProxyDao proxyDao;

    @Autowired
    ProxyManager proxyManager;

    /**
     * 每六个小时跑一次任务
     */
    @Scheduled(cron = "0 0 */6 * * ?")
    public void cronJob() {
        System.out.println("Job Start...");

        proxyManager.start();

        CopyOnWriteArrayList list = ProxyPool.proxyList;

        // 先删除旧的数据
        proxyDao.deleteAll();

        // 然后再进行插入新的proxy
        if (Preconditions.isNotBlank(list)) {

            for (Proxy p:list) {

                proxyDao.saveProxy(p);
            }
        }

        System.out.println("Job End...");
    }}

展示到前端

整个项目使用Spring Boot搭建,预览效果如下:

代理列表.jpeg

在使用前,还可以再做一次检测,只要双击某个代理IP即可。

在第二次检测时,对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑购买比较好,比如智连代理。

智连代理,动态IP行业领导者,高质流量出口,IP代理全国线路任选,拥有千万IP资源,独享带宽,IP代理秒连秒换,连接切换速度小于等于100ms。支持多种设备,可以免费试用!

精彩推荐:哪一类的代理IP比较好用

推荐阅读
  • 30 2019-10
    Python爬虫有什么类型?

    Python爬虫有什么类型?很多用户之所以会使用代理ip​都是为了爬虫采集,尽管爬虫采集能够爬取页面信息,但要实现这个效果却不是所有爬虫都可以做到。爬虫也有分类,不同的爬虫能够做到的

  • 14 2019-10
    HTTP代理和socks5代理能互换使用吗?

    HTTP代理和socks5代理能互换使用吗?在实际的使用代理ip​的过程中,通常会有许多的突发情况,让我们措手不及,我们都希望可以有一个通用的代理ip进行互换使用,免除切换的麻烦,HTTP代理和so

  • 26 2018-11
    python爬取数据的做操作流程

    学习python,通常都是以爬虫入手,学习数据的抓取,那么写爬虫呢?Python也有很多爬虫相关的工具包,能够简单快速的开发出我们的小爬虫,下面智连代理带大家一起去看看怎么写爬虫...

  • 21 2019-02
    使用代理服务器上网怎么这么慢

    现在使用代理的人越来越多了,像电脑、手机都是可以直接设置代理服务器使用的,有一些软件也是支持设置代理服务器使用,但有时候使用代理服务器并不能起到好的效果,比如,使用代理服

  • 04 2019-09
    如何获取代理ip​地址?

    如何获取代理ip​地址?一般每个上网的机器都是只有一个IP地址的,但如果我想换其他的IP地址去工作,做一些增加效果的工作,但有不想被用户发现,或者是自己的IP地址被封了,想使用新的IP

  • 19 2019-09
    为什么代理IP​要有白名单?

    为什么代理IP​要有白名单?很多用户在使用一些代理IP软件的时候会发现,在使用ip之前有一个叫白名单的东西,只有添加进去才能顺利采用代理IP,很多觉得这很麻烦为什么不直接调用,还要多