博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
构建一个给爬虫使用的代理IP池
阅读量:6330 次
发布时间:2019-06-22

本文共 5450 字,大约阅读时间需要 18 分钟。

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取,可以从以下几个途径得到:

  • 从免费的网站上获取,质量很低,能用的IP极少
  • 购买收费的代理服务,质量高很多
  • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。

获取可用Proxy

获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:

  1. 创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学,可以看我之前的文章
Flowable.fromIterable(ProxyPool.proxyMap.keySet())                .parallel()复制代码
  1. 针对每一个页面进行抓取,返回List

    map(new Function
    >() { @Override public List
    apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) { e.printStackTrace(); } return null; } })复制代码
  2. 对每一个页面获取的代理IP列表进行校验,判断是否可用

    flatMap(new Function
    , Publisher
    >() { @Override public Publisher
    apply(List
    proxies) throws Exception { if (proxies == null) return null; List
    result = proxies .stream() .parallel() .filter(new Predicate
    () { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } })复制代码
  3. 依次保存到proxyList

    subscribe(new Consumer
    () { @Override public void accept(Proxy proxy) throws Exception { log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort()); proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } });复制代码

附上完整的流程图

ProxyPool流程.png

再附上完整的ProxyManager代码:

import com.cv4j.proxy.domain.Proxy;import com.cv4j.proxy.http.HttpManager;import com.cv4j.proxy.task.ProxyPageCallable;import io.reactivex.Flowable;import io.reactivex.functions.Consumer;import io.reactivex.functions.Function;import lombok.extern.slf4j.Slf4j;import org.apache.http.HttpHost;import org.reactivestreams.Publisher;import org.springframework.stereotype.Component;import java.util.Date;import java.util.List;import java.util.function.Predicate;import java.util.stream.Collectors;/** * Created by tony on 2017/10/25. */@Slf4j@Componentpublic class ProxyManager {    /**     * 抓取代理,成功的代理存放到ProxyPool中     */    public void start() {        Flowable.fromIterable(ProxyPool.proxyMap.keySet())                .parallel()                .map(new Function
>() { @Override public List
apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) { e.printStackTrace(); } return null; } }) .flatMap(new Function
, Publisher
>() { @Override public Publisher
apply(List
proxies) throws Exception { if (proxies == null) return null; List
result = proxies .stream() .parallel() .filter(new Predicate
() { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } }) .sequential() .subscribe(new Consumer
() { @Override public void accept(Proxy proxy) throws Exception { log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort()); proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } }); }}复制代码

定时任务

每隔几个小时跑一次定时任务,在抓取完任务之后先删除旧的数据,然后再把新的数据插入到MongoDB中。

import com.cv4j.proxy.ProxyManager;import com.cv4j.proxy.ProxyPool;import com.cv4j.proxy.dao.ProxyDao;import com.cv4j.proxy.domain.Proxy;import com.safframework.tony.common.utils.Preconditions;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.scheduling.annotation.Scheduled;import org.springframework.stereotype.Component;import java.util.concurrent.CopyOnWriteArrayList;/** * Created by tony on 2017/11/22. */@Componentpublic class ScheduleJobs {    @Autowired    ProxyDao proxyDao;    @Autowired    ProxyManager proxyManager;    /**     * 每六个小时跑一次任务     */    @Scheduled(cron = "0 0 */6 * * ?")    public void cronJob() {        System.out.println("Job Start...");        proxyManager.start();        CopyOnWriteArrayList
list = ProxyPool.proxyList; // 先删除旧的数据 proxyDao.deleteAll(); // 然后再进行插入新的proxy if (Preconditions.isNotBlank(list)) { for (Proxy p:list) { proxyDao.saveProxy(p); } } System.out.println("Job End..."); }}复制代码

展示到前端

整个项目使用Spring Boot搭建,运行起来之后本地访问地址:

预览效果如下:

代理列表.jpeg

在使用前,还可以再做一次检测,只要双击某个代理IP即可。

检测某个代理.jpeg

在第二次检测时,对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑购买比较好。

最后,附上github地址:

转载地址:http://szboa.baihongyu.com/

你可能感兴趣的文章
使用 ftrace 调试 Linux 内核【转】
查看>>
唯一聚集索引上的唯一和非唯一非聚集索引
查看>>
Spark新愿景:让深度学习变得更加易于使用——见https://github.com/yahoo/TensorFlowOnSpark...
查看>>
linux磁盘配额
查看>>
NFS文件共享服务器的搭建
查看>>
%r 和 %s 该用哪个?
查看>>
小公司职场不是“切糕”
查看>>
play工程部署到云服务器
查看>>
ListView 取消点击效果
查看>>
降级论
查看>>
wampServer连接oracle
查看>>
CentOS 6.5下编译安装新版LNMP
查看>>
Android Picasso
查看>>
top命令
查看>>
我的友情链接
查看>>
javascript的作用域
查看>>
新形势下初创B2B行业网站如何经营
查看>>
初心大陆-----python宝典 第五章之列表
查看>>
java基础学习2
查看>>
sysbench使用笔记
查看>>