![一种多网站并行爬取的IP代理池的构建系统和方法](/CN/2021/1/281/images/202111407941.jpg)
基本信息:
- 专利标题: 一种多网站并行爬取的IP代理池的构建系统和方法
- 申请号:CN202111407941.3 申请日:2021-11-19
- 公开(公告)号:CN114143290A 公开(公告)日:2022-03-04
- 发明人: 周小敏 , 应鸿晖 , 林国池 , 石易 , 麦丽娟 , 莫凡 , 林佳涛 , 黄福鸿 , 李高翔 , 卓采标 , 杨慧强 , 廖淑敏 , 宋宜昌 , 周毅 , 黄正国 , 吴冠标 , 李新 , 蒋维 , 曹勇 , 高欢
- 申请人: 国家计算机网络与信息安全管理中心广东分中心 , 天津市国瑞数码安全系统股份有限公司
- 申请人地址: 广东省广州市天河区建中路4号;
- 专利权人: 国家计算机网络与信息安全管理中心广东分中心,天津市国瑞数码安全系统股份有限公司
- 当前专利权人: 国家计算机网络与信息安全管理中心广东分中心,天津市国瑞数码安全系统股份有限公司
- 当前专利权人地址: 广东省广州市天河区建中路4号;
- 代理机构: 北京力量专利代理事务所
- 代理人: 王鸿远
- 主分类号: H04L61/5061
- IPC分类号: H04L61/5061 ; H04L61/5007 ; H04L61/5053 ; H04L67/56 ; G06F16/951
摘要:
本发明属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。
公开/授权文献:
- CN114143290B 一种多网站并行爬取的IP代理池的构建系统和方法 公开/授权日:2024-01-30
IPC结构图谱:
H | 电学 |
--H04 | 电通信技术 |
----H04L | 数字信息的传输,例如电报通信 |
------H04L61/00 | 用于寻址或命名的网络布置,协议或服务 |
--------H04L61/09 | .地址映射 |
----------H04L61/5061 | ..地址池 |