
基本信息:
- 专利标题: 一种基于分布式的一站式采集方法及采集系统
- 申请号:CN202010960596.5 申请日:2020-09-14
- 公开(公告)号:CN112100495B 公开(公告)日:2024-04-16
- 发明人: 李钊 , 孙露 , 孙浩 , 杨春 , 魏静 , 胡传会 , 陈通
- 申请人: 山东亿云信息技术有限公司
- 申请人地址: 山东省济南市高新区新泺大街2008号银荷大厦B座3层
- 专利权人: 山东亿云信息技术有限公司
- 当前专利权人: 山东亿云信息技术有限公司
- 当前专利权人地址: 山东省济南市高新区新泺大街2008号银荷大厦B座3层
- 代理机构: 济南圣达知识产权代理有限公司
- 代理人: 李圣梅
- 主分类号: G06F16/9535
- IPC分类号: G06F16/9535 ; G06F16/955 ; G06F9/48
摘要:
本公开提出了一种基于分布式的一站式采集方法及系统,包括:分布式采集集群构建:将集群服务器添加到采集集群中,并添加采集应用至集群服务器中;全网采集:集群服务器接收所需采集的网站,进行全网数据采集,并对网站中的列表页数据进行过滤;解析:对过滤后的列表页进行解析,获取列表页网站规则以及列表页中详情页的规则;采集任务配置:配置增量采集和全量采集所需的采集应用,然后启动增量采集和全量采集。用户可根据采集需求自定义分配采集资源,采集任务结束后自动释放采集资源,有效的提高了采集效率。
公开/授权文献:
- CN112100495A 一种基于分布式的一站式采集方法及采集系统 公开/授权日:2020-12-18
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/95 | ..从网上检索 |
------------G06F16/953 | ...查询,例如通过使用网络搜索引擎 |
--------------G06F16/9535 | ....过滤和个性化 |