![一种基于PageRank算法的医疗数据爬取方法及系统](/CN/2019/1/101/images/201910507881.jpg)
基本信息:
- 专利标题: 一种基于PageRank算法的医疗数据爬取方法及系统
- 申请号:CN201910507881.9 申请日:2019-06-12
- 公开(公告)号:CN110347896B 公开(公告)日:2021-09-21
- 发明人: 王刘旺 , 戴彦 , 韩嘉佳 , 颜拥 , 姚影 , 杨杨 , 喻鹏 , 郝茂杰
- 申请人: 国网浙江省电力有限公司电力科学研究院 , 国家电网有限公司 , 北京邮电大学
- 申请人地址: 浙江省杭州市下城区朝晖八区华电弄1号; ;
- 专利权人: 国网浙江省电力有限公司电力科学研究院,国家电网有限公司,北京邮电大学
- 当前专利权人: 国网浙江省电力有限公司电力科学研究院,国家电网有限公司,北京邮电大学
- 当前专利权人地址: 浙江省杭州市下城区朝晖八区华电弄1号; ;
- 代理机构: 浙江翔隆专利事务所
- 代理人: 张建青
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F16/23
摘要:
本发明公开了一种基于PageRank算法的医疗数据爬取方法及系统。本发明的医疗数据爬取方法,包括步骤:用户根据需要输入要爬取的医疗关键词;计算网页时间因子及潜在相关性因子;计算得到第一轮PR值,并临时存入数据库中;对各网页中的超链接进行权重计算;计算得到第二轮PR值,并更新数据库;比较PR值大小,获取PR值最大的N个网页;输出PR值最大的N个网页。本发明能够有效的解决传统通用爬虫算法偏重旧网页、主题漂移和偏重综合性网页的缺陷,可以高效、准确的爬取医疗数据网页。
公开/授权文献:
- CN110347896A 一种基于PageRank算法的医疗数据爬取方法及系统 公开/授权日:2019-10-18
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/95 | ..从网上检索 |
------------G06F16/951 | ...索引;网络抓取技术 |