![一种相似网络页面的搜索方法及设备](/CN/2019/1/100/images/201910502242.jpg)
基本信息:
- 专利标题: 一种相似网络页面的搜索方法及设备
- 申请号:CN201910502242.3 申请日:2019-06-11
- 公开(公告)号:CN110390044B 公开(公告)日:2024-03-19
- 发明人: 杨祎 , 王炜
- 申请人: 平安科技(深圳)有限公司
- 申请人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 专利权人: 平安科技(深圳)有限公司
- 当前专利权人: 平安科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
- 代理机构: 深圳中一专利商标事务所
- 代理人: 郭鸿
- 主分类号: G06F16/9532
- IPC分类号: G06F16/9532 ; G06F40/284 ; G06F40/30
摘要:
本发明适用于互联网技术领域,提供了一种相似网络页面的搜索方法及设备,包括:获取目标页面的文本信息,并基于文本信息构建目标页面的页面语料库;对所有网络页面进行遍历搜索,确定包含页面关键词的网络页面为目标页面的候选页面;基于候选页面预设的各个页面标签在候选页面中的出现次数,确定各个页面标签的标签权重;根据候选页面包含的页面内容,生成候选页面的内容特征信息;根据候选页面的各个页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度;将页面相关度大于相关阈值的候选页面确定为目标页面的相似页面。本发明通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,提高了页面搜索的准确性。
公开/授权文献:
- CN110390044A 一种相似网络页面的搜索方法及设备 公开/授权日:2019-10-29
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/95 | ..从网上检索 |
------------G06F16/953 | ...查询,例如通过使用网络搜索引擎 |
--------------G06F16/9532 | ....查询式 |