
基本信息:
- 专利标题: 语义级多模态多粒度文档重复度评估方法和系统
- 申请号:CN202210830961.X 申请日:2022-07-15
- 公开(公告)号:CN115034230A 公开(公告)日:2022-09-09
- 发明人: 尹春林 , 于虹 , 杨政 , 方正云 , 杨莉 , 王达达 , 唐立军 , 张林山
- 申请人: 云南电网有限责任公司电力科学研究院
- 申请人地址: 云南省昆明市经济技术开发区云大西路105号
- 专利权人: 云南电网有限责任公司电力科学研究院
- 当前专利权人: 云南电网有限责任公司电力科学研究院
- 当前专利权人地址: 云南省昆明市经济技术开发区云大西路105号
- 代理机构: 深圳中细软知识产权代理有限公司
- 代理人: 黄劼
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F40/216 ; G06F40/211 ; G06F16/31 ; G06K9/62
摘要:
本发明实施例公开了一种语义级多模态多粒度文档重复度评估方法和系统,方法包括:对待检测文档中的每个组成部分进行向量的转化,得到每个组成部分的分布式向量表示,组成部分是指第一组成单元或者第二组成单元,将每个分布式向量表示与所对应的多个参考向量进行相似度比较,得到每个组成部分的多个初始重复率;确定每个第一组成单元的第一重复率;基于多个第二初始重复率和与每个第二初始重复率对应的至少一个第一初始重复率,得到每个第二组成单元的多个待筛选第二重复率;从每个第二组成单元的多个待筛选第二重复率中,得到每个第二组成单元的第二重复率;将第一总重复率和第二总重复率进行加权求和,得到待检测文档的重复度评估结果。
公开/授权文献:
- CN115034230B 语义级多模态多粒度文档重复度评估方法和系统 公开/授权日:2024-07-23