![文本相似度确定模型的训练方法及文本相似度计算方法](/CN/2024/1/200/images/202411003497.jpg)
基本信息:
- 专利标题: 文本相似度确定模型的训练方法及文本相似度计算方法
- 申请号:CN202411003497.2 申请日:2024-07-25
- 公开(公告)号:CN118520929A 公开(公告)日:2024-08-20
- 发明人: 段运强 , 李鹏霄 , 井雅琪 , 吕东 , 段荣昌 , 侯炜 , 佟玲玲 , 段东圣 , 任博雅 , 王子涵 , 艾政阳 , 贾云刚 , 党中恺
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 北京路浩知识产权代理有限公司
- 代理人: 张晓霞
- 主分类号: G06N3/09
- IPC分类号: G06N3/09 ; G06N3/0455 ; G06F40/194
摘要:
本发明提供一种文本相似度确定模型的训练方法及文本相似度计算方法,属于计算机技术领域,该训练方法包括:获取第一数据集和第二数据集;第一数据集中包括至少一个短文本数据对;第二数据集中包括至少一个目标文本数据对,目标文本数据对中的两个目标文本数据至少一个为长文本数据;基于句向量对比模型,获取第二数据集中各目标文本数据的关键表述;句向量对比模型是基于第一数据集和第一损失函数对第一预训练模型训练得到的;基于各关键表述和第二损失函数,对第二预训练模型进行训练,得到文本相似性确定模型。通过在判定过程中引入短文本和长文本,提升了文本相似度确定模型输出结果的准确性。
公开/授权文献:
- CN118520929B 文本相似度确定模型的训练方法及文本相似度计算方法 公开/授权日:2024-10-29
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06N | 基于特定计算模型的计算机系统 |
------G06N3/00 | 基于生物学模型的计算机系统 |
--------G06N3/02 | .采用神经网络模型 |
----------G06N3/04 | ..体系结构,例如,互连拓扑 |
------------G06N3/09 | ...监督学习 |