![文本摘要模型的训练方法及装置](/CN/2022/1/74/images/202210374234.jpg)
基本信息:
- 专利标题: 文本摘要模型的训练方法及装置
- 申请号:CN202210374234.7 申请日:2022-04-11
- 公开(公告)号:CN114861640B 公开(公告)日:2024-11-08
- 发明人: 张琳涵 , 陈谦 , 邓憧 , 王雯
- 申请人: 阿里巴巴(中国)有限公司
- 申请人地址: 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室
- 专利权人: 阿里巴巴(中国)有限公司
- 当前专利权人: 阿里巴巴(中国)有限公司
- 当前专利权人地址: 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室
- 代理机构: 北京君以信知识产权代理有限公司
- 代理人: 谭镇
- 主分类号: G06F40/258
- IPC分类号: G06F40/258 ; G06F40/205 ; G06F16/35 ; G06F18/22 ; G06F18/214
摘要:
本申请实施例提供了一种文本摘要模型的训练方法及装置,包括:获取训练数据集,训练数据集包括:至少一个标注摘要样本,标注摘要样本关联有至少一个相关文本样本;从标注摘要样本中获取至少一个关键句子,并在与标注摘要样本关联的相关文本样本中,获取与关键句子匹配的相似句子;利用关键句子与相似句子的对应关系训练初始文本摘要模型,获得第一文本摘要模型;利用标注摘要样本与相关文本样本的对应关系训练第一文本摘要模型,获得第二文本摘要模型。本申请采用输入多个相似句子的训练方式,可以较大幅度的降低模型的输入量,从而减少计算量,另外,由于关键句子和相似句子的提取减少了其他冗余内容带来的干扰,因此也提高了整体的训练效率。
公开/授权文献:
- CN114861640A 文本摘要模型的训练方法及装置 公开/授权日:2022-08-05
IPC结构图谱:
G06F40/258 | 标题提取;自动给出标题、编号 |