![一种基于预训练语言模型的长文本聚类方法及装置](/CN/2020/1/218/images/202011093000.jpg)
基本信息:
- 专利标题: 一种基于预训练语言模型的长文本聚类方法及装置
- 申请号:CN202011093000.2 申请日:2020-10-13
- 公开(公告)号:CN112836043A 公开(公告)日:2021-05-25
- 发明人: 张震 , 石瑾 , 李鹏 , 王玉杰 , 张浩宇 , 贾国庆 , 吴飞
- 申请人: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
- 申请人地址: 安徽省合肥市高新区望江西路666号;
- 专利权人: 讯飞智元信息科技有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人: 讯飞智元信息科技有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人地址: 安徽省合肥市高新区望江西路666号;
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06K9/62
摘要:
本发明公开了一种基于预训练语言模型的长文本聚类方法及装置,该方法包括:步骤SS1:使用文本摘要模型将长文本压缩为短文本;步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时,采用迁移学习,将大规模预训练模型应用到文本聚类中。