
基本信息:
- 专利标题: 一种对话文本的主题识别方法
- 申请号:CN202011191264.1 申请日:2020-10-30
- 公开(公告)号:CN113641778B 公开(公告)日:2024-07-12
- 发明人: 陈杭升 , 李建红 , 吴向宏 , 韩翊 , 陈耀军 , 姜炯挺 , 孙灵 , 林昊 , 翁张力 , 张湘
- 申请人: 浙江华云信息科技有限公司 , 国网浙江省电力有限公司
- 申请人地址: 浙江省杭州市西湖区西园一路16号2幢
- 专利权人: 浙江华云信息科技有限公司,国网浙江省电力有限公司
- 当前专利权人: 浙江华云信息科技有限公司,国网浙江省电力有限公司
- 当前专利权人地址: 浙江省杭州市西湖区西园一路16号2幢
- 代理机构: 杭州杭诚专利事务所有限公司
- 代理人: 尉伟敏
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/35 ; G06F40/205 ; G06F40/242 ; G06F40/268 ; G06F40/289
摘要:
本发明提出一种对话文本的主题识别方法,包括以下步骤:S1,在原有电力领域本体词典和通用词典的基础上进行对话文本预处理,包括分词、词性标注和词频特征提取;S2,在原有电力领域本体词典和通用词典的基础上,新增属性条目,包括电力专有词汇、供应商名称词汇和事件关键词汇;S3,单轮对话下句预测分析,利用上下句的连贯性判断是否同主题;S4,进行对话中断交叉处理,获得全部同主题对话集合;S5,进行供应商识别。本发明能够筛除与主题无关的冗余内容并对同主题的对话文本进行识别归纳。
公开/授权文献:
- CN113641778A 一种对话文本的主题识别方法 公开/授权日:2021-11-12
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/31 | ..索引;其数据结构;存储结构 |