
基本信息:
- 专利标题: 中文分词方法、装置、设备及存储介质
- 申请号:CN202111064514.X 申请日:2021-09-10
- 公开(公告)号:CN113779990B 公开(公告)日:2023-10-31
- 发明人: 赵春阳 , 杨翊 , 苗岩 , 戴鹏 , 梁师铭 , 钟健
- 申请人: 中国联合网络通信集团有限公司
- 申请人地址: 北京市西城区金融大街21号
- 专利权人: 中国联合网络通信集团有限公司
- 当前专利权人: 中国联合网络通信集团有限公司
- 当前专利权人地址: 北京市西城区金融大街21号
- 代理机构: 北京同立钧成知识产权代理有限公司
- 代理人: 宋兴; 黄健
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/216
摘要:
本申请提供一种中文分词方法、装置、设备及存储介质,通过对待分词文本进行特定词组的逐字提取,得到字集合以及字频集合;将字集合中的元素进行元素组合,得到第一词集合和第一词频集合;将第一词集合与字集合进行合并,并对合并后的集合进行元素组合,得到第二词集合和第二词频集合,对于第二词集合,重复执行将对应的词集合与字集合进行合并、并对合并后的集合进行元素组合的步骤,对词频集合进行加权,得到加权词频集合,再根据预设词频阈值对加权词频集合进行筛选,得到目标词集合和目标词频集合;根据目标词频集合,和目标词集合中的目标词在待分词文字中的初始位置,对目标词集合进行排序。
公开/授权文献:
- CN113779990A 中文分词方法、装置、设备及存储介质 公开/授权日:2021-12-10
IPC结构图谱:
G06F40/289 | 短语分析,例如有限状态技术或分块 |