
基本信息:
- 专利标题: 一种生物医学文献层次主题树构建方法及装置
- 申请号:CN202211546719.6 申请日:2022-12-05
- 公开(公告)号:CN115730033A 公开(公告)日:2023-03-03
- 发明人: 林小光 , 张矩 , 李亚晴
- 申请人: 中国科学院重庆绿色智能技术研究院
- 申请人地址: 重庆市北碚区方正大道266号
- 专利权人: 中国科学院重庆绿色智能技术研究院
- 当前专利权人: 中国科学院重庆绿色智能技术研究院
- 当前专利权人地址: 重庆市北碚区方正大道266号
- 代理机构: 重庆辉腾律师事务所
- 代理人: 王诗思
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/35 ; G06F16/33 ; G06F18/2132
摘要:
本发明涉及生物医学文献内容检索、文本分类等技术领域,特别涉及一种生物医学文献层次主题树构建方法及装置,方法包括获取待处理的生物医学文献全文内容,预处理后得到标准待处理文档集;将标准待处理文档集每个文档中紧邻的3个句子分别处理为一个文档片段;将所有文档片段作为根节点,并利用隐狄利克雷分布方法对所有文档片段进行主题建模,生成两个主题;计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,根据关键值将文档片段划分文档片段;若与主题相关的文档片段大于设定阈值,则继续生成新主题;本发明生成效率远远优于其它层次主题建模方法。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/31 | ..索引;其数据结构;存储结构 |