![一种基于文本聚类语义云的可视化文本数据分类方法](/CN/2023/1/253/images/202311269594.jpg)
基本信息:
- 专利标题: 一种基于文本聚类语义云的可视化文本数据分类方法
- 申请号:CN202311269594.1 申请日:2023-09-27
- 公开(公告)号:CN117332787A 公开(公告)日:2024-01-02
- 发明人: 林晓 , 沈锴成 , 王正凯
- 申请人: 上海师范大学
- 申请人地址: 上海市徐汇区桂林路100号
- 专利权人: 上海师范大学
- 当前专利权人: 上海师范大学
- 当前专利权人地址: 上海市徐汇区桂林路100号
- 代理机构: 上海科盛知识产权代理有限公司
- 代理人: 翁惠瑜
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F18/23 ; G06F18/22
摘要:
本发明涉及一种基于文本聚类语义云的可视化文本数据分类方法,包括以下步骤:获取无标注的文本数据集;将所述文本数据集输入至预先构建好的自然语言处理模型中,生成每条文本的句子嵌入,其中在构建所述自然语言处理模型过程中,利用对比学习的方式强化所述自然语言处理模型的预训练阶段;采用聚类算法对所述句子嵌入进行聚类,获得聚类结果;采用语义云方法对所述聚类结果进行可视化处理,获得语义云图。与现有技术相比,本发明具有全程无需标签和微调、语义分析准确率高等优点。