
基本信息:
- 专利标题: 一种文本数据集清洗方法、装置及介质
- 申请号:CN202210324649.3 申请日:2022-03-29
- 公开(公告)号:CN114647731B 公开(公告)日:2025-09-09
- 发明人: 张荣国
- 申请人: 苏州浪潮智能科技有限公司
- 申请人地址: 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢
- 专利权人: 苏州浪潮智能科技有限公司
- 当前专利权人: 苏州浪潮智能科技有限公司
- 当前专利权人地址: 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢
- 代理机构: 北京市万慧达律师事务所
- 代理人: 刘艳丽
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/151 ; G06F40/166
摘要:
本发明公开了一种文本数据集清洗方法、装置及介质,属于计算机数据技术领域,方法包括:接收待清洗的文本数据集;对第一格式文本数据集和第二格式文本数据集进行中文过滤操作,以分别形成第一格式第一文本数据集和第二格式第一文本数据集;将所述第二格式第一文本数据集转换为第一格式第二文本数据集;将所述第一格式第一文本数据集以及所述第一格式第二文本数据集进行编码格式转换,以形成第一格式第三文本数据集;对所述第一格式第三文本数据集进行数据清洗操作。本发明实现了基于Bash脚本和Spark开源集群运算框架的高效的数据分类清洗方案,能够在短时间内处理TB级别的互联网文本数据集,提高了清洗效率。
公开/授权文献:
- CN114647731A 一种文本数据集清洗方法、装置及介质 公开/授权日:2022-06-21