![文档图像自动分类和清洗方法、装置、系统及存储介质](/CN/2024/1/72/images/202410360504.jpg)
基本信息:
- 专利标题: 文档图像自动分类和清洗方法、装置、系统及存储介质
- 申请号:CN202410360504.8 申请日:2024-03-27
- 公开(公告)号:CN118116016A 公开(公告)日:2024-05-31
- 发明人: 王勇 , 沈达伟 , 朱军民
- 申请人: 北京易道博识科技有限公司
- 申请人地址: 北京市海淀区农大南路1号院2号楼5层办公A-501
- 专利权人: 北京易道博识科技有限公司
- 当前专利权人: 北京易道博识科技有限公司
- 当前专利权人地址: 北京市海淀区农大南路1号院2号楼5层办公A-501
- 代理机构: 北京金智普华知识产权代理有限公司
- 代理人: 巴晓艳
- 主分类号: G06V30/40
- IPC分类号: G06V30/40 ; G06V30/19 ; G06V30/16 ; G06V10/82
摘要:
本发明公开了一种文档图像自动分类和清洗方法、装置、系统及存储介质,属于计算机视觉领域。该方法包括:文本识别步骤:基于多个串联的深度学习模型对文档图像的文本进行识别,得到文档图像文本内容;样本选取步骤:从多种文档图像构成的原始样本集中选取少量样本图像,针对所述少量样本图像的文档图像文本内容进行分类,并得到类别列表;样本分类步骤:将所述类别列表作为提示词输入至大语言模型,对剩余样本图像的文档图像文本内容进行分类。本申请技术方案基于OCR和大语言模型技术,提出一种文档图像自动分类和清洗方法、装置、系统及存储介质,可以完全代替人工操作,具有通用、高效且分类精度高的特点。