![一种用于去中心化场景的模型自适应文本识别方法和系统](/CN/2023/1/64/images/202310320095.jpg)
基本信息:
- 专利标题: 一种用于去中心化场景的模型自适应文本识别方法和系统
- 申请号:CN202310320095.4 申请日:2023-03-29
- 公开(公告)号:CN116434216A 公开(公告)日:2023-07-14
- 发明人: 赵洲 , 张鹏程 , 沈然 , 孙钢 , 沈皓 , 谷泓杰 , 汪一帆 , 李伊玲 , 叶景 , 谢汉天 , 苏华骏
- 申请人: 浙江大学 , 国网浙江省电力有限公司营销服务中心
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号;
- 专利权人: 浙江大学,国网浙江省电力有限公司营销服务中心
- 当前专利权人: 浙江大学,国网浙江省电力有限公司营销服务中心
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号;
- 代理机构: 浙江翔隆专利事务所
- 代理人: 张建青
- 主分类号: G06V20/62
- IPC分类号: G06V20/62 ; G06V30/19 ; G06V10/82 ; G06N3/0442 ; G06N3/045 ; G06N3/0464 ; G06N3/08
摘要:
本发明公开了一种用于去中心化场景的模型自适应文本识别方法和系统。本发明的方法包括步骤:利用多个文本识别源模型对一组目标域中的文本图像进行预测,得到经全部模型预测的字符序列标签;基于置信度和不确定性进行筛选,将符合条件的字符序列标签组成字符序列,和与其对应的文本图像作为伪标签对;基于多样性度量判断伪标签对是否可用于模型的自适应性训练,若否,则剔除,剩余的伪标签对组成训练集;采用训练集对模型进行自适应训练;训练之后的模型识别待测文本图像,并使用集成选择策略确定最终的文本识别结果。本发明在去中心化场景下设计新的伪标签筛选策略,仅利用多个模型和无标注的目标域文本图像,实现了模型自适应文本识别的效果。