![针对视频中字幕的OCR识别系统](/CN/2024/1/143/images/202410718493.jpg)
基本信息:
- 专利标题: 针对视频中字幕的OCR识别系统
- 申请号:CN202410718493.6 申请日:2024-06-04
- 公开(公告)号:CN118429987A 公开(公告)日:2024-08-02
- 发明人: 郭鹏 , 李本阳
- 申请人: 北京车智慧信息技术有限公司
- 申请人地址: 北京市丰台区金丽南路3号院2号楼1至16层01内五层2026-21室
- 专利权人: 北京车智慧信息技术有限公司
- 当前专利权人: 北京车智慧信息技术有限公司
- 当前专利权人地址: 北京市丰台区金丽南路3号院2号楼1至16层01内五层2026-21室
- 代理机构: 北京市盛峰律师事务所
- 代理人: 于国栋
- 主分类号: G06V30/19
- IPC分类号: G06V30/19 ; G06V30/148 ; G06N3/045 ; G06V10/82 ; G06V20/40
摘要:
本发明属于OCR识别系统技术领域,且公开了针对视频中字幕的OCR识别系统,具体步骤如下:步骤一:文字检测模块OCR的文字检测部分主要使用了DBNet模型。通过第一次版面分析能够大致确定字幕的位置并且向上下扩展,通过判断是否有字幕,从而节省了算力,通过第一次版面分析获取字幕的大体位置,为第二次版面分析提供基础,第二次版面分析通过结合OCR识别结果以及去除字符等干扰信息和对同一水平区域文字检测结果的合并,有效减少了误识别,提高了字幕识别的准确性,再通过训练LR模型准确判断是否为字幕,进一步提高了字幕识别的准确性,准确获取了字幕的位置,最后通过去除水印字幕和将文本区域相近的文字合并。