专利号CN202410718493.6 | 针对视频中字幕的OCR识别系统

专利标题：针对视频中字幕的OCR识别系统
申请号：CN202410718493.6 申请日：2024-06-04
公开(公告)号：CN118429987A 公开(公告)日：2024-08-02
发明人：郭鹏 , 李本阳
申请人：北京车智慧信息技术有限公司
申请人地址：北京市丰台区金丽南路3号院2号楼1至16层01内五层2026-21室
专利权人：北京车智慧信息技术有限公司
当前专利权人：北京车智慧信息技术有限公司
当前专利权人地址：北京市丰台区金丽南路3号院2号楼1至16层01内五层2026-21室
代理机构：北京市盛峰律师事务所
代理人：于国栋
主分类号： G06V30/19
IPC分类号： G06V30/19 ; G06V30/148 ; G06N3/045 ; G06V10/82 ; G06V20/40

摘要：

本发明属于OCR识别系统技术领域，且公开了针对视频中字幕的OCR识别系统，具体步骤如下：步骤一：文字检测模块OCR的文字检测部分主要使用了DBNet模型。通过第一次版面分析能够大致确定字幕的位置并且向上下扩展，通过判断是否有字幕，从而节省了算力，通过第一次版面分析获取字幕的大体位置，为第二次版面分析提供基础，第二次版面分析通过结合OCR识别结果以及去除字符等干扰信息和对同一水平区域文字检测结果的合并，有效减少了误识别，提高了字幕识别的准确性，再通过训练LR模型准确判断是否为字幕，进一步提高了字幕识别的准确性，准确获取了字幕的位置，最后通过去除水印字幕和将文本区域相近的文字合并。

中国专利公布公告审查信息 Global Dossier Espacenet

G	物理
--G06	计算；推算；计数
----G06V	图像或视频识别或理解笔记 1.本子类涵盖：特别适用于图像或视频的模式识别或机器学习的方法或安排。 2.在本小类中，下列术语或表述的使用具有指明的含义： “模式识别”是指通过获取、预处理或提取显着特征并对这些特征或其表示进行匹配、聚类或分类，对模式进行检测、分类、认证和识别，以用于解释目的或在图像或视频中推导出某种含义； “特征提取”是指从图像或视频中得出描述性或定量的度量； “聚类”是指根据模式的（不同）相似性或接近程度对模式进行分组或分离； “分类”是指通过分配标签将对象/特征识别为属于一类对象/特征。 3.在本小类中，归入G06V20/00-G06V40/00组的主题，如果识别依赖于获取或预处理阶段的特定处理，则也分别归入G06V10/10或G06V10/20组。
------G06V30/00	字符识别；数字墨迹识别；面向文档的基于图像的模式识别
--------G06V30/10	.字符识别
----------G06V30/19	..使用电子方式识别

发明公开 CN118429987A 针对视频中字幕的OCR识别系统 审中-实审

基本信息:

信息查询:

IPC结构图谱:

IPRDB

热门服务

关于我们

友情链接

联系方式