专利号CN202410717659.2 | 基于时空深度特征自适应决策的歌唱口型实时检测方法

专利标题：基于时空深度特征自适应决策的歌唱口型实时检测方法
申请号：CN202410717659.2 申请日：2024-06-04
公开(公告)号：CN118736641A 公开(公告)日：2024-10-01
发明人：廖赐麟 , 陈映红 , 廖桂萌 , 罗晨璐 , 白森杰 , 章先恒 , 廖一鹏
申请人：福建师范大学
申请人地址：福建省福州市闽侯县上街镇乌龙江中大道18号福建师范大学旗山校区
专利权人：福建师范大学
当前专利权人：福建师范大学
当前专利权人地址：福建省福州市闽侯县上街镇乌龙江中大道18号福建师范大学旗山校区
代理机构：福州元创专利商标代理有限公司
代理人：郭东亮; 蔡学俊
主分类号： G06V40/16
IPC分类号： G06V40/16 ; G06V10/764 ; G06V10/82 ; G06N3/0442 ; G06N3/084 ; G06N3/09

摘要：

本发明提出基于时空深度特征自适应决策的歌唱口型实时检测方法，包括以下步骤；步骤S1、采集歌唱者的人脸视频图像，并根据实际发声的口型进行图像标注，构建用于模型训练和测试的样本数据集；步骤S2、构建基于YOLOv8的歌唱口型目标实时检测网络，从人脸视频中分割出歌唱发声的口型图像；步骤S3、构建基于胶囊网络的口型空间深度特征提取模型，将提取的一系列空间深度特征输入到BiLSTM网络，通过BiLSTM网络进一步抽取口型图像的时间序列特征；步骤S4、采用爱情进化算法优化随机森林算法的超参数，将抽取的时间序列特征映射到随机森林的高维空间进行自适应决策分类；本发明可实时检测歌手在演唱过程中的口型变化情况，且相比人工方式更客观高效。

中国专利公布公告审查信息 Global Dossier Espacenet

G	物理
--G06	计算；推算；计数
----G06V	图像或视频识别或理解笔记 1.本子类涵盖：特别适用于图像或视频的模式识别或机器学习的方法或安排。 2.在本小类中，下列术语或表述的使用具有指明的含义： “模式识别”是指通过获取、预处理或提取显着特征并对这些特征或其表示进行匹配、聚类或分类，对模式进行检测、分类、认证和识别，以用于解释目的或在图像或视频中推导出某种含义； “特征提取”是指从图像或视频中得出描述性或定量的度量； “聚类”是指根据模式的（不同）相似性或接近程度对模式进行分组或分离； “分类”是指通过分配标签将对象/特征识别为属于一类对象/特征。 3.在本小类中，归入G06V20/00-G06V40/00组的主题，如果识别依赖于获取或预处理阶段的特定处理，则也分别归入G06V10/10或G06V10/20组。
------G06V40/00	识别图像或视频数据中的生物特征、人类相关或动物相关模式
--------G06V40/10	.人体或动物体，例如车辆乘员或行人；身体部位，例如手
----------G06V40/16	..人脸，例如面部部分、草图或表情

发明公开 CN118736641A 基于时空深度特征自适应决策的歌唱口型实时检测方法 审中-实审

基本信息:

信息查询:

IPC结构图谱:

IPRDB

热门服务

关于我们

友情链接

联系方式