![一种基于多模态深度学习的第一人称视角注视点预测方法](/CN/2024/1/185/images/202410928015.jpg)
基本信息:
- 专利标题: 一种基于多模态深度学习的第一人称视角注视点预测方法
- 申请号:CN202410928015.8 申请日:2024-07-11
- 公开(公告)号:CN118821047A 公开(公告)日:2024-10-22
- 发明人: 李玉洁 , 王星河 , 覃晓 , 丁数学
- 申请人: 桂林电子科技大学
- 申请人地址: 广西壮族自治区桂林市七星区金鸡路一号
- 专利权人: 桂林电子科技大学
- 当前专利权人: 桂林电子科技大学
- 当前专利权人地址: 广西壮族自治区桂林市七星区金鸡路一号
- 主分类号: G06F18/25
- IPC分类号: G06F18/25 ; G06F18/214 ; G06F18/213 ; G06V20/40 ; G06N3/0455 ; G06N3/0464 ; G06F3/01 ; H04N21/233 ; H04N21/234 ; H04N21/2343 ; H04N21/439 ; H04N21/44 ; H04N21/4402
摘要:
本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。