
基本信息:
- 专利标题: 一种语音数据的处理方法、装置、设备及存储介质
- 申请号:CN202210511095.8 申请日:2022-05-11
- 公开(公告)号:CN114913870B 公开(公告)日:2025-06-10
- 发明人: 姜彦吉 , 邱友利 , 苏航 , 陈敏 , 郑四发
- 申请人: 清华大学苏州汽车研究院(相城)
- 申请人地址: 江苏省苏州市相城区高铁新城太阳路2266号5幢
- 专利权人: 清华大学苏州汽车研究院(相城)
- 当前专利权人: 清华大学苏州汽车研究院(相城)
- 当前专利权人地址: 江苏省苏州市相城区高铁新城太阳路2266号5幢
- 代理机构: 北京品源专利代理有限公司
- 代理人: 岳晓萍
- 主分类号: G10L21/0272
- IPC分类号: G10L21/0272 ; G10L21/0308 ; G10L25/30
摘要:
本发明公开了一种语音数据的处理方法、装置、设备及存储介质。该方法包括:获取待分离语音数据,并对待分离语音数据进行特征提取,得到待分离语音特征;按照预设块长和预设步长对待分离语音特征进行分段,得到至少两个语音分块特征;通过块内处理单元提取各语音分块特征的第一维度特征;和,通过块间处理单元提取各语音分块特征的第二维度特征;融合各语音分块特征的第一维度特征和第二维度特征,以得到至少两个语音预测特征;根据各语音预测特征和待分离语音特征,确定各语音分离结果。本技术方案解决了基于时域的分离方法语音分离信噪比低的问题,可以在提升信噪比的同时,降低模型参数,进而达到良好的语音分离效果。
公开/授权文献:
- CN114913870A 一种语音数据的处理方法、装置、设备及存储介质 公开/授权日:2022-08-16
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L21/00 | 为了改变语音信号的品质或其可理解性而处理语音信号以产生另一种可听的或非可听的信号,例如视觉信号、触觉信号 |
--------G10L21/003 | .改变声音质量,例如音调或共振峰 |
----------G10L21/0272 | ..声音信号的分离 |