
基本信息:
- 专利标题: 一种跨说话人语音风格建模方法及计算机可读存储介质
- 申请号:CN202111535836.8 申请日:2021-12-15
- 公开(公告)号:CN114242031B 公开(公告)日:2024-09-10
- 发明人: 吴志勇 , 李翔
- 申请人: 清华大学深圳国际研究生院
- 申请人地址: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
- 专利权人: 清华大学深圳国际研究生院
- 当前专利权人: 清华大学深圳国际研究生院
- 当前专利权人地址: 广东省深圳市南山区西丽街道深圳大学城清华校区A栋二楼
- 代理机构: 深圳新创友知识产权代理有限公司
- 代理人: 孟学英
- 主分类号: G10L13/02
- IPC分类号: G10L13/02 ; G10L25/03 ; G10L25/30
摘要:
本发明提供一种跨说话人语音风格建模方法及计算机可读存储介质,方法包括:构建跨说话人语音风格模型,包括:音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接,用于提取输入音频块的音色特征和风格特征;构建多说话人多风格类别的数据集并采用数据集训练跨说话人语音风格模型直至提取的音色特征和风格特征的误差不再下降;将任意一个说话人标签和一个风格类别标签输入到训练好的跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。得到具备跨说话人迁移能力的语音风格模型;通过基于块式组合的音频特征提取机制提高模型对于音色和风格建模结果的鲁棒性。
公开/授权文献:
- CN114242031A 一种跨说话人语音风格建模方法及计算机可读存储介质 公开/授权日:2022-03-25
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L13/00 | 语音合成;正文—语音合成系统 |
--------G10L13/02 | .产生合成语音的方法;语音合成设备 |