![一种基于条件生成对抗网络的蒙古语情感语音合成方法](/CN/2023/1/145/images/202310729047.jpg)
基本信息:
- 专利标题: 一种基于条件生成对抗网络的蒙古语情感语音合成方法
- 申请号:CN202310729047.0 申请日:2023-06-19
- 公开(公告)号:CN117079637A 公开(公告)日:2023-11-17
- 发明人: 仁庆道尔吉 , 王乐乐 , 石宝 , 吉亚图 , 李雷孝
- 申请人: 内蒙古工业大学
- 申请人地址: 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区
- 专利权人: 内蒙古工业大学
- 当前专利权人: 内蒙古工业大学
- 当前专利权人地址: 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区
- 代理机构: 西安智大知识产权代理事务所
- 代理人: 段俊涛
- 主分类号: G10L13/027
- IPC分类号: G10L13/027 ; G10L13/08 ; G10L25/18 ; G10L25/30 ; G10L25/63
摘要:
一种基于条件生成对抗网络的蒙古语情感语音合成方法,对蒙古语文本进行字母到音素转换,得到音素序列数据;从蒙古语情感音频提取梅尔频谱一;将音素序列数据与梅尔频谱一输入语音文本联合预训练模型,训练语音和文本的对齐信息;FastSpeech2声学模型中加入情感模块,得到改进模型,以改进模型为生成器,引入鉴别器和情感标签构建条件生成式对抗网络;生成器以语音文本联合预训练模型的输出为输入,输出梅尔频谱二,鉴别器判断梅尔频谱二与梅尔频谱一,直至误差小于预设;将满足误差要求的梅尔频谱二输入至声码器,将声学特征转换为语音波形,完成蒙古语情感语音合成。本发明可以直接从字符合成情感语音,大大降低对语言学知识的要求。
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L13/00 | 语音合成;正文—语音合成系统 |
--------G10L13/02 | .产生合成语音的方法;语音合成设备 |
----------G10L13/027 | ..概念-语音合成;从基于机器的概念产生自然词语 |