![一种结合自回归的端到端的文本合成语音方法及系统](/CN/2024/1/108/images/202410543863.jpg)
基本信息:
- 专利标题: 一种结合自回归的端到端的文本合成语音方法及系统
- 申请号:CN202410543863.7 申请日:2024-05-06
- 公开(公告)号:CN118135990A 公开(公告)日:2024-06-04
- 发明人: 柳骏杰 , 邢东进 , 杨洪进
- 申请人: 厦门立马耀网络科技有限公司
- 申请人地址: 福建省厦门市思明区软件园二期望海路14号之一5层
- 专利权人: 厦门立马耀网络科技有限公司
- 当前专利权人: 厦门立马耀网络科技有限公司
- 当前专利权人地址: 福建省厦门市思明区软件园二期望海路14号之一5层
- 代理机构: 厦门呈睿知识产权代理有限公司
- 代理人: 郑拥军
- 主分类号: G10L13/027
- IPC分类号: G10L13/027 ; G10L13/08 ; G10L19/00 ; G10L25/30 ; G10L25/69
摘要:
本发明提供了一种结合自回归的端到端的文本合成语音方法及系统,涉及语音合成技术领域,包括将当前参考音频和待推理文本输入语音模型的语义语言模块,推理得到音频离散编码;将当前参考音频和待推理文本输入持续语言模块,推理得到音频的持续时间信息;将当前参考音频、待推理文本、音频离散编码、持续时间信息传入语音模型的信息编码模块,得到先验分布的均值和方差;基于均值和方差,采样得到先验分布的隐变量;将隐变量和当前参考音频传入生成器模块,生成音频。本方法解决了纯自回归文本到语音模型推理速度慢、容易吞字以及端到端模型需要依赖大量音频数据的问题。
公开/授权文献:
- CN118135990B 一种结合自回归的端到端的文本合成语音方法及系统 公开/授权日:2024-11-05
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L13/00 | 语音合成;正文—语音合成系统 |
--------G10L13/02 | .产生合成语音的方法;语音合成设备 |
----------G10L13/027 | ..概念-语音合成;从基于机器的概念产生自然词语 |