![与语言无关的多语言端到端流式传输设备上的ASR系统](/CN/2022/8/16/images/202280081019.jpg)
基本信息:
- 专利标题: 与语言无关的多语言端到端流式传输设备上的ASR系统
- 申请号:CN202280081019.6 申请日:2022-09-22
- 公开(公告)号:CN118369713A 公开(公告)日:2024-07-19
- 发明人: 李博 , 塔拉·N·萨纳特 , 庞若鸣 , 张硕英 , 徐秋旻 , 特雷弗·施特勒曼 , 文斯·陈 , 梁桥 , 刘和广 , 何彦璋 , 帕里莎·哈哈尼 , 萨米尔·比迪钱达尼
- 申请人: 谷歌有限责任公司
- 申请人地址: 美国加利福尼亚州
- 专利权人: 谷歌有限责任公司
- 当前专利权人: 谷歌有限责任公司
- 当前专利权人地址: 美国加利福尼亚州
- 代理机构: 上海华诚知识产权代理有限公司
- 代理人: 肖华
- 优先权: 63/262,161 2021.10.06 US
- 国际申请: PCT/US2022/076893 2022.09.22
- 国际公布: WO2023/059992 US 2023.04.13
- 进入国家日期: 2024-06-06
- 主分类号: G10L15/16
- IPC分类号: G10L15/16
摘要:
方法(500)包括接收表征一个或多个话语(106)的声音帧(110)的序列作为对多语言自动语音识别(ASR)模型(200)的输入。该方法还包括为对应的声音帧生成较高阶特征表示(204)。该方法还包括基于由最终softmax层(240)输出的非空白符号(222)的序列来生成隐藏表示(355)。该方法还包括基于隐藏表示和较高阶特征表示而在可能的语音识别假设上生成概率分布。该方法还包括预测在每个话语的结尾处的话语结尾(EOU)令牌(232)。该方法还包括将每个声音帧分类为语音、初始静音、中间静音或最终静音。