专利快速检索-快速检索全球专利，免费商用专利数据库-IPRDB

1. 发明申请

WO2019132690A1 СПОСОБ И УСТРОЙСТВО ДЛЯ ПОСТРОЕНИЯ ГОЛОСОВОЙ МОДЕЛИ ЦЕЛЕВОГО ДИКТОРА 审中-公开
公开(公告)号：WO2019132690A1
公开(公告)日：2019-07-04
申请号：PCT/RU2017/000990
申请日：2017-12-27
申请人： ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЦЕНТР РЕЧЕВЫХ ТЕХНОЛОГИЙ"
发明人： НОВОСЕЛОВ, Сергей Александрович , КОЗЛОВ, Александр Викторович , РУМЯНЦЕВ, Дмитрий Александрович , КУДАШЕВ, Олег Юрьевич
IPC分类号： G10L25/30 , G10L25/75
CPC分类号： G10L25/30 , G10L25/75
摘要： Изобретение относится к области голосовой биометрии, в частности к задаче автоматической оценки голосовых моделей дикторов по записям их телефонных переговоров с автоматической привязкой голосовой модели диктора к номеру телефона. Способ получения голосовой модели целевого диктора, согласно которому осуществляют сегментацию по голосам дикторов по меньшей мере двух фонограмм телефонных переговоров с получением сегментов речи; строят голосовые модели дикторов по полученным сегментам речи; осуществляют кластеризацию построенных голосовых моделей дикторов с использованием метаданных телефонных переговоров с получением кластеров; определяют связи между кластерами на основании фонограмм телефонных переговоров; и выделяют кластер с наибольшим количеством связей как кластер целевого диктора. Также предложено устройство для получения голосовой модели целевого диктора.

2. 发明申请

WO2019094562A1 NEURAL NETWORK BASED BLIND SOURCE SEPARATION 审中-公开
公开(公告)号：WO2019094562A1
公开(公告)日：2019-05-16
申请号：PCT/US2018/059785
申请日：2018-11-08
申请人： GOOGLE LLC
发明人： YAN, Longfei , KLEIJN, Willem Bastiaan
IPC分类号： G10L21/0272 , G10L25/30
CPC分类号： G10L21/0272 , G10L25/30
摘要： A device includes a sound acquisition manager configured to receive a mixed audio signal including a first plurality of audio signals, an independent component analysis manager configured to determine a set of parameters configured to generate a second plurality of audio signals based on the first plurality of audio signals, and to minimize a correlation between pairs of signals of the converted second plurality of audio signals, and a memory configured to store the second plurality of audio signals as multi-channel audio data.

3. 发明申请

WO2019004592A1 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 审中-公开
公开(公告)号：WO2019004592A1
公开(公告)日：2019-01-03
申请号：PCT/KR2018/005647
申请日：2018-05-17
申请人： 한양대학교 산학협력단
发明人： 장준혁 , 노경진
IPC分类号： G10L19/038 , G10L25/30 , G10L21/038
CPC分类号： G10L19/038 , G10L21/038 , G10L25/30
摘要： 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법이 제시된다.　일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.

4. 发明申请

WO2018166316A1 融合多种端到端神经网络结构的说话人感冒症状识别方法审中-公开
公开(公告)号：WO2018166316A1
公开(公告)日：2018-09-20
申请号：PCT/CN2018/076272
申请日：2018-02-11
申请人：佛山市顺德区中山大学研究院 , 广东顺德中山大学卡内基梅隆大学国际联合研究院 , 中山大学
发明人：李明 , 倪志东
IPC分类号： G10L25/66 , G10L25/30 , G10L25/24
CPC分类号： G10L25/24 , G10L25/30 , G10L25/66
摘要：融合多种端到端深度学习结构的说话人感冒症状识别方法，由4个端到端的神经网络组成，当输入为原始语音或者语音频谱时，通过卷积神经网络提取最优特征，最后接长短期记忆网络或者全连接网络进行分类；当输入为梅尔倒谱系数(MFCC)或者常数Q倒谱系数(CQCC)时，直接通过长短期记忆网络进行分类，最后把这些系统融合在一起，整个流程把特征提取和模型分类两个问题统一在一起，使得整个说话人感冒症状识别过程更加简单快速。

5. 发明申请

WO2017213696A1 SYSTEMS AND METHODS FOR PREDICTING PRONUNCIATIONS WITH WORD STRESS 审中-公开
标题翻译：用词应力预测语音的系统和方法
公开(公告)号：WO2017213696A1
公开(公告)日：2017-12-14
申请号：PCT/US2016/065759
申请日：2016-12-09
申请人： GOOGLE LLC
发明人： CHUA, Mason Vijay , RAO, Kanury Kanishka , VAN ESCH, Daniel Jacobus Josef
IPC分类号： G10L13/10 , G10L25/30 , G10L15/187
CPC分类号： G10L13/10 , G10L13/0335 , G10L13/047 , G10L13/08 , G10L15/02 , G10L15/063 , G10L15/16 , G10L15/1815 , G10L15/187 , G10L17/18 , G10L25/30 , G10L2015/027
摘要： Methods, systems, and apparatus, including computer programs encoded on computer storage media, for generating word pronunciations. One of the methods includes determining, by one or more computers, spelling data that indicates the spelling of a word, providing the spelling data as input to a trained recurrent neural network, the trained recurrent neural network being trained to indicate characteristics of word pronunciations based at least on data indicating the spelling of words, receiving output indicating a stress pattern for pronunciation of the word generated by the trained recurrent neural network in response to providing the spelling data as input, using the output of the trained recurrent neural network to generate pronunciation data indicating the stress pattern for a pronunciation of the word, and providing, by the one or more computers, the pronunciation data to a text-to-speech system or an automatic speech recognition system.
摘要翻译：包括在计算机存储介质上编码的计算机程序的方法，系统和装置，用于生成单词发音。其中一种方法包括由一个或多个计算机确定指示单词拼写的拼写数据，将拼写数据作为输入提供给训练的递归神经网络，训练后的递归神经网络被训练以指示基于单词发音的特征至少在指示单词拼写的数据上，接收指示由训练的回归神经网络响应于提供拼写数据作为输入而生成的单词的发音的压力模式的输出，使用训练的回归神经网络的输出来生成发音指示单词发音的压力模式的数据，以及通过一个或多个计算机将发音数据提供给文本到语音系统或自动语音识别系统。

6. 发明申请

WO2017112466A1 MULTI-SPEAKER SPEECH SEPARATION 审中-公开
标题翻译：多音箱语音分离
公开(公告)号：WO2017112466A1
公开(公告)日：2017-06-29
申请号：PCT/US2016/066430
申请日：2016-12-14
申请人： MICROSOFT TECHNOLOGY LICENSING, LLC
发明人： YU, Dong
IPC分类号： G10L15/16 , G06N3/04 , G10L15/07 , G10L21/0272 , G10L17/18
CPC分类号： G10L25/30 , G06N3/0445 , G10L15/07 , G10L15/16 , G10L15/197 , G10L15/20 , G10L15/22 , G10L15/26 , G10L17/18 , G10L21/0272 , G10L25/18 , G10L25/21 , G10L2015/223
摘要： The technology described herein uses a multiple-output layer RNN to process an acoustic signal comprising speech from multiple speakers to trace an individual speaker's speech. The multiple-output layer RNN has multiple output layers, each of which is meant to trace one speaker (or noise) and represent the mask for that speaker (or noise). The output layer for each speaker (or noise) can have the same dimensions and can be normalized for each output unit across all output layers. The rest of the layers in the multiple-output layer RNN are shared across all the output layers. The result from the previous frame is used as input to the output layer or to one of the hidden layers of the RNN to calculate results for the current frame. This pass back of results allows the model to carry information from previous frames to future frames to trace the same speaker.
摘要翻译：这里描述的技术使用多输出层RNN来处理包括来自多个扬声器的语音的声学信号以跟踪个体说话者的语音。多输出层RNN具有多个输出层，每个输出层意味着跟踪一个扬声器（或噪声）并表示该扬声器（或噪声）的掩模。每个扬声器（或噪声）的输出层可以具有相同的尺寸，并且可以针对所有输出层中的每个输出单元进行归一化。多输出层RNN中的其余层在所有输出层之间共享。来自前一帧的结果被用作输出层或RNN的隐藏层之一的输入，以计算当前帧的结果。这种回传结果允许模型将来自先前帧的信息携带到未来帧以跟踪相同的说话者。

7. 发明申请

WO2017092216A1 一种语音质量评估方法、装置及设备审中-公开
公开(公告)号：WO2017092216A1
公开(公告)日：2017-06-08
申请号：PCT/CN2016/079528
申请日：2016-04-18
申请人：华为技术有限公司
发明人：肖玮 , 李素华 , 杨付正
IPC分类号： G10L25/60
CPC分类号： G10L25/60 , G10L25/18 , G10L25/21 , G10L25/30
摘要：一种语音质量评估方法，包括：获取语音信号的时域包络（101）；对时域包络进行时频变换得到包络频谱（102）；对包络频谱进行特征提取获得特征参数（103）；根据特征参数进行通信语音质量评价获得语音信号的第一语音质量参数（104），通过网络参数评估模型计算语音信号的第二语音质量参数（105）；根据第一语音质量参数与第二语音质量参数进行综合分析得到该段输入的语音信号的质量评估参数（106）。一种语音质量评估装置以及语音质量评估设备。

8. 发明申请

WO2017049164A1 DEVICE IMPAIRMENT DETECTION 审中-公开
标题翻译：器件损害检测
公开(公告)号：WO2017049164A1
公开(公告)日：2017-03-23
申请号：PCT/US2016/052258
申请日：2016-09-16
申请人： SONOS, INC.
发明人： HARTUNG, Klaus , BRIGHT, Greg
IPC分类号： H04R3/04 , H04S7/00 , G06N3/02
CPC分类号： G10L25/30 , G06F3/16 , G06N3/02 , G06N3/084 , H04R3/04 , H04R27/00 , H04R29/007 , H04R2227/005 , H04S7/301
摘要： Examples described herein involve detecting known impairments or other known conditions using a neural network. An example implementation involves receiving data indicating a response of a playback device as captured by a microphone. The implementation also involves determining an input vector by projecting a response vector that represents the response of the playback device onto a principle component matrix representing variance caused by one or more known impairments. The implementation further involves providing the determined input vector to a neural network that includes an output layer comprising neurons that correspond to respective known impairments. The implementation involves detecting that the input vector caused one or more neurons of the neural network to fire such that the neural network indicates that a particular known impairment is affecting the microphone and/or the playback device and adjusting operation of the playback device and/or the microphone to offset the particular known impairment.
摘要翻译：本文描述的示例涉及使用神经网络来检测已知的损伤或其他已知的条件。示例实现涉及接收指示由麦克风捕获的播放设备的响应的数据。该实现还包括通过将表示回放设备的响应的响应向量投影到表示由一个或多个已知损伤引起的方差的原理分量矩阵上来确定输入向量。该实现还包括将确定的输入向量提供给神经网络，该神经网络包括包括对应于各自已知损伤的神经元的输出层。该实现涉及检测输入向量导致神经网络的一个或多个神经元触发，使得神经网络指示特定的已知损伤影响麦克风和/或播放设备并且调整播放设备的操作和/或麦克风抵消特定的已知损伤。

9. 发明申请

WO2017031350A1 ASSESSING DISORDERS THROUGH SPEECH AND A COMPUTATIONAL MODEL 审中-公开
标题翻译：通过语音和计算模型评估疾病
公开(公告)号：WO2017031350A1
公开(公告)日：2017-02-23
申请号：PCT/US2016/047609
申请日：2016-08-18
申请人： MASSACHUSETTS INSTUTUTE OF TECHNOLOGY
发明人： QUATIERI, Thomas, F., Jr. , CICCARELLI, Gregory, Alan , GHOSH, Satrajit, S. , SMALT, Christopher, J. , WILLIAMSON, James, R. , PALMER, Jeffrey, Shane
IPC分类号： G10L25/66 , A61B5/00 , A61B5/16 , G10L17/26 , G10L25/30
CPC分类号： G10L25/66 , A61B5/165 , A61B5/4803 , A61B5/7275 , G06F19/00 , G10L17/26 , G10L25/30
摘要： In a system and method for assessing the condition of a subject, control parameters are derived from a neurophysiological computational model that operates on features extracted from a speech signal. The control parameters are used as biomarkers (indicators) of the subject's condition. Speech related features are compared with model predicted speech features, and the error signal is used to update control parameters within the neurophysiological computational model. The updated control parameters are processed in a comparison with parameters associated with the disorder in a library.
摘要翻译：在用于评估受试者状况的系统和方法中，控制参数是从对从语音信号中提取的特征进行操作的神经生理计算模型导出的。控制参数用作受试者状况的生物标志物（指标）。语音相关特征与模型预测语音特征进行比较，误差信号用于更新神经生理计算模型中的控制参数。更新的控制参数与与库中的紊乱相关联的参数进行比较处理。

10. 发明申请

WO2016197811A1 一种噪声抑制方法、装置及系统审中-公开
公开(公告)号：WO2016197811A1
公开(公告)日：2016-12-15
申请号：PCT/CN2016/083084
申请日：2016-05-24
申请人：广州广电运通金融电子股份有限公司
发明人：杜高峰 , 梁添才 , 刘建平 , 金晓峰
IPC分类号： G10L21/0208 , H04R3/00
CPC分类号： G10L21/0232 , G10K11/17821 , G10K2210/3038 , G10L21/0208 , G10L21/0216 , G10L25/21 , G10L25/30 , H04M9/082 , H04R3/00
摘要：一种噪声抑制方法、装置及系统。该方法包括：当语音信号输入时，噪声抑制装置接收到参考语音采集机构采集的内部噪声和主语音采集机构采集的包含有外部噪声的语音信号（S1）；提取内部噪声对应的内部信号特征（S2）；根据内部信号特征，并结合预置的映射公式获取与外部噪声相对应的外部近似特征（S3）；通过傅里叶逆变换将外部近似特征转换为对应的噪声信号估计值（S4）；将噪声信号估计与采集的包含有内部噪声的语音信号进行预置噪声对消方式处理，获取噪声抑制后的去噪语音信号（S5）。该方法能够解决由于参考麦克风和主麦克风的声场环境较大的差异，而导致的采用ANC方法将性能差的问题。

你已经成功收藏专利！

检索式保存成功!

IPRDB

热门服务

关于我们

友情链接

联系方式