会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 6. 发明申请
    • SYSTEM AND METHODS FOR ADAPTING NEURAL NETWORK ACOUSTIC MODELS
    • 适应神经网络声学模型的系统和方法
    • WO2017099936A1
    • 2017-06-15
    • PCT/US2016/061326
    • 2016-11-10
    • NUANCE COMMUNICATIONS, INC.
    • ZHAN, PumingLI, Xinwei
    • G10L15/16G10L15/07
    • G10L15/075G10L15/07G10L15/14G10L15/16G10L17/02
    • Techniques for adapting a trained neural network acoustic model, comprising using at least one computer hardware processor to perform: generating initial speaker information values for a speaker; generating first speech content values from first speech data corresponding to a first utterance spoken by the speaker; processing the first speech content values and the initial speaker information values using the trained neural network acoustic model; recognizing, using automatic speech recognition, the first utterance based, at least in part on results of the processing; generating updated speaker information values using the first speech data and at least one of the initial speaker information values and/or information used to generate the initial speaker information values; and recognizing, based at least in part on the updated speaker information values, a second utterance spoken by the speaker.
    • 包括使用至少一个计算机硬件处理器来执行以下操作:调节训练的神经网络声学模型的技术:生成说话者的初始说话者信息值; 从对应于讲话者讲的第一话语的第一讲话数据中产生第一讲话内容值; 使用训练的神经网络声学模型处理第一语音内容值和初始说话者信息值; 至少部分地基于所述处理的结果,使用自动语音识别来识别所述第一话语; 使用第一语音数据和初始说话人信息值和/或用于生成初始说话人信息值的信息中的至少一个生成更新的说话人信息值; 以及至少部分基于更新后的说话者信息值来识别说话者说出的第二话语。
    • 7. 发明申请
    • SYSTEM AND METHOD FOR GENERATING ACCURATE SPEECH TRANSCRIPTION FROM NATURAL SPEECH AUDIO SIGNALS
    • 用于从自然语音音频信号生成精确语音转录的系统和方法
    • WO2016139670A1
    • 2016-09-09
    • PCT/IL2016/050246
    • 2016-03-03
    • VOCASEE TECHNOLOGIES LTD
    • NIR, Igal
    • G10L15/00G10L15/04G10L15/06G10L15/07G10L15/02G10L15/26G10L15/32
    • G10L15/08G06F17/18G06F17/3074G10L15/02G10L15/05G10L15/063G10L15/07G10L15/32G10L25/18
    • Apparatus for generating accurate speech transcription from natural speech, comprising a data storage for storing a plurality of audio data items, each of which being recitation of text by a specific speaker! a plurality of ASR modules, each of which being trained to optimally create a unique acoustic/linguistic model according to the spectral components contained in said audio data item and analyzing each audio data item and representing said audio data item by an ASR module! a memory for storing all unique acoustic/linguistic models! a controller, adapted to receive natural speech audio signals and divide each natural speech audio signal to equal segments of a predetermined time! adjust the length of each segment, such that each segment will contain one or more complete words! distribute said segments to all ASR module and activate each ASR module to generate a transcription of the words in each segment according to the level of matching to its unique acoustic/linguistic model! calculate, for each given word in a segment, a confidence measure being the probability that said given word is correct; for each segment and for each ASR module, calculate the average confidence of the transcription; obtain the confidence for each word in the segment and calculating mean confidence value of said word! for each segment, decide which transcription is the most accurate by choose only the ASR module with the highest average confidence, from all chosen ASR modules for said segment and creating the transcription of said audio signal by combining all transcriptions resulting from the decisions made for each segment.
    • 用于从自然语音产生准确语音转录的装置,包括用于存储多个音频数据项的数据存储器,每个音频数据项由特定扬声器引用文本。 多个ASR模块,其中的每一个被训练成根据包含在所述音频数据项中的频谱分量最佳地创建独特的声学/语言模型,并通过ASR模块分析每个音频数据项并表示所述音频数据项! 用于存储所有独特的声学/语言模型的记忆! 控制器,适于接收自然语音音频信号,并将每个自然语音音频信号划分成预定时间的相等分段! 调整每段的长度,使每个段都包含一个或多个完整的单词! 将所述段分发到所有ASR模块,并激活每个ASR模块,以根据与其独特的声学/语言模型的匹配水平来生成每个段中的单词的转录! 对于段中的每个给定单词,计算所述给定单词正确的概率的置信度度量; 对于每个段和每个ASR模块,计算转录的平均置信度; 获取段中每个单词的置信度,并计算该单词的平均置信度值! 对于每个段,通过仅选择具有最高平均置信度的ASR模块,从所述段的所有选择的ASR模块中确定哪个转录是最准确的,并通过组合由每个决定产生的所有转录来创建所述音频信号的转录 分割。
    • 8. 发明申请
    • APPARATUS AND METHODS USING A PATTERN MATCHING SPEECH RECOGNITION ENGINE TO TRAIN A NATURAL LANGUAGE SPEECH RECOGNITION ENGINE
    • 使用模式匹配语音识别引擎训练自然语言语音识别引擎的装置和方法
    • WO2013185070A1
    • 2013-12-12
    • PCT/US2013/044772
    • 2013-06-07
    • NVOQ INCORPORATED
    • CORFIELD, CharlesMARQUETTE, Brian
    • G10L15/07G10L15/26
    • G10L15/07G10L15/32
    • The technology of the present application provides a speech recognition system with at least two different speech recognition engines or a single engine speech recognition engine with at least two different modes of operation. The first speech recognition being used to match audio to text, which text may be words or phrases. The matched audio and text is used by a training module to train a user profile for a natural language speech recognition engine, which is at least one of the two different speech recognition engines or modes. An evaluation module evaluates when the user profile is sufficiently trained to convert the speech recognition engine from the first speech recognition engine or mode to the natural language speech recognition or mode.
    • 本申请的技术提供了具有至少两种不同语音识别引擎或具有至少两种不同操作模式的单个引擎语音识别引擎的语音识别系统。 第一个语音识别用于将音频与文本进行匹配,哪个文本可以是单词或短语。 匹配的音频和文本由训练模块用于训练用于自然语言语音识别引擎的用户简档,所述自然语言语音识别引擎是两种不同语音识别引擎或模式中的至少一种。 评估模块评估何时用户简档被充分训练以将语音识别引擎从第一语音识别引擎或模式转换为自然语言语音识别或模式。
    • 9. 发明申请
    • СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ
    • 用于重写音频材料的方法和用于执行音频材料的设备
    • WO2013180600A2
    • 2013-12-05
    • PCT/RU2013/000404
    • 2013-05-16
    • БРЕДИХИН, Александр Юрьевич
    • БРЕДИХИН, Александр Юрьевич
    • G10L13/02G10L15/07
    • G10L13/02G10L13/033G10L21/003
    • Способ и устройство позволяют повысить качество проведения фазы обучения, улучшить степень совпадения голоса пользователя (целевого диктора) в конвертированном речевом сигнале, обеспечить возможность одноразового проведения фазы обучения для различных аудиоматериалов. Указанный технический результат достигается тем, что в программно управляемом электронном устройстве обработки информации (ПУЭУОИ) формируют акустическую базу исходных аудиоматериалов (АБИА) и акустическую обучающую базу (АОБ). Передают данные из АБИА для отображения списка исходных аудиоматериалов на экране монитора. При выборе из списка АБИА по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в ОЗУ ПУЭУОИ. Осуществляют выбор из АОБ обучающих фраз диктора файлы, которые преобразуют в звуковые фразы и передают их пользователю на устройство воспроизведения звука. Пользователь посредством микрофона воспроизводит звуковые фразы, в процессе воспроизведения которых на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести. Создают файлы в соответствии с воспроизводимыми фразами, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора (АБЦД). ПУЭУОИ производит контроль скорости воспроизводимой фразы и ее громкости. Формируют файл функции конверсии. Файлы АБИА, используя файл функции конверсии, конвертируют для сохранения в формируемой акустической базе конвертированных аудиоматериалов (АБКА) и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора. Устройство содержит соответствующие функциональные блоки, реализующие способ.
    • 该方法和装置允许增加训练阶段的质量,增加用户(目标讲话者)在转换的语音信号中的语音的一致程度,并提供单次进行训练阶段的可能性 各种音响材料。 该技术结果通过在软件控制的电子设备中创建原始音频材料的声学数据库和声学训练数据库来实现,用于处理信息。 来自原始音频材料的声学数据库的数据用于在监视器的屏幕上显示原始音频材料的列表。 在从原始音频材料的声学数据库提供的列表中选择至少一个音频材料之后,将关于所述音频材料的数据转移到存储到软件控制的电子设备的随机存取存储器中以用于处理信息。 训练短语文件从声学教学数据库中选出,转化为声学短语,并通过声音再现装置发送给用户。 用户通过麦克风再现声学短语,在再现其中的短语的过程中,要再现的短语的文本与沿着短语的文本移动的光标一起显示在监视器屏幕上,根据 用户必须重现所述短语的方式。 根据要再现的短语创建文件,并按照再现所述文件的顺序将其保存到目标扬声器声学数据库。 用于处理信息的软件控制电子设备监视要再现的短语的速度和音量。 形成转换功能文件。 使用转换功能文件转换原始音频材料的声学数据库的文件,然后将其保存到转换音频材料的声学数据库中,并以转换的音频材料数据的形式呈现给用户 显示器的屏幕。 该装置包含用于执行该方法的相应功能单元。