会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 信号处理 / 信号 / 音频信号 / 语音信号 / 一种语音信号检测方法

一种语音信号检测方法

阅读:462发布:2020-05-13

IPRDB可以提供一种语音信号检测方法专利检索,专利查询,专利分析的服务。并且本发明公开了一种语音信号检测方法,用以解决现有技术中作为语音信号帧和静音帧判断标准的语音能量阀值不能根据实际情况动态修改,导致语音信号的判断不够准确的问题。本发明方法先获取一检测周期内的音频流数据,并按时间等分成若干帧,计算出每一帧的能量值,并与语音能量阀值比较,确定语音帧;再将所述检测周期内的每一帧的能量值分别与语音能量阀值相比较,若大于等于当前语音能量阀值的帧数多,则取该检测周期内各帧的最大能量值与当前语音能量阀值的平均值作为下一检测周期的语音能量阀值,否则取该检测周期内各帧的最小能量值与当前语音能量阀值的平均值;不断循环,直至所述音频流处理完毕。,下面是一种语音信号检测方法专利的具体信息内容。

1、一种语音信号检测方法,其特征在于包括下列步骤:

A、获取一检测周期内的音频流数据,并按时间等分成若干帧,计算出每一 帧音频流数据的能量值,并与语音能量阀值比较;若大于等于所述语音能量阀 值,则标识为语音帧,否则标识为静音帧;

B、统计当前周期内大于等于所述语音能量阀值的帧数和小于所述语音能量 阀值的帧数;若大于等于所述语音能量阀值的帧数多,则取该周期内各帧的最 大能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值; 否则,取该周期内内各帧的最小能量值与当前语音能量阀值的平均值作为下一 个检测周期的语音能量阀值;

C、转至步骤A,重复以上检测过程,直至全部音频流数据处理完毕。

2、如权利要求1所述的方法,其特征在于,所述语音能量阀值的初始值为 一预设值。

3、如权利要求2所述的方法,其特征在于,所述步骤B中统计当前周期内 大于等于所述语音能量阀值的帧数和小于所述语音能量阀值的帧数,具体方法 为:设置一个第一计数器,预设初始值为0,若当前帧的能量值大于等于当前语 音能量阀值,则使该计数器加1;当前周期内的全部帧比较完毕后,该第一计数 器的值即为当前周期内大于等于所述语音能量阀值的帧数;

设置一个第二计数器,预设初始值为0,若当前帧的能量值小于当前语音能 量阀值,则使该计数器加1;当前周期内的全部帧比较完毕后,该第二计数器的 值即为当前周期内小于所述语音能量阀值的帧数。

4、如权利要求1所述的方法,其特征在于,所述计算出每一帧音频流数据 的能量值,具体方法为:对该帧中的每一个采样点的幅值平方后,再加权平均 得到。

5、如权利要求1所述的方法,其特征在于,所述计算出每一帧音频流数据 的能量值,具体方法为:对该帧中的每一个采样点的幅值取绝对值后,再加权 平均得到。

6、如权利要求1所述的方法,其特征在于,所述一帧数据为连续2毫秒的 音频流数据。

7、如权利要求1所述的方法,其特征在于,所述检测周期为500毫秒。

说明书全文

技术领域

本发明涉及音频传输领域,特别是涉及一种语音信号检测方法

背景技术

通常人们互相交谈过程中,语音信号只占整个音频流的50%,而在视频会 议或者视频聊天等VOIP(Voice Over IP,以IP网络为载体的语音传输技术)业 务中,甚至会更低。因此把语音信号从音频流中提取出来,对于节约系统资源 是十分必要的。将语音信号从音频流中提取出来后,则只需要保存、处理所述 语音信号的数据,其他部分的数据则可以忽略掉,从而降低了存储空间。对于 VOIP业务,还可以减少数据传输量,节约网络带宽,减少网络堵塞,提高语音 质量。
为了达到这一目的,目前本领域(例如:应用十分广泛的语音编码器GSM、 G273)应用一种语音信号判断方法VAD(Voice Active Detection,语音活动检测)。 它是根据语音信号的特性,将音频流按25毫秒等分成若干帧,并对每帧的平均 能量、平均过零率等参数进行分析计算,将计算结果与事先设定的阀值比较, 如果高于已设定的阀值,则认为是语音信号帧,否则认为是静音帧。采用VAD 技术,编解码器可以对语音信号帧进行正常的编码,对静音帧则只需标记为静 音帧,这样使数据量大为降低,使编码效率大为提高。然而,在多数情况下, VAD技术并不能够准确有效地判断语音信号,这是由于音频信号的来源错综复 杂,而作为语音信号帧和静音帧判断标准的语音能量阀值是事先设定好的,不 能根据实际情况动态修改,所以导致语音信号的判断不够准确,无法有效的屏 蔽噪音,使得音频流回放时仍然伴有连续的噪声。
在实际获取、处理音频流时,首先,说话人的环境不同,会有各种各样的 噪音。如公路的汽车轰鸣声、机房里的机器噪音、雨天时的下雨声等等。这些 可能是有规律的连续噪音,也可能是无规律的突发噪音,这些背景音会不同程 度的影响语音质量。其次,音频采集设备也可能产出噪音。例如:50Hz或60Hz 电源就是主要的噪音源,组成采集设备的电子器件也能产生噪音,这就是为什 么有些计算机在没有插麦克风的情况下,仍然可以录出噪音的原因。另外,音 频采集设备的做工、选材以及类型不同所产生的噪音影响也不同。常见计算机 音频采集设备有声卡、采集卡以及内嵌在摄像头的采集设备。其中声卡应用最 为广泛,已成为计算机的标准配置,而采集卡采集声音质量最好,内嵌在摄像 头中的采集设备采集声音质量较差。最后,声音在数模转换时也会引入噪音。 声音在空气中以波的形式传播,是一种模拟信号,经过采集设备采集后转换成 数字信号,这就需要采样和量化。人耳的听觉范围在20-20KHz,根据NYQUIST (奈奎斯特)抽样定律要保证声音不失真,就必须用44KHz左右采样频率,由 于人的语音频率范围在300-3400Hz,所以对人声的采样大多数情况下采用 8KHz的采样频率。采样后需要对每个采样点进行量化,常用的量化方式有两种, 一种8位量化,另一种16位量化。采用的位数越少,失真越大,引入越大的噪 音,目前,绝大多数采用的是16位量化方式。
图1所示为日常生活中录制的语音的音频流波形图,录制的环境是办公室, 伴有机器轰鸣声,采集设备是内嵌式的,噪音信号比较强,采用VAD技术无法 有效的识别其中的语音信号和噪音信号,因此在回放时伴有大量连续的噪音。
基于VAD技术,为了达到更好的语音效果,有些VOIP系统对其做了一些 改进,其提供了一种自动控制麦克风音量技术,也就是判断噪音值,当噪音较 大时,则自动降低麦克风的采集音量。这种技术可以使得噪音降低,听觉上相 对较好,但也同时降低了语音信号的能量而导致语音音量下降,无法听清语音 信息。

发明内容

本发明提供一种语音信号检测方法,用以解决现有技术中作为语音信号帧 和静音帧判断标准的语音能量阀值不能根据实际情况动态修改,导致语音信号 的判断不够准确,无法有效屏蔽噪音的问题。
本发明提供的语音信号检测方法,包括下列步骤:
A、获取一检测周期内的音频流数据,并按时间等分成若干帧,计算出每一 帧音频流数据的能量值,并与语音能量阀值比较;若大于等于所述语音能量阀 值,则标识为语音帧,否则标识为静音帧;
B、统计当前周期内大于等于所述语音能量阀值的帧数和小于所述语音能量 阀值的帧数;若大于等于所述语音能量阀值的帧数多,则取该周期内各帧的最 大能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值; 否则,取该周期内内各帧的最小能量值与当前语音能量阀值的平均值作为下一 个检测周期的语音能量阀值;
C、转至步骤A,重复以上检测过程,直至全部音频流数据处理完毕。
所述语音能量阀值的初始值为一预设值。
所述步骤B中统计当前周期内大于等于所述语音能量阀值的帧数和小于所 述语音能量阀值的帧数,具体方法为:
设置一个第一计数器,预设初始值为0,若当前帧的能量值大于等于当前语 音能量阀值,则使该计数器加1;当前周期内的全部帧比较完毕后,该第一计数 器的值即为当前周期内大于等于所述语音能量阀值的帧数;
设置一个第二计数器,预设初始值为0,若当前帧的能量值小于当前语音能 量阀值,则使该计数器加1;当前周期内的全部帧比较完毕后,该第二计数器的 值即为当前周期内小于所述语音能量阀值的帧数。
所述计算出每一帧音频流数据的能量值,具体方法为:对该帧中的每一个 采样点的幅值平方后,再加权平均得到。
所述计算出每一帧音频流数据的能量值,具体方法为:对该帧中的每一个 采样点的幅值取绝对值后,再加权平均得到。
所述一帧数据为连续2毫秒的音频流数据。
所述检测周期为500毫秒。
本发明将一检测周期内的各帧的能量值分别与当前语音能量阀值进行比 较,得出能量值大于及小于当前语音能量阀值的帧数,再将二者进行比较,若 能量值大于当前语音能量阀值的帧数多,则取该检测周期内各帧的最大能量值 与当前语音能量阀值的平均值作为新的语音能量阀值,否则取该检测周期内各 帧的最小能量值与当前语音能量阀值的平均值作为新的语音能量阀值;利用这 种方法在处理音频流的过程中不断循环,可以每隔一个规定时间(检测周期) 更改一次语音能量阀值,使得作为语音信号帧和静音帧判断标准的语音能量阀 值不再是一个事先设定好的固定值,而是随着实际情况的变化,相应实时动态 地改变,从而达到更加准确的辨别语音信号的效果,进而达到有效屏蔽噪音信 号,提高语音质量的目的。

附图说明

图1所示为日常生活中音频流波形图;
图2所示为本发明方法步骤流程图;
图3所示为本发明方法中新阀值计算流程图。

具体实施方式

本发明涉及一种语音信号检测方法,图2为本发明方法的步骤流程图,图3 为本发明方法中新阀值计算流程图。下面结合附图2和附图3,描述本发明方法 的具体实施方法。
S1、获取一检测周期内的音频流数据,并按时间等分成若干帧,计算出每 一帧音频流数据的能量值,并与语音能量阀值比较;若大于等于所述语音能量 阀值,则标识为语音帧,否则标识为静音帧。
由于语音信号的复杂性,通常情况下无规律可寻,但在短时情况下是具有 规律性的,所以为了便于分析处理,需要对音频流进行分割。例如:将音频流 按时间为2ms/帧进行分割,这样在采样率为8KHz时,每帧可以采集到16个样 本,而在采样率为16KHz时,则每帧可以采集到32个样本。由于本发明是按时 间片进行数据帧分割,所以可以适应于各种采样频率下的语音检测。
本发明预定义一个检测周期,并预设一个语音能量阀值初始值。所述检测 周期,例如可以是500毫秒,该检测周期不宜设置太短,因为设定的时间太短 会导致频繁的修改语音能量阀值,丢失语音信号的相关性,造成误将大量语音 信号判为静音信号;也不宜设置太长,因为设定的时间过长,则在音频流进程 时间内语音能量阀值的变更次数太少,造成误将大量静音信号误判为语音信号, 这样就失去了动态修改语音能量阀值的意义。
以音频流按2ms/帧进行分割为例,先取第一个2ms的音频流数据,即第一 帧音频流数据,计算出该帧音频流数据的能量值,具体计算方法有如下两种:
方法之一:对这一帧中的每一个采样点的幅值平方后,再加权平均;
其计算公式为: W = 1 N Σ i = 1 N S 2
方法之二:对这一帧中的每一个采样点的幅值取绝对值后,再加权平均;
其计算公式为: W = 1 N Σ i = 1 N | S |
式中N表示在所述一帧中采样的个数;S表示采样点的幅值;得到该帧音 频流数据的能量值W。
采用第一种计算方法得到的结果比较精确,后续步骤达到的效果较好,但 其运算较复杂,对系统资源的消耗较大;采用第二种计算方法得到的结果精确 度相对较差,但运算过程简单,对系统要求不高。用户可根据自身条件及要求 选择一种计算方法。
计算得出当前帧音频流数据的能量值后,若该帧的能量值大于等于当前语 音能量阀值,则标识该帧为语音帧;同时,设置一个大于等于当前语音能量阀 值的帧计数器,预设初始值为0,若当前帧的能量值大于等于当前语音能量阀值, 则使该计数器加1。若当前帧的能量值小于当前语音能量阀值,则标识该帧为静 音帧;同时设置一个小于当前语音能量阀值的帧计数器,预设初始值为0,若当 前帧的能量值小于当前语音能量阀值,则使该计数器加1。如此循环,判断该检 测周期内的每一帧是语音帧或是静音帧。
S2、根据当前检测周期内统计的数据,计算并变更语音能量阀值。
结合上一步骤判断是语音帧或是静音帧的过程,在计算得到第一帧音频流 数据的能量值后,将其置为当前最大能量值及最小能量值。
处理完第一帧音频流数据后,取第二帧音频流数据,通过上述公式计算得 出第二帧音频流数据的能量值。将其与当前最大能量值及最小能量值分别比较, 若大于当前最大能量值,则将其置为新的最大能量值,若小于当前最小能量值, 则将其置为新的最小能量值;与此同时将该能量值与当前语音能量阀值相比较, 若大于等于当前语音能量阀值,则将大于等于当前语音能量阀值的帧计数器加 1,若小于当前语音能量阀值,则将小于当前语音能量阀值的帧计数器加1。
如此循环,直到设定的500ms时间到达,即处理了250个音频帧后,对所 述的两个计数器的计数值进行比较,若大于等于当前语音能量阀值的计数器统 计的帧数比小于当前语音能量阀值的计数器统计的帧数要多,则取该500ms内 各帧的最大能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能 量阀值,否则取该500ms内各帧的最小能量值与当前语音能量阀值的平均值作 为下一个检测周期的语音能量阀值。这样在第一个500ms到达时,原预设的语 音能量阀值被更新为通过对实时采集到的语音信号量化后,计算、统计得到的 新的能量值。
S3、转至步骤S1,重复以上检测过程,直至全部音频流数据处理完毕。
在对第一个500ms内的数据进行统计、计算并变更了语音能量阀值后,将 进入第二个500ms,在进入第二个500ms之前需要对所述两个计数器及当前最 大能量值和当前最小能量值清零,确保第二个500ms内的数据统计准确。在这 个500ms的时间内,则以上一500ms更新后的语音能量阀值为比较对象,以此 类推,不断根更新语音能量阀值,直至所述音频流处理完毕。
采用本方法可以每隔500ms对语音能量阀值进行一次更新,这样可以适应 各种复杂的语音环境,输出更好的语音效果。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用