基于改进语音存在概率的自适应噪声跟踪算法

(中国民航大学智能信号与图像处理天津市重点实验室,天津 300300)

摘要：在非平稳环境下,由于时间递归平均噪声功率谱估计算法会出现跟踪延迟和估计误差等问题,本文采用一种新的方式对其核心部分语音存在概率(speech presence probability, spp)进行估计。利用时域的特征能量与频域的特征谱熵之间的比值-能熵比作为新的特征来构建其与spp的正比关系,从而得到当前语音帧的spp估计值;然后用双平滑系数对该值进行平滑;最后结合时间递归平均算法得到估计的噪声功率谱。该算法充分利用语音帧频点的特征信息控制spp的估计值,以此自适应地跟踪噪声变化。实验结果表明:在地空通信环境下,该方法能够准确且连续地跟踪噪声功率谱、快速响应其变化。集成到语音增强系统后,可以提高语音质量,降低残留噪声。

引用格式: 王文益, 伊雪. 基于改进语音存在概率的自适应噪声跟踪算法[J]. 信号处理, 2020, 36(1): 32- 41. DOI: 10.16798/j.issn.1003- 0530.2020.01.005.

Reference format: Wang Wenyi, Yi Xue. An Adaptive Noise Tracking Algorithm Using Improved Speech Presence Probability[J]. Journal of Signal Processing, 2020, 36(1): 32- 41. DOI: 10.16798/j.issn.1003- 0530.2020.01.005.

An Adaptive Noise Tracking Algorithm Using Improved Speech Presence Probability

(Tianjin Key Laboratory for Advanced Signal Processing, Civil Aviation University of China, Tianjin 300300, China)

Abstract: The time recursive averaging noise power spectrum estimation algorithm had the problems of tracking delay and estimation error in non-stationary noise environment. This paper proposed a new spp(speech presence probability) estimation algorithm which was a core part of noise power spectrum estimation algorithm. Firstly, the ratio of energy in time domain to spectrum entropy in frequency domain was used as a new feature to obtain the spp of current speech frame; then the estimation of spp was smoothed by the double smoothing coefficient; finally, the estimated noise power spectrum was obtained by combining with time recursive averaging algorithm. This algorithm made full use of the feature information of frequency point to control the spp and track the noise changes adaptively. The simulations show that this method can accurately track the noise power spectrum and quickly respond to the noise power spectrum changes in the air-ground communication environment. Integrating it into speech enhancement system can improve speech quality and reduce residual noise.

Key words： noise power spectrum estimation; the ratio of energy to spectral entropy; speech presence probability; speech enhancement

1 引言

语音信号的不稳定性导致其在通信中会受到许多未知的干扰,因此语音增强在语音信号处理中占据重要地位。语音增强技术是在最小失真前提下尽可能提取带噪语音中的纯净语音,以提高通信内容的清晰度,增加舒适感,正确获取有效信息[1]。作为语音增强的主要环节,准确地估计噪声功率谱十分重要,决定着语音处理系统的性能[2-3]。

在平稳环境中,通常根据语音活动检测(Voice Activity Detection, VAD)[4-5]结果确定的无话段更新噪声功率谱的估计。而在更多的实际场景中,噪声是持续变化的,该方法不能准确切分有话段和无话段,以致于不能对噪声有效的跟踪,因此极大地影响了语音增强系统的性能。文献[6]中采用最优平滑系数的平滑策略与最小统计量相结合的噪声功率谱估计方法,在搜索功率谱最小值时极易使估计的噪声功率谱水平偏低;在噪声突然变大或变小时需要较长的时间才能跟踪上,且当语音的持续时间超过搜索最小值的窗长时,该算法估计得到的噪声功率谱会出现峰值;此外还会因计算量过大而具有较高的空间和时间复杂度。后来Cohen[7]采用一种最小值控制的递归平均(Minima Controlled Recursive Averaging, MCRA)思想来估计噪声功率谱,首先通过带噪语音功率谱最小值来计算语音存在概率,又由于噪声非均匀叠加于各个频率的语音频谱之上,所以当某频带的语音存在概率很低时,可以按照频带来更新噪声的估计。在此基础之上,Cohen[8]又提出了采用两次最小值控制的迭代过程进行估计,首先通过第一次平滑和最小值跟踪来对语音端点进行粗判决,之后进行第二次平滑和最小值跟踪防止语音分量混入噪声功率谱中。随后,Rachagari[9]提出一种相对简化的最小值控制估计语音存在概率的方法来估计噪声功率谱,但判决门限与频率有关。而李光源[10]和Momeni[11]认为这种获得语音存在概率的硬判决不能充分利用当前频点信息,所以采用软判决代替硬判决,前者利用后验信噪比对语音存在概率进行估计,后者利用相邻帧和相邻频带在时域和频域上的相关性估计当前帧的语音存在概率。文献[12]中为了简化算法复杂度、降低运算时延,提出了一种无需偏差补偿的噪声功率谱估计方法,有效避免了噪声功率谱的过估计,但后验语音存在概率的求解与前提假设的语音存在和不存在的先验概率无关。2017年许春冬[13]等人利用高斯混合模型对每一个频带上的功率谱包络构建统计模型,其中语音和非语音的统计分布分别对应于高斯混合模型的两个高斯分量,最后在极大似然准则下逐帧更新模型参数,并逐帧给出噪声功率谱的最优估计值。实验结果表明算法性能有所提高,但该方法假设语音和非语音部分均服从高斯分布。文献[14]中提出的用深层神经网络进行语音增强和文献[15]中用深度学习进行语音存在概率的估计也取得了不错的效果,但其存在计算资源消耗过大以及具有较大时延的问题,难以满足地空通信近乎实时的需要。

针对以上问题,鉴于时间递归平均噪声功率谱估计算法的优良特性以及其对非平稳噪声跟踪慢的缺点,考虑到地空通信实际系统的要求以及带噪语音信号的特征[16],本文提出一种改进语音存在概率的自适应噪声跟踪算法。首先对带噪语音信号在时频域分别计算出能量和谱熵值,以此获得新的特征参数能熵比,随后构建能熵比与语音存在概率的正比的关系并估计出语音存在的概率;然后用双平滑系数对语音存在概率的估计值进行平滑,这样做的目的是防止估计的语音存在概率值偏高而引发的噪声跟踪较慢以及偏低造成的噪声过估计现象;最后采用时间递归平均的思想结合语音存在概率即可以得到估计值。经验证:该方法对噪声有不错的跟踪效果,运用适当的语音增强算法后,无论在仿真条件下还是在真实地空通信环境下的增强性能均显著提高。

2 时间递归平均噪声功率谱估计模型

时间递归平均噪声功率谱估计算法主要应用于非平稳环境中,该方法利用了噪声对语音频谱具有不均匀影响的现象,即不同的频谱分量会具有不同的实际信噪比。因此当某一频带具有很低的信噪比时,可认为该频带只存在噪声,即采用按照频带更新的方式估计噪声功率谱[7]。

2.1 语音信号模型

假设纯净语音信号为x(n),噪声信号为d(n),则观测信号即带噪语音信号y(n)为:

首先将获取到的y(n)分帧加窗处理,分帧的原因是语音是非平稳信号,一般认为时长为20 ms左右时具有短时平稳性,为避免相邻两帧信号变化过大,帧与帧之间要设置重叠部分,即为帧移;加窗的作用是增加分帧后语音信号的连续性,防止频谱泄露[17-18]。

然后对预处理后的y(n)作短时傅里叶变换(Short Time Fourier Transform, STFT),得到:

其中,k为频率索引,l为时间帧索引,N为帧长,M为帧移,h(n)为汉明窗。

那么对式(1)两边同时进行STFT,可得:

其中,Y(k,l)、X(k,l)和D(k,l)分别代表带噪语音、纯净语音和噪声第l帧的第k个频率分量。

将式(3)两边平方,可求得功率谱[18]表达式为:

由于x(n)和d(n)独立,则式(4)中后面两项的互谱统计均值为0,所以式(4)可写为:

2.2 噪声功率谱估计

基于时间递归平均的噪声功率谱估计可以分为两种情况处理:分别设语音存在和不存在时下一帧噪声功率谱的估计值为

和

则当语音存在时,保持下一帧估计值与当前帧估计值一致,即:

当语音不存在时,由时间递归平均的原理,噪声的估计值与过去的噪声估计和带噪语音谱有关,即:

其中,αd为递归平滑常数。

对于某一帧语音来说,在无法确定该帧语音是否存在时,需要引入语音存在的概率这一变量。设第l帧第k个频率分量语音存在的概率为p(k,l),则语音不存在的概率1-p(k,l),那么最终噪声功率谱估计表示为式(6)和式(7)与概率值的加权求和,设其表达式为

即:

将式(6)中的

和式(7)中的

代入式(8),整理得:

其中,

为第l帧第k个频率分量的平滑因子,由第l帧第k个频率分量的语音存在概率决定,其表达式为:

3 提出算法

本文在估计语音存在概率时采用一种软判决的方式。从时域角度来看,语音的短时能量作为区分语音有无的依据;从频域来看,当前帧频点的谱熵越低,则该帧频点的语音存在概率越高[19]。基于噪声变化慢于语音的假设,本文将语音信号时域的特征能量与频域的特征谱熵的比值作为新的特征来估计语音存在概率,不仅改善了短时能量在低信噪比时语音帧和噪声帧易混淆的弊端,而且弥补了谱熵在无噪声条件下特征不明显的缺陷[20]。具体算法流程如图1所示。

3.1 短时能量

设对y(n)分帧后得到的第l帧语音信号为yl(n),则短时能量为:

其中,N为帧长。

对式(11)得到的短时能量进行修正,这样做可以缓和其幅值的剧烈变化,则调整后的能量表达式[18]为:

其中,m是一个常数,一般取为2。

3.2 谱熵

由式(2)中STFT的结果Y(k,l)可求得第l帧第k个频谱分量的归一化谱概率密度函数[20]为:

因此每个分析帧的短时谱熵[20]定义为:

3.3 能熵比与语音存在概率

由于短时能量直接地反映了语音信号能量大小的变化,所以可作为语音帧和噪声帧的判别依据,但是只适用于信噪比较高的情况;而谱熵是基于语音功率谱平坦度的检测,属于频域特征,弥补了短时能量在低信噪比时语音帧和噪声帧易混淆的缺点。在有话段,能量值大,谱熵值小;而在噪声段,能量值小,谱熵值大。将二者作比值即得到能熵比[18],这样可以更容易区分语音中的有话段和噪声段,因此检测精度更高,鲁棒性更强。

能熵比这一参数原来使用在语音端点检测中,用来检测语音中的语音帧和噪声帧,其展现了良好的效果,但是一般都要设定阈值来区分,高于某一阈值为语音,否则为噪音。而我们将其进一步引申使用在语音存在概率的估计上,避免了阈值选取过程引起的误差。

设能熵比为W(k,l),根据式(12)和(14)可求得其表达式为:

由以上分析可知,语音存在概率随着能熵比的增大而增大,二者之间为正比关系,则定义语音存在概率与能熵比的关系为:

其中,a为控制参数,其作用为控制估计的语音存在概率值偏高或偏低。

图2即为语音存在概率与能熵比关系曲线,由图可知,随着能熵比增大,语音存在概率也增大;当能熵比趋近于正无穷时,语音存在概率趋近于1;当能熵比趋近于负无穷时,语音存在概率趋近于0;而具有不同a值的曲线倾斜程度也不同,对于同一频点的能熵比,a值越小,估计的语音存在概率值越大。

对式(16)得出的语音存在概率进行平滑处理,平滑过程如式(17)所示:

其中,

和

分别为平滑后的第l-1帧和第l帧的第k个频率分量的语音存在概率,αp为平滑参数,它有两个可能的取值:

设置两个平滑参数的目的是防止估计的语音存在概率偏高而引发的噪声跟踪较慢,以及估计的语音存在概率偏低造成的噪声过估计现象。至此,平滑因子

可由式(17)中的

求得,即可通过语音存在概率更新噪声功率谱。

4 实验结果及分析

4.1 仿真实验

为了模拟真实地空通信环境,参考噪声使用的是NoiseX-92噪声库中的f16噪声及volvo噪声,纯净语音均选自实验室条件下录制的男声和女声。两种噪声分别以5 dB、10 dB和15 dB的信噪比叠加到纯净语音中,得到带噪语音信号。语音信号的采样频率均为8 kHz,语音帧长为20 ms,帧移为10 ms,窗函数采用汉明窗,式(16)中a的值取为0.01,式(17)中αp1和αp2取经验值分别为0.6和0.8,其余的参数均参考文献[7],分别使用MCRA算法、文献[19]算法和本文算法进行噪声功率谱估计,然后结合时延小的谱减法实现语音增强,最终对噪声估计的性能及语音增强的效果进行了对比、分析和验证。

实验采用的客观评价标准分别是均方误差(Mean Square Error, MSE)、分段信噪比(Segmental Signal Noise Ratio, SegSNR)及语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ),主观评价标准参考ITU-T P.835。

(1)均方误差(MSE)[13]是一种评价噪声估计精度的常用方法,其值越小,估计的性能越好。定义如下:

其中,M表示语音信号的总帧数,

是估计的噪声功率谱,λd(k,l)是真实的噪声功率谱。

(2)分段信噪比(SegSNR)[21]是所有语音帧信噪比的几何平均,其值越大,增强效果越好。定义如下:

其中,x(n)表示纯净信号,

是增强信号。

(3)语音质量感知评估(PESQ)[21]是将纯净和待评测的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿及听觉变换之后,分别提取两路信号的参数,综合其时频特性,得到PESQ分数,得分越高表示语音质量越好。

(4)语音主观评价是衡量降噪性能的基础方法,其具有直接性和可靠性[22-23]。ITU-T P.835标准对语音信号从三个角度进行评估,包括语音失真等级、背景噪声等级、语音整体质量,详见表1。

图3显示了在信噪比为5 dB的f16非平稳背景噪音下,频率为525 Hz时MCRA算法、文献[19]算法与本文算法估计的噪声功率谱对比曲线,选取其

中的1～500帧,可观察到三种方法在真实噪声谱上的跟踪曲线,由图可知本文算法的曲线更为平缓,避免了MCRA算法在120帧和380帧附近出现的突变现象,防止了功率谱估计不连续现象的出现。而文献[19]估计的噪声功率谱水平偏低,会导致噪声的欠估计。

为了定量地分析、对比噪声功率谱估计的准确度,图4显示了在两种背景噪音下估计的噪声谱与真实谱的均方误差结果。可以看出,在f16和volvo背景噪音下,本文的噪声功率谱估计误差均小于MCRA算法和文献[19]算法,表明提出算法的噪声估计精度更高。此外对于同一种算法,随着信噪比的提高,估计精度会随之下降,原因是噪声估计过程中,语音信号视为干扰,信噪比越高,语音信号干扰越强,因而估计精度下降。

语音增强前后语音质量的对比直接反映了噪声跟踪的效果,图5和图6分别显示了三种方法在不同信噪比及背景噪音条件下增强后语音的分段信噪比和PESQ值。如图5所示,信噪比为5 dB时,本文算法处理得到语音的分段信噪比与文献[19]相当,而信噪比为15 dB时,本文算法的处理效果明显优于前两种算法。从图6可以看出,本文算法的PESQ值较前两种算法有一定提升,说明本文算法的噪声估计能力较强,处理后语音的整体质量更高。

语音增强算法在保证客观评价指标提高的同时,也要注重人耳的主观听觉感受,因此本实验让15位语音听觉测试者根据表1对两种背景噪音下的10 dB带噪语音信号经三种算法处理后的增强语音进行打分评价,然后对评分结果求平均得到最后的评价结果,如图7所示。可以看出使用本文算法处理后的语音几乎没有失真,并且背景噪声有所下降,语音整体质量也有一定提高。

4.2 真实信号验证

将由管制部门获取的真实地空通信环境下被污染的甚高频语音信号(真实信号1:内容为“126125再见30169”,真实信号2:内容为“300以上东方2731”)使用本文算法的噪声功率谱估计结合谱减法进行语音增强,并与原始被污染信号对比,以下分别为时域、频域及语谱图对比结果。

如图8和9所示,即为两个原始带噪信号增强前后的时域和频域对比图,可以看出,时域上语音信号的幅度没有改变,且底噪有明显的消除;频域上主要频率也得到了保留,一些高频噪声被抑制;图10的语谱图也显示了增强后对语音部分主要特征的突出,可以看出语音部分的颜色明显加深,颜色越深,则说明语音部分得到了最大化保留,如图中椭圆圈出部分。同时背景噪音也得到了较好的抑制,如图中方框中的静音部分可以看出大部分背景噪音被去除。整体的语谱图对比结果说明本文算法对于带噪信号有一定的降噪能力。

同样请15位语音听觉测试者根据表1对原始被污染的语音及使用本文算法后的增强语音进行打分评价,然后对评分结果求平均结果如图11所示。总体来说,对于真实地空通信环境下,本文算法增强后的语音信号没有失真情况,噪声得到了一定得抑制,语音质量也明显提高。

5 结论

本文采用一种能熵比估计语音存在概率的自适应噪声跟踪算法,在非平稳噪声环境中有着良好的估计效果。结合增强算法后,仿真处理得到的语音从主观听觉感受及客观评价标准的均方误差和分段信噪比均验证了算法的有效性。此外对于真实地空通信环境下被污染的语音信号,使用该方法处理后的语音质量也明显提高,有效的解决了空中交通管制系统中语音通信存在的噪音干扰问题。

[1] 张建伟, 陶亮, 周健, 等. 基于改进谱平滑策略的IMCRA算法及其语音增强[J]. 计算机工程与应用, 2017, 53(1): 153-157.

Zhang Jianwei, Tao Liang, Zhou Jian, et al. IMCRA Algorithm and Speech Enhancement Based on Improved Spectral Smoothing Strategy[J]. Computer Engineering and Application, 2017, 53(1): 153-157.(in Chinese)

[2] 成帅, 张海剑, 孙洪. 结合时变滤波和时频掩码的语音增强方法[J]. 信号处理, 2019, 35(4): 601- 608.

Cheng Shuai, Zhang Haijian, Sun Hong. Speech Enhancement Based on Time-varying Filtering and Time-frequency Mask[J]. Journal of Signal Processing, 2019, 35(4): 601- 608.(in Chinese)

[3] 欧世峰, 刘伟, 宋鹏, 等. 采用复高斯分布模型的两步噪声幅度谱估计算法[J]. 信号处理, 2017, 33(7): 22-30.

Ou Shifeng, Liu Wei, Song Peng, et al. Two-step Noise Amplitude Spectrum Estimation Algorithm for Complex Gaussian Distribution Model[J]. Journal of Signal Processing, 2017, 33(7): 22-30.(in Chinese)

[4] 赵彦平, 赵晓晖, 王波. 基于语音存在概率的噪声功率谱估计[J]. 吉林大学学报: 工学版, 2016, 184(3): 917-922.

Zhao Yanping, Zhao Xiaohui, Wang Bo. Noise Power Spectrum Estimation Based on Speech Presence Probability[J]. Journal of Jilin University: Engineering Edition, 2016, 184(3): 917-922.(in Chinese)

[5] Park T J, Chang J H. Dempster-shafer Theory for Enhanced Statistical Model-based Voice Activity Detection[J]. Computer Speech & Language, 2017, 47: 47-58.

[6] Martin R. Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics[J]. IEEE Trans. on Speech and Audio Processing, 2001, 9(5): 504-512.

[7] Cohen I, Berdugo B. Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J]. IEEE Signal Proc. Letter, 2002, 9(1): 12-15.

[8] Cohen I. Noise Spectral Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging[J]. IEEE Transactions on Speech and Audio Processing, 2003, 11(5): 466- 475.

[9] Rachagari S, Loizou P C. A Noise-estimation Algorithm for Highly Non-stationary Environment[J]. Speech Communication, 2006, 48(2): 220-231.

[10] 李光源. 高效语音增强与端点检测技术研究[D]. 北京: 清华大学, 2011.

Li Guangyuan. Research on Efficient Speech Enhancement and Endpoint Detection[D]. Beijing: Tsinghua University, 2011.(in Chinese)

[11] Momeni H, Habets E A P, Abutalebi H R. Single-channel Speech Presence Probability Estimation Using Inter-frame and Inter-band Correlations[C]∥IEEE International Conference on Acoustics. Italy: IEEE Signal Processing Society, 2014: 2903-2907.

[12] Gerkmann T, Hendriks R C. Unbiased MMSE-based Noise Power Estimation with Low Complexity and Low Tracking Delay[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(4): 1383-1392.

[13] 许春冬, 张震, 战鸽, 等. 面向语音增强的约束序贯高斯混合模型噪声功率谱估计[J]. 声学学报, 2017, 42(5): 633- 640.

Xu Chundong, Zhang Zhen, Zhan Ge, et al. Speech Enhance-oriented Constrained Sequential Gaussian Mixture Model Noise Power Spectrum Estimation[J]. Acta Acustica, 2017, 42(5): 633- 640.(in Chinese)

[14] Xu Yong, Du Jun, Dai Lirong, et al. A Regression Approach to Speech Enhancement Based on Deep Neural Networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 7-19.

[15] Yang H, Choe S, Kim K, et al. Deep Learning-based Speech Presence Probability Estimation for Noise PSD Estimation in Single-channel Speech Enhancement[C]∥International Conference on Signals and Systems (ICSigSys). Indonesia: Institute of Electrical and Electronics Engineers, 2018: 267-270.

[16] 韩丹. 基于谱减法的内话系统语音增强技术[J]. 中国民航大学学报, 2011, 29(4): 31-34.

Han Dan. Speech Enhancement Technology Based on Spectral Subtraction[J]. Journal of Civil Aviation University of China, 2011, 29(4): 31-34.(in Chinese)

[17] 曲利新. 基于深度信念网络的语音情感识别策略[D]. 大连: 大连理工大学, 2014.

Qu Lixin. Speech Emotion Recognition Strategy Based on Deep Belief Network[D]. Dalian: Dalian University of Technology, 2014.(in Chinese)

[18] 宋知用. MATLAB语音信号分析与合成[M]. 北京: 北京航空航天大学出版社, 2018.

Song Zhiyong. Speech Signal Analysis and Synthesis of MATLAB[M]. Beijing: Beijing University of Aeronautics and Astronautics Press, 2018.(in Chinese)

[19] 陈建明, 梁志成, 符成山. 基于时间递归平均的语音噪声功率谱估计算法研究[J]. 兵器装备工程学报, 2019, 40(1): 135-139.

Chen Jianming, Liang Zhicheng, Fu Chengshan. Research on Speech Noise Power Spectrum Estimation Algorithm Based on Time Recursive Average[J]. Journal of Armament Engineering, 2019, 40(1): 135-139.(in Chinese)

[20] 王琳, 李成荣. 一种基于自适应谱熵的端点检测算法[J]. 计算机仿真, 2010, 27(12): 373-375.

Wang Lin, Li Chengrong. An Endpoint Detection Algorithm Based on Adaptive Spectral Entropy[J]. Computer Simulation, 2010, 27(12): 373-375.(in Chinese)

[21] Philipos C, Loizou P C. Speech Enhancement: Theory and Practice[M]. Richardson, Dallas county, Texas, USA: Chemical Rubber Company Press, 2013.

[22] ITU-T P.835-2003: Subjective Test Methodology for Evaluating Speech Communication Systems that Include Noise Suppression Algorithm[S]. Geneva: ITU-T, 2003.

[23] 刘凤山, 吕钊, 张超, 等. 改进小波阈值函数的语音增强算法研究[J]. 信号处理, 2016, 32(2): 203-213.

Liu Fengshan, Lv Zhao, Zhang Chao, et al. Research on Speech Enhancement Algorithm Based on Wavelet Threshold Function[J]. Journal of Signal Processing, 2016, 32(2): 203-213.(in Chinese)

王文益男, 1980年生, 湖北人。中国民航大学教授, 硕士生导师, 博士, 主要研究方向为自适应信号处理、卫星导航、无线电通信等领域的研究工作。

E-mail: wenyiwang@126.com

伊雪女, 1994年生, 辽宁人。中国民航大学智能信号与图像处理重点实验室, 硕士在读, 主要研究方向为自适应信号处理、语音信号处理等领域的研究工作。