基于区域约束的双耳近场自适应波束形成算法

语音增强的主要目的是从噪声干扰声背景中提取目标语音,降低噪声干扰,从而提高语音的清晰度和可懂度。传声器阵列语音增强算法由于引入了空域信息,相对于单通道语音增强算法,能够更好的抑制方向性干扰噪声[1-2]。波束形成是传声器阵列语音增强算法的重要分支,它能够形成空间指向性,达到增强期望信号、抑制干扰和噪声的目的。其中,自适应波束形成是现在广泛使用的一类传声器阵列语音增强方法。其最大的特点和优势在于它可以依据接收数据和不同的最优化准则,动态的更新权矢量,使得到的波束主瓣指向期望信号,同时抑制其他方向的干扰和噪声[1-3]。常见的波束形成方法包括常规波束形成法(Conventional Beam Forming, CBF)[1]、最小均方误差算法(Least Mean Square,LMS)[3]、最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成器[4]、线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)法[5],以及Griffiths和Jim在LCMV的基础上提出的广义旁瓣相消器法(Generalized Sidelobe Canceller,GSC)[6]等。

目前大多数自适应波束形成的研究成果是建立在远场模型的基础上[7- 8],在符合近场模型的许多实际应用中,如无线耳机拾取佩戴者语音,电话会议系统拾取近距离用户语音等场景,远场模型会带来较大的模型失配,从而导致算法性能显著下降。因此,近场自适应波束形成器的研究具有重要理论意义和实用价值。1994年,Khali等人最早提出基于近场补偿的传声器阵列近场球面波波束形成方法,并应用到会议系统中[9];1998年,Kennedy等人根据球面波动方程的求解过程,提出在远场中利用近远场波束响应的径向变换实现近场期望响应的方法[10];Ryan和Goubran在2000年利用变换阵列孔径,得到一种近场波束形成优化方法[11],并在2003年把该优化算法应用到移动电话的语音拾取中[12]。2004年,Zheng等人将基于特征值约束的远场线性约束最小方差方法扩展到近场环境,提出了一种基于特征值分解(Singular Value Decomposition,SVD)的近场自适应LCMV方法[13](SVD-LCMV),紧接着在2005年提出了在近场模型下利用虚拟阵列接收不同的延时信号,并进行加权实现近场波束形成[14];2007年Wee等在近场存在误差的情况下,提出点约束的自适应波束形成[15]。然而,这些方法均为自由场中的近场波束形成方法,当传声器阵列佩戴在人头上时,由于从目标信号到传声器阵列的传递函数会受到人头的影响,上述方法由于模型不匹配问题,会造成性能不同程度的下降。

迄今为止,关于双耳传声器阵列的近场自适应波束形成的研究较为稀少,主要原因包括:其一,口-双耳传递函数数据库较少,目前公开的数据库仅有悉尼大学Cabrera等学者测量过不同房间内的口-双耳房间脉冲响应[16](Oral -Binaural Room Impulse Response,OBRIR),该数据库只包含左右耳各一个传声器的口-耳房间脉冲响应,而当前的无线耳机传声器个数大多不局限于左右耳各一个的情形,因此该数据库不适用于波束形成器的设计。其二,近场自适应波束形成与远场自适应波束形成器均对目标声源的方位误差非常敏感[17-20],但前者还对目标声源的位置扰动非常敏感[21],成为鲁棒性自适应波束形成器设计的难点。本文针对双耳传声器阵列的应用场景提出了一种基于近场区域约束的双耳SVD-LCMV算法(SVD-BLCMV),与SVD-LCMV通过建立理想自由场近场导向矢量模型的方式不同,本文利用测量的口-双耳多通道传声器阵列的房间脉冲响应建立近场导向矢量模型,能够有效解决双耳佩戴式传声器阵列近场语音增强鲁棒性较差的问题。首先,将传声器阵列佩戴在人工头的双耳上,在人工嘴前侧放置另一个传声器,然后在不同的房间内通过微调人工嘴前侧传声器的位置来获取人工嘴附近区域内的若干组多通道口-双耳房间脉冲响应(Multichannel-Binaural Room Impulse Response,MBRIR)。最后,运用LCMV波束形成技术,在最小化输出信号能量的同时对不同房间测量的该区域内的房间脉冲响应的主特征向量进行约束[1]。实验结果表明,该算法在口-双耳房间脉冲响应匹配的情况下,在降噪和语音质量提高方面的性能与传统LCMV算法相近;在口-双耳房间脉冲响应不匹配的情况下,相较于传统LCMV算法具有更好的去干扰能力,并能够获得更高的语音质量,表明所提算法的鲁棒性较高。

本文的内容分配如下,第2部分介绍了近场信号模型;第3部分介绍了SVD-BLCMV算法原理;第4部分介绍了MBRIR的测量;第5部分对本文提出的算法性能进行了评估;第6部分给出本文结论。

2 近场信号模型

考虑一个由M个阵元组成的传声器阵列,在阵列近场范围中的两个不同的位置存在一个目标声源和一个干扰声源,如图1所示。当两个声源同时辐射声信号时,阵列接收到信号的频域表示为:

其中k表示第k个频带,l表示第l帧,

表示传声器阵列观测信号,(·)T为转置符号,S(k,l)为目标声源,V(k,l)为干扰噪声,Ν(k,l)为背景噪声,as(k)为目标信号导向矢量,ai(k)为干扰噪声的导向矢量:

其中c=340 m/s表示空气中的声速, f表示频率,rms(m=1,2,...,M)表示第m个阵元与目标信号源之间的距离,rmi(m=1,2,...,M)表示第m个阵元与干扰信号源之间的距离,若第m个阵元的笛卡尔坐标为(xm,ym,zm),目标声源的极坐标为(rs,θs,φs),干扰声源的极坐标为(ri,θi,φi),其中θs和φs分别为目标声源的方位角和俯仰角,θi和φi分别为干扰声源的方位角和俯仰角,则rms和rmi可分别表示为:

近场波束形成的目的是分离不同方向或不同距离的目标信号与干扰噪声,即通过优化方法抑制干扰声源及背景噪声,提取目标信号。传统的LCMV方法建立在远场模型上,其原理是最小化输出噪声的能量,并通过对不同方向的导向矢量施加约束条件来控制波束响应。LCMV可以有效抑制干扰声源,并且可以自定义主瓣方向与宽度,在远场模型的应用中被广泛应用[22-23]。借鉴这种思想,我们提出近场模型中LCMV波束形成器方案。

3 算法描述

3.1 近场自适应波束形成

在近场模型中运用LCMV算法,假设w(k,l)为阵列的加权矢量,则阵列输出信号可以写成Y(k,l)=wH(k,l)U(k,l),下文为了简洁,将省略(k,l)项。按照LCMV波束形成器的设计方案,给定不同方向的入射信号一定的约束条件,并使输出信号能量达到最小[4],该优化问题可描述为:

其中Ruu=E{U(k)UH(k)}为观测信号的功率谱密度矩阵,E{·}为期望算子,C为约束矩阵,h为期望响应向量。公式(6)中的观测信号功率谱密度矩阵也可以替换成噪声功率谱密度矩阵,此时对应LCMV的另一种优化形式,由于这种形式需要区分目标信号和噪声信号,本文不予讨论。根据公式(6)可以推导得到最优LCMV滤波器权向量:

3.2 SVD-BLCMV算法

本文中,目标声源到双耳传声器阵列的导向矢量as由测量得到的多通道口-双耳房间脉冲响应(MBRIR)来代替,干扰声源到双耳传声器阵列的导向矢量ai由相同配置下测量得到的多通道双耳房间脉冲响应来代替。令A表示某频率下目标声源周围空间内若干导向矢量组成的矩阵,即:

其中J为导向矢量的个数。通过对该区域内的导向矢量进行约束,使区域内的语音信号得到无失真输出,即可达到控制波束响应的目的,即:

其中g表示期望的幅度响应,表达式如下

其中,1表示由1构成的J×1维向量。

SVD-BLCMV算法首先对导向矢量组成的矩阵A进行特征值分解:

其中U为左奇异矢量矩阵,V为右奇异矢量矩阵,然后选择前L个最大的特征值和对应的特征向量组成

L,UL,VL得到导向矢量A的近似矩阵AL:

将AL带入到公式(9)可得:

将公式(13)代入公式(7),得到新的得到特征向量和约束如下:

推导SVD-BLCMV波束形成的最优权矢量w如下:

4 MBRIR的测量

本节介绍MBRIR的测量方法,为SVD-BLCMV算法提供导向矢量数据集。实验测量使用Biuel & Kjaer 4128C人工头和躯干模拟器(Head And Torso Simulator, HATS)用来模拟人头和躯干对声波的散射作用,将MEMS双传声器阵列佩戴在人工头的双耳上,单边阵列的孔径约为1.5 cm,同时在人工嘴前侧某个测量点放置一个MEMS传声器用来接收人工嘴发出的信号,不断的微调人工嘴前侧传声器的距离和角度来获得MBRIR数据集。MBRIR测量的场景包括普通办公室房间、半消声实验室和全消声实验室;人工嘴前端局部区域内离散测量点与人工嘴的水平距离d包括0.5 cm,1 cm,2 cm,水平偏转角度包括±45°,±30°,±15°,±7.5°,0°,实验装置示意图如图2所示。该方法具有较强的可重复性,实验一共测量了29组数据。

MBRIR的测量信号采用频率范围为50 Hz～15 kHz,时间为15 s的扫频信号[12]通过功率放大器从人工嘴播放,采样频率为16000 Hz。将双耳佩戴的4个传声器接收到的信号和人工嘴前侧传声器接收到的信号进行解卷积得到口-双耳房间脉冲响应。图3给出了MBRIR测量系统平台,其中1和2通路为左耳传声器接收信号,3和4通路为右耳传声器接收到的信号。图4给出了在普通办公室环境下,测量点位于人工嘴前方2 cm、偏转角度为30°时的MBRIR测量场景。图5给出了在半消声室、全消声室和普通办公室环境下测量的距嘴距离1 cm,水平偏转角度为0°的位置点的MBRIR,图中仅展示了左耳1通道的测量结果。

本文还测量了不同房间远场双耳房间冲击响应(Binaural Room Impulse Response,BRIR),测量利用相同人工头和躯干系统,采样频率为16000 Hz,扬声器放置在房间不同位置播放扫频信号,将双耳佩戴的4个传声器接收到的信号和扬声器信号进行系统辨识获得不同环境不同位置的远场BRIR数据。

5 SVD-BLCMV算法评估

5.1 MBRIR与环境匹配时的SVD-BLCMV算法

本小节研究了当MBRIR与测量环境一致时SVD-BLCMV算法的语音增强,并与近场LCMV算法和OMLSA (Optimally Modified Log-Spectral Amplitude Estimator,OMLSA)算法[24-25]进行对比。纯净语音选自清华大学中文语料库THCHS30 2015[26]。干扰声源选自NOISEX-92数据库[27]中babble噪声和白噪声。采集室的环境为半消声实验室。干扰声源与人头的距离为2 m,干扰声的角度为0°。图6展示了实录带噪语音时扬声器摆放角度。

实验信号采样率为8000 Hz。在整个传声器阵列语音增强方法实现的过程中,语音帧长为512个采样点,帧移为256个采样点。图7给出了babble噪声干扰下,近场LCMV算法、OMLSA算法和SVD-BLCMV算法对近场语音的增强语谱图;图7(a)为实验采用的纯净语音;7(b)为半消实验室内测得的0 dB信噪比的带噪语音;图7(c)为采用双耳传声器阵列中1通道接收的带噪语音经过OMLSA算法处理后得到的结果；图7(d)为使用1个半消环境下测量的MBRIR作为导向矢量,进行近场LCMV波束形成后的语音增强结果;图7(e)为使用5个半消环境下测得口前不同位置的MBRIR构成导向矢量矩阵进行SVD-BLCMV得到的结果;图7( f )为使用24个口前不同位置的MBRIR构成导向矢量矩阵进行SVD-BLCMV得到的结果,其中使用的MBRIR的测量环境包括半消声实验室,全消声实验室和普通办公室。

通过环境匹配时算法结果对比,可以看出单通道语音增强算法对于非稳态噪声降噪性能差,残留噪声较多。图7(d)结果可以看出,利用半消声室测量的1个MBRIR作为导向矢量进行近场LCMV波束形成,可以去除远场同方向的干扰声,对人口部发出的近场语音进行增强。图7(e)和图7( f )结果可以看出利用多个MBRIR进行SVD-BLCMV波束形成,在语音环境与MBRIR匹配时可以取得较好的语音增强效果。

为了客观评估语音增强的效果,图8对比了MBRIR与场景匹配时近场LCMV算法和SVD-BLCMV算法对阵列信噪比[28]的提升程度。从图8可以看出,当使用环境与测得的近场导向矢量相匹配的时候,利用近场LCMV和SVD-BLCMV算法均可以有效提高信噪比。其中SVD-BLCMV语音增强性能略低于近场LCMV算法,这是由于LCMV算法的阵列增益可以对约束点以外的区域衰减明显从而获得较大的噪声抑制,而SVD-BLCMV算法对嘴前位置的语音进行区域约束,残留的噪声相比于近场LCMV更多。表1给出了LCMV算法、OMLSA算法和SVD-BLCMV算法处理带噪语音后的PESQ(Perceptual Evaluation of Speech Quality)得分[29]结果。从表1可以看出,在两种噪声环境下,OMLSA算法的PESQ得分均比LCMV和SVD-BLCMV低,这是因为多通道语音增强算法比单通道语音增强算法对方向性干扰的降噪性能更好。另外,近场LCMV和SVD-BLCMV算法的PESQ得分非常接近,在大部分情况下,三种算法之间的PESQ得分差值约为0.01。说明在MBRIR与测试实验配置环境相匹配的情况下,SVD-BLCMV不会造成算法的性能下降,甚至在高信噪比条件下,SVD-BLCMV的性能优于近场LCMV。

5.2 MBRIR与语音环境不匹配时的SVD-BLCMV算法

在佩戴耳机的现实场景中,耳机佩戴位置都会发生改变。这些因素都会导致口-双耳传声器阵列的传递函数发生变化,如果口-双耳传声器阵列传递函数估计产生了偏差,则会影响语音增强的效果;另外使用环境也会发生改变,同样会改变口-双耳传声器阵列传递函数,从而影响语音增强的效果。为了进一步研究SVD-BLCMV算法的鲁棒性,采用了与语音录制环境不匹配的MBRIR进行实验,信号采样率为8000 Hz,语音帧长为512个采样点,帧移为256个采样点,带噪语音录制环境为半消声的实验室,干扰噪声信号为babble噪声和白噪声。位于语音的正前方2 m处,信噪比为0 dB。图9给出了MBRIR与带噪语音测量环境不匹配时近场LCMV、OMLSA算法和SVD-BLCMV算法对近场语音的增强结果,干扰噪声为babble噪声。图9(a)为实验采用的纯净语音;图9(b)为半消实验室内测得的0 dB信噪比的带噪语音;图9(c)为采用双耳传声器阵列中1通道接收的带噪语音进行单通道OMSLA语音增强后的语谱图;图9(d)为使用普通办公室环境下测得的,位置为距离人工嘴0.5 cm,偏移的水平角度为0°处的MBRIR作为导向矢量进行近场LCMV波束形成后的结果,图9(e)为使用5个MBRIR,进行SVD-BLCMV算法处理后得到的语谱图,使用的MBRIR测量环境不包括语音所在的半消声实验室。图9( f )为使用24个MBRIR进行SVD-BLCMV算法处理后得到的语谱图,使用到的MBRIR的测量环境同样不包括半消声实验室。

图9(d)反映出,当环境发生改变时,由于导向矢量与语音场景不匹配,近场LCMV算法对导向矢量变化较为敏感,与图7(d)相比残留噪声增加较多。对比图9(e)和图9( f ),约束MBRIR个数为5个和24个的SVD-LCMV算法获得的语谱结果可以看出,即使在导向矢量与场景不匹配的情况下,SVD-BLCMV算法受到环境变化产生的影响较小,仍有较为稳定的语音增强效果,采用5个MBRIR做SVD-BLCMV后干扰噪声残留最少。

图10给出了导向矢量与场景不匹配时LCMV和SVD-BLCMV算法阵列信噪比的提升程度。由图10结果看出,近场LCMV利用一个MBRIR作为导向矢量受环境的影响比较大,导致在不同的输入信噪比下其阵列信噪比增益相对于SVD-MBRIR较低。采用5和24个MBRIR的SVD-MBRIR算法的阵列信噪比增益非常接近,相比之下,采用24个MBRIR的SVD-MBRIR算法可比采用5个的算法获得更高的阵列信噪比增益。

表2给出了不匹配情况下,不同算法处理带噪语音后的PESQ得分,从表2可以看出,OMLSA的PESQ得分普遍低于LCMV算法和SVD-MBRIR算法,这是因为单通道语音增强算法对方向性干扰的抑制能力较差。而且OMLSA算法对于非稳态babble噪声抑制效果低于干扰噪声为稳态白噪声的情况,导致其在babble噪声环境下,PESQ得分增益较低。对比表1和表2可以看出,在MBRIR与环境不匹配时,近场LCMV算法的PESQ得分增益在大部分情况下明显低于环境匹配的场景,说明当导向矢量与环境不匹配或当阵列佩戴位置发生偏移时,1个导向矢量不能准确的对期望区域的语音进行拾取,鲁棒性较差。在少数情况下,例如背景噪声为白噪声且信噪比为5 dB时,出现MBRIR与环境不匹配但近场LCMV的PESQ得分相较于匹配场景下更高的现象,这是因为在高信噪比下,语音失真比残留噪声对PESQ得分的影响更大,结合图10可以看出,MBRIR与环境不匹配时虽然由于导向矢量失配造成噪声抑制性能的下降,但同时也降低了语音失真的程度,使其PESQ得分更高。对比LCMV和SVD-BLCMV可以发现,当利用多个环境和位置的MBRIR进行SVD-BLCMV波束形成后,语音质量得到改善。对比采用5个和24个MBRIR的SVD-BLCMV算法可以发现,在MBRIR与环境不匹配时,使用的导向矢量个数越多,算法的PESQ得分增益越大。本节实验证明了SVD-BLCMV算法即使在导向矢量不匹配的场景下,也有稳定的信噪比和PESQ得分提高,鲁棒性较好。

6 结论

提出了一种基于区域约束的双耳近场自适应波束形成算法,首先测量不同环境下人工嘴附近区域的若干位置的嘴-双耳传递函数,然后对测得的传递函数组成的矩阵进行SVD分解,最后通过保留较大特征值对应的特征向量结合无失真输出约束条件,从而进行LCMV波束形成的设计。该方法不仅可以减少计算量,也可以提高LCMV方法的鲁棒性。将SVD-BLCMV方法应用于双耳佩戴式传声器阵列,可以对佩戴者语音进行增强。通过实验表明,双耳SVD-BLCMV算法在导向矢量与所处环境位置相匹配时,SVD-BLCMV方法与近场LCMV增强结果相近;但当环境与近场导向矢量不匹配或阵列佩戴位置发生改变时,传统近场LCMV方法的降噪性能明显下降,但SVD-BLCMV算法处理后的语音信噪比和PESQ仍有较高的提升,鲁棒性更强,说明了SVD-BLCMV方法的有效性。

[1] 鄢社锋, 马远良. 传感器阵列波束优化设计及应用[M]. 北京: 科学出版社,2009:98-123.

Yan S F, Ma Y L. Sensor Array Beampattern Optimization: Theory with Applications[M].Beijng:Science Press,2009:98-123.(in Chinese)

[2] Zheng C, Schwarz A, Kellermann W, et al. Binaural coherent-to-diffuse-ratio estimation for dereverberation using an ITD model[C]∥2015 23rd European Signal Processing Conference. IEEE, 2015: 1048-1052.

[3] Widrow B, Mantey P E, Griffiths L J, et al. Adaptive antenna systems[J]. Proceedings of the IEEE, 1977, 55(12): 2143-2159.

[4] Capon J. High-resolution frequency-wavenumber spectrum analysis[J]. Proceedings of the IEEE, 1979, 57(8): 1408-1418.

[5] Frost O L. An algorithm for linearly constrained adaptive array processing[J]. Proceedings of the IEEE, 1972, 70(8): 927-935.

[6] Griffiths L, Jim C. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antennas and Propagation, 1982, 30(1): 27-34.

[7] 冷艳宏, 郑成诗, 李晓东. 功率比相关子带划分快速独立向量分析[J]. 信号处理, 2019, 35(8): 1314-1323.

Leng Y H, Zheng C S, Li X D. Fast Independent Vector Analysis using Power Ratio Correlation-based Bands Partition[J]. Journal of Signal Processing, 2019, 35(8): 1314-1323.(in Chinese)

[8] Arcondoulis E J G, Liu Y. Adaptive array reduction method for acoustic beamforming array designs[J]. The Journal of the Acoustical Society of America, 2019, 145(2): EL156-EL160.

[9] Khalil F, Jullien J P, Gilloire A. Microphone array for sound pickup in teleconference systems[J]. Journal of the Audio Engineering Society, 1994, 42(9): 691-700.

[10] Kennedy R A, Abhayapala T D, Ward D B. Broadband nearfield beamforming using a radial beampattern transformation[J]. IEEE Transactions on Signal Processing, 1998, 47(8): 2147-2157.

[11] Ryan J G, Goubran R A. Optimum near-field performance of microphone arrays subject to a far-field beampattern constraint[J]. The Journal of the Acoustical Society of America, 2000, 108(5): 2248-2255.

[12] Ryan J G, Goubran R A. Application of near-field optimum microphone arrays to hands-free mobile telephony[J]. IEEE Transactions on Vehicular Technology, 2003, 52(2): 390- 400.

[13] Zheng Y R, Goubran R A, El-Tanany M. Robust near-field adaptive beamforming with distance discrimination[J]. IEEE Transactions on Speech and Audio Processing, 2004, 12(5): 478- 488.

[14] Zheng Y R, Goubran R A, El-Tanany M, et al. A microphone array system for multimedia applications with near-field signal targets[J]. IEEE Sensors Journal, 2005, 5(6): 1395-1406.

[15] Ser W, Chen H, Yu Z L. Self-calibration-based robust near-field adaptive beamforming for microphone arrays[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2007, 54(3): 267-271.

[16] Cabrera D, Sato H, Martens W L, et al. Binaural measurement and simulation of the room acoustical response from a person’s mouth to their ears[J]. Acoustics Australia/Australian Acoustical Society, 2009, 37: 98-103.

[17] Ke Y, Zheng C, Peng R, et al. Robust adaptive beamforming using noise reduction preprocessing-based fully automatic diagonal loading and steering vector estimation[J]. IEEE Access, 2017, 5: 12974-12987.

[18] 柯雨璇, 郑成诗, 彭任华, 等. 空间稀疏信号模型下的自动对角加载方法性能研究[J]. 声学技术, 2016, 35(6).

Ke Y X, Zheng C S, Peng R H, et al. Evaluation of automatic diagonal loading methods with a spatially sparse signal model[J]. Technical Acoustics, 2016, 35(6).(in Chinese)

[19] Liu Y, Liu C, Hu D, et al. Robust adaptive wideband beamforming based on time frequency distribution[J]. IEEE Transactions on Signal Processing, 2019, 67(16): 4370- 4382.

[20] Barfuss H, Bachmann M, Huemmer C, et al. Exploiting microphone array symmetry for robust two-dimensional polynomial beamforming[C]∥2018 16th International Workshop on Acoustic Signal Enhancement. IEEE, 2018: 486-490.

[21] 王冬霞, 殷福亮. 基于近场波束形成的麦克风阵列语音增强方法[J]. 电子与信息学报, 2007, 29(1):67-70.

Wang D X,Yin F L. A Nearfield beamforming method for microphone array based on speech enhancement[J]. Journal of Electronics & Information Technology, 2007, 29(1):67-70. (in Chinese)

[22] Schwartz O, Gannot S, Habets E A P. Multispeaker LCMV beamformer and postfilter for source separation and noise reduction[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(5): 940-951.

[23] Gößling N, Hadad E, Gannot S, et al. Binaural LCMV beamforming with partial noise estimation[J]. arXiv preprint arXiv: 1905.04050, 2019.

[24] Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal Processing, 2001, 81(11): 2403-2418.

[25] Hu X, Wang S, Zheng C, et al. A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments[J]. Applied Acoustics, 2013, 74(12): 1458-1462.

[26] Wang D, Zhang X, Zhang Z. THCHS-30: A free chinese speech corpus[EB/OL]. http:∥arxiv.org/abs/1512.01882, 2015.

[27] Varga A, Steeneken H. J. M., Tomlinson M, et al. The NOISEX92 study on the effect of additive noise on automatic speech recognition[R]. DRA Speech Research Unit, 1992.

[28] Benesty J, Chen J, Huang Y. Microphone array signal processing[M]. Springer Science & Business Media, 2008: 67-83.

[29] Rix A W, Beerends J G, Hollier M P, et al. Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs[C]∥2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2001, 2: 749-752.