孫逸飛,涂振宇,相敏月,馬 飛,方 強(qiáng)
(南昌工程學(xué)院 信息工程學(xué)院,江西 南昌 330099)
語(yǔ)音在許多應(yīng)用中有著重要作用,但由于背景噪音的存在且噪音具有多種多樣的形式,獲取清晰的語(yǔ)音變得困難,而語(yǔ)音增強(qiáng)技術(shù)旨在改善語(yǔ)音質(zhì)量,提高語(yǔ)音可懂度[1]。
語(yǔ)音增強(qiáng)技術(shù)一直是語(yǔ)音信號(hào)處理領(lǐng)域的研究熱點(diǎn)。Schroeder 實(shí)現(xiàn)了基本譜減法[2](Spectral Subtraction,SS),改善了語(yǔ)音質(zhì)量,但存在大量“音樂(lè)噪聲”,降低了可懂度。在此基礎(chǔ)上,Boll[2]提出了改進(jìn)譜減法,但還存在少量“音樂(lè)噪聲”。針對(duì)音樂(lè)噪聲的問(wèn)題,Thomson[3]提出了基于多窗譜估計(jì)的改進(jìn)譜減法,音樂(lè)噪聲基本得到消除。Ephraim[4]提出了基于最小均方誤差估計(jì)(Minimum Mean Square Error,MMSE)的短時(shí)幅度譜估計(jì)法,但對(duì)非平穩(wěn)噪聲的抑制能力較弱。維納濾波是對(duì)平穩(wěn)信號(hào)的最小均方誤差估計(jì),語(yǔ)音為非平穩(wěn)[4-5],因此基于最小均方算法(Least Mean Square,LMS)的自適應(yīng)濾波方法可以應(yīng)對(duì)非平穩(wěn)的信號(hào)。如今,深度學(xué)習(xí)在單通道語(yǔ)音降噪上實(shí)現(xiàn)[6],語(yǔ)音增強(qiáng)技術(shù)進(jìn)一步發(fā)展,但即使神經(jīng)網(wǎng)絡(luò)不斷改進(jìn)提升,也未能做到將某些非平穩(wěn)的噪聲濾除,反而還增加了訓(xùn)練優(yōu)化的成本,因此有必要將傳統(tǒng)的信號(hào)處理方式與深度學(xué)習(xí)相結(jié)合。聯(lián)合優(yōu)化既可以減輕網(wǎng)絡(luò)的復(fù)雜度,也可以達(dá)到較好的語(yǔ)音增強(qiáng)效果[7-8]。
本文重點(diǎn)研究多窗譜估計(jì)與NLMS 自適應(yīng)濾波的單通道語(yǔ)音增強(qiáng),分別在不同噪聲環(huán)境下、不同信噪比下的白噪聲與有色噪聲下進(jìn)行對(duì)比實(shí)驗(yàn),改進(jìn)以往實(shí)驗(yàn)環(huán)境下噪聲缺乏多樣性且評(píng)價(jià)指標(biāo)單一的問(wèn)題,以語(yǔ)音質(zhì)量指標(biāo)如語(yǔ)音質(zhì)量的感知評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)及語(yǔ)音可懂度指標(biāo)短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)為標(biāo)準(zhǔn),全面衡量其增強(qiáng)效果。
基于語(yǔ)音信號(hào)的非平穩(wěn)特性,在時(shí)域中處理較為困難,因此將其轉(zhuǎn)到頻域進(jìn)行短時(shí)特性分析。利用語(yǔ)音的短時(shí)無(wú)話段估計(jì)噪聲譜,再?gòu)暮胝Z(yǔ)音的短時(shí)譜中減去估計(jì)出的噪聲譜,得到純凈語(yǔ)音的短時(shí)譜,最后通過(guò)傅里葉逆變換恢復(fù)為時(shí)域信號(hào)[9-10]。
設(shè)語(yǔ)音信號(hào)為x(n),噪聲序列為d(n),帶噪語(yǔ)音表示為:
對(duì)y(n),x(n)和d(n)進(jìn)行分幀、加窗處理。已知前導(dǎo)無(wú)話段時(shí)長(zhǎng)為IS,對(duì)應(yīng)的幀數(shù)為NIS,估計(jì)噪聲功率譜為:
式中:Xi(k)為語(yǔ)音信號(hào)的頻譜,下標(biāo)i表示第i幀。
傳統(tǒng)譜減算法為:
式中:a和b是兩個(gè)常數(shù),a為過(guò)減因子,b為增益補(bǔ)償因子[5,11]。由此得到原始語(yǔ)音的估計(jì)值,最后通過(guò)傅里葉逆變換恢復(fù)時(shí)域信號(hào)。
本文用于減少“音樂(lè)噪聲”的方法是改進(jìn)的譜減方法,即過(guò)減法(Overspectral subtraction,OSS)技術(shù)[2,6],其改進(jìn)的方面有以下3 個(gè)。
(1)譜減幅值或功率?;咀V減法是按功率譜計(jì)算的,使用了噪聲段的平均功率譜如下:
式中:γ=1 或2,γ=1 時(shí)為幅值譜減法,γ=2 時(shí)為功率譜減法;α和β同基本譜減法的a和b。
(2)平均譜值。每幀信號(hào)x(m)做離散傅里葉變換(Discrete Fourier Transform,DFT)后得:
然后在相鄰幀之間計(jì)算平均值:
(3)噪聲殘留。因?yàn)樵肼暤碾S機(jī)性,譜減后部分噪聲沒(méi)有辦法完全消除,所以在減噪中保留噪聲的最大值,從而在譜減中盡可能減少噪聲殘留[10]。
由于傳統(tǒng)的周期圖法只用一個(gè)數(shù)據(jù)窗,因此由Thomson 提出的多窗譜估計(jì)比周期圖法更準(zhǔn)確[12]。在實(shí)際語(yǔ)音處理中,可根據(jù)實(shí)際情況選擇不同的窗函數(shù)。
多窗譜定義為:
式中:x(n)為數(shù)據(jù)序列;N為序列長(zhǎng)度;ak(n)為第k個(gè)數(shù)據(jù)窗。
多窗譜估計(jì)改進(jìn)譜減算法流程如下:
(1)對(duì)帶噪的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,加窗分幀得到xi(m)。
(2)進(jìn)行傅里葉變換,以i為中心,前后各取M幀,共2M+1 幀,得到Xi(k),具體的計(jì)算式為:
(3)多窗譜估計(jì),得到P(k,i),其表達(dá)式為:
(4)計(jì)算平均功率譜為:
(5)計(jì)算噪聲平均功率譜Pn(k,i),然后利用譜減關(guān)系計(jì)算增益因子g(k,i),它們的表達(dá)式分別為:
(6)計(jì)算譜減幅值,進(jìn)行逆快速傅里葉變換(Inverse Fast Fourier Transform,IFFT)得到增強(qiáng)后的語(yǔ)音信號(hào),計(jì)算流程為:
圖1 多窗譜估計(jì)改進(jìn)譜減法流程
自適應(yīng)濾波器無(wú)須知道信號(hào)與噪聲的先驗(yàn)統(tǒng)計(jì)知識(shí),就能在工作中學(xué)習(xí)估計(jì)信號(hào)的統(tǒng)計(jì)特性,并依此調(diào)整參數(shù),在某種準(zhǔn)則下達(dá)到最優(yōu)濾波[13-14]。因此,自適應(yīng)濾波是處理非平穩(wěn)信號(hào)的一種有效手段。在一般的自適應(yīng)濾波算法模型中,假設(shè)語(yǔ)音信號(hào)觀測(cè)模型為:
式中:d(n)為純凈語(yǔ)音;v(n)為噪聲;x(n)為帶噪語(yǔ)音。
維納濾波器基于語(yǔ)音和噪聲信號(hào)是聯(lián)合寬平穩(wěn)假設(shè)[15-16],但語(yǔ)音一般非平穩(wěn),因此維納濾波器的權(quán)系數(shù)是時(shí)變的,期望輸出的估計(jì)值為觀測(cè)語(yǔ)音信號(hào)的加權(quán):
自適應(yīng)濾波器不要求在每一時(shí)刻都使均方誤差最小,而是對(duì)wn進(jìn)行修正,修正過(guò)程為:
式中:Δwn為wn的修正值,誤差信號(hào)為純凈語(yǔ)音與濾波器輸出的差值。
NLMS 自適應(yīng)濾波器的結(jié)構(gòu)如圖2 所示,其中,e(n)為期望信號(hào)與輸出信號(hào)之間的誤差。
圖2 NLMS 自適應(yīng)濾波器結(jié)構(gòu)
NLMS 即歸一化LMS(Normalized LMS)算法,當(dāng)抽頭輸入向量比較大的時(shí)候,LMS 會(huì)遇到梯度噪聲放大的問(wèn)題。為了解決這個(gè)問(wèn)題,NLMS 算法使用抽頭輸入向量的平方歐式范數(shù)對(duì)抽頭權(quán)值調(diào)整量進(jìn)行了歸一化[18]。
優(yōu)化準(zhǔn)則:
式中:J為優(yōu)化準(zhǔn)則函數(shù);p為優(yōu)化準(zhǔn)則函數(shù)范數(shù)的次方項(xiàng);w(k)為濾波器的第k個(gè)抽頭系數(shù)。
為了防止分母為零,迭代方程需要添加修正因子α,修正步長(zhǎng)μ調(diào)整的偏差。濾波器權(quán)系數(shù)更新如下:
式中:α為修正因子;e*(k)為誤差項(xiàng)e(k)的復(fù)共軛,其中“*”表示復(fù)共軛。
NLMS 算法步驟:
(1)給定w(0)。
(2)計(jì)算輸出值:y(k)=w(k)Tx(k)。
(3)計(jì)算估計(jì)誤差:e(k)=d(k)-y(k)。
(4)權(quán)重更新:
MSS-NLMS 語(yǔ)音增強(qiáng)流程如圖3 所示。將多窗譜估計(jì)譜減法和NLMS 自適應(yīng)濾波算法相結(jié)合的一種算法為MSS-NLMS 算法。該算法首先使用多窗譜算法對(duì)帶噪信號(hào)進(jìn)行初步估計(jì),在減少噪聲的同時(shí)還可以弱化傳統(tǒng)譜減法產(chǎn)生的“音樂(lè)噪聲”;其次將估計(jì)出的期望信號(hào)與純凈參考信號(hào)的差值作為誤差信號(hào),由NLMS 算法代替?zhèn)鹘y(tǒng)的LMS 算法,求取濾波器權(quán)系數(shù)值,并不斷迭代更新修正濾波器,以求取最優(yōu)的濾波效果。
圖3 MSS-NLMS 語(yǔ)音增強(qiáng)流程
實(shí)驗(yàn)采用來(lái)自THCSH-30 語(yǔ)料庫(kù)的純音信號(hào),噪聲數(shù)據(jù)來(lái)源于NOISEX-92。實(shí)驗(yàn)在MATLAB 軟件中進(jìn)行仿真,采樣頻率fs=8 000 Hz,幀長(zhǎng)25 ms,幀移10 ms。對(duì)一段純凈語(yǔ)音分別加入4 種典型噪聲,分別是白噪聲(White)、餐廳噪聲(Babble)、機(jī)械噪聲(Destroyerops)、工廠噪聲(Factroy),并在不同的信噪比下,用本文MSS-NLMS 算法及各類譜減法進(jìn)行對(duì)比實(shí)驗(yàn)。首先采用語(yǔ)音輸入輸出波形圖及語(yǔ)譜圖直觀展示增強(qiáng)效果,從中可以清晰地看到增強(qiáng)后的語(yǔ)音還原程度;其次從語(yǔ)音質(zhì)量指標(biāo)PESQ 及語(yǔ)音可懂度評(píng)價(jià)指標(biāo)STOI 出發(fā),采用折線圖的形式展現(xiàn)增強(qiáng)效果。
實(shí)驗(yàn)輸出的波形及語(yǔ)譜如圖4 和圖5 所示。圖4 是在0 dB 信噪比White 下,MSS-NLMS 和各類傳統(tǒng)譜減對(duì)比結(jié)果。圖5 是同一段語(yǔ)音在0 dB 信噪比Babble 下的結(jié)果。
圖4 0 dB 信噪比White 下語(yǔ)音增強(qiáng)波形及語(yǔ)譜
圖5 0 dB 信噪比Babble 下語(yǔ)音增強(qiáng)波形及語(yǔ)譜
實(shí)驗(yàn)顯示,譜減法提高了語(yǔ)音的質(zhì)量,但圖中仍然存在大量離散的噪聲點(diǎn),這是由于噪聲功率譜之間的差異而產(chǎn)生的頻譜尖峰即“音樂(lè)噪聲”,會(huì)導(dǎo)致語(yǔ)音可懂度降低。在有色噪聲Babble 和White下,譜減法及其改進(jìn)方法都會(huì)選擇犧牲可懂度或者語(yǔ)音質(zhì)量其中一方,來(lái)?yè)Q取另一方的提高,因此效果并不理想。雖然多窗譜改進(jìn)法略優(yōu)于以上兩種方法,但也存在部分語(yǔ)音難以聽(tīng)清的情況,而可懂度較低難免會(huì)損失重要語(yǔ)音段。因此,本文在多窗譜改進(jìn)法的基礎(chǔ)上采用NLMS 算法進(jìn)行進(jìn)一步的濾波處理,將多窗譜改進(jìn)后輸出的語(yǔ)音信號(hào)送入NLMS自適應(yīng)濾波器。如圖4、圖5 所示,相比于原始純音信號(hào),MSS-NLMS 算法輸出的語(yǔ)譜圖在語(yǔ)音存在較多的低頻部分,且語(yǔ)譜中各頻率分量復(fù)原程度較好,即增強(qiáng)效果較好。本文改進(jìn)后的MSS-NLMS 算法在波形及語(yǔ)譜圖上顯示的增強(qiáng)效果明顯優(yōu)于其余3 種算法,說(shuō)明本文所提方法不僅在低頻區(qū)域取得了較好的處理效果,而且在較高的頻率點(diǎn)處也有不錯(cuò)的效果。
圖4、圖5 僅給出了在兩種噪聲及0 dB 的低信噪比下的實(shí)驗(yàn)效果,更全面的實(shí)驗(yàn)結(jié)果如圖6、圖7 所示。
圖6 4 種噪聲下算法的PESQ 值
圖6、圖7 是在White、Babble、Destoryerops、Factory4 種典型噪聲的場(chǎng)景下,語(yǔ)音質(zhì)量指標(biāo)PESQ值(0~5)和語(yǔ)音可懂度指標(biāo)STOI 值(0~1)隨著信噪比(SNR)變化的對(duì)比圖。由圖可知,在低信噪比(0~10 dB)下,本文改進(jìn)算法有明顯優(yōu)勢(shì),濾波后語(yǔ)音質(zhì)量及可懂度顯著提高,即語(yǔ)音增強(qiáng)效果顯著。
圖7 4 種噪聲下算法的STOI 值
綜合比較,相比于其他方法,本文算法在0 dB下PESQ 值提升約為1.3,STOI 值提升約為0.23,但隨著信噪比的提高,提升值也在逐漸減小,尤其在信噪比較高的情況(高于15 dB)下效果普遍降低,甚至不如傳統(tǒng)的各類譜減法。據(jù)圖初步分析,這是由于經(jīng)過(guò)多窗譜輸出后,語(yǔ)音質(zhì)量及可懂度已經(jīng)較好,再經(jīng)過(guò)NLMS 濾波時(shí),其步長(zhǎng)因子沒(méi)有做出相應(yīng)調(diào)整,導(dǎo)致算法收斂精度下降,估計(jì)出現(xiàn)偏差,將一些恢復(fù)較好的語(yǔ)音成分給破壞掉了,最終導(dǎo)致增強(qiáng)效果減退。
綜上,相比其他譜減法,無(wú)論在白噪聲還是各種有色噪聲下,本文MSS-NLMS 算法在低信噪比情況下語(yǔ)音增強(qiáng)效果提高明顯,但信噪比偏高時(shí)效果略微降低。
本文將多窗譜估計(jì)譜減法與自適應(yīng)濾波的歸一化最小均方算法聯(lián)合應(yīng)用到語(yǔ)音增強(qiáng)中,即先利用多窗譜法解決譜減法產(chǎn)生的“音樂(lè)噪聲”問(wèn)題,再將估計(jì)出的期望信號(hào)與純凈參考信號(hào)的差值作為誤差信號(hào),更新修正濾波器。在不同噪聲、不同信噪比下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文的MSS-NLMS 算法在強(qiáng)噪聲環(huán)境(低信噪比)下增強(qiáng)效果明顯優(yōu)于各類譜減法。后續(xù)將在此基礎(chǔ)上,增加對(duì)較高信噪比下增強(qiáng)效果退化的研究,并為基于傳統(tǒng)信號(hào)處理及深度學(xué)習(xí)相結(jié)合的語(yǔ)音增強(qiáng)研究做準(zhǔn)備。