鄭莉,李鴻燕
(太原理工大學(xué)信息與計算機(jī)學(xué)院,山西榆次 030600)
近年來,深度學(xué)習(xí)方法廣泛應(yīng)用在語音增強(qiáng)[1]中,用來解決傳統(tǒng)語音增強(qiáng)方法在非平穩(wěn)噪聲環(huán)境下性能不穩(wěn)定和泛化能力弱的問題,取得了較好的效果[2-3]。文獻(xiàn)[4]更新了基于DNN 語音增強(qiáng)算法的目標(biāo)函數(shù),從而減輕估計語音的過平滑度。文獻(xiàn)[5]同時將干凈語音和干擾噪聲的特征作為訓(xùn)練目標(biāo),利用DNN 和深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network,DRNN)分別訓(xùn)練,相比單獨對干凈語音進(jìn)行預(yù)測的網(wǎng)絡(luò)結(jié)構(gòu),該方法具有更好的分離效果。文獻(xiàn)[6]在DNN 結(jié)構(gòu)中添加了具有感知掩蔽效應(yīng)的部分,有效地減少了語音失真并去除了干擾噪聲。以上這些研究在訓(xùn)練目標(biāo)和網(wǎng)絡(luò)架構(gòu)的選擇上各有不同,但都以均方誤差作為損失函數(shù)。文獻(xiàn)[7]在損失函數(shù)中將相鄰幀網(wǎng)絡(luò)之間進(jìn)行關(guān)聯(lián),并設(shè)計感知系數(shù)反映語音存在情況,顯著地提高了語音質(zhì)量和語音可懂度。此外,近幾年的研究工作表明,將語音幅度和相位估計結(jié)合起來有利于語音增強(qiáng),相位估計可提供準(zhǔn)確的幅度譜信息[8-9]。文獻(xiàn)[10]驗證了在提高純凈語音頻譜估計中相位信息估計量發(fā)揮的顯著作用?;诖耍闹刑岢霾捎眯旁氡刃畔韮?yōu)化損失函數(shù)的兩階段語音增強(qiáng)方法,利用信噪比信息計算增益系數(shù)和相位偏差,增益系數(shù)用來平衡語音失真和噪聲殘留之間的關(guān)系,相位偏差可以利用相位信息來更準(zhǔn)確地預(yù)測幅度,從而優(yōu)化損失函數(shù)。實驗證明該優(yōu)化算法可有效提高語音可懂度,增強(qiáng)語音質(zhì)量。
傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法[5]如圖1 所示,該方法分為訓(xùn)練和增強(qiáng)兩個階段。在訓(xùn)練過程中,將純凈語音和背景噪聲疊加,生成帶噪語音,并提取帶噪語音的特征用于DNN 訓(xùn)練,在語音增強(qiáng)訓(xùn)練任務(wù)中,逐步進(jìn)行有監(jiān)督地調(diào)優(yōu),時頻掩碼[11]作為網(wǎng)絡(luò)學(xué)習(xí)的隱目標(biāo),通過使用DNN 網(wǎng)絡(luò)估計該掩碼,然后將估計的掩碼應(yīng)用于帶噪語音幅度譜特征,得到純凈語音幅度譜特征估計,最終網(wǎng)絡(luò)優(yōu)化的目標(biāo)是該估計純凈語音幅度譜與參考干凈語音幅度譜之間的均方誤差。損失函數(shù)定義如下:
圖1 常規(guī)深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法框圖
其中,Yt表示第t幀的輸入帶噪語音幅度譜,ft代表時頻掩碼函數(shù),ft(Yt)代表預(yù)測的純凈語音幅度譜。St表示參考的純凈語音幅度譜,N代表抽取的樣本數(shù)目。W、b分別是網(wǎng)絡(luò)的權(quán)重矩陣和轉(zhuǎn)置向量,利用誤差反向傳播算法來更新網(wǎng)絡(luò)權(quán)值,經(jīng)過一系列迭代更新,得到訓(xùn)練好的網(wǎng)絡(luò)。
在增強(qiáng)階段,將帶噪語音輸入訓(xùn)練好的網(wǎng)絡(luò),輸出即為估計的純凈語音幅度譜特征,根據(jù)人耳對相位變化不太敏感這一特性,將帶噪語音的相位與估計的純凈語音幅度譜合成并進(jìn)行短時傅里葉逆變換,得到增強(qiáng)的語音信號。
在傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法中,將語音增強(qiáng)作為回歸任務(wù)設(shè)計損失函數(shù),取得了顯著效果,但未考慮不同信噪比時,帶噪語音中語音和噪聲所占比重的不同。當(dāng)SNR 較低時,噪聲占比較大,導(dǎo)致增強(qiáng)后語音中殘留噪聲能量較多,語音信息被屏蔽,語音可懂度降低;當(dāng)SNR 較高時,語音占比大,增強(qiáng)后容易造成語音失真,導(dǎo)致語音質(zhì)量較差。針對此問題,文中提出利用信噪比信息優(yōu)化損失函數(shù)的兩階段語音增強(qiáng)算法[12]。第一階段從帶噪語音中初步預(yù)測純凈語音幅度譜和噪聲幅度譜,用來提供SNR信息;第二階段,利用SNR 信息生成增益系數(shù)和相位偏差,優(yōu)化時頻掩碼函數(shù),輸出增強(qiáng)的語音幅度譜。訓(xùn)練階段算法框圖如圖2 所示。
圖2 時頻掩碼優(yōu)化的兩階段語音增強(qiáng)算法框圖
在實際中,同時測得帶噪語音和純凈語音比較困難,因此通過疊加來獲得目標(biāo)帶噪語音,用y(t)、s(t)、n(t)分別表示t時刻生成的帶噪語音、純凈語音以及不相關(guān)的背景噪聲,則帶噪語音可以表示為純凈語音信號及其不相關(guān)的背景噪聲的疊加。用以下模型來表示帶噪語音:
語音信號在非特定范圍內(nèi)是非平穩(wěn)時變信號,截取其10~30 ms 范圍內(nèi)的短時平穩(wěn)狀態(tài),對式(2)作短時傅里葉變換,得到頻域中的噪聲表示如下:
其中,Y(t,f)、S(t,f)、N(t,f)分別表示帶噪語音、純凈語音和背景噪聲在第t幀、第f頻帶的頻譜分量,通過設(shè)置不同α得到目標(biāo)信噪比的帶噪語音。
對于給定的帶噪語音,該階段對語音譜和噪聲譜同時建模,將帶噪語音的幅度譜特征輸入網(wǎng)絡(luò),將純凈語音和噪聲的幅度譜作為參考目標(biāo),最終輸出估計的語音幅度譜和噪聲幅度譜,定義時頻掩碼函數(shù):
在損失函數(shù)中添加參數(shù)γ,通過網(wǎng)絡(luò)訓(xùn)練來提高語音預(yù)測準(zhǔn)確度。假設(shè)語音和噪聲相互獨立,同時最小化語音與預(yù)測語音、噪聲與預(yù)測噪聲之間的均方差,最大化語音與預(yù)測噪聲、噪聲與預(yù)測語音之間的均方差。損失函數(shù)定義為:
該階段利用信噪比信息計算增益函數(shù)和相位偏差來共同優(yōu)化時頻掩碼函數(shù),參與網(wǎng)絡(luò)訓(xùn)練過程,最終生成純凈語音幅度譜。
2.4.1 增益系數(shù)
為了減小語音失真,引入濾波函數(shù)[13],最小化語音失真同時將殘留噪聲限制在某一預(yù)設(shè)閾值水平下,定義為:
其中,δ代表預(yù)設(shè)閾值,用于限制噪聲強(qiáng)度;μ代表增益系數(shù),用于控制語音失真和殘留噪聲之間的平衡。
H(w)的第k個對角元素H(wt)為:
根據(jù)以下分段函數(shù)計算可得到μ的值,SNRdB=10 log10SNR;μt是由實驗計算得到的最佳值,μ0=(1+4μt)/5;k=25/(μ0+1)。
2.4.2 相位偏差
相位偏差定義為φdev=φy-φs,即帶噪語音相位與純凈語音相位之間的差異,相位偏差取決于信噪比[14],利用信噪比信息可計算得到相位偏差。由幾何三角關(guān)系式變換可得到相位偏差公式如下:
其中,φns=φn-φs,φn、φs分別代表背景噪聲的相位和純凈語音的相位,由幾何關(guān)系式可得到Y(jié)2=S2+N2+2SNcosφns,求解cosφns,可得:
2.4.3 損失函數(shù)
使用增益系數(shù)和相位[15]偏差來優(yōu)化最初的時頻掩碼函數(shù)ft:
損失函數(shù)定義為:
其中,Y(wt)表示第t幀的輸入帶噪語音幅度譜,ft表示時頻掩碼函數(shù),ft(Y(wt))表示預(yù)測的純凈語音幅度譜。St表示參考的純凈語音幅度譜,N代表小批量樣本數(shù)目。利用誤差反向傳播算法來更新網(wǎng)絡(luò)權(quán)值,網(wǎng)絡(luò)經(jīng)過一系列迭代更新,得到訓(xùn)練好的網(wǎng)絡(luò)。
采用TIMIT語料庫中的純凈語音數(shù)據(jù),選取10個說話人,男女各5 人,每人10 條語音,共100 條語音,從Noisex-92 噪聲庫數(shù)據(jù)中選取5 種噪聲,將語音和噪聲按照不同信噪比(-5,0,5)隨機(jī)挑選一種,共合成500 條帶噪語音,選取400 條作為訓(xùn)練集,100 條作為測試集。語音和噪聲的采樣頻率均為16 kHz,使用64 ms 的漢明窗和32 ms 的窗移對信號進(jìn)行分頻,幅度譜作為網(wǎng)絡(luò)的輸入特征,對于每個時間幀,采用具有50%重疊的1 024 點短時傅里葉變換提取頻譜表示,得到512 維幅度譜特征。
在DNN 訓(xùn)練中,將輸入數(shù)據(jù)歸一化為零均值和單位方差,激活函數(shù)選擇relu 函數(shù)。網(wǎng)絡(luò)中包含隱藏層2 層,每個隱藏層中有1 000 個隱藏單元,輸出層有1 026 個單元。網(wǎng)絡(luò)采用隨機(jī)初始化,使用L-BFGS 梯度下降法,minibatch 的大小為100,訓(xùn)練網(wǎng)絡(luò)總的迭代次數(shù)設(shè)置為20 次。
為了比較文中算法的語音增強(qiáng)性能,采用語音質(zhì)量感知評估(Perceptual Evaluation of Speech Quality,PESQ)指標(biāo)和短時客觀可懂度(Short Time Objective Intelligibility,STOI)指標(biāo)對不同方法增強(qiáng)后的語音進(jìn)行評價。PESQ 用來比較干凈參考信號和分離信號的響度譜,其得分范圍為(-0.5 4.5),得分越高,語音質(zhì)量越好;STOl 主要用來衡量干凈語音和單獨話語的短時時間包絡(luò)之間的相關(guān)性,其得分范圍為(0 1),可以理解為正確的百分比,得分越高,語音可懂度越好。
將文中所提算法與傳統(tǒng)算法進(jìn)行對比,為了保持相同的網(wǎng)絡(luò)深度,均使用具有4 個隱藏層的DNN,特征提取和參數(shù)設(shè)置均一致。使用語音質(zhì)量感知評估指標(biāo)和語音可懂度指標(biāo)對增強(qiáng)語音進(jìn)行評價,對比結(jié)果如表1 所示。語音信號的波形圖和語譜圖可以顯示去噪的細(xì)節(jié)信息,圖3 給出了在-5 dB Train 噪聲時純凈語音、帶噪語音、優(yōu)化前算法以及文中所提算法處理的時域波形圖,圖4 給出了兩種算法的語譜圖。
圖3 不同算法增強(qiáng)語音的波形圖
圖4 不同算法增強(qiáng)語音的語譜圖
表1 語音可懂度與語音質(zhì)量評估結(jié)果
對比圖3、圖4 可以看出,優(yōu)化前算法保持了較好的語音結(jié)構(gòu),但仍存在不少殘留噪聲;改進(jìn)的語音增強(qiáng)算法不僅能保持語音信號的諧波結(jié)構(gòu),減少語音失真,而且更加有效地去除了低頻殘留噪聲,使增強(qiáng)后語音波形更接近純凈語音波形。另外,表1 結(jié)果表明,文中提出的算法增強(qiáng)后語音的感知質(zhì)量評估指標(biāo)和可懂度在各種信噪比及不同的背景噪聲下均有提高,與優(yōu)化前算法對比,語音質(zhì)量感知評估指標(biāo)平均提高了0.22;語音可懂度評估指標(biāo)平均提高了0.027。尤其是在-5 dB 低信噪比條件下,各種噪聲下的增強(qiáng)語音質(zhì)量和語音可懂度均有較大幅度提升,表明所提改進(jìn)算法可以去除殘留噪聲,減少語音失真并較好地重構(gòu)語音。
文中提出利用信噪比信息優(yōu)化時頻掩碼函數(shù)的兩階段語音增強(qiáng)算法,利用DNN 估計信噪比信息,通過引入增益系數(shù),最大程度減小增強(qiáng)后語音的失真并盡可能地去除殘留噪聲;同時引入帶噪語音和純凈語音的相位偏差信息來提供更準(zhǔn)確的幅度譜信息。通過對不同信噪比下噪聲進(jìn)行的實驗驗證表明,該算法有很好的增強(qiáng)效果,尤其是在低信噪比條件下,能夠較好地去除噪聲并保留語音結(jié)構(gòu)。