時頻掩碼優(yōu)化的兩階段語音增強(qiáng)算法

2022-02-27 03:27鄭莉李鴻燕

電子設(shè)計工程 2022年4期

鄭莉，李鴻燕

（太原理工大學(xué)信息與計算機(jī)學(xué)院，山西榆次 030600）

近年來，深度學(xué)習(xí)方法廣泛應(yīng)用在語音增強(qiáng)[1]中，用來解決傳統(tǒng)語音增強(qiáng)方法在非平穩(wěn)噪聲環(huán)境下性能不穩(wěn)定和泛化能力弱的問題，取得了較好的效果[2-3]。文獻(xiàn)[4]更新了基于DNN 語音增強(qiáng)算法的目標(biāo)函數(shù)，從而減輕估計語音的過平滑度。文獻(xiàn)[5]同時將干凈語音和干擾噪聲的特征作為訓(xùn)練目標(biāo)，利用DNN 和深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network，DRNN)分別訓(xùn)練，相比單獨對干凈語音進(jìn)行預(yù)測的網(wǎng)絡(luò)結(jié)構(gòu)，該方法具有更好的分離效果。文獻(xiàn)[6]在DNN 結(jié)構(gòu)中添加了具有感知掩蔽效應(yīng)的部分，有效地減少了語音失真并去除了干擾噪聲。以上這些研究在訓(xùn)練目標(biāo)和網(wǎng)絡(luò)架構(gòu)的選擇上各有不同，但都以均方誤差作為損失函數(shù)。文獻(xiàn)[7]在損失函數(shù)中將相鄰幀網(wǎng)絡(luò)之間進(jìn)行關(guān)聯(lián)，并設(shè)計感知系數(shù)反映語音存在情況，顯著地提高了語音質(zhì)量和語音可懂度。此外，近幾年的研究工作表明，將語音幅度和相位估計結(jié)合起來有利于語音增強(qiáng)，相位估計可提供準(zhǔn)確的幅度譜信息[8-9]。文獻(xiàn)[10]驗證了在提高純凈語音頻譜估計中相位信息估計量發(fā)揮的顯著作用?；诖耍闹刑岢霾捎眯旁氡刃畔韮?yōu)化損失函數(shù)的兩階段語音增強(qiáng)方法，利用信噪比信息計算增益系數(shù)和相位偏差，增益系數(shù)用來平衡語音失真和噪聲殘留之間的關(guān)系，相位偏差可以利用相位信息來更準(zhǔn)確地預(yù)測幅度，從而優(yōu)化損失函數(shù)。實驗證明該優(yōu)化算法可有效提高語音可懂度，增強(qiáng)語音質(zhì)量。

1 常規(guī)深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法

傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法[5]如圖1 所示，該方法分為訓(xùn)練和增強(qiáng)兩個階段。在訓(xùn)練過程中，將純凈語音和背景噪聲疊加，生成帶噪語音，并提取帶噪語音的特征用于DNN 訓(xùn)練，在語音增強(qiáng)訓(xùn)練任務(wù)中，逐步進(jìn)行有監(jiān)督地調(diào)優(yōu)，時頻掩碼[11]作為網(wǎng)絡(luò)學(xué)習(xí)的隱目標(biāo)，通過使用DNN 網(wǎng)絡(luò)估計該掩碼，然后將估計的掩碼應(yīng)用于帶噪語音幅度譜特征，得到純凈語音幅度譜特征估計，最終網(wǎng)絡(luò)優(yōu)化的目標(biāo)是該估計純凈語音幅度譜與參考干凈語音幅度譜之間的均方誤差。損失函數(shù)定義如下：

圖1 常規(guī)深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法框圖

其中，Yt表示第t幀的輸入帶噪語音幅度譜，ft代表時頻掩碼函數(shù)，ft(Yt)代表預(yù)測的純凈語音幅度譜。St表示參考的純凈語音幅度譜，N代表抽取的樣本數(shù)目。W、b分別是網(wǎng)絡(luò)的權(quán)重矩陣和轉(zhuǎn)置向量，利用誤差反向傳播算法來更新網(wǎng)絡(luò)權(quán)值，經(jīng)過一系列迭代更新，得到訓(xùn)練好的網(wǎng)絡(luò)。

在增強(qiáng)階段，將帶噪語音輸入訓(xùn)練好的網(wǎng)絡(luò)，輸出即為估計的純凈語音幅度譜特征，根據(jù)人耳對相位變化不太敏感這一特性，將帶噪語音的相位與估計的純凈語音幅度譜合成并進(jìn)行短時傅里葉逆變換，得到增強(qiáng)的語音信號。

2 優(yōu)化的兩階段網(wǎng)絡(luò)語音增強(qiáng)算法

在傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)算法中，將語音增強(qiáng)作為回歸任務(wù)設(shè)計損失函數(shù)，取得了顯著效果，但未考慮不同信噪比時，帶噪語音中語音和噪聲所占比重的不同。當(dāng)SNR 較低時，噪聲占比較大，導(dǎo)致增強(qiáng)后語音中殘留噪聲能量較多，語音信息被屏蔽，語音可懂度降低；當(dāng)SNR 較高時，語音占比大，增強(qiáng)后容易造成語音失真，導(dǎo)致語音質(zhì)量較差。針對此問題，文中提出利用信噪比信息優(yōu)化損失函數(shù)的兩階段語音增強(qiáng)算法[12]。第一階段從帶噪語音中初步預(yù)測純凈語音幅度譜和噪聲幅度譜，用來提供SNR信息；第二階段，利用SNR 信息生成增益系數(shù)和相位偏差，優(yōu)化時頻掩碼函數(shù)，輸出增強(qiáng)的語音幅度譜。訓(xùn)練階段算法框圖如圖2 所示。

圖2 時頻掩碼優(yōu)化的兩階段語音增強(qiáng)算法框圖

2.1 信號模型

在實際中，同時測得帶噪語音和純凈語音比較困難，因此通過疊加來獲得目標(biāo)帶噪語音，用y(t)、s(t)、n(t)分別表示t時刻生成的帶噪語音、純凈語音以及不相關(guān)的背景噪聲，則帶噪語音可以表示為純凈語音信號及其不相關(guān)的背景噪聲的疊加。用以下模型來表示帶噪語音：

2.2 特征提取

語音信號在非特定范圍內(nèi)是非平穩(wěn)時變信號，截取其10～30 ms 范圍內(nèi)的短時平穩(wěn)狀態(tài)，對式（2）作短時傅里葉變換，得到頻域中的噪聲表示如下：

其中，Y(t，f)、S(t，f)、N(t，f)分別表示帶噪語音、純凈語音和背景噪聲在第t幀、第f頻帶的頻譜分量，通過設(shè)置不同α得到目標(biāo)信噪比的帶噪語音。

2.3 DNN1階段

對于給定的帶噪語音，該階段對語音譜和噪聲譜同時建模，將帶噪語音的幅度譜特征輸入網(wǎng)絡(luò)，將純凈語音和噪聲的幅度譜作為參考目標(biāo)，最終輸出估計的語音幅度譜和噪聲幅度譜，定義時頻掩碼函數(shù)：

在損失函數(shù)中添加參數(shù)γ，通過網(wǎng)絡(luò)訓(xùn)練來提高語音預(yù)測準(zhǔn)確度。假設(shè)語音和噪聲相互獨立，同時最小化語音與預(yù)測語音、噪聲與預(yù)測噪聲之間的均方差，最大化語音與預(yù)測噪聲、噪聲與預(yù)測語音之間的均方差。損失函數(shù)定義為：

2.4 DNN2階段

該階段利用信噪比信息計算增益函數(shù)和相位偏差來共同優(yōu)化時頻掩碼函數(shù)，參與網(wǎng)絡(luò)訓(xùn)練過程，最終生成純凈語音幅度譜。

2.4.1 增益系數(shù)

為了減小語音失真，引入濾波函數(shù)[13]，最小化語音失真同時將殘留噪聲限制在某一預(yù)設(shè)閾值水平下，定義為：

其中，δ代表預(yù)設(shè)閾值，用于限制噪聲強(qiáng)度；μ代表增益系數(shù)，用于控制語音失真和殘留噪聲之間的平衡。

H(w)的第k個對角元素H(wt)為：

根據(jù)以下分段函數(shù)計算可得到μ的值，SNRdB=10 log10SNR；μt是由實驗計算得到的最佳值，μ0=(1+4μt)/5；k=25/(μ0+1)。

2.4.2 相位偏差

相位偏差定義為φdev=φy-φs，即帶噪語音相位與純凈語音相位之間的差異，相位偏差取決于信噪比[14]，利用信噪比信息可計算得到相位偏差。由幾何三角關(guān)系式變換可得到相位偏差公式如下：

其中，φns=φn-φs，φn、φs分別代表背景噪聲的相位和純凈語音的相位，由幾何關(guān)系式可得到Y(jié)2=S2+N2+2SNcosφns，求解cosφns，可得：

2.4.3 損失函數(shù)

使用增益系數(shù)和相位[15]偏差來優(yōu)化最初的時頻掩碼函數(shù)ft：

損失函數(shù)定義為：

其中，Y(wt)表示第t幀的輸入帶噪語音幅度譜，ft表示時頻掩碼函數(shù)，ft(Y(wt))表示預(yù)測的純凈語音幅度譜。St表示參考的純凈語音幅度譜，N代表小批量樣本數(shù)目。利用誤差反向傳播算法來更新網(wǎng)絡(luò)權(quán)值，網(wǎng)絡(luò)經(jīng)過一系列迭代更新，得到訓(xùn)練好的網(wǎng)絡(luò)。

3 實驗仿真

3.1 實驗設(shè)置

采用TIMIT語料庫中的純凈語音數(shù)據(jù)，選取10個說話人，男女各5 人，每人10 條語音，共100 條語音，從Noisex-92 噪聲庫數(shù)據(jù)中選取5 種噪聲，將語音和噪聲按照不同信噪比（-5，0，5）隨機(jī)挑選一種，共合成500 條帶噪語音，選取400 條作為訓(xùn)練集，100 條作為測試集。語音和噪聲的采樣頻率均為16 kHz，使用64 ms 的漢明窗和32 ms 的窗移對信號進(jìn)行分頻，幅度譜作為網(wǎng)絡(luò)的輸入特征，對于每個時間幀，采用具有50%重疊的1 024 點短時傅里葉變換提取頻譜表示，得到512 維幅度譜特征。

在DNN 訓(xùn)練中，將輸入數(shù)據(jù)歸一化為零均值和單位方差，激活函數(shù)選擇relu 函數(shù)。網(wǎng)絡(luò)中包含隱藏層2 層，每個隱藏層中有1 000 個隱藏單元，輸出層有1 026 個單元。網(wǎng)絡(luò)采用隨機(jī)初始化，使用L-BFGS 梯度下降法，minibatch 的大小為100，訓(xùn)練網(wǎng)絡(luò)總的迭代次數(shù)設(shè)置為20 次。

3.2 評價指標(biāo)

為了比較文中算法的語音增強(qiáng)性能，采用語音質(zhì)量感知評估(Perceptual Evaluation of Speech Quality，PESQ)指標(biāo)和短時客觀可懂度(Short Time Objective Intelligibility，STOI)指標(biāo)對不同方法增強(qiáng)后的語音進(jìn)行評價。PESQ 用來比較干凈參考信號和分離信號的響度譜，其得分范圍為(-0.5 4.5)，得分越高，語音質(zhì)量越好；STOl 主要用來衡量干凈語音和單獨話語的短時時間包絡(luò)之間的相關(guān)性，其得分范圍為(0 1)，可以理解為正確的百分比，得分越高，語音可懂度越好。

3.3 實驗結(jié)果及分析

將文中所提算法與傳統(tǒng)算法進(jìn)行對比，為了保持相同的網(wǎng)絡(luò)深度，均使用具有4 個隱藏層的DNN，特征提取和參數(shù)設(shè)置均一致。使用語音質(zhì)量感知評估指標(biāo)和語音可懂度指標(biāo)對增強(qiáng)語音進(jìn)行評價，對比結(jié)果如表1 所示。語音信號的波形圖和語譜圖可以顯示去噪的細(xì)節(jié)信息，圖3 給出了在-5 dB Train 噪聲時純凈語音、帶噪語音、優(yōu)化前算法以及文中所提算法處理的時域波形圖，圖4 給出了兩種算法的語譜圖。

圖3 不同算法增強(qiáng)語音的波形圖

圖4 不同算法增強(qiáng)語音的語譜圖

表1 語音可懂度與語音質(zhì)量評估結(jié)果

對比圖3、圖4 可以看出，優(yōu)化前算法保持了較好的語音結(jié)構(gòu)，但仍存在不少殘留噪聲；改進(jìn)的語音增強(qiáng)算法不僅能保持語音信號的諧波結(jié)構(gòu)，減少語音失真，而且更加有效地去除了低頻殘留噪聲，使增強(qiáng)后語音波形更接近純凈語音波形。另外，表1 結(jié)果表明，文中提出的算法增強(qiáng)后語音的感知質(zhì)量評估指標(biāo)和可懂度在各種信噪比及不同的背景噪聲下均有提高，與優(yōu)化前算法對比，語音質(zhì)量感知評估指標(biāo)平均提高了0.22；語音可懂度評估指標(biāo)平均提高了0.027。尤其是在-5 dB 低信噪比條件下，各種噪聲下的增強(qiáng)語音質(zhì)量和語音可懂度均有較大幅度提升，表明所提改進(jìn)算法可以去除殘留噪聲，減少語音失真并較好地重構(gòu)語音。

4 結(jié)束語

文中提出利用信噪比信息優(yōu)化時頻掩碼函數(shù)的兩階段語音增強(qiáng)算法，利用DNN 估計信噪比信息，通過引入增益系數(shù)，最大程度減小增強(qiáng)后語音的失真并盡可能地去除殘留噪聲；同時引入帶噪語音和純凈語音的相位偏差信息來提供更準(zhǔn)確的幅度譜信息。通過對不同信噪比下噪聲進(jìn)行的實驗驗證表明，該算法有很好的增強(qiáng)效果，尤其是在低信噪比條件下，能夠較好地去除噪聲并保留語音結(jié)構(gòu)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡