結(jié)合自適應(yīng)軟掩模和混合特征的語音增強

2022-05-28 04:15賈海蓉張剛敏王素英

西安電子科技大學(xué)學(xué)報 2022年2期

張敏，賈海蓉，張剛敏，王素英

(太原理工大學(xué) 信息與計算機學(xué)院，山西太原 030024)

語音增強是旨在保證語音不失真的條件下，盡可能地從帶噪語音中減少或消除干擾，提取有用語音分量的技術(shù)[1]。語音增強的方法可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。無監(jiān)督學(xué)習(xí)如譜減法[2]、維納濾波法[3]等，都基于一些不合理假設(shè)，且在低信噪比或者非平穩(wěn)噪聲的條件下，抑制能力差，容易引起語音失真。有監(jiān)督學(xué)習(xí)可分為基于淺層和深層模型兩類，其中基于淺層模型如隱馬爾科夫模型、非負矩陣分解、淺層神經(jīng)網(wǎng)絡(luò)等，學(xué)習(xí)語音非線性結(jié)構(gòu)信息有限，一定程度上限制了模型的性能。深層模型具有強大的學(xué)習(xí)能力，可以有效學(xué)習(xí)帶噪語音特征與學(xué)習(xí)目標之間的關(guān)系，因此成為語音增強方向的研究熱點。文獻[4]通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪語音特征和時頻掩模間的非線性關(guān)系，且對理想二值掩模(Ideal Binary Mask，IBM)、理想浮值掩模(Ideal Ratio Mask，IRM)、目標二值掩蔽等一系列基于時頻掩蔽的學(xué)習(xí)目標進行了對比。分析實驗結(jié)果可知，當(dāng)選用IRM作為學(xué)習(xí)目標進行語音增強時，增強語音的質(zhì)量和可懂度最優(yōu)。但IRM沒有考慮與語音可懂度密切相關(guān)的相位信息，且在不同信噪比條件下，都根據(jù)語音能量在語音與噪聲能量和中的比重來確定的，無法根據(jù)信噪比的不同來自動調(diào)節(jié)，容易造成目標語音成分的丟失。語音特征能夠表征語音信號的特性，不同的語音特征代表的語音屬性各不相同。文獻[5]從人耳聽覺感知特性的角度出發(fā)，提出了梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient，MFCC)，但梅爾濾波器在高頻處容易發(fā)生泄露，從而丟失有效語音特征，且無法較好地模擬人耳基底膜的分頻特性。文獻[6]提出了功率歸一化倒譜系數(shù)(Power Normalized Cepstral Coefficients，PNCC)。該特征進行語音增強時性能良好，但在處理混響時，會導(dǎo)致運算時間變長。文獻[7]提出了多分辨率耳蝸(Multi-Resolution CochleaGram，MRCG)特征，通過不同分辨率的耳蝸組合來捕獲語音信號的局部和全局信息，但該特征維數(shù)過高，會導(dǎo)致網(wǎng)絡(luò)運算復(fù)雜度增加。

通過以上分析，筆者提出一種混合特征來改善傳統(tǒng)特征的局限性。首先，通過根據(jù)人耳結(jié)構(gòu)設(shè)計的梅爾濾波器提取MFCC特征，并采用更符合人耳聽覺壓縮感知的非線性冪函數(shù)提取新的伽馬通頻率倒譜系數(shù)(New Gammatone Frequency Cepstral Coefficients，NGFCC)。伽馬通濾波器可以改善梅爾域濾波器在高頻處丟失有效特征的問題，同時可以模擬人耳基底膜的分頻特性。將兩種特征混合可較全面描述語音信息，提高增強語音質(zhì)量。其次，為使在濾除背景噪聲的同時盡可能地減少語音失真，提出一種根據(jù)信噪比進行自動調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標，該軟掩模同時融入了語音的相位差信息，可改善掩蔽效應(yīng)，增強語音的可懂度。最后通過設(shè)計實驗，驗證所提算法的優(yōu)勢。

1 語音增強算法

1.1 混合特征提取

梅爾頻率與人耳頻率呈非線性相關(guān)，符合人的聽覺機理[8]，但梅爾濾波器會隨著頻率的升高愈發(fā)稀疏，從而導(dǎo)致特征丟失[9]。伽馬通濾波器組基于耳蝸結(jié)構(gòu)設(shè)計，會隨著頻發(fā)升高愈發(fā)密集，同時伽馬通濾波器能精確模擬人耳的聽覺效應(yīng)，具有極強的魯棒性[10]。筆者將梅爾域特征和伽馬通域特征混合，可避免有效特征的丟失，提高增強語音質(zhì)量。其中采用指數(shù)代替對數(shù)對伽馬通域特征進行壓縮，更符合人耳聽覺壓縮感知，同時可提高人耳聽覺系統(tǒng)的抗干擾能力。分別對提取到的梅爾域特征和伽馬通域特征進行去相關(guān)處理，將去相關(guān)處理后梅爾域特征和伽馬通域特征混合并求取其一階差分導(dǎo)數(shù)以獲得語音的瞬變信息，最后將初始混合特征與其一階差分參數(shù)混合作為語音增強的混合特征參數(shù)。該特征可以反映語音信號的時變特性，進一步改善了神經(jīng)網(wǎng)絡(luò)增強語音的性能。圖1為該特征參數(shù)的提取框圖。

混合特征參數(shù)具體提取過程如下：

(1) 使語音信號經(jīng)過預(yù)處理后進行快速傅里葉變換，計算得到語音數(shù)據(jù)的譜線能量。

(2) 將語音數(shù)據(jù)的每幀譜線能量譜通過可以模擬人耳聽覺特性的梅爾濾波器組，得到基于梅爾域的頻譜數(shù)據(jù)，對其進行對數(shù)操作和離散余弦變換，得到MFCC特征。

(3) 將每幀譜線能量譜通過基于耳蝸結(jié)構(gòu)設(shè)計的伽馬通濾波器組，采用冪函數(shù)對其進行壓縮，使之更符合人耳聽覺壓縮感知，后進行離散余弦變換，得到NGFCC特征。

(4) 將MFCC特征和NGFCC特征進行拼接得到初始混合特征X，即

X(i，m)=[XMFCC(i，m)；XNGFCC(i，m)] ，

(1)

其中，i表示第i幀，m表示特征維度索引，XMFCC(i，m)表示MFCC特征，XNGFCC(i，m)表示NGFCC特征。

(5) 對初始混合特征求取差分導(dǎo)數(shù)，得到差分特征ΔX，如下所示：

(2)

差分特征可以捕獲語音的瞬變信息和相鄰幀語音信息間的聯(lián)系。

(6) 融合初始混合特征和其一階差分導(dǎo)數(shù)，得到混合特征參數(shù)D，即

D(i，m)=[X(i，m)；ΔX(i，m)] 。

(3)

最終得到的混合特征參數(shù)綜合了梅爾域特征和伽馬通域特征的特點，既考慮到了人耳的結(jié)構(gòu)特性，又符合人耳基底膜的分頻特性，避免了有效特征的丟失，可以更全面地表征語音數(shù)據(jù)的信息。

圖1 混合特征參數(shù)提取框圖

1.2 構(gòu)造融合相位差信息的自適應(yīng)軟掩模

圖2 相位幾何關(guān)系圖

在基于深度神經(jīng)網(wǎng)絡(luò)的語音增強系統(tǒng)中，學(xué)習(xí)目標的性能與語音增強的效果有著直接的關(guān)系，決定著增強語音的失真程度和殘留背景噪聲的數(shù)目。在眾多學(xué)習(xí)目標中，使用IRM作為學(xué)習(xí)目標進行語音增強的效果最優(yōu)，其根據(jù)每個時頻單元中的純凈語音能量和噪聲能量進行取值，可以有效提升增強語音質(zhì)量[11]，濾除背景噪聲。但由于在不同信噪比條件下，IRM都是用相同的技術(shù)手段濾除噪聲，無法根據(jù)信噪比信息的不同自動調(diào)節(jié)，所以經(jīng)常出現(xiàn)把有用的語音成分消除而保留噪聲成分的問題。且在傳統(tǒng)的IRM中只考慮到了語音的幅度信息，忽略了影響語音可懂度的相位信息。因此，筆者提出新的自適應(yīng)軟掩模，其可以根據(jù)語音信噪比信息的不同進行自動調(diào)節(jié)，得到相應(yīng)信噪比條件下的掩蔽值，同時融入語音的相位信息，在提升語音質(zhì)量的同時提高語音可懂度。

圖2為相位的幾何關(guān)系圖[12]。

圖2中ZD、ZS、ZN分別表示帶噪語音、純凈語音、噪聲語音的幅值。αD、αS、αN分別為帶噪語音、純凈語音、噪聲語音的相位，從圖2可知：

(4)

根據(jù)先驗信噪比ξ和后驗信噪比γ的定義式可推出噪聲語音和帶噪語音的相位差信息：

(5)

根據(jù)圖中幾何關(guān)系，可得出

cos(αN-αD)=(ZD-Z)/ZN，

(6)

cosαDS=cos(αD-αS)=Z/ZS。

(7)

因此，可表示純凈語音和帶噪語音的相位差信息為

(8)

(9)

(10)

實驗證明，當(dāng)α為0.7時，效果最好，因此選用α取0.7。得到的比率掩模R融合了語音的相位信息，且結(jié)合了不同冪值掩模的優(yōu)勢。為保證在濾除背景噪聲的同時減小語音失真，所以根據(jù)信噪比信息調(diào)整比率掩模值，得到最終的自適應(yīng)軟掩模S：

(11)

最終得到的軟掩?？梢愿鶕?jù)信噪比信息的不同自動調(diào)節(jié)，且融入了語音的相位差信息，可以在濾除背景噪聲的同時，保留有用語音成分，保持語音頻譜的完整性，從而提高語音的可懂度。

1.3 深度神經(jīng)網(wǎng)絡(luò)

基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks，DNN)強大的非線性學(xué)習(xí)能力，可以有效學(xué)習(xí)帶噪語音特征和學(xué)習(xí)目標之間的非線性關(guān)系。DNN訓(xùn)練過程主要分為兩個階段，即無監(jiān)督預(yù)訓(xùn)練階段和有監(jiān)督的反向調(diào)優(yōu)階段。深度信念網(wǎng)絡(luò)(Deep Belief Network，DBN)由多層受限玻爾茲曼機(Restricted Boltzmann Machine，RBM)組成，預(yù)訓(xùn)練階段通過對比散度算法(Contrastive Divergence，CD)[13]訓(xùn)練RBM，每一層RBM的輸出作為下一層RBM的輸入，逐層堆疊預(yù)訓(xùn)練好的RBM即可得到DBN網(wǎng)絡(luò)。在DBN網(wǎng)絡(luò)后增加輸出層，就可以得到初始化的DNN網(wǎng)絡(luò)結(jié)構(gòu)。反向調(diào)優(yōu)階段是有監(jiān)督的學(xué)習(xí)過程，目的是使經(jīng)過訓(xùn)練得到的增強語音與對應(yīng)純凈語音之間的誤差達到最小。首先將小批量的語音特征數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò)進行正向傳播，通過代價函數(shù)計算輸入層和對應(yīng)輸出層之間的誤差值，選用最小均方誤差(Minimum Mean Squared Error，MMSE)作為代價函數(shù)。然后利用隨機梯度下降算法將誤差反向傳播，修正每一層網(wǎng)絡(luò)的權(quán)重和偏置矩陣。重復(fù)上述步驟，對網(wǎng)絡(luò)參數(shù)進行迭代更新，直至訓(xùn)練完成。將最終得到最優(yōu)的網(wǎng)絡(luò)模型用于測試階段。

1.4 結(jié)合混合特征和自適應(yīng)軟掩模的語音增強算法

結(jié)合自適應(yīng)軟掩模和混合特征進行語音增強的算法主要包括兩部分，即訓(xùn)練階段和測試階段。訓(xùn)練階段首先將純凈語音、噪聲、帶噪語音通過伽馬通濾波器，得到各自的耳蝸表示值，根據(jù)1.2節(jié)中的方案計算得到自適應(yīng)軟掩模，將得到的自適應(yīng)軟掩模作為學(xué)習(xí)目標。然后提取帶噪語音的混合特征參數(shù)，將混合特征參數(shù)作為DNN的輸入進行訓(xùn)練，通過基于最小均方誤差的代價函數(shù)計算誤差并反向傳播修正網(wǎng)絡(luò)參數(shù)，將訓(xùn)練得到的最優(yōu)網(wǎng)絡(luò)模型保存。測試階段，首先提取測試集的混合特征參數(shù)輸入到已經(jīng)訓(xùn)練好的模型中，然后通過DNN網(wǎng)絡(luò)模型生成其特征對應(yīng)的學(xué)習(xí)目標，最后根據(jù)網(wǎng)絡(luò)估計的學(xué)習(xí)目標合成增強語音。圖3為結(jié)合混合特征和自適應(yīng)軟掩模進行語音增強算法的系統(tǒng)框圖。

圖3 結(jié)合混合特征和自適應(yīng)軟掩模的語音增強算法系統(tǒng)框圖

2 仿真實驗與結(jié)果分析

2.1 實驗數(shù)據(jù)

為驗證筆者提出算法的有效性，從IEEE語音數(shù)據(jù)庫中選取60條純凈語音，選取NOISEX-92噪聲庫中的White、pink、Factory噪聲，所選純凈語音和噪聲樣本采樣率相等。選取50條純凈語音與3種噪聲源的前半部分在分別為-5 dB、0 dB、5 dB信噪比下進行混合，組成450條訓(xùn)練集。將3種噪聲源的后半部分與剩余的10條純凈語音在3種信噪比混合，得到90條測試集。

2.2 網(wǎng)絡(luò)參數(shù)

為了確保深度神經(jīng)網(wǎng)絡(luò)有能力描述混合特征參數(shù)和學(xué)習(xí)目標之間的復(fù)雜關(guān)系，設(shè)計具有5層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，其中包含3個隱層，每個隱層設(shè)有1 024 個節(jié)點。由于一幀軟掩模是64維向量，所以輸出層設(shè)有64 個節(jié)點，用來輸出學(xué)習(xí)目標。首先采用隨機初始化的方法設(shè)定預(yù)訓(xùn)練的網(wǎng)絡(luò)模型參數(shù)，第一個RBM的學(xué)習(xí)率設(shè)置為0.004，其他設(shè)置為0.010。隱含層的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit，ReLU)，因為ReLU可使網(wǎng)絡(luò)快速收斂的同時防止梯度飽和與梯度爆炸，輸出層的激活函數(shù)采用Sigmoid 函數(shù)。并用Dropout來防止網(wǎng)絡(luò)模型過擬合，設(shè)置輸入層的Dropout值為0，隱含層的Dropout 值為0.2。采用最小均方誤差和隨機梯度算法反向調(diào)優(yōu)，網(wǎng)絡(luò)迭代次數(shù)為20次，前5次動量系數(shù)設(shè)置為0.5，隨后增長至0.9保持不變。學(xué)習(xí)速率初始值設(shè)置為0.08，隨著訓(xùn)練步長自適應(yīng)線性減小，直至0.001。運用上述參數(shù)進行實驗，經(jīng)過反復(fù)迭代對網(wǎng)絡(luò)參數(shù)進行更新。

2.3 仿真實驗與結(jié)果分析

采用主觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality，PESQ)[14]和短時客觀可懂度(Short-Time Objective Intelligibility，STOI)[15]作為語音評價標準。其中PESQ可評估語音的感知質(zhì)量，可近似客觀表示主觀測聽打分(Mean Opinion Score，MOS)，PESQ 評分范圍為-0.5～4.5，分值越高，表示增強語音質(zhì)量越高。STOI通過計算純凈語音和增強語音的短時包絡(luò)相關(guān)性來反映語音可懂度，其取值范圍是0～1，分值越高，代表增強語音的可懂度越高。選取PESQ和STOI兩個指標從增強語音質(zhì)量和可懂度兩個方面來驗證聯(lián)合特征和軟掩模的有效性，設(shè)計3組實驗來進行討論：

實驗1 采用MFCC特征和IRM來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

實驗2 采用MFCC和NGFCC的混合特征與IRM來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

實驗3 采用MFCC和 NGFCC的混合特征與自適應(yīng)軟掩模來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

采取上述3組實驗分別在 white、factory 和 pink噪聲下對測試集語音進行仿真，實驗數(shù)據(jù)如表1和表2所示。

表1 不同實驗下的PESQ對比

表2 不同實驗下的STOI對比

分析以上結(jié)果：

(1)對比實驗1和實驗2的結(jié)果可知，采用特征為MFCC和NGFCC的混合特征時的增強性能優(yōu)于單特征。在3種噪聲下，增強語音的PESQ值平均提升了0.140，STOI平均提高了0.012，證明了筆者提出的混合特征對整個語音增強系統(tǒng)性能的改善有著重要的作用。

(2)對比實驗2和實驗3的結(jié)果可知，采用自適應(yīng)軟掩模作為學(xué)習(xí)目標時，PESQ平均提升了0.200，STOI平均提升了0.015。實驗證明了自適應(yīng)軟掩模作為學(xué)習(xí)目標的優(yōu)越性，在提升語音質(zhì)量的同時可增強語音可懂度。

(3)對比實驗1和實驗3的結(jié)果可知，當(dāng)采用自適應(yīng)軟掩模和混合特征進行語音增強時，PESQ平均提升了0.340，STOI平均提升了0.027，驗證了筆者所提的基于混合特征和自適應(yīng)軟掩模的語音增強算法的有效性。從-5 dB到5 dB，增強語音STOI分別平均提升了0.040、0.025、0.016，PESQ分別平均提升了 0.380、0.340、0.290。隨著信噪比的降低，提升值逐漸升高。由此證明了筆者提出的算法在低信噪比條件下處理帶噪語音的優(yōu)勢。

為了直觀簡捷地說明混合特征和自適應(yīng)軟掩模進行語音增強算法的優(yōu)勢，給出了在上述3種實驗條件下，信噪比為0 dB，以white為背景噪聲的語音增強語譜圖，如圖4所示。

觀察圖4發(fā)現(xiàn)，基于單特征MFCC得到的增強語音存在殘留噪聲，混合特征得到的增強語音在去除噪聲方面有所改善，但是存在部分語音丟失的現(xiàn)象。而使用混合特征和自適應(yīng)軟掩模進行語音增強時可以明顯去除噪聲，而且可以較為完整的保存語音頻譜的結(jié)構(gòu)信息。

圖4 語譜圖

3 結(jié)束語

筆者提出結(jié)合自適應(yīng)軟掩和混合特征的語音增強算法。首先，采用更符合人耳聽覺感知特性的非線性冪函數(shù)提取新伽馬通頻率倒譜系數(shù)，將其與MFCC特征混合以獲得更全面的語音結(jié)構(gòu)信息；其次，構(gòu)建了可以根據(jù)信噪比信息自動調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標，并在其中融入了相位差信息，該學(xué)習(xí)目標有利于保持完整的語音頻譜特性，減小語音失真。實驗結(jié)果證明，筆者提出的算法在不同噪聲、不同信噪比條件下，能夠有效濾除背景噪聲，提升主觀語音增強質(zhì)量和短時客觀可懂度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡