張 敏,賈海蓉,張剛敏,王素英
(太原理工大學(xué) 信息與計算機學(xué)院,山西 太原 030024)
語音增強是旨在保證語音不失真的條件下,盡可能地從帶噪語音中減少或消除干擾,提取有用語音分量的技術(shù)[1]。語音增強的方法可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。無監(jiān)督學(xué)習(xí)如譜減法[2]、維納濾波法[3]等,都基于一些不合理假設(shè),且在低信噪比或者非平穩(wěn)噪聲的條件下,抑制能力差,容易引起語音失真。有監(jiān)督學(xué)習(xí)可分為基于淺層和深層模型兩類,其中基于淺層模型如隱馬爾科夫模型、非負矩陣分解、淺層神經(jīng)網(wǎng)絡(luò)等,學(xué)習(xí)語音非線性結(jié)構(gòu)信息有限,一定程度上限制了模型的性能。深層模型具有強大的學(xué)習(xí)能力,可以有效學(xué)習(xí)帶噪語音特征與學(xué)習(xí)目標之間的關(guān)系,因此成為語音增強方向的研究熱點。文獻[4]通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)帶噪語音特征和時頻掩模間的非線性關(guān)系,且對理想二值掩模(Ideal Binary Mask,IBM)、理想浮值掩模(Ideal Ratio Mask,IRM)、目標二值掩蔽等一系列基于時頻掩蔽的學(xué)習(xí)目標進行了對比。分析實驗結(jié)果可知,當(dāng)選用IRM作為學(xué)習(xí)目標進行語音增強時,增強語音的質(zhì)量和可懂度最優(yōu)。但IRM沒有考慮與語音可懂度密切相關(guān)的相位信息,且在不同信噪比條件下,都根據(jù)語音能量在語音與噪聲能量和中的比重來確定的,無法根據(jù)信噪比的不同來自動調(diào)節(jié),容易造成目標語音成分的丟失。語音特征能夠表征語音信號的特性,不同的語音特征代表的語音屬性各不相同。文獻[5]從人耳聽覺感知特性的角度出發(fā),提出了梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC),但梅爾濾波器在高頻處容易發(fā)生泄露,從而丟失有效語音特征,且無法較好地模擬人耳基底膜的分頻特性。文獻[6]提出了功率歸一化倒譜系數(shù)(Power Normalized Cepstral Coefficients,PNCC)。該特征進行語音增強時性能良好,但在處理混響時,會導(dǎo)致運算時間變長。文獻[7]提出了多分辨率耳蝸(Multi-Resolution CochleaGram,MRCG)特征,通過不同分辨率的耳蝸組合來捕獲語音信號的局部和全局信息,但該特征維數(shù)過高,會導(dǎo)致網(wǎng)絡(luò)運算復(fù)雜度增加。
通過以上分析,筆者提出一種混合特征來改善傳統(tǒng)特征的局限性。首先,通過根據(jù)人耳結(jié)構(gòu)設(shè)計的梅爾濾波器提取MFCC特征,并采用更符合人耳聽覺壓縮感知的非線性冪函數(shù)提取新的伽馬通頻率倒譜系數(shù)(New Gammatone Frequency Cepstral Coefficients,NGFCC)。伽馬通濾波器可以改善梅爾域濾波器在高頻處丟失有效特征的問題,同時可以模擬人耳基底膜的分頻特性。將兩種特征混合可較全面描述語音信息,提高增強語音質(zhì)量。其次,為使在濾除背景噪聲的同時盡可能地減少語音失真,提出一種根據(jù)信噪比進行自動調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標,該軟掩模同時融入了語音的相位差信息,可改善掩蔽效應(yīng),增強語音的可懂度。最后通過設(shè)計實驗,驗證所提算法的優(yōu)勢。
梅爾頻率與人耳頻率呈非線性相關(guān),符合人的聽覺機理[8],但梅爾濾波器會隨著頻率的升高愈發(fā)稀疏,從而導(dǎo)致特征丟失[9]。伽馬通濾波器組基于耳蝸結(jié)構(gòu)設(shè)計,會隨著頻發(fā)升高愈發(fā)密集,同時伽馬通濾波器能精確模擬人耳的聽覺效應(yīng),具有極強的魯棒性[10]。筆者將梅爾域特征和伽馬通域特征混合,可避免有效特征的丟失,提高增強語音質(zhì)量。其中采用指數(shù)代替對數(shù)對伽馬通域特征進行壓縮,更符合人耳聽覺壓縮感知,同時可提高人耳聽覺系統(tǒng)的抗干擾能力。分別對提取到的梅爾域特征和伽馬通域特征進行去相關(guān)處理,將去相關(guān)處理后梅爾域特征和伽馬通域特征混合并求取其一階差分導(dǎo)數(shù)以獲得語音的瞬變信息,最后將初始混合特征與其一階差分參數(shù)混合作為語音增強的混合特征參數(shù)。該特征可以反映語音信號的時變特性,進一步改善了神經(jīng)網(wǎng)絡(luò)增強語音的性能。圖1為該特征參數(shù)的提取框圖。
混合特征參數(shù)具體提取過程如下:
(1) 使語音信號經(jīng)過預(yù)處理后進行快速傅里葉變換,計算得到語音數(shù)據(jù)的譜線能量。
(2) 將語音數(shù)據(jù)的每幀譜線能量譜通過可以模擬人耳聽覺特性的梅爾濾波器組,得到基于梅爾域的頻譜數(shù)據(jù),對其進行對數(shù)操作和離散余弦變換,得到MFCC特征。
(3) 將每幀譜線能量譜通過基于耳蝸結(jié)構(gòu)設(shè)計的伽馬通濾波器組,采用冪函數(shù)對其進行壓縮,使之更符合人耳聽覺壓縮感知,后進行離散余弦變換,得到NGFCC特征。
(4) 將MFCC特征和NGFCC特征進行拼接得到初始混合特征X,即
X(i,m)=[XMFCC(i,m);XNGFCC(i,m)] ,
(1)
其中,i表示第i幀,m表示特征維度索引,XMFCC(i,m)表示MFCC特征,XNGFCC(i,m)表示NGFCC特征。
(5) 對初始混合特征求取差分導(dǎo)數(shù),得到差分特征ΔX,如下所示:
(2)
差分特征可以捕獲語音的瞬變信息和相鄰幀語音信息間的聯(lián)系。
(6) 融合初始混合特征和其一階差分導(dǎo)數(shù),得到混合特征參數(shù)D,即
D(i,m)=[X(i,m);ΔX(i,m)] 。
(3)
最終得到的混合特征參數(shù)綜合了梅爾域特征和伽馬通域特征的特點,既考慮到了人耳的結(jié)構(gòu)特性,又符合人耳基底膜的分頻特性,避免了有效特征的丟失,可以更全面地表征語音數(shù)據(jù)的信息。
圖1 混合特征參數(shù)提取框圖
圖2 相位幾何關(guān)系圖
在基于深度神經(jīng)網(wǎng)絡(luò)的語音增強系統(tǒng)中,學(xué)習(xí)目標的性能與語音增強的效果有著直接的關(guān)系,決定著增強語音的失真程度和殘留背景噪聲的數(shù)目。在眾多學(xué)習(xí)目標中,使用IRM作為學(xué)習(xí)目標進行語音增強的效果最優(yōu),其根據(jù)每個時頻單元中的純凈語音能量和噪聲能量進行取值,可以有效提升增強語音質(zhì)量[11],濾除背景噪聲。但由于在不同信噪比條件下,IRM都是用相同的技術(shù)手段濾除噪聲,無法根據(jù)信噪比信息的不同自動調(diào)節(jié),所以經(jīng)常出現(xiàn)把有用的語音成分消除而保留噪聲成分的問題。且在傳統(tǒng)的IRM中只考慮到了語音的幅度信息,忽略了影響語音可懂度的相位信息。因此,筆者提出新的自適應(yīng)軟掩模,其可以根據(jù)語音信噪比信息的不同進行自動調(diào)節(jié),得到相應(yīng)信噪比條件下的掩蔽值,同時融入語音的相位信息,在提升語音質(zhì)量的同時提高語音可懂度。
圖2為相位的幾何關(guān)系圖[12]。
圖2中ZD、ZS、ZN分別表示帶噪語音、純凈語音、噪聲語音的幅值。αD、αS、αN分別為帶噪語音、純凈語音、噪聲語音的相位,從圖2可知:
(4)
根據(jù)先驗信噪比ξ和后驗信噪比γ的定義式可推出噪聲語音和帶噪語音的相位差信息:
(5)
根據(jù)圖中幾何關(guān)系,可得出
cos(αN-αD)=(ZD-Z)/ZN,
(6)
cosαDS=cos(αD-αS)=Z/ZS。
(7)
因此,可表示純凈語音和帶噪語音的相位差信息為
(8)
(9)
(10)
實驗證明,當(dāng)α為0.7時,效果最好,因此選用α取0.7。得到的比率掩模R融合了語音的相位信息,且結(jié)合了不同冪值掩模的優(yōu)勢。為保證在濾除背景噪聲的同時減小語音失真,所以根據(jù)信噪比信息調(diào)整比率掩模值,得到最終的自適應(yīng)軟掩模S:
(11)
最終得到的軟掩??梢愿鶕?jù)信噪比信息的不同自動調(diào)節(jié),且融入了語音的相位差信息,可以在濾除背景噪聲的同時,保留有用語音成分,保持語音頻譜的完整性,從而提高語音的可懂度。
基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)強大的非線性學(xué)習(xí)能力,可以有效學(xué)習(xí)帶噪語音特征和學(xué)習(xí)目標之間的非線性關(guān)系。DNN訓(xùn)練過程主要分為兩個階段,即無監(jiān)督預(yù)訓(xùn)練階段和有監(jiān)督的反向調(diào)優(yōu)階段。深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)由多層受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)組成,預(yù)訓(xùn)練階段通過對比散度算法(Contrastive Divergence,CD)[13]訓(xùn)練RBM,每一層RBM的輸出作為下一層RBM的輸入,逐層堆疊預(yù)訓(xùn)練好的RBM即可得到DBN網(wǎng)絡(luò)。在DBN網(wǎng)絡(luò)后增加輸出層,就可以得到初始化的DNN網(wǎng)絡(luò)結(jié)構(gòu)。反向調(diào)優(yōu)階段是有監(jiān)督的學(xué)習(xí)過程,目的是使經(jīng)過訓(xùn)練得到的增強語音與對應(yīng)純凈語音之間的誤差達到最小。首先將小批量的語音特征數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò)進行正向傳播,通過代價函數(shù)計算輸入層和對應(yīng)輸出層之間的誤差值,選用最小均方誤差(Minimum Mean Squared Error,MMSE)作為代價函數(shù)。然后利用隨機梯度下降算法將誤差反向傳播,修正每一層網(wǎng)絡(luò)的權(quán)重和偏置矩陣。重復(fù)上述步驟,對網(wǎng)絡(luò)參數(shù)進行迭代更新,直至訓(xùn)練完成。將最終得到最優(yōu)的網(wǎng)絡(luò)模型用于測試階段。
結(jié)合自適應(yīng)軟掩模和混合特征進行語音增強的算法主要包括兩部分,即訓(xùn)練階段和測試階段。訓(xùn)練階段首先將純凈語音、噪聲、帶噪語音通過伽馬通濾波器,得到各自的耳蝸表示值,根據(jù)1.2節(jié)中的方案計算得到自適應(yīng)軟掩模,將得到的自適應(yīng)軟掩模作為學(xué)習(xí)目標。然后提取帶噪語音的混合特征參數(shù),將混合特征參數(shù)作為DNN的輸入進行訓(xùn)練,通過基于最小均方誤差的代價函數(shù)計算誤差并反向傳播修正網(wǎng)絡(luò)參數(shù),將訓(xùn)練得到的最優(yōu)網(wǎng)絡(luò)模型保存。測試階段,首先提取測試集的混合特征參數(shù)輸入到已經(jīng)訓(xùn)練好的模型中,然后通過DNN網(wǎng)絡(luò)模型生成其特征對應(yīng)的學(xué)習(xí)目標,最后根據(jù)網(wǎng)絡(luò)估計的學(xué)習(xí)目標合成增強語音。圖3為結(jié)合混合特征和自適應(yīng)軟掩模進行語音增強算法的系統(tǒng)框圖。
圖3 結(jié)合混合特征和自適應(yīng)軟掩模的語音增強算法系統(tǒng)框圖
為驗證筆者提出算法的有效性,從IEEE語音數(shù)據(jù)庫中選取60條純凈語音,選取NOISEX-92噪聲庫中的White、pink、Factory噪聲,所選純凈語音和噪聲樣本采樣率相等。選取50條純凈語音與3種噪聲源的前半部分在分別為-5 dB、0 dB、5 dB信噪比下進行混合,組成450條訓(xùn)練集。將3種噪聲源的后半部分與剩余的10條純凈語音在3種信噪比混合,得到90條測試集。
為了確保深度神經(jīng)網(wǎng)絡(luò)有能力描述混合特征參數(shù)和學(xué)習(xí)目標之間的復(fù)雜關(guān)系,設(shè)計具有5層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,其中包含3個隱層,每個隱層設(shè)有1 024 個節(jié)點。由于一幀軟掩模是64維向量,所以輸出層設(shè)有64 個節(jié)點,用來輸出學(xué)習(xí)目標。首先采用隨機初始化的方法設(shè)定預(yù)訓(xùn)練的網(wǎng)絡(luò)模型參數(shù),第一個RBM的學(xué)習(xí)率設(shè)置為0.004,其他設(shè)置為0.010。隱含層的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU),因為ReLU可使網(wǎng)絡(luò)快速收斂的同時防止梯度飽和與梯度爆炸,輸出層的激活函數(shù)采用Sigmoid 函數(shù)。并用Dropout來防止網(wǎng)絡(luò)模型過擬合,設(shè)置輸入層的Dropout值為0,隱含層的Dropout 值為0.2。采用最小均方誤差和隨機梯度算法反向調(diào)優(yōu),網(wǎng)絡(luò)迭代次數(shù)為20次,前5次動量系數(shù)設(shè)置為0.5,隨后增長至0.9保持不變。學(xué)習(xí)速率初始值設(shè)置為0.08,隨著訓(xùn)練步長自適應(yīng)線性減小,直至0.001。運用上述參數(shù)進行實驗,經(jīng)過反復(fù)迭代對網(wǎng)絡(luò)參數(shù)進行更新。
采用主觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality,PESQ)[14]和短時客觀可懂度(Short-Time Objective Intelligibility,STOI)[15]作為語音評價標準。其中PESQ可評估語音的感知質(zhì)量,可近似客觀表示主觀測聽打分(Mean Opinion Score,MOS),PESQ 評分范圍為-0.5~4.5,分值越高,表示增強語音質(zhì)量越高。STOI通過計算純凈語音和增強語音的短時包絡(luò)相關(guān)性來反映語音可懂度,其取值范圍是0~1,分值越高,代表增強語音的可懂度越高。選取PESQ和STOI兩個指標從增強語音質(zhì)量和可懂度兩個方面來驗證聯(lián)合特征和軟掩模的有效性,設(shè)計3組實驗來進行討論:
實驗1 采用MFCC特征和IRM來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
實驗2 采用MFCC和NGFCC的混合特征與IRM來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
實驗3 采用MFCC和 NGFCC的混合特征與自適應(yīng)軟掩模來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
采取上述3組實驗分別在 white、factory 和 pink噪聲下對測試集語音進行仿真,實驗數(shù)據(jù)如表1和表2所示。
表1 不同實驗下的PESQ對比
表2 不同實驗下的STOI對比
分析以上結(jié)果:
(1)對比實驗1和實驗2的結(jié)果可知,采用特征為MFCC和NGFCC的混合特征時的增強性能優(yōu)于單特征。在3種噪聲下,增強語音的PESQ值平均提升了0.140,STOI平均提高了0.012,證明了筆者提出的混合特征對整個語音增強系統(tǒng)性能的改善有著重要的作用。
(2)對比實驗2和實驗3的結(jié)果可知,采用自適應(yīng)軟掩模作為學(xué)習(xí)目標時,PESQ平均提升了0.200,STOI平均提升了0.015。實驗證明了自適應(yīng)軟掩模作為學(xué)習(xí)目標的優(yōu)越性,在提升語音質(zhì)量的同時可增強語音可懂度。
(3)對比實驗1和實驗3的結(jié)果可知,當(dāng)采用自適應(yīng)軟掩模和混合特征進行語音增強時,PESQ平均提升了0.340,STOI平均提升了0.027,驗證了筆者所提的基于混合特征和自適應(yīng)軟掩模的語音增強算法的有效性。從-5 dB到5 dB,增強語音STOI分別平均提升了0.040、0.025、0.016,PESQ分別平均提升了 0.380、0.340、0.290。隨著信噪比的降低,提升值逐漸升高。由此證明了筆者提出的算法在低信噪比條件下處理帶噪語音的優(yōu)勢。
為了直觀簡捷地說明混合特征和自適應(yīng)軟掩模進行語音增強算法的優(yōu)勢,給出了在上述3種實驗條件下,信噪比為0 dB,以white為背景噪聲的語音增強語譜圖,如圖4所示。
觀察圖4發(fā)現(xiàn),基于單特征MFCC得到的增強語音存在殘留噪聲,混合特征得到的增強語音在去除噪聲方面有所改善,但是存在部分語音丟失的現(xiàn)象。而使用混合特征和自適應(yīng)軟掩模進行語音增強時可以明顯去除噪聲,而且可以較為完整的保存語音頻譜的結(jié)構(gòu)信息。
圖4 語譜圖
筆者提出結(jié)合自適應(yīng)軟掩和混合特征的語音增強算法。首先,采用更符合人耳聽覺感知特性的非線性冪函數(shù)提取新伽馬通頻率倒譜系數(shù),將其與MFCC特征混合以獲得更全面的語音結(jié)構(gòu)信息;其次,構(gòu)建了可以根據(jù)信噪比信息自動調(diào)節(jié)的自適應(yīng)軟掩模作為學(xué)習(xí)目標,并在其中融入了相位差信息,該學(xué)習(xí)目標有利于保持完整的語音頻譜特性,減小語音失真。實驗結(jié)果證明,筆者提出的算法在不同噪聲、不同信噪比條件下,能夠有效濾除背景噪聲,提升主觀語音增強質(zhì)量和短時客觀可懂度。