鄭昌艷 張雄偉 曹鐵勇 楊吉斌 孫 蒙 邢益搏
(陸軍工程大學(xué),南京,210007)
人體傳聲器(Body-conducted microphone,BCM)[1-2]是一種利用人體骨頭或者組織的振動產(chǎn)生語音信號的設(shè)備。現(xiàn)有的BCM設(shè)備包括喉振傳聲器(Throat microphone,TM)、頭骨傳聲器(Headset microphone,HM)以及利用耳后組織的非聲耳語傳聲器(Nonaudible murmur microphone,NAM)等。與常見的空氣傳導(dǎo)麥克風(fēng)(Air-conducted microphone,ACM)不同,BCM采集的信號基本不受環(huán)境噪聲干擾,具有很強的抗噪性能,因此常被應(yīng)用于軍事、工廠、極限運動、醫(yī)療等強噪聲場合。例如,文獻(xiàn)[2]利用NAM實現(xiàn)咽喉受損患者語音交流,文獻(xiàn)[3]利用HM協(xié)助戰(zhàn)場士兵通信,文獻(xiàn)[4]利用TM實現(xiàn)魯棒的語音識別。
雖然BCM具有很強的抗噪性能,但是由于人體信號傳導(dǎo)的低通性,其語音高頻成份衰減嚴(yán)重,截止頻率通常在2.5 kHz左右。并且由于聲音不再經(jīng)過口腔、鼻腔等傳播路徑,爆破音、擦音、鼻音等成份丟失。再加上設(shè)備機械振動的固有特性,語音的中頻成份相比于ACM語音厚重[5-6]。這些問題使得BCM語音聽起來比較沉悶,語音質(zhì)量達(dá)不到人耳舒適度需求,從而在一定程度上影響了BCM的進一步推廣應(yīng)用。
近年來,諸多學(xué)者開展了與BCM語音相關(guān)的語音增強算法的研究,但是在多數(shù)情況下,BCM只是作為ACM語音增強的輔助。例如,文獻(xiàn)[7]通過設(shè)計自適應(yīng)的線性與非線性相結(jié)合的濾波,融合BCM語音與帶噪ACM語音,文獻(xiàn)[8]通過線性融合ACM與TM的聲學(xué)特征來提高語音識別率。上述增強算法在增強階段必須同時具有TM與ACM語音信息,在強噪聲環(huán)境下,帶噪ACM語音可能完全不可用,并且一些BCM設(shè)備并未配置ACM,因此存在較大的應(yīng)用局限性。
BCM語音盲增強(Blind enhancement),原稱盲恢復(fù)(Blind restoration)[9],是指在增強階段直接從已有的BCM語音中推斷出純凈ACM語音信號,而不需要ACM語音信息作為輔助?,F(xiàn)有的BCM語音盲增強算法大都是通過轉(zhuǎn)換語音譜包絡(luò)特征達(dá)到增強目的。例如文獻(xiàn)[10]利用簡單神經(jīng)網(wǎng)絡(luò)建立BCM到ACM語音加權(quán)線性感知倒譜系數(shù)(Weighted linear predictive cepstrum coefficient,wLPCC)之間的轉(zhuǎn)換關(guān)系;文獻(xiàn)[9]認(rèn)為線譜頻率LSF比LPC特征擁有更好的穩(wěn)定性,并且利用淺層遞歸神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征的轉(zhuǎn)換;文獻(xiàn)[11]采用深度玻爾茲曼機神經(jīng)網(wǎng)絡(luò),建BCM語音到ACM語音的LSF參數(shù)轉(zhuǎn)換關(guān)系;文獻(xiàn)[12]首先利用K-means聚類算法將TM語音的梅爾廣義倒譜系數(shù)(Mel generalized cepstral coefficients,MGC)分為10類,每一類分別建立簡單神經(jīng)網(wǎng)絡(luò)映射MGC特征關(guān)系,以實現(xiàn)語音特征更精細(xì)的轉(zhuǎn)換;文獻(xiàn)[2]利用語音轉(zhuǎn)換中常用的語音分解合成模型STRAIGHT[13](Speech transformation and representation using adaptive interpolation of weighted spectrum),將語音分解為譜包絡(luò)特征、基音周期和非周期成份,利用GMM建立NAM與ACM語音梅爾倒譜系數(shù)之間的轉(zhuǎn)換關(guān)系。上述增強算法可以較好改善BCM語音譜包絡(luò)特征,但是由于特征維數(shù)較低,譜的細(xì)節(jié)信息不能很好恢復(fù),因此增強效果與人耳舒適度需求仍有較大差距。
本文提出了一種基于特定說話人的喉振傳聲器語音盲增強算法,該算法利用長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)模型[14](Long short term memory recurrent neural networks,LSTM-RNN)直接建模TM語音和ACM語音高維對數(shù)幅度譜特征之間的映射關(guān)系,這種神經(jīng)網(wǎng)絡(luò)能夠有效利用上下文信息實現(xiàn)特征學(xué)習(xí),然后針對神經(jīng)網(wǎng)絡(luò)輸出過平滑問題,利用非負(fù)矩陣分解(Non-negative matrix factorization,NMF)[15]算法對估計出的幅度譜進行抑制平滑處理。
TM語音和ACM語音可看成由同一激勵源(人的喉頭)產(chǎn)生的信號,那么TM語音盲增強的關(guān)鍵就是要找TM語音到ACM語音聲道特征之間的轉(zhuǎn)換關(guān)系。顯然,這是一種復(fù)雜的非線性轉(zhuǎn)換關(guān)系,由于TM語音丟失了經(jīng)過口腔、鼻腔等輻射的語音音素,并且不同人的身體傳導(dǎo)特性也不盡相同,因此這種轉(zhuǎn)換關(guān)系不僅基于語音音素,而且也基于特定說話人。
以往的TM語音盲增強算法均是基于語音源-濾波器模型,將語音分解為激勵(源)特征和聲道(濾波器)特征,在假定激勵特征不變的情況下,對低維的聲道參數(shù)特征(如LSF、MGC)進行映射以實現(xiàn)語音增強。這些低維參數(shù)特征能夠反映出語音譜包絡(luò)的變化趨勢,但對譜的細(xì)節(jié)信息描述不夠,因而增強效果有限。為獲取更高的增強語音質(zhì)量,本文提出了一種基于高維譜特征轉(zhuǎn)換的TM語音盲增強算法模型,并利用深度學(xué)習(xí)技術(shù)實現(xiàn)了TM與ACM語音高維特征間的有效轉(zhuǎn)換,算法的總體思路如圖1所示。
圖1 TM語音盲增強總體思路Fig.1 Framework of TM speech blind enhancement algorithm
該算法首先根據(jù)基于信號的語音分解合成模型,將語音分解為高維幅度譜與相位譜,通過轉(zhuǎn)換高維幅度譜實現(xiàn)TM語音盲增強??紤]到對數(shù)幅度譜能夠?qū)Ψ茸V進行有效壓縮,減少動態(tài)范圍,易于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,算法最終選取了對數(shù)幅度譜作為轉(zhuǎn)換特征。
TM與ACM語音在幅度譜上的差異主要表現(xiàn)為高頻成份的嚴(yán)重丟失。從信息丟失嚴(yán)重的TM語音中恢復(fù)出高頻信號并非易事,也可將這種恢復(fù)視為一種人工頻譜擴展(Artificial bandwidth extension),簡稱頻譜擴頻。但是傳統(tǒng)的頻譜擴頻的目的是將原始語音信號從0.3~3.7 kHz擴展到0.3~8 kHz左右,關(guān)注的是電信網(wǎng)絡(luò)傳輸語音信號的音質(zhì),而TM語音截止頻率約為2.5 kHz,不僅是人耳的聽覺感知受到了影響,很多與內(nèi)容相關(guān)的信息也丟失了。這種丟失的信息并不能簡單地從單個語音幀的低頻信息推斷出,而是必須結(jié)合上下文信息,從語境中“猜測”丟失的信號。
深度學(xué)習(xí)強大的非線性映射能力使得高維特征之間的建模成為了可能。遞歸神經(jīng)網(wǎng)絡(luò)模型能夠利用其內(nèi)部的遞歸結(jié)構(gòu)實現(xiàn)上下文信息的建模,因而更適合建模TM語音的“頻譜擴展”問題。LSTMRNN引入了精心設(shè)計的記憶單元結(jié)構(gòu)解決了傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)梯度爆炸和消失的問題,使得學(xué)習(xí)序列長時信息成為了可能。本文正是利用LSTM-RNN強大的序列學(xué)習(xí)能力,實現(xiàn)TM語音丟失信息的恢復(fù)。
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,會依據(jù)TM和ACM語音的對數(shù)幅度譜之間的距離調(diào)整網(wǎng)絡(luò)參數(shù),調(diào)整中默認(rèn)每個頻點差距對距離的貢獻(xiàn)是相同的。這種平均貢獻(xiàn)會產(chǎn)生數(shù)據(jù)過平滑問題,因為語音數(shù)據(jù)的結(jié)構(gòu)特點并未體現(xiàn)其中。
NMF是一種經(jīng)典的字典學(xué)習(xí)方法,它能夠?qū)⒁粋€非負(fù)矩陣分解為兩個非負(fù)矩陣的乘積,其中一個矩陣反映原矩陣的局部特征(又稱為字典矩陣),另一個則反映這些特征的大小與增益稱之為激活矩陣。由于字典基的數(shù)量遠(yuǎn)遠(yuǎn)小于原始數(shù)據(jù)的個數(shù),為盡可能地還原原始信息,NMF能夠有效地捕捉數(shù)據(jù)的結(jié)構(gòu)特點[16]。本文利用NMF的這一優(yōu)點緩解神經(jīng)網(wǎng)絡(luò)輸出數(shù)據(jù)過平滑問題,這種后處理方法已在語噪分離[17]、頻譜擴展[18]中得到成功應(yīng)用。
算法的具體實現(xiàn)分為訓(xùn)練階段和增強階段。訓(xùn)練階段主要包括:TM與ACM語音的特征抽取、基于LSTM-RNN的特征轉(zhuǎn)換模型訓(xùn)練以及基于NMF的ACM語音特征字典學(xué)習(xí)。增強階段主要包括:TM語音特征的提取、基于LSTM-RNN模型的特征轉(zhuǎn)換、基于NMF的神經(jīng)網(wǎng)絡(luò)輸出過平滑處理,以及最終的增強語音合成。需指出的是,為使神經(jīng)網(wǎng)絡(luò)更好地收斂,需要對神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)進行高斯歸一化[19]。
算法在訓(xùn)練階段的具體步驟為:
步驟1對訓(xùn)練集的TM語音x(n)和ACM語音s(n)分幀加窗并進行短時傅里葉變換,分別得到TM與ACM語音幅度譜特征X與S;
步驟2對幅度譜特征X與S進行對數(shù)變換得到對數(shù)幅度譜log(X)與log(S),計算出對數(shù)幅度譜每一維的均值與方差,記為,σX和ˉ,σS;
步驟3對數(shù)幅度譜log(X)與log(S)分別進行高斯歸一化,計算公式為
步驟4將logNorm(X)作為輸入,logNorm(S)作為輸出目標(biāo),訓(xùn)練LSTM-RNN模型,得到訓(xùn)練好的模型,記為G;
步驟5利用NMF對ACM語音幅度譜S進行分解,得到字典矢量基DA。
算法在增強階段的具體步驟為:
步驟1對待增強的TM語音t(n)分幀加窗并進行短時傅里葉變換,得到TM語音幅度譜特征T與相位譜特征P;
步驟2對幅度譜特征T取對數(shù)得到對數(shù)幅度譜log(T),并根據(jù)訓(xùn)練集得到的TM語音對數(shù)幅度譜均值與方差進行高斯歸一化,計算公式為
步驟3利用訓(xùn)練好的LSTM-RNN模型對特征進行轉(zhuǎn)換,得到輸出log()=G(logNorm(T));
步驟4依據(jù)訓(xùn)練集ACM語音特征的均值、方差進行反歸一化,并進行指數(shù)計算,得到估計的幅度譜為
步驟5根據(jù)訓(xùn)練階段得到的字典DA,對S^進行過平滑處理,得到最終估計的幅度譜;
步驟6利用反傅里葉變換(Inverse short time Fourier transform,ISTFT)將與P合成增強語音tE(n)。
整個算法的具體實現(xiàn)流程如圖2所示,為簡練起見,數(shù)據(jù)的高斯歸一化與反歸一化過程未在圖中體現(xiàn)。
設(shè)TM的第i幀語音的對數(shù)幅度譜特征為Xi,相對應(yīng)的ACM語音對數(shù)幅度譜特征為Si,并且均已經(jīng)過高斯歸一化。LSTM-RNN需聯(lián)立多幀語音信息建模上下文關(guān)系,聯(lián)立的幀數(shù)稱為迭代步長,設(shè)為2m+1,其中m為整數(shù),0≤m<N。聯(lián)立形式通常為開窗,即連接前后m幀信息推斷中間幀信息。因此,LSTM-RNN的輸入xn可表示為如下形式
式中:n為輸入樣本個數(shù)索引。對應(yīng)的目標(biāo)輸出yn=Si,網(wǎng)絡(luò)的訓(xùn)練目標(biāo)函數(shù)為均方誤差函數(shù),如式(5)所示。
圖2 算法實現(xiàn)流程Fig.2 Flowchart of the proposed algorithm
式中:N為樣本總數(shù)為對數(shù)幅度譜yn的估計;fW,b指經(jīng)過LSTM-RNN的非線性轉(zhuǎn)換函數(shù);W為神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣;b為神經(jīng)網(wǎng)絡(luò)偏置值。LSTM-RNN根據(jù)目標(biāo)函數(shù)計算出估計的對數(shù)幅度譜與目標(biāo)對數(shù)幅度譜之間的誤差,并根據(jù)此誤差利用基于時間的反向傳播算法(Back propagation through time)更新神經(jīng)網(wǎng)絡(luò)參數(shù)。
與受限玻爾茲曼機-深度置信網(wǎng)絡(luò)不同的是,LSTM-RNN輸入信息并不是多幀語音信息的簡單聯(lián)合,它通過在激活單元中設(shè)計了3種門結(jié)構(gòu)即輸入門、遺忘門、輸出門和一個記憶狀態(tài),實現(xiàn)了無用信息的丟棄和有用信息的保留,從而控制了信息流在神經(jīng)網(wǎng)絡(luò)中的有效流動。若沒有丟棄無用信息的過程,則過多的信息會導(dǎo)致神經(jīng)網(wǎng)絡(luò)難以擬合,從理論上也可證明語音的前后幀信息對于推斷當(dāng)前幀信息并非都是有用的。
LSTM-RNN中,輸入門it、遺忘門ft和輸出門ot以及當(dāng)前時刻記憶單元的狀態(tài)值ct的計算過程如下
式中:xt為當(dāng)前時刻的輸入值,對應(yīng)的是xn中的一幀;ht是隱藏層輸出;W為權(quán)重矩陣,例如Wxf指輸入xt與遺忘門f之間的權(quán)重矩陣;b為偏置值,例如bf為遺忘門偏置值;δ為激活函數(shù)。
上述公式清楚地展現(xiàn)了當(dāng)LSTM-RNN接收到一幀數(shù)據(jù)后,會保留該幀中的有用信息,丟棄無用信息,并且更新記憶狀態(tài)值,而此記憶狀態(tài)存儲著該幀之前所有的有用信息,由此上下文信息得到了聯(lián)系。再輸入下一幀數(shù)據(jù),LSTM-RNN重復(fù)同樣的動作,直到達(dá)到最大的迭代步長,即完成了上下文所有信息xn的輸入,才可得到最終的輸出。
神經(jīng)網(wǎng)絡(luò)的最終輸出yn需經(jīng)過以下反歸一化變換得到估計的對數(shù)幅度譜
式中:k表示第k維;yn′為重構(gòu)的對數(shù)幅度譜;v(k)、m(k)分別為ACM語音對數(shù)幅度譜的第k維的方差與均值。
LSTM-RNN雖然能夠很好地建模高維數(shù)據(jù)之間的相關(guān)關(guān)系,但是其輸出yn′存在過平滑的問題,利用NMF來緩解這個問題。
首先將訓(xùn)練集的ACM語音幅度譜S經(jīng)過非負(fù)矩陣分解算法得到字典DA及其激活矩陣HA,選取KL散度距離作為優(yōu)化目標(biāo)函數(shù),如式(13)所示。式(14),(15)分別為字典矩陣和激活矩陣計算的迭代過程。
式中:字典矩陣DA大小為K×T,K等于幅度譜特征維度;T為字典基矢量個數(shù),激活矩陣HA大小為T×N,N為訓(xùn)練集樣本個數(shù);i,j分別為矩陣的行、列索引。
在得到DA后,固定字典矩陣對神經(jīng)網(wǎng)絡(luò)估計的幅度譜進行分解,可得到激活矩陣HT,最終得到抑制平滑后的幅度譜′=DA×HT。
非負(fù)矩陣分解可對神經(jīng)網(wǎng)絡(luò)輸出的幅度譜特征進行稀疏化重構(gòu),因而可以抑制過平滑問題。將經(jīng)過NMF處理后的幅度譜與TM語音的相位譜經(jīng)過反傅里葉變換并進行去重疊加操作,得到重構(gòu)的增強語音。
目前,國內(nèi)外沒有公開可用的數(shù)據(jù)庫,本文首先制作了某型號的TM設(shè)備語音與ACM語音的平行語音數(shù)據(jù)庫。該數(shù)據(jù)庫包括800個語句,由2男2女錄制完成。錄制時,每個人需同時佩戴喉振傳聲器和普通空氣傳導(dǎo)麥克風(fēng),并在聲暗室中進行標(biāo)準(zhǔn)普通話錄制。采用Cooledit軟件錄制,采樣率為32 kHz,采用16 bit量化。錄音語料來源于報紙、網(wǎng)絡(luò)以及一些人為構(gòu)造的音素平衡語句。每人共錄制200句語音,每句話時長約在3~4 s,200句語音被分為160句作為訓(xùn)練集,40句作為測試集,訓(xùn)練集與測試集中沒有重復(fù)語料。
在模型訓(xùn)練前,首先對TM與ACM語音降采樣到8 kHz,然后進行能量歸一化,使得兩者語音能量在相近的動態(tài)范圍內(nèi)。語音特征提取時,幀長設(shè)為32 ms,幀移設(shè)為10 ms,STFT頻點設(shè)為256,即得到的幅度譜維度實際為129維,幅度譜取對數(shù)后進行高斯歸一化處理。
在評價指標(biāo)中,采用了3種客觀評價指標(biāo):對數(shù)譜距離(Log-spectral distance,LSD)、感知語音質(zhì)量評估方法(Perceptual evaluation of speech quality,PESQ)和對數(shù)似然比(Log-likelihood ratio,LLR)。LSD反映增強語音與理想ACM語音之間的對數(shù)幅度譜距離,其值越小表明語音質(zhì)量越高。LLR是衡量語音線性預(yù)測系數(shù)距離的一種指標(biāo),其值越小表明語音質(zhì)量越好。PESQ是一種能夠很好評價語音主觀試聽效果的評價指標(biāo),其得分越高,表明語音質(zhì)量越好。
通過參數(shù)調(diào)整實驗,本文得到的最優(yōu)LSTM-RNN模型參數(shù)設(shè)置如下:2個隱層,每個隱層的單元個數(shù)為512,隱層的激活函數(shù)為正切(tanh)函數(shù),輸出層激活函數(shù)為線性函數(shù),隱層丟棄正則化比率為0.2,迭代步長為23幀。
在LSTM-RNN訓(xùn)練過程中,隨機選取10%的訓(xùn)練數(shù)據(jù)作為驗證集,每批次(Batchsize)送入的數(shù)據(jù)數(shù)量為128,采用均方根傳播(Root mean square propagation,RMSProp)算法更新網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率設(shè)為0.01,當(dāng)驗證集誤差不再減少時則學(xué)習(xí)率降為原來一半,直到驗證集誤差連續(xù)2次不再減少,則停止訓(xùn)練。比較不同LSTM-RNN參數(shù)設(shè)置下的驗證集誤差值,驗證集誤差最小的模型參數(shù)即為本文選取的最優(yōu)LSTM-RNN模型參數(shù)。
圖3 LSTM-RNN不同隱層單元個數(shù)下的驗證集誤差Fig.3 Validation loss of LSTM-RNN with different numbers of hidden units
圖3為女聲1數(shù)據(jù)訓(xùn)練時,固定隱層數(shù)為2,迭代步長為23,不同的隱層單元個數(shù)下的驗證集誤差值,橫軸為訓(xùn)練的回合數(shù)。從圖3中可看出當(dāng)隱層單元數(shù)為512時,驗證集損失函數(shù)值最小。對比隱層單元數(shù)為129,256時驗證集損失函數(shù)值,可看出,隨著隱層單元數(shù)的增加,驗證集損失函數(shù)值降低明顯,說明只有隱層單元數(shù)達(dá)到一定個數(shù)時,才能充分實現(xiàn)LSTM-RNN的擬合性能。對比隱層單元數(shù)為512和1 024時驗證集損失函數(shù)值,可看出,隱層單元個數(shù)并非越大越好,過大的隱層單元數(shù)會增加模型復(fù)雜度,也會影響LSTMRNN的擬合。
本文依據(jù)NMF訓(xùn)練集ACM語音幅度譜分解時的重構(gòu)誤差值,選取最優(yōu)的NMF字典個數(shù),實驗結(jié)果如圖4所示。從圖4中可看出,隨著字典個數(shù)的增加,重構(gòu)誤差值逐漸減小,當(dāng)字典個數(shù)達(dá)到600時,再增加字典個數(shù),重構(gòu)誤差值已無明顯降低,因此,本文選取的最優(yōu)NMF字典個數(shù)為600。
圖4 NMF不同字典基個數(shù)下的重構(gòu)誤差Fig.4 Reconstructed error of NMF with different numbers of dictionary atoms
為對比不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對高維特征轉(zhuǎn)換的效果,本文將基于LSTM-RNN的特征轉(zhuǎn)換算法(未經(jīng)過NMF后處理,記為LSTM)與基于受限玻爾茲曼機-深度置信神經(jīng)網(wǎng)絡(luò)(記為DNN)的特征轉(zhuǎn)換算法進行了比較,將基于DNN、LSTM-RNN的特征轉(zhuǎn)換并且經(jīng)過NMF后處理的算法分別記為DNNNMF、LSTM-NMF。
實驗結(jié)果如表1—3所示,測試結(jié)果為每人40句測試語句的評價指標(biāo)平均得分值,其中,TM指原始TM語音與ACM語音的對比結(jié)果,3種增強算法均為增強后的語音與ACM語音的對比結(jié)果。
由表1可看出,無論是經(jīng)過DNN還是LSTM增強,增強后的語音LSD都明顯減小,說明神經(jīng)網(wǎng)絡(luò)能夠很好擬合高維特征。LSTM的擬合效果明顯優(yōu)于DNN,說明LSTM-RNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更適合于TM語音盲增強。DNN、LSTM的輸出經(jīng)過NMF處理后LSD進一步減小,驗證了不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下,NMF均能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過平滑問題。表2的對數(shù)似然比評價指標(biāo)與LSD結(jié)果類似。
由表3可知,相比于DNN,LSTM在PESQ值有了較大提升,證明了這種遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提高TM語音的感知語音質(zhì)量。男聲數(shù)據(jù)提升效果明顯優(yōu)于女聲,原因是TM語音的高頻成份丟失,而男聲語音高頻成份遠(yuǎn)少于女聲,因此恢復(fù)相對較為容易。
表1 對數(shù)譜距離比較(LSD)Tab.1 Comparisons of LSD
表2 對數(shù)似然比距離比較(LLR)Tab.2 Comparisons of LLR
表3 感知語音質(zhì)量比較(PESQ)Tab.3 Comparisons of PESQ
圖 5,6展示女、男聲的語譜圖,其中圖 5(a),6(a)為 ACM 語音,圖 5(b),6(a)為 TM 語音,圖 5(c),6(c)為經(jīng) LSTM 算法增強后的語音,圖 5(d),6(d)為 LSTM-NMF 算法增強后的語音。對比圖 5(a),5(b)以及圖 6(a),6(b)可看出,相比于ACM語音,TM語音2.5 kHz以上的能量幾乎已完全衰減,并且中頻諧波能量沒有起伏,這也就是TM語音聽起來沉悶、不自然的原因;對比圖 5(a)與圖 6(a)可知,女聲ACM語音高頻成份明顯多于男生ACM語音,在客觀指標(biāo)的分析中指出,這是女聲相對于男聲較難恢復(fù)的原因。由圖5與圖6的(c)和(d)可 觀 察 出 ,LSTM、LSTM-NMF增強算法都較好恢復(fù)了TM語音高頻丟失的成份,證明了增強算法的有效性;由圖5,6虛線橢圓中的成份可看出,LSTMNMF增強算法相比于LSTM,可獲得更接近ACM語音的數(shù)據(jù),驗證了NMF能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過平滑問題。
圖5 女聲語譜圖Fig.5 Spectrograms of a female speaker
由以上結(jié)果可得出以下結(jié)論:深度神經(jīng)網(wǎng)絡(luò)可有效建模TM與ACM語音高維特征之間的相關(guān)關(guān)系;相比于DNN,能夠?qū)崿F(xiàn)長時序列有效建模的LSTM-RNN可得到更好的TM語音增強效果,NMF能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過平滑問題。
圖6 男聲語譜圖Fig.6 Spectrograms of a male speaker
本文提出了一種基于LSTMRNN的喉振傳聲器語音盲增強算法。該算法首先利用LSTMRNN建模喉振傳聲器語音與空氣傳導(dǎo)語音高維對數(shù)幅度譜特征之間的相關(guān)關(guān)系,然后利用NMF對估計出的幅度譜進行處理以抑制神經(jīng)網(wǎng)絡(luò)輸出過平滑問題。實驗結(jié)果表明,該算法能有效提高特定說話人的喉振傳聲器語音質(zhì)量,增強效果優(yōu)于受限玻爾茲曼機-深度置信神經(jīng)網(wǎng)絡(luò)以及單一的長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)。該算法對男聲的增強效果明顯優(yōu)于女聲,經(jīng)分析是由于該算法生成的高頻成份與真實數(shù)據(jù)分布間存在偏差,而女聲的高頻成份較多,因此不易恢復(fù)。下一步將針對高頻成份的生成問題,擬通過生成式對抗神經(jīng)網(wǎng)絡(luò)[20]進一步對生成的數(shù)據(jù)分布進行修正,以縮小生成的高頻成份與真實數(shù)據(jù)分布間的差異。