鄭晨穎,馬建芬+,張朝霞
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600;2.太原理工大學(xué) 物理與光電工程學(xué)院,山西 晉中 030600)
在理想情況下,語(yǔ)音增強(qiáng)系統(tǒng)應(yīng)該完全消除噪聲而不降低語(yǔ)音質(zhì)量。語(yǔ)音增強(qiáng)的一般方法是對(duì)含噪語(yǔ)音進(jìn)行處理,使其更接近干凈語(yǔ)音,但是這類(lèi)方法會(huì)由于對(duì)語(yǔ)音的過(guò)抑制在語(yǔ)音信號(hào)中引入額外的失真[1,2]。文本-語(yǔ)音(text-to-speech,TTS)合成系統(tǒng)通過(guò)訓(xùn)練聲學(xué)模型將文本特征映射到聲碼器的時(shí)變聲學(xué)參數(shù)上,然后由聲碼器生成語(yǔ)音,從而從文本輸入產(chǎn)生高質(zhì)量的語(yǔ)音。然而這類(lèi)系統(tǒng)存在的問(wèn)題是無(wú)法從純文本中預(yù)測(cè)真實(shí)的韻律[3]。Soumi Maiti等[4]提出了使用干凈語(yǔ)音聲碼器參數(shù)作為目標(biāo)的神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音增強(qiáng)的參數(shù)再合成(parametric resynthesis,PR)方法,結(jié)合了一般的語(yǔ)音增強(qiáng)算法和TTS,該方法主要分為預(yù)測(cè)和合成兩個(gè)階段,其預(yù)測(cè)模型是一種神經(jīng)網(wǎng)絡(luò),以噪聲的Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)特征作為輸入,在固定幀率下預(yù)測(cè)干凈語(yǔ)音的聲學(xué)特征;在合成階段利用傳統(tǒng)的基于源濾波器WORLD聲碼器實(shí)現(xiàn)語(yǔ)音參數(shù)與純凈語(yǔ)音波形之間的轉(zhuǎn)換。該系統(tǒng)的主要問(wèn)題是使用單一聲學(xué)特征MFCC進(jìn)行預(yù)測(cè)以及非神經(jīng)網(wǎng)絡(luò)聲碼器WORLD聲碼器進(jìn)行語(yǔ)音合成,這會(huì)導(dǎo)致在復(fù)雜的噪聲環(huán)境下系統(tǒng)的增強(qiáng)性能大幅度下降。
針對(duì)以上問(wèn)題,在基于參數(shù)再合成的語(yǔ)音增強(qiáng)算法上從噪聲中分別提取GFCC、MFCC和韻律特征后進(jìn)行注意力融合,采用綜合特征代替單一特征預(yù)測(cè)干凈語(yǔ)音的聲學(xué)參數(shù),并用神經(jīng)網(wǎng)絡(luò)聲碼器WaveNet聲碼器合成干凈語(yǔ)音,從而在預(yù)測(cè)和合成兩個(gè)方面同時(shí)提高語(yǔ)音質(zhì)量。
傳統(tǒng)的參數(shù)再合成的增強(qiáng)方法分為預(yù)測(cè)和合成兩個(gè)階段,具體框架如圖1所示,第一階段是訓(xùn)練一個(gè)以含噪語(yǔ)音的聲學(xué)特征(MFCC)作為輸入,干凈語(yǔ)音的聲學(xué)特征作為輸出的預(yù)測(cè)模型,預(yù)測(cè)的聲學(xué)特征和干凈的聲學(xué)特征之間的均方誤差最?。坏诙A段是利用非神經(jīng)網(wǎng)絡(luò)WORLD聲碼器從預(yù)測(cè)的干凈語(yǔ)音聲學(xué)特征中重新合成語(yǔ)音。
圖1 基于參數(shù)再合成的語(yǔ)音增強(qiáng)算法框架
在基于參數(shù)再合成的語(yǔ)音增強(qiáng)算法基礎(chǔ)上的改進(jìn)點(diǎn)主要為:采用注意力機(jī)制進(jìn)行多種聲學(xué)特征融合;然后采用多特征融合特征代替單一特征MFCC預(yù)測(cè)干凈語(yǔ)音聲學(xué)特征,通過(guò)結(jié)合不同特征,為預(yù)測(cè)模型提供更多可區(qū)分和互補(bǔ)的特征表示,從而保留更多關(guān)于干凈語(yǔ)音的信息;最后為了避免在低信噪比下WORLD聲碼器合成語(yǔ)音質(zhì)量較差的問(wèn)題,提出采用神經(jīng)網(wǎng)絡(luò)聲碼器WaveNet聲碼器代替WORLD聲碼器合成干凈語(yǔ)音,算法具體框架如圖2所示。
圖2 基于注意力機(jī)制多特征融合的參數(shù)再合成語(yǔ)音增強(qiáng)算法框架
2.1.1 多種特征的選擇
基于參數(shù)再合成語(yǔ)音增強(qiáng)系統(tǒng)是采用含噪語(yǔ)音的單一聲學(xué)特征(MFCC)進(jìn)行干凈語(yǔ)音的預(yù)測(cè),MFCC特征[5]雖然考慮了人耳對(duì)頻率的非線(xiàn)性感知特性,但是在提取MFCC時(shí)使用的三角形濾波器組對(duì)耳蝸基底膜分辨頻率的特性模擬效果較差,在語(yǔ)音的低頻部分具有較高的頻率分辨能力,但是高頻部分信息被一定程度的弱化,因此在復(fù)雜的噪聲環(huán)境中單一使用MFCC的效果較差。基于Gammatone濾波器組的伽馬通倒譜系數(shù)(Gammatone frequency cepstral coefficients,GFCC)特征[6]在處理帶噪語(yǔ)音信號(hào)方面表現(xiàn)出了良好的能力,GFCC提取過(guò)程所使用Gammatone濾波器組是一組具有類(lèi)似人類(lèi)聽(tīng)覺(jué)濾波器的幅度特性的高脈沖響應(yīng)濾波器,它的非線(xiàn)性形有助于其更好地模擬人類(lèi)聽(tīng)覺(jué)系統(tǒng)的感知過(guò)程。GFCC的高抗干擾能力還來(lái)自于采用對(duì)數(shù)壓縮來(lái)模擬人耳聽(tīng)覺(jué)系統(tǒng)的非線(xiàn)性特性,即對(duì)濾波器的輸出進(jìn)行對(duì)數(shù)壓縮[7]。Shi等[8]使用GFCC進(jìn)行說(shuō)話(huà)人識(shí)別,他們發(fā)現(xiàn)GFCC相比MFCC在噪聲環(huán)境下的識(shí)別率顯著提高了,特別是在信噪比較低時(shí),但同時(shí)發(fā)現(xiàn)在高信噪比情況下,GFCC的表現(xiàn)并不優(yōu)于MFCC。
生活中的交流通常依賴(lài)語(yǔ)義來(lái)表達(dá),但是實(shí)際上當(dāng)我們處于不同情緒中表達(dá)同樣的語(yǔ)句時(shí)向外傳遞出的信息可能不同,因此這些不同情緒的表征和區(qū)分在識(shí)別說(shuō)話(huà)人和語(yǔ)音情感識(shí)別中至關(guān)重要,而在語(yǔ)音增強(qiáng)任務(wù)中我們?cè)谌コ肼暤耐瑫r(shí)要盡可能最大限度地保留原始語(yǔ)音信息,所以不同情緒的表征和區(qū)分在語(yǔ)音增強(qiáng)任務(wù)中也很重要。語(yǔ)音的不同情緒可以通過(guò)韻律特征進(jìn)行表征,最常用的韻律特征有短時(shí)過(guò)零率、短時(shí)平均能量、基音頻率、共振峰等。例如,在“高興”、“憤怒”、“中性”3種情感狀態(tài)下由同一個(gè)說(shuō)話(huà)人說(shuō)同一句話(huà),結(jié)果可以看出“高興”狀態(tài)下的短時(shí)平均過(guò)零率最高,“高興”和“憤怒”狀態(tài)下的短時(shí)平均能量較高,基音頻率在“高興”、“憤怒”時(shí)較高且頻率變換較快,在“高興”、“憤怒”時(shí)第二共振峰的變化范圍較小,而在“中性”時(shí)第二共振峰的變化范圍明顯變大。
除了單個(gè)聲學(xué)特征的研究,研究者們還對(duì)聲學(xué)特征的組合或延伸進(jìn)行了研究,王華朋等[9]就對(duì)比了3種特征組合方式下情感識(shí)別的識(shí)別效果,并通過(guò)實(shí)驗(yàn)驗(yàn)證了MFCC和GFCC與韻律特征組合的方法提高了情感識(shí)別的正確率和穩(wěn)定性。綜上,提出將MFCC、GFCC與韻律特征這一聲學(xué)特征組合應(yīng)用于語(yǔ)音增強(qiáng)中。
2.1.2 基于注意力機(jī)制的多特征融合
為了提高系統(tǒng)性能,通常會(huì)融合多個(gè)基于不同聲學(xué)特征的子系統(tǒng)。有研究者[10]比較了多種聲學(xué)特征融合架構(gòu)在說(shuō)話(huà)人驗(yàn)證和語(yǔ)音識(shí)別中的表現(xiàn),如等權(quán)重融合、幀級(jí)融合、多層次融合以及嵌入融合等,經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證幀級(jí)融合是最優(yōu)策略。
我們可以在吵鬧嘈雜的環(huán)境中自如的與他聊天交流,這是因?yàn)槿祟?lèi)在聽(tīng)覺(jué)感知過(guò)程中可以將自己的注意力放在目標(biāo)聲音上,從而自動(dòng)忽略嘈雜的背景噪聲,這一現(xiàn)象被稱(chēng)為雞尾酒會(huì)效應(yīng),雞尾酒會(huì)效應(yīng)表明了人類(lèi)的聽(tīng)覺(jué)注意力特性在處理復(fù)雜背景噪聲場(chǎng)景里是至關(guān)重要的[11]。受此啟發(fā)提出通過(guò)在幀級(jí)融合中引入注意力機(jī)制進(jìn)行多特征融合用于語(yǔ)音增強(qiáng)任務(wù),通過(guò)增強(qiáng)區(qū)分干凈語(yǔ)音部分和噪聲部分的特征提高系統(tǒng)的去噪性能。
(1)幀級(jí)多特征融合
幀級(jí)多特征融合可以利用多種聲學(xué)特征的互補(bǔ)性,具體結(jié)構(gòu)如圖3所示。在該結(jié)構(gòu)中,多個(gè)聲學(xué)特征同時(shí)訓(xùn)練模型,在池化層之前,將多個(gè)特征融合為一個(gè)綜合特征。
圖3 多特征幀級(jí)融合結(jié)構(gòu)
設(shè) (X1,X2,X3) 表示來(lái)自同一語(yǔ)音幀的3種聲學(xué)特征向量,Y表示融合后的綜合特征如式(1)所示
Y=f4(cat(f1(X1;θ1),f2(X2;θ2),f3(X3;θ3);θ4)
(1)
其中,cat(·) 表示連接操作,f1(X1;θ1) 為給定網(wǎng)絡(luò)參數(shù)θ1聲學(xué)特征X1的預(yù)投影,同理f2(X2;θ2) 為給定網(wǎng)絡(luò)參數(shù)θ2聲學(xué)特征X2的預(yù)投影,f3(X3,θ3) 為給定網(wǎng)絡(luò)參數(shù)θ3聲學(xué)特征X3的預(yù)投影,f4(θ4;·) 指完全連接的拼接層映射。
(2)基于注意力的多特征幀級(jí)融合
在幀級(jí)多特征融合結(jié)構(gòu)中的TDNN層計(jì)算之后的特征可認(rèn)為是用于語(yǔ)音增強(qiáng)的信息,但是,對(duì)于3個(gè)特征最后的TDNN層之間的輸出可能仍然存在冗余,可能沒(méi)有完全強(qiáng)調(diào)用于語(yǔ)音增強(qiáng)的有用信息。受到“雞尾酒會(huì)效應(yīng)”的啟發(fā),本文使用拼接層執(zhí)行注意力來(lái)進(jìn)行多特征學(xué)習(xí),使綜合特征能夠更多強(qiáng)調(diào)干凈語(yǔ)音部分和噪聲部分的區(qū)分并且不丟失其它有用信息。
多特征基于幀級(jí)注意力結(jié)構(gòu)的融合即將注意力加在拼接層內(nèi)(具體結(jié)構(gòu)如圖4所示),注意機(jī)制是通過(guò)計(jì)算上下文和位置編碼的權(quán)重來(lái)實(shí)現(xiàn)語(yǔ)音增強(qiáng)任務(wù)更重要的特征來(lái)減輕多個(gè)特征之間的冗余。Yatt表示基于注意力機(jī)制融合的綜合特征,如式(2)所示
圖4 多特征幀級(jí)注意力融合結(jié)構(gòu)
Yatt=f4(attRL(cat(f1(X1;θ1),f2(X2;θ2),f3(X3;θ3));θ4)
(2)
其中,attRL表示從L到R語(yǔ)境下的注意力學(xué)習(xí)。
傳統(tǒng)的基于參數(shù)再合成的語(yǔ)音增強(qiáng)算法利用WORLD聲碼器[12]實(shí)現(xiàn)了聲音參數(shù)與純凈語(yǔ)音波形之間的轉(zhuǎn)換,WORLD聲碼器比其它傳統(tǒng)聲碼器處理速度快且需要的訓(xùn)練數(shù)據(jù)較少,但是卻對(duì)輸入語(yǔ)音幀的信噪比有較高的要求。Van den等提出了一種基于自回歸網(wǎng)絡(luò)模型WaveNet,該模型直接在原始波形層面對(duì)語(yǔ)音信號(hào)建模,并采用擴(kuò)大因果卷積網(wǎng)絡(luò)結(jié)構(gòu)增加波形序列上的接受野,保證了整個(gè)網(wǎng)絡(luò)的輸入分辨率和計(jì)算效率。Tamamori等[13]提出了基于WaveNet模型的聲碼器,對(duì)語(yǔ)音參數(shù)和語(yǔ)音波形之間的關(guān)系進(jìn)行建模,打破了原有線(xiàn)性濾波框架,改善了傳統(tǒng)聲碼器性能。目前合成語(yǔ)音和人類(lèi)自然語(yǔ)音已較為貼近,其顯著的進(jìn)步主要是因?yàn)閃aveNet架構(gòu)導(dǎo)致基于信號(hào)處理的聲碼器被神經(jīng)網(wǎng)絡(luò)聲碼器所取代。綜上,為了解決在低信噪比下WORLD聲碼器合成語(yǔ)音質(zhì)量較差的問(wèn)題,本文提出使用WaveNet聲碼器代替非神經(jīng)網(wǎng)絡(luò)聲碼器WORLD聲碼器合成干凈語(yǔ)音。
將輸入的語(yǔ)音信號(hào)的聲學(xué)特征作為條件h輸入WaveNet模型即可構(gòu)造WaveNet聲碼器,WaveNet可以模擬給定這個(gè)輸入語(yǔ)音的條件分布,如式(3)所示
p(x|h)=∏Tt=1p(xt|x1,x2,…,xt-1,h)
(3)
其中,h為條件序列,它的采樣頻率一般會(huì)低于語(yǔ)音波形的采樣頻率,為了能夠具有相同的時(shí)域分辨率,WaveNet聲碼器使用轉(zhuǎn)置卷積網(wǎng)絡(luò)(transposed convolution network)對(duì)這個(gè)時(shí)間序列進(jìn)行變換,將其映射為與語(yǔ)音信號(hào)具有相同時(shí)域分辨率的時(shí)間序列y=f(h), 然后使用如下所示的激活函數(shù)
z=tanh(Wf,k*x+Vf,k*y)⊙σ(Wg,k*x+Vg,k*y)
(4)
其中,*表示卷積運(yùn)算,⊙為點(diǎn)乘運(yùn)算,σ(·) 為Sigmoid函數(shù),W為可學(xué)習(xí)的卷積濾波器,Wf,k表示網(wǎng)絡(luò)中第k層處理歷史語(yǔ)音波形信息的濾波卷積權(quán)值矩陣,相應(yīng)地,Wg,k表示門(mén)控卷積權(quán)值矩陣。Vf,k、Vg,k分別表示第k層處理?xiàng)l件輸入的卷積權(quán)值矩陣和門(mén)控卷積權(quán)值矩陣。
WaveNet聲碼器的模型結(jié)構(gòu)如圖5所示,在訓(xùn)練階段,以預(yù)測(cè)的干凈語(yǔ)音信號(hào)的聲學(xué)特征和干凈語(yǔ)音波形序列作為模型的條件輸入和輸出對(duì)模型參數(shù)訓(xùn)練;在生成階段,根據(jù)預(yù)測(cè)的聲學(xué)特征和歷史波形信息模擬各個(gè)采樣點(diǎn)的條件概率分布,然后通過(guò)逐點(diǎn)自回歸生成語(yǔ)音波形。
圖5 WaveNet聲碼器網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)中使用的語(yǔ)音均來(lái)自于TIMIT語(yǔ)料庫(kù),TIMIT語(yǔ)料庫(kù)包含了來(lái)自不同說(shuō)話(huà)人所說(shuō)的6300條干凈語(yǔ)音,其中訓(xùn)練集中有4620句,測(cè)試集中有1680句。實(shí)驗(yàn)中所用的噪聲來(lái)自NOISEX-92數(shù)據(jù)庫(kù),NOISEX-92語(yǔ)料庫(kù)中共有15種噪聲。本文設(shè)置在4種信噪比(-5 dB,0 dB,5 dB,10 dB)下,將TIMIT訓(xùn)練集中的4000條干凈語(yǔ)音與NOISEX-92的4種噪聲(white,F(xiàn)actory1,Pink,F(xiàn)16)疊加得到64000(4000×4×4)條含噪語(yǔ)音,加噪后的含噪語(yǔ)音與其相對(duì)應(yīng)的干凈語(yǔ)音共同作為訓(xùn)練集。在測(cè)試過(guò)程中,在上述4種信噪比條件下,選取TIMIT測(cè)試集中的300條干凈語(yǔ)音和NOISEX-92語(yǔ)料庫(kù)中的其它3種不同噪聲類(lèi)型(Factory2,Volvo,Babble)疊加得到一個(gè)包含3600(300×3×4)條含噪語(yǔ)音的測(cè)試集。實(shí)驗(yàn)中所有的干凈語(yǔ)音和噪聲的采樣率均為16 KHz,依次對(duì)語(yǔ)音信號(hào)分幀,加窗其中幀長(zhǎng)為32 ms(512個(gè)采樣點(diǎn)),幀移為16 ms(256個(gè)采樣點(diǎn)),然后進(jìn)行快速傅里葉變化將語(yǔ)音信號(hào)從時(shí)域轉(zhuǎn)換到頻域。
本文用短時(shí)客觀可懂度(short-time objective intelligibility,STOI)來(lái)衡量增強(qiáng)語(yǔ)音的客觀可懂度,用語(yǔ)音質(zhì)量感知(perceptual evaluation of speech quality,PESQ)來(lái)衡量語(yǔ)音客觀質(zhì)量。其中,PESQ得分在-0.5到4.5之間,得分越高代表增強(qiáng)語(yǔ)音的質(zhì)量越好;STOI反映了人對(duì)于一段語(yǔ)音的可理解程度,得分在0到1之間,同樣得分越高代表語(yǔ)音的可懂度越好。
為了驗(yàn)證本文提出的基于注意力機(jī)制多特征融合的方法(PR-AMFI)能夠有效提高系統(tǒng)增強(qiáng)性能,將方法PR-AMFI與直接使用干凈語(yǔ)音聲學(xué)特征進(jìn)行參數(shù)再合成的語(yǔ)音增強(qiáng)方法(PR-Clean)以及傳統(tǒng)使用單一聲學(xué)特征的參數(shù)再合成語(yǔ)音增強(qiáng)方法(PR)進(jìn)行對(duì)比,表1為在4種信噪比(-5 dB,0 dB,5 dB,10 dB)和3種噪聲下(Factory2,Volve,Babble)PR-AMFI、PR、PR-Clean這3種方法的PESQ得分,從表中可以看出,PR-AMFI與PR相比在不同信噪比和不同噪聲類(lèi)型下語(yǔ)音質(zhì)量都有明顯提高,且PR-AMFI系統(tǒng)增強(qiáng)語(yǔ)音的PESQ得分較PR系統(tǒng)更接近以干凈語(yǔ)音直接作為輸入的PR-Clean系統(tǒng),這說(shuō)明了多種聲學(xué)特征基于注意力融合得到的綜合特征比單一聲學(xué)特征能夠更好表征語(yǔ)音信號(hào)信息。表2列出了本文所提方法PR-AMFI與PR、PR-Clean的STOI得分,從表中可以看出PR-AMFI系統(tǒng)的語(yǔ)音可懂度在不同噪聲和不同信噪比下都有提高,并且更接近PR-Clean系統(tǒng)的增強(qiáng)語(yǔ)音的可懂度,這表明PR-AMFI系統(tǒng)能夠有效提高PR系統(tǒng)增強(qiáng)語(yǔ)音的語(yǔ)音可懂度。
表1 3種方法在不同噪聲和不同信噪比下的PESQ得分
表2 3種方法在不同噪聲和不同信噪比下的STOI得分
為了驗(yàn)證本文采用神經(jīng)網(wǎng)絡(luò)聲碼器WaveNet聲碼器能夠在PR-AMFI基礎(chǔ)上進(jìn)一步改善系統(tǒng)的增強(qiáng)性能,用基于多特征融合的參數(shù)再合成的語(yǔ)音增強(qiáng)方法(PR-AMFI+WN)分別與基于DNN的語(yǔ)音增強(qiáng)方法(SE-DNN)、原始的基于參數(shù)再合成增強(qiáng)系統(tǒng)(PR)、只在語(yǔ)音合成階段用WaveNet聲碼器代替WORLD聲碼器的方法(PR-WN)進(jìn)行對(duì)比,表3為在4種信噪比(-5 dB,0 dB,5 dB,10 dB)和3種噪聲(Factory2,Volve,Babble)下SE-DNN、PR、PR-WN、PR-AMFI+WN這4種方法的PESQ得分,通過(guò)分析可以看出,在不同信噪比不同噪聲類(lèi)型下PR-AMFI+WN的增強(qiáng)語(yǔ)音PESQ得分均高于PR、SE-DNN、PR-WN的增強(qiáng)語(yǔ)音PESQ得分,說(shuō)明本文提出的PR-AMFI+WN的方法能夠有效提高傳統(tǒng)PR系統(tǒng)的增強(qiáng)性能。表4列出了本文所提方法與SE-DNN、PR、PR-WN這4種方法的 STOI得分,從表中可以看出PR-AMFI+WN的語(yǔ)音可懂度在不同情況下都有提高。
表3 4種方法在不同噪聲和不同信噪比下的PESQ得分
表4 4種方法在不同噪聲和不同信噪比下的STOI得分
為了更直觀觀測(cè)實(shí)驗(yàn)結(jié)果,任意選擇一種噪聲類(lèi)型Factory2,將各方法在4種信噪比下的PESQ得分可視化,圖6為可視化后的折線(xiàn)圖。從折線(xiàn)圖可以看出,PR-AFMI+WN在低信噪比下的增強(qiáng)性能提升效果更好,而在高信噪比下的提升效果較弱。這是由于GFCC在低信噪比環(huán)境下對(duì)語(yǔ)音的表征能力以及抗干擾能力確實(shí)明顯高于MFCC,但是在高信噪比情況下,GFCC的表現(xiàn)并不優(yōu)于MFCC。在今后的研究學(xué)習(xí)中可以嘗試將自適應(yīng)算法加入到算法中,使系統(tǒng)能夠根據(jù)相應(yīng)的背景噪聲情況自動(dòng)選擇適合的聲學(xué)特征,從而使本算法在高、低信噪比下都能有更好的提升效果。
圖6 Factory2噪聲不同信噪比下的PESQ得分折線(xiàn)
圖7分別為干凈語(yǔ)音、含噪語(yǔ)音Noisy、PR增強(qiáng)語(yǔ)音、PR-AMFI增強(qiáng)語(yǔ)音、PR-WN增強(qiáng)語(yǔ)音以及PR-AMFI+WN增強(qiáng)語(yǔ)音的語(yǔ)譜圖,從這些語(yǔ)譜圖可以看出通過(guò)PR-AMFI、PR-WN以及PR-AMFI+WN增強(qiáng)后的語(yǔ)音的殘留噪聲均少于PR增強(qiáng)語(yǔ)音,并且可以看出PR-AMFI、PR-AMFI+WN增強(qiáng)后語(yǔ)音的諧波結(jié)構(gòu)較PR更加清晰,語(yǔ)音的基因頻率及其變換范圍更加明顯,這驗(yàn)證了多特征融合后的綜合特征保留了更多原始語(yǔ)音信息,能夠有效提高系統(tǒng)的增強(qiáng)性能。
圖7 不同方法的增強(qiáng)語(yǔ)音的語(yǔ)譜
本文提出了一種基于多特征融合的參數(shù)再合成語(yǔ)音增強(qiáng)算法,采用多特征融合特征代替單一特征預(yù)測(cè)干凈語(yǔ)音聲學(xué)特征,此外使用神經(jīng)網(wǎng)絡(luò)聲碼器WaveNet聲碼器代替WORLD聲碼器合成干凈語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,基于多特征融合的參數(shù)再合成語(yǔ)音增強(qiáng)算法的增強(qiáng)語(yǔ)音在語(yǔ)音質(zhì)量和語(yǔ)音可懂度都有了相應(yīng)的提高。
但本文方法也存在著不足,最后的改進(jìn)效果在高信噪比下較弱,為了在高信噪比和低信噪比的情況下都能獲得良好的性能,在今后的學(xué)習(xí)中可以嘗試將自適應(yīng)算法加入到本文算法中,從而使系統(tǒng)能夠根據(jù)背景噪聲自動(dòng)選擇聲學(xué)特征。