魏 勛,耿志輝,王曉攀
(1.中國(guó)人民解放軍63891部隊(duì),河南洛陽471003;2.中國(guó)人民解放軍63888部隊(duì),河南濟(jì)源454650)
當(dāng)前的很多語音識(shí)別系統(tǒng)在實(shí)驗(yàn)室環(huán)境下都可以達(dá)到相當(dāng)高的識(shí)別正確率,但在實(shí)際環(huán)境中,性能會(huì)急劇下降。其根本原因在于不同環(huán)境下語音的畸變引起了訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配,導(dǎo)致訓(xùn)練數(shù)據(jù)所獲得的語音信息無法正確表達(dá)測(cè)試環(huán)境的數(shù)據(jù),即噪聲魯棒性問題。因此,如何提高系統(tǒng)的魯棒性是語音識(shí)別的一個(gè)關(guān)鍵難點(diǎn),語音識(shí)別的魯棒性特征提取方法可以很好地解決這一問題。
語音識(shí)別就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),它包含2種含義:①將口述語言逐字逐句地轉(zhuǎn)換成相應(yīng)的文字;②對(duì)說的話所包含的要求或詢問做出正確的響應(yīng),而不拘泥于轉(zhuǎn)換成書面文字。典型語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程如圖1所示。
實(shí)際語音識(shí)別環(huán)境復(fù)雜多變,在此主要考慮其中最重要的因素,即加性噪聲和卷積噪聲。
假設(shè)干凈語音用序列x[m]表示,卷積噪聲用濾波器h[m]表示,加性噪聲用n[m]表示,帶噪語音用y[m]表示。在時(shí)域、頻域,分別有以下關(guān)系:
圖1 語音識(shí)別系統(tǒng)基本原理框圖
在等式(2)兩邊取模平方,則其幅度譜之間的關(guān)系為:
式(3)中忽略了 2|X[k]|?|H[k]|?|N[k]|cosθk,θk表示復(fù)變量N[k]和X[k]?H[k]之間夾角。
對(duì)于倒譜域,倒譜參數(shù)定義如下:
式中,C為離散余弦變換矩陣。對(duì)式(3)兩邊取對(duì)數(shù),有:
根據(jù)式(4)的定義,容易得到:
其中非線性函數(shù):
MFCC是基于人耳聽覺,加入了與人類聽覺系統(tǒng)有關(guān)的Mel濾波器組,流程如圖2所示。
Wnt/β-catenin通路的活性決定了MPCs是分化為成骨細(xì)胞還是軟骨細(xì)胞。實(shí)驗(yàn)表明[23],敲除βcatenin的間充質(zhì)細(xì)胞,會(huì)向軟骨方向分化,而使骨生成受到抑制,生成異位的軟骨。
圖2 MFCC流程
設(shè)濾波器組的個(gè)數(shù)為M,每個(gè)濾波器的定義如下:
Mel域頻率定義為:
式中,f為線性域頻率;m為Mel域頻率。式(8)中f[m]由下式計(jì)算:
式中,N為快速傅里葉變換點(diǎn)數(shù);Fs為采樣率;fl和fh分別為濾波器組的最低頻率和最高頻率;M為濾波器組的維數(shù)。則濾波器組輸出為:
語音識(shí)別所使用的參數(shù),例如MFCC,本身都是隨機(jī)變量,因而有相應(yīng)的概率分布,訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配也就表現(xiàn)為概率分布上的差異。一般可以通過對(duì)參數(shù)進(jìn)行規(guī)整或歸一化來減小這種差異,最經(jīng)典和常用的累計(jì)分布函數(shù)匹配的方法就正是基于這一點(diǎn)。下面給出的3種方法是對(duì)這一思想的引伸。
式(6)中若不考慮加性噪聲,則有
下標(biāo)t表示第t幀,對(duì)于干凈倒譜序列X={x0,x1,…xT-1},均值ˉx為:
然后對(duì)每一幀減去這個(gè)均值,即歸一化,有
可以看出,歸一化后的帶噪倒譜是原來干凈倒譜的歸一化結(jié)果,完全去除信道h的影響,補(bǔ)償了信道畸變。
MVN不僅考慮倒譜均值的歸一化,同時(shí)也考慮了方差,它是CMN的一個(gè)擴(kuò)展。大量實(shí)驗(yàn)表明,噪聲的影響往往表現(xiàn)為干凈語音分布參數(shù)的變化,最常見的是均值的偏移和方差的壓縮和擴(kuò)張。定義方差:
則MVN的計(jì)算公式為:
人類對(duì)語音的聽覺感知可以抑制相對(duì)平穩(wěn)、變化緩慢的非語言背景。通常來說,信道相對(duì)于語音的變化是平緩的甚至常量,因此可以通過一個(gè)低端截止頻率非常低的帶通濾波器,抑制住頻帶上緩變的部分。RASTA濾波方法采用的帶通濾波器傳遞函數(shù)為:
仿真平臺(tái)采用歐洲電信標(biāo)準(zhǔn)委員會(huì)(ETSI)發(fā)行的Aurora 2.0數(shù)據(jù)庫(kù),基于ETSI_ES _201 _108標(biāo)準(zhǔn),采用14維特征向量(13維MFCC和對(duì)數(shù)能量),語音采用幀輸入,幀長(zhǎng)為25 ms,幀移長(zhǎng)度為10 ms,加窗為漢明窗,Mel濾波器組為23維,最低頻率64 Hz,最高頻率4 kHz,采樣率8 kHz。選用Aurora 2.0的數(shù)據(jù)庫(kù)的性能評(píng)測(cè)標(biāo)準(zhǔn),即相對(duì)于ETSI標(biāo)準(zhǔn)參考MFCC提取程序訓(xùn)練識(shí)別結(jié)果的性能提升。相對(duì)性能提升計(jì)算公式為:
Aurora 2.0數(shù)據(jù)組織可分為兩部分:訓(xùn)練集和測(cè)試集。訓(xùn)練集包括干凈訓(xùn)練集和帶噪訓(xùn)練集。干凈訓(xùn)練集沒有加入噪聲,用來訓(xùn)練一個(gè)對(duì)應(yīng)用于干凈語音的模型;帶噪訓(xùn)練集加入了不同信噪比的噪聲,用于訓(xùn)練一個(gè)帶噪聲數(shù)據(jù)的模型。測(cè)試集按照不同的測(cè)試目的,分為A、B、C三個(gè)部分。
CMN的識(shí)別結(jié)果相對(duì)于MFCC的性能提升如表1所示??梢钥闯?在帶噪模型訓(xùn)練方式下,CMN的識(shí)別性能都有所提升,特別對(duì)測(cè)試集C這種不可見信道的情形,這說明CMN對(duì)消除信道影響很有效。但在干凈模型下的測(cè)試集C,結(jié)果有些異常,這與干凈模型下環(huán)境的高度不匹配有關(guān)。
表1 CMN的仿真結(jié)果
MVN的識(shí)別結(jié)果相對(duì)于MFCC的性能提升如表2所示。和CMN相比較,MVN可能削弱了它在去除信道影響方面的優(yōu)勢(shì)(如帶噪模型下的測(cè)試集C),但對(duì)其他測(cè)試集的識(shí)別結(jié)果以及平均性能都有一定的提高。
表2 MVN的仿真結(jié)果
RASTA濾波的識(shí)別結(jié)果相對(duì)于MFCC的性能提升如表3所示。通過RASTA濾波后,識(shí)別性能有了普遍的提升,說明RASTA濾波對(duì)去除信道噪聲的低頻成分中人耳聽不到的部分是有效的。
表3 RASTA濾波的仿真結(jié)果
訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配是造成實(shí)際情況下語音識(shí)別性能下降的主要原因,CMN可以補(bǔ)償信道畸變,但當(dāng)信道出現(xiàn)非平穩(wěn)加性噪聲時(shí),性能會(huì)有較大下降;MVN雖在語音識(shí)別中較有效,但由于噪聲的多變而影響其應(yīng)用范圍;RASTA濾波通過一個(gè)低端截止頻率非常低的帶通濾波器抑制頻帶上緩變的部分,是一種用于減小傳輸通道影響的方法。實(shí)際應(yīng)用中,可以針對(duì)不同的噪聲環(huán)境采用不同的算法。
[1]GONG Y F.Speech Recognition in Noisy Environment:a Survey[J].Speech Communication,1995,16(3):261-291.
[2]ZHANG Jun,WEIGang.RobustMulti-stream Speech Recognition Based on Weighting the Output Probabilities of Feature Components[J].聲學(xué)學(xué)報(bào)(英文版),2009,33(3):269-279.
[3]關(guān) 勇,李 鵬.基于計(jì)算聽覺場(chǎng)景分析和語者模型信息的語音識(shí)別魯棒前端研究[J].自動(dòng)化學(xué)報(bào),2009,35(4):410-460.
[4]惠 博.語音識(shí)別特征提取算法的研究及實(shí)現(xiàn)[D].陜西:西北工業(yè)大學(xué)碩士論文,2008:34-37.
[5]趙 力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,___2009.