劉偉偉,吉立新,李邵梅,徐 文
(1.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州450002;2.61906部隊,江西 鷹潭335000)
隨著信息技術(shù)的不斷發(fā)展,自動語種識別技術(shù)在信息服務(wù)、信息檢索及安全領(lǐng)域的應(yīng)用日益廣泛。當(dāng)前主流的語種識別方法,根據(jù)使用特征參數(shù)的不同,分為基于音素特征的模型方法和基于聲學(xué)特征的模型方法。
目前應(yīng)用最廣泛的聲學(xué)模型GSV-SVM進(jìn)行識別時,每一段測試語音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自適應(yīng)生成GSV作為SVM的輸入特征[1]。在測試長度小于1 min的短語音語種識別應(yīng)用中,由于測試語音較短,自適應(yīng)得到的GSV并不能準(zhǔn)確反映測試語音的語種屬性,性能下降較為嚴(yán)重。為了解決該問題,Campbell等人提出了Model Pushing[2]的概念,首先利用SVM訓(xùn)練得到支持向量,再利用支持向量反過來建立GMM模型。因為支持向量中包含了訓(xùn)練語音的區(qū)分性信息,所以反推得到的GMM模型包含了對最具區(qū)分性分類邊界的描述。這樣,反推的GMM模型就繼承了SVM訓(xùn)練得到的區(qū)分性信息。但是,由于該方法只選取了分類邊界上的支持向量,所以利用Model Pushing后推得到的GMM并不能充分描述各語種特征分布的區(qū)分性。
為進(jìn)一步提高M(jìn)odel Pushing算法的識別性能,本文結(jié)合快速區(qū)分性訓(xùn)練[3]提出了一種區(qū)分性Model Pushing方法。由于進(jìn)一步增大了不同語種間的區(qū)分性并能更充分地描述各語種的特征分布,同時利用了GMM在短時語音識別上的優(yōu)勢,該方法提高了在短語音條件下的應(yīng)用效果。對實驗室條件下采集的電話信道漢語普通話、英語和日語三種語音的測試實驗表明,區(qū)分性Model Pushing方法獲得了最低的等錯誤率 (EER),相對于GMM-UBM、GSV-SVM及 Model Pushing方法,EER分別降低了18.95%、8.55%和3.54%。
基于GSV-SVM的語種識別系統(tǒng)包含訓(xùn)練和測試兩個階段。訓(xùn)練階段在通用背景模型UBM(Universal Background Model)上通過最大后驗概率MAP[4](Maximum A Posterior)自適應(yīng)得到各訓(xùn)練語音的GSV訓(xùn)練SVM模型;識別階段同樣通過MAP自適應(yīng)從UBM中得到各測試語音的GSV,然后輸入訓(xùn)練好的SVM中進(jìn)行分類識別,得到識別結(jié)果。
GMM用多個單高斯分布的線性組合來描述幀特征在特征空間的分布,即:
其中,x為語音幀聲學(xué)特征向量,M為高斯混合數(shù),wi為混合權(quán)重,μi和 Σi為第 i個高斯混合成分的均值向量和協(xié)方差矩陣。對于訓(xùn)練數(shù)據(jù),通過期望最大化算法EM(Expectation Maximum)[5]得到一個UBM。每一個訓(xùn)練和測試的語句通過MAP準(zhǔn)則從UBM中自適應(yīng)得到各自對應(yīng)的GMM模型。在MAP自適應(yīng)過程中,由于考慮到計算量的原因,通常只對均值向量μi進(jìn)行修正調(diào)整,而權(quán)重和協(xié)方差矩陣都保持與UBM模型一致。將自適應(yīng)得到的各高斯混合成分的均值向量按順序排列起來即構(gòu)成超矢量(GSV)。
SVM是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)方法。在二分類問題中,給出樣本{xi,yi},i=1,2,…N,xi∈RD為 D 維的特征向量,yi∈{+1,-1}為類別標(biāo)簽,其分類判決函數(shù)表示為特征向量內(nèi)積的形式:
對于非線性的問題,通常采用核函數(shù)將輸入特征向量(即GSV)非線性地映射到高維空間,當(dāng)作線性問題處理。核函數(shù)形式為K(xi,xj)=φ(xi)×φ(xj),這樣在高維空間只需要內(nèi)積運(yùn)算即可,判決函數(shù)轉(zhuǎn)換為如下形式:
SVM的核函數(shù)采用度量GMM距離的Kullback-Leibler核函數(shù)(K-L核)[6],其表達(dá)式為:
其中 μa和 μb代表兩個語音段的 GSV,μia和 μib分別是各自 GMM第i個高斯混合成分的均值矢量,ωi是UBM第i個高斯混合成分的權(quán)重,Σi是UBM第個高斯混合成分的協(xié)方差矩陣,M為混合數(shù),T為轉(zhuǎn)置符號。由式 (4)可知,在SVM中采用K-L核函數(shù)相當(dāng)于先利用UBM的權(quán)重和方差對GSV進(jìn)行歸一化,然后用SVM的線性核函數(shù)進(jìn)行訓(xùn)練和識別。而對GSV的歸一化可以理解為將GSV投影到另一個空間(K-L空間),然后利用 SVM的線性核函數(shù)在K-L空間進(jìn)行訓(xùn)練和識別。
GSV-SVM通常采用一對多的SVM分類模式,即在目標(biāo)語種和非目標(biāo)語種間尋找出最優(yōu)分類面,如在漢語和非漢語(英語、日語等任意非漢語)間進(jìn)行分類。SVM使用K-L核,對目標(biāo)語種和非目標(biāo)語種進(jìn)行分類。
以簡單的二維聲學(xué)特征和2個高斯混元為例介紹區(qū)分性Model Pushing的過程,如圖1所示。圖1(a)表示為原始特征空間的分布,GMM-UBM有兩個混元,目標(biāo)語種和非目標(biāo)語種的混元是從GMM-UBM中自適應(yīng)得到的,能夠描述其特征的分布,目標(biāo)語種和非目標(biāo)語種在特征域空間的分布存在嚴(yán)重的混疊,難以有效區(qū)分。
圖1(c)所示為K-L空間 SVM訓(xùn)練后的結(jié)果,其中處于分類邊界虛線上的即為支持向量。為了減少特征域空間目標(biāo)語種和非目標(biāo)語種分布的混疊,利用K-L空間訓(xùn)練得到的最優(yōu)分類面對其進(jìn)行適當(dāng)處理,即在K-L空間沿著最優(yōu)分類面法線的方向進(jìn)行移動。假如目標(biāo)語種訓(xùn)練得到n個支持向量,非目標(biāo)語種有m個支持向量,則對其移動的結(jié)果為:
其中,xt,i和xn,i表示目標(biāo)語種和非目標(biāo)語種的第 i個支持向量 (GSV在K-L空間的投影),λtk和 λnk表示目標(biāo)語種和非目標(biāo)語種的支持向量沿法向量移動的尺度,w表示目標(biāo)語種和非目標(biāo)語種最優(yōu)分類面的法向標(biāo)語種和非目標(biāo)語種的第i個支持向量移動后的結(jié)果。
利用移動后的支持向量構(gòu)建目標(biāo)語種和非目標(biāo)語種的GSV在K-L空間的投影,即得到:取 λt≥0、λn≤0。 對支持向量 的移 動反映到特征域空間就使得重構(gòu)的目標(biāo)語種和非目標(biāo)語種的GMM分布混疊減少,增大區(qū)分性,如圖1(b)所示。顯然,λt、λn不宜過大,否則移動過度將產(chǎn)生原本屬于目標(biāo)語種的測試語音對其自身GMM的似然度得分比對UBM的還要小的問題。因此,λt、λn至少要使目標(biāo)語種的測試語音在其GMM的似然度得分比在UBM上的得分要大。
如圖2所示,區(qū)分性Model Pushing與GSV-SVM相比在訓(xùn)練階段多了一個對支持向量移動反推的過程,得到目標(biāo)語種和非目標(biāo)語種的GMM;測試階段只需提取測試語音的特征參數(shù)然后對目標(biāo)和非目標(biāo)GMM的對數(shù)似然得分進(jìn)行分類判決,分類判決的分?jǐn)?shù)計算如下:
其中yi為語音幀特征向量,gtar(y)和 gnon-tar(y)為目標(biāo)語種和非目標(biāo)語種特征向量的GMM概率密度函數(shù)。
由于該方法在測試階段避開了GSV的計算,同時利用了訓(xùn)練階段得到的SVM區(qū)分性信息,因此能夠提高短語音條件下語種識別的性能。
語料庫為實驗室采集的電話信道通話語音,包括漢語普通話、英語和日語3個語種,共有4 600段30 s的語音以及300段5 min左右的長時語音。語音信號的采樣頻率為8 kHz,并經(jīng)過 16 bit量化處理。30 s語料中,有漢語 1 800段(男女各 900段)、英語 1 250段(男600段,女 650段)、日語 1 550段(男 850段,女 700段)。5 min長時語料中,每個語種有100段話音 (男女各50段)。上述語音段中所含的說話人均不相同,且每段語音僅含一個說話人。實驗采用30 s的語音進(jìn)行訓(xùn)練和測試,從各語種挑選 600段(每個語種男女各 300段)用于訓(xùn)練高斯混合數(shù)為512的UBM模型。從30 s的語音中為每個語種挑選200段語音 (男女各100段)作為SVM的訓(xùn)練語料,剩余語料有漢語1 000段,英語450段及日語750段作為測試語音。
本文采用檢測錯誤折中DET(Detection Error Tradeoff)曲線及等錯誤率EER(Equal Error Rate)來衡量語種確認(rèn)系統(tǒng)的性能。
本文的特征參數(shù)是 MFCC加 SDC(7-1-3-7),共 56維,前端預(yù)加重系數(shù)為 0.97,幀長 25 ms,幀移 10 ms。 利用VAD算法[7]去除了靜音幀,同時通過 CMS[4]去除了倒譜域的卷積噪聲。GMM混合高斯數(shù)選擇512,SVM算法采用臺灣林智仁教授開發(fā)的LibSVM工具包[8]實現(xiàn)。
為了驗證所提算法的有效性,以GMM-UBM 、GSVSVM和Model Pushing方法作為基線系統(tǒng),與本文提出的區(qū)分性Model Pushing進(jìn)行對比測試。
為了尋求最優(yōu)的移動系數(shù)λt和λn,實驗中選取了多組值進(jìn)行對比測試,識別結(jié)果如表1所示。
其中,λt=0,λn=0表示最原始的沒有進(jìn)行任何移動操作的Model Pushing。從表1可以看出在λt=0.6,λn=-0.4的情況下系統(tǒng)性能是最好的,此時的EER為7.91%。而λt=1.4、λn=-1.4時系統(tǒng)性能最差,即出現(xiàn)了移動過度的現(xiàn)象。
圖3給出了各系統(tǒng)的DET曲線圖。其中MP代表Model Pushing方法,Dis MP代表本文所提的區(qū)分性Model Pushing方法。表2給出了各系統(tǒng)對應(yīng)的EER。
從圖3和表2可以看出,在測試集內(nèi),本文所提的區(qū)分性Model Pushing方法獲得了最低的 EER,即性能最優(yōu),相對于 GMM-UBM、GSV-SVM及Model Pushing方法,EER分別相對降低了18.95%、8.55%和3.54%。這也證明了本文所提方法的有效性。
針對 GSV-SVM在短語音條件下應(yīng)用的不足,本文提出了一種區(qū)分性Model Pushing方法。該方法在保留了SVM的區(qū)分性信息的同時,充分利用了GMM在短時語音上的優(yōu)勢。在最能區(qū)分目標(biāo)語種和非目標(biāo)語種的方向上對支持向量進(jìn)行適當(dāng)移動,減少了目標(biāo)語種與非目標(biāo)語種語音特征間的混疊,增加了區(qū)分性,提高了識別性能。實驗結(jié)果證實了該方法的有效性。
表2 各系統(tǒng)EER(%)
[1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.
[2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.
[3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.
[4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.
[5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.
[6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.
[7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics,Speech,and Signal Processing.1981.
[8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.