基于區(qū)分性Model Pushing的語種識別方法*

2012-07-03 00:24:40劉偉偉吉立新李邵梅

電子技術(shù)應(yīng)用 2012年4期

劉偉偉，吉立新，李邵梅，徐文

(1.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南鄭州450002；2.61906部隊，江西鷹潭335000）

隨著信息技術(shù)的不斷發(fā)展，自動語種識別技術(shù)在信息服務(wù)、信息檢索及安全領(lǐng)域的應(yīng)用日益廣泛。當(dāng)前主流的語種識別方法，根據(jù)使用特征參數(shù)的不同，分為基于音素特征的模型方法和基于聲學(xué)特征的模型方法。

目前應(yīng)用最廣泛的聲學(xué)模型GSV-SVM進(jìn)行識別時，每一段測試語音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自適應(yīng)生成GSV作為SVM的輸入特征[1]。在測試長度小于1 min的短語音語種識別應(yīng)用中，由于測試語音較短，自適應(yīng)得到的GSV并不能準(zhǔn)確反映測試語音的語種屬性，性能下降較為嚴(yán)重。為了解決該問題，Campbell等人提出了Model Pushing[2]的概念，首先利用SVM訓(xùn)練得到支持向量，再利用支持向量反過來建立GMM模型。因為支持向量中包含了訓(xùn)練語音的區(qū)分性信息,所以反推得到的GMM模型包含了對最具區(qū)分性分類邊界的描述。這樣，反推的GMM模型就繼承了SVM訓(xùn)練得到的區(qū)分性信息。但是，由于該方法只選取了分類邊界上的支持向量，所以利用Model Pushing后推得到的GMM并不能充分描述各語種特征分布的區(qū)分性。

為進(jìn)一步提高M(jìn)odel Pushing算法的識別性能，本文結(jié)合快速區(qū)分性訓(xùn)練[3]提出了一種區(qū)分性Model Pushing方法。由于進(jìn)一步增大了不同語種間的區(qū)分性并能更充分地描述各語種的特征分布，同時利用了GMM在短時語音識別上的優(yōu)勢，該方法提高了在短語音條件下的應(yīng)用效果。對實驗室條件下采集的電話信道漢語普通話、英語和日語三種語音的測試實驗表明，區(qū)分性Model Pushing方法獲得了最低的等錯誤率 (EER),相對于GMM-UBM、GSV-SVM及 Model Pushing方法，EER分別降低了18.95%、8.55%和3.54%。

1 基于GSV-SVM的語種識別分析

基于GSV-SVM的語種識別系統(tǒng)包含訓(xùn)練和測試兩個階段。訓(xùn)練階段在通用背景模型UBM(Universal Background Model)上通過最大后驗概率MAP[4](Maximum A Posterior)自適應(yīng)得到各訓(xùn)練語音的GSV訓(xùn)練SVM模型；識別階段同樣通過MAP自適應(yīng)從UBM中得到各測試語音的GSV,然后輸入訓(xùn)練好的SVM中進(jìn)行分類識別，得到識別結(jié)果。

1.1 GSV

GMM用多個單高斯分布的線性組合來描述幀特征在特征空間的分布，即:

其中，x為語音幀聲學(xué)特征向量，M為高斯混合數(shù)，wi為混合權(quán)重，μi和 Σi為第 i個高斯混合成分的均值向量和協(xié)方差矩陣。對于訓(xùn)練數(shù)據(jù),通過期望最大化算法EM(Expectation Maximum)[5]得到一個UBM。每一個訓(xùn)練和測試的語句通過MAP準(zhǔn)則從UBM中自適應(yīng)得到各自對應(yīng)的GMM模型。在MAP自適應(yīng)過程中，由于考慮到計算量的原因，通常只對均值向量μi進(jìn)行修正調(diào)整，而權(quán)重和協(xié)方差矩陣都保持與UBM模型一致。將自適應(yīng)得到的各高斯混合成分的均值向量按順序排列起來即構(gòu)成超矢量（GSV）。

1.2 SVM

SVM是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)方法。在二分類問題中，給出樣本{xi,yi}，i=1,2,…N,xi∈RD為 D 維的特征向量，yi∈{+1,-1}為類別標(biāo)簽，其分類判決函數(shù)表示為特征向量內(nèi)積的形式：

對于非線性的問題，通常采用核函數(shù)將輸入特征向量（即GSV）非線性地映射到高維空間，當(dāng)作線性問題處理。核函數(shù)形式為K(xi,xj)=φ(xi)×φ(xj)，這樣在高維空間只需要內(nèi)積運(yùn)算即可，判決函數(shù)轉(zhuǎn)換為如下形式：

SVM的核函數(shù)采用度量GMM距離的Kullback-Leibler核函數(shù)(K-L核)[6]，其表達(dá)式為：

其中 μa和 μb代表兩個語音段的 GSV，μia和 μib分別是各自 GMM第i個高斯混合成分的均值矢量，ωi是UBM第i個高斯混合成分的權(quán)重,Σi是UBM第個高斯混合成分的協(xié)方差矩陣，M為混合數(shù)，T為轉(zhuǎn)置符號。由式 (4)可知,在SVM中采用K-L核函數(shù)相當(dāng)于先利用UBM的權(quán)重和方差對GSV進(jìn)行歸一化，然后用SVM的線性核函數(shù)進(jìn)行訓(xùn)練和識別。而對GSV的歸一化可以理解為將GSV投影到另一個空間（K-L空間），然后利用 SVM的線性核函數(shù)在K-L空間進(jìn)行訓(xùn)練和識別。

2 基于區(qū)分性Model Pushing的語種識別

GSV-SVM通常采用一對多的SVM分類模式，即在目標(biāo)語種和非目標(biāo)語種間尋找出最優(yōu)分類面，如在漢語和非漢語(英語、日語等任意非漢語)間進(jìn)行分類。SVM使用K-L核，對目標(biāo)語種和非目標(biāo)語種進(jìn)行分類。

以簡單的二維聲學(xué)特征和2個高斯混元為例介紹區(qū)分性Model Pushing的過程，如圖1所示。圖1(a)表示為原始特征空間的分布，GMM-UBM有兩個混元，目標(biāo)語種和非目標(biāo)語種的混元是從GMM-UBM中自適應(yīng)得到的，能夠描述其特征的分布，目標(biāo)語種和非目標(biāo)語種在特征域空間的分布存在嚴(yán)重的混疊，難以有效區(qū)分。

圖1(c)所示為K-L空間 SVM訓(xùn)練后的結(jié)果，其中處于分類邊界虛線上的即為支持向量。為了減少特征域空間目標(biāo)語種和非目標(biāo)語種分布的混疊，利用K-L空間訓(xùn)練得到的最優(yōu)分類面對其進(jìn)行適當(dāng)處理，即在K-L空間沿著最優(yōu)分類面法線的方向進(jìn)行移動。假如目標(biāo)語種訓(xùn)練得到n個支持向量，非目標(biāo)語種有m個支持向量，則對其移動的結(jié)果為:

其中，xt,i和xn,i表示目標(biāo)語種和非目標(biāo)語種的第 i個支持向量 (GSV在K-L空間的投影)，λtk和 λnk表示目標(biāo)語種和非目標(biāo)語種的支持向量沿法向量移動的尺度，w表示目標(biāo)語種和非目標(biāo)語種最優(yōu)分類面的法向標(biāo)語種和非目標(biāo)語種的第i個支持向量移動后的結(jié)果。

利用移動后的支持向量構(gòu)建目標(biāo)語種和非目標(biāo)語種的GSV在K-L空間的投影，即得到:取 λt≥0、λn≤0。對支持向量的移動反映到特征域空間就使得重構(gòu)的目標(biāo)語種和非目標(biāo)語種的GMM分布混疊減少，增大區(qū)分性，如圖1(b)所示。顯然，λt、λn不宜過大，否則移動過度將產(chǎn)生原本屬于目標(biāo)語種的測試語音對其自身GMM的似然度得分比對UBM的還要小的問題。因此，λt、λn至少要使目標(biāo)語種的測試語音在其GMM的似然度得分比在UBM上的得分要大。

如圖2所示，區(qū)分性Model Pushing與GSV-SVM相比在訓(xùn)練階段多了一個對支持向量移動反推的過程，得到目標(biāo)語種和非目標(biāo)語種的GMM；測試階段只需提取測試語音的特征參數(shù)然后對目標(biāo)和非目標(biāo)GMM的對數(shù)似然得分進(jìn)行分類判決,分類判決的分?jǐn)?shù)計算如下：

其中yi為語音幀特征向量，gtar(y)和 gnon-tar(y)為目標(biāo)語種和非目標(biāo)語種特征向量的GMM概率密度函數(shù)。

由于該方法在測試階段避開了GSV的計算，同時利用了訓(xùn)練階段得到的SVM區(qū)分性信息，因此能夠提高短語音條件下語種識別的性能。

3 實驗設(shè)置和結(jié)果分析

3.1 實驗數(shù)據(jù)庫及評測方法

語料庫為實驗室采集的電話信道通話語音，包括漢語普通話、英語和日語3個語種，共有4 600段30 s的語音以及300段5 min左右的長時語音。語音信號的采樣頻率為8 kHz，并經(jīng)過 16 bit量化處理。30 s語料中，有漢語 1 800段(男女各 900段)、英語 1 250段(男600段，女 650段)、日語 1 550段(男 850段，女 700段)。5 min長時語料中，每個語種有100段話音 (男女各50段)。上述語音段中所含的說話人均不相同，且每段語音僅含一個說話人。實驗采用30 s的語音進(jìn)行訓(xùn)練和測試，從各語種挑選 600段(每個語種男女各 300段)用于訓(xùn)練高斯混合數(shù)為512的UBM模型。從30 s的語音中為每個語種挑選200段語音 (男女各100段)作為SVM的訓(xùn)練語料，剩余語料有漢語1 000段，英語450段及日語750段作為測試語音。

本文采用檢測錯誤折中DET(Detection Error Tradeoff)曲線及等錯誤率EER(Equal Error Rate)來衡量語種確認(rèn)系統(tǒng)的性能。

3.2 系統(tǒng)描述

本文的特征參數(shù)是 MFCC加 SDC（7-1-3-7），共 56維，前端預(yù)加重系數(shù)為 0.97，幀長 25 ms，幀移 10 ms。利用VAD算法[7]去除了靜音幀，同時通過 CMS[4]去除了倒譜域的卷積噪聲。GMM混合高斯數(shù)選擇512，SVM算法采用臺灣林智仁教授開發(fā)的LibSVM工具包[8]實現(xiàn)。

為了驗證所提算法的有效性，以GMM-UBM 、GSVSVM和Model Pushing方法作為基線系統(tǒng)，與本文提出的區(qū)分性Model Pushing進(jìn)行對比測試。

3.3 實驗結(jié)果

為了尋求最優(yōu)的移動系數(shù)λt和λn，實驗中選取了多組值進(jìn)行對比測試，識別結(jié)果如表1所示。

其中，λt=0，λn=0表示最原始的沒有進(jìn)行任何移動操作的Model Pushing。從表1可以看出在λt=0.6，λn=-0.4的情況下系統(tǒng)性能是最好的，此時的EER為7.91%。而λt=1.4、λn=-1.4時系統(tǒng)性能最差,即出現(xiàn)了移動過度的現(xiàn)象。

圖3給出了各系統(tǒng)的DET曲線圖。其中MP代表Model Pushing方法，Dis MP代表本文所提的區(qū)分性Model Pushing方法。表2給出了各系統(tǒng)對應(yīng)的EER。

從圖3和表2可以看出,在測試集內(nèi)，本文所提的區(qū)分性Model Pushing方法獲得了最低的 EER，即性能最優(yōu)，相對于 GMM-UBM、GSV-SVM及Model Pushing方法，EER分別相對降低了18.95%、8.55%和3.54%。這也證明了本文所提方法的有效性。

針對 GSV-SVM在短語音條件下應(yīng)用的不足,本文提出了一種區(qū)分性Model Pushing方法。該方法在保留了SVM的區(qū)分性信息的同時，充分利用了GMM在短時語音上的優(yōu)勢。在最能區(qū)分目標(biāo)語種和非目標(biāo)語種的方向上對支持向量進(jìn)行適當(dāng)移動，減少了目標(biāo)語種與非目標(biāo)語種語音特征間的混疊，增加了區(qū)分性，提高了識別性能。實驗結(jié)果證實了該方法的有效性。

表2 各系統(tǒng)EER(%)

[1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.

[2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.

[3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.

[4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

[5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.

[6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.

[7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics，Speech，and Signal Processing.1981.

[8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡