国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于區(qū)分性Model Pushing的語種識別方法*

2012-07-03 00:24:40劉偉偉吉立新李邵梅
電子技術(shù)應(yīng)用 2012年4期
關(guān)鍵詞:語種區(qū)分高斯

劉偉偉,吉立新,李邵梅,徐 文

(1.國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州450002;2.61906部隊,江西 鷹潭335000)

隨著信息技術(shù)的不斷發(fā)展,自動語種識別技術(shù)在信息服務(wù)、信息檢索及安全領(lǐng)域的應(yīng)用日益廣泛。當(dāng)前主流的語種識別方法,根據(jù)使用特征參數(shù)的不同,分為基于音素特征的模型方法和基于聲學(xué)特征的模型方法。

目前應(yīng)用最廣泛的聲學(xué)模型GSV-SVM進(jìn)行識別時,每一段測試語音首先在GMM通用背景模型GMMUBM(GMM-Universal Background Model)上自適應(yīng)生成GSV作為SVM的輸入特征[1]。在測試長度小于1 min的短語音語種識別應(yīng)用中,由于測試語音較短,自適應(yīng)得到的GSV并不能準(zhǔn)確反映測試語音的語種屬性,性能下降較為嚴(yán)重。為了解決該問題,Campbell等人提出了Model Pushing[2]的概念,首先利用SVM訓(xùn)練得到支持向量,再利用支持向量反過來建立GMM模型。因為支持向量中包含了訓(xùn)練語音的區(qū)分性信息,所以反推得到的GMM模型包含了對最具區(qū)分性分類邊界的描述。這樣,反推的GMM模型就繼承了SVM訓(xùn)練得到的區(qū)分性信息。但是,由于該方法只選取了分類邊界上的支持向量,所以利用Model Pushing后推得到的GMM并不能充分描述各語種特征分布的區(qū)分性。

為進(jìn)一步提高M(jìn)odel Pushing算法的識別性能,本文結(jié)合快速區(qū)分性訓(xùn)練[3]提出了一種區(qū)分性Model Pushing方法。由于進(jìn)一步增大了不同語種間的區(qū)分性并能更充分地描述各語種的特征分布,同時利用了GMM在短時語音識別上的優(yōu)勢,該方法提高了在短語音條件下的應(yīng)用效果。對實驗室條件下采集的電話信道漢語普通話、英語和日語三種語音的測試實驗表明,區(qū)分性Model Pushing方法獲得了最低的等錯誤率 (EER),相對于GMM-UBM、GSV-SVM及 Model Pushing方法,EER分別降低了18.95%、8.55%和3.54%。

1 基于GSV-SVM的語種識別分析

基于GSV-SVM的語種識別系統(tǒng)包含訓(xùn)練和測試兩個階段。訓(xùn)練階段在通用背景模型UBM(Universal Background Model)上通過最大后驗概率MAP[4](Maximum A Posterior)自適應(yīng)得到各訓(xùn)練語音的GSV訓(xùn)練SVM模型;識別階段同樣通過MAP自適應(yīng)從UBM中得到各測試語音的GSV,然后輸入訓(xùn)練好的SVM中進(jìn)行分類識別,得到識別結(jié)果。

1.1 GSV

GMM用多個單高斯分布的線性組合來描述幀特征在特征空間的分布,即:

其中,x為語音幀聲學(xué)特征向量,M為高斯混合數(shù),wi為混合權(quán)重,μi和 Σi為第 i個高斯混合成分的均值向量和協(xié)方差矩陣。對于訓(xùn)練數(shù)據(jù),通過期望最大化算法EM(Expectation Maximum)[5]得到一個UBM。每一個訓(xùn)練和測試的語句通過MAP準(zhǔn)則從UBM中自適應(yīng)得到各自對應(yīng)的GMM模型。在MAP自適應(yīng)過程中,由于考慮到計算量的原因,通常只對均值向量μi進(jìn)行修正調(diào)整,而權(quán)重和協(xié)方差矩陣都保持與UBM模型一致。將自適應(yīng)得到的各高斯混合成分的均值向量按順序排列起來即構(gòu)成超矢量(GSV)。

1.2 SVM

SVM是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)方法。在二分類問題中,給出樣本{xi,yi},i=1,2,…N,xi∈RD為 D 維的特征向量,yi∈{+1,-1}為類別標(biāo)簽,其分類判決函數(shù)表示為特征向量內(nèi)積的形式:

對于非線性的問題,通常采用核函數(shù)將輸入特征向量(即GSV)非線性地映射到高維空間,當(dāng)作線性問題處理。核函數(shù)形式為K(xi,xj)=φ(xi)×φ(xj),這樣在高維空間只需要內(nèi)積運(yùn)算即可,判決函數(shù)轉(zhuǎn)換為如下形式:

SVM的核函數(shù)采用度量GMM距離的Kullback-Leibler核函數(shù)(K-L核)[6],其表達(dá)式為:

其中 μa和 μb代表兩個語音段的 GSV,μia和 μib分別是各自 GMM第i個高斯混合成分的均值矢量,ωi是UBM第i個高斯混合成分的權(quán)重,Σi是UBM第個高斯混合成分的協(xié)方差矩陣,M為混合數(shù),T為轉(zhuǎn)置符號。由式 (4)可知,在SVM中采用K-L核函數(shù)相當(dāng)于先利用UBM的權(quán)重和方差對GSV進(jìn)行歸一化,然后用SVM的線性核函數(shù)進(jìn)行訓(xùn)練和識別。而對GSV的歸一化可以理解為將GSV投影到另一個空間(K-L空間),然后利用 SVM的線性核函數(shù)在K-L空間進(jìn)行訓(xùn)練和識別。

2 基于區(qū)分性Model Pushing的語種識別

GSV-SVM通常采用一對多的SVM分類模式,即在目標(biāo)語種和非目標(biāo)語種間尋找出最優(yōu)分類面,如在漢語和非漢語(英語、日語等任意非漢語)間進(jìn)行分類。SVM使用K-L核,對目標(biāo)語種和非目標(biāo)語種進(jìn)行分類。

以簡單的二維聲學(xué)特征和2個高斯混元為例介紹區(qū)分性Model Pushing的過程,如圖1所示。圖1(a)表示為原始特征空間的分布,GMM-UBM有兩個混元,目標(biāo)語種和非目標(biāo)語種的混元是從GMM-UBM中自適應(yīng)得到的,能夠描述其特征的分布,目標(biāo)語種和非目標(biāo)語種在特征域空間的分布存在嚴(yán)重的混疊,難以有效區(qū)分。

圖1(c)所示為K-L空間 SVM訓(xùn)練后的結(jié)果,其中處于分類邊界虛線上的即為支持向量。為了減少特征域空間目標(biāo)語種和非目標(biāo)語種分布的混疊,利用K-L空間訓(xùn)練得到的最優(yōu)分類面對其進(jìn)行適當(dāng)處理,即在K-L空間沿著最優(yōu)分類面法線的方向進(jìn)行移動。假如目標(biāo)語種訓(xùn)練得到n個支持向量,非目標(biāo)語種有m個支持向量,則對其移動的結(jié)果為:

其中,xt,i和xn,i表示目標(biāo)語種和非目標(biāo)語種的第 i個支持向量 (GSV在K-L空間的投影),λtk和 λnk表示目標(biāo)語種和非目標(biāo)語種的支持向量沿法向量移動的尺度,w表示目標(biāo)語種和非目標(biāo)語種最優(yōu)分類面的法向標(biāo)語種和非目標(biāo)語種的第i個支持向量移動后的結(jié)果。

利用移動后的支持向量構(gòu)建目標(biāo)語種和非目標(biāo)語種的GSV在K-L空間的投影,即得到:取 λt≥0、λn≤0。 對支持向量 的移 動反映到特征域空間就使得重構(gòu)的目標(biāo)語種和非目標(biāo)語種的GMM分布混疊減少,增大區(qū)分性,如圖1(b)所示。顯然,λt、λn不宜過大,否則移動過度將產(chǎn)生原本屬于目標(biāo)語種的測試語音對其自身GMM的似然度得分比對UBM的還要小的問題。因此,λt、λn至少要使目標(biāo)語種的測試語音在其GMM的似然度得分比在UBM上的得分要大。

如圖2所示,區(qū)分性Model Pushing與GSV-SVM相比在訓(xùn)練階段多了一個對支持向量移動反推的過程,得到目標(biāo)語種和非目標(biāo)語種的GMM;測試階段只需提取測試語音的特征參數(shù)然后對目標(biāo)和非目標(biāo)GMM的對數(shù)似然得分進(jìn)行分類判決,分類判決的分?jǐn)?shù)計算如下:

其中yi為語音幀特征向量,gtar(y)和 gnon-tar(y)為目標(biāo)語種和非目標(biāo)語種特征向量的GMM概率密度函數(shù)。

由于該方法在測試階段避開了GSV的計算,同時利用了訓(xùn)練階段得到的SVM區(qū)分性信息,因此能夠提高短語音條件下語種識別的性能。

3 實驗設(shè)置和結(jié)果分析

3.1 實驗數(shù)據(jù)庫及評測方法

語料庫為實驗室采集的電話信道通話語音,包括漢語普通話、英語和日語3個語種,共有4 600段30 s的語音以及300段5 min左右的長時語音。語音信號的采樣頻率為8 kHz,并經(jīng)過 16 bit量化處理。30 s語料中,有漢語 1 800段(男女各 900段)、英語 1 250段(男600段,女 650段)、日語 1 550段(男 850段,女 700段)。5 min長時語料中,每個語種有100段話音 (男女各50段)。上述語音段中所含的說話人均不相同,且每段語音僅含一個說話人。實驗采用30 s的語音進(jìn)行訓(xùn)練和測試,從各語種挑選 600段(每個語種男女各 300段)用于訓(xùn)練高斯混合數(shù)為512的UBM模型。從30 s的語音中為每個語種挑選200段語音 (男女各100段)作為SVM的訓(xùn)練語料,剩余語料有漢語1 000段,英語450段及日語750段作為測試語音。

本文采用檢測錯誤折中DET(Detection Error Tradeoff)曲線及等錯誤率EER(Equal Error Rate)來衡量語種確認(rèn)系統(tǒng)的性能。

3.2 系統(tǒng)描述

本文的特征參數(shù)是 MFCC加 SDC(7-1-3-7),共 56維,前端預(yù)加重系數(shù)為 0.97,幀長 25 ms,幀移 10 ms。 利用VAD算法[7]去除了靜音幀,同時通過 CMS[4]去除了倒譜域的卷積噪聲。GMM混合高斯數(shù)選擇512,SVM算法采用臺灣林智仁教授開發(fā)的LibSVM工具包[8]實現(xiàn)。

為了驗證所提算法的有效性,以GMM-UBM 、GSVSVM和Model Pushing方法作為基線系統(tǒng),與本文提出的區(qū)分性Model Pushing進(jìn)行對比測試。

3.3 實驗結(jié)果

為了尋求最優(yōu)的移動系數(shù)λt和λn,實驗中選取了多組值進(jìn)行對比測試,識別結(jié)果如表1所示。

其中,λt=0,λn=0表示最原始的沒有進(jìn)行任何移動操作的Model Pushing。從表1可以看出在λt=0.6,λn=-0.4的情況下系統(tǒng)性能是最好的,此時的EER為7.91%。而λt=1.4、λn=-1.4時系統(tǒng)性能最差,即出現(xiàn)了移動過度的現(xiàn)象。

圖3給出了各系統(tǒng)的DET曲線圖。其中MP代表Model Pushing方法,Dis MP代表本文所提的區(qū)分性Model Pushing方法。表2給出了各系統(tǒng)對應(yīng)的EER。

從圖3和表2可以看出,在測試集內(nèi),本文所提的區(qū)分性Model Pushing方法獲得了最低的 EER,即性能最優(yōu),相對于 GMM-UBM、GSV-SVM及Model Pushing方法,EER分別相對降低了18.95%、8.55%和3.54%。這也證明了本文所提方法的有效性。

針對 GSV-SVM在短語音條件下應(yīng)用的不足,本文提出了一種區(qū)分性Model Pushing方法。該方法在保留了SVM的區(qū)分性信息的同時,充分利用了GMM在短時語音上的優(yōu)勢。在最能區(qū)分目標(biāo)語種和非目標(biāo)語種的方向上對支持向量進(jìn)行適當(dāng)移動,減少了目標(biāo)語種與非目標(biāo)語種語音特征間的混疊,增加了區(qū)分性,提高了識別性能。實驗結(jié)果證實了該方法的有效性。

表2 各系統(tǒng)EER(%)

[1]CAMPBELL W M,STURIM D E,REYNOLDS D A,et al.SVM based speaker verification ssing a GMM supervector kernel and NAP variability compensation[C].in Proc.ICASSP 2006.

[2]CAMPBELL W M.A covariance kernel for SVM language recognition[C].in Proc.ICASSP 2008.

[3]CASTALDO F,COLIBRO D,DALMASSO E,et al.Acoustic language identification using fast discriminative training[C].in Proc.Interspeech,2007.

[4]REYNOLDS D A,QUATIERI T F,DUNN R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

[5]REYNOLDS D A,ROSE R C.Robust text-independent speaker identification using gaussian mixture speaker models[C].IEEE Trans.Speech Audio Process 1995.

[6]MORENO P J,HO P P,VASCONCELOS N.A kullbackleibler divergence based kernel for SVM classification in multimedia applications[M].in Adv.in Neural Inf.Proc.Systems 16,MIT Press,Cambridge,MA,2004.

[7]LAMEL L F,RABINER L R.An improved endpoint detector for isolated word recognition[C].IEEE Transactions on Acoustics,Speech,and Signal Processing.1981.

[8]LIN C.LIBSVM:A library for support vector machines[EB/OL.](2010-12-14).http://www.csic.ntu.tw/cjlin/libsvm/index.html.2010.

猜你喜歡
語種區(qū)分高斯
小高斯的大發(fā)現(xiàn)
區(qū)分“旁”“榜”“傍”
你能區(qū)分平衡力與相互作用力嗎
《波斯語課》:兩個人的小語種
時代郵刊(2021年8期)2021-07-21 07:52:44
天才數(shù)學(xué)家——高斯
“一帶一路”背景下我國的外語語種規(guī)劃
教你區(qū)分功和功率
有限域上高斯正規(guī)基的一個注記
罪數(shù)區(qū)分的實踐判定
走出報考小語種專業(yè)的兩大誤區(qū)
麦盖提县| 双流县| 万荣县| 稷山县| 徐闻县| 晋州市| 福建省| 琼海市| 北京市| 饶平县| 霍城县| 沂源县| 云阳县| 琼海市| 象州县| 太白县| 香河县| 苗栗市| 孟连| 蒲城县| 台江县| 盐亭县| 新安县| 依兰县| 白水县| 大冶市| 庄河市| 霍林郭勒市| 阿图什市| 古丈县| 浦东新区| 札达县| 宁都县| 贡觉县| 东港市| 宣城市| 当阳市| 潢川县| 微山县| 张家港市| 台山市|