唐宗渤王茂蓉周 萍
(1.桂林電子科技大學(xué)信息科技學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué)電子工程與自動化學(xué)院,廣西 桂林 541004)
基于相關(guān)距離Fisher比的混合參數(shù)用于說話人識別
唐宗渤1王茂蓉2周 萍2
(1.桂林電子科技大學(xué)信息科技學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué)電子工程與自動化學(xué)院,廣西 桂林 541004)
為了得到更具區(qū)分性的特征參數(shù),采用改進(jìn)的MFCC提取方法,即低方差性的多窗譜估計MFCC,并在其基礎(chǔ)上引入了短時TEO能量和 MFCCΔ動態(tài)特征參量組合特征進(jìn)行說話人識別。由于直接將兩者進(jìn)行組合會造成維度過高,計算復(fù)雜度增加,為此提出了相關(guān)距離Fisher比來對特征參數(shù)進(jìn)行加權(quán)和維度篩選,最后送入GMM-UBM分類器模型進(jìn)行識別。實驗表明,改進(jìn)的混合特征參數(shù)相較于單一的特征參量,具備更好的識別能力,使得識別率有一定程度的提高。
說話人識別;多窗譜MFCC;相關(guān)距離Fisher比;TEO;混合特征
說話人識別系統(tǒng)已經(jīng)在社會各個領(lǐng)域得到了廣泛的應(yīng)用,如司法偵查、電子商務(wù)和金融等領(lǐng)域,是國內(nèi)外研究的熱點,其發(fā)展已比較成熟,但如何進(jìn)一步提高說話人識別率是語音識別領(lǐng)域一個熱門課題。目前最常見的特征參數(shù)有MFCC參數(shù)、LPC參數(shù)、LPCC參數(shù)、HHT倒譜系數(shù)、基因頻率等[1]。
其中MFCC反映人對語音的感知特性,相對于其它特征具有強(qiáng)抗噪性,高識別率的特點,已成為說話人識別領(lǐng)域應(yīng)用最為廣泛的特征參數(shù)。但MFCC也存在一些不足,如實時性不夠理想,高方差性的缺點,對此,許多研究者在對MFCC的提取方法上進(jìn)行改進(jìn),文獻(xiàn)[2]提出用觀察性的多窗譜估計來代替?zhèn)鹘y(tǒng)的提取 MFCC算法中的單級窗和離散傅里葉變換,使得系統(tǒng)具有更好的系統(tǒng)魯棒性。文獻(xiàn)[3]首先對MFCC特征參數(shù)進(jìn)行研究,求取其差分和加權(quán)Mel系數(shù),將它們進(jìn)行維度篩選和擴(kuò)張,得到混合特征參數(shù),使得系統(tǒng)的魯棒性得到提高,但其運算量過大,因此,本文提出的改進(jìn)算法是在多窗譜MFCC的基礎(chǔ)上加入短時TEO能量,來提取EMFCC和一階差分 MFCC。由于簡單的將兩者進(jìn)項組合會帶來大量的冗余信息,達(dá)不到預(yù)期的效果,反而會增加系統(tǒng)的運算開銷,故本文提出使用相關(guān)距離Fisher比,相比于傳統(tǒng)的Fisher比只能反映每維參數(shù)對識別系統(tǒng)的貢獻(xiàn)大小,該算法將每維參量間的相關(guān)性考慮進(jìn)去,選出可分程度相對較大的分量,進(jìn)行加權(quán)降維,組成新的混合參數(shù)。通過實驗驗證,該混合特征提高了系統(tǒng)的整體識別性能。
特征參數(shù)的選取影響系統(tǒng)識別的好壞,本文利用多窗譜提取 MFCC,并加入 TEO能量,然后提取出 EMFCC、ΔMFCC ,利用相關(guān)距離Fisher比來對其進(jìn)行降維,然后對說話人識別貢獻(xiàn)大的參量加以相對較大的權(quán)重系數(shù),構(gòu)造出混合特征參量。相比于傳統(tǒng)的 MFCC,本文所提算法將表征語音信號時域特征的一階差分MFCC和反映語音信號能量特征的 EMFCC相結(jié)合,得到更能完整描述說話者個性特征的混合參數(shù)。又由于特征參數(shù)的維數(shù)越多,計算量就越大,相比于文獻(xiàn)[3]將差分和加權(quán)Mel系數(shù)組合得到17維的特征參量,而我們所求的混合參數(shù)是12維的,使得系統(tǒng)識別性能提高的同時大大降低了計算復(fù)雜度。綜上,本文所提方法理論上是有效的。
1.1 多窗譜MFCC
文獻(xiàn)[10]等提出Mel倒譜系數(shù),能夠很好地描述語音信號的頻率特性。利用Mel三角濾波器組提取MFCC特征參數(shù)。其中,MFCC特征參數(shù)是在Mel頻率尺度上提取出來的,兩者之間的轉(zhuǎn)關(guān)系換如(1)式所示,
式中:f為頻率,單位為Hz。
首先用一階數(shù)字濾波器對語音信號進(jìn)行預(yù)加重,再對預(yù)加重過的語音信號分幀加窗處理。然而,在對信號加窗分幀處理操作時,短時分析的參數(shù)特征的優(yōu)劣取決于窗函數(shù)的選取。通常語音信號加窗采用單級窗函數(shù),而單級窗雖然減少了頻譜估計的偏差,卻使得信號頻譜估計仍存在較大方差[10]。為減小信號中設(shè)備信息的頻譜損失有效保留大部分頻譜信息,本文使用多窗譜估計代替單級窗,其原理框圖如圖1所示,
圖1 提取多窗譜MFCC參量
其公式如下:
由圖2可知,多窗譜函數(shù)不僅可以減少語音的頻譜損失,而且還能提升語音的低頻部分,多窗譜的這個優(yōu)點有效地提高了了傳統(tǒng)MFCC低頻部分的噪聲魯棒性,有利于對后續(xù)特征參數(shù)的分析選取。另外,通過一系列的實驗測試,當(dāng)子窗個數(shù)為 6個時,無論是系統(tǒng)識別率還是運算時間都能達(dá)到最佳,所以本文多窗譜函數(shù)子窗個數(shù)為6個。
圖2 加單級窗(漢明窗)和多窗譜的語音頻譜對比
提取MFCC參數(shù)具體步驟[6]是將進(jìn)過上述預(yù)處理后的信號Xt(τ)對其取模的平方,然后送入 Mel三角濾波器組濾波,求取對數(shù)能量,再對輸出向量作DCT,得到MFCC,提取。計算公式如下,
其中:n為所取MFCC的個數(shù);Cj(n)為第j幀的第n個MFCC系數(shù);Sj(m)為語音信號的對數(shù)能量譜;M為24即濾波器數(shù)。除去代表直流成分的Cj(0),得到Cj(1),…,Cj(n),然后由式(6)求取表征信號動態(tài)特性的ΔMFCC系數(shù)Dt(n),
其中,k為常數(shù),一般取為2。
1.2 短時TEO能量
Teager能量算子(Teager Energy Operator,TEO)實際上是一個非線性算子,它是由Teager等人[6]提出的,能夠很好地表征信號的瞬時能量值,將其加入到特征參數(shù)中,輔助進(jìn)行說話人識別。但我們首先要對 TEO能量進(jìn)行歸一化處理,并求其對數(shù)能量。TEO的具體求取過程是,先求TEO,并對其分幀加窗,最后求各幀信號的TEO能量,其計算公式為式(5)
其中,(ETEO)t是第t幀的TEO能量,τ為每幀樣點數(shù);L為幀長,本文取為256。
對其進(jìn)行歸一化能量并取其對數(shù),其計算公式如(6),然后把其加入到MFCC特征向量的第一維,組成EMFCC特征向量,最后與MFCCΔ經(jīng)相關(guān)距離Fisher比加權(quán)和維度篩選,組成混合參數(shù)。
通過以上對特征參數(shù)的提取,筆者得到了12維的EMFCC和12維的MFCCΔ,若直接把它們混合,得到了24維混合參數(shù),造成信息的冗余。不僅增加系統(tǒng)的運算量,而且由于不同的特征參量所包含的表征說話人的個性特征的信息不同,對識別的貢獻(xiàn)也各不相同,故不能將每維特征向量都同等對待。為消除冗余信息,筆者采用相關(guān)距離 Fisher準(zhǔn)則,其中Fisher比的計算公式(7)所示,
其中,ui、u代表第i個說話者和全部說話者參量均值估計,代表第i個說話者第j句話的特征參數(shù),i=1,2…M;j=1,2…N 。
從式(7)可以看出Fisher比只能反映每維參數(shù)對識別系統(tǒng)的貢獻(xiàn)大小,但未將每維參量間的相關(guān)性考慮進(jìn)去,故本文相關(guān)距離的 Fisher比來進(jìn)行加權(quán)降維。相關(guān)距離顧名思義就是指每一維特征參數(shù)與其他各維參量之間的距離,它的值越大,則表明該維參量與其他維參量間所包含的共同信息就越少,它們之間的相關(guān)性也就越弱。該準(zhǔn)則有效地克服了Fisher比的局限性,避免了每兩維特征之間重疊的過多的信息,造成信息的冗余,增加系統(tǒng)的開銷,更好的篩選出能表征說話人個性特特征的有效維度,提高系統(tǒng)的整體性能。其公式如式(8)和(9),
通過式(9)可知,H和F之間是成正比關(guān)系的,但和相關(guān)距離成反比關(guān)系,也就是說 F的值越大,相關(guān)距離 Fisher比H也就越大。圖3給出了MFCC的相關(guān)距離Fisher比,由圖可知,MFCC第一維的貢獻(xiàn)值是最小的,故用短時TEO能量代替第一維,理論上說明,該混合特征是有效的。圖 4給出了EMFCC和MFCCΔ每一維參量之間的相關(guān)距離Fisher比。
圖3 MFCC參數(shù)相關(guān)距離Fisher比
圖4 兩個參數(shù)各維分量的Fisher比
從圖3中可以看出,MFCC最后一維的貢獻(xiàn)值式最小的,故用短時TEO能量來代替最后一維向量;從圖4中可以看出,不同分量的相關(guān)距離 Fisher比的值是不同的,表明對說話人識別貢獻(xiàn)值也是不同的,筆者則根據(jù)圖 4分別選出 EMFCC和差分MFCC中區(qū)分度最大的6維構(gòu)成12維的混合特征參數(shù),對相關(guān)距離 Fisher比大的賦予較大的權(quán)重系數(shù),反之則賦予相對較小的權(quán)重系數(shù),通過上述這種加權(quán)降維區(qū)分了不同維特征向量對說話人識別系統(tǒng)的的貢獻(xiàn)。
圖5 本文算法系統(tǒng)原理框圖
實驗使用50人語音庫(男女各25),每人分別錄制10段長約3 s的語音,7段用于訓(xùn)練,3段用于測試,采樣頻率8 KHz,采樣精度16 bit。在同一背景噪聲,不同信噪比下,進(jìn)行說話人識別,其中實驗中均采用16階GMM-UBM作為識別模型。通過實驗可知,本文方法原理簡單,且計算量相對較小,在信噪比較低時識別率也能較高。
為了證明本文所提混合特征參數(shù)的有效可行,表1給出了四種不同信噪比下對傳統(tǒng)MFCC與多窗譜MFCC進(jìn)行實驗。表2給出了文獻(xiàn)[3]算法與本文所提算法識別率的對比。表3給出了兩種不同降維方法的識別率對比。圖6給出了相關(guān)距離 Fisher比在對特征參數(shù)進(jìn)行加權(quán)前后系統(tǒng)識別率的比較。
表1 傳統(tǒng)MFCC和多窗譜MFCC識別率的對比
表2 文獻(xiàn)[2]算法與本文算法識別率對比
由表1可知,相較于傳統(tǒng)MFCC,本文選用的多窗譜估計MFCC的識別率在各種噪聲環(huán)境下均略高一籌,進(jìn)而證明了本文使用多窗譜代替單級窗和離散傅里葉變換的提取算法的有效性。由表2可以看出,本文所提方法識別率在四種信噪比環(huán)境中都高于文獻(xiàn)[2]所提方法識別率,有力的證明了短時TEO能量中含有對說話人識別有用的信息,從而進(jìn)一步證明本文所提算法是可行的。
表3 兩種降維方法對系統(tǒng)識別率的對比
由表3可知,本文采用基于相關(guān)距離Fisher準(zhǔn)則進(jìn)行參數(shù)降維加權(quán)后的系統(tǒng)識別率均在基于 Fisher比算法之上,特別是在信噪比相對較低的環(huán)境下,本文所采用的降維加權(quán)算法仍然保持了較高的優(yōu)越性,提高了系統(tǒng)的噪聲魯棒性。通過表1、表2、表3和圖6說明了本文算法在沒有提高復(fù)雜度的同時,使說話人識別率相對于文獻(xiàn)[2]有將近3%的提升,從而更加有力的說明了本文所提算法是可行的。
圖6 相關(guān)距離Fisher比對特征參數(shù)加權(quán)前后系統(tǒng)識別率的比較
本文首先針對傳統(tǒng)MFCC提取算法實時性差和高方差性的缺點,提出了多窗譜估計 MFCC,然后將分別表征說話者動態(tài)特性與時域特性的EMFCCMFCCΔ引入MFCC參量中,最后通過相關(guān)距離 Fisher比對參量進(jìn)行加權(quán)降維,并通過GMM-UBM的說話人識別系統(tǒng)進(jìn)行說話人識別。實驗結(jié)果表明,在信噪比相對較低的環(huán)境下,本文所提算法在沒有增加計算復(fù)雜度的同時,提高了系統(tǒng)的整體識別性能,增強(qiáng)了系統(tǒng)對噪聲的魯棒性。
[1] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2012.
[2] Kinnunen T,Saeidi R,Sedlák F,et al.Low-variance multitaper MFCC features: a case study in robust speaker verification[J].IEEE Trans. on Audio,Speech,and Language Processing,2012,20(7):1990-2001.
[3] 柯晶晶,周萍,景新幸,等.差分和加權(quán)Mel倒譜混合參數(shù)應(yīng)用于說話人識別[J].微電子學(xué)與計算機(jī),2014,31(9):89-91.
[4] 鮮曉東,樊宇星.基于 Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計算機(jī)應(yīng)用,2014,34(2):556-558.
[5] 李杰,周萍,杜志然.短時TEO能量在端點檢測中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2013,49(12):144-147.
[6] Teager H,Teager S.Evidence for nonlinear sound production mechanisms in the vocal tract[M].Speech Production & Speech Modeling.[S.l.]:Springer,1990:241-261.
[7] 王偉,鄧輝文.基于MFCC參數(shù)和VQ的說話人識別系統(tǒng)[J].儀器儀表學(xué)報,2006,27(6):2253-2155.
[8] Zhou Ping, Li Xiaopan, Li Jie,et al. Spe-ech Emotion Recognition Based on Mixed MFCC[C].International Conference on Applied Mechanics and Mechanical Engineering,2012:1252-1258.
[9] 曾祺,甘濤,曾紅斌.改進(jìn)的多窗譜MFCC在說話人確認(rèn)中的應(yīng)用[J].計算機(jī)系統(tǒng)應(yīng)用,2014,23(11):192-195.
[10] 吳迪,曹潔,王進(jìn)花.基于自適應(yīng)高斯混合模型與靜動態(tài)聽覺特征融合的說話人識別[J].光學(xué)精密工程,2013,21(6):1598-1604.
Mixed parameters based on fisher criterion with correlation distance in speaker recognition
In order to get more distinguished characteristic parameters, we utilize a improved multitaper MFCC extraction algorithm which with low variance. On the basis of this, we propose mixed characteristic parameters which combined short-time TEO energy with first-order MFCC that time-domain characteristics and reflecting individual voice dynamic characteristics of the speech signal separately. Due to combing the two parameters directly will result in high dimension parameters and increase the complexity of computational, for this reason, we propose a algorithm for feature selection about fisher criterion with correlation distance. Then, the speaker recognition is based on GMM-UBM classification model. Experiments show that the improved mixed characteristic parameter compared to single characteristic parameters has better recognition results and improving the system recognition rate.
Speaker recognition; multitaper MFCC; fisher criterion with correlation distance; TEO; mixed feature
TN912.34
A
1008-1151(2016)01-0013-04
2015-12-10
國家自然科學(xué)基金資助項目(61363005);國家自然科學(xué)基金資助項目(61462017);廣西研究生教育創(chuàng)新計劃資助項目(YCSZ2015152)。
唐宗渤(1986-),男,廣西桂林人,桂林電子科技大學(xué)信息科技學(xué)院教師,助理工程師,研究方向為語音信號處理與智能控制;周萍(1961-),女,廣西桂林人,桂林電子科技大學(xué)電子工程與自動化學(xué)院教授,碩士,研究方向為語音識別與智能控制研究。
王茂蓉(1990-),女,江蘇徐州人,桂林電子科技大學(xué)電子工程與自動化學(xué)院碩士研究生,研究方向為語音識別與反蓄意模仿。