李 薈,趙云敏
1(東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,大慶 163318)2(大慶油田第一采油廠,大慶 163318)
說話人識別是一項根據(jù)說話人的語音參數(shù)來區(qū)分說話人身份的技術(shù),廣泛地應(yīng)用于語音撥號、安全控制、電話銀行、司法鑒定、語音導(dǎo)航等方面[1].但在實際應(yīng)用中,系統(tǒng)的識別性能受到短語音、背景噪聲干擾、信號引起的信號畸變等多種因素的影響,其中短語音導(dǎo)致的訓(xùn)練數(shù)據(jù)不足是較為常見且較為突出的問題.GMM-UBM模型能夠有效地解決訓(xùn)練數(shù)據(jù)不充分的問題,但它導(dǎo)致的問題是系統(tǒng)魯棒性差,SVM利用幀特征向量在空間分布的高斯混合的均值進(jìn)行識別,能顯著提高系統(tǒng)的魯棒性能,而且SVM還能有效地解決小樣本、低維線性不可分等實際問題.但應(yīng)用SVM對說話人進(jìn)行識別,重點就是選擇合適的核函數(shù),為了提高性能,這里根據(jù)單核核函數(shù)的特性不同構(gòu)造了一種組合核函數(shù).因此,本文選用GMM-UBM為基線系統(tǒng)模型,在此基礎(chǔ)上應(yīng)用SVM組合核函數(shù)作為分類器進(jìn)行分類.
高斯混合模型(GMM)利用多個高斯分布的加權(quán)混合來描繪說話人的特征空間分布[2],因此,混合度越高,識別性能越好,當(dāng)然所需的訓(xùn)練語音也會越多.但在很多實際應(yīng)用中,有些訓(xùn)練語音比較短,這些有限的訓(xùn)練語音無法很好地代表說話人所有可能的發(fā)音情況,因此,訓(xùn)練得到的模型也無法很好地表征說話人的特征,這種情況使GMM識別的性能較差.
GMM-UBM模型能夠有效地解決GMM由于訓(xùn)練語音不足導(dǎo)致的問題.通用背景模型(UBM)是一個高階的GMM,通常能夠達(dá)到1024~4096個混合度.它由數(shù)百人、性別比例均衡、長時間的語音訓(xùn)練得到的模型,使得UBM基本包括了所有說話人的特征參數(shù).這樣,短的語音未覆蓋到的發(fā)音部分就可以用UBM中與說話人無關(guān)的特征分布近似描述,降低訓(xùn)練語音短帶來的影響,繼而提高系統(tǒng)識別性能.但GMM-UBM在說話人應(yīng)用中存在受信道影響較大的問題,使系統(tǒng)的魯棒性較差[3],鑒于此,這里用GMM-UBM為基線系統(tǒng)模型.
SVM是由Vapnik等人提出的基于統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原理的一種分類算法[4].基本思想是將低維空間無法線性可分樣本映射到高維特征空間,并構(gòu)建一個最優(yōu)分類面以達(dá)到使兩類樣本正確分開,且類間間隔最大的結(jié)果.
其中x、w、b和分別表示輸入向量、權(quán)重系數(shù)、偏移量和特征映射.這樣可將式(1)表示成求解以下問題:
其中C和分別是懲罰因子和松弛變量.將以上問題應(yīng)用Lagrange轉(zhuǎn)化為對偶問題:
解式(4),其中大于零的解所對應(yīng)的樣本xi就稱為支持向量.在實際問題中,低維空間的向量集總是難以線性劃分,而通常的解決辦法就是將低維空間的向量集映射到高維空間以線性劃分,但導(dǎo)致的最大問題就是計算復(fù)雜度大大增加,引入核函數(shù)可以有效地解決這個問題.相應(yīng)的判別函數(shù)為:
常見的核函數(shù)有:
① 線性內(nèi)積(Linear)核函數(shù):
② 高斯徑向基(Gaussian)核函數(shù):
③ 多項式(Polynomial)核函數(shù):
其中d是Polynomial核函數(shù)的冪指數(shù),C是一個常數(shù),實際應(yīng)用中一般令C=1[5].
④ 兩層神經(jīng)網(wǎng)絡(luò)(Sigmoid)核函數(shù):
其中v和分別是Sigmoid核函數(shù)的一個標(biāo)量及其位移參數(shù),Sigmoid核函數(shù)在實際應(yīng)用中并不多見,這里也不予考慮.
根據(jù)SVM核函數(shù)特性的不同,可分為局部性核函數(shù)和全局性核函數(shù).點為0.2時,Gaussian核函數(shù)值在測試點0.2附近較大,離測試點較遠(yuǎn)時,值會顯著下降,因此Gaussian核函數(shù)插值能力較強(qiáng),但泛化能力較差.
圖1 Gaussian核函數(shù)特征曲線圖
根據(jù)公式(8),當(dāng)測試點取0.2,可得圖2.可以看出,Polynomial核函數(shù)對測試點附近以及較遠(yuǎn)的數(shù)據(jù)都有影響,且相差不大,可見全局核函數(shù)具有較強(qiáng)的泛化能力,但局部學(xué)習(xí)能力較弱.
圖2 Polynomial核函數(shù)特征曲線圖
選擇的核函數(shù)是否合適直接影響著SVM的識別性能,鑒于Gaussian核函數(shù)較強(qiáng)的局部學(xué)習(xí)能力和Polynomial核函數(shù)較強(qiáng)的全局泛化能力,可將兩種核函數(shù)進(jìn)行線性組合,使其充分發(fā)揮各自單核的優(yōu)點.
由核函數(shù)的構(gòu)成條件可知,兩個核函數(shù)的線性加權(quán),仍然滿足Mercer條件,組合后的核函數(shù)如公式(10)所示.
圖3 組合核函數(shù)特征曲線圖
SVM核函數(shù)的參數(shù)優(yōu)化方法主要有網(wǎng)格搜索法、交叉驗證法和蟻群算法、遺傳算法等智能算法.與其它算法相比,網(wǎng)格搜索法能實現(xiàn)并行操作,因此效率較高,但缺點是精度不高[6],多重網(wǎng)格搜索可以在一定程度上提高參數(shù)精度.鑒于組合核函數(shù)中參數(shù)較多,綜合考慮參數(shù)的精度與效率,這里選取多重網(wǎng)格搜索來優(yōu)化參數(shù).
網(wǎng)格搜索法的主要思路是先確定搜索范圍和步長,再按照確定的步長沿每個參數(shù)方向生成網(wǎng)格,得到的網(wǎng)格中的節(jié)點即構(gòu)成可能的參數(shù)組合.在上次網(wǎng)格尋優(yōu)最優(yōu)點的基礎(chǔ)上,減小搜索步長,并再次尋優(yōu),就是多重網(wǎng)格搜索.如要確定參數(shù)C與d,首先設(shè)定參數(shù)C的范圍為搜法步長為,參數(shù)d的范圍為搜法步長為,然后針對每對參數(shù)進(jìn)行訓(xùn)練.多重網(wǎng)格搜索法是完成一次網(wǎng)格搜索后得到一組最優(yōu)的參數(shù)組合附近一定范圍內(nèi)實現(xiàn)更為細(xì)致的一次網(wǎng)格搜索,以提高參數(shù)優(yōu)化的精度.
圖4為運用UBM-SVM組合核函數(shù)進(jìn)行說話人識別的框架圖,基于UBM的SVM組合核函數(shù)的識別過程從整體上包括訓(xùn)練和測試兩個階段.如圖4所示,一是訓(xùn)練階段,輸入訓(xùn)練語音信號,這些信號經(jīng)過預(yù)處理后形成信號幀,經(jīng)過特征提取后形成幀特征向量,它們是以GMM-UBM作為基線模型經(jīng)過參數(shù)自適應(yīng)后形成的定長超向量,這些超向量可以直接作為SVM組合核函數(shù)分類器的輸入,在此基礎(chǔ)上并進(jìn)行參數(shù)優(yōu)化,根據(jù)優(yōu)化后的特征參數(shù)就可以建立訓(xùn)練樣本模式庫.二是測試階段,輸入的測試語音信號同樣經(jīng)過預(yù)處理、特征提取、GMM-UBM為基線模型進(jìn)行自適應(yīng)、SVM組合核函數(shù)分類幾個過程,將得到的特征參數(shù)與訓(xùn)練過程得到的樣本模式庫里的所有參考模型進(jìn)行匹配,即可輸出判決結(jié)果.
圖4 基于GMM-UBM和SVM組合核函數(shù)的說話人模型識別
本實驗采用自建語音庫,正常情況下,選取400個說話人(200男200女)進(jìn)行錄音,時間為5-6分鐘/人.訓(xùn)練語音選取每個說話人錄音的前4分鐘,從400人中隨即選擇20人的后50 s作為測試語音,使訓(xùn)練語音與測試語音之間不重疊.對所得數(shù)據(jù)進(jìn)行處理,預(yù)加重系數(shù)為0.97,分析窗選用寬度為32 ms的漢明窗,幀長為25 ms,步長為10 ms,選取16維的MFCC系數(shù)以及其16維一階差分.自適應(yīng)方法選為EigenVoice,維數(shù)取為10,段間隔為5 s,這里自適應(yīng)時長取10 s.
識別率(正確識別率)是系統(tǒng)識別性能最為直觀的評價指標(biāo),但對于一個實際說話系統(tǒng)來說,錯誤拒絕率FRR和錯誤接受率FAR也是兩個重要的性能評價指標(biāo).
但以上兩個指標(biāo)互相矛盾,因此,綜合考慮兩個指標(biāo),一般采用二者相等時的錯誤率作為衡量標(biāo)準(zhǔn),稱為等錯誤率EER.這個值在一定程度上能夠反映系統(tǒng)的魯棒性.
因此本實驗采用識別率和等錯誤率兩個指標(biāo)作為評價模型分類性能的標(biāo)準(zhǔn),綜合評價系統(tǒng)識別的準(zhǔn)確率與魯棒性.
實驗一.在混合度不同情況下,比較GMM與GMM-UBM基線系統(tǒng)的識別性能,實驗結(jié)果見表1.
表1 不同混合度情況下GMM與GMM-UBM識別性能對比
實驗結(jié)果表明,隨著混合度的增加,GMM與GMM-UBM的識別率與EER都有所改善.通常情況下GMM-UBM混合度都比較高,即使同為256和512的情況下,GMM-UBM的識別率也分別高于GMM 3.5%和4.7%,但GMM-UBM的EER不低,即使隨著混合度增加EER會下降,但系統(tǒng)復(fù)雜性會增加.
實驗二.綜合考慮系統(tǒng)復(fù)雜性與識別性能要求,選取GMM-UBM混合數(shù)為1024,比較SVM選取不同核函數(shù)的識別性能.
由表2可知,引入SVM核函數(shù)后,Gaussian核、Polynomial核和組合核的識別性能都優(yōu)于GMM-UBM不引入SVM的基線系統(tǒng)模型.可見,引入SVM核函數(shù)不僅能提高系統(tǒng)的魯棒性,同時也能提高系統(tǒng)的識別率.另外,在以上核函數(shù)中,組合核函數(shù)的識別性能最好,它的識別率分別優(yōu)于Linear核、Gaussian核和Polynomial核10.6%、7.3%和5.4%,EER也優(yōu)于其它三個單核.
表2 不同SVM核函數(shù)識別性能對比
實驗三.GMM-UBM混合數(shù)為1024,人工添加白噪聲,得到信噪比不同的語音,比較不同核函數(shù)的識別性能實驗結(jié)果見圖5和圖6.
圖5 基于不同信噪比不同核SVM識別率對比
圖6 基于不同信噪比不同核SVM的EER對比
由圖5和圖6可知,所有SVM核函數(shù)的識別性能都隨著信噪比的減小而降低.但對于給定的某一信噪比來說,組合核函數(shù)的識別率要高其它核函數(shù),EER要低于其它核函數(shù),說明基于GMM-UBM基線系統(tǒng)的SVM組合核函數(shù)能夠提高系統(tǒng)的識別率與魯棒性.
實驗四.假定20個說話人,選擇不同的高斯混合數(shù),比較SVM選取不同的核函數(shù)的訓(xùn)練時長.具體數(shù)據(jù)見表3.
表3 不同高斯混合數(shù)下,不同SVM核函數(shù)訓(xùn)練時間比較
由表3可知,在不同的高斯混合數(shù)情況下,組合核函數(shù)的運行時間比Linear核平均多21%,比Gaussian核平均多10%,比Polynomial核平均多9%.因為組合核參數(shù)最多,其次是Gaussian核和Polynomial核,Linear核參數(shù)最少,運行時間與參數(shù)基本成正比.組合核SVM的參數(shù)雖比Gaussian核和Polynomial核多,但運行時間就多了10% 左右,主要原因有:一是參數(shù)優(yōu)化采用的是多重網(wǎng)格搜索法,這種方法的最大優(yōu)勢是可以同時搜索多個參數(shù),在一定程度上能減少參數(shù)搜索的時間.二是經(jīng)過自適應(yīng)后的超向量可以直接作為SVM的輸入,這樣可以實現(xiàn)整體語音序列上進(jìn)行分類,因此能夠降低運算復(fù)雜度.綜合考慮識別率、等錯誤率及運行時間,組合核SVM是較理想的選擇.
針對訓(xùn)練數(shù)據(jù)不充分問題,選取GMM-UBM為基準(zhǔn)系統(tǒng)模型,并應(yīng)用SVM對其參數(shù)進(jìn)行優(yōu)化,本文基于單核函數(shù)的特性,構(gòu)建具有良好的泛化能力與良好的學(xué)習(xí)能力的組合核函數(shù).在說話人識別的仿真實驗中,組合核函數(shù)表現(xiàn)出明顯優(yōu)于其它單核SVM的良好性能.而且在信噪比不同、高斯混合數(shù)不同的情況下,表現(xiàn)依舊不俗.但由于組合核函數(shù)引入過多的參數(shù),增加了模型復(fù)雜度及系統(tǒng)運算時間.模型參數(shù)自適應(yīng)方法能夠在一定程度上解決這個問題,在模型參數(shù)自適應(yīng)方法中基于特征音EV模型的變換方法由于能用少量的訓(xùn)練數(shù)據(jù)快速的調(diào)整模型以實現(xiàn)自適應(yīng)得到廣泛的應(yīng)用,在此基礎(chǔ)上再采用SVM組合核函數(shù)訓(xùn)練方法來彌補(bǔ)模型參數(shù)自適應(yīng)方法的局限性,能夠彌補(bǔ)參數(shù)設(shè)置過多的問題,但如何在保障識別正確率與系統(tǒng)魯棒性的基礎(chǔ)上減少參數(shù)設(shè)置依然是需要進(jìn)一步研究的問題.
1 王韻琪.自適應(yīng)高斯混合模型及說話人識別應(yīng)用.計算機(jī)系統(tǒng)應(yīng)用,2015,24(6):143–147.
2 翟玉杰.基于GMM-SVM說話人識別的信道算法研究[碩士學(xué)位論文].長春:吉林大學(xué),2015.
3 鮑煥軍,鄭方.GMM-UBM和SVM說話人辨認(rèn)系統(tǒng)及融合的分析.清華大學(xué)學(xué)報(自然科學(xué)版),2008,48(S1):693–698.
4 呂洪艷,劉芳.組合核函數(shù)SVM在說話人識別中的應(yīng)用.計算機(jī)系統(tǒng)應(yīng)用,2016,25(5):168–172.
5 栗志意,張衛(wèi)強(qiáng),何亮,等.基于核函數(shù)的IVEC-SVM說話人識別系統(tǒng)研究.自動化學(xué)報,2014,40(4):780–784.
6 劉群鋒.最優(yōu)化問題的幾種網(wǎng)格型算法[博士學(xué)位論文].長沙:湖南大學(xué),2011.