周春暉++盧榮++潘姿蓉
摘 要
提取特征參數(shù)在說話人識(shí)別系統(tǒng)內(nèi)是非常重要的步驟,說話人語音的很多特有個(gè)性信息包含于特征參數(shù)內(nèi),例如發(fā)聲特征或者語義特征,利用特征提取的方法一方面可以去掉聲音里沒用的冗余信息,剩下有用的體現(xiàn)說話人個(gè)性不同的特征信息,特別是可以有效減少計(jì)算量、模板數(shù)目以及存儲(chǔ)空間。選用的特征參數(shù)的會(huì)直接關(guān)系到整個(gè)系統(tǒng)的工作性能,良好的特征參數(shù)需要擁有好的穩(wěn)定性和好的獨(dú)立性,一方面可以不受到外界情況的干擾,不容易為其他的聲音所替代,另一方面,能夠較好的辨別不同說話人,說明說話人之間的差異。
【關(guān)鍵詞】特征參數(shù) 倒譜系數(shù) LPCC MFCC
1 前言
當(dāng)今說話人識(shí)別領(lǐng)域使用的特征參數(shù)有多種,它們各具特點(diǎn),能夠用于各種不一樣的場合,其中應(yīng)用較為廣泛的具有代表性的特征參數(shù)是:基音頻率、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、梅爾倒譜系數(shù)(MFCC)。
2 MFCC的提取與分析
梅爾倒譜系數(shù)(MFCC),MFCC是利用人耳聽覺模型建立的倒譜系數(shù),人類的聽覺系統(tǒng)可以看成一個(gè)非線性系統(tǒng),它對(duì)于不同的頻率信號(hào)的靈敏度是不一樣的,一般是對(duì)數(shù)型關(guān)系。正是由于Mel倒譜系數(shù)基于人耳感知這種特殊的特性,Mel倒譜系數(shù)在抗噪聲能力以及魯棒性這些方面都比其它特征參數(shù)要優(yōu)秀了很多。
對(duì)于不一樣頻率的語音,人耳有不一樣的感知能力,聲音的物理頻率表示單位是梅爾(Mel)。頻率和MFCC系數(shù)的關(guān)系如下式:
其中,f的單位為Hz。參照Zvick的研究所說,臨界帶寬按照頻率不同而改變,在1000Hz以下時(shí),維持線性分布,帶寬在100Hz附近;在1000Hz以上時(shí),表現(xiàn)為對(duì)數(shù)增長形式,如圖1所示。
Mel參數(shù)的提取過程:
(1)把之前預(yù)處理過的語音信號(hào),即時(shí)域信號(hào)做傅里葉變化(DFT)。計(jì)算得到線性頻譜x(k),其轉(zhuǎn)換公式為:
(2)把上面的頻譜x(k)通過Mel濾波器組生成Mel頻譜。
(3)接著對(duì)Mel頻譜做對(duì)數(shù)能量處理,得到對(duì)數(shù)頻譜S(m)。圖2所列即為得到的線性能量譜,Mel能量譜和對(duì)數(shù)能量譜。
上述第2步驟中提及的Mel頻率濾波器組是在語音的頻譜范圍內(nèi)設(shè)置的若干個(gè)帶通濾波器表示濾波器的個(gè)數(shù)。f(m)表示濾波器組中的每個(gè)濾波器的中心頻率,其傳遞函數(shù)如下所示:
式中Fs表示采樣頻率,N表示窗寬,f1、fh分別代表濾波器的頻率應(yīng)用范圍的最低頻率和最高頻率,N表示窗寬,,為促進(jìn)結(jié)果對(duì)噪聲和譜估計(jì)的誤差有更佳的魯棒性,把上面通過Mel濾波器組獲取到的Mel頻譜取對(duì)數(shù)。因此經(jīng)過線性頻譜X(k)到對(duì)數(shù)頻譜,S(m)的總傳遞函數(shù)是:
最后,將S(m)通過離散余弦變換(DCT)獲得倒譜頻域,即Mel頻譜倒譜系數(shù)(MFCC參數(shù)):
參考文獻(xiàn)
[1]M.Chetouani,M.Faundez-Zanuy,B.Gas,and JL.Zarader.Investigation onLP-residual representation for speaker identification,Pattern Recognition.2009,3(42):487-494.
[2]林琳,王樹勛,郭剛.短語音說話人識(shí)別新方法的研究.系統(tǒng)仿真學(xué)報(bào), 2007,19(10):2272-2275.
[3]姚志強(qiáng).說話人識(shí)別中提高GMM性能方法的研究[D].北京:中國科技大學(xué),2006:9-12.
作者簡介
周春暉,男,浙江省人。碩士研究生學(xué)歷?,F(xiàn)為廣東科技學(xué)院講師。
作者單位
廣東科技學(xué)院 廣東省東莞市 523083