韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
基于共振峰曲線的語音信號動態(tài)特征提取方法
韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
為了提高噪音環(huán)境下語音識別的魯棒性,提出了一種基于共振峰曲線的語音信號動態(tài)特征提取方法。采用基于Hilbert-Huang變換的方法來估算預(yù)處理后的語音信號共振峰頻率特征,然后按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第一共振峰頻率特征值進(jìn)行組合獲得第一共振峰曲線,依此類推,獲得第二共振峰曲線、第三共振峰曲線及第四共振峰曲線。對獲得的每條共振峰曲線進(jìn)行快速傅里葉變換獲得線性頻譜,然后再求取能量譜,計算對數(shù)能量和離散余弦變換。與MFCC方法相比,提取的語音信號動態(tài)特征具有時間相關(guān)性,揭示了語音信號前后以及相鄰之間存在的密切關(guān)聯(lián),提高了語音識別的性能。
語音信號;動態(tài)特征;語音識別;特征提??;共振峰曲線
語音識別最基礎(chǔ)最重要的開發(fā)環(huán)節(jié)是語音信號特征參數(shù)的提取。語音信號特征參數(shù)提取,即利用數(shù)學(xué)理論提取語音信號中所攜帶的有用信息,獲得一個矢量序列。R.K.Potter等[1]早在二十世紀(jì)四十年代就提出了“可視語音”的概念,指出語譜圖對語音信號有很強(qiáng)的描述能力,而且用語譜圖進(jìn)行了語音識別,即形成了最早的語音特征。到了五十年代,人們發(fā)現(xiàn)要想減少模板數(shù)目、運(yùn)算量、存儲量及提高識別率,就必須提取語音信號中能夠反映語音特性的某些參數(shù),濾除語音信號中的冗余信息,于是就出現(xiàn)了幅度特征、短時幀平均能量特征、短時幀過零率特征、短時自相關(guān)系數(shù)特征、平均幅度差函數(shù)特征等。但隨著語音識別技術(shù)的發(fā)展,發(fā)現(xiàn)無論從穩(wěn)定性還是區(qū)分能力,上述時域特征參數(shù)的表現(xiàn)都不是很好,于是開始利用頻域特征參數(shù)進(jìn)行識別,比如基音周期[2]、共振峰頻率特征[3]、線性預(yù)測系數(shù)(LPC)特征[4]、線譜對(LSP)特征[5-6]、倒譜系數(shù)特征等[7]。目前基于全聲道全極點模型的線性預(yù)測倒譜系數(shù)(LPCC)[8-10]和基于人耳聽覺模型的梅爾倒譜系數(shù)(MFCC)[11-14]應(yīng)用最為廣泛。
但上面所述的特征參數(shù)反映的都是語音信號的靜態(tài)特征,要使提取出的特征參數(shù)能更好地表達(dá)語音信號,就必須提取動態(tài)特征參數(shù),語音信號的動態(tài)特性即為從連續(xù)幾幀語音信號中提取的特征參數(shù)。動態(tài)特性是語音多樣性的一部分,它不同于平穩(wěn)的隨機(jī)過程,具有時間相關(guān)性,比如可以通過靜態(tài)特征的差分參數(shù)和加速度參數(shù)來獲取。但它們并不能將動態(tài)信息挖掘得很充分,所以尚不能很好地反映語音信號的動態(tài)特性。
因此,提出了一種基于共振峰曲線的語音信號動態(tài)特征提取方法,構(gòu)成的共振峰曲線具有時間相關(guān)性,揭示了語音信號前后以及相鄰之間存在的密切關(guān)聯(lián)。其中采用基于Hibert-Huang變換方法來估算預(yù)處理后的語音信號共振峰頻率特征,其中用經(jīng)驗?zāi)B(tài)分解法(EMD)將信號分解成一組含有不同尺度的固有模態(tài)函數(shù)(IMF)分量,經(jīng)分解得到的每一個IMF分量都代表了一個頻率成分,這些頻率成分可以有效突出信號的局部特性和細(xì)節(jié)變化,有助于快速有效地掌握信號的動態(tài)特征。
因此,語音特征的動態(tài)變化,可以通過動態(tài)特性來描述,而研究語音信號的動態(tài)特性,也是匹配新的語音動態(tài)模型、提高語音輔助工程性能的必然趨勢。
在語音識別技術(shù)應(yīng)用領(lǐng)域,共振峰特征參數(shù)是重要的聲學(xué)特征參數(shù)之一。長期以來該參數(shù)的提取都是基于人的發(fā)聲系統(tǒng)是線性的和語音信號是短時平穩(wěn)的兩個基本假設(shè)。隨著對語音發(fā)聲機(jī)理的深入研究,發(fā)現(xiàn)在語音產(chǎn)生過程中存在著非線性,因此傳統(tǒng)的線性共振峰特征參數(shù)估計方法的準(zhǔn)確性就會受到影響[15]。另一方面,由于傳統(tǒng)分析方法建立在短時平穩(wěn)的假設(shè)上,對快速變化的共振峰特征參數(shù)的提取無能為力。所以研究者們越來越重視對隨時間快速變化的動態(tài)信息的提取。
近年來,盡管也提出了一些新的參數(shù)提取方法,如逆濾波器法[16]和頻域線性預(yù)測算法等[17],但這些方法都只是在算法和處理方法上進(jìn)行改進(jìn),本質(zhì)上仍屬于線性分析方法的范疇,而且分析計算過程復(fù)雜,需要根據(jù)主觀經(jīng)驗來調(diào)整參數(shù)。文中采用一種基于Hilbert-Huang變換(Hilbert-Huang Transform,HHT)的適用于非平穩(wěn)、非線性信號處理,具有自適應(yīng)特性的時間-頻率分析新方法。
HHT包括2個基本步驟:第一步是經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD),它的核心是“篩選”,即從被分析信號中提取一族固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF);第二步是計算信號的Hilbert譜(Hilbert Spectrum),將每個IMF與它的Hilbert變換構(gòu)成一個復(fù)解析函數(shù),并由此導(dǎo)出作為時域函數(shù)的瞬時幅值(能量)和瞬時頻率。
通過EMD得到的每個IMF滿足兩個條件:
(1)在整個序列上,極值點個數(shù)和過零點個數(shù)相等或至多相差一個;
(2)分別連接其各局部極大值和局部極小值所形成的上、下2條包絡(luò)線的均值在任一點處為零。
分解后得到信號x(t)的n個IMF分量c1(t),c2(t),…,cn(t)和剩余項rn(t),即有:
(1)
對每個ci(t),i=1,2,…,n,求其Hilbert變換di(t),然后計算相應(yīng)的瞬時頻率ωi(t)和幅值ai(t):
ωi(t)=dθi(t)/dt
(2)
(3)
其中,θi(t)為瞬時相位。
θi(t)=arctan[di(t)/ci(t)]
(4)
根據(jù)每個IMF的瞬時頻率和幅值,可將信號表示為:
(5)
由于rn(t)不是一個常數(shù)就是一個單調(diào)函數(shù),對信號分析和信息提取沒有實質(zhì)性的影響,所以式(5)中略去了式(1)中的剩余項。在時間-頻率面上畫出每個IMF以其幅值加權(quán)的瞬時頻率曲線,這個時間-頻率分布譜圖就是Hilbert譜,記為H(ω,t)。
當(dāng)采用HHT方法估計語音信號的共振峰頻率時,為了避免和抑制各個共振峰分量在EMD過程中產(chǎn)生互相干擾,需要事先對各個共振峰分量進(jìn)行分離,對分離后的各個共振峰分量作EMD,最后求出相應(yīng)的共振峰頻率及其隨時間的變化曲線。
動態(tài)特征提取流程如圖1所示。
其具體步驟如下:
步驟1:利用麥克風(fēng)輸入語音數(shù)據(jù),然后以11.025 kHz的采樣頻率、16 bit的量化精度進(jìn)行采樣量化,獲得相應(yīng)的語音信號。然后利用一階數(shù)字預(yù)加重濾波器對獲取的語音信號進(jìn)行預(yù)加重處理,其中預(yù)加重濾波器的系數(shù)取值范圍為0.93~0.97。接下來以幀長256點的標(biāo)準(zhǔn)進(jìn)行分幀處理,并對分幀后的語音信號加漢明窗,再利用短時能零積法進(jìn)行端點檢測。短時能零積方法如下:
短時能量與相應(yīng)的短時過零率之積稱為短時能零積,每一幀的短時能量En和短時過零率Zn以及短時能零積EZn的定義分別為:
(6)
(7)
EZn=En*Zn
(8)
其中,n為語音信號的第n幀;N為每一幀的長度;sw(k)為加窗語音信號。
用短時能零積法進(jìn)行語音端點檢測的步驟如下:
(1)確定噪聲的門限閾值。
無音片段主要包括的是背景噪聲,由于錄音開始階段往往有一段無音區(qū),所以在實驗室環(huán)境下通常取最開始的5幀信號作為背景噪聲的分析,對這5幀信號按式(6)和式(7)分別按幀計算En和Zn,并按式(8)計算EZn,通過多幀平均,就得到了平均短時能零積EZ,并按照式(9)確定噪聲的門限閾值TH。
TH=k×EZ
(9)
其中,k為經(jīng)驗值,通常取1.2。
圖1 動態(tài)特征提取流程圖
(2)利用短時能零積進(jìn)行語音端點檢測。
計算每幀錄音信號的短時能零積EZn,與噪聲的門限閾值TH做比較。EZn大于TH,就以該幀的幀號作為有音片段的起點N1,表明進(jìn)入了有音片段。如果由過去幀已經(jīng)得到了N1,那么當(dāng)EZn小于TH時,就以該幀的幀號作為有音片段的終點N1。相反,如果N1還未得到,那么當(dāng)EZn小于TH時,表明當(dāng)前幀仍處于無音片段。
步驟2:計算共振峰頻率特征參數(shù),其中獲得的每幀語音信號的第一共振峰特征值為F1、第二共振峰特征值為F2、第三共振峰特征值為F3和第四共振峰特征值為F4。
步驟3:構(gòu)成共振峰曲線。具體為:
(1)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第一共振峰頻率特征值F1進(jìn)行組合,獲得第一共振峰曲線x1(n),n=0,1,…,N-1,N為語音信號的幀數(shù);
(2)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第二共振峰頻率特征值F2進(jìn)行組合,獲得第二共振峰曲線x2(n);
(3)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第三共振峰頻率特征值F3進(jìn)行組合,獲得第三共振峰曲線x3(n);
(4)按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第四共振峰頻率特征值F4進(jìn)行組合,獲得第四共振峰曲線x4(n)。
步驟4:對獲得的第一、第二、第三和第四共振峰曲線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜。
(10)
其中,Xi(k)表示第i條共振峰曲線進(jìn)行快速傅里葉變換后得到的線性頻譜,i=1,2,3,4,k=0,1,…,N-1,N為語音信號的幀數(shù);xi(n)表示第i條共振峰曲線。
步驟5:根據(jù)線性頻譜獲得每條共振峰曲線的能量譜。即取上述線性頻譜Xi(k)模的平方來獲得相應(yīng)的能量譜Si(k):
(11)
步驟6:根據(jù)能量譜獲得每條共振峰曲線的對數(shù)能量。即為了使結(jié)果對噪聲有更好的魯棒性,將獲得的能量譜Si(k)取對數(shù),即可獲得對數(shù)能量Li(k):
Li(k)=log(Si(k))
(12)
步驟7:對上述對數(shù)能量進(jìn)行離散余弦變換,獲得倒頻譜域,即獲得語音信號動態(tài)特征參數(shù):
(13)
其中,Ci(t)表示第i條共振峰曲線的動態(tài)特征參數(shù),i=1,2,3,4;t=1,2,…,T,T表示設(shè)定的倒譜系數(shù)個數(shù),取值范圍為12~16。
采用50個典型的漢語詞匯進(jìn)行實驗。由于考慮識別系統(tǒng)容易受環(huán)境噪聲、信道變化和說話人變化等因素的影響,因此,訓(xùn)練集采用安靜環(huán)境下的語音數(shù)據(jù),而測試集采用含有噪聲的數(shù)據(jù)。
為了驗證該特征參數(shù)對不同說話人變化的魯棒性,訓(xùn)練集數(shù)據(jù)由前后兩次錄成,共50人,每人每詞發(fā)音一遍,共獲得5 000個數(shù)據(jù),測試集數(shù)據(jù)也是分兩次錄成,共30人,每人每詞發(fā)音一遍,共3 000個數(shù)據(jù);為了驗證該特征參數(shù)對不同信道變化的魯棒性,每次使用不同的麥克風(fēng)來錄音;為了驗證該特征參數(shù)對不同環(huán)境噪聲變化的魯棒性,在測試集的每個語音中手工加入四種噪聲,包括:白噪聲、粉噪聲、街道噪聲、坦克噪聲,構(gòu)成信噪比為15 dB,10 dB,5 dB,0 dB,-5 dB的含噪語音信號。采用基于遺傳算法改進(jìn)的小波神經(jīng)網(wǎng)絡(luò)作為分類器[18-19]。圖2~5為采用與文中算法相同條件的MFCC方法和文中方法分別在白噪聲、粉噪聲、街道噪聲和坦克噪聲干擾下的系統(tǒng)識別性能曲線。
圖2 白噪聲環(huán)境下的系統(tǒng)識別性能曲線
圖3 粉噪聲環(huán)境下的系統(tǒng)識別性能曲線
圖4 街道噪聲環(huán)境下的系統(tǒng)識別性能曲線
圖5 坦克噪聲環(huán)境下的系統(tǒng)識別性能曲線
從圖中可以看出,在信噪比較低時,文中方法與MFCC方法相比識別率提高了很多。這是因為文中方法構(gòu)成的共振峰曲線具有時間相關(guān)性,揭示了語音信號前后以及相鄰之間存在著密切關(guān)聯(lián),這一特性,使得在強(qiáng)噪聲環(huán)境下應(yīng)用語音識別技術(shù)成為了可能。
文中提取的語音信號動態(tài)特征,采用基于Hibert-Huang變換的方法來估算預(yù)處理后的語音信號共振峰頻率特征,其中用EMD將信號分解成一組含有不同尺度的IMF分量,經(jīng)分解得到的每一個IMF分量都代表了一個頻率成分,這些頻率成分可以有效突出信號的局部特性和細(xì)節(jié)變化,有助于快速有效地掌握信號的動態(tài)特征。相比于傳統(tǒng)的MFCC方法,大大提高了語音識別的性能。但是語音信號的某一特征中一般只包含部分語音信息,所以采用動靜態(tài)特征參數(shù)的組合,這樣動態(tài)信息和靜態(tài)信息形成了互補(bǔ),當(dāng)各組合參數(shù)間相關(guān)性不大時,會有很好的效果。
[1] Potter R K,Kopp G A,Green H C.Visible speech[M].New York:Van Nostrand,1947.
[2] 趙瑞珍,宋國鄉(xiāng).基音檢測的小波快速算法[J].電子科技,1998,43(1):16-19.
[3] 黃 海,陳祥獻(xiàn).基于Hilbert-Huang變換的語音信號共振峰頻率估計[J].浙江大學(xué)學(xué)報:工學(xué)版,2006,40(11):1926-1930.
[4] Christensen R L,Sreong W J,Palmer E P.A comparison of three methods of extracting resonance information from predictor coefficient coded speech[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1976,24(1):8-14.
[5] Girin L. Joint matrix quantization of face parameters and LPC coefficients for low bit rate audiovisual speech[J].IEEE Transactions on Speech and Audio Processing,2004,12(3):265-276.
[6] Trentin E, Gori M. Robust combination of neural networks and hidden Markov models for speech recognition[J].IEEE Transactions on Neural Networks,2003,14(6):1519-1531.
[7] Hong K K,Rose R C.Cepstrum-domain model combination based on decomposition of speech and noise for noisy speech recognition[C]//IEEE international conference on acoustics,speech,and signal processing.[s.l.]:IEEE,2002:209-212.
[8] Songhita M,Tusharkanti D,Partha S,et al.Comparison of MFCC and LPCC for a fixed phrase speaker verification system,time complexity and failure analysis[C]//International conference on circuit,power and computing technologies.[s.l.]:[s.n.],2015:1-4.
[9] Yuan Y J,Zhao P H,Zhou Q.Research of speaker recognition based on combination of LPCC and MFCC[C]//International conference on intelligent computing and intelligent system.[s.l.]:[s.n.],2010:765-767.
[10] Zhu J C,Liu Z L.Analysis of hybrid feature research based on extraction LPCC and MFCC[C]//10th international conference on computational intelligence and security.[s.l.]:[s.n.],2014:732-735.
[11] Kopparapu S K,Laxminarayana M.Choice of Mel filter bank in computing MFCC of a resampled speech[C]//10th international conference on information sciences signal processing and their applications.[s.l.]:[s.n.],2010:121-124.
[12] 周 萍,李曉盼,李 杰,等.混合MFCC特征參數(shù)應(yīng)用于語音情感識別[J].計算機(jī)測量與控制,2013,21(7):1966-1968.
[13] 龐 程,李曉飛,劉 宏.基于MFCC與基頻特征貢獻(xiàn)度識別說話人性別[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2013(S1):108-111.
[14] 沈 燕,肖仲喆,李冰潔,等.采用GW-MFCC模型空間參數(shù)的語音情感識別[J].計算機(jī)工程與應(yīng)用,2015,51(10):219-222.
[15] 張家騄.論語音技術(shù)的發(fā)展[J].聲學(xué)學(xué)報,2004,29(3):193-199.
[16] Watanabe A.Formant estimation method using inverse-filter control[J].IEEE Transactions on Audio Processing,2001,9(4):317-326.
[17] Rao P,Barman A D.Speech formant frequency estimation: evaluating a nonstationary analysis method[J].Signal Processing,2000,80(8):1655-1667.
[18] 韓志艷,倫淑嫻,王 健.基于遺傳小波神經(jīng)網(wǎng)絡(luò)的語音情感識別[J].計算機(jī)技術(shù)與發(fā)展,2013,23(1):75-78.
[19] 韓志艷,倫淑嫻,王 健.語音信號魯棒特征提取及可視化技術(shù)研究[M].沈陽:東北大學(xué)出版社,2012.
Dynamic Feature Extraction for Speech Signal Based on Formant Curve
HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)
In order to improve the robustness of speech recognition in noise environment,a dynamic feature extraction for speech signal based on formant curve is put forward.It uses Hilbert-Huang transform to estimate speech signal formant frequency characteristics after preprocessing,and then gets the first formant curve by combining the first formant frequency characteristics of each frame from the first frame to the last frame,and so forth,gets the second,the third and the fourth formant curve.And then takes Fast Fourier Transform for each formant curve to obtain linear spectrum,and calculates the energy spectrum,logarithmic energy and discrete cosine transform.Compared with the method of MFCC,the proposed dynamic feature of speech signal has the time correlation,revealing the close correlation between the speech signal frames,improving the performance of speech recognition.
speech signal;dynamic feature;speech recognition;feature extraction;formant curve
2016-07-29
2016-11-03 網(wǎng)絡(luò)出版時間:2017-04-28
國家自然科學(xué)基金資助項目(61403042,61503038);遼寧省教育科研項目(L2013423)
韓志艷(1982-),女,博士,副教授,研究方向為語音識別、情感識別。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1704.084.html
TP391.4
A
1673-629X(2017)06-0072-04
10.3969/j.issn.1673-629X.2017.06.015