王培力,王瑞榮*,高 鵬,孫映宏
(1.杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州310018;2.杭州市水文水資源監(jiān)測總站,杭州310014)
MFCC與支持向量機(jī)在錢塘江涌潮檢測中的應(yīng)用*
王培力1,王瑞榮1*,高 鵬1,孫映宏2
(1.杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州310018;2.杭州市水文水資源監(jiān)測總站,杭州310014)
為解決錢塘江涌潮檢測難問題,提出了一種新的涌潮檢測方法。首先,通過梅爾倒譜系數(shù)MFCC(Mel-Frequency Cepstral Coefficients)提取涌潮樣本多維聲學(xué)特征與非涌潮樣本聲學(xué)特征;然后,使用支持向量機(jī)(SVM)構(gòu)建涌潮檢測模型;最后,通過模型對輸入的樣本特征進(jìn)行分類判斷。與以采用線性預(yù)測倒譜系數(shù)(LPCC)提取聲學(xué)特征方法或是采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建檢測模型相比,MFCC與支持向量機(jī)結(jié)合在涌潮檢測的精度上有一定的提高。
聲學(xué)識別;涌潮檢測;支持向量機(jī);MFCC聲學(xué)特征
聲學(xué)識別研究具有重要意義,目前聲學(xué)識別已經(jīng)在網(wǎng)絡(luò)、通信和安全等領(lǐng)域得到了實(shí)際應(yīng)用[1]。在聲音信號處理的過程中,提取聲學(xué)特征方法常見的有線性預(yù)測系數(shù)(LPC)、LPC倒譜系數(shù)(LPCC)和梅爾倒譜系數(shù)(MFCC)[2]。而倒譜分析被證明為語音信號處理最有效的方式之一,其中梅爾倒譜系數(shù)(MFCC)又被認(rèn)為是在提取聲學(xué)特征中最合適的方法[3-4],其魯棒性在上述三種方法中是最好的。實(shí)際應(yīng)用的過程中梅爾倒譜系數(shù)可以在一幀語音信號中提取12至16維不等的聲學(xué)特征。語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW),隱馬爾可夫模型(HMM)、神經(jīng)網(wǎng)絡(luò)(NN)和支持向量機(jī)(SVM)[5-7]。其中SVM在小樣本訓(xùn)練集上相較于其它算法具有明顯的優(yōu)勢[8],同時(shí)其優(yōu)秀的泛化能力[9-10]使得支持向量機(jī)成為目前最常用,效果最好的分類器之一[11-12]。
錢塘江由于其獨(dú)特的地形以及受到天體作用力的影響形成了錢塘江涌潮[13],目前錢塘江涌潮檢測方法是根據(jù)水位的突然躍變作為涌潮是否到達(dá)的判斷標(biāo)準(zhǔn)。然而在實(shí)際應(yīng)用過程中由于江中含有大量的泥沙常常會導(dǎo)致水位計(jì)無法正常工作,同時(shí)上游發(fā)電站的來水以及極端天氣等原因使得涌潮的檢測存在較大的誤差,無法及時(shí)提供準(zhǔn)確的涌潮預(yù)警[14]。涌潮在到達(dá)時(shí)由于潮水相互作用以及對堤壩的撞擊會發(fā)出獨(dú)特的聲響,因此可以考慮利用聲學(xué)識別檢測涌潮。
本文,利用MFCC提取聲音的特征同時(shí)將SVM作為聲學(xué)識別系統(tǒng)的分類器。最終結(jié)果表明基于MFCC與SVM的涌潮識別系統(tǒng),相較于利用線性預(yù)測倒譜系數(shù)(LPCC)提取聲學(xué)特征或是利用BP神經(jīng)網(wǎng)絡(luò)作為分類器的系統(tǒng)具有更高的識別精度。
梅爾倒譜系數(shù)(MFCC)是根據(jù)人耳的聽覺機(jī)理研究發(fā)現(xiàn)的,獲得特征不依賴于信號的性質(zhì),對輸入信息不做任何的假設(shè)與限制,同時(shí)還利用了聽覺模型研究成果。因此獲得的特征具有更好的魯棒性,即使信噪比降低還具有較好的識別性能。梅爾倒譜系數(shù)(MFCC)是在Mel標(biāo)度頻率域提取出來的倒譜系數(shù),Mel標(biāo)度描述人耳頻率的非線性特性,它與頻率的關(guān)系可以用下式表示[4]:
式中,?為語音的真實(shí)頻率單位為Hz。
梅爾倒譜系數(shù)(MFCC)計(jì)算過程大致可以分為4大步驟:①預(yù)處理;②頻譜的計(jì)算;③Mel尺度三角濾波器;④離散余弦(DCT)得到MFCC系數(shù)。
圖1 MFCC聲學(xué)特征提取過程
1.1 預(yù)處理
預(yù)加重是將輸入的語音信號通過一個(gè)高通濾波器,如式(2)表示,提升信號的高頻部分同時(shí)使得信號的頻譜變得平坦。
式中,μ的值介于0.9~1.0之間,在實(shí)驗(yàn)過程中取0.97。
分幀將N個(gè)采樣點(diǎn)集合成一個(gè)觀測單位,稱為幀。N一般取值為256或是512,涵蓋的時(shí)間約為20 ms~30 ms。為了避免相鄰的兩幀變化過大,會讓相鄰兩幀之間有一段重疊的區(qū)域取值一般是N的1/2或是1/3。加窗將每一幀乘以漢明窗,以增加每幀語音信號的左端和右端的連續(xù)性。漢明窗公式如式(3)所示:
式(4)中y(n)為分幀后每一幀的語音信號。
1.2 頻譜的計(jì)算
信號在時(shí)域上不易觀察其特征,因此通常將其轉(zhuǎn)化為頻域上的能量分布觀察。上述經(jīng)過分幀加窗后的每一幀進(jìn)行快速傅里葉變換得到各幀的能量譜。并對語音信號的頻譜取模平方得到語音信號的功率譜。離散傅里葉變換如下所示:
式中,Sj(n)為經(jīng)過分幀加窗后的語音信號,N表示傅里葉變換的點(diǎn)數(shù)。
1.3 Mel尺度三角濾波器
將能量譜通過一組Mel尺度的三角濾波器組,三角濾波器的作用是對頻譜進(jìn)行平滑,同時(shí)消除諧波的作用,突顯原先語音的共振峰。三角濾波器的頻率響應(yīng)定義為:
1.4 離散余弦(DCT)得到MFCC系數(shù)
最后經(jīng)過離散余弦變換(DCT)后得到最終的MFCC系數(shù)。
式中,M表示MFCC的階數(shù)通常取值12~16。
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的有監(jiān)督學(xué)習(xí)方法,最初是從線性可分情況下最優(yōu)分類面發(fā)展得到。圖2為二維的最優(yōu)分類面的示意圖。圖中的實(shí)心圓和空心圓分別代表各自的樣本。圖中的紅線代表的是最優(yōu)超平面(optimal hyper?plane),另外兩條H1和H2到超平面的距離為分類間隔(margin),分類間隔表示分類預(yù)測的正確性與確信度。所謂最優(yōu)超平面不僅要將兩類分開還要讓分類間隔最大。圖中在H1和H2上的樣本稱之為支持向量,支撐著超平面。
圖2 二維最優(yōu)分類面的示意圖
由圖2所示可知,在上面的 f(x)≥1,下面的為f(x)≤-1。即|f(x)|≥1。當(dāng)樣本在H1和H2上時(shí)則|f(x)|=1。所以上面的分類間隔等于2||ω||。因此尋找最優(yōu)超平面的問題就轉(zhuǎn)化為計(jì)算分類間隔的最大值。計(jì)算1||ω||的最大值就是最小值,
經(jīng)過求導(dǎo)帶入得:
求上式中的最大值,由于只有一個(gè)變量αi,求得其αi就能夠求得ω和b。假設(shè)上式(11)中的最優(yōu)解為那么ω的值設(shè)為ω*,則
最后獲得分類函數(shù)的方程:
上式中的b*通過支持向量的不等式可以計(jì)算得到。
通過上式(13)可知分類函數(shù)與新樣本和支持向量有關(guān)系。對于非線性的問題首先是將數(shù)據(jù)映射到高維空間,來解決在原始空間線性不可分的問題。這時(shí)候就需要引入支持向量機(jī)的核函數(shù)K(xi,xj)。引入核函數(shù)之后再新的特征空間中,式(11)目標(biāo)函數(shù)和式(13)分類函數(shù)則為:
下面是常見三種核函數(shù):
MFCC與支持向量機(jī)構(gòu)建了涌潮的檢測系統(tǒng)。將江邊的采集到的樣本數(shù)據(jù)分為兩大部分:訓(xùn)練樣本和測試樣本。首先提取訓(xùn)練樣本的MFCC特征值,然后經(jīng)過支持向量機(jī)訓(xùn)練的構(gòu)建涌潮檢測模型最后利用測試樣本提取的MFCC特征值來測試所構(gòu)建的模型。為使訓(xùn)練出來的模型具有更好的泛化能力,模型的實(shí)際訓(xùn)練過程中增加一定量的負(fù)樣本。圖3給出了涌潮識別系統(tǒng)的基本框架。
圖3 涌潮識別系統(tǒng)框架
實(shí)驗(yàn)中涌潮聲音的采集是通過專用的聲級計(jì),其采樣頻率為48 kHz,采樣位數(shù)為16 bit,單通道。模型訓(xùn)練中的正樣本為涌潮到來時(shí)的聲音,采集過程中充分考慮到環(huán)境等其他因素的影響,因此涌潮聲音的采集分別在不同的環(huán)境下進(jìn)行。共采集到3 000個(gè)涌潮樣本。負(fù)樣本為除涌潮聲音之外的任意聲音包括涌潮未到來時(shí)候的江邊的背景聲音等,共計(jì)1 000個(gè)負(fù)樣本。上述正負(fù)樣本中70%作為訓(xùn)練樣本,余下30%作為測試樣本。采集的每一個(gè)聲音樣本時(shí)長為2 s,信號分幀的中每一幀為256個(gè)點(diǎn),幀移80。在聲音特征值提取之前還要進(jìn)行一定的預(yù)處理,主要是對語音進(jìn)行端點(diǎn)檢測。每一幀的語音提取多維的MFCC特征值,如圖4所示為涌潮MFCC特征值維數(shù)與幅度的關(guān)系圖。在模型訓(xùn)練之前將涌潮的聲音的特征值標(biāo)為1,而非涌潮的聲音的特征值標(biāo)為-1。然后將訓(xùn)練的樣本經(jīng)過支持向量機(jī)構(gòu)建模型。模型構(gòu)建完成后將測試樣本提取到的特征值輸入到構(gòu)建好的模型中進(jìn)行識別分類。
圖4 涌潮聲音的12維MFCC特征值與幅度圖
為了對比,不僅僅采用了MFCC作為涌潮聲音的特征值,同時(shí)還提取了涌潮聲音的LPCC特征值,同時(shí)在識別分類的過程中還采取了BP神經(jīng)網(wǎng)絡(luò)作為對比的分類器。為研究不同支持向量機(jī)核函數(shù)對結(jié)果的影響,涌潮識別系統(tǒng)在試驗(yàn)過程中分別使用三種常見SVM核函數(shù)多項(xiàng)式核函數(shù)、高斯核函數(shù)和線性核函數(shù)。通過大量的訓(xùn)練得到不同的核函數(shù)的最優(yōu)參數(shù)設(shè)置,在最優(yōu)參數(shù)的設(shè)置下得到各自核函數(shù)的最高的識別精度?;?2維涌潮MFCC特征值在支持向量機(jī)不同的核函數(shù)下的識別率如圖5所示。
圖5 不同核函數(shù)的識別精度對比
由圖5可知在不同的支持向量機(jī)核函數(shù)下,識別精度會有不同,三種核函數(shù)的識別率都接近或是超過了90%,其中徑向基核函數(shù)的識別精度略高于另外兩種核函數(shù)的支持向量機(jī)。在實(shí)際試驗(yàn)過程中,模型訓(xùn)練中設(shè)置的SVM類型設(shè)置為C-SVC。訓(xùn)練中交叉驗(yàn)證為4,懲罰系數(shù)為128。其中對于多項(xiàng)式中參數(shù),degree設(shè)置為3,gamma為0.064,coef0為0。對于RBF核函數(shù)gamma設(shè)置為0.083 3,其中RBF的尺度參數(shù)σ在0.4~40之間。
標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語音參數(shù)的靜態(tài)特征,為了更好的表現(xiàn)語音的特征,改進(jìn)的MFCC還將引入動(dòng)態(tài)特征,所謂的動(dòng)態(tài)特征就是用靜態(tài)特征的差分來表示。試驗(yàn)中將計(jì)算得到聲音的一階差分和二階差分。分別記為DMFCC和DDMFCC。為了對比靜態(tài)特征和動(dòng)態(tài)特征對于語音識別影響將分別在不同的核函數(shù)下比較各自的識別精度。上述實(shí)驗(yàn)中的三種特征都是12維。如圖6所示。
圖6 靜態(tài)特征與動(dòng)態(tài)特征的識別精度對比
圖6中可見,單單將12維DMFCC和DDMFCC作為特征值并沒有提高識別精度,反而在增加算法的時(shí)間同時(shí)還降低了識別的精度。為了進(jìn)一步研究識別精度的影響因素,將MFCC與DMFCC組合成24維的語音特征,同時(shí)將MFCC、DMFCC和DD?MFCC組合成36維的語音特征最后與MFCC識別精度進(jìn)行對比。最后實(shí)驗(yàn)的識別精度如下圖7所示,由實(shí)驗(yàn)證明,將動(dòng)和靜態(tài)特征結(jié)合起來可以提高涌潮識別系統(tǒng)的性能。
圖7 MFCC的靜態(tài)與動(dòng)態(tài)特征結(jié)合
4.1 LPCC特征值對比識別精度
線性預(yù)測倒譜系數(shù)是一種在聲音識別系統(tǒng)中常見的聲音特征值提取方法。在試驗(yàn)過程中提取每一段聲音的12維特征,同時(shí)計(jì)算其一階差分和二階差分。
將LPCC與MFCC各自的12維靜態(tài)特征以及一階特征差分和二階差分組合為一個(gè)36維的特征值。進(jìn)行識別,圖9為兩者的識別精度對比。
圖8 12維MFCC與LPCC特征值識別精度對比
圖9 MFCC與LPCC 36維特征值識別對比
4.2 與BP神經(jīng)網(wǎng)絡(luò)對比識別的精度
神經(jīng)網(wǎng)絡(luò)作為常見的分類器,將支持向量機(jī)的識別精度與神經(jīng)網(wǎng)絡(luò)進(jìn)行對比。實(shí)驗(yàn)過程中選擇的為BP神經(jīng)網(wǎng)絡(luò),分別將三種核函數(shù)的支持量機(jī)與神經(jīng)網(wǎng)絡(luò)識別精度對比。如表1所示。
表1 12維特征值的識別精度
將MFCC與DMFCC組合成24維的語音特征,同時(shí)將MFCC、DMFCC和DDMFCC組合成36維的語音特征利用BP神經(jīng)網(wǎng)絡(luò)作為分類器,來對比最后的識別精度。如表2所示。
表2 不同分類器的識別精度
其中在BP神經(jīng)網(wǎng)絡(luò)的部分參數(shù)如下:隱含層神經(jīng)元個(gè)數(shù)12,訓(xùn)練顯示間隔50,最大訓(xùn)練次數(shù)200,最小均方誤差0.1,最小梯度1×10-6,學(xué)習(xí)步長0.05。
表1和表2中可以得到,神經(jīng)網(wǎng)絡(luò)在本涌潮識別系統(tǒng)中具有很好的識別精度,但是低于徑向基核函數(shù)和多項(xiàng)式核函數(shù)的支持向量機(jī)。略略高于線性核函數(shù)的支持向量機(jī)。
本文首次將聲學(xué)識別的相關(guān)技術(shù)應(yīng)用到了錢塘江的涌潮檢測中,提出了一種將MFCC與支持向量機(jī)結(jié)合的涌潮檢測方法,實(shí)驗(yàn)證明,該方法具有很高的識別精度,相較于傳統(tǒng)的涌潮檢測方法實(shí)現(xiàn)了自動(dòng)化檢測,同時(shí)該檢測方法是非接觸式的可以有效減少由于涌潮的沖擊導(dǎo)致檢測儀器的損壞,同時(shí)相較于將神經(jīng)網(wǎng)絡(luò)作為分類器的涌潮檢測系統(tǒng),該方法具有更高的識別精度。但支持向量機(jī)算法識別時(shí)間較長,同時(shí)江邊自然環(huán)境特殊的干擾因素較多,提高涌潮識別系統(tǒng)的效率和運(yùn)行速度是下一階段的研究課題。
[1]Ananthi S,Dhanalakshmi P.SVM and HMM Modeling Tech?niques for Speech Recognition Using LPCC and MFCC Features[M].Advances in Intelligent Systems and Computing,Satapathy S C,Biswal B N,Udgata S K,et al,2015:327,519-526.
[2]徐翠飛.基于數(shù)據(jù)和黑箱建模理論的錢塘江涌潮自動(dòng)檢測與實(shí)時(shí)預(yù)報(bào)方法[D].杭州:杭州電子科技大學(xué),2014.
[3]Ahmad K S,Thosar A S,Nirmal J H,et al.A Unique Approach in Text Independent Speaker Recognition Using MFCC Feature Sets and Probabilistic Neural Network[C].2015:1-6.
[4]Li F H,Ma J W,Huang D Z.MFCC and SVM Based Recognition of Chinese Vowels[M].Lecture Notes In Artificial Intelligence,Hao Y,Liu J,Wang Y,et al,2005:3802,812-819.
[5]Bharali S S,Kalita S K.A Comparative Study of Different Fea?tures for Isolated Spoken Word Recognition Using HMM with Ref?erence to Assamese Language[J].International Journal of Speech Technology,2015,18(4):673-684.
[6]Satapathy S C,Biswal B N,Udgata S K,et al.SVM and HMM Modeling Techniques for Speech Recognition Using LPCC and MFCC Features[M].Satapathy S C,Biswal B N,Udgata S K,et al,Springer International Publishing,2015,519-526.
[7]Ystad S L,Aramaki M,Kronland-Martinet R,et al.Recognition of Assamese Phonemes Using RNN Based Recognizer[M].Ystad S L,Aramaki M,Kronland-Martinet R,et al,Springer Berlin Heidel?berg,2012,187-196.
[8]Chen Y,Cao G,Zhu X.LS-SVM Model Based Nonlinear Predic?tive Control for MCFC System[J].Journal of Zhejiang UniversitySCIENCE A,007,8(5):748-754.
[9]謝國民,謝鴻,付華,等.煤與瓦斯突出預(yù)測的NN-SVM模型[J].傳感技術(shù)學(xué)報(bào),2016,29(5):888-893.
[10]張興,李偉,閻高偉,等.基于CART-LSSVM的球磨機(jī)料位軟測量方法研究[J].傳感技術(shù)學(xué)報(bào),2015,28(9):1361-1366.
[11]呂鋒,李翔,杜文霞.基于MultiBoost的集成支持向量機(jī)分類方法及其應(yīng)用[J].控制與決策,2015(1):81-85.
[12]周寬久,張世榮.支持向量機(jī)分類算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(1):159-162,182.
[13]Zhu X,Zhang C,Wu Q,et al.Acoustic Measurement of Tidal Bores in the Qiantang River,China[Z].IEEE,2010:3,3839-3843.
[14]Xiao H.A Comparative Study on Speaker Gender Identification Using MFCC and Statistical Learning Methods[M].Advances in Intelligent Systems and Computing,Patnaik S,Li X,2014:255,715-723.
王培力(1990-),男,江蘇省徐州人,杭州電子科技大學(xué)碩士研究生,主要研究方向涌潮預(yù)報(bào)與檢測,wplhdu@163.com;
王瑞榮(1973-),男,浙江義務(wù)人,博士,杭州電子科技大學(xué)教授,碩士生導(dǎo)師。主要研究方向?yàn)榍度胧较到y(tǒng)及其應(yīng)用,涌潮檢測與預(yù)報(bào)。主持多項(xiàng)省級課題,發(fā)表論文數(shù)十篇,獲發(fā)明專利授權(quán)二十余項(xiàng),wangrr@hdu.edu.cn。
Application of Support Vector Machine and MFCC in the Detection of Qiantang River Tidal Bore*
WANG Peili1,WANG Ruirong1*,GAO Peng1,SUN Yinghong2
(1.College of Life Information Science&Instrument Engineering,Hangzhou Dianzi University,Hangzhou 310018,China;2.Hangzhou Hydrology and Water Resources Monitoring Center,Hangzhou 310014,China)
In order to solve the problem of detecting Qiantang River tidal bore,this paper proposes a new detection method for the tidal bore.At first,getting the sound of tidal bore and non-tidal bore Mel-frequency Cepstral Coeffi?cients(MFCCs)as the acoustic features.Then,using support vector machine(SVM)to construct a detection model for tidal bore.Finally,classifying input sample acoustic features by the model.Compared to using linear prediction cepstral coefficients(LPCC)as the acoustic features or constructing model by BP neural network,the new approach to detect tidal bore via the support vector machine(SVM)with the Mel-frequency Cepstral Coefficients(MFCCs)as the acoustic features reach a higher recognition accuracy.
acoustic recognition;bore detection;SVM;MFCC acoustic features
TP391.4
A
1004-1699(2016)11-1773-06
EEACC:6130 10.3969/j.issn.1004-1699.2016.11.024
項(xiàng)目來源:國家自然科學(xué)基金項(xiàng)目(61374005);浙江自然科學(xué)基金項(xiàng)目(LY14F030022)
2016-04-28 修改日期:2016-07-06