陳戈珩, 胡明輝, 吳天華
(長春工業(yè)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,吉林 長春 130012)
在多媒體技術(shù)的飛速發(fā)展形勢下,基于內(nèi)容的音頻檢索技術(shù)在多媒體、網(wǎng)絡(luò)等領(lǐng)域正發(fā)揮著極其重要的作用和應(yīng)用價值。由于音頻信號除了含有一些基本的信息如編碼方法、量化精度、采樣率等注冊信息外,由于語音信號本身就是一種缺乏內(nèi)容語義的符號表示和缺乏結(jié)構(gòu)化組織的二進(jìn)制流,這直接使音頻信號的檢索問題受到非常大的限制。因此,對于如何提取相關(guān)音頻信號中的內(nèi)容語義和結(jié)構(gòu)化信息,使無序的音頻變得有序化,是實用化音頻檢索的關(guān)鍵技術(shù)。音頻信號的自動分類是提取音頻信號的結(jié)構(gòu)和內(nèi)容語義的重要手段,是音頻分析和音頻檢索的研究熱點。
在眾多的分類方法中,基于隱馬爾可夫(HMM)[1]的 分 類 方 法 和 基 于 支 持 向 量 機(jī)(SVM)[2]的分類方法是當(dāng)前比較常用的兩種方法。本質(zhì)上隱馬爾科夫模型是一種雙重的隨機(jī)過程,它對時間的隨機(jī)統(tǒng)計特性具有極強(qiáng)的刻畫能力,對連續(xù)的動態(tài)音頻信號的多類分類具有較好的效果。支持向量機(jī)是基于統(tǒng)計學(xué)理論發(fā)展起來的機(jī)器學(xué)習(xí)法[3],更大程度反映各類別間的不同,主要用于兩類之間。
隱馬爾科夫模型是經(jīng)典的統(tǒng)計估計方法之一,它對動態(tài)時間序列具有很強(qiáng)的建模能力,且計算量較小。這種方法的局限性在于對先驗知識的過多依賴,利用這種方法需要預(yù)先知道樣本參數(shù)的分布形式,在現(xiàn)實中很難做到。支持向量機(jī)采用結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則代替了經(jīng)驗風(fēng)險最小化準(zhǔn)則,并結(jié)合神經(jīng)網(wǎng)絡(luò)[4]、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)習(xí)等方面的技術(shù),在解決分線性、高維和小樣本的問題中表現(xiàn)出諸多特有的優(yōu)勢。
在對音頻數(shù)據(jù)進(jìn)行分類之前,首先對原始音頻數(shù)據(jù)進(jìn)行特征提取。因此音頻數(shù)據(jù)分類的關(guān)鍵所在是進(jìn)行特征分析,對音頻特征的選取較為嚴(yán)格,既要能夠充分表示音頻的時域特征,又要很好地表示頻域特征,為減少環(huán)境對特征的影響,要求其具有一般性和魯棒性。對原始音頻數(shù)據(jù)首先進(jìn)行預(yù)處理以減少尖銳噪聲(音頻的采樣率為22.050kHz),其次將對音頻數(shù)據(jù)進(jìn)行分割,分割成1 000ms的clip(22 050個采樣),相鄰的兩個片段沒有重疊的部分,對每一clip加25ms的Hamming窗形成幀,相鄰幀間有12.5ms的數(shù)據(jù)重疊,最后計算每一幀的傅里葉變換系數(shù)F(w)和頻域能量:
fs——采樣頻率。
根據(jù)音頻幀計算以下基于clip的音頻特征。
在一個音頻段中所含的靜音幀與總的幀數(shù)的比:
一般來說,由于語音的連貫性不是很強(qiáng),音樂相對較連貫,所以語音的靜音比例要比音樂的靜音比例高很多。
將頻域劃分為4個子帶區(qū)間sbi(i=0,1,2,3),分 別 為,并計算各子帶的能量為:
在頻域中各子帶能量與總能量的比值稱為子帶能量比:
片段中的各幀子帶能量比的均值被稱為子帶能量比均值。
1.3.1 頻率中心均值
片段中音頻的幀頻率中心的平均值。頻率中心是度量音頻亮度的指標(biāo):
1.3.2 帶寬均值
片段中所有音頻幀的帶寬的平均值。帶寬是衡量音頻頻域方位的指標(biāo):
語音的帶寬范圍一般在0.3~3.4kHz左右,音樂的帶框比較寬,一般在22.050kHz左右。
由于語音是由清音和濁音的不斷交替構(gòu)成,因此語音的過零率的變換要高于音樂信號的過零率。如果設(shè)定一個過零率的閾值,那么在一個音頻段中,可以計算出高于這個過零率的幀在整個段中所占的比例。這個比例就是高過零率比率,簡稱HZCRR。
ZCR閾值一般為一個片段中ZCR平均值的1.5倍,N為一個片段中總幀數(shù),ZCR(n)是第n幀的過零率。
語音信號比音樂信號中含有更多的靜音幀。如果設(shè)定一個能量的閾值,那么在一個音頻段中可以計算出低于這個閾值的幀在整個段中所占的比例。這個比值就是低頻率能量比,簡稱LFER。
式中:N——一個片段中的總幀數(shù);
E(n)——第n幀的頻域能量;
AVE——片段中各幀能量的均值。
基因頻率的標(biāo)準(zhǔn)方差是用來表示在一個片段中基因頻率變化范圍的大小。
頻譜遷移是指在音頻片段中所有相鄰幀頻譜之間的平均差異。頻譜變遷的公式為:
一個片段中基音頻率不等于0的幀數(shù)所占總幀數(shù)的比例稱為和諧度,比例越大,和諧度越高。
如果第i幀與第i-1幀的基因頻率的差值小于一定的范圍,并且第i幀的基因頻率非0,則第i幀稱為基因平滑幀。一個片段中平滑基因比是指平滑幀占基因頻率大于零的幀數(shù)之比。
在以上分析中,由于段特征是在幀特征基礎(chǔ)上計算得來的,所以先提取了音頻數(shù)據(jù)的幀特征。音頻數(shù)據(jù)分類的特征集合是在段特征基礎(chǔ)上構(gòu)造出來的,但是不同音頻特征的值有很大程度的差異,因此要先進(jìn)行歸一化處理。公式如下:
式中:xi——提取出來的原始特征;
ui——均值;
σi——方差;
由于MFCC[6]歸一化處理后的實驗結(jié)果不理想,所以對MFCC不做歸一化處理,對一個片段中的各幀計算12維MFCC系數(shù)以及MFCC的一階差分序列,然后在片段內(nèi)對各維取平均值,作為該片段的MFCC特征值。這樣有11維段層次的基本特征加上24維MFCC特征值組成35維的特征向量集作為分類器的輸入。
由于音頻是一個隨機(jī)過程,所以其特征具有一定的時間統(tǒng)計特性。因此,所提出的音頻分類方法應(yīng)該能夠充分的表征音頻數(shù)據(jù)的時間統(tǒng)計特性。為了克服隱馬爾科夫模型在識別過程中的錯誤識別率和支持向量機(jī)對兩類問題分類的不足,文中對一些文獻(xiàn)采用的HMM和SVM相結(jié)合的方法進(jìn)行改進(jìn)?;贖MM與SVM相結(jié)合的算法流程如圖1所示。
圖1 基于HMM與SVM相結(jié)合的算法流程
將音頻片段分為4類:帶背景音的語音、純語音、音樂和靜音,首先選取能量和過零率特征,利用基于規(guī)則的分類方法識別出靜音片段,識別規(guī)則如下:
式中:avZCR——該片段所有音頻幀ZCR的均值;
avE——該片段中所有的音頻幀頻域能量均值。
如果同時滿足以上兩個規(guī)則,那么該片段是靜音片段。
HMM本質(zhì)上是在隱馬爾科夫鏈的基礎(chǔ)上發(fā)展而來的一種雙重隨機(jī)過程。一種是描述數(shù)據(jù)狀態(tài)轉(zhuǎn)移的馬爾科夫鏈,它是基本的隨機(jī)過程。另一種是描述觀察值間和狀態(tài)的對應(yīng)關(guān)系。HMM模型采用Baum-Welch重估算法進(jìn)行訓(xùn)練,這種算法很好地解決了HMM在參數(shù)估計方面的難題,并為各類模型計算參數(shù),從而得到對應(yīng)的HMM(記為λi,i=1,2,3)模型。基本思路是按照某種重估算法根據(jù)現(xiàn)有的模型λ′估計出模型λ,最終使得P(O/λ′)<P(O/λ)。用λ替代λ′重復(fù)上述過程直到模型參數(shù)處于收斂狀態(tài),得到最大似然模型。
對需要進(jìn)行分類的音頻數(shù)據(jù),首先需要通過HMM分類器進(jìn)行識別判定,然后計算出每個音頻在HMM模板下的最大輸出概率和次最大輸出概率,并使其差值與閾值(此閾值是根據(jù)MCE準(zhǔn)則設(shè)定的)進(jìn)行比較。如果閾值大于差值,則再采用SVM分類器進(jìn)行識別得出最終判定結(jié)果,否則結(jié)果直接由HMM分類器判定給出。
HMM分類器結(jié)構(gòu)如圖2所示。
圖2 HMM分類器流程圖
與其他方法相比,支持向量機(jī)[7]是在堅實的數(shù)學(xué)理論基礎(chǔ)上發(fā)展起來的一種新型的分類方法,它采用結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則代替經(jīng)驗風(fēng)險最小化準(zhǔn)則,同時結(jié)合了神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)等多方面的技術(shù)。這種方法通過引入核函數(shù)將樣本向量映射到一個更高維的空間里,即將當(dāng)前輸入空間的非線性問題轉(zhuǎn)化為高維特征空間的線性問題,在這個空間里建立一個最大間隔超平面,將空間中兩類樣本正確分開,并取得最大邊緣。由于不同的核函數(shù)構(gòu)造的輸入空間不同,線性決策面的學(xué)習(xí)機(jī)也不同,從而得到的支持向量也不同。
圖3 SVM分類器流程圖
常用的核函數(shù)有[8]:
線性內(nèi)核函數(shù):
徑向基核函數(shù):
多項式核函數(shù):
K(x,xi)=[(x·xi)+1]d
S
igmoid核函數(shù):
K(x,xi)=tanh[b1(x·xi)+b2]
在構(gòu)造分類器之前首先要提取基于幀的特征和段的特征,根據(jù)分類需要選擇不同的特征向量集。為了降低不同類別的特征向量在分類過程中帶來的負(fù)面影響,對特征數(shù)據(jù)進(jìn)行歸一化處理。為了降低計算成本,提高分類效率,根據(jù)不同支持向量機(jī)的核函數(shù)在分類過程中表現(xiàn)出的優(yōu)缺點來進(jìn)行徑向基核函數(shù)[9]的選擇。根據(jù)不同參數(shù)和特征向量的選擇,經(jīng)過反復(fù)的訓(xùn)練測試得到最滿足分類目的的分類器。選擇徑向基核函數(shù)為分類函數(shù),即
經(jīng)最優(yōu)化求解得決策函數(shù)為:
對HMM模型分類的結(jié)果進(jìn)行分析,如果音頻數(shù)據(jù)需要SVM分類器對其進(jìn)行二次分類,則根據(jù)需要對分類器進(jìn)行選擇。在進(jìn)行二次分類前首先構(gòu)造SVM區(qū)分純語音和音樂,構(gòu)造SVM區(qū)分出語音和帶背景的語音。這種方法滿足了支持向量機(jī)對小樣本的分類條件,同時提高了分類的效率和精度。文中訓(xùn)練3個徑向基核函數(shù)支持向量機(jī)作為分類器,徑向基函數(shù)參數(shù)σ選取為10。
音頻數(shù)據(jù)來源于CCTV-1、CCTV-2等電視臺,廣播和CD音樂,內(nèi)容包括新聞、天氣預(yù)報、綜藝節(jié)目、人物訪談、流行音樂等。采樣率是22.050kHz,精度16位,存儲格式為wav格式,時間長度為200min,語音為57.6min,音樂63.2min,帶背景語音為56.4min,靜音片段為22.8min。各類音頻的2/3為訓(xùn)練樣本,1/3為測試樣。
在實驗前所有音頻數(shù)據(jù)都被分割為10s長的片段,文中利用基于規(guī)則的分類方法對靜音做閾值分析,將靜音從語音庫中識別出來,故可以不必訓(xùn)練分類器。在訓(xùn)練階段將2/3的樣本手動的分為語音、音樂、帶背景語音,然后訓(xùn)練HMM和SVM分類器。測試階段用另外1/3的數(shù)據(jù)進(jìn)行測試,記錄并計算分類精度。
實驗結(jié)果見表1。
表1 基于HMM和SVM兩級分類器的分類結(jié)果
從結(jié)果可以看出,分類的正確率分別為靜音95.55%、語音96.46%、帶背景音89.18%、音樂96.80%,明顯優(yōu)于文獻(xiàn)[10]采用HMM分類器分類的分類結(jié)果:語音88.01%;音樂95.96%;語音+音樂81.03%。為了降低分類的復(fù)雜度,提高分類效率,文中對不同類別進(jìn)行了有針對性的分類。
針對音頻數(shù)據(jù)的自身特點將隱馬爾科夫和支持向量機(jī)兩種方法相結(jié)合,HMM不但對音頻信號具有很好的描繪能力,還對大量數(shù)據(jù)具有很好的分類效果,彌補了SVM在大量數(shù)據(jù)分類中的不足,SVM則克服了HMM分類上的不足,使在數(shù)據(jù)量上的要求大大的降低。文中首先進(jìn)行閾值的判別,滿足條件則利用SVM分類器進(jìn)行二次分類,這樣不但減少了時間,還大大地調(diào)高了識別率。
[1] 楊會云.基于HMM-SVM的音頻分類與檢索算法研究[D].重慶:重慶郵電大學(xué),2010.
[2] 辛慶正.基于支持向量機(jī)的語音識別技術(shù)[D].天津:河北工業(yè)大學(xué),2009.
[3] Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.
[4] 唐軍.基于HMM與小波神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)研究[D].南京:南京理工大學(xué),2007.
[5] 王超.基于小波和隱馬爾可夫模型的音頻分類[D].西安:西北工業(yè)大學(xué),2007.
[6] 王超,吳亞鋒.基于EMGD-HMM的音頻自動分類[J].電聲技術(shù),2007(7):53-60.
[7] 史東承,韓玲艷,于明會.基于HMM/SVM的音頻自動分類[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2008,29(2):178-182.
[8] 李仕強(qiáng).基于內(nèi)容的音頻分類與識別[D].南京:南京信息工程大學(xué),2010.
[9] 曹兆龍.基于支持向量機(jī)的多分類算法研究[D].上海:華東師范大學(xué),2007.
[10] 盧堅,陳毅權(quán),孫正興,等.基于隱馬爾可夫模型的音頻自動分類[J].軟件學(xué) 報,2002,13(8):1593-1597.