鮮曉東,呂建中,樊宇星
(重慶大學(xué) a.信息物理社會(huì)可信服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室;b.自動(dòng)化學(xué)院,重慶400044)
基于密度與距離參數(shù)的CHMM聲學(xué)模型初值估計(jì)
鮮曉東a,b,呂建中b,樊宇星b
(重慶大學(xué) a.信息物理社會(huì)可信服務(wù)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室;b.自動(dòng)化學(xué)院,重慶400044)
在語(yǔ)音識(shí)別中,連續(xù)型隱馬爾可夫模型(CHMM)在初始化時(shí)采用分段K-means算法,但該算法會(huì)導(dǎo)致模型參數(shù)收斂于局部最優(yōu)。針對(duì)該問題,提出基于密度和距離參數(shù)的CHMM模型初始化算法。計(jì)算數(shù)據(jù)對(duì)象的距離和密度參數(shù),選擇密度值較大而同時(shí)距離較遠(yuǎn)的數(shù)據(jù)對(duì)象作為初始聚類中心,對(duì)其進(jìn)行K-means聚類處理,得到最終的聚類中心,根據(jù)聚類中心初始化CHMM模型的參數(shù)。實(shí)驗(yàn)結(jié)果表明,與隨機(jī)取值算法相比,該算法提高了語(yǔ)音的識(shí)別率。
語(yǔ)音識(shí)別;連續(xù)型隱馬爾可夫模型;K-means算法;局部最優(yōu);參數(shù)初始化
DO I:10.3969/j.issn.1000-3428.2015.10.060
在語(yǔ)音識(shí)別中,關(guān)鍵的問題是建立每個(gè)語(yǔ)音識(shí)別基元的聲學(xué)模型。目前,應(yīng)用較多的是隱馬爾可夫聲學(xué)模型。連續(xù)型隱馬爾可夫模型(Continuous Hidden Markov Model,CHMM)[1]由于其計(jì)算精度高的優(yōu)點(diǎn),在聲學(xué)模型中有較好的應(yīng)用前景。對(duì)于連續(xù)型隱馬爾可夫聲學(xué)模型的研究主要有2個(gè)方面的內(nèi)容:聲學(xué)模型的訓(xùn)練和聲學(xué)模型的匹配。對(duì)于聲學(xué)模型的訓(xùn)練采用的是Baum-Welch迭代算法。Baum-Welch算法不是一種解析算法,它是在給定初始模型的基礎(chǔ)上,不斷趨近于局部的最優(yōu)解,不同的初始模型會(huì)得到不同的CHMM,因此,初始模型選取的準(zhǔn)確程度影響語(yǔ)音識(shí)別的精度。目前,初始模型的選取主要采用分段K-means算法。
K-means算法[2]是一種基于劃分的聚類算法,應(yīng)用比較廣泛,它的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單快速,但是也存在一些不足,不同的初始聚類中心會(huì)產(chǎn)生不同的聚類效果,同時(shí)會(huì)受到數(shù)據(jù)邊緣點(diǎn)和孤立點(diǎn)的干擾。很多學(xué)者對(duì)K-means的初始聚類中心的選取[3]以及
聚類過程[4]進(jìn)行了研究。文獻(xiàn)[5]通過在聚類過程中進(jìn)行變量的自動(dòng)加權(quán)對(duì)傳統(tǒng)算法進(jìn)行改進(jìn)。文獻(xiàn)[6]將遺傳算法應(yīng)用到了K-means聚類算法中,文獻(xiàn)[7]對(duì)遺傳算法的全局搜索和K均值算法的局部搜索進(jìn)行了結(jié)合聚類,文獻(xiàn)[8]將粒子群優(yōu)化與K-means進(jìn)行混合聚類來提高全局搜索功能,但是這些算法計(jì)算量比較大。文獻(xiàn)[9]提出了一種基于空間劃分的初始聚類中心選取的方法。文獻(xiàn)[10-11]提出了基于密度的初始化聚類算法,文獻(xiàn)[12]提出了基于距離聚類的初始化算法,但是這2類算法中各有不足,基于密度的沒有考慮類間的相似度,而基于距離的沒有考慮類內(nèi)的相似度。因此,本文采用結(jié)合距離與密度的方法進(jìn)行初始聚類中心的選取,同時(shí)將該方法應(yīng)用到語(yǔ)音的識(shí)別中。
一個(gè)語(yǔ)音識(shí)別基元的隱馬爾可夫聲學(xué)模型可以由4個(gè)參數(shù)來描述,分別定義為:
(1)N,模型中的狀態(tài)總數(shù);
(2)π={πi},初始的狀態(tài)概率分布,表示開始時(shí)處于第i個(gè)狀態(tài)的概率;
(3)A={aij},狀態(tài)的轉(zhuǎn)移概率分布矩陣,表示狀態(tài)由i轉(zhuǎn)移到j(luò)的概率;
(4)bi(Ot),概率密度函數(shù),表示處于狀態(tài)i時(shí),第t個(gè)輸入序列的輸出概率。
采用混合高斯函數(shù)作為概率密度函數(shù),每個(gè)狀態(tài)下對(duì)應(yīng)一個(gè)混合高斯函數(shù)來表示該狀態(tài)下的輸出概率。
混合高斯函數(shù)表示為:
2.1 傳統(tǒng)的初始化算法
在CHMM的初始模型選取中,對(duì)于狀態(tài)轉(zhuǎn)移概率,可以采用隨機(jī)取值和均值取值,對(duì)于狀態(tài)初始概率,一般是根據(jù)所選模型類型進(jìn)行取值,初值選取的關(guān)鍵主要在于混合高斯密度函數(shù)各個(gè)參數(shù)的選擇上,一般采用分段K-means算法。
分段K-means算法是采用分段聚類的方法,將訓(xùn)練數(shù)據(jù)分割成K類,將每類的均值向量和協(xié)方差矩陣作為高斯分量的初始均值向量和方差向量。
算法具體步驟如下:
(1)將語(yǔ)音訓(xùn)練數(shù)據(jù)分成N段,N為訓(xùn)練模型的狀態(tài)總數(shù),每段為該狀態(tài)下對(duì)應(yīng)的觀察值向量,這樣完成了分段。
(2)在每個(gè)狀態(tài)下的訓(xùn)練數(shù)據(jù)中,隨機(jī)選擇K個(gè)特征矢量作為聚類的初始中心矢量。
(3)其余的點(diǎn)根據(jù)歐式距離計(jì)算與各個(gè)聚類中心的距離,選擇最小距離對(duì)應(yīng)的聚類中心作為其類別。
(4)計(jì)算各類中數(shù)據(jù)的均值矢量,作為新的聚類中心,如果新的聚類中心與原聚類中心的距離滿足要求,說明聚類完成,否則轉(zhuǎn)第(3)步,繼續(xù)進(jìn)行聚類處理。
(5)聚類完成后,得到K個(gè)聚類中心,即每一類的均值矢量,同時(shí)計(jì)算每一類的方差矢量,將其作為高斯密度函數(shù)的均值和方差的初始值。
傳統(tǒng)算法的優(yōu)點(diǎn)是計(jì)算過程比較簡(jiǎn)單,但是這種算法在聚類過程中有缺點(diǎn)。隱馬爾可夫模型的參數(shù)優(yōu)化算法依賴于初始值的設(shè)置,在初始值的基礎(chǔ)上不斷趨近最優(yōu)的一組參數(shù),對(duì)于初始參數(shù)比較敏感,不同的初始參數(shù)會(huì)產(chǎn)生不同的訓(xùn)練模型,而傳統(tǒng)的短算法對(duì)于初始值的計(jì)算比較粗略,是隨機(jī)選取了K個(gè)聚類中心點(diǎn)進(jìn)行的計(jì)算,沒有結(jié)合訓(xùn)練數(shù)據(jù)的特點(diǎn),因此,最終的聚類結(jié)果的準(zhǔn)確性受到影響。
2.2 基于密度和距離參數(shù)的初始化算法
根據(jù)分析,可以知道初始聚類中心應(yīng)該遵循這樣的原則:
(1)聚類中心之間的距離盡量大,這樣類別之間的相似度較差;
(2)聚類中心應(yīng)該處在數(shù)據(jù)密度大的地方,這樣類內(nèi)的相似度較強(qiáng),同時(shí)可以消除孤立點(diǎn)的影響。
基于數(shù)據(jù)密度和數(shù)據(jù)距離的聚類算法的基本思想是:首先計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)對(duì)象的密度值,以及任意2個(gè)對(duì)象的距離,通過這2個(gè)參數(shù),選擇K個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心,滿足密度值較大,同時(shí)任意2個(gè)中心的距離較遠(yuǎn),然后采用K-means的算法進(jìn)行聚類。
定義密度:以數(shù)據(jù)對(duì)象χ為中心,半徑為R的空間區(qū)域內(nèi)包含數(shù)據(jù)對(duì)象的數(shù)目稱為數(shù)據(jù) χ的密度,用ρ表示。ρ越大,表示數(shù)據(jù)對(duì)象χ所處的區(qū)域數(shù)據(jù)對(duì)象比較集中,類內(nèi)的相似度較高,反之,則類內(nèi)相似度較低,可能是孤立點(diǎn)或噪聲干擾。
具體的算法描述如下:
(1)計(jì)算任意 2個(gè)對(duì)象之間的距離:dχy=組成距離集合D,同時(shí)求取平均距離。
(2)由平均距離設(shè)定半徑R,根據(jù)R計(jì)算訓(xùn)練的數(shù)據(jù)對(duì)象的密度值,組成密度集合M。
(3)選擇M集合中密度值最大的數(shù)據(jù)對(duì)象作為第1個(gè)初始聚類中心,在集合M中剔除χ1,從M集合中選擇第2個(gè)初始聚類中心 χ2,滿足的條件是在
與χ1的距離不小于R的數(shù)據(jù)對(duì)象中χ2的密度值是最大的,然后選擇第3個(gè)聚類中心 χ3,同樣在與 χ1,χ2的距離均不小于2R的數(shù)據(jù)對(duì)象中χ3的密度值是最大的,進(jìn)行選擇k次,得到k個(gè)初始聚類中心。
(4)將第(3)步計(jì)算選擇出的聚類中心作為初始中心,然后采用K-means算法對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行聚類處理,從而將語(yǔ)音的訓(xùn)練數(shù)據(jù)分成K類,每類的均值矢量作為高斯概率密度函數(shù)的均值估計(jì),方差矢量作為高斯概率密度函數(shù)的方差估計(jì),由每類的數(shù)據(jù)對(duì)象的總數(shù)得到對(duì)應(yīng)的高斯分量的權(quán)值。
以上算法完成了按照數(shù)據(jù)對(duì)象的密度和距離參數(shù)的初始化處理,克服了K-means的初值隨機(jī)選擇的缺陷,使選擇出的初始聚類中心能夠最大程度表征數(shù)據(jù)對(duì)象的分類。根據(jù)距離準(zhǔn)則是類間數(shù)據(jù)對(duì)象的距離較大,相似性較弱,而同時(shí)結(jié)合密度參數(shù),保證了所選的聚類中心不會(huì)是孤立點(diǎn),這樣得到的高斯概率密度函數(shù)較準(zhǔn)確,有利于進(jìn)行模型參數(shù)的重估。
本文算法首先需要計(jì)算距離和密度,并通過計(jì)算得到初始聚類中心,較傳統(tǒng)算法復(fù)雜,單次迭代的復(fù)雜度較高,但是基于密度和距離選擇初始聚類中心的算法因?yàn)榭朔藗鹘y(tǒng)算法的初值隨機(jī)選擇的缺陷,初值聚類選擇得比較恰當(dāng),迭代次數(shù)會(huì)減少,使得本文算法的速度快于傳統(tǒng)算法。
K-means算法是一種經(jīng)典的聚類算法,應(yīng)用比較廣泛,計(jì)算簡(jiǎn)單快速;文獻(xiàn)[10]算法相比其他優(yōu)化算法在考慮聚類效果的前提下,計(jì)算量較小,實(shí)現(xiàn)比較容易。為了驗(yàn)證本文算法的有效性,對(duì)特征參數(shù)分別采用傳統(tǒng)K-means聚類算法、文獻(xiàn)[10]算法以及本文算法進(jìn)行比較。進(jìn)行仿真實(shí)驗(yàn),錄制了30段語(yǔ)音詞組,通過預(yù)處理和特征提取之后,得到語(yǔ)音的特征參數(shù)矩陣,對(duì)特征參數(shù)分別采用上述3種算法進(jìn)行聚類,聚類的性能結(jié)果如表1所示。
表1 3種算法性能比較
文獻(xiàn)[10]算法主要采用密度參數(shù)進(jìn)行初始聚類中心的選取,相比于傳統(tǒng)的初始化算法和文獻(xiàn)[10]算法,基于密度和距離選擇初始聚類中心的算法迭代次數(shù)減少了很多,說明初值聚類選擇的比較恰當(dāng),而且平均的類內(nèi)距離,即類內(nèi)的矢量到該類中心的距離要小一些,說明聚類中心能夠較好地表征該類的特征矢量。在實(shí)時(shí)性方面,本文算法的聚類時(shí)間要少于傳統(tǒng)K-means聚類算法和文獻(xiàn)[10]算法。
30段語(yǔ)音數(shù)據(jù)的特征參數(shù)聚類后類內(nèi)方差、類間方差如圖1、圖2所示。
圖1 語(yǔ)音數(shù)據(jù)聚類結(jié)果類內(nèi)方差
圖2 語(yǔ)音數(shù)據(jù)聚類結(jié)果類間方差
圖1表示語(yǔ)音數(shù)據(jù)聚類之后類內(nèi)的方差,從圖中可以得出,采用本文算法進(jìn)行聚類初始化的類內(nèi)方差要小于隨機(jī)選擇初值的傳統(tǒng)K-means聚類和文獻(xiàn)[10]算法的類內(nèi)方差。圖2表示語(yǔ)音數(shù)據(jù)聚類后類間的方差,從圖中可以得出,采用本文算法進(jìn)行聚類初始化的類間方差要大于隨機(jī)選擇初值的傳統(tǒng)K-means聚類和文獻(xiàn)[10]算法的類內(nèi)方差,說明基于本文的初始化算法的聚類算法得到的聚類中心之間不僅距離較遠(yuǎn),即聚類中心點(diǎn)分布較分散,同時(shí)各個(gè)聚類中心在語(yǔ)音數(shù)據(jù)的聚集點(diǎn)消除了孤立點(diǎn)的干擾,能夠表征該類之內(nèi)的數(shù)據(jù),因此,聚類的效果相比隨機(jī)初值的傳統(tǒng)K-means聚類的效果要好。
實(shí)驗(yàn)中所用到的語(yǔ)音數(shù)據(jù)采集于實(shí)驗(yàn)室的同學(xué),錄制了8個(gè)人(5男3女)的語(yǔ)音,創(chuàng)建了18個(gè)詞的語(yǔ)音庫(kù),每個(gè)詞匯每人錄制了 7次,采樣頻率為22 050 Hz,每個(gè)詞有56個(gè)語(yǔ)音數(shù)據(jù),總共有1 008個(gè)語(yǔ)音數(shù)據(jù),對(duì)于每個(gè)詞將其中的24個(gè)語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)音,總共得到240個(gè)訓(xùn)練數(shù)據(jù),其余的作為測(cè)試樣
本,每個(gè)詞有32個(gè)測(cè)試樣本。
將實(shí)驗(yàn)中采集的18個(gè)詞作為測(cè)試模板(即測(cè)試用例)進(jìn)行識(shí)別。表2為采用傳統(tǒng)的初始化算法和本文的初始聚類中心算法進(jìn)行聚類得到的結(jié)果;表2有18組測(cè)試樣本,其中每組32個(gè),實(shí)驗(yàn)結(jié)果表明,本文算法相對(duì)于傳統(tǒng)算法的正確識(shí)別個(gè)數(shù)明顯增加,誤識(shí)數(shù)減少;且傳統(tǒng)算法在左轉(zhuǎn)和右轉(zhuǎn)上誤識(shí)數(shù)多,這是因?yàn)樽x音有相似的地方,導(dǎo)致提取出的參數(shù)有部分相似,而傳統(tǒng)算法訓(xùn)練的模型不能較好地消除這種影響,導(dǎo)致讀音相近時(shí)誤識(shí)數(shù)較高,而本文算法減小了這種影響,誤識(shí)數(shù)明顯減少,能訓(xùn)練較好的模型。
表2 2種算法識(shí)別結(jié)果
為了評(píng)價(jià)基于密度和距離的初始化算法的效果,選擇識(shí)別率作為評(píng)價(jià)標(biāo)準(zhǔn),識(shí)別率 s定義如下:s=(r/n)×100%,其中,n為詞總數(shù);r為識(shí)別正確詞數(shù)。表3為識(shí)別率的比較。可以看出,相比隨機(jī)選擇聚類中心的識(shí)別率86.7%,本文算法的識(shí)別率達(dá)到了90.3%,識(shí)別率較高,同時(shí)訓(xùn)練得到的模型對(duì)于語(yǔ)音的描述較好,測(cè)試語(yǔ)音與其匹配值較高。這說明本文算法能在一定程度上提高語(yǔ)音識(shí)別率,達(dá)到較好的效果。
表3 2種初始化算法的識(shí)別率 %
針對(duì)語(yǔ)音識(shí)別中,利用連續(xù)型隱馬爾可夫模型對(duì)語(yǔ)音訓(xùn)練時(shí),初始化采用分段K-means算法會(huì)導(dǎo)致模型參數(shù)可能收斂于局部最優(yōu)的問題,本文提出了一種基于密度和距離參數(shù)的CHMM模型初始化算法。將傳統(tǒng)K-means聚類算法、文獻(xiàn)[10]算法和本文算法在多段語(yǔ)音詞組下進(jìn)行仿真實(shí)驗(yàn)對(duì)比,結(jié)果表明,本文算法能滿足實(shí)時(shí)性要求,訓(xùn)練得到的模型對(duì)于語(yǔ)音的描述較好,并在語(yǔ)音的識(shí)別率上有所提高。
[1] 趙 力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2008.
[2] 袁 芳,孟增輝,于 戈.對(duì)K-means聚類算法的改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(36):176-178.
[3] Deelers S,Auwatanamongkol S.Enhancing K-means Algorithm with Initial Cluster Centers Derived from Data Partitioning Along the Data Axis with the Highest Variance[C]//Proceedings of World Academy of Science,Engineering and Technology.Washington D.C.,USA:IEEE Press,2007:323-328.
[4] 劉 韜,蔡淑琴,曹豐文,等.基于距離濃度的 K-均值聚類算法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,32(10):50-52.
[5] Huang Zhexue,Ng M K,Rong Hongqiang.Automated Variable Weighting in K-means Type Clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):657-668.
[6] Sarafis I,Zalala A M S,Trinder PW.A Genetic Rulebased Data Clustering Toolkit[C]//Proceedings of Congress on Evolutionary Computation.Honolulu,USA:[s.n.],2002:1238-1243.
[7] 陸林華,王 波.一種改進(jìn)的遺傳聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(21):170-172.
[8] 陶新民,徐 晶,楊立標(biāo),等.一種改進(jìn)的粒子群和 K均值混合聚類算法[J].電子與信息學(xué)報(bào),2010,32(1):93-97.
[9] 蘇錦旗,薛惠鋒,詹海亮.基于劃分的K-均值初始聚類中心優(yōu)化算法[J].微電子學(xué)與計(jì)算機(jī),2009,26(1):8-11.
[10] 傅德勝,周 辰.基于密度的改進(jìn) K均值算法及實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2011,31(2):432-434.
[11] 汪 中,劉貴全,陳恩紅.一種優(yōu)化初始中心點(diǎn)的K-means算法[J].模式識(shí)別與人工智能,2009,2(4):299-304.
[12] 蘇 中,馬少平,楊 強(qiáng).基于Web-Log Mining的Web文檔聚類[J].軟件學(xué)報(bào),2002,13(1):99-104.
編輯 顧逸斐
Initial Estimation of CHMM Acoustic Model Based on Density and Distance Parameter
XIAN Xiaodonga,b,LV Jianzhongb,F(xiàn)AN Yuxingb
(a.Key Laboratory of Information Physical Society Credible Service Computing,Ministry of Education;b.College of Automation,Chongqing University,Chongqing 400044,China)
The method of Continuous Hidden Markov Model(CHMM)parameter initialization for speech recognition is segmented with K-means algorithm that can lead to convergence in local optimization of model parameters.A new approach of CHMM parameters initialization is proposed based on density and distance.Computing density and distance of data,the initial cluster center is selected according to the far distance and max density,then carries the K-means clustering process to get the final cluster centers,and initializes the CHMM parameters according to the cluster center. Experimental results show that the new approach has better recognition results compared with random selection algorithm.
speech recognition;Continuous Hidden Markov Model(CHMM);K-means algorithm;local optimization;parameter initialization
鮮曉東,呂建中,樊宇星,等.基于密度與距離參數(shù)的CHMM聲學(xué)模型初值估計(jì)[J].計(jì)算機(jī)工程,2015,41(10):318-321.
英文引用格式:Xian Xiaodong,Lv Jianzhong,F(xiàn)an Yuxing.Initial Estimation of CHMM Acoustic Model Based on Density and Distance Parameter[J].Computer Engineering,2015,41(10):318-321.
1000-3428(2015)10-0318-04
A
TP301.6
重慶市教育委員會(huì)科學(xué)技術(shù)研究基金資助項(xiàng)目(KJ08A 01)。
鮮曉東(1966-),女,副教授、碩士,主研方向:無線傳感器網(wǎng)絡(luò),移動(dòng)機(jī)器人控制;呂建中、樊宇星,碩士研究生。
2014-08-18
2014-10-26E-mail:xxd@cqu.edu.cn