裴春寶
( 西藏大學(xué) 藏文信息技術(shù)研究中心,拉薩 850000)
?
DHMM在家用安全門藏文語音識別中的應(yīng)用
裴春寶
( 西藏大學(xué) 藏文信息技術(shù)研究中心,拉薩 850000)
對于家用安全門的防護(hù)措施,除了傳統(tǒng)的安全鎖,目前也使用一些指紋識別技術(shù)。給出了一種安全性更高的基于DHMM的家用安全門藏文語音識別系統(tǒng)。通過語音的監(jiān)控方式,引入矢量量化(VQ)算法,同時建立安全門語音的離散隱馬爾科夫模型(DHMM)。通過MFCC的特征參數(shù)抽取,將LBG算法應(yīng)用在藏文碼書設(shè)計(jì)中,導(dǎo)出多觀察序列的參數(shù)重估形式。在實(shí)驗(yàn)中選擇30個人的語音信號作為實(shí)現(xiàn)對象,結(jié)果表明,識別準(zhǔn)確率達(dá)到99%以上,驗(yàn)證了此方法的可適用性。
隱馬爾科夫模型;藏文語音識別;矢量量化
隨著時代的發(fā)展,人們對于生活的要求越來越高,應(yīng)運(yùn)而生的無線傳感技術(shù)、無線通信技術(shù)以及無線網(wǎng)絡(luò)技術(shù)都有了長足的發(fā)展。傳統(tǒng)的家用安全門是針對安全鎖進(jìn)行升級,使得用戶通過盡可能繁瑣地調(diào)整鎖來保證人身和財(cái)產(chǎn)的安全,但會導(dǎo)致一旦鑰匙丟失,或者密碼鎖的密碼遺忘,都會給用戶帶來不必要的麻煩,對自身的物力和財(cái)力都會造成消耗。
本設(shè)計(jì)提出的離散隱馬爾科夫模型是一種統(tǒng)計(jì)模型,在語音識別領(lǐng)域得到了很好的應(yīng)用。其理論基礎(chǔ)源于1970年左右Baum等[3-4],隨后,CMU的Baker和IBM公司的Jelinek等將它引入到語音識別中[1]。真正的HMM模型被全世界的語音研究人員所認(rèn)識是通過Bell實(shí)驗(yàn)室的Rabiner等人的努力。隨著HMM模型的進(jìn)一步演化,它的應(yīng)用領(lǐng)域也在不斷擴(kuò)大,目前已在金融市場的波動分析、手寫字識別[9]、手勢識別[11]、旋轉(zhuǎn)機(jī)械啟動故障診斷[2,16]、電源監(jiān)控[10]、經(jīng)濟(jì)預(yù)算、語音識別、神經(jīng)生理學(xué)與生物遺傳等方面有了很好的應(yīng)用。家用安全門設(shè)計(jì)的音頻信號是非平穩(wěn)的,DHMM模型是一種模擬非平穩(wěn)動態(tài)模型的多元統(tǒng)計(jì)工具[12]。在很多領(lǐng)域圖形識別和語音識別被廣泛地應(yīng)用,需要通過對局部結(jié)構(gòu)特征的分析得到關(guān)于目標(biāo)和背景的先驗(yàn)分布信息,再進(jìn)一步對比度特征和空間位置關(guān)系特征進(jìn)行抽取[13-14]。
DHMM模型是一種隨機(jī)過程的統(tǒng)計(jì)模型。在某一時刻的一個事件必然是處于一個狀態(tài),t時刻的狀態(tài)會受到前一個時刻狀態(tài)的影響,同時會產(chǎn)生一個觀測值,觀測值都會對應(yīng)一個概率分布。
用參數(shù)集α=(π,C,D)描述DHMM模型。假設(shè)st,是通過有限狀態(tài)空間Θ={1,2,…,M}的齊次馬爾科夫鏈,Lt,t≥1是觀測序列,取值范圍為集合R={r1,r2,…,rn}。定義模型的參數(shù):
初始分布η:
(η=(η1,η2,…,ηm)
ηi=P(s1=i),i∈Θ)
狀態(tài)轉(zhuǎn)移概率矩陣C=(cij):
cij=P(st+1=j|st=i),i,j∈Θ
觀察值概率矩陣D=(di(rj)):
di(rj)=P(Lt=rj|st=i),i∈Θ,rj∈R
1.1 DHMM觀察序列的參數(shù)重估
給定觀察序列L是DHMM模型的重要內(nèi)容。通過調(diào)整模型參數(shù)α,得到概率P(L|α)的最大值,實(shí)現(xiàn)參數(shù)的重估。標(biāo)定需要很多樣本的參與才能解決前后向變量的溢出問題。
多觀察序列的Baum-Welch的重估公式為[5-7]:
(1)
(2)
(3)
同理,可得多觀察序列觀察值重估公式的標(biāo)定形式為:
(4)
1.2 對隱狀態(tài)的估計(jì)
κt(i)為沿某條路徑s1,s2,…,st,t時刻的狀態(tài)st=i同時生成觀察序列l(wèi)1,l2,…,lt的最大概率:
由歸納法可算出st(i),推理公式為
(5)
然而在計(jì)算機(jī)上實(shí)現(xiàn)時,κt(i)會超出雙精度而出現(xiàn)溢出狀態(tài),所以實(shí)際計(jì)算κt(i)的對數(shù)值的步驟如下:
初始化:
lg[κ1(i)]=lg(ηi)+lg[di(l1)],1≤i≤M;
ψ1(i)=0,1≤i≤M;
對公式(5)取對數(shù)得到遞推公式為:
則最佳狀態(tài)的概率對數(shù)值為:
2 DHMM模型在家用安全門語音識別的應(yīng)用
DHMM模型在家用安全門語音識別的結(jié)構(gòu)系統(tǒng)主要分為訓(xùn)練過程和識別過程。這里提取的是語音的倒譜域參數(shù),主要分為MFCC和LPCC參數(shù)[15],它們都是多維矢量,分別得出48維的MFCC和LPCC參數(shù)。HMM模型可把矢量序列轉(zhuǎn)換為標(biāo)量序列,矢量量化能很好地完成這樣的任務(wù)。通過LBG算法[8]可完成碼書的設(shè)計(jì)。
在模型的訓(xùn)練和語音識別中,以得到訓(xùn)練和識別語音的特征參數(shù)矢量和碼書各個碼字的歐式距離。通過最小序號的碼字為觀察值的幀,可以完成輸入語音到觀察序列的轉(zhuǎn)換,能很好地應(yīng)用于DHMM模型的訓(xùn)練和識別。
2.1 MFCC參數(shù)和LPCC參數(shù)的特征抽取
MFCC參數(shù)和LPCC參數(shù)是不同的兩種特性區(qū)別,其中,MFCC參數(shù)通過人耳聽覺來判斷,而LPCC參數(shù)通過語音識別模型獲得。MFCC參數(shù)抽取的過程如圖1所示。
圖1 MFCC特征參數(shù)的抽取
語音首先通過預(yù)加重和分幀以及加窗過程后,通過對每幀進(jìn)行快速的傅里葉(FFT)轉(zhuǎn)換,得到短時頻譜;然后頻譜通過48個Mel頻率三角濾波器過濾。通過濾波器輸出的每一個能量去對數(shù),得到對數(shù)的能量,由對數(shù)能量得出DCT的倒譜。
2.2 DHMM模型的訓(xùn)練過程
對語音分段的階段,需要選同一樣的語音,一般每段語音的長度為20幀到600幀。訓(xùn)練過程是一個迭代的過程。觀察值概率矩陣很重要,因此需要首先得出D的初始值。對于影響小的C和α可以根據(jù)訓(xùn)練模型的要求手動設(shè)置。計(jì)算D的初值,需要根據(jù)α、C、D的初值應(yīng)用Viterbi算法得出語音的隱狀態(tài),同時得出各個觀測值的概率,然后得到D的初值。
通過初始值可以實(shí)現(xiàn)參數(shù)重估的一直循環(huán)。應(yīng)用Baum-Welch算法對模型進(jìn)行重估,然后通過Viterbi算法計(jì)算重估模式下觀測值序列出現(xiàn)的概率,穩(wěn)定概率后,才可以停止參數(shù)重估的循環(huán)。為了確保訓(xùn)練模型準(zhǔn)確率更高,選擇迭代次數(shù)為 1 000 次。由多次的循環(huán)結(jié)束得到的結(jié)果,可以看到矩陣D的元素大多值為0,這樣會使Viterbi算法算出的結(jié)果無效,需要在每次參數(shù)重估以后進(jìn)行矩陣D的矯正,將0都改為最小的正數(shù)10-5,同時還要滿足每一行的元素之和為1。
語音的開始都是從第一個字或者音素,開始和結(jié)束的狀態(tài)固定。為了計(jì)算的方便,把發(fā)音的開始狀態(tài)強(qiáng)制定義為1,則它的初始概率可以表示為
α=(1,0,…,0)
對于安全門的語音識別信號,需要對信號進(jìn)行分割。通過隨機(jī)的分割,來判斷聲音與原訓(xùn)練的語音模型是否相符。本文的模型狀態(tài)是10個,所以它的初始狀態(tài)為等概率狀態(tài)為:
α=(0.1,0.1,…,0.1)
DHMM模型的參數(shù)C決定了模型的形式。DHMM模型的語音識別方式是開始狀態(tài)和結(jié)束狀態(tài)都是固定的,最后一個只能傳到自身。
2.3 語音識別過程
選擇30個人的聲音作為語音識別對象進(jìn)行實(shí)驗(yàn)。每種音頻10個樣本用于訓(xùn)練DHMM模型,另外10個樣本用于識別,HMM模型的訓(xùn)練次數(shù)是 1 000 次。語音音頻的采樣頻率為6MHz,經(jīng)過截止頻率為3MHz的低通濾波器后分幀,每幀為256個采樣點(diǎn),幀移為60個采樣點(diǎn)。訓(xùn)練出的狀態(tài)轉(zhuǎn)移概率矩陣為Y:
從表1可以看出:語音男的概率對數(shù)值大部分相同,語音女的概率對數(shù)值大部分也相似,說明他們的音頻相似,與實(shí)際情況相同。
語音識別的關(guān)鍵在于實(shí)時性,因此能無延時地識別語音而自動執(zhí)行相關(guān)命令,具有很高的實(shí)用性。采用Viterbi算法實(shí)現(xiàn)識別功能,在Matlab仿真中,50幀長度的語音識別需要0.23s左右。
通過選擇合適的幀,使得識別準(zhǔn)確率更加的合理。從圖2可以看出幀數(shù)與識別率的關(guān)系,幀數(shù)在30幀到80幀的時候識別準(zhǔn)確率是比較高的;在幀數(shù)低于10時,識別準(zhǔn)確率下降很快,高于80以后識別準(zhǔn)確率也稍有下降。
表1 30語音個人在DHMM模型下的概率對數(shù)值
圖2 語音的識別準(zhǔn)確率與幀數(shù)的關(guān)系
去噪環(huán)境下,對MFCC參數(shù)的識別率在93%左右,LPCC的識別率在93.4%左右。在有噪聲干擾的情況下,識別準(zhǔn)確性會有所下降。當(dāng)HMM個數(shù)減少時,準(zhǔn)確識別率反而增高;碼書的距離越大,識別率也越高,但會由于計(jì)算量的增加而延時,這樣更便于用戶對家用安全門的使用。
針對家用安全門的語音識別,采用MFCC作為DHMM模型的特征參數(shù),同時應(yīng)用矢量量化來進(jìn)行構(gòu)造模型和訓(xùn)練,完成對語音的分析和識別功能,使得語音識別的準(zhǔn)確率達(dá)到96.5%以上,可應(yīng)用在家用安全門以及一些其他方面。當(dāng)有噪聲干擾時,識別率會下降,需要進(jìn)一步的研究。如果語音的音頻不正確,則拒絕服務(wù),這樣能為人們生活的安全和方便帶來深遠(yuǎn)的影響。
[1]JELINEKF.ContinuousSpeechRecognitionbyStatisticalMethods[J].ProceedingsofTricomm,1976,64(4):532-536.
[2] 邵強(qiáng),馮長建,管麗娜,等.混合密度連續(xù)HMM在旋轉(zhuǎn)機(jī)械啟動過程故障診斷中的應(yīng)用[J].機(jī)械科學(xué)與技術(shù), 2009,28(11):1439-1443.
[3]LEONARDE,BAUMJ,EAGONA.AninequalitywithapplicationstostatisticalestimationforprobabilisticfunctionsofMarkovprocessesandtoamodelforecology[J].BulletinoftheAmericanMathematicalSociety,1967,73:360-363.
[4]BAUMLE.AninequalityandassociatedmaximizationtechniqueinstatisticalestimationforprobabilisticfunctionsofaMarkovprocess[J].Inequalities,1972(3):1-8.
[5]RABINERLR,LEVINSONSE,SONDHIMM.OntheapplicationofvectorquantizationandhiddenMarkovmodelstospeakerin-dependent,isolatedwordrecognition[J].TheBellSystemTechnicalJournal,1993:321-371.
[6]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ProcessingoftheIEEE,1989,77(2):257-285.
[7] 張金良,裴春寶,擁措.隱馬爾科夫模型在列車無線傳輸中的應(yīng)用[J].西安工程大學(xué)學(xué)報,2015(4):457-461.
[8] 韓紀(jì)慶,徐希利.一種基于矢量量化的音頻場景分析方法[J].電聲技術(shù),2002(3):8-10.
[9] 肖明,賈振紅.基于輪廓特征的HMM手寫數(shù)字識別[J].計(jì)算機(jī)工程與應(yīng)用,2010(33):172-174.
[10]程延偉,謝永成,李光升.基于加權(quán)HMM的車輛電源系統(tǒng)狀態(tài)預(yù)測[J].計(jì)算機(jī)應(yīng)用,2011(6):1696-1698.
[11]嚴(yán)焰,劉蓉,黃璐,等.基于HMM的手勢識別研究[J].華中師范大學(xué)學(xué)報(自然科學(xué)版),2012(5):555-559.
[12]闕大順,趙永安,文先林,等.基于DHMM和VQ的關(guān)鍵詞識別系統(tǒng)研究[J].武漢理工大學(xué)學(xué)報,2011(2):140-143,152.
[13]張建勛,汪波,侯之旭,等.圖像多特征融合的障礙物檢測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015(3):65-70.
[14]曾祥鑫,李飚,劉坤.基于對比度和局部結(jié)構(gòu)特征的顯著性檢測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015(9):93-97.
[15]竺樂慶,王鴻斌,張真.基于Mel倒譜系數(shù)和矢量量化的昆蟲聲音自動鑒別[J].昆蟲學(xué)報,2010(8):901-907.
[16]丁啟全,馮長建,李志農(nóng),等.旋轉(zhuǎn)機(jī)械啟動全過程DHMM故障診斷方法研究[J].振動工程學(xué)報.2003(1):41-45.
(責(zé)任編輯 楊黎麗)
The Application of DHMM in Home-Security Door with Tibetan Speech Recognition
PEI Chun-bao
(Tibetan Information Technology Research Center, Tibet University, Lhasa 850000, China)
Besides the traditional security lock, the protective measures of home-security door includes fingerprint identification.This study provides a more secure Tibetan speech recognition system based DHMM. By voice monitoring methods and the introduction of the vector quantization (VQ) algorithm, it established a security door voice discrete hidden Markov model (DHMM). By MFCC feature parameters extraction, it applied LBG algorithm in Tibetan code-book design, and exported observe parameters revaluation form sequence.30 persons’voice signals was chosen as the experiment object. The result showed a recognition accuracy rate of more than 99%, which verifies the applicability of this method.
hidden Markov model; Tibetan speech recognition; vector quantification
2016-04-18 基金項(xiàng)目:2016年度教育部人文社會科學(xué)青年基金資助項(xiàng)目(16XZJCZH001);西藏自治區(qū)自然科學(xué)基金資助項(xiàng)目(2015ZR-14-1);2014年度西藏大學(xué)青年科研培育基金資助項(xiàng)目(ZDPJZK201403);國家哲學(xué)社會科學(xué)重大項(xiàng)目(14ZDB101);西藏自治區(qū)高校青年教師創(chuàng)新支持計(jì)劃資助項(xiàng)目(QC2015-19);西藏大學(xué)珠峰學(xué)者人才發(fā)展計(jì)劃“杰出青年學(xué)者”階段性成果
裴春寶(1980—),女,碩士研究生,主要從事語音識別研究,E-mail:375394610@qq.com。
裴春寶.DHMM在家用安全門藏文語音識別中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2016(11):150-154.
format:PEI Chun-bao.The Application of DHMM in Home-Security Door with Tibetan Speech Recognition[J].Journal of Chongqing University of Technology(Natural Science),2016(11):150-154.
10.3969/j.issn.1674-8425(z).2016.11.024
TP39
A
1674-8425(2016)11-0150-05