DHMM在家用安全門藏文語音識別中的應(yīng)用

2016-12-12 09:09:26裴春寶

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2016年11期

關(guān)鍵詞：重估安全門家用

裴春寶

( 西藏大學(xué) 藏文信息技術(shù)研究中心，拉薩 850000)

DHMM在家用安全門藏文語音識別中的應(yīng)用

裴春寶

( 西藏大學(xué) 藏文信息技術(shù)研究中心，拉薩 850000)

對于家用安全門的防護(hù)措施，除了傳統(tǒng)的安全鎖，目前也使用一些指紋識別技術(shù)。給出了一種安全性更高的基于DHMM的家用安全門藏文語音識別系統(tǒng)。通過語音的監(jiān)控方式，引入矢量量化(VQ)算法，同時建立安全門語音的離散隱馬爾科夫模型(DHMM)。通過MFCC的特征參數(shù)抽取，將LBG算法應(yīng)用在藏文碼書設(shè)計(jì)中，導(dǎo)出多觀察序列的參數(shù)重估形式。在實(shí)驗(yàn)中選擇30個人的語音信號作為實(shí)現(xiàn)對象，結(jié)果表明，識別準(zhǔn)確率達(dá)到99%以上，驗(yàn)證了此方法的可適用性。

隱馬爾科夫模型；藏文語音識別；矢量量化

隨著時代的發(fā)展，人們對于生活的要求越來越高，應(yīng)運(yùn)而生的無線傳感技術(shù)、無線通信技術(shù)以及無線網(wǎng)絡(luò)技術(shù)都有了長足的發(fā)展。傳統(tǒng)的家用安全門是針對安全鎖進(jìn)行升級，使得用戶通過盡可能繁瑣地調(diào)整鎖來保證人身和財(cái)產(chǎn)的安全，但會導(dǎo)致一旦鑰匙丟失，或者密碼鎖的密碼遺忘，都會給用戶帶來不必要的麻煩，對自身的物力和財(cái)力都會造成消耗。

本設(shè)計(jì)提出的離散隱馬爾科夫模型是一種統(tǒng)計(jì)模型，在語音識別領(lǐng)域得到了很好的應(yīng)用。其理論基礎(chǔ)源于1970年左右Baum等[3-4]，隨后，CMU的Baker和IBM公司的Jelinek等將它引入到語音識別中[1]。真正的HMM模型被全世界的語音研究人員所認(rèn)識是通過Bell實(shí)驗(yàn)室的Rabiner等人的努力。隨著HMM模型的進(jìn)一步演化，它的應(yīng)用領(lǐng)域也在不斷擴(kuò)大，目前已在金融市場的波動分析、手寫字識別[9]、手勢識別[11]、旋轉(zhuǎn)機(jī)械啟動故障診斷[2,16]、電源監(jiān)控[10]、經(jīng)濟(jì)預(yù)算、語音識別、神經(jīng)生理學(xué)與生物遺傳等方面有了很好的應(yīng)用。家用安全門設(shè)計(jì)的音頻信號是非平穩(wěn)的，DHMM模型是一種模擬非平穩(wěn)動態(tài)模型的多元統(tǒng)計(jì)工具[12]。在很多領(lǐng)域圖形識別和語音識別被廣泛地應(yīng)用，需要通過對局部結(jié)構(gòu)特征的分析得到關(guān)于目標(biāo)和背景的先驗(yàn)分布信息，再進(jìn)一步對比度特征和空間位置關(guān)系特征進(jìn)行抽取[13-14]。

1 DHMM模型算法的應(yīng)用

DHMM模型是一種隨機(jī)過程的統(tǒng)計(jì)模型。在某一時刻的一個事件必然是處于一個狀態(tài)，t時刻的狀態(tài)會受到前一個時刻狀態(tài)的影響，同時會產(chǎn)生一個觀測值，觀測值都會對應(yīng)一個概率分布。

用參數(shù)集α=(π,C,D)描述DHMM模型。假設(shè)st，是通過有限狀態(tài)空間Θ={1,2，…,M}的齊次馬爾科夫鏈，Lt，t≥1是觀測序列，取值范圍為集合R={r1,r2,…,rn}。定義模型的參數(shù)：

初始分布η：

(η=(η1,η2,…,ηm)

ηi=P(s1=i),i∈Θ)

狀態(tài)轉(zhuǎn)移概率矩陣C=(cij)：

cij=P(st+1=j|st=i),i,j∈Θ

觀察值概率矩陣D=(di(rj))：

di(rj)=P(Lt=rj|st=i),i∈Θ,rj∈R

1.1 DHMM觀察序列的參數(shù)重估

給定觀察序列L是DHMM模型的重要內(nèi)容。通過調(diào)整模型參數(shù)α，得到概率P(L|α)的最大值，實(shí)現(xiàn)參數(shù)的重估。標(biāo)定需要很多樣本的參與才能解決前后向變量的溢出問題。

多觀察序列的Baum-Welch的重估公式為[5-7]：

(1)

(2)

(3)

同理，可得多觀察序列觀察值重估公式的標(biāo)定形式為：

(4)

1.2 對隱狀態(tài)的估計(jì)

κt(i)為沿某條路徑s1,s2,…,st，t時刻的狀態(tài)st=i同時生成觀察序列l(wèi)1,l2,…,lt的最大概率：

由歸納法可算出st(i)，推理公式為

(5)

然而在計(jì)算機(jī)上實(shí)現(xiàn)時，κt(i)會超出雙精度而出現(xiàn)溢出狀態(tài)，所以實(shí)際計(jì)算κt(i)的對數(shù)值的步驟如下：

初始化：

lg[κ1(i)]=lg(ηi)+lg[di(l1)],1≤i≤M；

ψ1(i)=0,1≤i≤M；

對公式(5)取對數(shù)得到遞推公式為：

則最佳狀態(tài)的概率對數(shù)值為：

2 DHMM模型在家用安全門語音識別的應(yīng)用

DHMM模型在家用安全門語音識別的結(jié)構(gòu)系統(tǒng)主要分為訓(xùn)練過程和識別過程。這里提取的是語音的倒譜域參數(shù)，主要分為MFCC和LPCC參數(shù)[15]，它們都是多維矢量，分別得出48維的MFCC和LPCC參數(shù)。HMM模型可把矢量序列轉(zhuǎn)換為標(biāo)量序列，矢量量化能很好地完成這樣的任務(wù)。通過LBG算法[8]可完成碼書的設(shè)計(jì)。

在模型的訓(xùn)練和語音識別中，以得到訓(xùn)練和識別語音的特征參數(shù)矢量和碼書各個碼字的歐式距離。通過最小序號的碼字為觀察值的幀，可以完成輸入語音到觀察序列的轉(zhuǎn)換，能很好地應(yīng)用于DHMM模型的訓(xùn)練和識別。

2.1 MFCC參數(shù)和LPCC參數(shù)的特征抽取

MFCC參數(shù)和LPCC參數(shù)是不同的兩種特性區(qū)別，其中，MFCC參數(shù)通過人耳聽覺來判斷，而LPCC參數(shù)通過語音識別模型獲得。MFCC參數(shù)抽取的過程如圖1所示。

圖1 MFCC特征參數(shù)的抽取

語音首先通過預(yù)加重和分幀以及加窗過程后，通過對每幀進(jìn)行快速的傅里葉(FFT)轉(zhuǎn)換，得到短時頻譜；然后頻譜通過48個Mel頻率三角濾波器過濾。通過濾波器輸出的每一個能量去對數(shù)，得到對數(shù)的能量，由對數(shù)能量得出DCT的倒譜。

2.2 DHMM模型的訓(xùn)練過程

對語音分段的階段，需要選同一樣的語音，一般每段語音的長度為20幀到600幀。訓(xùn)練過程是一個迭代的過程。觀察值概率矩陣很重要，因此需要首先得出D的初始值。對于影響小的C和α可以根據(jù)訓(xùn)練模型的要求手動設(shè)置。計(jì)算D的初值，需要根據(jù)α、C、D的初值應(yīng)用Viterbi算法得出語音的隱狀態(tài)，同時得出各個觀測值的概率，然后得到D的初值。

通過初始值可以實(shí)現(xiàn)參數(shù)重估的一直循環(huán)。應(yīng)用Baum-Welch算法對模型進(jìn)行重估，然后通過Viterbi算法計(jì)算重估模式下觀測值序列出現(xiàn)的概率，穩(wěn)定概率后，才可以停止參數(shù)重估的循環(huán)。為了確保訓(xùn)練模型準(zhǔn)確率更高，選擇迭代次數(shù)為 1 000 次。由多次的循環(huán)結(jié)束得到的結(jié)果，可以看到矩陣D的元素大多值為0，這樣會使Viterbi算法算出的結(jié)果無效，需要在每次參數(shù)重估以后進(jìn)行矩陣D的矯正，將0都改為最小的正數(shù)10-5，同時還要滿足每一行的元素之和為1。

語音的開始都是從第一個字或者音素，開始和結(jié)束的狀態(tài)固定。為了計(jì)算的方便，把發(fā)音的開始狀態(tài)強(qiáng)制定義為1，則它的初始概率可以表示為

α=(1,0,…,0)

對于安全門的語音識別信號，需要對信號進(jìn)行分割。通過隨機(jī)的分割，來判斷聲音與原訓(xùn)練的語音模型是否相符。本文的模型狀態(tài)是10個，所以它的初始狀態(tài)為等概率狀態(tài)為：

α=(0.1,0.1,…,0.1)

DHMM模型的參數(shù)C決定了模型的形式。DHMM模型的語音識別方式是開始狀態(tài)和結(jié)束狀態(tài)都是固定的，最后一個只能傳到自身。

2.3 語音識別過程

3 實(shí)驗(yàn)結(jié)果分析

選擇30個人的聲音作為語音識別對象進(jìn)行實(shí)驗(yàn)。每種音頻10個樣本用于訓(xùn)練DHMM模型，另外10個樣本用于識別，HMM模型的訓(xùn)練次數(shù)是 1 000 次。語音音頻的采樣頻率為6MHz，經(jīng)過截止頻率為3MHz的低通濾波器后分幀，每幀為256個采樣點(diǎn)，幀移為60個采樣點(diǎn)。訓(xùn)練出的狀態(tài)轉(zhuǎn)移概率矩陣為Y：

從表1可以看出：語音男的概率對數(shù)值大部分相同，語音女的概率對數(shù)值大部分也相似，說明他們的音頻相似，與實(shí)際情況相同。

語音識別的關(guān)鍵在于實(shí)時性，因此能無延時地識別語音而自動執(zhí)行相關(guān)命令，具有很高的實(shí)用性。采用Viterbi算法實(shí)現(xiàn)識別功能，在Matlab仿真中，50幀長度的語音識別需要0.23s左右。

通過選擇合適的幀，使得識別準(zhǔn)確率更加的合理。從圖2可以看出幀數(shù)與識別率的關(guān)系，幀數(shù)在30幀到80幀的時候識別準(zhǔn)確率是比較高的；在幀數(shù)低于10時，識別準(zhǔn)確率下降很快，高于80以后識別準(zhǔn)確率也稍有下降。

表1 30語音個人在DHMM模型下的概率對數(shù)值

圖2 語音的識別準(zhǔn)確率與幀數(shù)的關(guān)系

去噪環(huán)境下，對MFCC參數(shù)的識別率在93%左右，LPCC的識別率在93.4%左右。在有噪聲干擾的情況下，識別準(zhǔn)確性會有所下降。當(dāng)HMM個數(shù)減少時，準(zhǔn)確識別率反而增高；碼書的距離越大，識別率也越高，但會由于計(jì)算量的增加而延時，這樣更便于用戶對家用安全門的使用。

4 結(jié)束語

針對家用安全門的語音識別，采用MFCC作為DHMM模型的特征參數(shù)，同時應(yīng)用矢量量化來進(jìn)行構(gòu)造模型和訓(xùn)練，完成對語音的分析和識別功能，使得語音識別的準(zhǔn)確率達(dá)到96.5%以上，可應(yīng)用在家用安全門以及一些其他方面。當(dāng)有噪聲干擾時，識別率會下降，需要進(jìn)一步的研究。如果語音的音頻不正確，則拒絕服務(wù)，這樣能為人們生活的安全和方便帶來深遠(yuǎn)的影響。

[1]JELINEKF.ContinuousSpeechRecognitionbyStatisticalMethods[J].ProceedingsofTricomm，1976,64(4):532-536.

[2] 邵強(qiáng),馮長建,管麗娜,等.混合密度連續(xù)HMM在旋轉(zhuǎn)機(jī)械啟動過程故障診斷中的應(yīng)用[J].機(jī)械科學(xué)與技術(shù)， 2009，28(11):1439-1443.

[3]LEONARDE，BAUMJ,EAGONA.AninequalitywithapplicationstostatisticalestimationforprobabilisticfunctionsofMarkovprocessesandtoamodelforecology[J].BulletinoftheAmericanMathematicalSociety,1967,73:360-363.

[4]BAUMLE.AninequalityandassociatedmaximizationtechniqueinstatisticalestimationforprobabilisticfunctionsofaMarkovprocess[J].Inequalities,1972(3):1-8.

[5]RABINERLR,LEVINSONSE,SONDHIMM.OntheapplicationofvectorquantizationandhiddenMarkovmodelstospeakerin-dependent,isolatedwordrecognition[J].TheBellSystemTechnicalJournal,1993:321-371.

[6]RABINERLR.AtutorialonhiddenMarkovmodelsandselectedapplicationsinspeechrecognition[J].ProcessingoftheIEEE,1989,77(2):257-285.

[7] 張金良,裴春寶,擁措.隱馬爾科夫模型在列車無線傳輸中的應(yīng)用[J].西安工程大學(xué)學(xué)報,2015(4):457-461.

[8] 韓紀(jì)慶,徐希利.一種基于矢量量化的音頻場景分析方法[J].電聲技術(shù),2002(3):8-10.

[9] 肖明,賈振紅.基于輪廓特征的HMM手寫數(shù)字識別[J].計(jì)算機(jī)工程與應(yīng)用,2010(33):172-174.

[10]程延偉,謝永成,李光升.基于加權(quán)HMM的車輛電源系統(tǒng)狀態(tài)預(yù)測[J].計(jì)算機(jī)應(yīng)用,2011(6):1696-1698.

[11]嚴(yán)焰,劉蓉,黃璐,等.基于HMM的手勢識別研究[J].華中師范大學(xué)學(xué)報(自然科學(xué)版),2012(5)：555-559.

[12]闕大順,趙永安,文先林,等.基于DHMM和VQ的關(guān)鍵詞識別系統(tǒng)研究[J].武漢理工大學(xué)學(xué)報,2011(2):140-143,152.

[13]張建勛,汪波,侯之旭,等.圖像多特征融合的障礙物檢測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015(3):65-70.

[14]曾祥鑫,李飚,劉坤.基于對比度和局部結(jié)構(gòu)特征的顯著性檢測[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015(9):93-97.

[15]竺樂慶,王鴻斌,張真.基于Mel倒譜系數(shù)和矢量量化的昆蟲聲音自動鑒別[J].昆蟲學(xué)報,2010(8):901-907.

[16]丁啟全,馮長建,李志農(nóng),等.旋轉(zhuǎn)機(jī)械啟動全過程DHMM故障診斷方法研究[J].振動工程學(xué)報.2003(1):41-45.

(責(zé)任編輯楊黎麗)

The Application of DHMM in Home-Security Door with Tibetan Speech Recognition

PEI Chun-bao

(Tibetan Information Technology Research Center, Tibet University, Lhasa 850000, China)

Besides the traditional security lock, the protective measures of home-security door includes fingerprint identification.This study provides a more secure Tibetan speech recognition system based DHMM. By voice monitoring methods and the introduction of the vector quantization (VQ) algorithm, it established a security door voice discrete hidden Markov model (DHMM). By MFCC feature parameters extraction, it applied LBG algorithm in Tibetan code-book design, and exported observe parameters revaluation form sequence.30 persons’voice signals was chosen as the experiment object. The result showed a recognition accuracy rate of more than 99%, which verifies the applicability of this method.

hidden Markov model; Tibetan speech recognition; vector quantification

2016-04-18 基金項(xiàng)目：2016年度教育部人文社會科學(xué)青年基金資助項(xiàng)目(16XZJCZH001)；西藏自治區(qū)自然科學(xué)基金資助項(xiàng)目(2015ZR-14-1)；2014年度西藏大學(xué)青年科研培育基金資助項(xiàng)目(ZDPJZK201403)；國家哲學(xué)社會科學(xué)重大項(xiàng)目(14ZDB101)；西藏自治區(qū)高校青年教師創(chuàng)新支持計(jì)劃資助項(xiàng)目(QC2015-19)；西藏大學(xué)珠峰學(xué)者人才發(fā)展計(jì)劃“杰出青年學(xué)者”階段性成果

裴春寶(1980—)，女，碩士研究生，主要從事語音識別研究，E-mail:375394610@qq.com。

裴春寶.DHMM在家用安全門藏文語音識別中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(自然科學(xué))，2016(11):150-154.

format：PEI Chun-bao.The Application of DHMM in Home-Security Door with Tibetan Speech Recognition[J].Journal of Chongqing University of Technology(Natural Science)，2016(11):150-154.

10.3969/j.issn.1674-8425(z).2016.11.024

TP39

1674-8425(2016)11-0150-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

DHMM在家用安全門藏文語音識別中的應(yīng)用

1 DHMM模型算法的應(yīng)用

3 實(shí)驗(yàn)結(jié)果分析

4 結(jié)束語