米輝輝 李成偉
摘要:本文自建了語(yǔ)音數(shù)據(jù)庫(kù),用于系統(tǒng)搭建中模型的訓(xùn)練和測(cè)試,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)英文語(yǔ)音撥號(hào)系統(tǒng),進(jìn)而實(shí)現(xiàn)了英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng)。本文重點(diǎn)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),該系統(tǒng)是一個(gè)連續(xù)語(yǔ)音識(shí)別系統(tǒng),能夠?qū)?-9英文數(shù)字串和5組人名進(jìn)行識(shí)別,具有一個(gè)人性化的人機(jī)交互界面,能對(duì)識(shí)別結(jié)果進(jìn)行實(shí)時(shí)顯示。性能測(cè)試表明系統(tǒng)對(duì)特定人取得了很好的識(shí)別效果:語(yǔ)句級(jí)識(shí)別率達(dá)到了80%,字詞級(jí)的識(shí)別率達(dá)到了100%。
關(guān)鍵詞:語(yǔ)音識(shí)別;隱馬爾科夫模型;語(yǔ)音撥號(hào)系統(tǒng)
1 引言
本文自建了語(yǔ)音數(shù)據(jù)庫(kù),用于系統(tǒng)搭建中模型的訓(xùn)練和測(cè)試,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)英文語(yǔ)音撥號(hào)系統(tǒng),進(jìn)而實(shí)現(xiàn)了英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng)。本文重點(diǎn)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),該系統(tǒng)是一個(gè)連續(xù)語(yǔ)音識(shí)別系統(tǒng),能夠?qū)?-9英文數(shù)字串和5組人名進(jìn)行識(shí)別,具有一個(gè)人性化的人機(jī)交互界面,能對(duì)識(shí)別結(jié)果進(jìn)行實(shí)時(shí)顯示。性能測(cè)試表明系統(tǒng)對(duì)特定人取得了很好的識(shí)別效果:語(yǔ)句級(jí)識(shí)別率達(dá)到了80%,字詞級(jí)的識(shí)別率達(dá)到了100%。
2系統(tǒng)結(jié)構(gòu)及實(shí)現(xiàn)
2.1 基于ATK的實(shí)時(shí)語(yǔ)音撥號(hào)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本系統(tǒng)是一個(gè)實(shí)時(shí)英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),其搭建過(guò)程可以分為兩大步:1、基于HTK(Hidden Markov Model Toolkit)的撥號(hào)系統(tǒng)的搭建;2、使用基于HTK的撥號(hào)系統(tǒng)的任務(wù)語(yǔ)法文件、任務(wù)字典文件、模型列表文件和模型文件,在Microsoft Visual Studio 2010平臺(tái)下運(yùn)用ATK工具箱進(jìn)行編程,實(shí)現(xiàn)識(shí)別結(jié)果的實(shí)時(shí)顯示,并且能夠?qū)ο到y(tǒng)工作過(guò)程進(jìn)行監(jiān)控。
2.1.1 ATK語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)
使用ATK搭建的語(yǔ)音識(shí)別應(yīng)用系統(tǒng)結(jié)構(gòu)如圖2-2所示。
在基于HTK的英文語(yǔ)音撥號(hào)系統(tǒng)的基礎(chǔ)上,使用ATK工具箱在VISUAL STUDIO 2010平臺(tái)下編程實(shí)現(xiàn)本系統(tǒng)。
在系統(tǒng)運(yùn)行界面,在cmd命令框中輸入命令,進(jìn)入debug文件夾,輸入命令:TREC –C 參數(shù)文件即可進(jìn)入本英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),系統(tǒng)運(yùn)行界面如圖2-3所示。
圖2-3中,AREC識(shí)別窗口,能夠?qū)ψR(shí)別結(jié)果進(jìn)行實(shí)時(shí)顯示。在AREC窗口底部,還能顯示識(shí)別器狀態(tài)、識(shí)別時(shí)間、目前最匹配的模型、活躍的模型數(shù)目等參數(shù)。ACODE窗口能夠顯示語(yǔ)音數(shù)據(jù)被轉(zhuǎn)化成為特征參數(shù)的情況。MONITOR窗口是系統(tǒng)監(jiān)視器,能夠監(jiān)視系統(tǒng)各模塊的工作情況。
2.1.2 系統(tǒng)性能分析
本系統(tǒng)是一個(gè)英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),能夠連續(xù)識(shí)別0-9英文數(shù)字串以及5組英文人名,并能夠?qū)ψR(shí)別結(jié)果進(jìn)行實(shí)時(shí)顯示。特別地,本系統(tǒng)是針對(duì)音素進(jìn)行建模,因此添加一個(gè)新的電話號(hào)碼無(wú)需更新系統(tǒng),而添加新的人名也只需更新相應(yīng)的任務(wù)字典和任務(wù)語(yǔ)法,系統(tǒng)的可擴(kuò)充能力強(qiáng)。本系統(tǒng)具有靈活的撥號(hào)語(yǔ)法,典型的撥號(hào)語(yǔ)句是DIAL+電話號(hào)碼和CALL或PHONE+人名,特別地,運(yùn)用人名進(jìn)行撥號(hào)時(shí),既可以叫全名也可以只叫姓,符合人們的生活習(xí)慣,具有較強(qiáng)的實(shí)用性。識(shí)別結(jié)果顯示界面如圖2-4所示。
在圖2-4中,系統(tǒng)對(duì)4句撥號(hào)語(yǔ)句進(jìn)行了連續(xù)識(shí)別,其中一句基于數(shù)字的撥號(hào),3句基于人名的撥號(hào),均正確識(shí)別并顯示。并且系統(tǒng)具有較快的反應(yīng)速度,進(jìn)行實(shí)時(shí)識(shí)別時(shí),系統(tǒng)延時(shí)不明顯。
本系統(tǒng)的識(shí)別效果可用HRESULTS函數(shù)來(lái)進(jìn)行評(píng)價(jià),運(yùn)行HRESULTS函數(shù),得圖2-5結(jié)果顯示。
由圖2-5可知,本系統(tǒng)的語(yǔ)句級(jí)的識(shí)別率達(dá)到了80%,而單詞級(jí)的識(shí)別率則達(dá)到了100%,可見(jiàn)系統(tǒng)達(dá)到了很好的識(shí)別效果。值得注意的是,該結(jié)果是在較為安靜的實(shí)驗(yàn)室環(huán)境下錄制的測(cè)試數(shù)據(jù)所得到了識(shí)別率,在噪聲較大的環(huán)境下,系統(tǒng)的識(shí)別效果將有所下降。因此,本系統(tǒng)的抗噪聲干擾能力有待加強(qiáng)
3 本文小結(jié)
本文介紹了基于ATK的英文語(yǔ)音撥號(hào)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),并對(duì)系統(tǒng)的性能進(jìn)行了分析。本系統(tǒng)是一個(gè)英文語(yǔ)音撥號(hào)應(yīng)用系統(tǒng),能夠連續(xù)識(shí)別0-9英文數(shù)字串以及5組英文人名。本系統(tǒng)具有良好的人機(jī)交互界面,能夠?qū)ψR(shí)別結(jié)果進(jìn)行實(shí)時(shí)顯示,系統(tǒng)的反應(yīng)較快,具有很小的識(shí)別延時(shí)。經(jīng)測(cè)試,本系統(tǒng)取得了較好的識(shí)別效果,語(yǔ)句級(jí)的識(shí)別率達(dá)到了80%,而字詞級(jí)的識(shí)別率則達(dá)到了100%。
參考文獻(xiàn)
[1] Daniel Jurafsky,James H. Martin. Speech and Language Processing:An Introduction to Natural Language Process,Computational Linguistics,and Speech Recognition [M]. Second Edition. POSTS & TELECOM PRESS,2010:35-49,319-321
[2] 劉幺和,宋庭新. 語(yǔ)音識(shí)別與控制應(yīng)用技術(shù)[M]. 科學(xué)出版社,2008:2-10
[3] 趙力. 語(yǔ)音信號(hào)處理[M]. 第2版. 機(jī)械工業(yè)出版社,2009:1-4
[4] 李宏梅,伍小芹. 有關(guān)語(yǔ)音識(shí)別技術(shù)的研究[J]. 現(xiàn)代電子技術(shù). 2010,33(8):138-139
[5] 王炳錫,屈丹,彭煊. 實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M]. 國(guó)防工業(yè)出版社,2005:180-181
[6] 韓紀(jì)慶,張磊,鄭鐵然. 語(yǔ)音信號(hào)處理[M]. 清華大學(xué)出版社,2004:1-6
[7] 趙博. 語(yǔ)音識(shí)別應(yīng)用于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的研究[D]. 上海交通大學(xué)碩士學(xué)位論文. 2009:1-2,13-14
[8] http://htk.eng.cam.ac.uk/
[9]張強(qiáng),陶宏才. 基于HTK的語(yǔ)音識(shí)別語(yǔ)言模型設(shè)計(jì)及性能分析[J]. 成都信息工程學(xué)院學(xué)報(bào). 2009,24(2):142-143
[8] 劉盈. 大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 清華大學(xué)工學(xué)碩士學(xué)位論文,2005:2-3
[9] 楊行峻,遲惠生. 語(yǔ)音信號(hào)數(shù)字處理[M]. 電子工業(yè)出版社,1995:330-335
(作者單位:國(guó)網(wǎng)四川省電力公司檢修公司)