宋亞男,林錫海,徐榮華,宋子寅
(廣東工業(yè)大學自動化學院,廣東廣州 510006)
課題組結(jié)合學生畢業(yè)設(shè)計工作建設(shè)實驗室,提供了進一步研究的平臺和實驗基礎(chǔ)。此項工作讓參與的學生在完成自己的畢業(yè)設(shè)計的同時,也為實驗室建設(shè)作了貢獻。設(shè)計和開發(fā)的結(jié)果可以提供給后屆學生學習和參考,后屆學生更容易在以前學生基礎(chǔ)上進行進一步的工作和研究。本文中闡述了機器人語音識別系統(tǒng)的實驗設(shè)計目標、實現(xiàn)過程以及結(jié)果。
為了便于學習者理解語音識別的基本原理和算法,更好地應(yīng)用凌陽SPCE061A 開發(fā)符合要求的應(yīng)用程序,先基于Matlab設(shè)計了以動態(tài)時間規(guī)整(dynamic time warping,DTW)算法和Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficients,MFCC)參數(shù)提取算法為基礎(chǔ)的孤立詞自動語音識別系統(tǒng);然后結(jié)合機器人語音識別的需求,基于凌陽SPCE061A 設(shè)計了和實現(xiàn)了語音識別應(yīng)用系統(tǒng),基于該研究結(jié)果構(gòu)建了相應(yīng)的實驗方案,并提供本科生學習使用。具體說來,包括下面2個實驗設(shè)計目標:
(1)基于Matlab實現(xiàn)以DTW 算法和MFCC 參數(shù)提取算法為基礎(chǔ)的孤立詞自動語音識別演示實驗,展示給學生語音識別原理,增強學生結(jié)合應(yīng)用思考和解決實際問題的能力;
(2)基于凌陽SPCE061A 完成機器人語音識別系統(tǒng)的半開放實驗(為了便于學習語音識別算法在實際中的應(yīng)用,開放語音識別算法設(shè)計部分,固化硬件電路部分),提供給學生對機器人語音識別算法應(yīng)用研究和改進的平臺。
對于孤立詞來講,使用模板匹配方法進行語音識別,一般就是把整個單詞作為識別單元。在訓練階段,將詞匯表中的每個詞語依次說一遍,然后將其特征矢量時間序列作為模板存入模板庫。在識別階段,將輸入語音的特征矢量時間序列依次與模板庫中的每個模板進行相似度比較,選擇相似度最高的作為識別結(jié)果[1-4]。一個完整的孤立詞語音識別系統(tǒng)通常包括語音的輸入、語音信號的預(yù)處理、特征提取和訓練與識別等環(huán)節(jié),基本構(gòu)成如圖1所示[5-9]。
圖1 典型的語音識別系統(tǒng)
(1)預(yù)處理:包括對語音數(shù)據(jù)進行去噪、預(yù)加重、分幀、加窗等處理。
(2)特征提?。赫Z音識別很重要的一環(huán)就是特征參數(shù)提取,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性,各階參數(shù)之間有良好的獨立性。
(3)訓練:在訓練階段,將特征參數(shù)進行一定的處理之后,為每個詞條得到一個模型,保存為模板庫。
(4)識別:在識別階段,語音信號經(jīng)過相同的通道得到語音參數(shù),生成測試模版,并與參考模版進行匹配,將匹配分數(shù)最高的參考模版作為識別結(jié)果。
(5)專家知識:對于不同的語言有不同的語言學專家知識庫,可以在很多先驗知識的幫助下,提高識別的準確率[10-14]。
(1)在基于Matlab實現(xiàn)以DTW 算法和MFCC參數(shù)提取算法為基礎(chǔ)的孤立詞自動語音識別演示實驗中,基于PC 機的語音識別系統(tǒng)的語音采集過程見圖2。語音聲波通過話筒輸入到聲卡后直接獲得的是經(jīng)過濾波、A/D 變換、量化處理的離散的數(shù)字信號。獲得語音信號后,在Matlab環(huán)境中實現(xiàn)如圖1的語音訓練和識別[15]。
圖2 基于PC機的語音錄制過程框圖
(2)在基于凌陽SPCE061A 完成機器人語音識別系統(tǒng)的半開放實驗中,系統(tǒng)結(jié)構(gòu)圖見圖3。獲得語音信號后,在凌陽SPCE061A 中實現(xiàn)如圖1的語音訓練和識別。
圖3 SPCE061A語音識別系統(tǒng)結(jié)構(gòu)框圖
這里主要采用基于DTW 算法和MFCC 參數(shù)提取算法實現(xiàn)語音識別,因為實驗設(shè)計不同,控制器開放程度不一樣,所以具體設(shè)計見2.4和2.5節(jié)。
2.4.1 實驗?zāi)康?/p>
實驗?zāi)康模簬椭鷮W生理解語音識別原理;基于Matlab實現(xiàn)孤立詞語音識別,培養(yǎng)學生語音識別算法設(shè)計和應(yīng)用的興趣。
2.4.2 實驗內(nèi)容和實驗步驟
(1)利用Windows自帶的錄音機錄制語音文件,由聲卡(見圖2)完成語音波形的A/D 轉(zhuǎn)換,獲得Wave文件,提供后續(xù)處理語音文件。
(2)用wavread函數(shù)讀入錄制的Wave文件,用Soundview 函數(shù)可以將錄制語音信號的波形圖顯示出來,用vad函數(shù)對其進行端點檢測。
(3)對語音信號進行預(yù)處理和端點檢測后,用MFCC函數(shù)提取語音信號的特征參數(shù),用DTW 函數(shù)實現(xiàn)語音識別,在Matlab命令窗口中輸入‘testdtw’,可以得到語音識別結(jié)果。
2.5.1 實驗?zāi)康?/p>
基于凌陽SPCE061A 完成機器人語音識別系統(tǒng)的半開放實驗。為了便于學習語音識別算法在實際中的應(yīng)用,開放語音識別算法設(shè)計部分,固化硬件電路部分,提供給學生對機器人語音識別算法應(yīng)用研究和改進的平臺。
2.5.2 實驗內(nèi)容和實驗步驟
(1)按圖3連接系統(tǒng)。
(2)在集成開發(fā)環(huán)境unSP IDE2.0.0 中編寫程序,編譯、鏈接、調(diào)試好程序后,根據(jù)SPCE061A 的開發(fā)方法,把程序下載到SPCE061A 開發(fā)板上進行軟硬件聯(lián)調(diào)。
(3)現(xiàn)有語音識別人機交互系統(tǒng)實例:通過3條語句的訓練演示特定人連續(xù)音識別,其中第1條語句為觸發(fā)命令,在程序一開始為訓練名稱,即觸發(fā)命令,然后提示訓練2條命令(根據(jù)機器人的設(shè)計要求,自定義觸發(fā)名稱為“小車”,2條命令為“過來”和“撿球”),訓練完畢開始辨識,當識別出觸發(fā)名稱后,發(fā)布命令則會聽到應(yīng)答,相關(guān)I/O 口的輸出變?yōu)榈碗娖健H藱C交互系統(tǒng)語音訓練階段和識別階段的具體命令分別如表1和表2所示[15]:
表1 人機交互語音訓練階段命令
表2 人機交互語音識別階段
即根據(jù)提示音進行連續(xù)語音訓練,將“小車”、“過來”、“撿球”3條語句存入存儲器中,提取特征參數(shù)作為參考模板;然后進行語音識別測試,對“小車”、“過來”、“撿球”中的每條語句分別進行測試。每次正確識別出語音后,用萬用表測試IOB口的端口電平,以端口電平的高低來判斷每次IOB口輸出是否為正確信號。
可在上述2個實驗中添加代碼,實現(xiàn)更高識別率的算法或者研究更復(fù)雜語音(連續(xù)語音、噪聲環(huán)境下的語音)的識別,算法學生自行設(shè)計。
機器人語音識別系統(tǒng)實驗設(shè)計與實現(xiàn)是由學生林錫海的本科畢業(yè)設(shè)計工作完成的,特此表示感謝。在相關(guān)基金項目的資助下正準備將機器人語音識別系統(tǒng)實驗引入本科實驗教學中,已經(jīng)經(jīng)過部分學生和教師的試運行,受到好評。實踐表明:這種將本科學生的畢業(yè)設(shè)計與實驗室建設(shè)相結(jié)合,在實驗設(shè)備緊張的情況下,既能讓學生有機會參與具體實踐,同時學生的優(yōu)秀設(shè)計可以服務(wù)于實驗室建設(shè),為后屆學生提供參考和開設(shè)新的實驗項目,也使實驗資源得到了充分利用。
(
)
[1]邢銘生,朱浩,王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇,2010(3):62-63.
[2]Lawrence Rabiner,Biing-Hwang Juang.Fundamentals of Speech Recognition[J].New Jersey:Prentice Hall,1993:210-241.
[3]劉么和,宋庭新.語音識別與控制應(yīng)用技術(shù)[M].北京:科學出版社,2008.
[4]Sakoe H,Chiba S.Dynamic programming optimization for spoken word recognition[J].IEEE Trans Acoustics,Speech,Signal Proc,1978,26(1):43-49.
[5]韓紀慶,張磊.語音信號處理[M].北京:清華大學出版社,2004.
[6]曾靚.小語音庫的語音識別及實現(xiàn)[D].廣州:中山大學,2009.
[7]Shariah M A M,Ainon R N,Zainuddin R,et al.Human Computer Interaction Using Isolated-Words Speech Recognition Technology[C]//International Conference on Intelligent and Advanced Systems,2007:1173-1178.
[8]何強,何英.MATLAB擴展編程[M].北京:清華大學出版社,2002.
[9]馬莉,黨幼云.特定人孤立詞語音識別系統(tǒng)的仿真與分析[J].西安工程科技學院學報,2007,21(3):371-373.
[10]楊雪松.面向智能服務(wù)機器人的非特定人交互口令語音識別系統(tǒng)研究[D].北京:北京大學,2009.
[11]李守軒.輪椅機器人語音識別控制系統(tǒng)的研究與實現(xiàn)[D].南昌:南昌大學,2007.
[12]羅亞非.凌陽16位單片機應(yīng)用基礎(chǔ)[M].北京:北京航空航天大學出版社,2005.
[13]張震宇,王華,于愛華.基于SPCE061A 語音單片機的智能小車的控制[J].浙江科技學院學報,2007,19(1):27-30.
[14]汪敏,周鵬.凌陽16位單片機實驗與實踐[M].北京:北京航空航天大學出版社,2007.
[15]林錫海.召喚式撿球機器人的語音識別系統(tǒng)設(shè)計與實現(xiàn)[D].廣州:廣東工業(yè)大學,2011.