王愛蕓
摘要:研究實用的智能家居語音識別系統(tǒng),對于智能家居的發(fā)展具有重要意義。通過分析嵌入式語音識別技術以及智能家居控制技術,以NL6621板為平臺,VS1003為音頻解碼芯片錄制語音。并利用隱馬爾可夫(HMM)算法進行語音模型訓練和語音匹配,實現(xiàn)智能家居語音控制系統(tǒng)。實驗證明此語音控制系統(tǒng)具有較高的識別率和實時性。
關鍵詞:嵌入式系統(tǒng);語音識別;隱馬爾可夫;智能家居
中圖分類號:TP316.9
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
隨著計算機的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡技術實現(xiàn)家居設備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發(fā)展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。
本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現(xiàn)直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實現(xiàn)語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現(xiàn)對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統(tǒng)的訓練識別下,系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。
1 語音識別與智能家居
1.1 語音識別技術
語音識別技術本質上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據(jù)模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為:特定人和非特定人的識別、獨立詞和連續(xù)詞的識別等,無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統(tǒng)中存放的語音進行比較從而得到識別結果。
1.2 語音識別算法
人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程,采用HMM進行語音識別,實質上是一種概率運算,根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態(tài),Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統(tǒng)只能處于唯一一個狀態(tài)qt,下一個時刻所處的狀態(tài)是隨機出現(xiàn)的,當前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關, 與其他狀態(tài)無關,用表達式
HMM語音識別的一般過程:
1.前向后向算法計算
已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產生觀測序列O的概率
2.Baum-Welch算法求出最優(yōu)解 :
(1)初始化
(2)迭代計算
(3)最后計算
3.Viterbi算法解出最佳狀態(tài)轉移序列:
已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。
(1)初始化
(2)迭代計算:
4.根據(jù)最佳狀態(tài)序列對應的九給出候選音節(jié)或聲韻母
5.通過語言模型形成詞和句子
2 基于NL6621嵌入式硬件設計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些外圍設備,硬件體系結構如圖2所示。
主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。
3 基于NL6621嵌入式軟件設計
軟件設計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。
針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統(tǒng)啟動后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統(tǒng)監(jiān)聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發(fā)送給執(zhí)行設備,入耳不正確,給出相應
的錯誤提示,不執(zhí)行語音命令。判斷識別是否結束,如果結束則退出,否則繼續(xù)下一輪的識別?;贖MM技術的語音識別算法編寫,還包括了語音預處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經過預處理后,語音信號的特征被提取出來,首先在此基礎上建立所需的模板,這個建立模板的過程稱為訓練過程。根據(jù)語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號的定義,通過查表就可以給出計算機的識別結果。采用HMM進行語音識別,實質上是一種概率運算。根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。除訓練時需運算量較大外,識別時的運算量僅有模式匹配法的幾分之一。
4 實驗與總結
將程序下載到NL6621平臺上運行,實時傳人語音,麥克風傳人16k采樣的ADPCM語音流,通過解碼算法轉換為PCM語音數(shù)據(jù),然后再通過語音識別系統(tǒng)識別語音結果。實驗結果表明在普通的工作環(huán)境中進行錄音解析系統(tǒng)的識別率可達到90%以上,具有較好的識別精度和效率。本文設計了一個簡單嵌入式語音識別的平臺,并通過實驗驗證了其語音識別有效性及可行性。對智能家居中嵌入式語音控制開發(fā)具有一定的意義。我們仍要通過不斷研究,設計更加可靠方便的系統(tǒng),從而使智能家居語音識別走向跟成熟的市場。