李小林++許春冬++杜燕
摘 要:針對(duì)市場(chǎng)上語(yǔ)音識(shí)別系統(tǒng)難以個(gè)性化更改關(guān)鍵詞識(shí)別列表、實(shí)時(shí)性不佳等問(wèn)題,文中設(shè)計(jì)了一款基于嵌入式的非特定人語(yǔ)音識(shí)別系統(tǒng)。該系統(tǒng)具有可個(gè)性化設(shè)置識(shí)別列表、完成非特定人語(yǔ)音識(shí)別等功能。通過(guò)對(duì)不同說(shuō)話人的語(yǔ)音進(jìn)行測(cè)試表明,該設(shè)計(jì)達(dá)到了預(yù)期效果,在相對(duì)安靜的條件下,系統(tǒng)的識(shí)別率接近95%,且操作便捷、算法簡(jiǎn)單,具有很好的實(shí)時(shí)性,可進(jìn)一步運(yùn)用于與語(yǔ)音識(shí)別相關(guān)的電子產(chǎn)品中。
關(guān)鍵詞:嵌入式;語(yǔ)音識(shí)別;非特定人;隱馬爾科夫模型;LD3320;LP2303
中圖分類號(hào):TP39;TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2017)10-00-03
0 引 言
當(dāng)今社會(huì)已經(jīng)朝著現(xiàn)代化、信息化、智能化的方向發(fā)展,信息技術(shù)的浪潮定會(huì)使得人們的生活邁上一個(gè)新臺(tái)階。在這其中,人工智能將體現(xiàn)出巨大的優(yōu)勢(shì),語(yǔ)音識(shí)別作為人工智能的一個(gè)重要分支,是進(jìn)行人機(jī)交互的關(guān)鍵技術(shù)。
非特定人語(yǔ)音識(shí)別技術(shù)已滲透到人們生活及工作的方方面面,嵌入式系統(tǒng)具有功耗低、性能高、成本低等諸多優(yōu)點(diǎn),可以滿足現(xiàn)代社會(huì)對(duì)語(yǔ)音識(shí)別產(chǎn)品高性能的需求。因此基于嵌入式語(yǔ)音識(shí)別系統(tǒng)具有更大的應(yīng)用范圍[1]。當(dāng)前大部分語(yǔ)音識(shí)別系統(tǒng)都基于軟件實(shí)現(xiàn),而理想的嵌入式非特定語(yǔ)音實(shí)時(shí)識(shí)別系統(tǒng)相對(duì)欠缺,且傳統(tǒng)的嵌入式系統(tǒng)有其固有缺點(diǎn)[1],因此,在研究語(yǔ)音識(shí)別關(guān)鍵技術(shù)基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了一款新穎的嵌入式非特定人語(yǔ)音識(shí)別系統(tǒng)。
1 語(yǔ)音識(shí)別理論基礎(chǔ)
語(yǔ)音識(shí)別的前期工作,需要對(duì)語(yǔ)音信號(hào)進(jìn)行處理。由于語(yǔ)音信號(hào)是模擬信號(hào),很難直接進(jìn)行識(shí)別,應(yīng)先進(jìn)行數(shù)字化處理,將語(yǔ)音模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。
由于語(yǔ)音信號(hào)的能量大部分都分布在頻率較低的部分,所以需要提高高頻部分的能量。而由于語(yǔ)音信號(hào)具有暫時(shí)平穩(wěn)的特點(diǎn),因此可將語(yǔ)音信號(hào)進(jìn)行分幀加窗處理,更方便分析。找出語(yǔ)音信號(hào)的開(kāi)始和結(jié)束時(shí)刻,可以提高識(shí)別效率。因此需要再對(duì)數(shù)字信號(hào)進(jìn)行預(yù)處理(預(yù)加重、分幀加窗、語(yǔ)音降噪、端點(diǎn)檢測(cè))。預(yù)處理之后,需要對(duì)信號(hào)進(jìn)行特征參數(shù)提取,為語(yǔ)音識(shí)別做準(zhǔn)備。目前使用較多的特征參數(shù)提取方法是Mel頻率倒譜系數(shù)(MFCC),因?yàn)镸FCC更能體現(xiàn)出人耳的聽(tīng)覺(jué)特點(diǎn)[2]。
目前主流的語(yǔ)音識(shí)別算法有DTW(動(dòng)態(tài)時(shí)間彎折技術(shù))、HMM(隱馬爾科夫模型)、ANN(人工神經(jīng)元網(wǎng)絡(luò))[3]。結(jié)合本文設(shè)計(jì)的特點(diǎn),HMM包含兩個(gè)隨機(jī)過(guò)程,巧妙模仿了人類的發(fā)音特點(diǎn),因此選取HMM模型更為合理[4]。
2 系統(tǒng)的軟硬件設(shè)計(jì)
2.1 總體方案設(shè)計(jì)
設(shè)計(jì)的非特定人語(yǔ)音識(shí)別系統(tǒng),主要由三大部分組成,包含以STM32F103ZET6為核心的STM32開(kāi)發(fā)板、LD3320非特定人語(yǔ)音識(shí)別芯片、LP2303接口轉(zhuǎn)換模塊。將LD3320模塊和LD3320模塊通過(guò)SPI接口和USART接口連接到STM32開(kāi)發(fā)板上,組成了一個(gè)完整的非特定人語(yǔ)音識(shí)別系統(tǒng)。
系統(tǒng)采用STM32F103ZET6單片機(jī)作為主控制器。這是一款擁有低功耗、低成本、高性能特點(diǎn)的單片機(jī),ARM Cortex-M3為其內(nèi)核,同時(shí)內(nèi)部還擁有128 KB Flash、20 KB SRAM、兩個(gè)SPI、三個(gè)串口、一個(gè)USB、一個(gè)CAN等[5,6]。選取LD3320作為語(yǔ)音識(shí)別芯片。LD3320是一款專用的非特定人語(yǔ)音識(shí)別芯片,可直接用于識(shí)別,并且支持識(shí)別列表隨意編寫(xiě),使得使用更加方便。通過(guò)LP3320接口轉(zhuǎn)換模塊可以將PC機(jī)和語(yǔ)音識(shí)別系統(tǒng)連接起來(lái),從而將識(shí)別結(jié)果打印在串口中,方便查看語(yǔ)音識(shí)別結(jié)果[7]。
2.2 硬件設(shè)計(jì)
本系統(tǒng)作為非特定人語(yǔ)音識(shí)別系統(tǒng),語(yǔ)音識(shí)別芯片的選擇尤為重要。綜合各方面考慮,系統(tǒng)選用LD3320語(yǔ)音識(shí)別芯片。將STM32開(kāi)發(fā)板、LD3320模塊和LP2303模塊連接起來(lái),組成一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng),通過(guò)觀察開(kāi)發(fā)板上LED燈的變化情況和串口顯示結(jié)果判斷識(shí)別結(jié)果。硬件設(shè)計(jì)框架如圖1所示[8]。
2.3 軟件設(shè)計(jì)
文中選擇LD3320作為語(yǔ)音識(shí)別芯片。LD3320是由ICRoute公司設(shè)計(jì)生產(chǎn)的非特定人語(yǔ)音識(shí)別芯片,該芯片識(shí)別原理如圖2所示[9]。論文的軟件設(shè)計(jì)主要應(yīng)用Source Insight開(kāi)發(fā)環(huán)境。Source Insight是一種性能優(yōu)良的語(yǔ)言編輯工具,幾乎適用所有語(yǔ)言[10]。
(1) 初始化。完成復(fù)位、工作模式設(shè)定、設(shè)置工作頻率以及FIFO設(shè)定的操作[11,12]。
(2) 寫(xiě)入識(shí)別列表。識(shí)別關(guān)鍵詞的格式是 “標(biāo)號(hào)識(shí)別關(guān)鍵詞”[13]。識(shí)別關(guān)鍵詞需要以字符串的格式來(lái)設(shè)置。關(guān)鍵詞格式見(jiàn)表1所列[14]。
表1 識(shí)別列表實(shí)例
標(biāo) 號(hào) 字符串
1 yuwen
2 qianrushi
3 woxihuanyundong
(3) 開(kāi)始識(shí)別。設(shè)置相關(guān)寄存器中的內(nèi)容,為進(jìn)行開(kāi)始語(yǔ)音識(shí)別的工作作相應(yīng)的準(zhǔn)備。語(yǔ)音識(shí)別流程如圖3所示[15]。ADC增益可設(shè)置在00H-7FH之間,最佳設(shè)置在40H-6F之間。聲音增益的大小和系統(tǒng)敏感性有直接聯(lián)系,增益越大,系統(tǒng)對(duì)外界環(huán)境越敏感,增益越小,可避免遠(yuǎn)處噪聲對(duì)系統(tǒng)的干擾。
(4) 響應(yīng)中斷。當(dāng)麥克風(fēng)采集到聲音時(shí),不管識(shí)別結(jié)果如何,都會(huì)產(chǎn)生一個(gè)中斷信號(hào)。中斷服務(wù)程序的具體流程如圖4所示[15]。從BA寄存器中可以得到若干識(shí)別結(jié)果,最佳識(shí)別結(jié)果從C5中得出。
3 實(shí)驗(yàn)結(jié)果與分析
對(duì)非特定人語(yǔ)音識(shí)別系統(tǒng)進(jìn)行測(cè)試,通過(guò)實(shí)驗(yàn)結(jié)果來(lái)判定系統(tǒng)性能的優(yōu)劣情況。語(yǔ)音識(shí)別系統(tǒng)的性能與詞條長(zhǎng)度和聲音(每個(gè)人聲音不同)有關(guān)。本次測(cè)試分別選擇2個(gè)字、3個(gè)字、4個(gè)字及5個(gè)字的詞條,同時(shí)選擇不同的人與不同長(zhǎng)度的詞條,經(jīng)多次測(cè)試來(lái)判斷系統(tǒng)性能。endprint
完成設(shè)計(jì)的測(cè)試工作,需要經(jīng)過(guò)編寫(xiě)程序—編譯—參數(shù)設(shè)置—下載流程。
在語(yǔ)音識(shí)別前期,需完成一些準(zhǔn)備工作。首先建立Keil工程。本次設(shè)計(jì)在Device下選擇STM32F103ZET6;在Keil工具欄中選擇Project,然后點(diǎn)擊Options for Targe tUSART,在Output中勾選“Creat EX File”,在Debug中選擇“ST-Link Debugger”;在串口調(diào)試助手中設(shè)置相應(yīng)的參數(shù),其中,波特率為115 200,數(shù)據(jù)位為8,停止位為1,校驗(yàn)位為None,流控位為None。
對(duì)著LD3320 Board的MIC順序說(shuō)出測(cè)試指令,并及時(shí)記錄每一條指令識(shí)別成功的次數(shù),完成相關(guān)測(cè)試工作,測(cè)試結(jié)果見(jiàn)表2所列。
根據(jù)本次系統(tǒng)的測(cè)試,可得出以下結(jié)論:
(1) 比較表2中第4列和第5列的數(shù)據(jù)可知,與相對(duì)安靜的環(huán)境相比,在存在少許噪聲的情況下系統(tǒng)成功識(shí)別的次數(shù)下降。由此可知,在相對(duì)安靜的條件下,系統(tǒng)的識(shí)別率較高;在有少許噪聲的情況下,系統(tǒng)的識(shí)別率下降。
(2) 比較表2中第1行、第3行、第5行和第7行的數(shù)據(jù)可知,隨著指令長(zhǎng)度的增加,系統(tǒng)識(shí)別成功的次數(shù)將減少。因此系統(tǒng)的識(shí)別率將會(huì)隨著指令長(zhǎng)度的增加而下降。
(3) 在識(shí)別過(guò)程中發(fā)現(xiàn),隨著指令長(zhǎng)度的增加,在能夠識(shí)別成功的條件下,系統(tǒng)的識(shí)別時(shí)間將會(huì)增加。當(dāng)識(shí)別詞條分別為2個(gè)字和5個(gè)字的情況下,差別會(huì)更加明顯。
4 結(jié) 語(yǔ)
在安靜環(huán)境下,LD3320語(yǔ)音識(shí)別模塊的識(shí)別率較高,指令內(nèi)容較短時(shí),其平均識(shí)別率接近95%。該系統(tǒng)具有可動(dòng)態(tài)編寫(xiě)識(shí)別列表、可完成非特定人實(shí)時(shí)語(yǔ)音識(shí)別功能,并具有良好的可擴(kuò)展性,可進(jìn)一步應(yīng)用在實(shí)時(shí)語(yǔ)音識(shí)別的電子設(shè)備中。
參考文獻(xiàn)
[1]許春冬,夏日升,應(yīng)冬文,等.面向語(yǔ)音增強(qiáng)的序貫隱馬爾可夫模型時(shí)頻語(yǔ)音存在概率估計(jì)[J].聲學(xué)學(xué)報(bào),2014, 39(5): 647-654.
[2]方敏, 浦劍濤, 李成榮,等.嵌入式語(yǔ)音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2003, 18(6): 73-75.
[3]許春冬,張震,戰(zhàn)鴿.面向語(yǔ)音增強(qiáng)的約束序貫高斯混合模型噪聲功率譜估計(jì)[J].聲學(xué)學(xué)報(bào), 2017, 42(5): 633-640.
[4] KARRAY L, MARTN A. Toward improving speech detection robustness for speech recognition in adverse environments[J]. Speech Communication,2003,40(3):261-276.
[5]張戟,楊騰飛.車載自動(dòng)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)[J]. 佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,29(2): 201-205.
[6]龍順宇, 鄭澤龍, 譚冬鳳.基于STM32和SD卡文件系統(tǒng)的非特定人語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù), 2013,36(21): 62-66.
[7]文治洪,胡文東,李曉京.基于PL2303的USB接口設(shè)計(jì)[J].電子設(shè)計(jì)工程, 2010,18(1):32-34.
[8] Yang B, Lugger M. Emotion recognition from speech signals using new harmony features[J]. Signal processing, 2010,90(5):1415-1423.
[9]金鑫,田犇,闕大順.基于LD3320的語(yǔ)音控制系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)[J].電腦與信息技術(shù),2011, 19(6):22-25.
[10] Reichl W, Chou W.Robust decision tree state tying for continuous speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 2000,8(5):555-566.
[11]楊熙,張文昭,梁曉琳.語(yǔ)音識(shí)別在智能家居控制系統(tǒng)的應(yīng)用[J].湖南科技學(xué)院學(xué)報(bào),2016, 37(10):34-35.
[12] Lavner Y, Gath L, Rosenhouse J. The efects of acoustic modifications on the identification of familiar voices speaking isolated vowles[J]. Speech Communication, 2000,30(1):9-26.
[13] Joseph Pieone.Continuous Speech Recognition using Hidden Markov Models[J].IEEE Assp Mag, 1990,7(3): 26-41.
[14]鐘晨帆.基于LD3320芯片的語(yǔ)音識(shí)別系統(tǒng)[D].南京:南京大學(xué),2015.
[15] LD3320開(kāi)發(fā)手冊(cè)[EB/OL].http://www. icroute.com.endprint