嵌入式非特定人車載電器聲控終端系統(tǒng)的研制

2015-03-07 09:24孫保群

合肥工業(yè)大學(xué)學(xué)報(bào)（自然科學(xué)版） 2015年9期

王瓊，王歡，孫保群

（1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院，安徽合肥 230009；2.合肥工業(yè)大學(xué) 汽車工程技術(shù)研究院，安徽合肥 230009）

0 引言

隨著人們對汽車操控方便性和駕乘舒適度要求的不斷提高，現(xiàn)代汽車使用的車載電器越來越多，如車載多媒體、空調(diào)、電動(dòng)門窗等，不斷改善著汽車駕乘的內(nèi)部環(huán)境。但由于操控對象數(shù)量隨車載電器數(shù)量的增多而不斷增加，加大了駕駛操作的復(fù)雜程度，導(dǎo)致潛在的行車安全隱患不斷增多。語音識別技術(shù)及嵌入式技術(shù)的迅速發(fā)展，使得利用語音指令實(shí)現(xiàn)對車載電器操控成為可能。駕駛員不僅可以通過語音指令實(shí)現(xiàn)對車載電器的控制操作，還能實(shí)時(shí)、直觀地在顯示終端上看到操作效果，在簡便、安全地實(shí)現(xiàn)車載電器操控的同時(shí)，提升了駕駛樂趣。

目前國內(nèi)外車載語音控制系統(tǒng)的開發(fā)主要依托于網(wǎng)絡(luò)，如車載語音導(dǎo)航系統(tǒng)，其語音命令的識別必須依賴網(wǎng)絡(luò)遠(yuǎn)程終端，但由于行車環(huán)境在不斷變化，網(wǎng)絡(luò)環(huán)境并不穩(wěn)定，進(jìn)而會對語音識別的穩(wěn)定性以及識別操作的實(shí)時(shí)性產(chǎn)生影響。因此開發(fā)能夠脫離網(wǎng)絡(luò)進(jìn)行本地語音識別的車載電器聲控系統(tǒng)具有重要意義。

當(dāng)前國內(nèi)自主研發(fā)主要集中在車載導(dǎo)航系統(tǒng)的開發(fā)，如科大訊飛開發(fā)的“智語星”新一代車載語音導(dǎo)航系統(tǒng)，語音識別依然依賴于網(wǎng)絡(luò)，對本地車載電器語音控制系統(tǒng)的研究較少。國外的車載聲控系統(tǒng)也沒有全面地應(yīng)用在車載電器的實(shí)時(shí)控制上，且主要應(yīng)用于中高端車型，如福特?？怂沟腟YNC車載多媒體通訊娛樂系統(tǒng)，通過語音控制實(shí)現(xiàn)語音撥號、語音播出短信內(nèi)容、語音控制音樂播放等功能，但沒有涉及車燈、車窗等車載電器的控制［1－3］。

本文提出了一種基于HMM算法的嵌入式非特定人本地車載電器語音控制系統(tǒng)的設(shè)計(jì)方案，將本地語音識別應(yīng)用在車載電器控制領(lǐng)域，完成了系統(tǒng)終端樣機(jī)研制及非特定人語音命令識別實(shí)驗(yàn)測試。實(shí)驗(yàn)結(jié)果表明，終端樣機(jī)系統(tǒng)具有操作簡單、識別率高、性能穩(wěn)定、界面顯示友好和可擴(kuò)展性強(qiáng)等特點(diǎn)。

1 嵌入式車載電器聲控系統(tǒng)平臺

車載電器聲控系統(tǒng)整體架構(gòu)如圖1所示，主要由語音識別模塊、嵌入式處理器、TFT－LCD顯示屏、存儲單元、車載電器驅(qū)動(dòng)模塊等部件構(gòu)成。聲控系統(tǒng)終端樣機(jī)平臺如圖2所示。

車載電器聲控系統(tǒng)的功能是由定向拾音器采集駕駛員發(fā)出的語音指令并輸入語音識別模塊，語音識別模塊將物理聲音信號轉(zhuǎn)換為語音數(shù)字信號并進(jìn)行識別處理，識別后輸出相應(yīng)的語音指令編碼信號傳輸至ARM11主處理器，處理器根據(jù)相應(yīng)的語音指令控制驅(qū)動(dòng)車載電器動(dòng)作，同時(shí)將操作結(jié)果實(shí)時(shí)顯示在車載TFT－LCD前屏上。

圖1 車載電器聲控系統(tǒng)整體架構(gòu)

圖2 車載電器聲控系統(tǒng)終端樣機(jī)平臺

2 系統(tǒng)主要硬件電路設(shè)計(jì)

2.1 非特定人語音識別模塊設(shè)計(jì)

非特定人識別模塊選用了ICRoute公司的LD3320語音識別芯片。模塊邏輯結(jié)構(gòu)圖如圖3所示，主要由LD3320和一個(gè)MCU控制單元構(gòu)成。LD3320芯片集成了語音識別處理器和一些外圍電路，包括ADC、DAC、麥克風(fēng)和聲音輸出接口［4］等?？刂茊卧狹CU為STC10L08XE單片機(jī)，其工作電壓為3.3～5.5V，具有 8K 的 Flash ROM，512Byte的SRAM，并有40個(gè)I／O口和UART接口，滿足語音模塊的接口控制和系統(tǒng)配置的資源要求。

圖3 LD3320語音模塊邏輯結(jié)構(gòu)圖

LD3320與MCU電路邏輯原理圖如圖4所示。非特定人語音信號由MIC接入LD3320的MICP和MICN引腳。LD3320由MCU設(shè)置其相應(yīng)寄存器來實(shí)現(xiàn)識別過程的控制，其控制信號RDB、WRB、CSB、RSTB、INTB均與 MCU 直接相連，P［7：0］與 MCU的 AD［7：0］并行連接，如圖4a所示。RSTB復(fù)位信號由MCU發(fā)出，INTB中斷信號由LD3320發(fā)出，MCU接收。MCU在接收LD3320識別結(jié)果后，八位語音指令編碼由其A［15∶8］口輸出并依次連接至主處理器的GPE［2∶1］和GPM［5：0］端口，如圖4b所示。

圖4 LD3320與MCU電路邏輯原理圖

2.2 嵌入式主處理器模塊

主處理器模塊是語音指令處理、控制驅(qū)動(dòng)車載電器動(dòng)作以及實(shí)時(shí)顯示的核心控制部件，本設(shè)計(jì)選用了Samsung公司的16／32位RISC微處理器S3C6410A芯片，其工作頻率可高達(dá)677MHz，具有成本低、功耗低、性能高、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)，能夠充分滿足本系統(tǒng)數(shù)據(jù)的采集和處理要求。主處理器模塊硬件設(shè)計(jì)包括存儲單元及車載前屏接口電路和車載電器驅(qū)動(dòng)電路設(shè)計(jì)2個(gè)部分。

2.2.1 存儲單元及車載前屏接口電路設(shè)計(jì)

由于系統(tǒng)需要固化操作系統(tǒng)軟件，為系統(tǒng)軟件及應(yīng)用程序提供足夠的程序存儲和堆?？臻g，且需要對車載電器信息記錄并以文件形式永久保存，故需在主處理器外部擴(kuò)展RAM和大容量的NAND Flash。RAM存儲器擴(kuò)展采用了Samsung公司的SDRAM芯片K4X1G163PE，規(guī)格為64M×16bit，由2片構(gòu)成64M×32bit（256M）的內(nèi)存系統(tǒng)。NAND Flash則采用了Samsung公司的K9K8G08U0B芯片，1G存儲容量，8bit數(shù)據(jù)端口。

車載前屏主要完成駕駛員發(fā)出的語音指令操作結(jié)果的實(shí)時(shí)顯示任務(wù)。本設(shè)計(jì)選用群創(chuàng)10寸分辨率為1 024×600的TFT－LCD顯示屏作為車載前屏，主處理器輸出的顯示信號通過DF9B－41P－1V2接口器件連接到 TFT－LCD 顯示屏上［5］。顯示部分主要包含 VSYNC、HSYNC、LEND、VCLK、VD［23：0］和PWREN信號。

2.2.2 車載電器驅(qū)動(dòng)電路設(shè)計(jì)

主處理器的數(shù)字控制信號通過驅(qū)動(dòng)電路驅(qū)動(dòng)對應(yīng)的車載電器動(dòng)作。本設(shè)計(jì)中驅(qū)動(dòng)電路按驅(qū)動(dòng)方式不同分為信號驅(qū)動(dòng)和功率驅(qū)動(dòng)。

信號驅(qū)動(dòng)部分中，空調(diào)驅(qū)動(dòng)采用了Toshiba公司的TLP521光電耦合器來控制其終端的通斷；音響驅(qū)動(dòng)是通過數(shù)字控制信號驅(qū)動(dòng)外部繼電器的吸合來模擬實(shí)際按鍵的開關(guān)控制動(dòng)作，模擬按鍵電路如圖5所示。

圖5 模擬按鍵電路

功率驅(qū)動(dòng)部分中，車燈和電動(dòng)車窗均采用了Infineon公司的BTS824R功率放大芯片；雨刷則由主處理器輸出的PWM信號來控制電機(jī)轉(zhuǎn)速，采用了Freescale的5A集成H橋芯片MC33886作為驅(qū)動(dòng)芯片，電路邏輯原理圖如圖6所示。另外，由于車燈和雨刷的手控均屬于鎖死開關(guān)，同時(shí)進(jìn)行手控和語控操作時(shí)會產(chǎn)生沖突，故本設(shè)計(jì)利用繼電器對車燈手控和語控信號進(jìn)行隔離，利用上拉電阻將手控開關(guān)和語控驅(qū)動(dòng)相連，實(shí)現(xiàn)了雨刷的手控和語控的交互使用。

圖6 MC33886電路邏輯原理圖

3 系統(tǒng)軟件設(shè)計(jì)

本系統(tǒng)軟件設(shè)計(jì)包括嵌入式系統(tǒng)開發(fā)平臺的構(gòu)建和車載電器聲控終端應(yīng)用程序2個(gè)部分。ARM11處理器采用Linux系統(tǒng)，其中嵌入式系統(tǒng)平臺構(gòu)建主要包括Uboot移植、Linux內(nèi)核裁剪編譯、根文件系統(tǒng)制作、設(shè)備驅(qū)動(dòng)程序設(shè)計(jì)以及圖形用戶界面Qt－Embedded的移植。本文主要介紹車載電器聲控終端應(yīng)用程序的設(shè)計(jì)及實(shí)現(xiàn)。

3.1 非特定人語音識別模塊軟件實(shí)現(xiàn)

3.1.1 非特定人語音識別算法實(shí)現(xiàn)

本設(shè)計(jì)非特定人語音識別基于隱馬爾科夫模型算法（HMM），對大量語音數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后建立識別詞條的統(tǒng)計(jì)模型語音庫，然后從待識別的語音中提取特征與模型庫進(jìn)行匹配，根據(jù)匹配分?jǐn)?shù)得到最終的識別結(jié)果，HMM具有良好的識別性能和抗噪聲性能。非特定人語音識別的流程主要是由數(shù)字化和預(yù)處理、特征提取、模型匹配和維特比（Viterbi）算法組成［6－7］。

（1）數(shù)字化和預(yù)處理。數(shù)字化包括預(yù)濾波和采樣量化。MIC接收到的語音信號包含車內(nèi)的背景噪聲，如空調(diào)出風(fēng)噪聲等，通過預(yù)濾波對原始聲音進(jìn)行降噪，再通過采樣量化完成語音信號的A／D轉(zhuǎn)換。預(yù)處理主要是針對信號高頻分量的衰減問題采取預(yù)加重處理的方法，設(shè)n時(shí)刻的語音采樣值為x（n），經(jīng)過預(yù)加重處理后的結(jié)果為：

其中，a為預(yù)加重系數(shù)，0＜a＜1。

端點(diǎn)檢測（VAD）判斷出有效語音信號的起止點(diǎn)。本設(shè)計(jì)采用基于統(tǒng)計(jì)理論的端點(diǎn)檢測技術(shù)，在提取特征時(shí)只提取語音信號部分的特征，最大程度地降低噪聲干擾。

（2）特征提取。特征提取是語音識別的關(guān)鍵環(huán)節(jié)，需要選擇合適的特征參數(shù)。常用特征參數(shù)有線性預(yù)測系數(shù)（LPC）、線性預(yù)測倒譜系數(shù)（LPCC）、梅爾頻率倒譜系數(shù)（MFCC）。由于MFCC是基于人耳聽覺特性提出的，且具有良好的抗噪性能，故本設(shè)計(jì)選用MFCC特征參數(shù)提取方法，其提取流程如圖7所示。

圖7 MFCC特征參數(shù)提取流程

（3）維特比（Viterbi）算法。Viterbi算法是HMM算法的一部分，是一種幀同步動(dòng)態(tài)規(guī)整算法，解決了在給定模型M＝｛A，B，π｝和觀察符號序列O＝｛o1，o2，…，oT｝時(shí)，如何確定與觀察符號序列對應(yīng)的最佳狀態(tài)序列S＝｛θ1，θ2，…，θT｝的問題?！白罴选钡男蛄惺侵甘筆（S，O／M）最大的序列。Viterbi算法可描述為：① 開始，α0′（1）＝1，α0′（j）＝0，j≠1； ② 遞推，αt′（j）＝maxαt－1′（i）aijbij（ot）（t＝1，2，…，T；i，j＝1，2，…，N）；③ 結(jié)束，Pmax（S，O／M）＝αT′（N）。

在以上的遞推方法中，由每一次使αt′（j）達(dá)到最大值的狀態(tài)i組成了最佳狀態(tài)序列。通過算法得到的概率密度最大狀態(tài)序列即Viterbi評分。

3.1.2 語音識別模塊控制程序設(shè)計(jì)

LD3320具有2種識別模式：觸發(fā)識別模式和循環(huán)識別模式。由于車載語音環(huán)境復(fù)雜，為降低誤識別率，本設(shè)計(jì)采用觸發(fā)識別模式，即采用LD3320中斷方式進(jìn)行工作。語音識別模塊的控制程序是通過MCU對LD3320的控制及相應(yīng)寄存器的配置來完成，語音識別模塊控制程序流程如圖8所示。

圖8 語音識別模塊控制程序流程圖

程序流程分為為芯片初始化、調(diào)用識別列表、識別處理、獲得最佳識別結(jié)果、輸出語音編碼信號。

3.2 主處理系統(tǒng)應(yīng)用程序設(shè)計(jì)

主處理系統(tǒng)應(yīng)用程序開發(fā)平臺為Linux系統(tǒng)2.6.38和 Qt4.6.3［8－9］，主要解決語音模塊輸出語音編碼信號的實(shí)時(shí)采集、采集信息與界面控制程序的通信、車載電器終端驅(qū)動(dòng)控制信號的發(fā)送以及顯示的實(shí)時(shí)更新問題。

3.2.1 語音指令編碼的采集與通信

為了提高系統(tǒng)程序的運(yùn)行效率，本設(shè)計(jì)中建立了語音指令編碼采集子線程，車載電器控制信號發(fā)送及界面顯示則為GUI主線程［10］。采集語音指令編碼采用了循環(huán)查詢法，在語音識別被觸發(fā)后的識別過程中，采集子線程會不斷地讀取語音模塊輸出的語音指令編碼信息，并對采集到的編碼信息進(jìn)行判斷處理，在當(dāng)前編碼與上次編碼不同時(shí)發(fā)送當(dāng)前的語音指令編碼信息，否則在規(guī)定時(shí)間內(nèi)未接受到編碼變化則結(jié)束本次識別。語音指令編碼信息利用emit valuesChanged（）函數(shù)發(fā)送至主線程。采集與通信流程如圖9所示。

圖9 語音指令采集與通信流程圖

3.2.2 車載電器驅(qū)動(dòng)及前屏顯示控制程序

控制程序主要是完成車載電器驅(qū)動(dòng)信號的發(fā)送和顯示窗口的更新。車載電器的操作及前屏的顯示都需具有較好的實(shí)時(shí)性。為了實(shí)現(xiàn)對車載電器實(shí)時(shí)控制以及操作結(jié)果的實(shí)時(shí)顯示，采集線程與GUI主線程的通信均利用Qt信號與槽機(jī)制來完成。在車載電器控制信號發(fā)送部分，將采集獲得的語音指令編碼作為signal信號源，control函數(shù)作為slot槽函數(shù)。接收到采集線程實(shí)時(shí)信號后，control函數(shù)打開設(shè)備驅(qū)動(dòng)并將驅(qū)動(dòng)控制信號發(fā)送至相應(yīng)的車載電器驅(qū)動(dòng)終端，控制程序信號與槽連接如下：

connect（speechThread，SIGNAL （valuesChanged（int）），this，SLOT（control（int）））；

界面顯示窗口分為主識別窗口HomePage（）和5個(gè)子單元識別窗口Aircondition（）、Audio（）、Lights（）、Windows（）、Wipers（）。本設(shè)計(jì)采用Qt的QWedget類、QTimer類、QPainter類窗口等。由drawImage（）、drawText（）、update（）等函數(shù)進(jìn)行顯示窗口界面的繪制及更新。窗口通過槽函數(shù)Update函數(shù)接收采集線程實(shí)時(shí)信號后進(jìn)行實(shí)時(shí)的更新。

4 系統(tǒng)測試結(jié)果

在系統(tǒng)終端樣機(jī)上進(jìn)行了非特定人語音識別率和顯示終端實(shí)時(shí)性測試實(shí)驗(yàn)。測試在實(shí)驗(yàn)室環(huán)境下進(jìn)行，語音指令詞條分為5個(gè)部分共包含97個(gè)車載電器操作常用詞條。實(shí)驗(yàn)對象為10男10女，系統(tǒng)測試實(shí)驗(yàn)結(jié)果見表1所列。

表1 系統(tǒng)非特定人語音識別準(zhǔn)確率

實(shí)驗(yàn)結(jié)果表明在相對安靜的環(huán)境下，系統(tǒng)識別率達(dá)到了95%以上，且男、女識別率接近，同時(shí)實(shí)驗(yàn)中車載電器驅(qū)動(dòng)控制信號發(fā)送準(zhǔn)確，前屏顯示界面友好美觀，顯示實(shí)時(shí)性效果好。由于識別率受環(huán)境影響較大，在進(jìn)行的車載環(huán)境實(shí)驗(yàn)中，識別率受車內(nèi)噪聲污染影響而有所下降，相對于安靜的實(shí)驗(yàn)室環(huán)境平均下降8%左右。

5 結(jié)束語

本文的設(shè)計(jì)將本地語音識別、主要車載電器的控制及車載前屏顯示集成應(yīng)用于整車車身系統(tǒng)，針對駕駛?cè)藛T可能不同的問題進(jìn)行了面向非特定人的語音算法設(shè)計(jì)，本地語音識別的方法也有效地避免了目前國內(nèi)外車載語音產(chǎn)品由于網(wǎng)絡(luò)連接問題帶來的實(shí)時(shí)性差和安全性等問題；同時(shí)系統(tǒng)具有較高的識別率，并實(shí)現(xiàn)了識別結(jié)果在前屏的實(shí)時(shí)顯示，具有廣泛的應(yīng)用前景。由于車載語音環(huán)境復(fù)雜，而語音識別系統(tǒng)的準(zhǔn)確率會隨著環(huán)境發(fā)生變化，因此還需要對系統(tǒng)的抗噪性和魯棒性進(jìn)行深入研究，并針對車載電磁環(huán)境進(jìn)行相關(guān)的抗干擾設(shè)計(jì)，以進(jìn)一步提高系統(tǒng)的實(shí)用價(jià)值。

［1］肖寒.GPS車載導(dǎo)航系統(tǒng)的語音識別應(yīng)用與實(shí)現(xiàn)［D］.杭州：浙江大學(xué)，2006.

［2］朱敏慧.中國車載語音時(shí)代即將到來［J］.汽車與配件，2011（23）：39.

［3］ Cheng S Y，Trivedi M M.Real－time vision－based infotain－ment user determination for driver assistance［C］／／2008 IEEE Intelligent Vehicles Symposium.IEEE，2008：1－6.

［4］ ICRoute公司.LD3320數(shù)據(jù)手冊［EB／OL］.（2010－09－11）［2014－08－20］.http：／／www.icroute.com／doc／LD3320 數(shù)據(jù)手冊.pdf.

［5］陳鼎，于盛林.基于 ARM的LCD模塊接口設(shè)計(jì)及MiniGUI實(shí)現(xiàn)［J］.儀器儀表學(xué)報(bào)，2007，28（4）：277－281.

［6］龔偉，汪魯才.基于隱馬爾可夫模型的話者識別研究［J］.聲學(xué)與電子工程，2006（2）：31－33.

［7］趙力.語音信號處理［M］.北京：機(jī)械工業(yè)出版社，2009：32－155.

［8］王潤民.基于嵌入式Linux的車載終端系統(tǒng)研究與實(shí)現(xiàn)［D］.西安：長安大學(xué)，2013.

［9］閆鋒欣，曾泉人.C＋＋GUI Qt4編程［M］.第2版.北京：電子工業(yè)出版社，2010：138－166.

［10］王瓊，錢潤生，孫保群.車載儀表GUI真彩前屏系統(tǒng)的設(shè)計(jì)［J］.合肥工業(yè)大學(xué)學(xué)報(bào)：自然科學(xué)版，2013，36（8）：938－942.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡