費(fèi)孝峰,樊嘉杰,鄧 亮,劉 健,邢 文
(1.河海大學(xué)機(jī)電工程學(xué)院,江蘇 常州 213022;2.常州星宇車燈股份有限公司,江蘇 常州 213022;3.常州市武進(jìn)區(qū)半導(dǎo)體照明應(yīng)用技術(shù)研究院,江蘇 常州 213161;4.荷蘭代爾夫特理工大學(xué)電氣工程、數(shù)學(xué)和計(jì)算機(jī)科學(xué)學(xué)院微電子系,荷蘭 代爾夫特 2628)
車載氛圍燈是一種新型的車內(nèi)裝飾燈具[1],它通過(guò)顏色和亮度改變,兼具照明及氛圍調(diào)節(jié)作用。LED具有能耗低、壽命長(zhǎng)、響應(yīng)快、易控制等特點(diǎn),已經(jīng)逐漸成為車載氛圍燈的主流光源[2]。傳統(tǒng)車載氛圍燈的調(diào)節(jié)通過(guò)按鍵或者車載導(dǎo)航界面實(shí)現(xiàn)[3],在正常駕駛時(shí),駕駛員手動(dòng)操作氛圍燈會(huì)轉(zhuǎn)移視線,存在交通事故隱患。
目前,語(yǔ)音交互技術(shù)正在車輛上推廣使用,語(yǔ)音識(shí)別技術(shù)應(yīng)用于車載設(shè)備上,將會(huì)提高產(chǎn)品的使用價(jià)值,使用戶界面更加友好。傳統(tǒng)的語(yǔ)音識(shí)別算法通常采用基于動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)[4]和基于隱馬爾科夫模型(hidden markov model,HMM)[5]等。然而,DTW算法存在無(wú)法適用非特定人、大量識(shí)別詞的問(wèn)題;HMM算法存在響應(yīng)速度慢、識(shí)別率偏低等問(wèn)題[6]。因此,基于深度學(xué)習(xí)(deep learning,DL)的語(yǔ)音識(shí)別算法已經(jīng)被提出[7]。目前車載智能產(chǎn)品實(shí)現(xiàn)語(yǔ)音識(shí)別的方法有采用專用語(yǔ)音識(shí)別芯片的語(yǔ)音庫(kù)以及傳統(tǒng)的語(yǔ)音識(shí)別算法等[6,8]。
本文提出一種基于深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)音識(shí)別與控制氛圍燈的系統(tǒng),對(duì)預(yù)識(shí)別語(yǔ)音進(jìn)行訓(xùn)練得到聲學(xué)模型,移植該模型到嵌入式平臺(tái)中,利用聲學(xué)模型對(duì)在線語(yǔ)音的音頻特征進(jìn)行分類判別。
如圖1所示,LED車載語(yǔ)音交互氛圍燈系統(tǒng)主要由i.MX6為語(yǔ)音處理MPU,該處理器廣泛應(yīng)用工業(yè)自動(dòng)控制設(shè)備、人機(jī)交互設(shè)備、航空電子設(shè)備、機(jī)器人等領(lǐng)域,性能良好[9]。麥克風(fēng)采用USB接口麥克風(fēng),具有智能降噪、抗噪抗干擾等功能,自帶聲卡,使聲音更加清晰,傳輸時(shí)可以有效防止聲音卡頓、降低延遲。氛圍燈控制處理器采用S32K144,S32K144是應(yīng)用汽車工業(yè)的32位ARM處理器,適用于通用汽車和高可靠性的工業(yè)應(yīng)用[8]。具體操作原理為:首先通過(guò)PC訓(xùn)練聲學(xué)模型,其次將訓(xùn)練好的模型移植到i.MX6,進(jìn)而與S32K144通信;然后將汽車故障碼和汽車行駛記錄通過(guò)OBD-II接口傳遞到CAN收發(fā)器,進(jìn)而與S32K144通信。
圖1 LED車載語(yǔ)音交互氛圍燈系統(tǒng)總體框架
本文采用基于多層卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別原理,輸入為經(jīng)過(guò)處理的聲紋,輸出為識(shí)別的種類(如“上下左右”等指令)。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),屬于一種深度學(xué)習(xí)方法[10]。該網(wǎng)絡(luò)可以提供在時(shí)間上和空間上的平移不變性卷積,利用卷積的不變性來(lái)克服語(yǔ)音信號(hào)本身的多樣性[11,12]。相比傳統(tǒng)聲學(xué)建模,采用該網(wǎng)絡(luò)搭建聲學(xué)模型,可以省去大量的特征提取工作[10]。如圖2所示,音頻信號(hào)通過(guò)語(yǔ)音檢測(cè)、降噪處理,采用梅爾頻率倒譜系數(shù)(mel frequency cepstral coefficient,MFCC)方法提取音頻特征[13];將提取的聲紋特征與移植的聲學(xué)模型,通過(guò)聲紋辨認(rèn)的方式進(jìn)行特征匹配,將識(shí)別結(jié)果輸出到S32K144,實(shí)現(xiàn)語(yǔ)音識(shí)別功能。
圖2 CNN語(yǔ)音識(shí)別流程圖
語(yǔ)音數(shù)據(jù)樣本通過(guò)麥克風(fēng)采集,數(shù)據(jù)采樣率為8 000 Hz,位數(shù)為8位,時(shí)間為3 s,一共6個(gè)識(shí)別單詞,每個(gè)識(shí)別單詞樣本數(shù)為500個(gè)。數(shù)據(jù)集按照8∶2拆分為訓(xùn)練集、測(cè)試集。為了模擬復(fù)雜的背景環(huán)境,提高系統(tǒng)的魯棒性,訓(xùn)練數(shù)據(jù)增加了背景噪音[14]。
針對(duì)原始的語(yǔ)音數(shù)據(jù),需要進(jìn)行預(yù)加重、分幀和加窗、端點(diǎn)檢測(cè)等數(shù)據(jù)處理操作[15]。當(dāng)整段語(yǔ)音進(jìn)行分幀時(shí),語(yǔ)音的幀長(zhǎng)設(shè)置為1028采樣點(diǎn),幀移設(shè)置為512采樣點(diǎn),選用漢寧窗對(duì)每一幀語(yǔ)音數(shù)據(jù)進(jìn)行加窗操作。如圖3所示,音頻提取聲紋特征。步驟如下:①進(jìn)行快速傅里葉變換(fast fourier transform, FFT)得到相應(yīng)的頻譜。設(shè)置FFT參數(shù)為2048,通過(guò)FFT運(yùn)算得到每幀數(shù)據(jù)的實(shí)部和虛部,并以實(shí)部和虛部的平方和作為能量譜。②創(chuàng)建梅爾三角濾波器組,對(duì)每幀音頻數(shù)據(jù)進(jìn)行梅爾頻率變換。首先設(shè)置梅爾三角濾波器組數(shù)為128,通過(guò)梅爾三角濾波器組將線性的自然頻譜轉(zhuǎn)化為能體現(xiàn)人類聽(tīng)覺(jué)特性的梅爾頻譜;其次,能量值取對(duì)數(shù);最后進(jìn)行離散余弦變換。
圖3 提取聲紋特征
典型的卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和輸出層組成。目前針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)方面的研究主要針對(duì)增加神經(jīng)網(wǎng)絡(luò)的深度和優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的復(fù)雜度[16]。卷積層、池化層的激活函數(shù)采用“ReLU”函數(shù),該函數(shù)成功解決了深度學(xué)習(xí)網(wǎng)絡(luò)的分類性能和訓(xùn)練穩(wěn)定性,應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),效果明顯[17]。全連接層采用“softmax”作為激活函數(shù),可以有效將識(shí)別結(jié)果分類[18]。本文卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
該離線語(yǔ)音訓(xùn)練過(guò)程如圖5所示。在深度學(xué)習(xí)工具Keras[19]上使用分類交叉熵?fù)p失函數(shù)[18]和Adam優(yōu)化器[20]去訓(xùn)練聲學(xué)模型,初始學(xué)習(xí)率設(shè)置為0.0001,批量尺寸大小設(shè)置為20。
在語(yǔ)音識(shí)別領(lǐng)域,評(píng)估是一項(xiàng)必要的工作,評(píng)價(jià)分類器性能的常用方法有準(zhǔn)確率和混淆矩陣。準(zhǔn)確率是預(yù)測(cè)正確的結(jié)果占總樣本的百分比?;煜仃?confusion matrix,CM)本質(zhì)是一個(gè)誤差矩陣,它描繪樣本數(shù)據(jù)的真實(shí)屬性與識(shí)別結(jié)果類型之間的關(guān)系[21]。本文語(yǔ)音識(shí)別模型訓(xùn)練和測(cè)試準(zhǔn)確率如圖6所示。本文測(cè)試數(shù)據(jù)對(duì)應(yīng)的混淆矩陣如圖7所示。對(duì)于準(zhǔn)確率、精確率、召回率和綜合評(píng)價(jià)指標(biāo)F1值的計(jì)算公式如下:
(1)
(2)
(3)
(4)
其中NTP表示正類樣本被正確分類的數(shù)目,NTN表示負(fù)類樣本被正確分類的數(shù)目,NFP表示負(fù)類樣本被分為正類樣本的數(shù)目,NFN表示正類樣本被分為負(fù)類樣本的數(shù)目。
測(cè)試集的準(zhǔn)確率達(dá)到90%,訓(xùn)練集的準(zhǔn)確率達(dá)到95%,見(jiàn)圖6。根據(jù)式(1)~式(4)可得,以下對(duì)6個(gè)識(shí)別詞的識(shí)別結(jié)果,每個(gè)識(shí)別詞的平均精確率為89.05%、平均召回率為89.17%和平均F1值為89.01%,見(jiàn)圖7。各項(xiàng)指標(biāo)表明該分類器的識(shí)別率較高,聲學(xué)模型的性能較好,可以快速準(zhǔn)確地識(shí)別語(yǔ)音[22]。
圖5 離線語(yǔ)音訓(xùn)練過(guò)程
圖6 模型訓(xùn)練和測(cè)試準(zhǔn)確率
氛圍燈控制系統(tǒng)主要接受i.MX6識(shí)別的語(yǔ)音信號(hào)和車載CAN總線信號(hào)。氛圍燈控制程序流程如圖8所示。當(dāng)系統(tǒng)接受到命令單詞后,語(yǔ)音信號(hào)首先被準(zhǔn)確識(shí)別出,進(jìn)而將信號(hào)傳遞給氛圍燈的控制MCU,MCU將信號(hào)判斷后再去控制LED驅(qū)動(dòng)器,實(shí)現(xiàn)車載氛圍燈[23];同時(shí)當(dāng)汽車行駛過(guò)程中發(fā)生故障或者出現(xiàn)超速行駛,故障診斷ECU和儀表顯示ECU將CAN總線數(shù)據(jù)通過(guò)OBD-II接口傳遞到CAN收發(fā)器,進(jìn)而與MCU通信[24],該部分的組裝和測(cè)試需要試驗(yàn)車,本文只探討理論研究的可行性。
圖8 氛圍燈控制程序流程圖
在i.MX6中搭建CNN神經(jīng)網(wǎng)絡(luò)框架,通過(guò)PC訓(xùn)練的聲學(xué)模型參數(shù)輸入到框架中,實(shí)現(xiàn)基于嵌入式平臺(tái)的聲學(xué)模型,即完成聲學(xué)模型的移植[25]。其次搭建語(yǔ)音識(shí)別測(cè)試裝置,實(shí)物裝置見(jiàn)圖9,包括麥克風(fēng)、電源線、i.MX6、S32K144、顯示屏、RGB氛圍燈以及接插件若干。測(cè)試過(guò)程中,選取識(shí)別詞中“上”、“下”、“左”、“右”四個(gè),每個(gè)識(shí)別詞在線測(cè)試20次,計(jì)算平均響應(yīng)時(shí)間和平均準(zhǔn)確率,并運(yùn)用傳統(tǒng)語(yǔ)音識(shí)別方法與本文所用的深度學(xué)習(xí)方法進(jìn)行對(duì)比,如表1所示。本文所述方法比HMM方法的響應(yīng)時(shí)間平均縮短52.3%,識(shí)別準(zhǔn)確率提升7.4%。當(dāng)識(shí)別詞“上”被準(zhǔn)確識(shí)別時(shí),氛圍燈呈現(xiàn)出多色燈光流動(dòng)變幻,見(jiàn)圖9。
本文基于深度學(xué)習(xí)算法設(shè)計(jì)了一款LED車載語(yǔ)音交互氛圍燈,并在嵌入式平臺(tái)上實(shí)現(xiàn)了語(yǔ)音識(shí)別與智能化控制。研究結(jié)果表明:與傳統(tǒng)車載氛圍燈相比,該系統(tǒng)可以替代氛圍燈的觸摸和機(jī)械操作,擴(kuò)展了氛圍燈的操作方式;與傳統(tǒng)語(yǔ)音識(shí)別算法相比,該系統(tǒng)的深度學(xué)習(xí)算法解決了識(shí)別率低、響應(yīng)速度慢等問(wèn)題;與目前基于專用識(shí)別芯片的車載語(yǔ)音識(shí)別產(chǎn)品相比,該系統(tǒng)可以節(jié)約硬件或軟件成本。由此可見(jiàn),該LED車載語(yǔ)音交互氛圍燈系統(tǒng)設(shè)計(jì)是一種有效的嵌入式離線語(yǔ)音識(shí)別方案,可以推廣至其他車載照明產(chǎn)品的智能設(shè)計(jì)中。