王鑫 喬波 楊夢(mèng)
摘要:基于表面肌電信號(hào)(sEMG)的語(yǔ)音識(shí)別是通過(guò)面部放置的肌電信號(hào)傳感器采集生物電信號(hào)進(jìn)行處理識(shí)別,過(guò)程不依賴于聲學(xué)信號(hào), 可以避免外界噪聲的干擾,可提高強(qiáng)背景噪聲下通訊的準(zhǔn)確性、可靠性以及適應(yīng)場(chǎng)景條件的多變性,因此作為新的替代通訊方式在很多領(lǐng)域和場(chǎng)景被研究且應(yīng)用。因?yàn)樾盘?hào)時(shí)間軸不一致而無(wú)法直接利用機(jī)器學(xué)習(xí)算法進(jìn)行識(shí)別,本文提出了利用插值法來(lái)解決此問(wèn)題。現(xiàn)有研究的識(shí)別結(jié)果沒(méi)有提供可信度評(píng)估,在高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用不足,本文將一致性預(yù)測(cè)器(Conformal Predictors)應(yīng)用于基于表面肌電信號(hào)的孤立漢字無(wú)聲語(yǔ)音識(shí)別中,在提高了識(shí)別準(zhǔn)確率的同時(shí)為預(yù)測(cè)結(jié)果提供可靠性評(píng)估和保障。
關(guān)鍵詞: 肌電信號(hào);無(wú)聲語(yǔ)音識(shí)別;置信度;插值算法;一致性預(yù)測(cè)器
中圖分類號(hào):TN912.34 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)17-0003-04
Abstract:Silent speech recognition is based on the bioelectric signal collected by the sEMG sensor placed on the face, which is independent of the acoustic signal. It can avoid the interference of external noise, improve the accuracy and reliability of communication under strong background noise, and adapt to the variability of scene conditions. Therefore, as a new alternative communication method, it has been studied and applied in many fields and scenes. At present, the recognition of signal is based on the hidden Markov model, because the time axis of signal is inconsistent, so it can not directly utilize machine learning algorithms. This paper proposes an interpolation method to solve this problem. The existing research results do not provide confidence guarantee, and are insufficient in the high-risk field. In this paper, conformal predictors are applied to the isolated Chinese silent speech recognition based on sEMG signal, which improves the recognition accuracy and provides reliability evaluation and guarantee for the prediction results.
Key words:sEMG signal; silent speech recognition; confidence measurement; interpolation algorithm; conformal predictor
1概述
近二十年來(lái),自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)在實(shí)際應(yīng)用中取得了令人滿意的發(fā)展,然而基于聲學(xué)信號(hào)的語(yǔ)音識(shí)別仍存在一些固有缺點(diǎn):(1)語(yǔ)音信號(hào)很容易被環(huán)境噪聲干擾,在背景噪音下的語(yǔ)音識(shí)別性能會(huì)顯著下降;(2) 聲學(xué)信號(hào)的采集過(guò)程很難保持隱私或保密;(3)不適用于發(fā)聲障礙人士。 表面肌電信號(hào)(surface electromyography,sEMG)是肌肉系統(tǒng)進(jìn)行隨意性和非隨意性活動(dòng)時(shí)產(chǎn)生的生物電變化經(jīng)表面電極引導(dǎo)、放大、顯示和記錄所獲得的一維電壓時(shí)間序列信號(hào),反映了神經(jīng)和肌肉系統(tǒng)的功能和生理狀態(tài),并且從人體皮膚表面獲取,不會(huì)對(duì)人體造成損傷,因此在多個(gè)領(lǐng)域獲得深入研究和廣泛應(yīng)用,例如疾病診斷、假肢控制、遠(yuǎn)程操作機(jī)器人、康復(fù)治療等[1]。話語(yǔ)聲音的產(chǎn)生是一系列喉部肌肉和面部肌肉蔟活動(dòng)協(xié)作完成的,肌肉的變化對(duì)應(yīng)不同的活動(dòng)狀態(tài),因此可以從表面肌電信號(hào)中提取特征進(jìn)行語(yǔ)言或語(yǔ)義識(shí)別,識(shí)別不依賴于聲學(xué)信號(hào),自然避免了噪音或其他聲波干擾,因此基于表面肌電信號(hào)的無(wú)聲語(yǔ)音識(shí)別作為強(qiáng)噪音下的替代通訊方式被廣泛應(yīng)用,如飛行員在強(qiáng)噪音駕駛艙中進(jìn)行指令控制[2],消防員在救火場(chǎng)景中與隊(duì)員或指揮中心進(jìn)行交互[3];基于肌電信號(hào)可以與語(yǔ)音信號(hào)同步采集,被研究用于為宇航員提供額外通訊方式[4];除此之外,因?yàn)檎f(shuō)話人可以采用默讀的方式述說(shuō)指令或語(yǔ)句,也可以用來(lái)實(shí)現(xiàn)高保密性的人-機(jī)或人-人交互[5]。
雖然早在1985年肌電信號(hào)就被引入無(wú)聲語(yǔ)音識(shí)別的研究[6],但研究直到2001年才有突破性進(jìn)展,研究者比較了時(shí)域、傅里葉、小波包、小波變換四種特征提取方式,采用線性判別分析進(jìn)行分類進(jìn)行0-9數(shù)字的識(shí)別,平均識(shí)別率達(dá)到90%[2]。隨后針對(duì)大量以及連續(xù)信號(hào)的識(shí)別展開了許多的研究和實(shí)驗(yàn),并證明通過(guò)sEMG進(jìn)行連續(xù)語(yǔ)音識(shí)別是可能的[7]。Michael Wand等學(xué)者[8]建立了肌電信號(hào)數(shù)據(jù)庫(kù),由108 個(gè)詞匯組成的50個(gè)基本句子,平均每句話的字準(zhǔn)確率達(dá)到70%。 國(guó)內(nèi)的研究起步比較晚,2005年戴立梅等人將sEMG應(yīng)用于無(wú)聲語(yǔ)音識(shí)別領(lǐng)域,實(shí)現(xiàn)10個(gè)數(shù)字的識(shí)別,平均識(shí)別率達(dá)到85%。2019年金丹彤等人將深度學(xué)習(xí)應(yīng)用于漢語(yǔ)孤立詞的識(shí)別,對(duì)10個(gè)漢字得到80%的平均識(shí)別準(zhǔn)確率[9]?;诩‰娦盘?hào)的無(wú)聲語(yǔ)音識(shí)別一般包括信號(hào)預(yù)處理、肌肉活動(dòng)狀態(tài)檢測(cè)(分割),特征提取和識(shí)別四個(gè)步驟,目前的無(wú)聲語(yǔ)音信號(hào)識(shí)別多是基于隱馬爾可夫模型(HMM),但HMM模型的建立需要依賴一個(gè)較大的語(yǔ)音庫(kù),這在實(shí)際工作中占有很大的工作量,且模型需的存儲(chǔ)量和匹配計(jì)算的運(yùn)算量相對(duì)較大,雖然機(jī)器學(xué)習(xí)算法可解決此問(wèn)題,但由于說(shuō)話快慢的變化會(huì)使得信號(hào)的時(shí)間軸不一致,因此機(jī)器學(xué)習(xí)算法無(wú)法直接被應(yīng)用,只能與HMM一起建立混合模型實(shí)現(xiàn)。本文利用圖像識(shí)別領(lǐng)域常見的插值法解決了時(shí)間軸不一致性問(wèn)題,使得機(jī)器學(xué)習(xí)算法可以直接應(yīng)用于無(wú)聲語(yǔ)音信號(hào)識(shí)別。在高風(fēng)險(xiǎn)領(lǐng)域,分類失敗將導(dǎo)致嚴(yán)重的后果,利用可信度可以對(duì)識(shí)別結(jié)果的可靠性進(jìn)行假設(shè)檢驗(yàn),定位識(shí)別錯(cuò)誤所在,提高系統(tǒng)的識(shí)別率和穩(wěn)健性[10][11]?;谵D(zhuǎn)導(dǎo)推理的一致性預(yù)測(cè) (Conformal Predictor,CP)是1998年Vovk等人[12]提出來(lái)一種基于柯爾莫戈洛夫(Kolmogorov)算法隨機(jī)性理論的域預(yù)測(cè)機(jī)器學(xué)習(xí)算法,可以對(duì)預(yù)測(cè)結(jié)果進(jìn)行可靠性評(píng)估和保障,本文將研究一致性預(yù)測(cè)器在基于肌電信號(hào)的孤立詞的無(wú)聲語(yǔ)音識(shí)別的應(yīng)用,通過(guò)線性判別分析(LDA)優(yōu)化特征后,10個(gè)漢字的分類識(shí)別準(zhǔn)確率達(dá)99%,且同時(shí)可輸出帶置信度評(píng)估的域預(yù)測(cè)結(jié)果,為后續(xù)連續(xù)詞識(shí)別提供支持。
2 ?原理和方法
本研究使用表面肌電信號(hào)進(jìn)行10個(gè)漢語(yǔ)單詞的孤立詞的識(shí)別,單詞選用日常會(huì)話中的最常用的漢字。言語(yǔ)是多種面部和其他肌肉活動(dòng)復(fù)雜結(jié)合的結(jié)果。根據(jù)解剖學(xué)研究[13],與言語(yǔ)相關(guān)活躍的肌肉數(shù)量很豐富,我們采用了先前研究中的電極位置[14],并進(jìn)行了一些實(shí)驗(yàn),確定使用五個(gè)通道捕捉肌肉信號(hào),分別為:顴骨主、提角肌、頸闊肌、外舌和二腹肌前腹,如圖1所示。電極使用標(biāo)準(zhǔn)的Ag/AgCl電極,使用NuAmps腦電放大器采集肌電信號(hào),采樣頻率為250HZ。為了減少噪音,在采集過(guò)程中關(guān)閉了所有不必要的電源。實(shí)驗(yàn)采集了2位男性同學(xué)的肌電信號(hào)。在實(shí)驗(yàn)中,受試者以重復(fù)的方式默讀詞匯表中的單詞,每個(gè)單詞讀20次,每個(gè)字之間有10秒的停頓,使肌肉得到充分休息。
基于肌電信號(hào)的無(wú)聲語(yǔ)音識(shí)別一般包括信號(hào)預(yù)處理、肌肉活動(dòng)狀態(tài)檢測(cè)(分割),特征提取和識(shí)別,如圖2所示。本研究采用陷波濾波、帶通濾波和基線漂移對(duì)信號(hào)進(jìn)行預(yù)處理,然后手動(dòng)進(jìn)行信號(hào)分割,采用插值技術(shù)使信號(hào)長(zhǎng)度達(dá)到一致。特征提取的目的是用一組有效的數(shù)據(jù)描述原始肌電信號(hào)。本研究使用信號(hào)的時(shí)域信息作為特征,利用線性判別分析對(duì)特征進(jìn)行降維。分類識(shí)別步驟中對(duì)比了傳統(tǒng)的離線模式機(jī)器學(xué)習(xí)算法和在線學(xué)習(xí)模式的一致性預(yù)測(cè)器。
3關(guān)鍵技術(shù)實(shí)現(xiàn)
3.1 信號(hào)預(yù)處理與分割
本研究采用陷波濾波、帶通濾波對(duì)信號(hào)進(jìn)行預(yù)處理。陷波濾波器(notch ?filter)用于消除普遍存在的電力線干擾。電力線干擾可以通過(guò)地面、空氣等介質(zhì)傳輸?shù)饺梭w,后由表面肌電信號(hào)采集裝置采集。由于表面肌電信號(hào)相對(duì)較弱,電力線干擾很可能造成嚴(yán)重的影響,掩蓋了表面肌電信號(hào)本身的特性。本研究使用自適應(yīng)陷波濾波器來(lái)恢復(fù)干擾,然后將其從被測(cè)信號(hào)中消除。經(jīng)研究電力線干擾被認(rèn)為是50赫茲正弦信號(hào)和50赫茲余弦信號(hào)的線性疊加[15],本系統(tǒng)采用自適應(yīng)算法調(diào)整兩個(gè)信號(hào)的權(quán)值,使誤差最小。sEMG的主要信息集中在20Hz-120Hz范圍內(nèi)。通過(guò)帶通濾波可以保持20Hz-120Hz的信號(hào),來(lái)消除電力線信號(hào)的高次諧波和其他環(huán)境噪聲。
實(shí)驗(yàn)采用連續(xù)錄入的方式,對(duì)詞匯表的每一個(gè)單詞,用戶將重復(fù)說(shuō)20次,所以一個(gè)記錄將包含20段有效信號(hào),需要將這些有效信號(hào)分割出來(lái)。盡管語(yǔ)音識(shí)別針對(duì)VAD(Voice Activity Detection)進(jìn)行了大量的研究,但基于sEMG的SAD(Speech Activity Detection)在許多方面是一個(gè)更為困難的問(wèn)題,多個(gè)表面肌電通道的使用使問(wèn)題更加復(fù)雜,因?yàn)榧∪馐湛s優(yōu)先于語(yǔ)音產(chǎn)生并提前時(shí)間不等, 很難定義語(yǔ)音相關(guān)活動(dòng)的開始和結(jié)束,而每個(gè)通道的言語(yǔ)活動(dòng)相關(guān)行為獨(dú)立又互相受影響。本論文采用人工分割的方式篩選出所有有效信號(hào)段,總共獲得1200多個(gè)樣本,如表1所示。
3.2插值和特征提取
由于用戶說(shuō)話的快慢不同,導(dǎo)致有效信號(hào)的長(zhǎng)度不一,本研究采用插值方法來(lái)規(guī)整信號(hào)的長(zhǎng)度,通過(guò)對(duì)比最近鄰插值法、雙線性插值和雙三次插值的效果,最終采用雙線性插值將信號(hào)調(diào)整為每個(gè)通道370維的長(zhǎng)度。
根據(jù)提取參數(shù)的方法不同,可以將信號(hào)分析分為:時(shí)域分析、頻域分析和時(shí)頻域分析。根據(jù)之前的研究,時(shí)域特征可以為識(shí)別提供足夠的信息,獲得更好的性能[16],本論文對(duì)信號(hào)進(jìn)行時(shí)域分析。肌電信號(hào)是具有非平穩(wěn)特性的生理電信號(hào),在短時(shí)間范圍內(nèi)可以認(rèn)為信號(hào)是穩(wěn)態(tài)的,為了描述sEMG信號(hào)隨時(shí)間變化的趨勢(shì),首先按照疊加窗技術(shù)進(jìn)行分幀處理。根據(jù)信號(hào)采樣率和實(shí)際分析的需要,我們?nèi)∶繋盘?hào)長(zhǎng)為30ms, 幀移為15ms,每幀信號(hào)加漢明窗以消除分幀帶來(lái)的幀信號(hào)邊緣的不連續(xù)性。接著提取幀內(nèi)的四個(gè)時(shí)域特征值,分別為短時(shí)平均幅度、短時(shí)能量、短時(shí)平均過(guò)零率、短時(shí)平均幅值差。 從采集的5個(gè)通道的信號(hào)中共提取460維特征值。考慮到高維相關(guān)的精度和計(jì)算問(wèn)題,利用線性判別分析(Linear Discriminant Analysis,LDA)方法從460個(gè)特征中選擇了50個(gè)特征,該方法在腦組織分析[17]、語(yǔ)音識(shí)別[18]和人臉識(shí)別[19]等領(lǐng)域有著廣泛的應(yīng)用。
3.3 一致性預(yù)測(cè)器
3.3.1 一致性預(yù)測(cè)器原理
一致性預(yù)測(cè)器基于樣本服從獨(dú)立同分布假設(shè)的假設(shè),預(yù)測(cè)過(guò)程可以采用在線學(xué)習(xí)的方式,過(guò)程中訓(xùn)練樣本集是不斷更新的,在對(duì)測(cè)試樣本完成預(yù)測(cè)后,將測(cè)試樣本和它的真實(shí)標(biāo)簽加入訓(xùn)練樣本序列中,使得訓(xùn)練可以從零樣本開始并逐步擴(kuò)充訓(xùn)練集;也可以采用傳統(tǒng)的機(jī)器學(xué)習(xí)的離線學(xué)習(xí)模式,即在固定的訓(xùn)練樣本集上訓(xùn)練模型。
4 實(shí)驗(yàn)結(jié)果
本論文分別使用傳統(tǒng)的分類算法K近鄰、隨機(jī)森林(RF)以及支持向量機(jī)(SVM)和CP-KNN、CP-SVM、CP-RF進(jìn)行無(wú)聲語(yǔ)音識(shí)別。在KNN中使用的距離是歐幾里德距離。支持向量機(jī)的核函數(shù)是線性函數(shù)。隨機(jī)森林中決策樹的數(shù)量為500。所有實(shí)驗(yàn)均在10倍交叉驗(yàn)證程序中進(jìn)行。
4.1 單值預(yù)測(cè)結(jié)果
實(shí)驗(yàn)先后使用460維全部特征和50維優(yōu)化特征進(jìn)行分類,對(duì)比了離線模式的CP-KNN、CP-SVM和CP-RF的單值預(yù)測(cè)結(jié)果和傳統(tǒng)的KNN、SVM和RF的預(yù)測(cè)結(jié)果,如表2所示。結(jié)果顯示,使用優(yōu)化后的50維特征在預(yù)測(cè)中有更好的性能。對(duì)比多有的分類器,采用CP-RF識(shí)別的準(zhǔn)確度最高,同時(shí)具有最大的可信度。
4.2 域預(yù)測(cè)結(jié)果
實(shí)驗(yàn)比較了三種CP分類器的在線模式下的域預(yù)測(cè)性能。為了比較不同顯著性水平的域預(yù)測(cè)的精確度,我們統(tǒng)計(jì)了標(biāo)簽集的元素個(gè)數(shù)的中值,如圖3所示。在顯著性水平為5%時(shí),CP-SVM的域預(yù)測(cè)的中值約為9,隨著顯著性水平的增加而減小。相較于CP-SVM,CP-1NN和CP-RF輸出精確度更高的域預(yù)測(cè),即中值為1,但當(dāng)顯著性水平增加時(shí),CP-RF的空預(yù)測(cè)增長(zhǎng)率最小,如圖4所示。
5結(jié)論
本研究實(shí)現(xiàn)了基于面部肌肉肌電信號(hào)的10個(gè)漢語(yǔ)孤立詞的無(wú)聲語(yǔ)音識(shí)別,通過(guò)使用插值技術(shù)解決信號(hào)時(shí)間軸不統(tǒng)一的問(wèn)題,并將一致性預(yù)測(cè)器應(yīng)用于分類識(shí)別,為預(yù)測(cè)提供可靠性評(píng)估和保障。實(shí)驗(yàn)表明基于隨機(jī)森林的CP識(shí)別性能最好,在離線模式下分類精確度可達(dá)99.5%,可信度為99.8%,在線模式下,置信度水平為95%時(shí)仍可得到大量單一預(yù)測(cè)。證明一致性預(yù)測(cè)器可成功應(yīng)用于孤立漢語(yǔ)單詞識(shí)別。在今后的工作中可以探索如何利用CPs來(lái)提高漢語(yǔ)識(shí)別的魯棒性以及將小詞匯量孤立詞識(shí)別擴(kuò)展至連續(xù)詞識(shí)別進(jìn)而實(shí)現(xiàn)連續(xù)識(shí)別。
參考文獻(xiàn):
[1] MerlettiR,LoConteLR.Advances in processing of surface myoelectric signals:Part1[J].Medical andBiological Engineering and Computing, 1995,33(3):362-372.
[2] Chan A D C,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.
[3] Betts B J,BinstedK,JorgensenC.Small-vocabulary speech recognition using surface electromyography[J].Interacting With Computers, 2006,18(6):1242-1259.
[4] Jonas Dino. Ames Technology Capabilities and Facilities[EB/OL]. https://www.nasa.gov/centers/ames/research/technology-onepagers/human_senses.html
[5] Kapur A , Kapur S , Maes P . AlterEgo: A Personalized Wearable Silent Speech Interface[C]// the 2018 Conference,2018.
[6] Sugie N,Tsunoda K.A speech prosthesis employing a speech synthesizer-vowel discrimination from perioral muscle activities and vowel production[J].IEEE Transactions on BiomedicalEngineering, 1985,BME-32(7):485-490.
[7] Lopez-Larraz E,Mozos O M,Antelis J M,et al.Syllable-based speech recognition using EMG[C]//2010AnnualInternational Conference of the IEEE Engineering in Medicine and Biology,August31-September 4, 2010. Buenos Aires. IEEE, 2010: 4699-4702.
[8] Schultz T,WandM.Modeling coarticulation in EMG-based continuous speech recognition[J].Speech Communication, 2010,52(4):341-353.
[9] 金丹彤. 基于表面肌電信號(hào)的無(wú)聲語(yǔ)音識(shí)別算法研究[D].浙江:浙江大學(xué),2019.
[10] 劉鏡,劉加.置信度的原理及其在語(yǔ)音識(shí)別中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2000,37(7):882-890.
[11] Jiang H.Confidence measures for speech recognition:a survey[J].Speech Communication,2005,45(4):455-470.
[12] Vovk V, Gammerman A,Shafer G.Algorithmic Learning in a Random World[J].2005:xvi.
[13] Smith K K.Anelectromyographic study of the function of the jawadducting muscles inVaranusexanthematicus (Varanidae)[J].Journal of Morphology,1982,173(2):137-158.
[14] Maier-Hein L,Metze F,SchultzT,et al.Session independent non-audible speech recognition using surface electromyography[C]//IEEE Workshop on Automatic Speech Recognition and Understanding,2005.,November 27, 2005.SanJuan,Puerto Rico. IEEE, 2005: 331-336.
[15] Chan A DC,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.
[16] Schultz T, Walliczek M, Kraft F, et al. Towards Continuous Speech Recognition Using Surface Elec- tromyography. Bmj, 2006(29).
[17] Sch?ferKC,Balog J,SzaniszlóT,etal.Real time analysis of brain tissueby direct combinationofultrasonicsurgical aspiration and sonic spray mass spectrometry[J].Analytical Chemistry, 2011,83(20):7729-7735.
[18] Sakai M,Kitaoka N,Takeda K.Feature transformation based on discriminant analysis preserving local structure for speech recognition[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,April 19-24,2009. Taipei, Taiwan, China. IEEE, 2009: 3813-3816.
[19] BelhumeurPN,HespanhaJP,KriegmanDJ.Eigenfaces vs.Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.
[20] Phinyomark A,HuH,Phukpattaranont P,etal.Application of linear discriminant analysis in dimensionality reduction for hand motion classification[J].Measurement Science Review, 2012,12(3):15-22.
【通聯(lián)編輯:唐一東】