余劍雄 文元美
特約論文
面向癱瘓失語者的腦機(jī)字符與語音交互系統(tǒng)
余劍雄 文元美
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣東 廣州 510006)
為解決癱瘓失語者語言交流的困難,研究一種基于單通道柔性干電極腦電采集模塊的腦機(jī)字符與語音交互系統(tǒng)。首先,將時(shí)序腦電信號(hào)繪制成二維圖像并著色處理,利用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別出含有眨眼特征的圖像;然后,根據(jù)含有眨眼特征圖像的連續(xù)幀數(shù),實(shí)現(xiàn)短眨眼、中眨眼、長眨眼特征的細(xì)分;最后,結(jié)合腦電信號(hào)中解析的注意力特征,在虛擬交互系統(tǒng)輸出字符與語音。實(shí)驗(yàn)結(jié)果表明:該系統(tǒng)的交互準(zhǔn)確率達(dá)96.4%。
腦電信號(hào)采集;單通道;眨眼特征;注意力特征;字符與語音交互系統(tǒng)
我國因中風(fēng)或漸凍癥而癱瘓失語的人數(shù)多達(dá)10余萬。癱瘓失語者意識(shí)清醒卻只有眼珠能動(dòng),常因?yàn)闊o法表達(dá)身體感覺和情緒而得不到合適照料,同時(shí)也因無法與人交流而心理受創(chuàng)[1]。為提升癱瘓失語者的生存質(zhì)量,國內(nèi)外學(xué)者在腦機(jī)接口方面展開了一系列研究以幫助患者進(jìn)行交流。
在多通道腦機(jī)接口研究方面:2011年CECOTTI等基于64通道的腦電信號(hào),利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)設(shè)計(jì)一種檢查P300電位的算法,最高分類準(zhǔn)確率達(dá)95.5%[2];2012年HWANG等采用雙通道(Oz, O2)腦電信號(hào)設(shè)計(jì)一款基于穩(wěn)態(tài)視覺誘發(fā)電位(steady-state visual evokedpotential, SSVEP)的字符輸入系統(tǒng),字符輸入速度為9.39字符/min,交互平均準(zhǔn)確率達(dá)87.58%[3];2017年韓國高麗大學(xué)的研究人員采用30個(gè)電極的電極帽,通過穩(wěn)態(tài)觸覺誘發(fā)電位實(shí)現(xiàn)電動(dòng)輪椅的控制[4];2018年DOSE等采用64通道的腦電信號(hào),利用深度學(xué)習(xí)方法對(duì)運(yùn)動(dòng)想象進(jìn)行分類,在左右手二分類任務(wù)上取得86.49%的平均準(zhǔn)確率[5];2019年清華大學(xué)神經(jīng)工程團(tuán)隊(duì)基于與枕葉視覺區(qū)有關(guān)的6個(gè)主要腦電通道,將SSVEP技術(shù)應(yīng)用到漸凍癥患者身上,成功完成打字挑戰(zhàn)[6];2020年馬斯克通過3只小豬和實(shí)時(shí)神經(jīng)元現(xiàn)場演示活動(dòng),展示多通道侵入式Neuralink腦機(jī)接口技術(shù)的實(shí)際應(yīng)用過程[7];同年浙江大學(xué)完成國內(nèi)首例多通道植入式腦機(jī)接口臨床轉(zhuǎn)化研究,患者利用大腦皮層信號(hào)精準(zhǔn)控制外部機(jī)械臂和機(jī)械手,實(shí)現(xiàn)三維空間運(yùn)動(dòng)[8]。
在單通道腦機(jī)接口研究方面:2014年馬超使用單通道腦機(jī)接口,基于眨眼特征和注意力特征實(shí)現(xiàn)智能輪椅運(yùn)動(dòng)控制,控制指令最低識(shí)別正確率為87%[9];2017年趙興平基于單通道腦電模塊通過眨眼和注意力特征實(shí)現(xiàn)智能輪椅系統(tǒng)控制,控制指令平均識(shí)別正確率達(dá)82.96%[10];2018年RAJ等基于單通道腦電模塊實(shí)現(xiàn)字符輸入控制,最高字符輸入準(zhǔn)確率達(dá)82.5%[11];2019年邱銅基于單通道腦電傳感器,通過提取眨眼和注意力特征設(shè)計(jì)一種智能病床運(yùn)動(dòng)控制器,系統(tǒng)交互平均準(zhǔn)確率為92%[12]。
綜上所述,國內(nèi)外相關(guān)研究大多通過采集大腦皮層多個(gè)通道或大腦內(nèi)部神經(jīng)元的腦電信號(hào),達(dá)到精準(zhǔn)控制、交互的目的,但該類腦機(jī)接口價(jià)格昂貴,設(shè)備配戴過程繁雜。而侵入式腦機(jī)接口需進(jìn)行高風(fēng)險(xiǎn)和昂貴的腦機(jī)接口植入手術(shù),這對(duì)于多數(shù)癱瘓失語者家庭而言,是一個(gè)沉重負(fù)擔(dān),在實(shí)際生活中無法廣泛應(yīng)用。
相對(duì)而言,柔性干電極的單通道腦機(jī)接口雖然準(zhǔn)確率和速度不及多通道和侵入式的腦機(jī)接口,但腦電信號(hào)采集簡單、價(jià)格便宜,且不需要進(jìn)行腦機(jī)接口植入手術(shù),具有較好的應(yīng)用前景。目前,將單通道腦電信號(hào)用于智能輪椅、字符輸入系統(tǒng)和智能病床等控制,多利用眨眼與注意力特征,準(zhǔn)確率可達(dá)80%且逐年提升?;谇笆鰡瓮ǖ滥X機(jī)交互系統(tǒng)的研究,本文以圖像形式記錄腦電信號(hào),并將細(xì)分的短眨眼、中眨眼、長眨眼3類眨眼特征與注意力特征結(jié)合,用于交互系統(tǒng)的輸入控制,以提高交互準(zhǔn)確率。
面向癱瘓失語者的腦機(jī)字符與語音交互系統(tǒng)包括腦電信號(hào)獲取、圖像繪制與著色處理、眨眼特征提?。–NN)、眨眼特征細(xì)分、注意力特征提取和虛擬鍵盤與語音輸出等模塊,系統(tǒng)框架如圖1所示。
圖1 面向癱瘓失語者的腦機(jī)字符與語音交互系統(tǒng)框架
本系統(tǒng)采用單通道腦電采集模塊(think gear asic module, TGAM)進(jìn)行腦電信號(hào)采集。TGAM包括參考電極、接地電極和測量電極3個(gè)干式電極,采集頻率為512 Hz。TGAM經(jīng)過采樣、放大、去噪、量化和信號(hào)處理分析后,獲取前額Fp1或Fp2處的腦電信號(hào),并以腦電數(shù)據(jù)包形式輸出注意力集中度、冥想度、不同頻率波段(δ波、θ波、α波、β波和γ波)能量值以及信號(hào)質(zhì)量值等數(shù)據(jù)。為減少工頻信號(hào)和電磁信號(hào)等干擾,TGAM與PC端通過藍(lán)牙通信,將腦電數(shù)據(jù)包發(fā)送到PC端并進(jìn)行特征提取。
TGAM的輸出數(shù)據(jù)以圖像形式記錄。將原始的單通道腦電信號(hào)繪制成二維圖像,根據(jù)腦電信號(hào)和接地電極端信號(hào)的數(shù)量關(guān)系進(jìn)行著色區(qū)間分割,并對(duì)分割區(qū)間進(jìn)行顏色編碼。經(jīng)過著色處理后的腦電信號(hào)使眨眼特征更為直觀、顯著,易于理解。
記離散的腦電數(shù)據(jù)Rawdata序列為(),其中=N0,N1, …,N為Rawdata序列對(duì)應(yīng)的采樣時(shí)刻點(diǎn),=0,1, … ,P為采樣序列。同理,記接地電極端信號(hào)為() = 0,=N0,N1, … ,N為Rawdata序列對(duì)應(yīng)的采樣時(shí)刻點(diǎn),=0,1, … ,P為采樣序列。()與()是采樣頻率一致的離散信號(hào),且()與()以包絡(luò)形式圍成一個(gè)二維圖像,因此可根據(jù)()與()的大小關(guān)系對(duì)圖像進(jìn)行著色處理,以顏色特征表示()與()的大小關(guān)系。
具體操作:記某個(gè)采樣點(diǎn)為N,(N)對(duì)應(yīng)的像素點(diǎn)為A點(diǎn),(N)對(duì)應(yīng)的像素點(diǎn)為B點(diǎn),A,B像素點(diǎn)之間形成的線段記為AB;當(dāng)(N)(N)時(shí),AB著色為紅色;當(dāng)(N) <(N)時(shí),AB著色為藍(lán)色。對(duì)每個(gè)采樣點(diǎn)重復(fù)以上著色處理,最終得到一幅表征()與()大小關(guān)系的二維圖像。
將著色后的二維圖像作為數(shù)據(jù)集輸入CNN模型來分類眨眼特征,并對(duì)分類后的眨眼特征進(jìn)行標(biāo)記。本文采用8層CNN,包括2個(gè)卷積層、2個(gè)池化層、2個(gè)全連接層、1個(gè)dropout層和1個(gè)softmax層。網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 本文采用的CNN結(jié)構(gòu)
本文采用的CNN第一層為卷積層conv1,卷積核大小為3×3,輸出16個(gè)224×224的特征圖;第二層為池化層pool1,池化核大小為2×2,輸出16個(gè)112×112的特征圖;第三層為卷積層conv2,卷積核大小為3×3,輸出16個(gè)112×112的特征圖;第四層為池化層pool2,池化核大小為2×2,輸出16個(gè)56×56的特征圖;第五層full1和第六層full2為全連接層,均輸出128個(gè)特征值;第七層為概率=0.6的dropout層;第八層為softmax層。卷積層的激活函數(shù)采用ReLU函數(shù)。
本文權(quán)值與偏置的初始值服從均值為0、標(biāo)準(zhǔn)差為0.005的標(biāo)準(zhǔn)正態(tài)分布。訓(xùn)練過程中,每次隨機(jī)從樣本中選取90個(gè)樣本,共進(jìn)行100次隨機(jī)采樣。初始學(xué)習(xí)率為0.01,動(dòng)量為0.09,每采樣10次驗(yàn)證1次,驗(yàn)證過程中發(fā)現(xiàn)準(zhǔn)確率不變或下降時(shí),學(xué)習(xí)率下降一個(gè)數(shù)量級(jí)繼續(xù)訓(xùn)練,直到學(xué)習(xí)率下降到0.0001時(shí)不再變化。
每50 ms對(duì)腦電信號(hào)圖像做1次分類識(shí)別,形成20幀/s的標(biāo)記視頻流。借助該視頻流判斷眨眼開始和結(jié)束時(shí)間,識(shí)別出1次完整的眨眼過程。
在已標(biāo)記的視頻流中,根據(jù)眨眼特征的連續(xù)圖像幀數(shù),將眨眼特征細(xì)分為短眨眼、中眨眼和長眨眼。
定義一個(gè)大小為20的分類結(jié)果記錄隊(duì)列,每 50 ms將分類結(jié)果插入隊(duì)列最后。如果隊(duì)列已滿,則舍棄隊(duì)列頭的記錄,以保證隊(duì)列中的記錄都是最新的。用于眨眼特征細(xì)分流程的記錄隊(duì)列緩沖區(qū)如圖2所示。
圖2 記錄隊(duì)列緩沖區(qū)
1)開始時(shí),對(duì)少于20個(gè)分類結(jié)果的記錄不做處理;
2)當(dāng)?shù)?0個(gè)分類結(jié)果加入隊(duì)列時(shí),統(tǒng)計(jì)隊(duì)列中的分類結(jié)果,記包含眨眼特征的連續(xù)圖像幀數(shù)為,以“≥ 4”為眨眼有效的判定條件;
3)以此類推,每50 ms將分類結(jié)果插入隊(duì)列最后,舍棄隊(duì)列頭記錄,重復(fù)步驟2)的操作,每50 ms進(jìn)行一次眨眼是否有效的判定。
頻繁多次的短眨眼信號(hào)可構(gòu)成一次中眨眼或長眨眼信號(hào)?;谡Q塾行У呐卸l件(“≥ 4”),進(jìn)一步細(xì)分“10 >≥ 4”,“16 >≥ 10”,“≥ 16”分別對(duì)應(yīng)短眨眼、中眨眼、長眨眼3類眨眼特征。因長眨眼較耗時(shí),系統(tǒng)暫時(shí)沒有使用,用于以后其他擴(kuò)展功能。
人腦中腦電信號(hào)的頻率為0.5 Hz到幾十赫茲,將頻率由小到大排列,腦電信號(hào)可分為δ波、θ波、α波、β波和γ波[13]。當(dāng)大腦由放松狀態(tài)進(jìn)入注意力集中狀態(tài)時(shí),腦電信號(hào)中不同頻率波段能量值會(huì)做出相應(yīng)變化。根據(jù)這一現(xiàn)象,可從腦電信號(hào)中提取注意力特征[14]。
TGAM每秒輸出一個(gè)范圍值為0~100的注意力特征[15](attention)。本文以文獻(xiàn)[10]的注意力特征閾值58作為參考,將注意力高于或低于閾值的2種狀態(tài)分別定義為H和L。
對(duì)一次有效的注意力控制過程進(jìn)行判斷:記為注意力狀態(tài)連續(xù)為H的持續(xù)時(shí)間,以0(0= 3 s為時(shí)間閾值)作為注意力控制是否有效的判斷條件,從注意力狀態(tài)由L轉(zhuǎn)為H時(shí)開始計(jì)時(shí),直至注意力狀態(tài)由H轉(zhuǎn)為L時(shí)結(jié)束,同時(shí)置0并開始下一次的注意力控制檢測。以圖3所示的注意力變化過程為例,雖然在第2 s時(shí)檢測到注意力狀態(tài)為H,但在第3 s時(shí)注意力狀態(tài)由H轉(zhuǎn)為L,= 1 s視為無效的注意力特征;從第5 s開始注意力狀態(tài)由L轉(zhuǎn)為H持續(xù)到第9 s結(jié)束,= 5 s,視為有效的注意力特征。
圖3 注意力變化過程示意圖
基于眨眼特征和注意力特征,本文設(shè)計(jì)虛擬鍵盤交互系統(tǒng),用于癱瘓失語者與外界進(jìn)行“言語”溝通。該系統(tǒng)包括虛擬鍵盤和語音輸出模塊。其中虛擬鍵盤包含26個(gè)英文字母按鍵、10個(gè)數(shù)字按鍵和1個(gè)句號(hào)按鍵,共37個(gè)按鍵,并根據(jù)字符使用頻率,利用哈夫曼編碼對(duì)按鍵進(jìn)行位置布局,如圖4所示。
虛擬鍵盤有按鍵節(jié)點(diǎn)和哈夫曼編碼形成的中間節(jié)點(diǎn)2種類型。依據(jù)節(jié)點(diǎn)使用頻率自上而下、自左至右依次排列,使用頻率越高的節(jié)點(diǎn)掃描路徑越短。虛擬鍵盤每層第1個(gè)節(jié)點(diǎn)主要用作11個(gè)非英文字符按鍵;每層的第2,3,4個(gè)節(jié)點(diǎn)分別對(duì)26個(gè)英文字符進(jìn)行布局(字符V除外)。
2013年,湖北省水利廳繼續(xù)深入貫徹中央和省關(guān)于加快水利改革發(fā)展的決策部署,強(qiáng)化工作舉措,加快水利發(fā)展,各項(xiàng)工作保持又好又快的發(fā)展態(tài)勢(shì)。
圖4 虛擬鍵盤布局
虛擬鍵盤上用光點(diǎn)的閃動(dòng)表示當(dāng)前掃描節(jié)點(diǎn),定義當(dāng)前掃描節(jié)點(diǎn)為CurKey。當(dāng)檢測到短眨眼信號(hào)且CurKey節(jié)點(diǎn)為按鍵節(jié)點(diǎn)時(shí),輸出按鍵字符;否則開始CurKey節(jié)點(diǎn)的下一層掃描,以此類推,直至CurKey節(jié)點(diǎn)為按鍵節(jié)點(diǎn)。為取消因不由自主眨眼引起的誤操作,用中眨眼信號(hào)進(jìn)行中斷并從頭開始掃描過程。
語音輸出模塊實(shí)現(xiàn)音量、語速和語音的控制和輸出,實(shí)現(xiàn)過程如圖5所示。
圖5 語音輸出模塊實(shí)現(xiàn)過程
為實(shí)現(xiàn)實(shí)時(shí)語音輸出,當(dāng)一句話輸入完成時(shí),用一次有效注意力特征激活語音輸出模塊,文本輸入框當(dāng)前內(nèi)容轉(zhuǎn)換為語音并輸出,音量與語速可事先設(shè)定。
實(shí)驗(yàn)PC機(jī)CPU為Intel(R) Xeon(R) W-2123,內(nèi)存容量為16.0 GB,操作系統(tǒng)為window10 64位。
由于腦電信號(hào)微弱,因此在采集過程中,參考電極和接地電極采用耳夾形式,分別夾在左、右耳垂位置A1,A2,如圖6(a)所示。測量電極放置于額頭Fp1或Fp2的腦電極采集點(diǎn),如圖6(b)所示。參考電極、接地電極和測量電極的硬件連接導(dǎo)線不宜過長(視頭部尺寸大小而定,一般為20 cm~30 cm)。
圖6 腦電信號(hào)采集
以圖7(a)所示腦電信號(hào)為例,其存在幅值范圍為?0.5 mV~+0.5 mV的干擾信號(hào),反復(fù)微調(diào)各個(gè)電極位置,直到腦電信號(hào)幅值范圍減小到?0.1 mV~+0.1 mV,如圖7(b)所示。此時(shí),可輕微地眨動(dòng)眼睛并觀察腦電信號(hào)幅值是否發(fā)生變化。若眨眼行為使腦電信號(hào)發(fā)生短時(shí)的幅值跳變,則說明腦機(jī)接口配戴位置已調(diào)至最佳,如圖7(c)所示。
圖7(a)被干擾的腦電信號(hào)
圖7(b)正常的腦電信號(hào)
(c) 輕微眨眼時(shí)的腦電信號(hào)
本文使用的數(shù)據(jù)集是由實(shí)驗(yàn)室的受試者A,B,C通過TGAM采集。利用.NET平臺(tái)的上位機(jī)軟件Capture對(duì)TGAM采集的數(shù)據(jù)包進(jìn)行解析、繪制并著色成224×224的圖像,著色圖像記錄無眨眼和眨眼2類數(shù)據(jù)。TGAM采集數(shù)據(jù)的流程如圖8所示。著色前后的有無眨眼特征數(shù)據(jù)圖像如圖9所示。
圖8 TGAM采集數(shù)據(jù)流程
圖9 著色前后的有無眨眼特征數(shù)據(jù)圖像
由圖9可知:攜帶眨眼特征的腦電信號(hào)在圖像中呈現(xiàn)尖峰,而不攜帶眨眼特征的腦電信號(hào)較為平穩(wěn);從著色處理前后來看,著色處理后的圖像眨眼特征顯示更為直觀,如圖9(d)顯示眨眼次數(shù)為5。
本文采用CNN模型訓(xùn)練和分類眨眼特征。為驗(yàn)證該模型的有效性,先用數(shù)據(jù)集90%的樣本進(jìn)行CNN訓(xùn)練,并將該模型以model.pb的文件形式保存。數(shù)據(jù)集剩下的10%樣本用于結(jié)果驗(yàn)證,得到的驗(yàn)證準(zhǔn)確率為98.6%,說明該模型有效可行。
采用已驗(yàn)證的CNN模型進(jìn)行受試者眨眼特征識(shí)別對(duì)比實(shí)驗(yàn),對(duì)照組為文獻(xiàn)[10]提出的基于閾值判斷的眨眼特征提取算法。實(shí)驗(yàn)分別對(duì)受試者A,B,C進(jìn)行有無眨眼的識(shí)別測試各150次。
鑒于從TGAM中獲取的原始腦電信號(hào)范圍為?2048~2047,而普通人正常情況下眨眼腦電信號(hào)的幅值范圍為450~1000,參考文獻(xiàn)[10]設(shè)置的閾值為1021,對(duì)該閾值分別加減緩沖值100,即921,1021和1121,再與本文算法進(jìn)行眨眼特征識(shí)別準(zhǔn)確率對(duì)比。準(zhǔn)確率計(jì)算公式如式(1)所示,結(jié)果如表2所示。
表2 眨眼特征識(shí)別準(zhǔn)確率對(duì)照表
由表2可知:對(duì)照組文獻(xiàn)[10]閾值為921和1121時(shí),眨眼特征識(shí)別平均準(zhǔn)確率均為87.8%;而閾值為1021時(shí)取得最佳平均準(zhǔn)確率為90.4%,文獻(xiàn)[10]也正是選擇1021為閾值。本文提出的眨眼特征提取算法(著色+CNN)平均準(zhǔn)確率為97.1%,高出對(duì)照組的最佳平均準(zhǔn)確率6.7%。
對(duì)照組文獻(xiàn)[10]在不同閾值時(shí)有無眨眼的實(shí)驗(yàn)中,受試者A,B,C的眨眼特征識(shí)別準(zhǔn)確率存在較大差異:閾值為1021時(shí)受試者A和C眨眼特征識(shí)別準(zhǔn)確率較高;閾值為921時(shí)受試者B的眨眼特征識(shí)別準(zhǔn)確率較高。這是由于不同受試者存在眨眼強(qiáng)弱的差異,且文獻(xiàn)[10]根據(jù)固定的閾值進(jìn)行眨眼特征識(shí)別,致使整體識(shí)別準(zhǔn)確率不高。
采用本文(著色+CNN)的眨眼特征提取算法時(shí),受試者A,B,C眨眼特征識(shí)別準(zhǔn)確率分別為97.3%,98.0%和96.0%,不同受試者眨眼特征識(shí)別準(zhǔn)確率差異較小。本文算法將腦電信號(hào)繪制并著色成二維圖像,再利用CNN模型訓(xùn)練和分類。不同個(gè)體眨眼的差異表現(xiàn)在著色圖像中為位移、縮放和其他扭曲等變化,但CNN能較好地處理這類非線性問題,可識(shí)別由于個(gè)體差異而導(dǎo)致的眨眼特征變化。
為驗(yàn)證系統(tǒng)眨眼細(xì)分和注意力的特征識(shí)別準(zhǔn)確率,本文對(duì)受試者A,B,C分別進(jìn)行短眨眼、中眨眼、長眨眼和注意力特征識(shí)別測試各50次,實(shí)驗(yàn)結(jié)果如表3和表4所示。
表3 眨眼特征細(xì)分識(shí)別準(zhǔn)確率
由表3可知:本文算法對(duì)眨眼特征細(xì)分的平均準(zhǔn)確率達(dá)94.67%,解決了文獻(xiàn)[10]眨眼特征類型單一的缺點(diǎn);短眨眼、中眨眼和長眨眼的最低識(shí)別準(zhǔn)確率分別為94.0%,92.0%和94.0%,說明眨眼細(xì)分算法對(duì)不同眨眼類型都有較高的識(shí)別準(zhǔn)確率。
表4 注意力特征識(shí)別準(zhǔn)確率
由表4可知:本文算法的注意力特征平均識(shí)別準(zhǔn)確率比文獻(xiàn)[10]高3.3%,原因是本文加入了完整注意力周期的判斷,減少注意力噪聲影響。
腦機(jī)字符與語音交互系統(tǒng)實(shí)驗(yàn)流程如圖10所示。為驗(yàn)證字符輸入速度,按照?qǐng)D10的實(shí)驗(yàn)流程對(duì)受試者A,B,C進(jìn)行測試,字符輸入速度計(jì)算公式為
實(shí)驗(yàn)要求受試者A,B,C通過眨眼完成字符“welcome”的輸入,并通過注意力完成語音輸出任務(wù),測試結(jié)果如表5所示。
表5 字符輸入速度 (單位:字符/min)
由表5可知:腦機(jī)字符與語音交互系統(tǒng)字符輸入速度約為5字符/min,除不由自主的誤眨眼指令和用來取消誤操作的中眨眼指令外,1 min內(nèi)共輸入眨眼指令W(4次)+E(2次)+L(4次)+C(4次)+O(3次)=17次,單次眨眼指令約耗時(shí)3.5 s。文獻(xiàn)[10]在64 s內(nèi)共發(fā)出22個(gè)眨眼選擇控制指令,單次眨眼指令約耗時(shí)2.9 s;比本實(shí)驗(yàn)耗時(shí)少0.6 s。
為評(píng)價(jià)腦機(jī)字符與語音交互系統(tǒng)算法的準(zhǔn)確率,實(shí)驗(yàn)受試者A,B,C以文獻(xiàn)[10]算法控制虛擬鍵盤完成相同的測試任務(wù)作為對(duì)照組,測試結(jié)果如表6所示。
表6 不同算法控制虛擬鍵盤準(zhǔn)確率比較
由表6可知:文獻(xiàn)[10]算法控制虛擬鍵盤的平均準(zhǔn)確率為85.6%,而本文算法的平均準(zhǔn)確率為96.4%,提升了10.8%;原因是本文算法不但眨眼和注意力特征識(shí)別準(zhǔn)確率優(yōu)于文獻(xiàn)[10],而且以短眨眼、中眨眼信號(hào)分別輸入字符和中斷有誤輸入。
腦機(jī)字符與語音交互系統(tǒng)界面如圖11所示。
圖11 腦機(jī)字符與語音交互系統(tǒng)界面
圖11中,Input文本框用于字符輸入;Output用于輸出文本框內(nèi)容;圖像顯示框?qū)崟r(shí)顯示腦電信號(hào)著色圖像;Threshold是注意力特征閾值,可通過滑動(dòng)條對(duì)其進(jìn)行調(diào)整;Attention進(jìn)度條顯示注意力持續(xù)時(shí)間;CountDown是按鍵節(jié)點(diǎn)掃描倒計(jì)時(shí)顯示(單位為秒);右上方的曲線圖實(shí)時(shí)顯示注意力特征;界面下半部分為虛擬鍵盤以及音量、語速控制。
本文基于單通道腦電采集模塊,采用CNN識(shí)別腦電信號(hào)中的3類眨眼特征,并將眨眼特征與注意力特征結(jié)合,設(shè)計(jì)一款腦機(jī)字符與語音交互系統(tǒng)。經(jīng)準(zhǔn)確率和字符輸入速度的多組對(duì)照實(shí)驗(yàn)表明:本文提出的采用CNN識(shí)別眨眼特征以及細(xì)分眨眼特征用于字符輸入控制的方法,較好地提升了系統(tǒng)的交互準(zhǔn)確率。未來借助AI SOC芯片的運(yùn)算能力,可將本文提出的方法用于智能輪椅、智能病床等控制。
[1] 李燕,章瑋.康復(fù)性溝通模式對(duì)脊髓損傷并癱瘓患者情緒及生活能力的影響[J].現(xiàn)代中西醫(yī)結(jié)合雜志,2020,29(18):2046- 2049.
[2] CECOTTI H, GRASER A. Convolutional neural networks for P300 detection with application to brain-computer interfaces[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2011, 33(3):433-445.
[3] HWANG H J, LIM J H, JUNG Y J, et al. Development of an SSVEP-based BCI spelling system adopting a QWERTY-style LED keyboard[J]. Journal of Neuroscience Methods, 2012, 208(1):59-65.
[4] KIM K T, LEE S W. Towards an EEG-based intelligent wheelchair driving system with vibro-tactile stimuli[C]// IEEE International Conference on Systems. IEEE, 2017.
[5] DOSE H, MOLLER J S, IVERSEN H K, et al. An end-to-end deep learning approach to MI-EEG signal classification for BCIs[J]. Expert Systems with Applications, 2018, 114(DEC.): 532-542.
[6] 楊晨.面向應(yīng)用的穩(wěn)態(tài)視覺誘發(fā)電位腦—機(jī)接口算法及系統(tǒng)研究[D].北京:清華大學(xué),2018.
[7] 烏肖米.馬斯克的“腦機(jī)接口”,能徹底根除殘疾嗎?[J].寧波經(jīng)濟(jì)(財(cái)經(jīng)視點(diǎn)),2020(10):31-33.
[8] 吳雅蘭,柯溢能.高位截癱可用“意念”喝可樂打麻將:浙江大學(xué)完成國內(nèi)首例植入式腦機(jī)接口臨床轉(zhuǎn)化研究[J].今日科技,2020(4):40-41.
[9] 馬超.基于單通道腦機(jī)接口的嵌入式智能輪椅控制系統(tǒng)研究[D].南寧:廣西大學(xué),2015.
[10] 趙興平.基于單通道腦機(jī)接口的智能輪椅控制及人機(jī)交互研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[11] RAJ R, DEB S, BHATTACHARYA P. Brain-computer interfaced single key omni directional pointing and command system: a screen pointing interface for differently-abled person[J]. Procedia Computer Science, 2018, 133:161-168.
[12] 邱銅.基于腦機(jī)接口的智能病床運(yùn)動(dòng)控制器研究[D].杭州:浙江大學(xué),2019.
[13] Zhang Lu, Lyu Qingsong, Xu Yishen. Single channel brain-computer interface control system based on TGAM module[C]//International Congress on Image & Signal Processing. IEEE, 2018.
[14] Wu Yu, Xie Ning. Attention optimization method for EEG via the TGAM[J]. Computational and Mathematical Methods in Medicine, 2020, 2020:1-11.
[15] Ni Dan,Wang Shuo, Liu Guocheng. The EEG-based attention analysis in multimedia m-learning[J]. Computational and Mathematical Methods in Medicine, 2020, 2020(4):1-10.
Brain-Computer Character and Speech Interaction System for Paralyzed Aphasia
Yu Jianxiong Wen Yuanmei
(School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China)
To help paralyzed aphasia patients to solve the difficulty of language communication, a new brain-computer interaction system based on single channel flexible electrode EEG acquisition module was studied. Firstly, the sequential EEG signal is drawn into a two-dimensional image and colored. Secondly, the image with blink feature is recognized by CNN. Thirdly, according to the number of consecutive frames of the image with blink feature, the features of short blink, medium blink and long blink are subdivided. Finally, combined with the attention feature of EEG analysis, characters and speech are output in the designed virtual interactive system. The experimental results show that the interactive accuracy of this method is as high as 96.4%.
EEG signal acquisition; single channel; blink feature; attention feature; character and speech interaction system
余劍雄,男,1993年生,碩士研究生,主要研究方向:模式識(shí)別、嵌入式系統(tǒng)。E-mail: 1157247727@qq.com
文元美,女,1968年生,副教授,博士,主要研究方向:智能信息處理。E-mail: ym0218@gdut.edu.cn
TP391.7
A
1674-2605(2021)03-0001-09
10.3969/j.issn.1674-2605.2021.03.001