楊曉芳,江銘虎
(1. 清華大學(xué)人文學(xué)院 計(jì)算語言學(xué)實(shí)驗(yàn)室,北京 100084;2. 清華大學(xué)人文學(xué)院 心理學(xué)與認(rèn)知科學(xué)研究中心,北京 100084)
腦機(jī)接口(Brain-Computer Interface, BCI)技術(shù)是近年來生物醫(yī)學(xué)工程領(lǐng)域的研究熱點(diǎn)之一,形成于20世紀(jì)70年代[1]。1999年,第一屆BCI國際會(huì)議給出了BCI的定義,即“腦機(jī)接口是一種不依賴于正常的由外周神經(jīng)和肌肉組成的輸出通路的通訊系統(tǒng)”[2]。傳統(tǒng)的人機(jī)交互方式通過聲音、按鈕等形式實(shí)現(xiàn),然而部分病人因各種原因不具備言語表達(dá)或肢體操作能力,故此類交互方式無法實(shí)現(xiàn)。幸運(yùn)的是BCI技術(shù)為其提供了一種全新的通信和控制方式,無需通過語言或肢體動(dòng)作,而是直接通過腦電波來表達(dá)其想法或操縱設(shè)備,可幫助罹患中風(fēng)或肌萎縮側(cè)索硬化癥(Amyotrophic Lateral Sclerosis, ALS)等運(yùn)動(dòng)神經(jīng)元疾病的患者部分或完全恢復(fù)與外界溝通交流的能力[1],也可以為健康人提供全新的溝通及娛樂方式[3]。
隨著微導(dǎo)線(microwire)和微電極陣列(microelectrode array)的研發(fā)與應(yīng)用,研究人員能夠通過皮層腦電圖(Electrocorticogram, ECoG),局域場電位(Local Field Potentials, LFPs),以及單單元?jiǎng)幼麟娢?Single Unit Activity, SUA)等方式記錄到受試者的顱內(nèi)電生理信號(hào),繼而通過信號(hào)處理和模式識(shí)別等手段解碼高時(shí)空分辨率顱內(nèi)腦電信號(hào),從而解讀腦機(jī)接口系統(tǒng)使用者的意圖并由此控制外部設(shè)備按其意愿工作,例如移動(dòng)鼠標(biāo)至指定位置并選中打開某程序,通過腦電信號(hào)打字向電腦屏幕輸入想說的內(nèi)容,甚至是控制輪椅向指定方向移動(dòng)或是機(jī)械假肢按指令行動(dòng)等[4-6]。盡管顱內(nèi)腦電信號(hào)具有很高的時(shí)間和空間分辨率,但其通過開顱手術(shù)放置電極而造成對人體損傷的有創(chuàng)性使之很難得以推廣普及。因而,為使腦機(jī)接口系統(tǒng)面向更廣大的用戶群體,研究人員對于無創(chuàng)的BCI系統(tǒng)進(jìn)行了大量研究。通過腦電圖(Electroencephalogram, EEG)和腦磁圖(Magnetoencephalogram, MEG)等手段測量腦部活動(dòng)信號(hào)從而解讀使用者的意圖[7-10]。在無創(chuàng)腦機(jī)接口系統(tǒng)研究中,研究最廣泛的當(dāng)屬基于P300成分的腦機(jī)接口系統(tǒng),通過記錄使用者的頭皮腦電信號(hào)來測量其腦部活動(dòng),并探測P300成分誘發(fā)信號(hào)以實(shí)現(xiàn)人腦同外部設(shè)備的直接交互。P300腦電成分具有被誘發(fā)或未被誘發(fā)兩種狀態(tài),其誘發(fā)條件為主動(dòng)注意某一刺激,低層次感知特性[11-12],或是由低頻率呈現(xiàn)的刺激所誘發(fā)[13-14]。由此,P300成分可令使用者在未接受特定訓(xùn)練的情況下通過調(diào)整自身注意力,使其集中在某一特定刺激上而達(dá)到運(yùn)用頭皮腦電信號(hào)與外部設(shè)備進(jìn)行溝通的目的,從而控制腦機(jī)接口系統(tǒng)按其意愿行事。
本文剩余部分按照如下方式組織: 第2節(jié)詳細(xì)介紹了漢語音位發(fā)音想象腦電實(shí)驗(yàn)的實(shí)驗(yàn)范式、實(shí)驗(yàn)材料、數(shù)據(jù)采集、數(shù)據(jù)處理、時(shí)頻分析、共同空間模式算法以及腦電數(shù)據(jù)配對分類;第3節(jié)描述了實(shí)驗(yàn)結(jié)果,包括頻域分析結(jié)果、時(shí)域分析結(jié)果、空域分析結(jié)果和配對分類結(jié)果;最后,第4節(jié)是全文總結(jié)與討論。
3位來自清華大學(xué)的本科生參與了此次實(shí)驗(yàn)(兩位男性,平均年齡 = 19.3歲,標(biāo)準(zhǔn)差 = 2歲)。所有受試者均來自中國大陸,并且都能說標(biāo)準(zhǔn)流利的普通話。所有受試者均有正?;虺C正至正常的視力,且根據(jù)愛丁堡利手測驗(yàn)均是右利手[19]。沒有受試者報(bào)告有任何神經(jīng)或心理方面的疾病,且之前均沒有任何使用腦機(jī)接口系統(tǒng)的經(jīng)驗(yàn)。整個(gè)實(shí)驗(yàn)過程完全符合赫爾辛基宣言,且所有受試者均在實(shí)驗(yàn)前簽署了知情同意書。
受試者頭戴EEG電極帽非常放松地坐在光線較暗的電磁屏蔽室里的扶手椅上,距離刷新率為60赫茲的CRT顯示屏大約60厘米。在實(shí)驗(yàn)開始之前,受試者均接受了漢語發(fā)音訓(xùn)練確保其發(fā)音部位和方法正確。實(shí)驗(yàn)過程中受試者被要求想象屏幕中央呈現(xiàn)的漢語音位的發(fā)音部位及語音發(fā)音。在實(shí)驗(yàn)開始時(shí)(t = 0s),電腦灰色屏幕中央出現(xiàn)一個(gè)固定的十字提示本次實(shí)驗(yàn)即將開始。一至兩秒過后,屏幕中央隨機(jī)出現(xiàn)一個(gè)刺激符號(hào)并停留兩秒鐘,受試者根據(jù)提示想象對應(yīng)的音位發(fā)音直至該刺激符號(hào)消失才停止。之后電腦屏幕再次變灰并持續(xù)三秒鐘供受試者休息,如此便完成了一次實(shí)驗(yàn)。具體實(shí)驗(yàn)流程如圖1(a)所示。選擇灰色屏幕作為背景是為了降低視覺后效。每個(gè)刺激符號(hào)進(jìn)行50次實(shí)驗(yàn),每位受試者共進(jìn)行450次實(shí)驗(yàn)。
圖1 實(shí)驗(yàn)流程及刺激材料
本實(shí)驗(yàn)過程中共有九種刺激材料呈現(xiàn)在屏幕中央,字體均為SimSun-ExtB,大小為30。其中四種是元音音位,分別代表普通話四呼的一類,即開口呼(/a/)、齊齒呼(/i/)、合口呼(/u/)和撮口呼(/y/)。表1描述了這4個(gè)元音音位的發(fā)音部位及發(fā)音方法。圖1(b)根據(jù)國際音標(biāo)表描繪了普通話元音舌位圖中這四個(gè)元音音位最具代表性的4個(gè)音素,其中水平線表明舌位前后,垂直線表明舌位高低,位于圓點(diǎn)左側(cè)的是非圓唇音,右側(cè)的是圓唇音。需要強(qiáng)調(diào)的一點(diǎn)是,音位作為音系學(xué)的最基本單位通常兩邊用斜線表示,音素作為語音學(xué)的最基本單位通常兩邊用方括號(hào)表示。在某一特定語言系統(tǒng)內(nèi)部,音位是由一組彼此差別沒有區(qū)別詞的語音形式作用而音感上又相似的音素概括而成的音類。抽象的音位以具體的音素與音素之間的關(guān)系作為基礎(chǔ)[20]。例如,英語中kin和skin兩個(gè)詞中的k分別對應(yīng)國際音標(biāo)[k’]和[k],但這兩個(gè)音素由同一個(gè)音位/k/表示。同樣地,在漢語中圖1(b)里的音素[A]即屬于表1中的音位/a/。由于細(xì)微的舌位差別會(huì)導(dǎo)致不同的音素發(fā)音,本文著重研究音位的發(fā)音想象,允許不同試次和受試者間細(xì)微的發(fā)音差別。
表1 元輔音音位的發(fā)音部位及發(fā)音方法二值描述
另四種刺激材料是輔音音位,表1描述了這4個(gè)輔音音位的發(fā)音部位及發(fā)音方法,各發(fā)音部位的矢狀位如圖1(c)所示。本文挑選的這4個(gè)輔音音位不僅發(fā)音部位各不相同,而且發(fā)音時(shí)長都相對較長。鼻輔音(如/m/, /n/, //)發(fā)音時(shí)軟腭下垂使氣流從鼻腔瀉出,而摩擦音(如/f/)發(fā)音時(shí)氣流被迫從發(fā)音器官形成的狹窄縫隙中流出。相反,爆破音(如/b/, /d/, //)發(fā)音時(shí)則是先由發(fā)音器官在口腔中形成阻礙,然后氣流沖破阻礙而發(fā)出聲音,因而發(fā)音時(shí)長較短,不符合本文實(shí)驗(yàn)設(shè)計(jì)要求,因受試者被要求保持音位發(fā)音想象兩秒鐘直至刺激材料在屏幕中央消失。
最后一種刺激材料我們選用非語音符號(hào)“#”作為控制條件,使得各種刺激材料都以一致的字體和大小呈現(xiàn)以保持基本一致的視覺刺激效果。在前人研究中,Dassalla報(bào)告了一個(gè)所謂的發(fā)音想象語言相關(guān)ERP成分,其可信度尚存爭議,因其實(shí)驗(yàn)中僅使用了白屏作為控制條件,更多討論詳見第4節(jié)[21]。
32個(gè)銀/氯化銀電極根據(jù)國際10-20系統(tǒng)標(biāo)準(zhǔn)放置在NeuroScan電極帽上用于記錄EEG實(shí)驗(yàn)數(shù)據(jù)(采樣率 = 500Hz, 帶通濾波 = .01~100Hz, 陷波濾波 = 50Hz)。兩個(gè)散電極被分別放置于左眼上下兩側(cè)用于測量垂直眼電(VEOG),水平眼電(HEOG)則由放置于雙眼兩側(cè)的另外兩個(gè)散電極測量。還有兩個(gè)散電極被放置于左右乳突,腦電信號(hào)采集時(shí)以左側(cè)乳突作為參考電極。所有電極的電阻均被調(diào)至5KΩ以下。EEG數(shù)據(jù)由運(yùn)行于Windows XP平臺(tái)上的Scan2.0(NeuroScan Inc.)軟件進(jìn)行記錄。
所有受試者的EEG數(shù)據(jù)均由MATLAB(7.14.0, MathWorks, Inc., Natick, MA)和EEGLAB處理[22]。預(yù)處理階段,首先將采集到的EEG信號(hào)以左右乳突均值作重參考并作帶通濾波(1~30Hz)以去除低頻基線飄移或電極噪聲。之后,各個(gè)試次的數(shù)據(jù)被截?cái)酁閇-200 800]ms的時(shí)間段并對各通道用刺激呈現(xiàn)前200ms的數(shù)據(jù)作基線矯正。若某一段數(shù)據(jù)在任一通道超出±100μV的范圍則被剔除以除去由眨眼、水平眼動(dòng)、電極噪聲等引起的偽跡,提高數(shù)據(jù)質(zhì)量便于進(jìn)行后續(xù)分析處理。
通過表5可以看出,浮選尾礦熔煉合金經(jīng)過真空蒸餾后,在1 000 ℃、蒸餾90 min的條件下,可以獲得最優(yōu)的金、銀直收率,同時(shí)鉛、鉍、碲的脫除率均較高,但隨著溫度的升高,揮發(fā)率增加,雖然殘留物中金、銀的富集倍數(shù)增加了,但是直收率卻大幅度下降,經(jīng)濟(jì)性有所下降。銻雖然在理論計(jì)算中擁有較高的脫除率,但在實(shí)際試驗(yàn)中脫除效果較差,可能源于浮選尾礦熔煉合金中銻并非以二元合金的形式存在,組分較為復(fù)雜,難以揮發(fā)。
經(jīng)過預(yù)處理的腦電數(shù)據(jù),我們首先對其進(jìn)行頻域分析,將音位發(fā)音想象與控制條件作對比,并通過分析事件相關(guān)頻譜擾動(dòng)(Event-Related Spectral Perturbation, ERSP)的差異得出音位發(fā)音想象效應(yīng)統(tǒng)計(jì)顯著的頻段。之后,我們對腦電數(shù)據(jù)用最優(yōu)頻段作帶通濾波并對其進(jìn)行配對T檢驗(yàn)以得出音位發(fā)音想象效應(yīng)的最優(yōu)時(shí)段。在提取出最優(yōu)時(shí)段特征后,我們運(yùn)用CSP(Common Spatial Patterns)算法設(shè)計(jì)空間濾波器進(jìn)一步在空域上優(yōu)化數(shù)據(jù)以提高每兩個(gè)條件之間用線性核函數(shù)支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行兩兩配對分類的效果。完整的數(shù)據(jù)分析和分類流程如圖2所示。此外, 我們基于表1中發(fā)音控制的二值描述計(jì)算出了各刺激材料間的Jaccard距離并通過層次聚類將其可視化。我們又進(jìn)一步對配對分類的正確率和相應(yīng)的Jaccard距離作了相關(guān)性分析。
在抽取音位發(fā)音想象效應(yīng)的特征時(shí),我們將音位發(fā)音想象任務(wù)和控制條件作對比以得出最優(yōu)化的時(shí)頻腦電特征。我們利用EEGLAB提供的快速傅里葉變換(Fast Fourier Transform, FFT)進(jìn)行腦電數(shù)據(jù)的頻域特征分析,并用二維(潛伏期×頻率)事件相關(guān)頻譜擾動(dòng)(ERSP)來表示相對于基線的腦電頻譜能量平均變化[23]。我們選用256ms的滑動(dòng)窗應(yīng)用了200次,輸出的潛伏期范圍是-72~672ms,頻率范圍是1~30Hz。我們進(jìn)一步用EEGLAB提供的拔靴統(tǒng)計(jì)法(Bootstrap Statistical Method)來檢驗(yàn)差異ERSP的統(tǒng)計(jì)顯著性(P < 0.025)。
腦電數(shù)據(jù)的時(shí)域特征分析則是通過點(diǎn)對點(diǎn)配對樣本T檢驗(yàn)將音位發(fā)音想象任務(wù)和控制條件作比較。我們對運(yùn)動(dòng)想象腦機(jī)接口研究中常用的感覺運(yùn)動(dòng)皮層區(qū)的9個(gè)電極(FC3, FCz, FC4, C3, Cz, C4, CP3, CPz, CP4)進(jìn)行分析,當(dāng)且僅當(dāng)每個(gè)電極有至少10個(gè)連續(xù)采樣點(diǎn)統(tǒng)計(jì)顯著(P < 0.05)時(shí),該時(shí)間段才被認(rèn)為效應(yīng)顯著。在呈現(xiàn)時(shí)域分析結(jié)果時(shí),我們進(jìn)一步將這9個(gè)電極在點(diǎn)對點(diǎn)配對樣本T檢驗(yàn)中得出的ERP時(shí)段平均波幅作配對T檢驗(yàn)以驗(yàn)證該成分的統(tǒng)計(jì)顯著性。
圖2 腦電數(shù)據(jù)處理流程圖
其中N是g組內(nèi)的試次數(shù),trace(x)是x矩陣對角元素的和。之后,我們將各組所得的矩陣相加以得到復(fù)合空間協(xié)方差矩陣,如式(2)所示。
以均衡特征空間的方差,并且將原先的平均協(xié)方差矩陣按下式轉(zhuǎn)換,如式(4)所示。
其中Ug由每個(gè)類別的L個(gè)特征向量組成,而W-1的列則是共同空間模式,即各條件下腦電源分布向量。最后,我們將各組別每個(gè)試次的EEG原始數(shù)據(jù)按下式進(jìn)行分解,如式(6)所示。
以得到新的時(shí)間序列,其方差能最大化地區(qū)分各種條件。
本文通過訓(xùn)練支持向量機(jī)(Support Vector Machine, SVM)來實(shí)現(xiàn)每兩個(gè)條件之間的配對分類,因?yàn)镾VM具有較強(qiáng)的泛化能力并且對過擬合和維度災(zāi)難(curse-of-dimensionality)問題有較強(qiáng)的適應(yīng)能力[27]。SVM處理二分問題的基本原理是尋找一個(gè)最優(yōu)化的分類超平面,使得兩類數(shù)據(jù)間的分類間隔最大化[28]。而對于非線性SVM分類器,則采用核函數(shù)將數(shù)據(jù)點(diǎn)投射到另一高維空間中,使其在核空間內(nèi)線性可分[29]。
本文對經(jīng)過預(yù)處理的腦電數(shù)據(jù)用音位發(fā)音想象效應(yīng)的頻段和時(shí)段提取出最優(yōu)化的時(shí)頻特征向量,并將其降采樣至50Hz。之后,從每類刺激材料的50段數(shù)據(jù)中隨機(jī)挑選40個(gè)樣本組成訓(xùn)練數(shù)據(jù)集,剩余樣本組成測試數(shù)據(jù)集,并用CSP算法計(jì)算兩類訓(xùn)練數(shù)據(jù)的共同空間模式。EEG訓(xùn)練和測試數(shù)據(jù)采用8個(gè)最重要的空間濾波器(每一類4個(gè))進(jìn)行空域分解,然后再用LIBSVM[30]提供的SVM線性核函數(shù)分類器實(shí)現(xiàn)配對分類。分類器首先用訓(xùn)練數(shù)據(jù)集的特征向量進(jìn)行訓(xùn)練,之后再用測試數(shù)據(jù)集驗(yàn)證其分類效果,分類器參數(shù)則選用網(wǎng)格搜索和交叉驗(yàn)證中正確率最高的參數(shù)[31]。本文對每位受試者的
9種任務(wù)進(jìn)行兩兩配對(共36對組合),每次隨機(jī)選取訓(xùn)練集和測試集進(jìn)行分類并重復(fù)這一過程20次,再將受試間分類平均正確率和每一對刺激材料間的Jaccard距離作相關(guān)性分析。
本節(jié)展示了受試3的腦電數(shù)據(jù)頻域分析結(jié)果,其余受試者的結(jié)果與其相似。受試3發(fā)音控制皮層區(qū)域C3和C4電極的代表性元音音位/i/、輔音音位/f/的發(fā)音想象、控制條件、音位發(fā)音想象效應(yīng)(/i/減去控制條件及/f/減去控制條件)的頻譜分析結(jié)果和ERSP圖如圖3所示,其中音位想象效應(yīng)的頻譜能量由EEGLAB提供的拔靴統(tǒng)計(jì)法來檢驗(yàn)其顯著性(P<0.025)。頻域分析結(jié)果顯示,音位想象效應(yīng)相對于控制條件誘發(fā)了雙側(cè)感覺運(yùn)動(dòng)皮層區(qū) 2~10Hz頻段內(nèi)的頻譜能量降低,這一頻段被用來對腦電數(shù)據(jù)作進(jìn)一步的頻域?yàn)V波以提取最優(yōu)化的頻域腦電特征。
圖3 音位發(fā)音想象和控制條件的頻域分析結(jié)果
時(shí)域分析結(jié)果得出了3個(gè)主要時(shí)間段,對應(yīng)不同音位發(fā)音想象和控制條件的ERP波幅差異。受試間感覺運(yùn)動(dòng)皮層區(qū)域電極(FC3, FCz, FC4, C3, Cz, C4, CP3, CPz, CP4)平均的音位發(fā)音想象及控制條件ERP波形如圖4所示,其中陰影部分表示音位發(fā)音想象效應(yīng)統(tǒng)計(jì)顯著(P < 0.05)的時(shí)間段。在早期(98~142ms)和晚期(446~530ms)階段,音位發(fā)音想象任務(wù)較控制條件相比分別誘發(fā)了一個(gè)更負(fù)向的ERP成分,而在中期(308~396ms)階段則是誘發(fā)了一個(gè)更正向的ERP成分。音位發(fā)音想象任務(wù)和控制條件早期的差異很大程度上是由于視覺刺激的物理屬性(如空間頻率)不同而引起的,因而本文將音位發(fā)音想象效應(yīng)的時(shí)間窗縮短至300~500ms,涵蓋了絕大部分音位刺激材料誘發(fā)的中期和晚期腦電響應(yīng)時(shí)段,并用這一200ms的時(shí)間窗對腦電數(shù)據(jù)做進(jìn)一步的時(shí)域?yàn)V波以提取最優(yōu)化的時(shí)域腦電特征。
圖4 感覺運(yùn)動(dòng)皮層區(qū)域電極平均的音位發(fā)音想象及控制條件時(shí)域分析結(jié)果
本文采用共同空間模式算法計(jì)算出80個(gè)訓(xùn)練樣本數(shù)據(jù)(每類40個(gè)訓(xùn)練樣本)的最優(yōu)化空間濾波器,并挑選其中8個(gè)最重要的空間濾波器(每類4個(gè)空間濾波器)來生成空域最優(yōu)化的特征向量用于后續(xù)分類任務(wù)。圖5展示了在一次CSP迭代計(jì)算中,受試3想象音位/u/的發(fā)音和控制條件的8個(gè)最重要的共同空間模式。第一行包括了音位/u/發(fā)音想象任務(wù)重要性第一至第四的空間模式(CSP1~4),而第二行則包括了控制條件重要性第一至第四的空間模式(CSP1~4)。音位/u/發(fā)音想象的空間模式呈現(xiàn)出在C3和Cz電極(CSP1)以及C4電極(CSP3)感覺運(yùn)動(dòng)皮層區(qū)域較強(qiáng)的激活,而F3電極左側(cè)額葉區(qū)域(CSP2)則可能反映了發(fā)音過程中語音想象激活的Broca區(qū)。相反,控制條件的空間模式基本呈現(xiàn)的是由視覺刺激誘發(fā)的枕葉和頂葉皮層區(qū)域的活動(dòng)[32-33]。
圖5 音位發(fā)音想象和控制條件的CSP空域分析結(jié)果
九類刺激任務(wù)隨機(jī)選取訓(xùn)練和測試數(shù)據(jù)集20次進(jìn)行兩兩配對分類(共36對組合)的平均分類正確率和標(biāo)準(zhǔn)差如圖6(a)所示。圖6(b)則展示了基于表1中發(fā)音控制二值描述計(jì)算得出的Jaccard距離對各刺激材料進(jìn)行層次聚類的結(jié)果。此外,我們還對36種組合的分類正確率和各刺激材料間的Jaccard距離做了相關(guān)性分析,結(jié)果顯示二者具有很強(qiáng)的相關(guān)性(r = 0.58, P < 0.001)。刺激材料間距離越近則表明發(fā)音控制相似度越高,進(jìn)而導(dǎo)致更低的腦電發(fā)音想象分類正確率。音位想象任務(wù)和控制條件的組合分類正確率最高,其中最好的分類效果達(dá)到了83%(/u/ vs. #),這與我們的預(yù)期相一致,因?yàn)橐粑话l(fā)音想象和無想象任務(wù)相比,感覺運(yùn)動(dòng)皮層區(qū)域的激活程度明顯不同。而發(fā)音控制較相近的音位組合如/u/ vs. /y/的分類正確率則接近基線水平,僅為51%。
圖6 配對分類及層次聚類結(jié)果
本文提出了一個(gè)基于漢語音位想象的腦機(jī)接口系統(tǒng)框架,使得受試者使用腦機(jī)接口系統(tǒng)時(shí)更加自然流暢。三位受試者參與了本項(xiàng)研究,實(shí)驗(yàn)過程中受試者被要求想象四個(gè)漢語元音和四個(gè)輔音音位的發(fā)音部位及語音發(fā)音,同時(shí)記錄其腦電數(shù)據(jù)。在數(shù)據(jù)處理階段,為了全面深入地分析音位想象腦電數(shù)據(jù)特征,本文對采集到的腦電信號(hào)做了頻域分析(ERSP分析),時(shí)域分析(ERP分析),以及空域分析(CSP分析),并且提取出音位發(fā)音想象效應(yīng)在頻域、時(shí)域、空域中最優(yōu)化的特征向量用于提高腦電數(shù)據(jù)的分類效果。實(shí)驗(yàn)結(jié)果表明,音位發(fā)音想象任務(wù)和控制條件相比具有較高的分類正確率,最高可達(dá)83%,為基于音位發(fā)音想象的漢語腦機(jī)接口系統(tǒng)研究提供了理論基礎(chǔ)。同時(shí),刺激材料間的Jaccard距離和分類正確率的高度相關(guān)性表明,音位發(fā)音想象與運(yùn)動(dòng)想象相一致,均可由人腦感覺運(yùn)動(dòng)皮層區(qū)域的頭皮腦電信號(hào)來解碼預(yù)測。
根據(jù)前人研究,本研究推測音位發(fā)音想象效應(yīng)的頻域特征與運(yùn)動(dòng)想象相似,其本質(zhì)是復(fù)雜的發(fā)音器官運(yùn)動(dòng)想象,故可能會(huì)反映8~12Hz的運(yùn)動(dòng)控制μ節(jié)律腦部活動(dòng),該頻段經(jīng)常被基于運(yùn)動(dòng)想象的腦機(jī)接口研究所采用[34]。另外,由于音位想象任務(wù)還包括各音位的發(fā)聲想象,故其頻域特征可能還會(huì)反映人腦處理音位發(fā)音的頻段2~9Hz[35]。腦電實(shí)驗(yàn)結(jié)果驗(yàn)證了本研究的猜想,ERSP分析結(jié)果表明,音位發(fā)音想象任務(wù)和控制條件相比在雙側(cè)感覺運(yùn)動(dòng)皮層區(qū)域誘發(fā)了2~10Hz頻段的頻譜能量減弱,這一結(jié)果也驗(yàn)證了Wang的發(fā)現(xiàn)[35],差別僅在于他們的研究是針對英語音位的聽覺感知,而本實(shí)驗(yàn)是關(guān)于漢語音位的發(fā)音想象。由此也能看出,語音的產(chǎn)生和理解在電生理學(xué)層面具有一定的相似性,反映出人腦對語音的輸入和產(chǎn)出這兩個(gè)逆過程可能存在某一部分共享的神經(jīng)通路。
腦電信號(hào)時(shí)域分析結(jié)果表明,音位發(fā)音想象任務(wù)和控制條件相比其感覺運(yùn)動(dòng)皮層電極信號(hào)在時(shí)間進(jìn)程上主要有3個(gè)不同階段,其中最早的差異時(shí)段(98~142ms)被認(rèn)為是由于視覺刺激物理屬性不同而引起的視覺誘發(fā)電位(Visual Evoked Potential, VEP),其峰值潛伏期通常在刺激呈現(xiàn)后90~150ms,并非由發(fā)音想象任務(wù)引起,故不屬于音位發(fā)音想象效應(yīng)[32-33]。除去最早的視覺誘發(fā)電位差異,本文認(rèn)為音位發(fā)音想象效應(yīng)主要有兩個(gè)時(shí)間階段(308~396ms, 446~530ms),這一結(jié)論與真實(shí)發(fā)音器官運(yùn)動(dòng)引起的顱內(nèi)及頭皮電位時(shí)間進(jìn)程相似[36-37],而前人研究亦表明,運(yùn)動(dòng)想象相關(guān)電位和與其對應(yīng)的真實(shí)運(yùn)動(dòng)引發(fā)的電生理學(xué)信號(hào)在形態(tài)上非常相似[38]。需要注意的是,在前人研究中Dassalla報(bào)告了一個(gè)所謂的發(fā)音想象語言相關(guān)ERP成分[21],但正如在第2.2節(jié)中所提到的,該實(shí)驗(yàn)設(shè)計(jì)僅使用了白屏作為控制條件,而沒有選用與發(fā)音任務(wù)相當(dāng)?shù)姆?hào)作為視覺刺激,因而其所謂的發(fā)音想象語言相關(guān)電位并沒有反映與語言有關(guān)的具體腦電特征,其波形差異更多地是由不同實(shí)驗(yàn)任務(wù)中是否有視覺符號(hào)刺激呈現(xiàn)所引起的。
共同空間模式分析結(jié)果表明,音位發(fā)音想象效應(yīng)的頭皮空間模式分布特征在感覺運(yùn)動(dòng)皮層區(qū)域顯示出較強(qiáng)的腦部活動(dòng),尤其是電極C3及C4標(biāo)記的雙腹側(cè)感覺運(yùn)動(dòng)皮層區(qū)域(lateral ventral Sensory-Motor Cortex, vSMC),該區(qū)域覆蓋了頭部發(fā)音器官及聲帶的皮質(zhì)延髓映射和傳入神經(jīng)支配。總體來看,音位發(fā)音想象效應(yīng)的空間特征是一個(gè)雙側(cè)化現(xiàn)象,在非優(yōu)勢的大腦右半球依然呈現(xiàn)出較強(qiáng)的腦部活動(dòng)(如圖5中音位/u/的CSP3)。當(dāng)然,由于處理語言的腦區(qū)大多分布在大腦左半球,左側(cè)相比于右側(cè)呈現(xiàn)出更強(qiáng)的腦部活動(dòng)(如音位/u/的CSP1)。此外,本研究還發(fā)現(xiàn)左前額腦區(qū)也呈現(xiàn)出較強(qiáng)的腦部活動(dòng),該區(qū)域的響應(yīng)可能是由于左前額負(fù)責(zé)語音生成的Broca區(qū)在發(fā)聲想象任務(wù)中被激活而引起的,也可能同語言產(chǎn)生的運(yùn)動(dòng)特征相關(guān)[39]。腦電信號(hào)的空間模式特征證實(shí),基于語音發(fā)音想象的腦機(jī)接口系統(tǒng)可被視為語言特定的運(yùn)動(dòng)想象腦機(jī)接口系統(tǒng)。
基于音位刺激材料和控制條件間Jaccard距離的層次聚類分析將9類實(shí)驗(yàn)刺激材料聚成音位想象任務(wù)和無想象任務(wù)兩個(gè)大類,這與兩兩配對數(shù)據(jù)分類的結(jié)果相一致。音位發(fā)音想象任務(wù)和控制條件的類別間距離較大,因而在各組配對分類中正確率最高,其中分類效果最好的一組達(dá)到了83%(/u/ vs. #);而不同音位發(fā)音控制的類別內(nèi)距離相對較小,因而其分類正確率較低,其中發(fā)音最相近的一組分類正確率最低,僅為51%(/u/ vs. /y/)接近機(jī)會(huì)水平。配對分類正確率與刺激材料間Jaccard距離的高度相關(guān)性證實(shí)了本文在表1中對于各音位發(fā)音控制的二值描述是可靠的,該描述不僅反映了音位發(fā)音過程的物理距離,也能較好地反映不同音位發(fā)音想象腦電信號(hào)間的距離,即距離越近則發(fā)音控制相似度越高,導(dǎo)致分類正確率越低。同前人實(shí)驗(yàn)結(jié)果相比,盡管本文選用了一個(gè)視覺上與發(fā)音想象任務(wù)更相近的符號(hào)刺激作為控制條件而不是簡單的白屏,增加了分類難度,但本實(shí)驗(yàn)結(jié)果同前人報(bào)告的/a/ vs. #及/u/ vs. #組別相比依然提高了受試間平均分類正確率。由此可見,對音位發(fā)音想象腦電數(shù)據(jù)進(jìn)行頻域和時(shí)域優(yōu)化,提取特征時(shí)增加最優(yōu)的頻域和時(shí)域特征能夠顯著提高音位發(fā)音想象腦電數(shù)據(jù)分類正確率。此項(xiàng)研究驗(yàn)證了本文的假設(shè),即音位發(fā)音想象任務(wù)可被視為復(fù)雜的發(fā)音器官運(yùn)動(dòng)想象任務(wù),并且發(fā)音運(yùn)動(dòng)想象頭皮腦電信號(hào)可作為系統(tǒng)開發(fā)應(yīng)用研究的基礎(chǔ),控制無創(chuàng)腦機(jī)接口系統(tǒng)作為語言神經(jīng)假體來實(shí)現(xiàn)人腦同外部機(jī)器設(shè)備之間的直接溝通交流。
本項(xiàng)研究對于開發(fā)基于語音想象的腦機(jī)接口系統(tǒng)及臨床康復(fù)有重要指導(dǎo)意義。BCI技術(shù)和基于BCI技術(shù)的臨床康復(fù)研究都處于初級階段,難免問題重重,但是隨著研究的深入,一個(gè)個(gè)問題終將被解決。其發(fā)展前景是模塊化和集成化,模塊化是集成化的基礎(chǔ),集成化是推廣使用的前提。識(shí)別率高、信號(hào)處理速度快、采集功能通用化、算法處理功能系統(tǒng)化、適應(yīng)性強(qiáng)、合理引入反饋、評判標(biāo)準(zhǔn)化的BCI技術(shù)有待進(jìn)一步研究。處理多種或者大部分信號(hào),機(jī)構(gòu)設(shè)計(jì)綠色且實(shí)用、響應(yīng)迅速、控制精準(zhǔn)、運(yùn)動(dòng)模式多樣、評價(jià)系統(tǒng)科學(xué)的臨床康復(fù)技術(shù)也有待進(jìn)一步研究。如果模塊化的腦機(jī)接口系統(tǒng)和臨床康復(fù)技術(shù)之間能夠合理地柔性組合,那么BCI研究將邁入理論研究與臨床應(yīng)用相結(jié)合的嶄新階段?;谡Z音想象的腦機(jī)接口系統(tǒng)研究將使得BCI系統(tǒng)的控制操作更人性化、更接近人類言語交流的自然狀態(tài),同時(shí)也將對語言加工認(rèn)知神經(jīng)機(jī)制的研究提供新的研究視角和思路。
[1] Wolpaw J R, N Birbaumer, D J McFarland, et al. Brain-Computer Interfaces for Communication and Control [J]. Clinical Neurophysiology, 2002, 113(6): 767-791.
[2] Wolpaw J R, N Birbaumer, W J Heetderks, et al. Brain-Computer Interface Technology: A Review of the First International Meeting [J]. IEEE Transactions on Rehabilitation Engineering, 2000, 8(2): 164-173.
[3] He B, S Gao, H Yuan, et al. Brain Computer Interface[J].Bin He. Neural Engineering, 2nd ed. US: Springer, 2013: 87-151.
[4] Hochberg L R, M D Serruya, G M Friehs, et al. Neuronal Ensemble Control of Prosthetic Devices by a Human with Tetraplegia [J]. Nature, 2006, 442(7099): 164-171.
[5] Kennedy P R, M T Kirby, M M Moore, et al. Computer Control Using Human Intracortical Local Field Potentials [J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2004, 12(3): 339-344.
[6] Leuthardt E C, G Schalk, J R Wolpaw, et al. A Brain-Computer Interface Using Electrocorticographic Signals in Humans [J]. Journal of Neural Engineering, 2004, 1(2): 63-71.
[7] Birbaumer N, N Ghanayim, T Hinterberger, et al. A Spelling Device for the Paralysed [J]. Nature, 1999, 398(6725): 297-298.
[8] Cheng M, X Gao, S Gao, et al. Design and Implementation of a Brain-Computer Interface with High Transfer Rates [J]. IEEE Transactions on Biomedical Engineering, 2002, 49(10): 1181-1186.
[9] Donchin E, K M Spencer, R Wijesinghe. The Mental Prosthesis: Assessing the Speed of a P300-Based Brain-Computer Interface [J]. IEEE Transactions on Rehabilitation Engineering, 2000, 8(2): 174-179.
[10] Wolpaw J R, D J McFarland, T M Vaughan. Brain-Computer Interface Research at the Wadsworth Center [J]. IEEE Transactions on Rehabilitation Engineering, 2000, 8(2): 222-226.
[11] Comerchero M D, J Polich. P3a and P3b From Typical Auditory and Visual Stimuli [J]. Clinical Neurophysiology, 1999, 110(1): 24-30.
[12] Jansen B H, A Allam, P Kota, et al. An Exploratory Study of Factors Affecting Single Trial P300 Detection [J]. IEEE Transactions on Biomedical Engineering, 2004, 51(6): 975-978.
[13] Croft R J, C J Gonsalvez, C Gabriel, et al. Target-to-Target Interval Versus Probability Effects on P300 in One and Two-Tone Tasks [J]. Psychophysiology, 2003, 40(3): 322-328.
[14] Polich J, M R D Heine. P300 Topography and Modality Effects from a Single-Stimulus Paradigm [J]. Psychophysiology, 1996, 33(6): 747-752.
[15] Galan F, M Nuttin, E Lew, et al. A Brain-Actuated Wheelchair: Asynchronous and Non-invasive Brain-Computer Interfaces for Continuous Control of Robots [J]. Clinical Neurophysiology, 2008, 119(9): 2159-2169.
[16] McFarland D J, W A. Sarnacki, J R Wolpaw. Electroencephalographic (EEG) Control of Three-dimensional Movement [J]. Journal of Neural Engineering, 2010, 7(3): 036007.
[17] Wolpaw J R, D J McFarland. Control of a Two-dimensional Movement Signal by a Noninvasive Brain-Computer Interface in Humans [J]. Proceedings of the National Academy of Sciences of the United States of America (PNAS), 2004, 101(51): 17849-17854.
[18] Blankertz B, G Dornhege, C Schafer. Boosting Bit Rates and Error Detection for the Classification of Fast-paced Motor Commands Based on Single Trial EEG Analysis [J]. IEEE Transaction on Neural Systems and Rehabilitation Engineering, 2003, 11(2): 127-130.
[19] Oldfield R C. The Assessment and Analysis of Handedness: the Edinburgh Inventory [J]. Neuropsychologia, 1971, 9(1): 97-113.
[20] Crystal D. Linguistics [M]. Baltimore: Penguin Books, 1971.
[21] DaSalla C S, H Kambara, M Sato, et al. Single-trial Classication of Vowel Speech Imagery Using Common Spatial Patterns [J]. Neural Networks, 2009, 22(9): 1334-1339.
[22] Delorme A, S Makeig. EEGLAB: An Open Source Toolbox for Analysis of Single-trial EEG Dynamics Including Independent Component Analysis. [J]. Journal of Neuroscience Methods, 2004, 134(1): 9-21.
[23] Makeig S, S Debener, J Onton, et al. Mining Event-related Brain Dynamics [J]. Trends in Cognitive Sciences, 2004, 8(5): 204-210.
[24] Ramoser H, J Muller-Gerking, G Pfurtscheller. Optimal Spatial Filtering of Single Trial EEG during Imagined Hand Movement [J]. IEEE Transactions on Rehabilitation Engineering, 2000, 8(4): 441-446.
[25] Dornhege G, B Blankertz, G Curio, et al. Boosting Bit Rates in Noninvasive EEG Single-Trial Classifications by Feature Combination and Multiclass Paradigms [J]. IEEE Transactions on Biomedical Engineering, 2004, 51(6): 993-1002.
[26] Grosse-Wentrup M, M Buss. Multiclass Common Spatial Patterns and Information Theoretic Feature Extraction [J]. IEEE Transactions on Biomedical Engineering, 2008, 55(8): 1991-2000.
[27] Lotte F, M Congedo, A Lecuyer, et al. A Review of Classication Algorithms for EEG-based Brain-Computer Interfaces [J]. Journal of Neural Engineering, 2007, 4.
[28] Burges C J C. A Tutorial on Support Vector Machines for Pattern Recognition [J]. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167.
[29] Weston J, C Watkins. Multi-class Support Vector Machines. Technical Report CSD-TR-98-04 [R]. Royal Holloway University of London: Department of Computer Science, 1998.
[30] Chang C C, C J Lin. LIBSVM: A Library for Support Vector Machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[31] Hsu C W, C C Chang, C J Lin. A Practical Guide to Support Vector Classication[M]. 2003.
[32] DiRusso F, A Martinez, M I Sereno, et al. Cortical Sources of the Early Components of the Visual Evoked Potential [J]. Human Brain Mapping, 2002, 15(2): 95-111.
[33] Hillyard S A, L Anllo-Vento. Event-related Brain Potentials in the Study of Visual Selective Attention [J]. Proceedings of the National Academy of Sciences of the United States of America (PNAS), 1998, 95(3): 781-787.
[34] McFarland D J, L A Miner, T M Vaughan, et al. Mu and Beta Rhythm Topographies during Motor Imagery and Actual Movements [J]. Brain Topography, 2000, 12(3): 177-186.
[35] Wang R, M Perreau-Guimaraes, C Carvalhaes, et al. Using Phase to Recognize English Phonemes and Their Distinctive Features in the Brain [J]. Proceedings of the National Academy of Sciences (PNAS), 2012, 109(50): 20685-20690.
[36] Deecke L, M Engel, W Lang, et al. Bereitschaftspotential Preceding Speech after Holding Breath [J]. Experimental Brain Research, 1986, 65(1): 219-223.
[37] Wohlert A. Event-Related Brain Potentials Preceding Speech and Nonspeech Oral Movements of Varying Complexity [J]. Journal of Speech and Hearing Research, 1993, 36(5): 897-905.
[38] do Nascimento O F, K D Nielsen, M Voigt. Movement-Related Parameters Modulate Cortical Activity during Imaginary Isometric Plantar-Flexions [J]. Experimental Brain Research, 2006, 171(1): 78-90.
[39] Lazar R M, R S Marshall, J Pile-Spellman, et al. Interhemispheric Transfer of Language in Patients with Left Frontal Cerebral Arteriovenous Malformation [J]. Neuropsychologia, 2000, 38(10): 1325-1332.