杜義浩, 常超群, 杜 正, 張延夫, 曹添福, 范 強, 謝 平
(燕山大學 電氣工程學院,河北 秦皇島 066004)
腦機接口(brain-computer interface, BCI)技術通過分析人的運動意圖,從而實現(xiàn)對外部設備的直接控制[1,2]。近些年來,腦機接口技術發(fā)展迅速,在無人機控制、智能交通、智能家居和醫(yī)療康復領域有著廣泛應用。其中,運動想象腦機接口技術已嘗試運用于因腦卒中或脊髓損傷導致的語言交流和運動障礙患者中[3],如患者語音解碼、觸覺感知、運動輔助等方面[4]。
運動想象腦機接口應用中最為核心的問題是分類識別準確率,其直接影響因素是分類識別算法性能,而廣泛應用的機器學習方法可以分為傳統(tǒng)機器學習和遷移學習。傳統(tǒng)的機器學習方法有支持向量機(SVM)、BP神經(jīng)網(wǎng)絡等[5],存在要求數(shù)據(jù)量大、訓練時間久、耗費資源高以及分類準確率低等問題,導致運動想象腦機接口實用性較差。
遷移學習是近年來機器學習研究中最為熱門的一個分支[6~10],可在訓練樣本較少情況下,利用已有數(shù)據(jù)樣本快速擴充數(shù)據(jù)集,提高了分類識別的準確率,顯著提升了運動想象腦機接口的實用性。遷移學習方法可以分為4大類:基于樣本(instance)的遷移、基于特征(feature)的遷移、基于模型(model)的遷移、基于關系(relation)的遷移,其中樣本遷移和特征遷移在運動想象腦機接口中應用較多。基于樣本的遷移學習研究方面,如:基于KL散度度量共空間模式(CSP)特征空間之間的相似性,并進行特征數(shù)據(jù)加權,提高了運動想象分類準確率[11];基于DTW進行源域數(shù)據(jù)對齊,計算與目標域數(shù)據(jù)的KL散度,并通過源域數(shù)據(jù)加權處理,提高了目標域數(shù)據(jù)的分類識別準確率[12];利用歐式對齊(EA)源域數(shù)據(jù),以提升BCI遷移學習效率,相較于黎曼空間對齊(RA)方法速度更快[13]。
上述研究通過在樣本維度上進行度量和加權以提高分類識別準確率,更適用于樣本數(shù)據(jù)量較大的情況,但在樣本量小的情況下,遷移效果并不理想?;谔卣鞯倪w移學習研究方面,如:基于實驗前腦電信號低維表征的遷移學習腦電信號解碼框架,并用于提取受試者腦電低維特征,提高BCI的預測精度;將最大均值差異距離度量準則應用于運動想象腦電信號處理中,減少源域樣本和目標域樣本間的分布距離,以提高分類識別準確率[14];利用領域自適應方法(CMMS)捕捉目標樣本固有的局部連通性,以減少遷移學習兩域之間的分布差異[15]。上述研究通過在特征維度上進行度量以提高分類識別準確率,但忽略了樣本本身。若源域數(shù)據(jù)和目標域數(shù)據(jù)存在較大的差異,特征遷移可能產(chǎn)生負遷移[16]。綜上所述,基于樣本的遷移和基于特征的遷移均存在不可避免的缺陷,尤其是樣本量較少或源域數(shù)據(jù)和目標域數(shù)據(jù)差異較大的情況。因此,研究如何有效提升運動想象腦肌接口中遷移學習分類識別的準確率,避免樣本遷移和特征遷移存在問題,是當前和未來運動想象腦機接口研究的核心問題。
本文基于EA和最小化最大均值差異思想改進CMMS方法構建遷移學習模型,將樣本遷移和特征遷移的優(yōu)勢有機結合,以進一步提高運動想象腦機接口中遷移學習的分類識別準確率。通過EA減少源域樣本和目標域樣本的數(shù)據(jù)分布差異,以及利用最小化最大均值差異思想改進CMMS,并用于篩選源域樣本以構建新的源域,進一步縮小源域和目標的分布差異。
本文構建的基于EA和改進CMMS遷移學習的運動想象分類算法模型原理圖如圖1所示。分別采集受試者的腦電信號(源域數(shù)據(jù)和目標域數(shù)據(jù)),經(jīng)過預處理后進行歐式空間數(shù)據(jù)對齊處理,利用CSP算法分別提取源域和目標域的特征值,并將特征重映射到新的投影空間中,進一步基于最小化最大均值差異思想篩選源域樣本以構建新的源域樣本,采用新的源域進行目標樣本分類識別。
圖1 基于EA和改進CMMS遷移學習的運動想象分類識別算法原理圖Fig.1 Schematic diagram of the classification and recognition algorithm of motor imagination based on EA and improved CMMS migration learning
由于腦電信號存在非平穩(wěn)、能量微弱和隨機性等特點,需要對腦電信號進行預處理,以提高腦電信號的信噪比[17]。預處理分為:去除基線漂移、去除工頻干擾、帶通濾波、獨立成分分析(ICA)去偽跡,原始腦電信號和預處理后結果如圖2和圖3所示。如圖所示,經(jīng)預處理后的腦電信號質(zhì)量顯著改善。
圖2 原始腦電信號Fig.2 Original EEG
圖3 預處理后的腦電信號Fig.3 EEG after preprocessing
(1)
(2)
由式(1)和式(2)可得,n個試次對齊后的均值協(xié)方差矩陣為:
(3)
由式(3)可得,經(jīng)過EA處理后,源域數(shù)據(jù)和目標域數(shù)據(jù)實現(xiàn)了對齊和白化,而且每個受試者的均值協(xié)方差矩陣等于單位矩陣,使得其數(shù)據(jù)分布變得更加一致,減少了源域數(shù)據(jù)和目標域數(shù)據(jù)的分布差異,進而有利于提高后續(xù)遷移學習的分類識別準確率。
基于EA對齊處理后的源域數(shù)據(jù)和目標域數(shù)據(jù),利用CSP進行特征提取。CSP算法的原理是利用矩陣的對角化,尋找一組最優(yōu)空間濾波器進行投影,使得二分類信號的方差值差異最大化,從而得到具有較高區(qū)分度的特征向量。
假設X、Y分別為二分類運動想象任務下多通道誘發(fā)的時空矩陣信號,其維數(shù)均為N×M。其中,N代表通道個數(shù),M代表采樣點數(shù)。CSP算法步驟如下:
1) 計算混合空間協(xié)方差矩陣:
X和Y經(jīng)歸一化處理后分別求取其協(xié)方差矩陣:
(4)
(5)
式中:XT表示X的轉(zhuǎn)置;trae(XXT)表示求矩陣的跡,即對角線元素之和。
根據(jù)式(4)計算X、Y的混合協(xié)方差矩陣:
(6)
2) 計算白化特征矩陣
對式(6)進行特征值分解可得:
R=UλUT
(7)
式中:U是特征向量矩陣;λ是特征值矩陣。
由式(7)構建白化矩陣:
(8)
3) 構造空間濾波器
對RX,RY進行如下變換:
SX=PRXPT,SY=PRYPT
(9)
對SX,SY進行成分向量分解可得:
(10)
由式(8)、式(9)可得:
BX=BY=B
(11)
λX+λY=I
(12)
所求空間濾波器為:
W=BTP
(13)
4) 腦電信號特征提取
對X或Y進行空間濾波得到投影矩陣:
Z=W·X
(14)
對Z進行平方運算,得到var(Z2)最后進行對數(shù)運算,得到空域特征:
(15)
利用CSP空域特征向量描述運動想象腦電信號的源域數(shù)據(jù)和目標域數(shù)據(jù)特征,以用于后續(xù)運動想象腦電信號的分類識別。
CMMS是基于領域自適應的遷移學習方法[19],能夠?qū)⒅R從源域自適應遷移到目標域,并通過目標域局部流形自學習的方式,減少與源域數(shù)據(jù)的分布差異。CMMS方法步驟如下:
1) 目標數(shù)據(jù)k-means聚類
由于無監(jiān)督遷移學習中目標域樣本不帶標簽,CMMS采用經(jīng)典的k-means算法獲得聚類原型[20],并將其視為偽類心,得到目標域樣本的分布結構信息。
(16)
式中:P代表投影矩陣;F代表目標數(shù)據(jù)聚類質(zhì)心;Gt代表目標偽標簽矩陣。
2) 目標數(shù)據(jù)局部流形自學習
由于目標域數(shù)據(jù)的聚類原型實際上是其對應類質(zhì)心的近似值,直接影響數(shù)據(jù)遷移的效果。因此,CMMS中引入局部流形自學習策略,根據(jù)目標數(shù)據(jù)投影低維空間中的局部連通性自適應學習數(shù)據(jù)的相似度:
(17)
式中:S代表目標鄰接矩陣;δ表示超參數(shù)。
3) 源域數(shù)據(jù)類質(zhì)心計算
基于目標域數(shù)據(jù)的聚類原型,將領域自適應中的分布差異最小化問題重新表達為類質(zhì)心匹配問題。而源域數(shù)據(jù)的類質(zhì)心可以通過計算同一類樣本特征的均值得到。
4) 源域數(shù)據(jù)判別結構保留
源域數(shù)據(jù)中同類型樣本在投影空間中盡可能接近,不同類樣本盡可能遠離,且保留源域的判別結構信息:
(18)
5) 兩域類質(zhì)心匹配
CMMS采用最近鄰搜索法求解類質(zhì)心問題,為每個目標域聚類質(zhì)心尋找最近的源域聚類質(zhì)心,并使其距離之和最小。兩域的類質(zhì)心匹配表述為:
(19)
式中:ES代表常數(shù)矩陣,用于計算源域數(shù)據(jù)在投影空間中類質(zhì)心;XS代表源域數(shù)據(jù)。
最后,通過迭代更新得到目標域偽標簽,實現(xiàn)目標域數(shù)據(jù)的分類。
然而,若遷移學習中源域數(shù)據(jù)和目標域數(shù)據(jù)的分布差異較大,則可能會出現(xiàn)負遷移現(xiàn)象。CMMS更多是對目標域數(shù)據(jù)進行處理,并未對源域數(shù)據(jù)做篩選,導致可能會出現(xiàn)由于源域和目標域數(shù)據(jù)差異較大而造成的負遷移。若能夠有效剔除源域中不良數(shù)據(jù),則可以避免負遷移或遷移效果差的情況。因此,本文基于最小化最大均值差異(maximum mean discrepancy, MMD)思想,通過最小化源域和目標域數(shù)據(jù)的MMD距離,減小兩域之間的分布差異,重新構建新的源域,改進的CMMS方法原理如圖4所示。
MMD是一種非參數(shù)計算方法,可以度量兩個不同域在再生希爾伯特空間中的距離,屬于核學習的一種[21]。
腦電信號的源域和目標域數(shù)據(jù)特征,腦電信號的源域和目標域數(shù)據(jù)特征,Ds={xs1,xs2,xs3…xsn}、Dt={xt1,xt2,xt3…xtn},最小化兩域的輸入樣本特征,在無限維再生核希爾伯特空間中,有:
(20)
兩域之間的MMD距離可表示為:
(21)
式中:Φ(·)是將原數(shù)據(jù)映射到再生希爾伯特空間的函數(shù);xsi代表源域數(shù)據(jù);xtj代表目標域數(shù)據(jù);MMD值大小表征源域和目標域數(shù)據(jù)的分布差異情況。借
助核計算,式(21)改寫為:
(22)
式中:K代表核矩陣。
(23)
將核矩陣K分解為(KK-1/2)(K-1/2K),并利用轉(zhuǎn)移矩陣A將其降到m維空間。
MMD=tr(ATKMKTA)
(24)
目標函數(shù)式(20)可以改寫成:
(25)
Lg=tr(AT(KMKT+μI)A)+tr((I-ATKHKA)Φ)
(26)
為了驗證本文方法的有效性,基于BCI2008競賽數(shù)據(jù)集進行離線仿真驗證。競賽數(shù)據(jù)為BCI-Ⅳ競賽數(shù)據(jù)集中的Dataset-1,采樣通道為64,采樣頻率為1 000 Hz,實驗任務是左右手運動想象實驗,分為7個試次。隨機選取其中5名受試者的數(shù)據(jù),采樣通道為C3、C4,每位受試者樣本總量為160,分別作為訓練樣本集和測試樣本集,數(shù)據(jù)集信息如表1所示。
表1 數(shù)據(jù)集信息Tab.1 Datast properties
首先進行原始腦電數(shù)據(jù)預處理,利用EA進行源域和目標域數(shù)據(jù)對齊,運用CSP算法提取其空域特征,基于最小化最大均值差異進行源域數(shù)據(jù)篩選,進一步利用改進的CMMS方法得到目標域數(shù)據(jù)的分類識別結果,并與SVM、JDA、BDA、GFK、EasyTL、CMMS等6種算法進行對比,以驗證本文方法的有效性,分類識別結果如表2所示。
表2 5名受試者數(shù)據(jù)測試結果對比Tab.2 comparison of 5 subjects
其中,tac表示本文方法的識別準確率,oac表示其它方法的識別準確率,(tac-oac )提升均值表示本文方法相對于其它方法提高的識別準確率。
由表2可見,源域和目標域來自同一個樣本時(同一受試者的數(shù)據(jù),以S1為例),SVM的分類準確率達到80%,但是當源域數(shù)據(jù)和目標域數(shù)據(jù)為不同的受試者時(S1做為源域數(shù)據(jù),S2、S3、S4、S5為目標域數(shù)據(jù)),則SVM的分類識別準確率明顯下降,最高為72.5%,最低為55.3%;經(jīng)過EA數(shù)據(jù)對齊和MMD篩選源域數(shù)據(jù)之后,本文方法分類識別準確率最高為78.7%,最低也達到了72.8%。從平均分類識別準確率角度來看,SVM、JDA、BDA、EasyTL、GFK、CMMS分別為66.29%、71.34%、73.35%、68.01%、67.01%、72.67%,而本文方法為78.24%,識別準確率提升均值超過其它方法4.71%~11.95%,驗證了本文方法的有效性。
為了進一步驗證本文方法的有效性和實用性,選取15名受試者(10名男性,5名女性,年齡平均為25歲)進行在線運動想象實驗,所有受試者身體均健康,無神經(jīng)性疾病,并簽訂了知情同意書以及通過了燕山大學倫理委員會的審查。要求受試者實驗前24 h內(nèi)未飲用任何含有酒精或者咖啡因的飲品,休息時間充足且精力充沛。實驗選用64通道腦電帽(電極分布符合國際聯(lián)合會10-20電極分布標準,阻抗小于5 kΩ)和Neuroscan系統(tǒng)采集C3、C4、Cz三個通道的腦電信號,采樣頻率為1 000 Hz。
每位受試者進行4組運動想象實驗,每組實驗后休息1 min,以避免受試者連續(xù)實驗出現(xiàn)疲勞,每組實驗分為20個試次,每個試次的時長為15 s(5 s準備時間和7 s運動想象)。實驗環(huán)境要求安靜、無干擾,實驗過程中受試者身體姿勢保持靜止不動,盡量做到不眨眼,具體實驗范式如圖5所示。
圖5 單次運動想象實驗范式Fig.5 Single motion imagination experiment paradigm
實驗開始時,屏幕正中間出現(xiàn)黃色實心圓并不斷閃爍,提示受試者集中精神即將開始實驗,持續(xù)5 s;第5 s后實心圓消失,隨機出現(xiàn)向右或向左移動的藍色實心箭頭,受試者需要根據(jù)箭頭的移動方向進行右手或左手抓握運動想象;第12 s藍色實心箭頭消失,運動想象過程結束,之后被試者休息5 s,開始下一次運動想象過程。隨機選取5名受試者(S6-S10),利用本文方法進行運動想象在線分類識別,結果如表3所示。
表3 5名受試者數(shù)據(jù)測試結果對比Tab.3 comparison of 5 subjects
由表3可見,5名受試者在線實驗測試結果與BCI數(shù)據(jù)集離線實驗測試結果表現(xiàn)相似。
源域和目標域來自同一受試者時,SVM的分類識別準確率最高達到76.43%,最低為70.5%;而源域和目標域來自不同的受試者時,SVM的分類識別準確率最高僅為63.7%,最低為52.4%;遷移學習方法JDA、BDA、EasyTL、GFK、CMMS的分類識別準曲率均有所提升,但效果不明顯,其平均分類識別準確率分別為64.7%、67.4%、62.8%、61.4%、67.5%,而SVM僅為58.82%;本文方法平均分類識別準確達到了73.2%,相較于其它方法分類識別準確率提升均值5.7%~14.38%,充分驗證了本文方法的有效性和運動想象腦機接口應用中的實用性。
本文提出了基于EA和改進CMMS遷移學習的運動想象分類識別方法,通過將預處理后的腦電信號進行歐式空間下的數(shù)據(jù)對齊,減少源域和目標域的數(shù)據(jù)分布差異,并基于最小化最大均值差異思想構建新的源域,以進一步減少兩域數(shù)據(jù)的分布差異。分別利用BCI競賽Dataset數(shù)據(jù)集離線測試和在線實驗測試進行驗證,并與SVM、JDA、BDA、EasyTL、GFK、CMMS等方法進行對比分析,結果充分說明了本文方法的有效性和運動想象腦機接口應用中的實用性。