趙夢(mèng)玲,楊心露,殷新宇
(西安科技大學(xué) 理學(xué)院,陜西 西安 710054)
腦-計(jì)算機(jī)接口(brain computer interface,BCI)是人類大腦和計(jì)算機(jī)交互的媒介。BCI的最初研究以提高人類獨(dú)立性和生活質(zhì)量為目的。文獻(xiàn)[1]指出BCI在癲癇發(fā)作檢測(cè)/預(yù)測(cè)、藥物效應(yīng)診斷、運(yùn)動(dòng)圖像監(jiān)測(cè)、心理任務(wù)、睡眠狀態(tài)識(shí)別等多個(gè)領(lǐng)域應(yīng)用廣泛。BCI具有多種范式,事件相關(guān)電位(event related potentials,ERP)是其中的一種,主要是大腦在經(jīng)歷感覺(jué)刺激時(shí)產(chǎn)生的反應(yīng)。文獻(xiàn)[2]提出P300已被證明是ERP成分中有效的活動(dòng)位點(diǎn)。文獻(xiàn)[3]概述了P300技術(shù)的現(xiàn)狀,并通過(guò)對(duì)比實(shí)驗(yàn)證明了在腦電信號(hào)(electroencephalogram,EEG)分類中支持向量機(jī)(support vector machine,SVM)的良好性能。文獻(xiàn)[4]提出了基于貓群算法(cat swarm algorithm,CSO)優(yōu)化SVM模型,搜索優(yōu)化特征子集,保留有益的特征作為SVM分類器的輸入。文獻(xiàn)[5]總結(jié)了多種機(jī)器學(xué)習(xí)方法在BCI分類上的應(yīng)用,提出了極限學(xué)習(xí)機(jī)(extreme learning machines,ELM)和SVM方法在腦電信號(hào)識(shí)別領(lǐng)域的優(yōu)勢(shì)。
蜉蝣算法(mayfly algorithm,MA)是2020年提出的一種新型智能算法,是一種以蜉蝣生物的飛行和社會(huì)行為為參照的元啟發(fā)式算法,結(jié)合了遺傳算法和粒子群算法的優(yōu)勢(shì)。文獻(xiàn)[6]指出了MA中特殊的舞蹈和隨機(jī)飛行的過(guò)程可以增強(qiáng)算法探索能力,利用特性之間的平衡,幫助算法擺脫局部最優(yōu),而突變部分可以加強(qiáng)算法搜索新區(qū)域的能力。但是與其他啟發(fā)式算法相同,MA也存在如何提高收斂性的問(wèn)題。與禁忌搜索和遺傳算法等其他元啟發(fā)式算法相比較,模擬退火算法(simulated annealing algorithm,SA)作為一種啟發(fā)式尋優(yōu)算法,具有優(yōu)于其他算法的局部搜索能力。文獻(xiàn)[7]提出了一種基于模擬退火的自適應(yīng)粒子群優(yōu)化,通過(guò)對(duì)權(quán)重的改進(jìn),提高算法收斂性。文獻(xiàn)[8]提出使用Tent混沌序列初始化種群的蜉蝣算法,提高了搜索精度和穩(wěn)定性。但是從文獻(xiàn)統(tǒng)計(jì)來(lái)看,針對(duì)MA性能和實(shí)際應(yīng)用上的研究較少。文獻(xiàn)[9]證明了啟發(fā)式算法可以提高機(jī)器學(xué)習(xí)算法的能力。
本文針對(duì)蜉蝣算法收斂性能欠佳和易陷入局部搜索的不足,提出一種基于混沌自初始化和模擬退火優(yōu)化下的蜉蝣算法(chaos simulated annealing mayfly algorithm,SA-AMA)。對(duì)7個(gè)基準(zhǔn)測(cè)試函數(shù)的仿真結(jié)果表明:與自適應(yīng)模擬退火優(yōu)化粒子群算法(simulated annealing adaptive particle swarm algorithm,BSAPSO)和標(biāo)準(zhǔn)自適應(yīng)權(quán)重蜉蝣算法(adaptive mayfly algorithm,AMA)相比,改進(jìn)后的算法尋優(yōu)能力和收斂性能具有顯著優(yōu)勢(shì)。為了證明提出的算法在實(shí)際應(yīng)用上的能力,本文建立SVM分類器,并使用改進(jìn)后的算法優(yōu)化其參數(shù),對(duì)5位受試者的P300腦電信號(hào)進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明:與K-最近鄰(K-nearest neighbor,KNN)、ELM網(wǎng)絡(luò)和SVM分類器對(duì)比,使用改進(jìn)后算法優(yōu)化下的SVM分類器識(shí)別能力突出。
文獻(xiàn)[10]指出了混沌映射是一種確定性系統(tǒng)產(chǎn)生的隨機(jī)性序列,其特點(diǎn)在于相差微弱的初始值可能會(huì)帶來(lái)不同的結(jié)果,可以提高優(yōu)化算法的種群多樣化。本文通過(guò)比較Logistic、Gaussi、Chebyshev、Tent等多個(gè)不同的混沌映射系統(tǒng),選擇Logistic混沌映射生成初始化種群。在蜉蝣算法整體搜索過(guò)程中,慣性權(quán)重需要遵循逐漸遞減的趨勢(shì)。線性自適應(yīng)慣性權(quán)重相比固定權(quán)重在一定程度上提升了算法的搜索能力。使用線性自適應(yīng)慣性權(quán)重w:
(1)
其中:iter為當(dāng)前迭代數(shù);maxiter為最大迭代數(shù);ωmax、ωmin分別為最大、最小慣性權(quán)重,范圍設(shè)置為[0.2,1.2]。
文獻(xiàn)[11]提出了SA的優(yōu)勢(shì)在于既能增加種群的多樣性,又能跳出局部最優(yōu),可以有效與其他算法融合,進(jìn)一步提高搜索能力。本文使用SA機(jī)制改進(jìn)蜉蝣算法個(gè)體的速度更新方式,提高搜索速率和種群多樣性。
改進(jìn)的蜉蝣算法具體實(shí)現(xiàn)步驟如下:
步驟1 Logistic混沌初始化各參數(shù):
步驟3 迭代前期:iter (2) 式(2)表示雌蜉蝣被雄蜉蝣吸引和未被吸引下雄蜉蝣的速度更新。 雄蜉蝣位置更新公式為: (3) 雌蜉蝣速度更新公式為: (4) 式(4)分別表示雌蜉蝣未被雄蜉蝣吸引和被吸引下雌蜉蝣的速度更新。 雌蜉蝣位置更新公式為: (5) (6) 這里吸引程度通過(guò)適應(yīng)度函數(shù)判定,f(yij)>f(xij)表示雌蜉蝣被雄蜉蝣個(gè)體吸引,反之,則未被吸引。假設(shè)最好的雌蜉蝣個(gè)體被最好的雄蜉蝣個(gè)體吸引,第二好雌蜉蝣個(gè)體被第二好雄蜉蝣個(gè)體吸引,以此類推。 步驟4 迭代后期:iter≥max(iter/2),定義概率 (7) 其中:fnew為當(dāng)前退火階段的種群個(gè)體適應(yīng)度;以概率p對(duì)速度進(jìn)行調(diào)整;t為退火溫度,這里設(shè)置為100。如果f(yi)>f(xi),以式(2)和式(4)進(jìn)行速度更新;如果f(yi)≤f(xi),以概率P>rand(0,1)接受個(gè)體間吸引更新速度方式,否則,更新進(jìn)度: (8) 融合模擬退火機(jī)制既可以保留算法中的有效更新方式,又提高算法的搜索速度和種群多樣性。 步驟5 個(gè)體排序后進(jìn)行交叉和變異產(chǎn)生子代: (9) 步驟6 分離雌性和雄性蜉蝣,更新個(gè)體最優(yōu)各全局最優(yōu)。返回步驟2,直到滿足終止條件。 本文基于MATLAB2020b軟件平臺(tái)進(jìn)行仿真模擬實(shí)驗(yàn),分析了SA-AMA的計(jì)算和收斂性能。所有實(shí)驗(yàn)算法的初始種群數(shù)量設(shè)置為100,最大迭代數(shù)設(shè)置為100,能見(jiàn)度系數(shù)為2,舞蹈系數(shù)為5,游走系數(shù)為1,a1為1,a2與a3為1.5,突變率為0.01。 為了驗(yàn)證SA-AMA的有效性,本文基于7個(gè)測(cè)試函數(shù),對(duì)SA-AMA、AMA和BSAPSO這3種算法在2維和10維上進(jìn)行仿真對(duì)比,測(cè)試函數(shù)詳見(jiàn)表1。實(shí)驗(yàn)獨(dú)立運(yùn)行30次,分別計(jì)算平均值、標(biāo)準(zhǔn)差,仿真結(jié)果見(jiàn)表2。表2中加粗?jǐn)?shù)值表示算法在對(duì)應(yīng)測(cè)試函數(shù)上的最佳值,缺失數(shù)值表示此算法的仿真結(jié)果較差,沒(méi)有對(duì)比性。由表2可知:SA-AMA在低維和高維問(wèn)題上具有優(yōu)于其他兩種算法的搜索能力和收斂能力,可以快速收斂并得到最優(yōu)解。改進(jìn)后的算法在測(cè)試函數(shù)的平均值均達(dá)到最佳,標(biāo)準(zhǔn)差也反映了改進(jìn)后的算法具有良好的魯棒性。MA擁有不同于粒子群算法的種群變異和交叉能力,因此標(biāo)準(zhǔn)AMA算法的能力較BSAPSO算法有優(yōu)勢(shì),本文所提算法的混沌與模擬退火機(jī)制使得算法的尋優(yōu)速率進(jìn)一步得到提升。圖1是部分測(cè)試函數(shù)收斂對(duì)比圖。由圖1可得:改進(jìn)后的算法相比其他兩種算法可以快速收斂。由圖1a、圖1b和圖1c可知,基于快速收斂的優(yōu)勢(shì),改進(jìn)后的算法具有更高的尋優(yōu)能力。 表1 測(cè)試函數(shù) 表2 仿真結(jié)果 (a) Sphere(2維) 本文采用的P300數(shù)據(jù)集為5位平均年齡20歲的健康成年人(編號(hào)分別為S1、S2、S3、S4、S5),數(shù)據(jù)采集頻率為250 Hz。采用文獻(xiàn)[12]的實(shí)驗(yàn)設(shè)計(jì):每位受試者能觀察1個(gè)6行6列共36個(gè)字符組成的矩陣,并在實(shí)驗(yàn)開(kāi)始前確定1個(gè)目標(biāo)字符。受試者需要注視目標(biāo)字符,之后進(jìn)入字符矩陣的閃爍模式,每次以隨機(jī)的順序閃爍字符矩陣的1行或1列,閃爍時(shí)長(zhǎng)為80 ms,間隔為80 ms。當(dāng)所有行和列均閃爍1次后,結(jié)束1輪實(shí)驗(yàn),每次實(shí)驗(yàn)產(chǎn)生12個(gè)樣本。P300電位數(shù)據(jù)通常在刺激發(fā)生后300~450 ms產(chǎn)生正向波峰。每位實(shí)驗(yàn)者的單個(gè)字符實(shí)驗(yàn)P300刺激樣本為2個(gè),非P300刺激樣本為10個(gè),在受試者注視目標(biāo)字符的過(guò)程中,目標(biāo)字符所在行或列閃爍,腦電信號(hào)中會(huì)出現(xiàn)P300電位。而當(dāng)其他行和列閃爍時(shí),則不會(huì)出現(xiàn)P300電位。上述實(shí)驗(yàn)流程為1輪,每位實(shí)驗(yàn)者共重復(fù)5輪。截取每段信號(hào)200~500 ms的實(shí)驗(yàn)數(shù)據(jù),共76個(gè)采樣點(diǎn)。對(duì)負(fù)樣本的5輪實(shí)驗(yàn)所獲數(shù)據(jù)取平均值。通過(guò)對(duì)12個(gè)字符5輪實(shí)驗(yàn)數(shù)據(jù)整理可得,每位受試者完成實(shí)驗(yàn)后各有P300和非P300樣本矩陣:76×20×120(采樣點(diǎn)×通道×樣本量)。 實(shí)驗(yàn)數(shù)據(jù)采集基于20個(gè)通道:Fz、F3、F4、Cz、C3、C4、T7、T8、CP3、CP4、CP5、CP6、Pz、P3、P4、P7、P8、Oz、O1、O2??梢园l(fā)現(xiàn)在Fz、Cz、Pz通道上腦電反應(yīng)最為活躍,并且在刺激發(fā)生后300 ms左右出現(xiàn)正向波。文獻(xiàn)[13]指出腦電信號(hào)的部分通道刺激反映明顯。鑒于先驗(yàn)知識(shí),本文選取每位受試者的Fz、Cz、Pz通道數(shù)據(jù)進(jìn)行研究。文獻(xiàn)[14]指出在腦電信號(hào)數(shù)據(jù)中存在大量干擾,如眨眼、眼動(dòng)、肌電偽跡、心電偽跡等。經(jīng)過(guò)濾波處理后的信號(hào)會(huì)過(guò)濾掉大多數(shù)的噪聲,明顯提高分類器的分類精度。根據(jù)P300的自身特征,其主要信息儲(chǔ)存在0~30 Hz的頻帶中。 獨(dú)立分量分析(independent component analysis , ICA)是一個(gè)線性變換,在獨(dú)立假設(shè)的條件下,可以把數(shù)據(jù)或信號(hào)分離成獨(dú)立的非高斯信號(hào)源的線性組合。ICA通過(guò)盲源分離提取有效信息,被廣泛應(yīng)用于語(yǔ)音識(shí)別、圖像處理、生物醫(yī)學(xué)信號(hào)處理、通信、特征提取和降維等領(lǐng)域。ICA將原始信號(hào)降維之后,提取相互獨(dú)立的屬性,能夠最大程度上挖掘信號(hào)的隱藏因素。文獻(xiàn)[15]概述了ICA方法的理論過(guò)程,與主成分分析(principal components analysis,PCA)方法相比,ICA可以將信號(hào)處理為多個(gè)統(tǒng)計(jì)獨(dú)立分量的線性組合,應(yīng)用性更強(qiáng)、更廣泛。本文建立低通和高通濾波器,保留0.1~30 Hz的原信號(hào),使用ICA方法在經(jīng)過(guò)濾波處理后的原始信號(hào)中分離出有效實(shí)驗(yàn)數(shù)據(jù)。 3.2.1 特征提取 文獻(xiàn)[16]指出信號(hào)數(shù)據(jù)具有時(shí)域和頻域上的多重特性,想要充分研究信號(hào)信息,就需要挖掘其最底層的規(guī)律。人類大腦的有用信息主要來(lái)源于腦電波頻帶:delta波段(0~4 Hz)、theta波段(3.5~7.5 Hz)、alpha波段(7.5~13 Hz)、beta波段(13~26 Hz)、gamma波段(26~70 Hz)。根據(jù)先驗(yàn)經(jīng)驗(yàn),P300頻域能量主要存在于0~30 Hz頻帶中,采用功率譜分析/功率譜密度(power spectral density, PSD)方法提取[0.1,3]、[3,5]、[5,7]、[7,13]、[13,30]這5個(gè)波段的PSD。同時(shí)提取頻域特征,即香農(nóng)熵(Shannon)、對(duì)數(shù)能量熵(Logenery)、近似熵(ApEn)、幅度最大值、幅度平均值。使用6層4階緊支集正交(db4)小波包分解原始信號(hào),計(jì)算重構(gòu)信號(hào)與原始信號(hào)的絕對(duì)誤差以及小波包分解后在0~30 Hz頻段的能量熵值之和。在此基礎(chǔ)上,本文還提取了最大值、最小值、中位數(shù)、平均值、絕對(duì)平均值、方差值、標(biāo)準(zhǔn)差、峭度、偏度、均方根、波形因子、峰值因子、脈沖因子、裕度因子、最大自相關(guān)系數(shù)、峰值時(shí)間、正面積等17個(gè)時(shí)域特征并進(jìn)行研究。由此,共提取29個(gè)時(shí)頻域特征。為了便于后續(xù)研究,對(duì)29個(gè)時(shí)頻域特征進(jìn)行標(biāo)序,如表3所示。 表3 29個(gè)時(shí)頻域特征 3.2.2 特征評(píng)價(jià) 文獻(xiàn)[17]提出一種F值(F-score)方法,該方法可以衡量特征在兩類之間分辨能力,能夠?qū)崿F(xiàn)最有效的特征選擇。每個(gè)特征的F值由式(10)計(jì)算得到: (10) 使用其對(duì)29個(gè)特征進(jìn)行評(píng)分和降序重排。圖2給出了受試者S5的特征評(píng)分值,特征的F值越高,表明其分類能力越強(qiáng)。 圖2 S5受試者F-score特征評(píng)分 SVM最大的優(yōu)點(diǎn)是其不受局部最小值的影響,克服了過(guò)度學(xué)習(xí)和高維數(shù)據(jù),但這兩者都導(dǎo)致了計(jì)算復(fù)雜度和局部極值。SVM的性能高度依賴于各個(gè)參數(shù)的合理設(shè)定,文獻(xiàn)[18]證明了選擇合理的參數(shù)能有效提高分類模型的學(xué)習(xí)和泛化能力。 SVM最主要的思想是找到提供最小訓(xùn)練錯(cuò)誤數(shù)的超平面,并保持約束違反盡可能小,使得兩類數(shù)據(jù)之間的邊緣距離最大化,尤其對(duì)于線性不可分問(wèn)題,將輸入向量xi通過(guò)高維映射(非線性映射)φ(xi)=xi→Η,SVM通過(guò)映射將低維線性不可分問(wèn)題轉(zhuǎn)化為高維可分問(wèn)題,高維空間H一般為Hilbert空間。 樣本xi線性不可分,i=0,1,…,n取整個(gè)樣本集,間隔最大化(maximal-margin)原則實(shí)現(xiàn)最優(yōu)分類,超平面為: ωT·xi+b=0, (11) (12) 落在上述邊界上的樣本點(diǎn)(xi,yi)為支持向量,滿足: ωTxi±b0=±1。 (13) 軟間隔約束凸二次規(guī)劃問(wèn)題為: (14) 其中:yi∈{-1,+1},為樣本的類別標(biāo)記;實(shí)常數(shù)c>0,稱為懲罰參數(shù),決定了最小化訓(xùn)練誤差和最大化分類邊際之間的權(quán)衡;ξi≥0,為非負(fù)松弛變量,松弛變量可以通過(guò)允許違反約束來(lái)引入。 本文使用hinge替代損失函數(shù): lhinge(z)=max(0,1-z)。 (15) 引入拉格朗日(Lagrange)乘子αi,只有少部分的樣本xi滿足yi(wxi+b)=1-ξi,這少部分樣本稱為支持向量,其對(duì)應(yīng)的Lagrange乘子αi>0,其余樣本滿足αi=0,體現(xiàn)了稀疏性。優(yōu)化問(wèn)題的對(duì)偶問(wèn)題為: (16) 最優(yōu)決策函數(shù)(最優(yōu)分類器)為: f(x)=sgn(ω*·φ(x)+b*), (17) 其中:ω*、b*均由支持向量決定。 本文使用最小分類誤差作為適應(yīng)度函數(shù),基于徑向基核函數(shù)(rodial basis function,RBF)作為核函數(shù),使用改進(jìn)后的算法對(duì)最小分類誤差進(jìn)行尋優(yōu),得到SVM的最佳參數(shù)值并進(jìn)行分類,使得分類器的性能得到了提升。 文獻(xiàn)[19]指出了RBF核函數(shù): (18) 實(shí)驗(yàn)的特征是基于最大精度值、最小特征數(shù)原則進(jìn)行選取,這樣可以在降低計(jì)算成本的基礎(chǔ)上獲得最優(yōu)的分類結(jié)果。原始數(shù)據(jù)在經(jīng)過(guò)預(yù)處理和特征提取后,使用F值統(tǒng)計(jì)量對(duì)提取的特征進(jìn)行評(píng)分和重新排序。在進(jìn)行最終的特征選擇和分類前,實(shí)驗(yàn)數(shù)據(jù)在二維平面上呈現(xiàn)出高混合性,若僅在二維空間進(jìn)行線性分類,其分類難度大且結(jié)果欠佳。SVM的最大優(yōu)勢(shì)就是使用恰當(dāng)?shù)暮撕瘮?shù)將二維數(shù)據(jù)映射為高維數(shù)據(jù),建立最優(yōu)的空間分類面提高分類能力,從而達(dá)到預(yù)期的效果。 實(shí)驗(yàn)將預(yù)處理后的數(shù)據(jù)按照3∶1分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),使用測(cè)試數(shù)據(jù)的結(jié)果作為最終的結(jié)論。每位受試者在Fz、Cz、Pz這3個(gè)單通道下分別進(jìn)行特征選擇和分類。根據(jù)測(cè)試集的分類精度,選擇出效果最優(yōu)的特征組合。實(shí)驗(yàn)結(jié)果表明:表3中的29個(gè)時(shí)頻域特征在最大精度值、最小特征數(shù)原則下,0.1~3 Hz的功率譜密度、正面積、裕度因子、香農(nóng)熵、對(duì)數(shù)能量熵、中位數(shù)、絕對(duì)平均值、均方根對(duì)受試者分類效果的影響較為明顯,說(shuō)明上述特征在識(shí)別中效能顯著。 文獻(xiàn)[20]指出在分類任務(wù)中KNN、ELM和SVM在不同的工程應(yīng)用問(wèn)題上具有良好的分類性能。為了比較優(yōu)化后的分類器性能,本文對(duì)比KNN、ELM、SVM、SA-AMA-SVM這4種分類器在P300數(shù)據(jù)集上的識(shí)別能力。KNN采用1~10迭代選取最佳K值,SVM采用10折交叉驗(yàn)證,不同分類器識(shí)別率見(jiàn)表4。由表4可知:KNN、ELM、SVM分類器識(shí)別能力在受試者S1~S5上各有優(yōu)勢(shì),但是SVM分類器的平均識(shí)別能力較高。使用改進(jìn)后算法優(yōu)化下的SVM分類的整體識(shí)別能力得到明顯提升,除在受試者S1上表現(xiàn)欠佳,在其余受試者實(shí)驗(yàn)對(duì)比達(dá)到了最佳的識(shí)別率,單通道平均識(shí)別率達(dá)88%以上,進(jìn)一步驗(yàn)證了本文所提方法在腦電信號(hào)識(shí)別應(yīng)用中的有效性。 表4 不同分類器識(shí)別率 % 在現(xiàn)有蜉蝣算法的基礎(chǔ)上,本文提出了SA-AMA,改進(jìn)后的算法提升收斂速率和尋優(yōu)能力。與AMA和BSAPSO相比,SA-AMA具有更強(qiáng)的魯棒性和更好的搜索能力。為了測(cè)試其實(shí)際應(yīng)用能力,基于時(shí)頻域特征,使用改進(jìn)算法優(yōu)化SVM分類器。SA-AMA-SVM分類器比KNN分類器和ELM分類器識(shí)別率更高。因此,本文提出的方法為腦電信號(hào)識(shí)別提供了新的解決方案和思路。 由于改進(jìn)算法仍具有一定復(fù)雜度,優(yōu)化的運(yùn)行時(shí)間較長(zhǎng),且雖然腦電信號(hào)的識(shí)別精度較高,但仍遠(yuǎn)未達(dá)到零誤差。未來(lái)的研究將側(cè)重于降低算法的復(fù)雜性和提高其準(zhǔn)確性。2 仿真模擬
3 應(yīng)用
3.1 數(shù)據(jù)處理
3.2 特征提取與選擇
3.3 分類器
3.4 實(shí)驗(yàn)
4 結(jié)束語(yǔ)