張杰,曲洪權(quán)*,柳長安,龐麗萍
(1.北方工業(yè)大學信息學院,北京 100144; 2.北京航空航天大學航空科學與工程學院,北京 100191)
隨著當今社會科技發(fā)展,體力作業(yè)逐漸被勞動者交給工業(yè)機器完成,人機交互作業(yè)比重增長迅速,腦力勞動的重要性逐年遞增,由此導致工作中勞動者腦力負荷越來越高[1]。腦力負荷并非單一概念,它涉及課業(yè)的需要、時間上帶來的壓力、執(zhí)行者的能力、操作者臨場的表現(xiàn)等多維因素,判斷起來較為復雜,因而多數(shù)研究者將其看作為勞動者在單位時間內(nèi)的腦活動量、心理壓力或信息處理能力[2]。在人機交互作業(yè)中,大量需要處理的信息使得操作者腦力負荷呈較高狀態(tài),尤其在高空領(lǐng)域等環(huán)境復雜且待處理信息繁雜、操作精準度要求極高的情況下,隨著操作者亟待處理的信息量的增加,操作者腦力負荷狀態(tài)相比以往也不可同日而語,甚至會出現(xiàn)超負荷狀態(tài)。有研究表明,腦力負荷過低會導致人力資源的浪費,使得工作效率不高,腦力負荷過高則會導致失誤頻出,在高空作業(yè)等領(lǐng)域甚至會引發(fā)嚴重事故[3]。因此,對腦力負荷進行實時、準確的評估,并依照評估調(diào)整操作者的工作順序和工作量,在當下有著十分重大的意義。
現(xiàn)今腦力負荷評估方式主要有3種,分為主觀評估量表、績效指標和生理指標[4]。3種方法各有利弊,然而為實現(xiàn)對腦力負荷實時、客觀的評估,經(jīng)大量研究證明,生理指標顯然要優(yōu)于其余2種。在各類生物電指標中,腦電信號與腦力負荷的相關(guān)性更高,且近期有研究表明,功率譜密度這一特征提取方法十分適用于腦電信號,可以較為客觀準確地量化生理信號[5],因而本次課題選取腦電信號進行腦力負荷分類研究。
此外,腦電信號通道過多導致特征維數(shù)較高,極易造成維數(shù)災難[6],導致所需訓練集十分龐大,且訓練量曾幾何倍數(shù)增長。現(xiàn)今應用最廣泛的降維方式為主成分分析(principal components analysis,PCA)[7],但主成分分析本身是提取最佳描述特征的降維算法[8],針對本課題的分類問題,效果并不顯著。
基于此,現(xiàn)提出一種基于PCA-SVM與逐階枚舉法的包裹式降維方式,在支持向量機(support vector machine,SVM)交叉驗證的基礎上,引入固定驗證集概念,通過監(jiān)督特征選擇過程來彌補PCA非監(jiān)督降維方法在分類上的劣勢,通過逐階枚舉法來避免SVM算法本身對特征之間關(guān)系的敏感性所導致的特征選擇偏差,以此找到針對分類更為有效的降維方式。
本次實驗共選取8位被試者,均為身體狀況良好的研究生,每天上、下午各測一次,每次獲得高低負荷腦電信號數(shù)據(jù)各12 min,實驗數(shù)據(jù)收集橫跨9 d時間,獲得各被試高低負荷不同情況下每種情況各216 min腦電信號。實驗平臺為MATB-Ⅱ,如圖1所示。
圖1 MATB-Ⅱ?qū)嶒炂脚_
由于獲取腦電數(shù)據(jù)時使用的是32-channel Neuroscan Neuamps (Synamps2,Scan4.3,EI Paso,USA) system獲取的腦電數(shù)據(jù),而在使用蒙太奇進行電極通道傳感器配置時使用的是10-20系統(tǒng)電極放置法(國際腦電圖學會標準電極放置法)。因此選取32-channel Neuroscan Neuamps system和10-20系統(tǒng)電極放置法中能一一對應的26個電極腦電數(shù)據(jù):FP1、FP2、F7、F3、FZ、F4、F8、FC3、FCZ、FC4、T7、C3、CZ、C4、T8、CP3、CPZ、CP4、P7、P3、PZ、P4、P8、O1、OZ、O2作為26個獨立分量,用于后續(xù)特征提取工作。腦電提取與電極排布示意圖如圖2所示。
圖2 腦電提取與電極排布示意圖
在預處理過程中,如圖3所示,首先將采集到的數(shù)據(jù)通過fir帶通濾波器,進行1~30 Hz的濾波處理,按照單個任務時長0.5 min進行切割,用于后續(xù)特征提取。
圖3 數(shù)據(jù)預處理過程
針對經(jīng)過預處理的腦電信號數(shù)據(jù)進行特征參數(shù)值的提取,目前常用方式有4種,即小波變換、共空間模式、AR模型,以及功率譜密度[9]。有研究表明,功率譜密度這一方式在腦力負荷分類任務上更為適用[5]。
通過大量研究表明,在腦電信號的研究過程中,已知有至少4個波段對研究結(jié)果影響較大,即delta、theta、alpha、beta 4種節(jié)律[10],具體波段劃分如表1所示。
表1 具體波段劃分
功率譜密度屬于頻域法,指利用密度概念來表示信號在每個頻率點的功率分布的方法[11]。首先對腦電信號做傅里葉變換,具體步驟如下。
將每個通道作為一個獨立分量(ICs),對于經(jīng)過預處理的腦電信號,每2 s劃分一個epoch。設每個ICs生成了M個epoch,進行多窗譜法處理(multitaper)時共有N個采樣點,則電極通道ch第m個時長為2 s的epoch使用multitaper在第n個采樣點處計算得到的PSD值記作PSDch,m,n。其中,ch=1,2,…,26,m=0,1,…M-1。
則通道ch中ICs平均一個epoch在第n個采樣點處的PSD值,即
(1)
根據(jù)頻率分辨率對各通道ch每個采樣點處的絕對PSD值進行歸一化,得到相對PSD值為
(2)
在不同節(jié)律頻率區(qū)間下,對應著不同的采樣點。
以alpha節(jié)律為例,將alpha節(jié)律下的采樣點范圍記作n_alpha~N_alpha,則alpha節(jié)律下各電極通道總的平均相對PSD值為
(3)
根據(jù)式(3)分別提取4種節(jié)律下26通道的平均功率譜密度,得到104個特征。
為腦力負荷分類研究,提出了一種基于PCA-SVM與逐階枚舉法的降維方式,以測試集分類精度為指標,經(jīng)數(shù)據(jù)預處理、特征工程、訓練分類器三部分,大體流程如圖4所示。
特征工程階段主要包括3步,即腦電信號特征提取、特征降維、特征選擇,依照以往大量研究,本文研究使用平均功率譜密度作為特征提取方式,主要研究特征降維、特征選擇兩方案的制定方式。
所使用腦電數(shù)據(jù)26通道,每通道4種節(jié)律,經(jīng)過特征提取后,總和共104個特征維度,極其容易造成特征冗余,從而引發(fā)維度災難,因而需要使用降維方法盡可能地降低維度。主成分分析是目前使用最為廣泛的一種降維方式,其目的是在盡可能多保留信息的基礎上,使用低維空間以表示高維數(shù)據(jù)。
具體來講,PCA方法其實是將原始特征空間中的數(shù)據(jù)映射到另一空間中,使第一個新坐標軸方向為原始數(shù)據(jù)中方差最大的方向,第二個坐標軸方向為與第一個坐標軸方向正交且使其方差最大的方向,依次類推,重新構(gòu)建特征空間[12]。
由此可知,主成分分析本身是一種非監(jiān)督降維的方式,所保留的特征是基于其累計貢獻率,因此這種方法對于分類而言并不完全適用。
如圖5所示,以sub01為例,測試集精度并不完全與累計貢獻率成正比,且隨維度變化較反復,也就是說,按照主成分分析方法將原始數(shù)據(jù)映射到新特征空間后所保留的特征維度,只是數(shù)據(jù)的最佳描述特征,而并非著眼于數(shù)據(jù)可分性,且過度依賴于訓練集。
圖5 sub01特征累計貢獻率與測試集精度隨PCA維度變化情況
為解決此類問題,本文研究采用包裹式的降維方式,將PCA與分類器結(jié)合,在盡可能保留更多信息量的同時增大數(shù)據(jù)可分性。與其余特征選擇方式不同,傳統(tǒng)意義上的包裹式降維方式就是直接把最終將要使用的學習器的性能作為特征子集的評價準則,也就是說,其目的就是為給定學習器選擇最有利于其性能、量身定做的特征子集,直接針對給定學習器進行優(yōu)化[13]。
本文所提出的方法則是將分類器與PCA結(jié)合,并非直接優(yōu)化學習器,而是針對在特定學習器下的數(shù)據(jù)可分性,在訓練集中分出固定驗證集,根據(jù)驗證集精度針對特征工程方案進行優(yōu)化。由于包裹式在降維過程中將最終使用的學習器納入考量,在一定程度上完善了PCA的分類性能。
基于支持向量機(SVM)的高效準確性,本文研究選用SVM作為分類算法,并根據(jù)上述所說,組成PCA-SVM包裹式特征選擇算法進行特征工程階段的處理。
實驗分別使用各被試跨時間數(shù)據(jù),總目的為將數(shù)據(jù)降至m維,本階段目的則為將數(shù)據(jù)降至n維,具體流程圖6所示。具體流程如下。
步驟1首先對通過預處理的數(shù)據(jù)進行平均功率譜密度計算,每個任務皆提取到26×4個特征維度。
步驟2將數(shù)據(jù)按8∶2分為訓練集和測試集,再將訓練集按8∶2分為特征訓練集和特征驗證集。
步驟3對特征訓練集使用主成分分析(PCA)分別降至[m,40]維,生成40-m個子集。依靠SVM生成各子集相對應的模型,并輸出該模型特征驗證集精度,確定精度最高的維度n,保留當前子集,并輸出降維矩陣。
支持向量機(SVM)是目前運用最廣泛的機器學習分類器,中心思想為最小間隔最大化。該方法適用于二元分類的任務,且對于特征之間相應關(guān)系較為敏感,有時會出現(xiàn)特征之間相互不適配導致整體分類效果降低的情況[14]。
為進一步降低SVM訓練分類器階段上述情況發(fā)生的可能性,特征降維階段過后,在PCA-SVM包裹式選擇的基礎上,提出了一種逐階枚舉法,并將其引入特征選擇階段,以此增強數(shù)據(jù)在SVM學習器下的可分性。此法大體來講即為逐階進行特征選擇,每層選擇特征總數(shù)-1個特征,相較于窮舉法避免了大量運算,并有效聚焦于各特征間的適配性,在SVM學習器下更接近于特征最優(yōu)選擇。
實驗分別使用各被試跨時間數(shù)據(jù),目的為將數(shù)據(jù)降至m維,具體流程如圖6所示。
步驟1對于上一步所確定的n個特征維度,固定前面5個信息量最大的維度確保其不被刪除,對降至n維的數(shù)據(jù)使用逐階枚舉法進行特征選擇,枚舉其n~1個特征組合的n~5個子集,依靠SVM分別生成模型,輸出該模型特征驗證集精度,保留精度最高的子集,記錄刪除特征的位置。
步驟2重復步驟1,直到將特征維度降至m維,輸出刪除特征位置集合。
當m=20時,具體流程如圖7所示。
圖7 特征選擇階段具體流程
完成以上兩步后,可得到腦電數(shù)據(jù)的降維參數(shù)。根據(jù)PCA-SVM法輸出的降維矩陣與逐階枚舉法所輸出的刪除特征位置集合,對訓練集與測試集進行處理,使用處理過后的訓練集數(shù)據(jù)依靠SVM算法生成模型,并使用處理過后的測試集數(shù)據(jù)進行測試,可輸出測試集精度。
在特征工程階段引入了固定驗證集概念輔助進行包裹式降維,以特征驗證集精度作為特征工程方案的評價標準,并在特征選擇中使用了逐階枚舉法,可以將數(shù)據(jù)降至任意維度。
每組實驗分別使用各被試跨時間數(shù)據(jù),每種負荷情況各216 min,經(jīng)數(shù)據(jù)預處理后,每被試各有數(shù)據(jù)段864個。支持向量機核函數(shù)選擇高斯核,為在保持訓練速度的基礎上盡量避免過擬合,使用3折交叉驗證法,并使用網(wǎng)格尋優(yōu)法確定參數(shù)。對每被試數(shù)據(jù)按照上述3種方式進行訓練與測試,實驗結(jié)果如圖8所示。
圖8 兩種方法測試集精度均值隨維度變化折線圖
以維度為自變量,分別按照3種方法訓練SVM分類器,取8個被試的平均值繪制折線圖,結(jié)果如折線圖8所示。由圖8可知,兩種方法測試集精度均隨維數(shù)降低有一定下降,然而本文所提出的方法在特征數(shù)高于16維時普遍好于PCA方法,其中降至20維時此方法效果更為顯著。
由于降至20維時該方案效果較為顯著,于是以20維為例,統(tǒng)計8個被試在分別使用兩種方法降維時的測試集精度,結(jié)果如表2所示。
表2 各被試分別使用兩種方法所得測試集精度
為更為直觀地感受變化,將表2用直方圖進行可視化,效果如圖9所示。由此可知,當數(shù)據(jù)降至20維時,除sub07高精度持平外,各被試測試集精度相比單純使用PCA均有不同程度升高。
圖9 各被試兩種方法降至20維測試集精度對比柱狀圖
對于腦電信號,針對非監(jiān)督降維和SVM分類算法的特性,提出了一種基于PCA-SVM與逐階枚舉法的降維方式,通過實驗結(jié)果可以看出,此方法在一定程度上緩解了PCA由于其非監(jiān)督算法著重于信息最大化的性質(zhì)所一并帶來的對數(shù)據(jù)可分性的破壞,具體總結(jié)如下。
(1)引入了固定的驗證集概念,在特征工程階段代替全部訓練集調(diào)整參數(shù),避免了特征工程方案過度擬合訓練集。
(2)在特征工程階段加入支持向量機,進行包裹式降維,一定程度上彌補了非監(jiān)督降維算法在數(shù)據(jù)可分性上的犧牲。
(3)對于全舉法而言,逐階枚舉法也在接近于特征選擇最優(yōu)組合的前提下降低了訓練量。
因而本文提出的逐階枚舉法對于較為注重特征之間關(guān)系的SVM分類器適配性更高,一定程度上解決了子空間分類效果高于整體分類效果的問題,也為生物電信號的特征工程算法提供了新思路。