石雨菲,王瑤,胡珊,田翔華,陳子怡,周毅△
(1.中山大學(xué) 中山醫(yī)學(xué)院,廣州 510080;2.中山大學(xué) 生物醫(yī)學(xué)工程學(xué)院,廣州 510006;3.新疆醫(yī)科大學(xué) 醫(yī)學(xué)工程技術(shù)學(xué)院,烏魯木齊 830011;4.中山大學(xué)附屬第一醫(yī)院,廣州 510080)
癲癇(Epilepsy)是一種由大腦神經(jīng)元集群高度同步化異常放電引起的反復(fù)性發(fā)作的神經(jīng)系統(tǒng)疾病[1],嚴(yán)重影響患者正常生活。目前癲癇患者在全球范圍內(nèi)近6 500萬(wàn)[2-3],其中約有30%的癲癇患者無(wú)法通過(guò)藥物治療得到有效控制,被稱為藥物耐受性癲癇患者[4-5]。在藥物耐受性癲癇患者中,有25%可以通過(guò)致癇灶切除術(shù)進(jìn)行治療[5-6],部分患者可接受生酮飲食或神經(jīng)調(diào)控,而其余癲癇患者的發(fā)作性癥狀尚無(wú)任何合適的治療手段可以控制[7]。
腦電信號(hào)(electroencephalography,EEG)是記錄大腦電活動(dòng)的無(wú)創(chuàng)方式,能夠監(jiān)測(cè)癲癇發(fā)作時(shí)大腦的異常放電現(xiàn)象,對(duì)其發(fā)作進(jìn)行預(yù)測(cè)[8]。利用計(jì)算機(jī)技術(shù)分析EEG信號(hào)實(shí)現(xiàn)癲癇發(fā)作的檢測(cè)研究,可有效輔助醫(yī)生對(duì)藥物耐受性癲癇患者進(jìn)行治療和控制,對(duì)臨床癲癇治療具有重大意義[9-10]。然而現(xiàn)有模型泛化性及魯棒性不足,且對(duì)于臨床真實(shí)數(shù)據(jù)的研究不夠深入。為緩解上述問(wèn)題,本研究利用多尺度排列熵、人工神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)方法設(shè)計(jì)MPE-ANN-SVM模型應(yīng)用于癲癇腦電分類。該模型使用多尺度排列熵[11]與人工神經(jīng)網(wǎng)絡(luò)來(lái)提取腦電信號(hào)特征,使用支持向量機(jī)[12]和人工神經(jīng)網(wǎng)絡(luò)[13]兩種機(jī)器學(xué)習(xí)算法對(duì)提取到的特征進(jìn)行分類。
多尺度排列熵為多個(gè)尺度下的排列熵,能夠反映信號(hào)隨機(jī)性與復(fù)雜性[14]。多尺度排列熵的計(jì)算方式為:將長(zhǎng)度為N的時(shí)間序列X=(x1,x2,x3…,xn),經(jīng)過(guò)粗?;螅笃渑帕徐豙15]。具體的計(jì)算步驟如下[16]:
對(duì)時(shí)間序列X=(x1,x2,x3…,xn)粗粒化處理,得到
(1)
其中,j=1,2,…,[N/s],[N/s]為N/s向下取整,s為尺度因子。
對(duì)粗粒化后得到的序列重構(gòu)有:
Yl(s)={yl(s),yl+1(s),…,yl+(m-1)λ(s)}
(2)
其中,m為嵌入維數(shù),λ為延遲時(shí)間,l為重構(gòu)分量且l=1,2,…,N-(m-1)λ。
將式(1)-(2)升序排列,每一個(gè)粗?;蛄卸?能得到一組新的序列s(v)=(l1,l2,…,lm),其中v=1,2,…,V。V≤m!,s(v)的數(shù)目與重構(gòu)序列m!的數(shù)目一致。
計(jì)算不同尺度下的排列熵:
(3)
其中,pv為第v次符號(hào)序列出現(xiàn)的概率。
(4)
HP的值越小,該時(shí)間序列越有序,腦電信號(hào)復(fù)雜性降低;值越大時(shí),該時(shí)間序列的規(guī)律性越弱,腦電信號(hào)復(fù)雜性升高。
人工神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單神經(jīng)元組成的廣泛并行互連的網(wǎng)絡(luò),能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所作出的交互反應(yīng)[17]。神經(jīng)元作為神經(jīng)網(wǎng)絡(luò)的基本組成單元,具有溝通信息的作用[18]。神經(jīng)元結(jié)構(gòu)見(jiàn)圖1。
圖1 神經(jīng)元結(jié)構(gòu)示意圖
感知機(jī)是由一個(gè)神經(jīng)元組成的模型,而多個(gè)神經(jīng)元交織在一起則生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)元的主要參數(shù)是權(quán)重矩陣和偏置矩陣,網(wǎng)絡(luò)學(xué)習(xí)過(guò)程就是不斷更新神經(jīng)元內(nèi)部的參數(shù),使其輸出預(yù)測(cè)值與實(shí)際值之間的誤差盡可能小[19]。
神經(jīng)網(wǎng)絡(luò)一般由三個(gè)部分組成:輸入層(Input Layer),隱含層(Hidden Layer),輸出層(Output Layer)。其中輸入層負(fù)責(zé)接收外部信息;隱含層則是神經(jīng)網(wǎng)絡(luò)的核心,負(fù)責(zé)對(duì)輸入層接收到的信息進(jìn)行學(xué)習(xí),并且在學(xué)習(xí)過(guò)程中不斷更新權(quán)值(Weight)和偏置(Bias);輸出層負(fù)責(zé)輸出結(jié)果[20]。
將輸入層X(jué)=(x1,x2,x3,...,xn)和權(quán)重矩陣W=(ω1,ω2,...,ωn)兩者相乘并加上偏置函數(shù)b之后,輸入隱含層中,可以得到非線性激活函數(shù)σ,計(jì)算公式如下:
(5)
輸出Y在非線性函數(shù)激活之前的步驟僅為線性組合,對(duì)于復(fù)雜問(wèn)題難以找到合適的最優(yōu)解,而非線性更接近客觀事物性質(zhì)本身,能夠表達(dá)變量間的相關(guān)性,因此,引入非線性函數(shù)可得到模型最優(yōu)解。通過(guò)使用非線性函數(shù),可將數(shù)據(jù)特征映射至一個(gè)非線性系統(tǒng),得到更多的原始信息,由輸出層得出:
Y=σ(v)
(6)
支持向量機(jī)(support vector machine,SVM)是Cortes和Vapnik于1995年對(duì)線性分類器提出的一種最優(yōu)準(zhǔn)則設(shè)計(jì)[21-22]。SVM能夠較好地解決小樣本、高維性等問(wèn)題,其基本思想可以總結(jié)為:在特征空間內(nèi)尋找一個(gè)用于分類樣本的最佳超平面,該平面可正確分類樣本,同時(shí)也能使得各樣本集距離該平面的間隔最大,分類器的泛化性能也因此特性較好[23]。具體算法如下[24]:
用一個(gè)維度為n的向量x來(lái)表示數(shù)據(jù)點(diǎn),用y取值-1或1將兩種類別區(qū)分開(kāi)來(lái)。區(qū)分的平面其方程可以表示為:
wTx+b=0
(7)
基于該平面將兩類數(shù)據(jù)分隔,定義函數(shù)f(x)為:
f(x)=wTx+b
(8)
若f(x)=0,數(shù)據(jù)點(diǎn)的位置剛好在超平面上;f(x)<0,則對(duì)應(yīng)y=-1的數(shù)據(jù)點(diǎn);f(x)>0,則對(duì)應(yīng)y=1的數(shù)據(jù)點(diǎn)。根據(jù)上述規(guī)則選擇完最優(yōu)分類面后,使用新數(shù)據(jù)測(cè)試分類效果。測(cè)試時(shí),定義f(x)為:
(9)
式中,λi為拉格朗日因子,且滿足條件λi≥0和yi(w,φ(xi)+b)=1。K(xi,x)為核函數(shù)。
實(shí)驗(yàn)數(shù)據(jù)來(lái)自于新疆某三甲醫(yī)院神經(jīng)科腦電圖室的癲癇患者?;颊呷虢M嚴(yán)格遵循部分性(發(fā)作)癲癇患者的入組標(biāo)準(zhǔn)。所采集的癲癇患者處于靜臥狀態(tài)來(lái)減少肢體活動(dòng)對(duì)腦電信號(hào)的干擾。數(shù)據(jù)采集設(shè)備為尼高力(NicholetOne)腦電圖機(jī)。腦電數(shù)據(jù)為24長(zhǎng)程視頻頭皮腦電圖,用雙極導(dǎo)聯(lián)法同步記錄22導(dǎo)波形。數(shù)據(jù)采樣頻率為500 Hz。相關(guān)癲癇發(fā)作事件起始已在腦電數(shù)據(jù)中由經(jīng)驗(yàn)豐富的臨床專家進(jìn)行標(biāo)注。本次實(shí)驗(yàn)數(shù)據(jù)信息見(jiàn)表1。
表1 實(shí)驗(yàn)數(shù)據(jù)信息說(shuō)明
本次實(shí)驗(yàn)樣本包含13名患者,其中4名男性患者,9名女性患者,患者的年齡區(qū)間跨度為6~51歲,能夠增強(qiáng)模型的泛化能力。本次實(shí)驗(yàn)?zāi)X電圖記錄的總持續(xù)時(shí)間在360 h左右,數(shù)據(jù)中的癲癇發(fā)作起始點(diǎn)和終止點(diǎn)由臨床癲癇專家所標(biāo)記。13位患者共計(jì)159次發(fā)作,平均每人發(fā)作12次。選取完數(shù)據(jù)后,經(jīng)過(guò)計(jì)算,可得發(fā)作期的持續(xù)時(shí)間為9 960 s(166 min左右)。
經(jīng)研究表明,由于發(fā)作前期無(wú)固定的時(shí)間選擇,發(fā)作前期數(shù)據(jù)一般由人為設(shè)置,一些研究選擇固定發(fā)作前期持續(xù)時(shí)間為20~90 min,本研究將發(fā)作前期腦電數(shù)據(jù)定為發(fā)作前半個(gè)小時(shí)的腦電信號(hào)。對(duì)于發(fā)作期數(shù)據(jù)的選取,根據(jù)臨床專家標(biāo)注的癲癇腦電數(shù)據(jù),選取發(fā)作期腦電數(shù)據(jù)全集。最后形成分類的初步樣本庫(kù)。
2.2.1實(shí)驗(yàn)設(shè)計(jì)概述 本研究設(shè)計(jì)的檢測(cè)結(jié)構(gòu)見(jiàn)圖2。先由2.1中所述的患者信息提取原始腦電信號(hào),得到數(shù)據(jù)集A?;跀?shù)據(jù)集A,使用多尺度排列熵提取信號(hào)特征,最終得到非線性數(shù)據(jù)集A1,該數(shù)據(jù)集包括5 457條發(fā)作前期信號(hào)特征和3 876條發(fā)作期信號(hào)特征。使用一個(gè)隨機(jī)數(shù)函數(shù),隨機(jī)提取2 000條發(fā)作前期數(shù)據(jù)集A2-1和2 000條發(fā)作期數(shù)據(jù)集A2-2作為訓(xùn)練樣本庫(kù),訓(xùn)練模型。剩余數(shù)據(jù)為測(cè)試數(shù)據(jù)樣本庫(kù)。
圖2 自動(dòng)檢測(cè)識(shí)別分類結(jié)構(gòu)
2.2.2多尺度排列熵特征值提取 為提高模型準(zhǔn)確率,獲取腦電信號(hào)的有效特征,本研究對(duì)信號(hào)采取進(jìn)一步處理,將計(jì)算非線性動(dòng)力學(xué)特征指標(biāo)的數(shù)據(jù)跨度設(shè)置為5 000個(gè)點(diǎn),每10 s滑動(dòng)提取一次特征值。同時(shí)對(duì)于不足5 000個(gè)點(diǎn)的數(shù)據(jù),設(shè)置為1 000個(gè)點(diǎn)的方式提取,而超出5 000個(gè)點(diǎn)的數(shù)據(jù)則進(jìn)行分段提取。本研究選取多尺度排列熵來(lái)獲取癲癇的非線性動(dòng)力學(xué)特征。
患者在癲癇發(fā)作過(guò)程中,神經(jīng)元集群會(huì)大量同步放電,使得原本復(fù)雜的腦功能有著不同程度的抑制[25]。經(jīng)實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),從發(fā)作前期到發(fā)作期,多尺度排列熵表現(xiàn)為有不同程度的陡升陡降。本研究通過(guò)提取1號(hào)患者T3、T5、P3、O1導(dǎo)聯(lián)上的一次發(fā)作過(guò)程信號(hào)來(lái)描述多尺度排列熵在發(fā)作過(guò)程中的變化情況(見(jiàn)圖3)。
圖3 多尺度排列熵在發(fā)作過(guò)程中的變化規(guī)律Fig.3 Variation rule of multi-scale permutation entropy during seizure
最終,經(jīng)過(guò)特征提取得到5 457條發(fā)作前期信號(hào)特征和3 876條發(fā)作期信號(hào)特征。
2.2.3模型訓(xùn)練 由于SVM具有較好的泛化能力,而ANN不僅能夠有效提取信號(hào)特征,還具有更好的魯棒性,因此,本研究結(jié)合SVM與ANN提出一種新型網(wǎng)絡(luò)結(jié)構(gòu)以實(shí)現(xiàn)癲癇的檢測(cè)識(shí)別,該模型具體的網(wǎng)絡(luò)參數(shù)信息見(jiàn)表2。
表2 ANN+SVM網(wǎng)絡(luò)結(jié)構(gòu)
將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的輸出層改為SVM,即將經(jīng)過(guò)一次線性變換的數(shù)據(jù)送入SVM分類器中。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),使用一層簡(jiǎn)單Dense層的結(jié)果最優(yōu)。
基于2.2.1中給出的自動(dòng)檢測(cè)識(shí)別模型,將經(jīng)多尺度排列熵提取特征值后的全導(dǎo)聯(lián)數(shù)據(jù)集A2-1和A2-2輸入至表2中的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,即2個(gè)22×2 000的數(shù)據(jù)集。從第2層Dense層后,將176×2 000維的數(shù)據(jù)取出為A3,再將A3放入SVM分類模型訓(xùn)練。將神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練輪次設(shè)為60次后,送入SVM分類器中進(jìn)行測(cè)試。結(jié)果顯示,模型準(zhǔn)確率能夠達(dá)到94.85%。ANN層學(xué)習(xí)過(guò)程見(jiàn)圖4。
圖4 ANN中間模型 Fig.4 ANN intermediate model
為驗(yàn)證MPE-ANN-SVM模型的有效性及優(yōu)越性,研究用敏感性(sensitivity,Sen)、特異性(specificity,Spe)與識(shí)別準(zhǔn)確率(accuracy,Acc)三個(gè)參數(shù)作為評(píng)價(jià)指標(biāo)。其中,Sen用于評(píng)價(jià)模型對(duì)發(fā)作期腦電數(shù)據(jù)的識(shí)別能力,Spe用于評(píng)價(jià)模型對(duì)發(fā)作前期腦電數(shù)據(jù)的識(shí)別能力[26],Acc用于評(píng)價(jià)測(cè)試數(shù)據(jù)與標(biāo)注數(shù)據(jù)間的接近程度。具體公式表示如下:
(10)
其中,TP為真陽(yáng)性,F(xiàn)P為假陽(yáng)性,TN為真陰性,F(xiàn)N為假陰性。
為驗(yàn)證本研究算法的泛化性能,探究不同方法對(duì)算法的影響,本研究將多個(gè)方法進(jìn)行拆分,采用消融實(shí)驗(yàn)來(lái)驗(yàn)證各方法對(duì) MPE-ANN-SVM 的貢獻(xiàn),驗(yàn)證結(jié)果見(jiàn)表3。
表3 分類檢測(cè)結(jié)果對(duì)比Table 3 Comparison results of classification detection
由表3可知,與單一的分類器相比,由于有效地結(jié)合了神經(jīng)網(wǎng)絡(luò)分類器能提取更多有效信息和支持向量機(jī)泛化性能較好的優(yōu)點(diǎn),MPE-ANN-SVM模型具有更高的識(shí)別準(zhǔn)確率、敏感率及特異率,能夠更好的應(yīng)用于癲癇診斷。
本研究基于MPE方法、ANN及SVM分類器設(shè)計(jì)了一種能夠有效實(shí)現(xiàn)癲癇分類識(shí)別的MPE-ANN-SVM模型。經(jīng)驗(yàn)證,該模型不僅具有良好的泛化性能及魯棒性,還能得到較好的識(shí)別準(zhǔn)確率。其中,MPE方法能夠更好地提取原始腦電信號(hào)特征,ANN與SVM分類器具有較好的檢測(cè)識(shí)別性能,三種方法相結(jié)合能夠提高癲癇的識(shí)別效果。為提高模型準(zhǔn)確率,本研究在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了部分處理,但研究仍是針對(duì)小群體患者進(jìn)行,缺乏大量對(duì)比數(shù)據(jù),后續(xù)還需加入更多的癲癇患者數(shù)據(jù),豐富數(shù)據(jù)集并優(yōu)化算法模型,得到更加豐富的特征,同時(shí)提高模型性能。