廖家慧,李涵懿,詹長安,楊 豐
南方醫(yī)科大學生物醫(yī)學工程學院,廣東 廣州510515
癲癇是由腦內神經(jīng)元異常超同步化、陣發(fā)性電活動引起的神經(jīng)紊亂。癲癇發(fā)作具有猝發(fā)性,常見臨床表現(xiàn)為突然的意識喪失、全身抽搐以及精神異常等[1]。癲癇發(fā)作預測通常依賴經(jīng)驗豐富的神經(jīng)內科醫(yī)生對海量EEG信號進行人工標定和回溯分析[1,2]。因EEG信號具有隨機性和非平穩(wěn)性等特點,其強度微伏級且持續(xù)伴隨各種干擾信號。這造成臨床人工標定工作效率低、耗時長且誤差大[3-5]。因此,計算機輔助癲癇發(fā)作預測是應對日益快速增長臨床需求的必然趨勢。
早期的癲癇發(fā)作預測主要采取基于閾值的方法:識別發(fā)作前狀態(tài)某些特征值增加或減少趨勢。當所提取特征的值超過激活閾值時,預測即將有癲癇發(fā)作[6-8]。基于閾值的預測算法可解釋性強,簡單直觀,但通常局限于單個特征,目前沒有一種特征能有效地作為表征發(fā)作前狀態(tài)的標準特性,因此這類算法的預測性能大多不佳。機器學習綜合利用統(tǒng)計學和計算機科學技術,系統(tǒng)地使用算法挖掘數(shù)據(jù)里的隱藏特征和內在聯(lián)系。以經(jīng)典機器學習為基礎的癲癇發(fā)作預測算法的研究主要集中于:特征空間優(yōu)化與分類器檢測性能之間結合,對癲癇發(fā)作前狀態(tài)檢測具有較好精度[9-16]。但是癲癇發(fā)作的EEG模式在不同患者之間差異很大,甚至當癲癇發(fā)作發(fā)生在同一患者的不同大腦區(qū)域時也存在較大偏差。因此,這類算法研究需要針對患者定制的特征工程,復雜度高且過程繁瑣,算法泛化性差不易推廣[17-20]。深度學習方法實現(xiàn)端到端訓練分類器,極大改善了經(jīng)典機器學習方法中特征提取問題,取得良好的效果[21-23]。但這類算法仍需要大量標記的EEG數(shù)據(jù)訓練預測模型,同屬于機器學習中的有監(jiān)督學習。對于EEG數(shù)據(jù)的標記而言,這又依賴于臨床醫(yī)生的經(jīng)驗,其過程耗時且易發(fā)生人為錯誤[24-26]。
為克服獲取大量標注數(shù)據(jù)的困難,無監(jiān)督特征學習成為深度學習在癲癇預測應用中的發(fā)展方向。無監(jiān)督特征提取不僅在EEG記錄期間實時執(zhí)行,省去數(shù)據(jù)標定的工作,而且無需為每個患者定制特征工程[6,12]。在無監(jiān)督特征學習方面,目前采用的技術主要基于兩種:自編碼器(AE)和深度卷積生成對抗網(wǎng)絡(DCGAN)[25-28]。無監(jiān)督學習不依賴于任何標簽,僅通過挖掘數(shù)據(jù)本身蘊含的結構或特征,完成相關任務。然而,由于前述的癲癇EEG信號具有隨機、非平穩(wěn)且強度微弱等特點,僅使用無監(jiān)督學習執(zhí)行預測任務通常出現(xiàn)訓練無效、模型穩(wěn)定性差等問題,最終導致預測性能不佳。這也是目前尚未有模型穩(wěn)定,性能可靠的無監(jiān)督癲癇發(fā)作預測模型的主要原因。半監(jiān)督學習利用少量標記樣本的輔助信息來引導對大量無標記數(shù)據(jù)學習與訓練,既減輕有監(jiān)督訓練對海量標記數(shù)據(jù)的需求,也改善無監(jiān)督學習模型失效、模型不穩(wěn)定的問題[27,28]。
受到上述工作的啟發(fā),本文提出一種結合斯托克韋爾變換(ST)、基于梯度懲罰的Wasserstein生成對抗網(wǎng)絡(WGAN-GP)以及基于Bi-LSTM分類網(wǎng)絡的半監(jiān)督癲癇發(fā)作預測算法,即ST-WGAN-GP-Bi-LSTM。一是采用ST對癲癇EEG信號時頻變換,ST自適應調節(jié)分辨率,能夠精準地定位癲癇EEG信號的時頻成分。二是采用WGAN-GP作為無監(jiān)督特征學習模型。WGANGP的優(yōu)勢在于其損失函數(shù)采用Earth-Mover(EM)距離代替?zhèn)鹘y(tǒng)GAN中的Jensen-Shannon(JS)散度,克服模型坍塌與訓練不穩(wěn)定的問題,保證生成樣本的豐富性[29,30]。三是采用基于Bi-LSTM分類網(wǎng)絡作為后端分類器,用少量帶標簽的ST 時頻圖引導分類(預測)任務。Bi-LSTM作為處理序列數(shù)據(jù)的網(wǎng)絡,能有效挖掘EEG信號中的時序信息,進而提供分類(預測)性能[31]。在公開的波士頓兒童醫(yī)院癲癇數(shù)據(jù)集(CHB-MIT)[32]上驗證本文方法可以有效提升預測性能,并進一步改善無監(jiān)督特征學習模型的穩(wěn)定性。
癲癇發(fā)作預測通常將EEG記錄劃分為4個基本狀態(tài):發(fā)作間期,發(fā)作前期,發(fā)作期和發(fā)作后期[12,13](圖1)。發(fā)作間期為遠離發(fā)作的“正?!贝竽X狀態(tài),發(fā)作前期緊接癲癇發(fā)作,是發(fā)作間期和發(fā)作期的過渡狀態(tài),發(fā)作期指癲癇發(fā)作發(fā)生的時間段,發(fā)作后期是癲癇發(fā)作后至大腦回歸到“正?!贝竽X狀態(tài)前的一段時間?;诜诸愃惴ǖ挠嬎銠C輔助癲癇發(fā)作預測致力于檢測分析EEG信號的發(fā)作前狀態(tài),執(zhí)行發(fā)作前期和發(fā)作間期的分類任務。
圖1 癲癇發(fā)作預測的4種EEG狀態(tài)Fig.1 Four EEG states of epileptic seizure prediction.
本研究算法流程(圖2)主要包括:(1)無監(jiān)督特征學習模型訓練。對未標記的EEG信號進行ST獲得二維視頻特征圖,結合特定患者的EEG 數(shù)據(jù)無監(jiān)督訓練WGAN-GP模型,目的是生成高性能的特征提取器;(2)分類(預測)器模型訓練。將經(jīng)過訓練WGAN-GP的判別器作為特征提取器,以基于Bi-LSTM構建分類網(wǎng)絡,用少量帶標記的EEG信號ST時頻圖訓練分類器模型。
圖2 本文提出的ST-WGAN-GP-Bi-LSTM算法框架Fig.2 Framework of the proposed ST-WGAN-GP-Bi-LSTM algorithm.
由于EEG信號具有非線性、非平穩(wěn)特性,通常采用時頻域分析方法獲取EEG信號特定時刻的精確頻率信息,如短時傅里葉變換(STFT),連續(xù)小波變換(CWT)和ST等[12,13]。由于STFT的窗函數(shù)一旦選定,其時間窗和頻率窗不能隨著時域和頻域的位移而改變。從信號時頻分析的有效性考慮,在低頻部分應采用比較窄的窗寬,而在高頻部分則應用比較寬的窗寬。CWT通過將數(shù)據(jù)分解成多個尺度,每個尺度代表信號的特定分辨率來克服STFT窗函數(shù)固定的問題。而CWT存在選擇最佳母小波困難、丟失數(shù)據(jù)的絕對相位以及具有冗余性的問題。
斯托克韋爾等[33]提出的ST變換是CWT和STFT的拓展。ST是一種有效的時頻分解方法,它在低頻出具有高頻率分辨率,在高頻處具有高時間分辨率,能在時域和頻域上精準定位癲癇發(fā)作時EEG信號的瞬態(tài)特征。因此,本研究采用ST對癲癇EEG信號進行時頻表示,將一維信號轉換二維時頻矩陣(時頻圖)。連續(xù)時序信號x(t)的ST表示為:
信號x(t)的CWT表示為:
其中d為f的倒數(shù)(d=1/f),ω(t,f)為高斯母小波,其定義為:
結合式(1)、(2)和(3),連續(xù)時序信號x(t)的ST表示為:
根據(jù)式(3),ST的窗寬取決于頻率f,即低頻時窗寬增大獲得高頻率分辨率,高頻時窗寬減小獲得高時間分辨率[34]。
無監(jiān)督特征學習通過對GAN的訓練完成。利用GAN的判別器作為癲癇EEG信號的高階特征提取器,關鍵在于網(wǎng)絡訓練,改善傳統(tǒng)GAN(包括DCGAN)訓練時出現(xiàn)梯度消失和迭代更新不穩(wěn)定的問題[30,35]。因此,本文采用WGAN-GP作為無監(jiān)督學習模型改善模型訓練的穩(wěn)定性。WGAN-GP 的關鍵優(yōu)勢在于采用Wasserstein距離(又稱EM距離)衡量生成分布與真實分布之間距離[36]。同時,在WGAN中加入梯度懲罰(GP)進一步改善網(wǎng)絡訓練時收斂緩慢問題。
1.2.1 WGAN-GP網(wǎng)絡結構 所采用WGAN-GP的生成器網(wǎng)絡結構設計(圖3),生成器從均勻分布U(-1,1)中隨機采樣形成1×100維的向量作為輸入,輸入層與8192維的全連接隱藏層相接,然后將其維度重塑維64×4×32。隱藏層后接三個深度反卷積層,卷積核大小為5×5,步長為2×2,卷積核個數(shù)分別為32,16,n=16為EEG數(shù)據(jù)的通道數(shù)。與卷積層的作用相反,反卷積層增加輸入的長和寬,減小輸入的深度直至在最后一層達到預期的輸出維度。因為生成數(shù)據(jù)和真實數(shù)據(jù)都將作為判別器的輸入,所以將生成器的輸出設為與真實ST時頻圖相同的維度。
圖3 無監(jiān)督特征學習模型(WGAN-GP)的網(wǎng)絡結構Fig.3 Architecture of the unsupervised feature learning models(WGAN-GP).A:Generator.B:Discriminator.
判別器由3個深度卷積層組成,卷積核大小為5×5,步長為2×2,卷積核個數(shù)分別為16,32和64。在網(wǎng)絡訓練期間,生成器生成與真實ST時頻圖盡可能相似的樣本,判別器通過調整其在3個深度卷積層的參數(shù),學習提取癲癇EEG信號中的關鍵特征,最終檢測判別生成數(shù)據(jù)與真實數(shù)據(jù)。
1.2.2 無監(jiān)督特征學習模型的損失函數(shù) 生成器的輸入為從均勻分布U(-1,1)采樣得到的隨即向量z,輸出為生成ST時頻圖;判別器的輸入為真實EEG數(shù)據(jù)的ST時頻圖和生成ST時頻圖,輸出為判別數(shù)據(jù)來源的概率值。此訓練過程不向網(wǎng)絡提供標簽(發(fā)作前或發(fā)作間期),采用無監(jiān)督學習策略通過最小化損失函數(shù)對網(wǎng)絡進行優(yōu)化。生成器的損失函數(shù)Gloss和判別器的損失函數(shù)Dloss分別定義為:
建立上述無監(jiān)督特征學習模型后,分類(預測)器模型需自適應地學習鑒別特征,將輸入數(shù)據(jù)分類到相應的類別(發(fā)作前期或發(fā)作間期),輸出預測概率值。由于大腦在某個時間點的活動與過去的信號數(shù)據(jù)相關,也可從未來的信號數(shù)據(jù)進行分析。為提高預測精度,分類(預測)器模型需具備分析高階時頻特征之間時序相關性的能力。
為了獲得癲癇EEG信號ST時頻圖兩個方向的相關性,本研究采用Bi-LSTM 作為后端分類(預測)器模型。這是因為Bi-LSTM不僅能學習標準LSTM中先前的上下文信息,還能學習未來的上下文信息[27,37-39]。Bi-LSTM將時間序列x0,…,xn輸入至兩個LSTM模塊,同時在兩個相反方向上進行網(wǎng)絡學習(圖4)。在前向傳播學習中,從無監(jiān)督特征學習器生成的特征向量從x0到xn依次輸入,后向傳播學習以相反的順序處理相同的數(shù)據(jù)。因此,使用Bi-LSTM作為分類器,提取ST時頻圖中重要的時間特征,結合無監(jiān)督特征學習器中提取的空間特征,旨在進一步提升預測精度。
圖4 分類(預測)器模型的網(wǎng)絡結構Fig.4 Architecture of the classifier(prediction)model.A:Feature extractor after unsupervised training.B:Back-end classifier.
1.3.1 分類(預測)器模型網(wǎng)絡結構 本研究將上述無監(jiān)督訓練后的WGAN-GP判別器的3個深度卷積層作為特征提取器,用于提取EEG信號的高階特征,與基于Bi-LSTM構建的分類網(wǎng)絡相連接,組成分類器(預測器)模型。圖4展示了分類器模型結構:分類網(wǎng)絡將特征提取器所提取的關鍵癲癇特征展平接一層全連接層,將展平的特征向量映射到32維以降低后端分類網(wǎng)絡的復雜度,再連接一層Bi-LSTM層提取ST時頻圖中蘊含的時間特征,最后連接兩個全連接層進一步提取特征,前者使用Sigmoid激活函數(shù),輸出大小為256;后者使用Soft-max激活函數(shù),輸出大小為2。
1.3.2 分類(預測)器模型的損失函數(shù) 分類器網(wǎng)絡以帶標簽的真實EEG數(shù)據(jù)的ST時頻圖作為輸入,輸出樣本的類別概率預測值,并采用有監(jiān)督學習策略通過最小化交叉熵函數(shù)對網(wǎng)絡進行優(yōu)化。所提分類器模型的損失函數(shù)表示為:
1.4.1 實驗數(shù)據(jù)集 CHB-MIT數(shù)據(jù)集為美國波士頓兒童和麻省理工的合作項目,總共包含24例患者經(jīng)專家標記的頭皮EEG數(shù)據(jù)[32]。本文提出的ST-WGAN-GPBi-LSTM模型致力于改善半監(jiān)督深度學習模型的預測性能,優(yōu)化無監(jiān)督特征提取效果?;诖四繕嗽O定輸入篩選標準:(1)發(fā)作事件前至少有30 min的可用數(shù)據(jù)。設定這一標準首先是為保證有足夠的發(fā)作前期訓練數(shù)據(jù)。其次是考慮到癲癇發(fā)作預測系統(tǒng)在實際臨床應用中,除準確預測即將到來的癲癇發(fā)作,還需留有足夠的時間進行臨床干預[40];(2)僅考慮癲癇發(fā)作次數(shù)少于10次/d的患者執(zhí)行預測任務。因為對平均每兩小時就有一次以上癲癇發(fā)作的患者執(zhí)行預測的意義不大,這類患者的病情已非常危急,需要醫(yī)護人員的實時看護或進行手術干預治療?;谇笆鰳藴?,本研究從CHB-MIT數(shù)據(jù)集中篩選出13例患者數(shù)據(jù)驗證提出的預測模型。
1.4.2 預處理 為了提高數(shù)據(jù)的有效性,摒棄不相關信息的通道,以及降低計算復雜度,采用自動通道選擇方法為每位患者選擇16個通道數(shù)據(jù)[41]。根據(jù)EEG信號具有非平穩(wěn)性以及臨床醫(yī)生逐秒標定癲癇EEG信號[1],本文首先滑動1s時間窗分段EEG信號,采樣率為256 Hz,且相鄰段間無重疊。由于癲癇EEG信號的頻率成分主要集中在0~30 Hz以內[13],本研究對每段EEG數(shù)據(jù)進行0~32 Hz范圍內的ST以獲得二維時頻矩陣,同時無需在ST之前去除60 Hz工頻干擾。
1.4.3 實驗設置與對比方法 本研究所提的改進的半監(jiān)督發(fā)作預測模型使用TensorFlow框架實現(xiàn)與測試,使用一個內存為32GB的NVIDIA GeForce GTX 3090圖像處理單元(GPU)進行訓練。所提的預測模型分兩步訓練:首先是無監(jiān)督特征模型訓練,將經(jīng)過無監(jiān)督訓練的特征學習器接分類網(wǎng)絡后組成分類(預測)器模型進行有監(jiān)督訓練。
無監(jiān)督特征學習模型訓練細節(jié):(1)對生成器進行兩次更新,設置早停監(jiān)視器跟蹤生成器和判別器的損失[28]。若連續(xù)Κ 個訓練批次的Dloss大于Gloss,停止WGAN-GP的訓練。本研究設置Κ=20;(2)設置生成器和判別器的初始學習率分別為5e-4和1e-3;(3)批處理參數(shù)為64,訓練次數(shù)(epoch)為10;(4)采用數(shù)據(jù)集平衡技術[22],避免發(fā)作間期的EEG數(shù)據(jù)通常遠多于發(fā)作前的EEG數(shù)據(jù)的情況,使兩種狀態(tài)的EEG數(shù)據(jù)達到平衡后,再訓練WGAN-GP模型;(5)此訓練過程不向網(wǎng)絡提供任何標簽(包括發(fā)作前或發(fā)作間期),因此網(wǎng)絡受無監(jiān)督癲癇發(fā)作訓練。
分類(預測)器模型訓練細節(jié):(1)固定高階特征學習的網(wǎng)絡參數(shù);(2)為訓練穩(wěn)定,加速收斂,在每層網(wǎng)絡加入批歸一化;(3)采用RMSP優(yōu)化器,設置初始學習率為1e-4;(4)為防止過擬合,最后兩層神經(jīng)網(wǎng)絡均使用0.3的dropout率;(5)訓練樣本數(shù)據(jù)集中發(fā)作前和發(fā)作間期25%的樣本作為驗證集,其余數(shù)據(jù)用于訓練網(wǎng)絡。
為驗證ST、WGAN-GP以及Bi-LSTM對整個半監(jiān)督發(fā)作預測模型的貢獻程度,本文首先從時頻圖的區(qū)分性,以及對無監(jiān)督特征學習效果的提升兩方面反映ST的效果優(yōu)于STFT,即對比STFT-DCGAN和ST-DCGAN的性能,具體實驗結果在2.1節(jié)呈現(xiàn)。其次從迭代訓練的穩(wěn)定性和生成時頻圖質量兩方面反映WGAN-GP作為無監(jiān)督特征學習模型的優(yōu)越性,即對比ST-DCGAN和ST-WGAN-GP 的性能,具體實驗結果在2.2 節(jié)呈現(xiàn)。接著在2.3節(jié)驗證使用Bi-LSTM作為后端分類器的效用。最后為進一步驗證ST-WGAN-GP-Bi-LSTM的預測性能,在2.4節(jié)與現(xiàn)有的預測方法進行比較。其中,基于CNN的有監(jiān)督預測模型(STFT-CNN)[22]將對癲癇EEG信號進行STFT后,采用基于CNN的特征提取模型,以帶標記的STFT時頻圖作為模型輸入,訓練生成高階特征提取器,再接兩層全連接網(wǎng)絡作為后端分類器。半監(jiān)督預測模型STFT-DCGAN為本文的主要對比方法。與本文提出的ST-WGAN-GP-Bi-LSTM 相同,STFT-CNN與STFT-DCGAN均為在CHB-MIT數(shù)據(jù)集上以相同的病例數(shù)據(jù)進行驗證。
1.4.4 評估標準(1)系統(tǒng)評估:為了評估癲癇發(fā)作預測算法的性能,研究者們定義了兩個重要的時間參數(shù):癲癇預測區(qū)間(SPH)和癲癇發(fā)作區(qū)間(SOP)。SOP指預測在此時間段內有癲癇發(fā)作,SPH指發(fā)出預測警報到SOP開始時間點之間的時期(圖5)。對于一次正確的癲癇預測,應該是在警報發(fā)出后的SPH范圍內,不出現(xiàn)癲癇發(fā)作,而在SOP范圍內出現(xiàn)癲癇發(fā)作,具體發(fā)作的時間點可以有所不同,除此之外的所有情況都是錯誤預測[42]??紤]實際臨床應用,SPH需較長以允許足夠的干預或預防措施,SOP不應太長以減輕患者的焦慮[43]。因此,本研究設置SPH為5 min,SOP為30 min;(2)評價指標:為了獲得穩(wěn)健的評估,每位受試者都遵循留一交叉驗證法。本實驗使用的評價指標包括AUC,靈敏度(Sensitivity)和特異性(Specificity)指標。AUC為受試者曲線下面積,用以衡量模型的分類能力。靈敏度和特異性分別表示發(fā)作前預測的正確率和發(fā)作間期的判斷能力。這些指標值均從每個患者留一交叉驗證期間的所有癲癇預測值計算得來。
圖5 SPH和SOP定義示意圖Fig.5 Schematic diagram of the definition of SPH and SOP.
其中,真陽性(TP)表示正確分類的發(fā)作前期,假陰性(FN)表示錯誤分類的發(fā)作間期,真陰性(N)表示正確分類的發(fā)作間期,假陽性(FP)表示錯誤分類的發(fā)作前期。
由于Truong等[28]使用STFT將每段28s的EEG信號轉換成由頻率-時間所組成的二維時頻矩陣,本文先對28s的EEG信號段分別做STFT和ST,再截取其中1s的EEG信號分別做STFT和ST。圖6A第一行從左至右依次為28s的發(fā)作期EEG信號及其對應的STFT和ST 時頻圖,第二行為其中1s EEG 信號及其對應的STFT和ST時頻圖,圖6B則為對應的發(fā)作間期EEG信號對應的時頻變換圖。從圖6AB可知,無論是28s還是1s的ST時頻圖相較于STFT能更好地呈現(xiàn)出EEG信號的時頻信息,進一步地,1s EEG信號的ST時頻圖相較于28s 能展示出更豐富的時頻細節(jié)。
其次,圖6C展示在相同的DCGAN模型下,比較EEG信號的STFT時頻圖和ST時頻圖分別對判別器和生成器的網(wǎng)絡訓練影響。從上至下,分別為ST-DCGAN和STFT-DCGAN的判別器和生成器訓練曲線。模型所用數(shù)據(jù)均來自9號病人。從圖6C可知,ST時頻圖用于網(wǎng)絡訓練,其判別器和生成器的損失函數(shù)的振蕩較小,梯度的總體變化趨勢更平緩。
圖6 不同時頻變換對比Fig.6 Comparisons of different time-frequency transform methods.A: Comparisons of ictal EEG segments.B: Comparisons of inter-ictal EEG segments.C:Convergence performance of discriminator and generator of STFT-DCGAN and ST-DCGAN.
從表1~3第3~4列數(shù)據(jù)比較可知:在DCGAN模型參數(shù)完全相同前提下,ST-DCGAN模型所獲得的AUC,靈敏度和特異性值在病人平均水平下分別高于STFTDCGAN模型的7.87%,4.75%和45.18%。
GANs訓練的穩(wěn)定性與其判別器和生成器的損失函數(shù)變化,以及相應梯度變化密切相關[30]。因此,對癲癇EEG信號進行ST預處理的前提下,比較DCGAN和WGAN-GP 生成器和判別器的網(wǎng)絡迭代訓練穩(wěn)定性。圖7分別展示使用20號病人(圖7A)和21號病人(圖7B)數(shù)據(jù)訓練DCGAN和WGAN-GP,對比所得判別器和生成器的損失函數(shù)收斂情況。由圖7可知,不管是生成器還是判別器,WGAN-GP的損失函數(shù)曲線震蕩幅度都遠小于DCGAN,其梯度總體變化趨勢相較于DCGAN同樣更加平緩。
圖7 DCGAN和WGAN-GP作為無監(jiān)督特征學習模型的收斂性能分析Fig.7 Convergence performance analysis of DCGAN and WGAN-GP as unsupervised feature learning models.A: Convergence performance analysis of discriminator(left)and generator(right)of ST-DCGAN and ST-WGAN-GP obtained from Patient 20.B: Convergence performance analysis of discriminator (left) and generator(right)of ST-DCGAN and ST-WGAN-GP obtained from Patient 21.
此外,GANs生成樣本的質量也是提現(xiàn)網(wǎng)絡穩(wěn)定的重要指標之一。圖8A和B分別使用20號病人和21號病人訓練DCGAN和WGAN-GP,比較迭代訓練5個epoch和迭代結束時生成的ST時頻圖。隨著訓練加深,無監(jiān)督特征學習模型生成的ST時頻圖質量都得到提升。其中,WGAN-GP 生成的ST 時頻圖更接近真實EEG信號的時頻圖,其生成圖含有明顯的特定頻率成分,且隨迭代次數(shù)增加,該頻率成分細節(jié)進一步增強。而DCGAN生成的時頻圖傾向于無序的噪聲分布,與真實時頻圖存在一定的差距。這進一步驗證WGAN-GP具有良好的無監(jiān)督特征學習能力。
圖8 DCGAN和WGAN-GP的生成時頻圖Fig.8 Generated time-frequency spectra of DCGAN and WGAN-GP.A:Generated time-frequency spectra obtained from Patient 20.B:Generated time-frequency spectra obtained from Patient 21.
從表1~3第4~5列數(shù)據(jù)比較可知:在相同的ST預處理下,采用WGAN-GP所得AUC,靈敏度和特異性在病人平均水平下分別優(yōu)于DCGAN的5.14%,6.34%和3.39%。
從表1~3第5~6列數(shù)據(jù)比較可知:在相同的ST預處理,WGAN-GP作為無監(jiān)督特征學習模型且模型參數(shù)完全相同的情況下,后端分類器采用Bi-LSTM 所得AUC,靈敏度和特異性分別優(yōu)于采用全連接層的4.72%,4.32%和5.09%。
表1 CHB-MIT數(shù)據(jù)集在不同預處理方式或無監(jiān)督特征學習模型下的癲癇發(fā)作預測性能AUC值(%)對比Tab.1 Comparison of AUC (%) of epileptic seizure prediction performance of CHB-MIT dataset obtained by different preprocessing methods or unsupervised feature learning models
表2 CHB-MIT數(shù)據(jù)集在不同預處理方式或無監(jiān)督特征學習模型下的癲癇發(fā)作預測性能靈敏度值(%)對比Tab.2 Comparison of sensitivity(%)of epileptic seizure prediction performance of CHB-MIT dataset obtained by different preprocessing methods or unsupervised feature learning models
表3 CHB-MIT數(shù)據(jù)集在不同預處理方式或無監(jiān)督特征學習模型下的癲癇發(fā)作預測性能特異性值(%)對比Tab.3 Comparison of specificity(%)of epileptic seizure prediction performance of CHB-MIT dataset obtained by different preprocessing methods or unsupervised feature learning models
表4是本文提出的方法與其他文獻提出的癲癇發(fā)作預測方法的性能對比結果。在使用CHB-MIT數(shù)據(jù)集中相同的病例數(shù)據(jù)的情況下,本文提出的方法在AUC、靈敏度和特異性指標上均優(yōu)于已有的半監(jiān)督預測模型STFT-DCGAN,且每個指標的極差都低于STFT-DCGAN(由表1~3第2與6列的最后一行Range比較可知),并與有監(jiān)督預測模型STFT-CNN性能持平。
表4 本研究與現(xiàn)有方法的比較Tab.4 Comparison of the performance of the algorithm in this study with extant literature
本文提出一種改進的半監(jiān)督癲癇發(fā)作預測模型:ST-WGAN-GP-Bi-LSTM。對為標記的EEG信號進行ST獲得時頻圖作為WGAN-GP模型的輸入,WGANGP在迭代訓練中學習如何從時頻圖中獲取可用于癲癇發(fā)作預測任務的特征,生成高階特征提取器。經(jīng)過無監(jiān)督訓練的特征提取器(WGAN-GP的判別器)與基于Bi-LSTM的后端分類網(wǎng)絡相接,用少量帶標記的EEG信號ST時頻圖訓練分類(預測)器模型。WGAN-GP的判別器與強勁的后端分類網(wǎng)絡組成半監(jiān)督深度學習癲癇發(fā)作預測模型。
針對癲癇發(fā)作預測問題,良好的輸入數(shù)據(jù)有益于后續(xù)的無監(jiān)督特征學習和預測模型的訓練。圖6表明ST無疑比STFT更能捕捉到EEG信號中細致的頻率成分,ST后的數(shù)據(jù)之間更具區(qū)分性,從而提升了預測性能。從表1~3第3~4列定量評估結果可知,STFT-DCGAN在病例數(shù)據(jù)上所得特異性普遍較低,平均水平僅33.03%,這說明該模型易將發(fā)作間期樣本數(shù)據(jù)檢測為發(fā)作前期,若將此模型應用于實際臨床中會出現(xiàn)大量誤報情況,造成醫(yī)療資源浪費,以及增加患者的心理負擔。本文提出由ST替代STFT,極大地提升了模型的特異性(ST-DCGAN的特異性為78.21%),凸顯ST作為預處理方式的優(yōu)越性。
實驗證明利用Wasserstein距離與梯度懲罰能夠進一步改善無監(jiān)督特征學習模型的穩(wěn)定性,提高時頻圖生成質量。圖7和圖8分別從訓練模型的收斂性能和生成時頻圖質量兩方面定性說明WGAN-GP的優(yōu)勢。從表1~3 第4~5 列定量評估結果可進一步說明,采用DCGAN作為無監(jiān)督特征學習模型,常出現(xiàn)某項評價指標非常低的情況,例如ST-DCGAN中2號病人的靈敏度僅3.94%,3號病人的特異性僅38.31%等。這意味著DCGAN在學習過程中對其中一類數(shù)據(jù)有傾向性,是模型不穩(wěn)定的表現(xiàn)之一,如前述此種模型對實際臨床應用的意義不大。采用WGAN-GP 能夠有效改善這種情況,即ST-WGAN-GP在病人數(shù)據(jù)驗證所得各項評估指標較均衡,同時相比ST-DCGAN,各項指標得到進一步提升。相對于經(jīng)典人工特征設計而言,這種無監(jiān)督學習的深度特征不僅在概念表達方面具有較強的魯棒性和較復雜的抽象性,還很大程度地減輕了繁重且復雜的EEG信號標記工作的負擔。
由2.2節(jié)可知,結合ST和WGAN-GP執(zhí)行發(fā)作預測任務,已較大地提升預測性能。雖然基于CNN的高階特征提取器能夠充分挖掘癲癇EEG信號的關鍵空間信息,但不能高效地提取時序信息,而多通道EEG信號不僅包含各通道之間的空間信息,還具備單通道內的時間屬性,這意味著癲癇EEG信號間的時序相關性對預測任務具有重要意義。因此,本研究采用能夠同時提取過去時刻和未來時刻信息的Bi-LSTM作為后端分類網(wǎng)絡,進一步提升了預測性能。
本文提出的ST-WGAN-GP-Bi-LSTM 模型在CHB-MIT數(shù)據(jù)集上驗證,得到病人平均水平下的AUC為90.40%,靈敏度為83.62%和特異性為86.69%。表4是本文提出的方法與其他文獻提出的癲癇發(fā)作預測方法的性能對比。Hosseini等[25]無監(jiān)督訓練堆疊自編碼器(SAE)后作為高階特征提取器。雖然該方法首次采用無監(jiān)督特征提取技術,但由于同時使用傳統(tǒng)特征提取方法提取EEG信號的時頻域特征,因此無法得知SAE所提取的高階特征對最終預測性能的貢獻程度。Daoud 等[27]將無監(jiān)督訓練后的深度卷積自編碼器(DCAE)作為特征提取器,從原始EEG信號中提取空域特征,采用Bi-LSTM 進行后端分類預測。相較于Hosseini等人的工作,該算法只使用無監(jiān)督特征學習技術獲取抽象高階特征,在發(fā)作預測任務上表現(xiàn)極佳。然而從技術角度而言,該方法在無監(jiān)督訓練DCAE后并未固定網(wǎng)絡層,與后端Bi-LSTM相接后再次有監(jiān)督訓練,因此該方法并非半監(jiān)督癲癇發(fā)作預測模型,這也是該方法獲得如此優(yōu)越表現(xiàn)的重要原因。其次從臨床應用角度而言,該方法沒有定義SPH,且預測時間長達1 h,臨床上應用該模型會造成無干預時間,病人心理負擔過重等問題。Troung等[28]采用STFT對EEG信號時頻變換,將獲得的STFT時頻圖輸入DCGAN無監(jiān)督訓練后生成高階特征提取器,該特征提取器與兩層全連接網(wǎng)絡網(wǎng)絡連接,組成深度學習半監(jiān)督癲癇發(fā)作預測模型,即STFT-DCGAN。該方法僅使用無監(jiān)督學習技術獲取特征,并且首次將GAN應用于癲癇發(fā)作預測。但是,在STFT-DCGAN模型中,一是STFT中窗口的有限寬度導致時域和頻域的分辨率恒定,因而無法在低頻提供適當?shù)念l率分辨率和在高頻提供良好的時間分辨率。二是DCGAN 模型訓練時存在梯度消失和不穩(wěn)定的問題[29,30]。三是后端分類器——兩層全連接網(wǎng)絡對于時頻特征的分析學習能力不足,這是造成預測精度仍有待提升的另一重要原因[31]。本文的方法針對STFTDCGAN的不足之處逐一改進,由表4可知,綜合各項性能指標,ST-WGAN-GP-Bi-LSTM半監(jiān)督模型對于癲癇發(fā)作預測任務,性能不僅優(yōu)于STFT-DCGAN,甚至超越基于CNN的有監(jiān)督預測模型[22]。
本研究也存在一定的局限性與不足之處。首先,盡管本文致力于將ST-WGAN-GP-Bi-LSTM與現(xiàn)有的半監(jiān)督方法STFT-DCGAN,在共同的數(shù)據(jù)集以同樣的病例數(shù)據(jù)進行性能對比,突出ST-WGAN-GP-Bi-LSTM的創(chuàng)新之處與性能優(yōu)勢,但未來若能在更多的病例數(shù)據(jù),乃至臨床數(shù)據(jù)上進行驗證,所提方法的有效性和泛化性將得到進一步認可。其次,本研究對EEG信號采用1秒時間窗進行無重疊分段,未能探討窗寬和步長這兩個重要參數(shù)對預測性能的影響。從以往的研究中總結的規(guī)律表明:窗寬越大且步長越大,樣本量就越少,可以大大降低預測模型的計算量,保證預測的實時性,但可能會降低預測性能;反之窗寬越小且步長越小,樣本量就越多,能有效提升預測性能,但對計算設備性能要求更高,數(shù)據(jù)處理耗時更長。因此,將在下一步工作中進一步探索如何權衡這兩者之間的關系以更好地提升預測模型性能。