付佳俊,盧梅麗,曹一凡,郭兆樺,高資成
(天津職業(yè)技術師范大學信息技術工程學院,天津 300222)
大腦是人類最復雜的器官之一,控制著人類的高級情感和復雜行為。如今人們對大腦的認知仍十分有限,相關學者一直試圖解開大腦工作原理之謎。大腦會根據(jù)人執(zhí)行任務的差異而產(chǎn)生不同的反應,任務態(tài)功能磁共振成像(task functional magnetic resonance imaging,t-fMRI)是一種通過測量血液動力學間接刻畫大腦神經(jīng)活動的影像數(shù)據(jù),現(xiàn)已成為使用最廣泛的腦功能研究手段之一。其獲取方式為先對信號去噪[1],再使用多層同時掃描技術[2]快速采集功能磁共振全腦影像。功能磁共振成像能對特定的大腦活動皮層區(qū)域進行精準定位,且能實時跟蹤信號的改變,其空間分辨率和時間分辨率分別可以達到2 mm和1 s。多年來,研究人員一直試圖通過功能磁共振成像解碼識別人腦功能。其中,多體素模式分析(multi-voxel pattern analysis,MVPA)[3]是最常用的方法之一。MVPA的核心原理是在不同認知狀態(tài)下,利用獨立的實驗數(shù)據(jù)測試由多個體素信號形成的空間模式訓練分類器的性能。盡管MVPA很受歡迎,但需要人為選取特征,可重復性差且耗時。
隨著深度學習的發(fā)展,越來越多基于深度學習的方法被運用于影像數(shù)據(jù)分析。Dvornek等[4]使用基于Long Short-Term Memory的遞歸神經(jīng)網(wǎng)絡,通過靜態(tài)fMRI對ASD患者對照和進行分類。Eickenberg等[5]利用基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的模型,通過fMRI信號對觀看自然風景的大腦進行預測。Seeliger等[6]根據(jù)生成對抗網(wǎng)絡,借助fMRI信號來重構(gòu)視覺圖像。Wen等[7]使用深度殘差神經(jīng)網(wǎng)絡模擬視覺皮層處理,提供了一種高效策略,以建立高維和分層視覺特征的皮質(zhì)表征預測模型。Zhao等[8]基于三維卷積,開發(fā)了一種用以識別和分類不同類型的功能性腦網(wǎng)絡。Khosla等[9]使用一種三維卷積神經(jīng)網(wǎng)絡方法實現(xiàn)集成學習策略,該方法利用了rs-fMRI數(shù)據(jù)的全分辨率三維空間結(jié)構(gòu),并適合非線性預測模型。與傳統(tǒng)機器學習方法不同,深度學習可以自動提取數(shù)據(jù)的特征,以達到自動分類的目的。卷積神經(jīng)網(wǎng)絡作為當下使用最多的方法之一,越來越多的人將其運用于fMRI分類中。深度學習通過多層網(wǎng)絡的非線性變換自動提取數(shù)據(jù)中的隱含特征,但是由于缺乏對其內(nèi)部工作機理的理解與分析,通常被看作“黑盒”模型,導致用戶只能觀察模型的預測或分類結(jié)果,而不能了解模型產(chǎn)生決策的依據(jù)。尤其在醫(yī)療數(shù)據(jù)的應用場景中,僅向用戶提供最終的預測結(jié)果而不解釋其原因,很難讓用戶信任和理解該模型。因此,對模型分類結(jié)果進行可解釋性分析至關重要[10-13]。
鑒于fMRI數(shù)據(jù)的高維特性,本文采用三維卷積神經(jīng)網(wǎng)絡模型(3D-CNN)[14]對其進行分類,并與支持向量機(support vector machine,SVM)在不同評價指標下進行比較。同時,通過梯度加權(quán)類激活映射方法(Grad-CAM)[15]和導向梯度加權(quán)類激活映射方法(Guided Grad-CAM)對3D-CNN進行可解釋性分析,以可視化的方式定位得到輸入樣本中影響3D-CNN決策的關鍵因素,以確定特定任務下所激活的功能腦區(qū)。
在CNN被廣泛使用之前,大多圖片分類實驗使用全連接神經(jīng)網(wǎng)絡。全連接神經(jīng)網(wǎng)絡雖然在最終的分類結(jié)果上表現(xiàn)較好,但是也存在以下缺點:圖像展開為向量,丟失空間信息;參數(shù)過多,效率低下,訓練困難;大量的參數(shù)易導致網(wǎng)絡過擬合。CNN的提出恰好解決了以上問題。卷積操作能很好地提取數(shù)據(jù)的相鄰空間信息,避免數(shù)據(jù)的像素展開成向量后造成的空間信息損失。相比二維卷積,三維卷積增加了空間維度,其輸入數(shù)據(jù)和卷積核均為三維,表示為(P,Q,R),卷積操作如圖1所示。
圖1 三維卷積操作示意圖
對于功能磁共振數(shù)據(jù),三維卷積能有效提取其空間特征。三維卷積操作如下
式中:vxyzij表示網(wǎng)絡第i層通道為j位于(x,y,z)的值;bij為偏置;wpqrijm表示通道為m的卷積核位于(p,q,r)的值。
本研究基于三維卷積方法,構(gòu)建了一種用于識別任務態(tài)功能磁共振成像的三維卷積神經(jīng)網(wǎng)絡(3DCNN)。該神經(jīng)網(wǎng)絡結(jié)構(gòu)是由輸入層、卷積層、池化層、激活函數(shù)層以及全連接層拼接而成。卷積層由多層三維卷積構(gòu)成,是網(wǎng)絡的核心層,網(wǎng)絡中大部分的計算量都來源于此層。池化層對數(shù)據(jù)進行下采樣,從而減少網(wǎng)絡參數(shù)量。激活函數(shù)層為網(wǎng)絡增加了非線性因子,非線性激活函數(shù)能夠在輸入、輸出之間生成非線性映射。全連接層則是為了融合前面提取的特征,最后在輸出層對數(shù)據(jù)類別進行預測。3D-CNN網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 3D-CNN網(wǎng)絡結(jié)構(gòu)
3D-CNN網(wǎng)絡由5層卷積層和3層全連接層組成。輸入的原始數(shù)據(jù)通道大小為1。其中,第1層卷積層的輸入大小為53×63×46,輸出通道大小為3,卷積核的大小為1×1×1。卷積核設置為1×1×1,目的是將圖片通道變?yōu)?,以便后續(xù)可使用Guided Grad-CAM進行可視化。整個網(wǎng)絡的池化層大小為2×2×2,全連接層的長度分別是64、32,最后是一個四分類的全連接層,分別對應LH、RH、AD、VS。損失函數(shù)選擇交叉熵損失函數(shù),其在做分類(具體幾類)訓練時用。優(yōu)化器被用來更新和計算影響模型訓練和模型輸出的網(wǎng)絡參數(shù),使其逼近或達到最優(yōu)值,從而最小化損失函數(shù)E(x)。常用的優(yōu)化器有Adam、SGD、RMSprop等,本研究選用SGD優(yōu)化器。訓練時網(wǎng)絡的學習率設置為0.001,動量參數(shù)設置為0.9,權(quán)重衰減為0.000 5,batch大小為64。
支持向量機是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學習模型與相關的學習算法。在深度學習被廣泛運用之前,SVM是監(jiān)督學習中最具影響力的算法之一。該算法的核心思想是找出最大的決策邊界,從而達到能最大程度分類數(shù)據(jù)的目的。SVM最初主要是用來解決二分類問題,在這個基礎上進行擴展后,也能夠處理多分類問題以及回歸問題。具體實驗步驟如下:
(1)對fMRI數(shù)據(jù)進行預處理,為提高輸入特征的有效度,將所有數(shù)據(jù)去除背景(設為0)并僅保留大腦體素。去除背景前后的數(shù)據(jù)(Axial方向的切片)對比如圖3所示。
圖3 預處理前與預處理后的t-fMRI數(shù)據(jù)對比
(2)將之前的三維數(shù)據(jù)(X,Y,Z)轉(zhuǎn)換為(X*Y*Z)。由于功能磁共振成像數(shù)據(jù)的復雜性,并不是每一個特征值都能很好地體現(xiàn)區(qū)分度,故某些特征值不存在分析的價值。將轉(zhuǎn)換后的數(shù)據(jù)表示為X=(X0,X1,…,Xn-1)m×n,其中,Xj=[x0j,x1j,…,x(m-1)j]T。通過設置方差閾值去除不必要的特征,以提取關鍵的大腦區(qū)域。計算式為
2016年,倦怠發(fā)生比例最高的是重癥醫(yī)學(55%)、泌尿醫(yī)學(55%)和急診醫(yī)學(55%);2017年,倦怠比例發(fā)生最高的是急診醫(yī)學(59%)、婦科醫(yī)學(56%)和家庭醫(yī)學(55%);2018年倦怠發(fā)生比例最高的是重癥醫(yī)學(48%)、神經(jīng)醫(yī)學(48%)和家庭醫(yī)學(47%)。見表1。
(3)使用LinearSVC對數(shù)據(jù)進行分類。LinearSVC是根據(jù)liblinear實現(xiàn)的線性分類支持向量機,既能實現(xiàn)二分類,也能實現(xiàn)多分類。
1.4 腦激活定位
執(zhí)行不同任務時會激活對應的腦區(qū),為了探索這種相關性,借助分類結(jié)果,采用可視化的方式對其進行定位。相關實驗表明,CNN的卷積層能提取輸入數(shù)據(jù)的空間位置信息,因此卷積層具有定位的能力。基于此能力,可以獲取圖像中影響CNN決策的關鍵因素。但是為了整合卷積層所提取的特征,CNN網(wǎng)絡使用了全連接層,這樣破壞了CNN的定位能力。為了解決這個問題,Zhou等[16]提出了類激活映射(class activation mapping,CAM)解釋方法。CAM以熱力圖的形式可視化類激活圖,即使用全局平均池化(global average pooling,GAP)替代CNN最后的全連接層。CAM雖然能減少CNN的訓練參數(shù),但是造成了網(wǎng)絡結(jié)構(gòu)的改變,所以需要重新訓練網(wǎng)絡,這無疑是很耗時的一項工作。因此,本文采用效率更高的Grad-CAM方法,Grad-CAM是CAM的一種泛化形式,該算法不需要對網(wǎng)絡重新訓練。Grad-CAM的計算為
式中:c為網(wǎng)絡判別的類別;yc為該類別對應的logits(即沒經(jīng)過Softmax的值);A為卷積輸出的特征圖(最后一層卷積);k為特征圖的第k通道;i、j分別為特征圖的橫、縱坐標;Z為特征圖的大?。撮L×寬)。
這一過程是求特征圖上梯度的均值,相當于一個全局平均池化操作。
得到權(quán)重后將特征圖在通道維度上進行線性加權(quán),融合得到熱力圖,如式(6)。Grad-CAM對融合后的熱力圖增加一個ReLU操作,只保留與結(jié)果呈正相關的值。
一般來說,Grad-CAM在2D數(shù)據(jù)上會有更好的表現(xiàn)。因此,從3D數(shù)據(jù)fMRI中提取Axial方向的2D切片,再把提取出來的切片作為Grad-CAM的輸入。
Grad-CAM是一種以粗粒度的方式對影響CNN決策的關鍵因素進行可視化的方法,缺少了如GuidedBP[17]這樣像素級別的細粒度可視化效果。因此,本文繼續(xù)采用Guided Grad-CAM,對CNN網(wǎng)絡進行細粒度的可視化解釋,Guided Grad-CAM由Grad-CAM與GuidedBP結(jié)合而成。在GuidedBP中,舍棄第一層卷積層,直接獲取第二層卷積層的梯度。
本實驗硬件環(huán)境基于Windows平臺,配置為11 th Gen Intel Core i7-11800H,NVIDIA GeForce RTX 3070顯卡。實驗代碼均使用Python編程語言。
為了更好地對比3D-CNN與SVM的性能,采用4個常用的評價指標:準確率(Accuracy,ACC)、精確率(Precision)、召回率(Recall)以及F1-score。表1展示了4種任務態(tài)在不同模型中各個評價指標的情況。
表1 SVM和3D-CNN模型在不同評價指標上的表現(xiàn)
從表1可知,3D-CNN在各個指標上的數(shù)據(jù)都優(yōu)于SVM,產(chǎn)生這種現(xiàn)象很大程度上是由于三維fMRI數(shù)據(jù)在轉(zhuǎn)換為一維數(shù)據(jù)過程中丟失了信息。而3DCNN的輸入是原始數(shù)據(jù),因此很好地保留了數(shù)據(jù)的空間特征。
圖4為3D-CNN模型在訓練時的損失曲線,從圖4可以看出,模型在40次迭代后已基本趨于收斂。
圖4 3D-CNN訓練時的損失曲線
可視化結(jié)果如圖5所示。
圖5 Grad-CAM和Guided Grad-CAM在4種不同t-fMRI上的可視化結(jié)果
從4種不同t-fMRI中分別選出3幅在Axial方向的圖像。在每張圖中,第1列為原始圖像,第2列為Grad-CAM中的熱力圖,第3列和第4列分別為Grad-CAM和Guided Grad-CAM的可視化結(jié)果。相關研究表明,當人使用左(右)手時,右(左)腦會產(chǎn)生反應。大腦中負責聽覺處理的主要部位是顳橫回,距狀溝則負責視覺處理。其中,顳橫回位于大腦外側(cè)溝下壁上,距狀溝位于腦半球內(nèi)側(cè)面后部。對比圖5發(fā)現(xiàn),其可視化結(jié)果與實際研究相符,即左(右)手握緊激活右(左)腦區(qū),聽覺刺激激活大腦中央,視覺刺激激活大腦后部。
本文提出的3D-CNN模型能很好地對任務態(tài)fMRI進行分類,與傳統(tǒng)機器學習算法SVM相比,3DCNN具有更好的分類效果,其能直接對t-fMRI進行分類,無需人為特征提取,并且避免了高維數(shù)據(jù)轉(zhuǎn)換為一維數(shù)據(jù)時造成的空間信息丟失。通過采用Grad-CAM和Guided Grad-CAM對3D-CNN進行可解釋性研究,確定了不同任務狀態(tài)下所激活的大腦區(qū)域,從而達到通過t-fMRI解碼大腦活動狀態(tài)的目的。