石 磊,彭少康,張亞萌,趙國(guó)樺,高宇飛
(1.鄭州大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,鄭州 450002;2.嵩山實(shí)驗(yàn)室,鄭州 450052;3.河南省人民醫(yī)院病理科,鄭州 450003;4.鄭州大學(xué)第一附屬醫(yī)院磁共振科,鄭州 450003)
阿爾茨海默癥(Alzheimer’s disease,AD)高發(fā)于65 歲以上的老年人群中,是一種慢性進(jìn)行性疾?。?]。研究表明,AD 患者最早在出現(xiàn)癥狀的20 年以前腦部結(jié)構(gòu)已開(kāi)始產(chǎn)生變化[2]?;疾〕跗诘哪X部變化并不會(huì)被患者察覺(jué)到,經(jīng)過(guò)多年的大腦病變以后,個(gè)體才會(huì)產(chǎn)生明顯的癥狀,比如記憶喪失和語(yǔ)言障礙。AD 會(huì)破壞患者大腦中與認(rèn)知功能有關(guān)的部分神經(jīng)元細(xì)胞,從而影響患者的記憶力和思維能力,導(dǎo)致患者逐漸喪失認(rèn)知功能和行動(dòng)能力[3]。2020 年我國(guó)第七次全國(guó)人口普查結(jié)果顯示,全國(guó)60 歲及以上人口為264 018 766 人,占全國(guó)人口的18.70%,其中65 歲以上人群有190 635 280 人,占13.50%[4]。人口的老齡化程度進(jìn)一步加重,AD 發(fā)病人數(shù)持續(xù)增加,已經(jīng)成為嚴(yán)重危害我國(guó)人群健康的重大疾病[5]。輕度認(rèn)知障礙(Mild cognitive impairment,MCI)是從正常認(rèn)知發(fā)展為癡呆的中間階段[6],是一個(gè)重要的可接受早期干預(yù)的時(shí)期。研究表明,MCI 患者每年約有10%~15%的概率轉(zhuǎn)化為AD[7]。如果能夠在MCI 階段中進(jìn)行干預(yù),有可能減少或防止患者腦細(xì)胞的進(jìn)一步損傷[8],避免MCI 進(jìn)一步發(fā)展為AD,從而降低AD 的死亡率。
核磁共振成像(Magnetic resonance imaging,MRI)作為一種高空間分辨率的醫(yī)學(xué)成像技術(shù),不會(huì)產(chǎn)生對(duì)人體有害的輻射,目前被廣泛地應(yīng)用于AD 的輔助診斷上[9]。深度學(xué)習(xí)(Deep learning)方法最近在神經(jīng)退行性疾病、骨科疾病和癌癥等醫(yī)學(xué)影像分析中得到了廣泛的應(yīng)用。它能夠?qū)W習(xí)影像數(shù)據(jù)中復(fù)雜的特征表示,自動(dòng)提取有效的特征[10],與傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)相比減少了人工特征提取的操作,提高了診斷效率。利用深度學(xué)習(xí)方法對(duì)MRI 分析可以進(jìn)行AD 的早期檢測(cè),可以提升醫(yī)生的診斷效率和準(zhǔn)確率[11],幫助醫(yī)生及時(shí)制定早期干預(yù)方案,從而抑制患者腦中疾病的蔓延[12]。深度學(xué)習(xí)通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)從數(shù)據(jù)樣本中提取出的不同層次的特征[13],與人工特征工程方法相比,可以通過(guò)大量數(shù)據(jù)對(duì)模型進(jìn)行迭代優(yōu)化[14]。當(dāng)對(duì)圖像進(jìn)行特征提取時(shí),低級(jí)特征用來(lái)描述圖像中的邊緣和輪廓,而高級(jí)特征蘊(yùn)含圖像的語(yǔ)義信息[15]。
目前主流應(yīng)用于MRI 的深度學(xué)習(xí)方法多基于單一尺度,很難捕捉到相鄰病程階段MRI 的細(xì)微差別。本文重點(diǎn)關(guān)注多尺度MRI 特征提取方法,嘗試解決不能有效捕捉AD 早期腦部MRI 變化的問(wèn)題。因此,本文提出特征增強(qiáng)金字塔網(wǎng)絡(luò)(Feature enhanced pyramid network,F(xiàn)EPN)方法,通過(guò)淺層特征重提取和計(jì)算融合權(quán)重來(lái)增強(qiáng)特征融合時(shí)的上下文信息匹配度,從而提升模型分類(lèi)的準(zhǔn)確率。
深度學(xué)習(xí)能夠從大量的訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,所以越來(lái)越廣泛地被用于AD 的診斷[16]。Ghazal 等[17]提出了基于遷移學(xué)習(xí)的改進(jìn)AlexNet 模型,將在ImageNet 預(yù)訓(xùn)練后的模型遷移至AD 分類(lèi)數(shù)據(jù)集,即非癡呆(Non-demented,ND)、非常輕度癡呆(Very mild demented,VMD)、輕度癡呆(Mild demented,MD)和中度癡呆(Moderate demented,MOD)數(shù)據(jù)集,并且在四分類(lèi)任務(wù)中獲得了91.7%的準(zhǔn)確率;Islam 等[18]設(shè)計(jì)了一個(gè)基于Inception V4 的神經(jīng)網(wǎng)絡(luò),并將SoftMax 層重新編排為4 個(gè)分類(lèi)(ND、VMD、MD、MOD),在Oasis 數(shù)據(jù)集上取得了73.75%的準(zhǔn)確率;Farooq 等[19]采用Resnet152 提取出AD 各階段分類(lèi)的特征表示,在ADNI 數(shù)據(jù)上采用4 路二分類(lèi)器對(duì)AD、MCI、LMCI 和CN 進(jìn)行分類(lèi),達(dá)到了98.1%的預(yù)測(cè)精度;李彩等[20]將腦部sMRI 用于預(yù)測(cè)分類(lèi),并引入年齡、性別、受教育年限和MMSE 量表評(píng)分來(lái)優(yōu)化模型,提升了0.89%到11.42%的預(yù)測(cè)準(zhǔn)確率;Zaabi 等[21]利用基于vgg16 訓(xùn)練的遷移網(wǎng)絡(luò),在4 個(gè)階段(CN、AD、MCI、LMCI)對(duì)AD 進(jìn)行多分類(lèi),取得的分類(lèi)準(zhǔn)確率為95.31%;Odusami 等[22]通過(guò)對(duì)ResNet18 進(jìn)行微調(diào),設(shè)計(jì)出能夠處理7 個(gè)二分類(lèi)任務(wù)的網(wǎng)絡(luò),并通過(guò)正則化微調(diào),減少了過(guò)擬合并提高了分類(lèi)精度。由此可見(jiàn),深度學(xué)習(xí)算法在AD 的病程分類(lèi)和預(yù)測(cè)方面已經(jīng)取得了良好的效果。以上研究均采用單一尺度的特征提取方法,在AD 的多病程分類(lèi)任務(wù)中仍存在難以捕捉不同病程MRI 之間細(xì)小差距的問(wèn)題。Ge 等[23]提出一種三維多尺度卷積網(wǎng)絡(luò),提取出不同尺度的特征融合后進(jìn)行特征增強(qiáng),然后通過(guò)全連接層進(jìn)行二分類(lèi)(AD、NC),在ADNI 數(shù)據(jù)集上可獲得較高的分類(lèi)準(zhǔn)確率。
特征金字塔網(wǎng)絡(luò)(Feature pyramid network,F(xiàn)PN)[24]被廣泛用于目標(biāo)檢測(cè)領(lǐng)域,可以提取多尺度的特征信息用于分類(lèi)和檢測(cè)任務(wù)。FPN 由自底向上的降采樣、自頂向下的上采樣和橫向連接組成,如圖1所示。自底向上的路徑由主干CNN 組成,從分辨率最高但語(yǔ)義最少的輸入圖像開(kāi)始,逐步進(jìn)行降采樣(Down sampling),在金字塔頂端產(chǎn)生語(yǔ)義最多但分辨率最低的特征圖C5。自頂向下的路徑從P5開(kāi)始,將自頂向下的路徑與自底向上的路徑連接起來(lái),逐步通過(guò)上采樣(Up sampling)和橫向連接將特征融合來(lái)豐富傳遞的信息,將語(yǔ)義信息從高層次傳播到低層次來(lái)構(gòu)建多尺度特征,使得低層特征也具有豐富的語(yǔ)義信息,進(jìn)而提高特征提取器的性能[25]。自頂向下路徑生成的特征圖同時(shí)具有豐富的語(yǔ)義信息和高分辨率,可以更好地用于目標(biāo)檢測(cè)和圖像分類(lèi)[26]。
圖1 特征金字塔網(wǎng)絡(luò)Fig.1 Feature pyramid network
然而,由自底向上生成的最高層C5生成自頂向下的最高層P5時(shí),C5僅通過(guò)1×1 卷積進(jìn)行通道數(shù)減少便得到P5,僅包含當(dāng)前尺度的特征信息,缺乏了上下文信息。同時(shí),在將自頂向下路徑中上采樣產(chǎn)生的特征圖和自底向上降采樣產(chǎn)生的特征圖進(jìn)行融合時(shí),F(xiàn)PN 采用了簡(jiǎn)單的加法融合方法,對(duì)于來(lái)自不同層次的特征,兩個(gè)層次上的特征存在一定程度的差異,且不同的輸入特征對(duì)特征金字塔的貢獻(xiàn)不同[27],直接通過(guò)加法融合會(huì)破壞兩個(gè)層次上的特征表示[28]。
目前在FPN 中自頂向下的初始層P5直接由自底向上生成的最高層C5通過(guò)1×1 卷積降低通道數(shù)得到,只包含單尺度的上下文信息,使得高層特征的語(yǔ)義缺失,影響高層特征的特征表達(dá),阻礙了FPN更全面地學(xué)習(xí)到多尺度的特征;而且在自頂向下階段,來(lái)自高層的特征與來(lái)自底層的特征通過(guò)簡(jiǎn)單加法進(jìn)行融合,破壞了高層和低層特征的細(xì)節(jié)表示和上下文信息。本文提出FEPN,通過(guò)淺層特征重提?。⊿hallow feature re-extraction,SFE)和計(jì)算融合權(quán)重(Fusion weight,F(xiàn)W)來(lái)增強(qiáng)上下文信息交互并提升特征融合的匹配度,如圖2 所示。
圖2 特征增強(qiáng)金字塔網(wǎng)絡(luò)Fig.2 Feature enhanced pyramid network
針對(duì)C5層到P5層尺度單一、缺乏上下文信息的問(wèn)題,引入SFE 對(duì)C5進(jìn)行尺度擴(kuò)充,使其包含多尺度的上下文信息,來(lái)解決該層尺度單一的問(wèn)題。SFE 通過(guò)C2、C3、C4層提取上下文信息用來(lái)豐富P5層,得到?jīng)]有信息損失的P5層。
首先定義兩種卷積塊,ConvBlock1 為包含1×1、3×3 和1×1 卷積的模塊,ConvBlock2 為通過(guò)ConvBlock1 的卷積結(jié)構(gòu)后與原特征進(jìn)行殘差連接的模塊。輸入的數(shù)據(jù)首先通過(guò)DS1進(jìn)行降采樣處理得到C2,DS1包含一個(gè)7×7 卷積,ConvBlock2 和兩層ConvBlock1;C2通過(guò)DS2得到C3,DS2包含ConvBlock2和三層ConvBlock1;C3通過(guò)DS3得到C4,DS3包含ConvBlock2 和5 層ConvBlock1;C4通過(guò)DS4得到C5,DS4包含ConvBlock2 和兩層ConvBlock1。SFE 流程為首先將C5的通道數(shù)降至256 得到P5,并將C2、C3、C4降采樣到C5的特征圖尺寸大小,通道降至與P5相同的256 維,然后將得到的3 個(gè)特征圖進(jìn)行拼接,再通過(guò)卷積層提取特征后經(jīng)過(guò)Sigmoid 函數(shù)得到特征G,其計(jì)算公式為
式中:Ci指[C2,C3,C4];concat 為按通道拼接操作;f1×1為卷積核為1×1 的卷積操作;f3×3為卷積核為3×3 的卷積操作;σ 為Sigmoid 函數(shù)。得到特征G后將G與原特征進(jìn)行殘差連接得到上下文信息W。G與原特征的殘差連接可表示為
FPN 把高層特征通過(guò)上采樣后與低層特征通過(guò)通道降維后進(jìn)行簡(jiǎn)單相加,這樣很難平衡不同層次之間的上下文信息,因?yàn)椴煌瑢哟蔚奶卣鲗?duì)金字塔的貢獻(xiàn)度不同[29],高層特征包含更多的語(yǔ)義信息,低層特征包含更多的細(xì)節(jié)信息。本文引入FW 指導(dǎo)高層特征和低層特征融合來(lái)解決兩個(gè)層次特征表達(dá)差異的問(wèn)題。FW 可以從待融合的高層和低層特征中根據(jù)不同層次特征的貢獻(xiàn)度來(lái)提取出對(duì)應(yīng)的權(quán)重,依靠權(quán)重來(lái)指導(dǎo)兩個(gè)層次上的特征融合。
FW 將Pi通過(guò)上采樣后的特征與Ci-1通過(guò)1×1 卷積操作降維后的特征拼接起來(lái),然后通過(guò)兩層卷積層進(jìn)行特征提取后通過(guò)Sigmoid 函數(shù)得到特征K,其計(jì)算公式為
式中:i的取值為5、4、3;concat 指特征按通道進(jìn)行拼接;f1×1為卷積核為1×1 的卷積操作;f3×3為卷積核為3×3 的卷積操作;σ 為Sigmoid 函數(shù)。
得到特征K后,將K與原特征進(jìn)行殘差連接得到特征融合結(jié)果L。K與原特征的殘差連接可表示為
式中:和分別為K的第1 個(gè)和第2 個(gè)通道通過(guò)維度擴(kuò)展后得到的權(quán)重,可以與Pi和Ci-1維度匹配后相乘,將得到的結(jié)果通過(guò)矩陣相加后得到按權(quán)重分配的高低層融合結(jié)果L。
實(shí)驗(yàn)運(yùn)行系統(tǒng)為Ubuntu20.04,CPU 為主頻2.2 GHz 的Intel(R)Xeon(R)Silver 4210,內(nèi)存64 GB,GPU 型號(hào)為T(mén)esla T4*2,顯存為16 GB,實(shí)驗(yàn)環(huán)境為python3.6 和tensorflow2.3.0。
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于Kaggle 公開(kāi)的Alzheimer’s Dataset 數(shù)據(jù)集(https://www.kaggle.com/datasets/tourist55/alzheimers-dataset-4-class-of-images)。數(shù)據(jù)包含ND、VMD、MD 和MOD 四類(lèi)腦部MRI。針對(duì)數(shù)據(jù)集中存在的數(shù)據(jù)不平衡問(wèn)題,本文對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了預(yù)處理。由于MOD 數(shù)據(jù)量較少,故對(duì)其進(jìn)行數(shù)據(jù)增強(qiáng)并擴(kuò)充至與MD 近似的數(shù)量,處理過(guò)程包含概率為0.5 的隨機(jī)水平翻轉(zhuǎn),角度范圍為10°的隨機(jī)旋轉(zhuǎn)、偏移范圍為0.2 的依概率修改亮度和對(duì)比度。為了消除MOD 數(shù)據(jù)增強(qiáng)對(duì)實(shí)驗(yàn)造成的影響,對(duì)ND、VMD 和MD進(jìn)行數(shù)據(jù)量不變的相同數(shù)據(jù)處理操作,并將數(shù)據(jù)量較多的ND 和VMD 隨機(jī)抽取至與MOD 近似。預(yù)處理前后的數(shù)據(jù)量如表1 所示。
表1 數(shù)據(jù)集參數(shù)Table 1 Dataset parameters
(1)對(duì)比方法選擇
本文選取3 種主流的AD 診斷方法開(kāi)展對(duì)比實(shí)驗(yàn),包括VGG19、MobileNet V2 和ADDTLA。VGG19[30]通過(guò)疊加較小的卷積核來(lái)加深網(wǎng)絡(luò),對(duì)于復(fù)雜高維的MRI 數(shù)據(jù),較小的卷積核可以關(guān)注到大卷積核關(guān)注不到的細(xì)節(jié)信息;MobileNet V2[31]是一個(gè)輕量級(jí)網(wǎng)絡(luò),通過(guò)模型預(yù)訓(xùn)練以較小的參數(shù)量可以取得較高的AD 分類(lèi)準(zhǔn)確率;ADDTLA[17]是一種基于遷移學(xué)習(xí)的預(yù)訓(xùn)練模型,可以在MRI 數(shù)據(jù)上取得較好的分類(lèi)效果。
(2)實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)使用的FEPN 模型以ResNet 作為骨干網(wǎng)絡(luò),訓(xùn)練過(guò)程中batchsize 大小為16,epoch 設(shè)置為100,學(xué)習(xí)率固定為0.001,L2 正則化系數(shù)為0.3。由于交叉熵?fù)p失函數(shù)在數(shù)據(jù)集各分類(lèi)數(shù)據(jù)量均衡的條件下有良好的表現(xiàn),故實(shí)驗(yàn)采用交叉熵?fù)p失函數(shù),即
式中:N表示1 個(gè)batchsize 的樣本量;4 表示該實(shí)驗(yàn)為四分類(lèi);yic為符號(hào)函數(shù),如果樣本i的真實(shí)類(lèi)別為c則yic取1,否則取0,pic表示樣本i預(yù)測(cè)為類(lèi)別c的概率。
(3)評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用精確率(Precision,P)、召回率(Recall,R)、平衡F分?jǐn)?shù)(F1-score,F(xiàn)1)和準(zhǔn)確率(Accuracy,A)來(lái)評(píng)價(jià)模型性能。其中,精確率、召回率和平衡F分?jǐn)?shù)用來(lái)評(píng)價(jià)模型對(duì)每個(gè)分類(lèi)的性能,準(zhǔn)確率用來(lái)衡量模型的整體性能。P、R、F1和A分別表示為
式中:XTP為真正類(lèi);XTN為真負(fù)類(lèi);XFP為假正類(lèi);XFN為假負(fù)類(lèi)。
實(shí)驗(yàn)結(jié)果如表2 所示,其中FPN 為特征金字塔網(wǎng)絡(luò)模型;FPN+SFE 為引入SFE 后的特征金字塔網(wǎng)絡(luò)模型;FPN+FW 為引入FW 后的特征金字塔網(wǎng)絡(luò)模型;FEPN 為本文提出的特征增強(qiáng)金字塔網(wǎng)絡(luò)模型。加入SFE 后,精確率、召回率和F1分?jǐn)?shù)都有所提升,模型準(zhǔn)確率提升了2.7%,說(shuō)明SFE 可以通過(guò)補(bǔ)充FPN 中P5層缺失的上下文信息來(lái)提升模型的多尺度特征提取能力;加入FW 后,精確率、召回率和F1分?jǐn)?shù)都有所提升,模型準(zhǔn)確率提升了1.4%,說(shuō)明加入FW 后與FPN 相比更能平衡不同層之間的上下文信息。加入SFE 比加入FW 的準(zhǔn)確率和各項(xiàng)指標(biāo)都要高,說(shuō)明SFE 更有利于FPN 能夠充分提取MRI 多尺度特征。FEPN 與FPN相比,模型的準(zhǔn)確率提升了3.1%,擁有更好的分類(lèi)性能。圖3 為消融實(shí)驗(yàn)準(zhǔn)確率隨epoch 的變化,在40 個(gè)epoch 以前4 種方法的準(zhǔn)確率區(qū)分不明顯,在40~60 個(gè)epoch 中,F(xiàn)EPN 較其他方法的準(zhǔn)確率有明顯的提升,并于60 個(gè)epoch 以后趨于穩(wěn)定。
表2 加入SFE 和FW 對(duì)特征金字塔網(wǎng)絡(luò)性能影響的對(duì)比Table 2 Comparison of FPN performance by adding SFE and FW
圖4 為模型預(yù)測(cè)每個(gè)分類(lèi)的概率結(jié)果。圖4(a)為正常人的腦部MRI,其腦組織結(jié)構(gòu)特征明顯,并沒(méi)有萎縮等現(xiàn)象,因而模型的分類(lèi)精度較高;圖4(b)為非常輕度癡呆病人的腦部MRI,此階段病人的腦皮質(zhì)已出現(xiàn)萎縮的前兆,分類(lèi)精度較高;圖4(c)為輕度癡呆病人的腦部MRI,該階段的患者腦皮質(zhì)處于萎縮的初級(jí)階段,與非常輕度癡呆區(qū)分不明顯,有18.6%的概率會(huì)誤分類(lèi)為非常輕微癡呆,分類(lèi)精度較低;圖4(d)為中度癡呆病人的腦部MRI,整個(gè)腦組織都會(huì)出現(xiàn)萎縮,其中顳葉、額葉和楔葉的萎縮相對(duì)明顯,腦溝增寬,區(qū)分度較高,分類(lèi)精度較高。
圖4 本文方法預(yù)測(cè)結(jié)果示例Fig.4 Example of prediction results of the proposed method
本文進(jìn)一步對(duì)比了該模型與其他模型的性能,設(shè)置了4 組對(duì)比試驗(yàn),驗(yàn)證不同模型在相同數(shù)據(jù)集上的性能,結(jié)果如表3 所示。FEPN 的分類(lèi)準(zhǔn)確率與VGG19 和MobileNet V2 相比分別提升了41.1%和32%,但網(wǎng)絡(luò)堆疊更深,參數(shù)量遠(yuǎn)多于MobileNet V2 的2.2×106;與ADDTLA 相比提升了6.2%,但網(wǎng)絡(luò)層數(shù)和參數(shù)量比ADDTLA 更高,結(jié)構(gòu)更復(fù)雜,對(duì)硬件和計(jì)算時(shí)間有更高的要求。
表3 與其他模型實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results with other models
近年來(lái)AD 的患者數(shù)量逐年增多且沒(méi)有有效的治療手段,通過(guò)早期診斷可以延緩病人腦組織病變。病人在患病早期腦部MRI 與正常人相比差別很小,目前主流的單一尺度特征提取方法不能充分捕捉這些差異,導(dǎo)致早期的病程分類(lèi)十分困難。本研究針對(duì)FPN 中高層特征缺乏多尺度上下文信息的問(wèn)題,通過(guò)SFE 利用不同層次的上下文信息對(duì)高層特征進(jìn)行補(bǔ)充;針對(duì)不同層次的特征表示在特征融合時(shí)的語(yǔ)義差距問(wèn)題,計(jì)算FW 指導(dǎo)高低層特征圖的融合,增強(qiáng)了上下文信息交互和特征融合的匹配度,在Kaggle 平臺(tái)公開(kāi)的Alzheimer 數(shù)據(jù)集上的分類(lèi)精度達(dá)到了97.9%,分類(lèi)性能優(yōu)于其他同類(lèi)方法。由于原始的三維MRI 在提取切片的過(guò)程中存在信息損失,在未來(lái)的工作中可以探究FEPN 在三維MRI 數(shù)據(jù)上的表現(xiàn),并對(duì)FEPN 做進(jìn)一步的改進(jìn),使其擁有良好的三維MRI 處理能力。