杜昱崢,曹 慧,聶永琦,魏德健,馮妍妍
山東中醫(yī)藥大學 智能與信息工程學院,濟南 250355
阿爾茨海默?。ˋizheimer’s disease,AD)是一種以認知功能障礙為主要臨床特征的神經(jīng)系統(tǒng)退行性疾病[1]。目前常規(guī)的診斷方法是由醫(yī)生利用專業(yè)知識與臨床經(jīng)驗判讀腦神經(jīng)影像,診斷效率依賴于醫(yī)護人員與圖像采集設(shè)備等醫(yī)療資源水平,可能因病患信息無法及時反饋導致漏診、誤診。因此,眾多學者開發(fā)先進的計算機輔助診斷(computer aided diagnosis,CAD)系統(tǒng),輔助臨床醫(yī)生提高AD診斷效率與早期預測準確性。
近年來,以深度學習方法為基礎(chǔ)的CAD系統(tǒng)在帕金森病、肌萎縮側(cè)索硬化癥以及AD等神經(jīng)退行性疾病診斷中取得了顯著成果[2-4]。深度學習方法通過構(gòu)建深層次網(wǎng)絡(luò)自動提取圖像抽象特征,并在網(wǎng)絡(luò)架構(gòu)、全局或局部上下文信息提取、特征多尺度融合等方面進行改進,從而實現(xiàn)對受試者正常衰老類(normal control,NC)、進展型輕度認知障礙類(progressive mild cognitive impairment,pMCI)、穩(wěn)定型輕度認知障礙類(stable mild cognitive impairment,sMCI)和阿爾茨海默病類(AD)四個不同階段[5]的分類診斷。隨著計算機視覺技術(shù)的發(fā)展,深度學習方法在圖像處理領(lǐng)域應用越來越廣泛,先后涌現(xiàn)出許多經(jīng)典神經(jīng)網(wǎng)絡(luò),特別是卷積神經(jīng)網(wǎng)絡(luò)[6](convolutional neural network,CNN)。CNN是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),通過端到端的學習方式挖掘圖像深層特征,無需人工操作復雜的特征提取。CNN及其衍生模型在AD患者的病程診斷、早期預測領(lǐng)域展示出極大的應用潛力[7-9]。
本文首先整理了阿爾茨海默病研究常用的數(shù)據(jù)集,其次介紹了基于深度學習的AD分類診斷方法,將其按照經(jīng)典深度學習網(wǎng)絡(luò)模型的改進工作依次闡述;然后介紹深度學習網(wǎng)絡(luò)模型的可解釋性,以及對不同方法與改進思路的優(yōu)劣勢進行對比分析;最后結(jié)合深度學習在AD輔助診斷領(lǐng)域面臨的挑戰(zhàn),對未來研究方向進行展望。
數(shù)據(jù)集是開展深度學習研究的重要因素之一。近年來,隨著醫(yī)療信息技術(shù)的發(fā)展,大規(guī)模、標準化的神經(jīng)影像數(shù)據(jù)集為深度學習在AD輔助診斷領(lǐng)域提供了支持?,F(xiàn)全球公開數(shù)據(jù)集的數(shù)據(jù)樣本豐富,研究人員可根據(jù)工作需求選擇對應數(shù)據(jù)集的單模態(tài)數(shù)據(jù)或聯(lián)合多模態(tài)數(shù)據(jù)構(gòu)建輔助診斷模型。通過AD相關(guān)期刊的論文報告和相關(guān)開源數(shù)據(jù)集網(wǎng)站對近年來有關(guān)AD數(shù)據(jù)集進行整理和介紹,表1總結(jié)了阿爾茨海默病研究常用數(shù)據(jù)集。
表1 阿爾茨海默病研究常用數(shù)據(jù)集Table 1 Commonly used datasets of Alzheimer’s disease research
ADNI[10]數(shù)據(jù)集分為:ADNI-1、ADNI-GO/2、ADNI-3三個階段。該數(shù)據(jù)集包括1 800多名受試者的磁共振成像(magnetic resonance imaging,MRI)、正電子發(fā)射斷層成像(positron emission tomography,PET)、擴散張量成像(diffusion tensor imaging,DTI)、腦脊液生物標志物以及基因生物標記物數(shù)據(jù)等其他相關(guān)診斷信息。
OASIS數(shù)據(jù)集包括OASIS-1、OASIS-2及OASIS-3三階段。OASIS-1提供416名18歲至96歲的參與者的橫斷面掃描成像[11],每個參與者的每單次收集包括3或4個單獨的T1加權(quán)MRI掃描。OASIS-2提供150名60歲至96歲的參與者縱向掃描成像集合,每個參與者的收集次數(shù)為兩次或以上,訪問時間間隔約為一年,共計收集373次掃描成像[12]。每個參與者的每單次收集包括3或4個單獨的T1加權(quán)MRI掃描。OASIS-3提供1 098名42歲至95歲參與者的不同掃描序列MRI以及來自不同示蹤劑的PET的回顧性匯編[13]。
AIBL[14]數(shù)據(jù)集是一項對1 112名健康、MCI和AD患者的縱向研究,同時定期進行隨訪和評估,周期為18個月。所有數(shù)據(jù)來自兩個中心(40%的受試者來自西澳大利亞的珀斯,60%來自維多利亞州的墨爾本)進行收集,影像數(shù)據(jù)主要包含MRI、PET等。
MIRIAD[15]數(shù)據(jù)集對46名輕中度AD受試者和23名對照者進行縱向容積T1結(jié)構(gòu)MRI掃描。在規(guī)定的時間間隔內(nèi)(0、2、6、14、26、38和52周,以及18和24個月),使用相同的設(shè)備總共進行798次掃描,AD患者總共2 199個掃描對,對照組總共1 182個掃描對,另外還包括性別、年齡和簡易精神狀態(tài)量表等相關(guān)臨床信息。
NACC[16]數(shù)據(jù)集匯集美國29個阿爾茨海默病研究中心合作建立的統(tǒng)一900多個數(shù)據(jù)元素,按不同的數(shù)據(jù)集和元數(shù)據(jù)分組,包含68個數(shù)據(jù)元素(如種族、教育、性別、診斷、中風、抑郁癥、DNA可用性、組織可用性、MRI可用性等)。
深度學習作為機器學習的分支,通過端到端的學習方式從龐大的訓練樣本集中自動提取神經(jīng)影像抽象特征信息從而獲得高精度的分類診斷模型。本章將深度學習在阿爾茨海默病分類診斷中的應用方法按照基礎(chǔ)神經(jīng)網(wǎng)絡(luò)架構(gòu)分為6類,具體方法見圖1,重點總結(jié)卷積神經(jīng)網(wǎng)絡(luò)與多網(wǎng)絡(luò)融合的AD分類診斷方法。
圖1 深度學習在AD分類診斷中的應用方法Fig.1 Application of deep learning in classification and diagnosis of AD
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),由輸入層、卷積層、池化層、全連接層、輸出層組成,其基本網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。CNN及其衍生模型在AD患者病程診斷、早期預測領(lǐng)域具有極大的應用前景。根據(jù)卷積核的維數(shù)可將CNN方法分為2D CNN與3D CNN,兩者結(jié)構(gòu)對比如圖3所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Convolutional neural network structure diagram
圖3 2D CNN和3D CNN結(jié)構(gòu)對比圖Fig.3 Comparison of 2D CNN and 3D CNN structures
2.1.1 2D CNN
2D CNN用于AD診斷通常基于二維腦神經(jīng)影像,如腦部MRI的矢狀面、橫斷面、冠狀面掃描2D切片,主要選自結(jié)構(gòu)或功能上預定義的大腦區(qū)域,并從每個區(qū)域提取具有代表性的特征。
Khagi等人[17]使用OASIS數(shù)據(jù)集調(diào)優(yōu)AlexNet提取2D MRI切片的矢狀面、橫斷面病變特征。但其識別性能依賴于初始預訓練權(quán)重導致過濾MRI圖像冗余特征的能力較弱。為了去除圖像不相關(guān)特征,Lee等人[18]提出結(jié)合熵切片與去除離群值的特征選擇方法提取圖像局部信息,該模型在測試集中NC/AD的二分類準確率達98.53%。
但是上述研究側(cè)重于篩選更有價值的多切片用于訓練,很難捕捉圖像上細微的病變信息。為此,石磊等人[19]基于特征金字塔網(wǎng)絡(luò)(FPN)設(shè)計了一個深度特征增強卷積神經(jīng)網(wǎng)絡(luò)學習切片多尺度特征信息,實現(xiàn)了AD四種病程的分類診斷。Nawaz等人[20]同樣注重網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,提出了一種Deep-CNN網(wǎng)絡(luò)。卷積層采用4~128 size的過濾器提取AD各階段分類的特征表示,但該算法的深層網(wǎng)絡(luò)結(jié)構(gòu)需占用大量訓練時間。為解決上述問題,Jain等人[21]基于篩選的MRI冠狀面切片微調(diào)預訓練網(wǎng)絡(luò)VGG-16,降低訓練時間成本。與上述文獻的網(wǎng)絡(luò)框架改進不同,Saratxaga等人[22]在訓練策略上做出嘗試,采用高效的CLR三角學習率策略構(gòu)建BrainNet2D卷積網(wǎng)絡(luò)用于AD分類,大大加快了診斷網(wǎng)絡(luò)收斂速度。
在AD分類診斷中,2D CNN往往通過增加網(wǎng)絡(luò)深度與復雜度提高模型的非線性表達能力,但該方式同時伴隨網(wǎng)絡(luò)參數(shù)量激增與梯度消散。為此,Tufail等人[23]采用深度可分離卷積構(gòu)建輕量級網(wǎng)絡(luò),通過分離區(qū)域信息與通道卷積有效減少卷積運算參數(shù)量。針對深度網(wǎng)絡(luò)的梯度問題,Puente-Castro等人[24]在加深網(wǎng)絡(luò)的同時引入殘差學習思想,并將受試者性別、年齡等特征向量與模型全連接層連接,以提高模型拓展性和泛化性,但是簡單融合人口統(tǒng)計學信息忽略了不同種族間AD發(fā)病機制的異質(zhì)性。為此,Bae等人[25]使用首爾國立大學本當醫(yī)院(SNUBH)與ADNI兩跨種族數(shù)據(jù)集交叉訓練網(wǎng)絡(luò),AD識別準確率在兩數(shù)據(jù)集中均達88%以上。為進一步提升臨床應用成熟度,張榮等人[26]通過遷移學習方法對二維MRI、PET圖像進行特征提取,隨后采用Adaboost算法對多模態(tài)圖像特征進行選擇融合,研究表明AD/MCI/NC多分類準確率達92.8%。
上述研究均基于結(jié)構(gòu)磁共振成像(structural magnetic resonance imaging,sMRI),sMRI能夠量化大腦結(jié)構(gòu)上存在的全局或局部腦萎縮形態(tài)學改變,但部分認知正常的老年人亦可能出現(xiàn)局部腦區(qū)體積縮小的情況。為克服sMRI影像形態(tài)學分析的局限,孔伶旭等[27]獲取患者功能性磁共振成像(functional magnetic resonance imaging,fMRI)用于診斷網(wǎng)絡(luò),但不足之處在于fMRI成像高維性會導致網(wǎng)絡(luò)收斂時間過長。為此,該研究采用輕量化網(wǎng)絡(luò)MobileNet提取切片的代表性特征,并將得到的瓶頸特征輸入到頂層實現(xiàn)分類,大幅度提高網(wǎng)絡(luò)訓練效率。
上述分析可知,二維卷積神經(jīng)網(wǎng)絡(luò)的方法具有以下優(yōu)勢:(1)結(jié)合離群值去除、熵切片等特征選擇算法能夠提高二維切片圖像的特征利用率,有助于提高AD分類準確性。(2)使用AlexNet等預訓練模型作為初始化或特征提取器,節(jié)省了細致繁瑣的超參數(shù)步驟,可促進網(wǎng)絡(luò)訓練學習的有效性。(3)MRI成像中具有豐富的腦部細節(jié)信息,有利于構(gòu)建更深層的二維卷積神經(jīng)網(wǎng)絡(luò)用以高精度識別診斷。(4)采用sMRI、fMRI多種磁共振成像方法揭示被試者腦結(jié)構(gòu)、腦功能多視角的潛在信息,能夠有效利用更加全面的神經(jīng)影像特征以提高AD診斷的精確度。
但該方法也存在以下問題亟需解決:(1)對于MRI中立體的區(qū)域萎縮評估,二維卷積往往需要分析多個切面,導致特征提取十分粗略,并且不能完全捕捉圖像的空間信息。(2)2D CNN診斷模型通過遷移學習方法初始化網(wǎng)絡(luò)雖然能夠降低模型訓練難度但在AD分類診斷實際應用中對MRI等復雜神經(jīng)影像的目標類型判別穩(wěn)定性偏低。(3)應用于MRI的2D CNN深度學習算法往往基于單一尺度特征提取方法區(qū)分NC與AD人群,此二分類不能提供有效的早期腦部變化信息實現(xiàn)MCI階段的診斷與預測。(4)深層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)意味著需要處理大規(guī)模數(shù)據(jù)與大量參數(shù),并且難以避免訓練階段面臨的梯度消散和網(wǎng)絡(luò)性能退化等問題。(5)選取MRI的2D分割切片通常只考慮大腦的中心部分,可能涉及的病變相關(guān)腦區(qū)研究范圍有限。
2.1.2 3D CNN
二維卷積神經(jīng)網(wǎng)絡(luò)基于MRI 2D切片分析AD時對圖像上下文信息的全局特征表達能力有限,易導致腦部空間與組織結(jié)構(gòu)等特征信息丟失。而三維卷積神經(jīng)網(wǎng)絡(luò)能更好地利用圖像3D特性并從中提取高分辨率特征,從而有效提升AD的分類精度。3D CNN用于AD診斷主要基于兩種方法:(1)以體素為單位定量分析全腦MRI圖像中不同腦組織的局部成分差異[28],以此測量大腦區(qū)域是否發(fā)生腦萎縮的形態(tài)學方法;(2)選取AD的感興趣區(qū)域(region of interest,ROI)構(gòu)成三維圖像塊(如:海馬區(qū)),并從中提取高維腦圖像的細微局部病變特征的預定義方法。
Maqsood等人[29]將大腦灰質(zhì)、白質(zhì)、腦脊液的三維體素合并至一張圖像,利用遷移學習方法組合MRI腦區(qū)結(jié)構(gòu)的抽象特征表示,AD/NC得到89.6%的分類準確率。考慮到全腦體素特征的高維性,Basheera等人[30]基于獨立成分分析法提出一種逐體素3D CNN網(wǎng)絡(luò)。該模型針對灰質(zhì)體素特征顯示了良好的特異性和敏感性。為進一步細化不同語義級別特征,趙尚義等人[31]提出一種融合多語義的三維卷積網(wǎng)絡(luò),利用嵌套密集跨層路徑連接的方式提取不同強度語義的特征信息,但是該模型性能依賴于圖像預處理步驟。為了克服高標準樣本獲取困難的局限,Mehmood等人[32]微調(diào)VGG-19網(wǎng)絡(luò)捕獲三維MRI信號體素的空間特征,并結(jié)合數(shù)據(jù)增強方法優(yōu)化訓練集,但其網(wǎng)絡(luò)結(jié)構(gòu)在提取高維度特征時會伴隨梯度問題。為實現(xiàn)梯度優(yōu)化,Karasawa等人[33]提出一種基于ResNet的三維卷積AD診斷網(wǎng)絡(luò),并且刪除了該網(wǎng)絡(luò)50%節(jié)點進一步簡化參數(shù)量。但實現(xiàn)模型壓縮與保持性能間的平衡仍具挑戰(zhàn)性。為此,陸小玲等人[34]向輕量化模型的道路探索,采用3D MobileNet網(wǎng)絡(luò)處理MRI切片,實驗結(jié)果表明與傳統(tǒng)遷移學習方法相比AD分類準確率提高了約8%。輕量化網(wǎng)絡(luò)在提升診斷性能與減少網(wǎng)絡(luò)參數(shù)方面具有一定的優(yōu)勢。
上述研究雖然在AD分類任務(wù)中都取得了良好性能,但復雜高維腦影像的特征選取與解析過程可能導致部分低級特征圖信息丟失。為此,杜麗君等人[35]將生成的低級特征圖輸入注意力卷積,將得到不同像素位置的注意力權(quán)重與特征對應相乘以保留更多序列信息,并添加子輔助任務(wù)進一步優(yōu)化分類結(jié)果,但是聯(lián)合多任務(wù)多類型數(shù)據(jù)學習易引起模型參數(shù)量增加。為此,Spvsov等人[36]構(gòu)建一種參數(shù)高效層,該層通過分組卷積與可分離卷積提高參數(shù)利用率,降低網(wǎng)絡(luò)訓練成本。
上述基于三維體素的方法可以評估患者大腦解剖結(jié)構(gòu)的全局變化,但是對于高維腦圖像中局部小尺寸特征的提取能力較弱。為解決這一問題,眾多研究選擇AD患者影像中特定感興趣區(qū)域(ROI)的候選框作為卷積神經(jīng)網(wǎng)絡(luò)的特征輸入。曾安等人[37]在不預定義ROI的前提下采用不同全連接層結(jié)構(gòu)的3D CNN網(wǎng)絡(luò)識別MRI,研究發(fā)現(xiàn)其分類效果均次于3D CNN-ROI方法。為進一步挖掘大腦異常變化的微觀特征,Zhu等人[38]提出一種帶有空間注意力塊的patch-net提取ROI小塊的判別特征,以此提高模型分類精度。但是重點區(qū)域的選取對后續(xù)實現(xiàn)精準診斷同樣非常重要。為了避免忽略重點ROI,魏志宏等人[39]綜合大腦中海馬、灰質(zhì)等多個腦區(qū)ROIs,并增加網(wǎng)絡(luò)中間層的連接和輸出實現(xiàn)多類型特征整合,但是該方法不足之處在于以腦組織分割等預處理操作為前提。
研究表明,海馬是驗證AD最有效、最容易獲得的生物標志物之一[40-41],但現(xiàn)有的圖像處理技術(shù)針對MRI影像的海馬分割速度和精度較低。為解決海馬體分割工作效率不高的問題,顏宇等人[42]提出一種含注意力機制的U形3D CNN用于海馬體分割。該網(wǎng)絡(luò)通過復用低層級的空間信息完成腦組織高效分割,但是并未實現(xiàn)海馬分割和AD診斷流程一體化。為此,Sun等人[43]基于V-Net提出一個端到端的雙功能卷積網(wǎng)絡(luò),將AD病理狀態(tài)分類與海馬體分割結(jié)合,實現(xiàn)了海馬形態(tài)變化與AD進展的相關(guān)性分析。
患者腦萎縮在AD早期階段難以察覺,通過MRI的結(jié)構(gòu)成像發(fā)現(xiàn)病變難度較大,三維卷積神經(jīng)網(wǎng)絡(luò)分析fMRI、PET等高維腦功能成像能夠反映病變腦區(qū)的代謝變化,在AD早期診斷研究中得以應用。林萬云等人[44]提出一種“前小后大”的策略改進3D CNN的卷積核尺寸和步長,基于PET成像有效檢測局部腦代謝變化,結(jié)果顯示AD早期預測準確率達71.19%。但是相比PET成像,fMRI成像的臨床應用更為普遍。為此,賈洪飛等人[45]提出一種基于fMRI圖像轉(zhuǎn)換結(jié)合改進3DPCANet模型對AD不同階段患者進行分類??紤]到fMRI可以實現(xiàn)多種功能水平的圖像轉(zhuǎn)換,Jia等人[46]采用CCA典型相關(guān)分析思想融合兩種轉(zhuǎn)換類型的圖像特征,提高了輸入的功能圖像變換的魯棒性。
上述分析可知,三維卷積神經(jīng)網(wǎng)絡(luò)的方法具有以下優(yōu)勢:(1)三維卷積神經(jīng)網(wǎng)絡(luò)能夠充分利用MRI圖像體素間的三維空間結(jié)構(gòu)信息,提取表達性更強和更具臨床意義的語義特征,從而實現(xiàn)AD疾病的精準診斷。(2)基于體素的方法可以定量檢測腦組織的密度差異,無需對感興趣區(qū)域先驗假設(shè),具有客觀性、全面性。(3)基于ROI圖像塊的方法可以充分利用MRI影像的有效信息,提取高維腦圖像的細微局部特征。(4)綜合多個ROI特征信息,不僅能避免數(shù)據(jù)來源較為單一的局限性而且能利用各腦區(qū)之間可能存在的聯(lián)系與相互間的影響。(5)三維卷積神經(jīng)網(wǎng)絡(luò)基于PET等腦功能成像分析腦部相關(guān)區(qū)域的代謝變化,對AD的早期診斷及鑒別診斷特異性和靈敏性較高,為疾病的早期干預提供了可能。
但該方法也存在以下問題亟需解決:(1)分析全腦MRI圖像時提取的特征向量具有高維性,神經(jīng)網(wǎng)絡(luò)訓練時間長、計算參數(shù)量大、計算資源要求及成本高,未來研究方向需要在保持網(wǎng)絡(luò)性能的前提下,向輕量化模型的道路探索。(2)在AD分析領(lǐng)域訓練三維卷積神經(jīng)網(wǎng)絡(luò)需要的樣本數(shù)據(jù)量大,而且缺乏像ImageNet的大規(guī)模標準數(shù)據(jù)庫,采用加深網(wǎng)絡(luò)結(jié)構(gòu)的方法提升性能可能會因樣本量不足而發(fā)生過擬合。(3)所有患病人群腦功能病變異常不總是發(fā)生在相同的所選ROI腦區(qū),固定相同的腦區(qū)可能會導致丟失用以區(qū)分患者的關(guān)鍵信息。(4)提取分析海馬可以為腦病理狀態(tài)分類提供更有針對性的特征,現(xiàn)有的CAD算法中,同時實現(xiàn)海馬分割和AD診斷的端到端高精度模型性能還有待優(yōu)化。(5)針對fMRI多種功能水平的圖像轉(zhuǎn)換,今后需設(shè)計多類型轉(zhuǎn)換圖像研究高魯棒性的特征融合算法以獲得圖像間最相關(guān)分類特征,從而增強AD鑒別能力。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)[47]是一種基于非參數(shù)序列的學習方法,隱藏層中的神經(jīng)元相互連接傳輸數(shù)據(jù)信息,并表達數(shù)據(jù)之間的相關(guān)性。阿爾茨海默病屬于時間依賴性神經(jīng)退行性疾病。與CNN相比,RNN可以處理時間序列數(shù)據(jù)以學習時間依賴性。在患者臨床癥狀出現(xiàn)前,對時間序列上的臨床表現(xiàn)進行綜合分析,有望對患者的病情進展、發(fā)病時間等進行預測。
長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[48]在標準RNN中引入門控單元概念,解決了傳統(tǒng)RNN的梯度消失問題,使其更加適合分析時序臨床特征,從而實現(xiàn)病情預測,其基本網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Long short-term memory network structure diagram
Pelka等人[49]采用LSTM學習MRI切片的序列間相關(guān)信息進行AD早期預測,pMCI患者的識別準確率達78%。該方法側(cè)重于分析MRI切片間縱向動態(tài),但對大腦海馬區(qū)域時間縱向特征的提取能力偏弱。為此,Li等人[50]利用海馬區(qū)一年內(nèi)的縱向測量信息訓練LSTM網(wǎng)絡(luò),但是在預測時間序列的臨床研究中不可避免部分數(shù)據(jù)缺失問題。為解決上述問題,Ghazi等人[51]調(diào)整LSTM網(wǎng)絡(luò)的損失權(quán)重來緩解缺失值問題,采用批量梯度下降法更新權(quán)重參數(shù),有效緩解了數(shù)據(jù)缺失的影響,但是批量梯度下降可能會占用大量運行時間,因此還需研究適宜的模型訓練算法優(yōu)化訓練時間。
上述分析可知,循環(huán)神經(jīng)網(wǎng)絡(luò)的方法具有以下優(yōu)勢:(1)充分從患者時間間隔的隨訪數(shù)據(jù)中提取動態(tài)時序特征,以此加速AD的早期診斷進程。(2)對于不規(guī)則的采集臨床數(shù)據(jù),RNN能夠使輸入數(shù)據(jù)在維度變化中保持穩(wěn)定,并且擁有長期儲存數(shù)據(jù)的能力。
但該方法也存在以下問題亟需解決:(1)應用時間間隔較長的隨訪數(shù)據(jù)時會產(chǎn)生非常大的計算量和運算時間。(2)LSTM雖然解決了傳統(tǒng)RNN存在的梯度問題,但是在小數(shù)據(jù)集上的分類精度并不理想。
因此,在高質(zhì)量圖像樣本不足及標注困難的局限下,自動編碼器、深度置信網(wǎng)絡(luò)、生成式對抗網(wǎng)絡(luò)因其不依賴于數(shù)據(jù)標簽的優(yōu)勢為無監(jiān)督深度學習提供了一個重要的技術(shù)研究方向。
自動編碼器(auto encoder,AE)[52],是一種無監(jiān)督學習網(wǎng)絡(luò)。AE由編碼器和解碼器組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。編碼器在網(wǎng)絡(luò)前向傳播過程中對特征圖進行降維壓縮,以此刪除圖像的冗余信息,解碼器再利用特征圖重構(gòu)輸入圖像。
圖5 自動編碼器結(jié)構(gòu)圖Fig.5 Auto-encoder structure diagram
18氟-氟代脫氧葡萄糖PET成像可用于評估大腦局部葡萄糖代謝活性[53],但是PET的臨床低普及度導致標記訓練樣本量較少。為此Hong等人[54]采用變分自編碼器無監(jiān)督學習網(wǎng)絡(luò)解決PET標記數(shù)據(jù)量不足的問題,并且結(jié)合層次凝聚聚類算法組織特征,量化腦內(nèi)蛋白軌跡用以推斷病程進展,但是單一模態(tài)的數(shù)據(jù)集質(zhì)量參差不齊可能會引起各個模型間的性能差異性。為此,Kim等人[55]通過融合MRI和PET多模態(tài)數(shù)據(jù)提升模型分類性能,提出了一種堆疊多層神經(jīng)網(wǎng)絡(luò)sELM-AE。該網(wǎng)絡(luò)采用堆疊多層AE增強各模態(tài)復雜特征模式的表達能力,但是模型在處理高維的多模態(tài)數(shù)據(jù)時存在計算量大、圖像配準困難等問題。
上述分析可知,自動編碼器的方法具有以下優(yōu)勢:(1)一定程度上解決了因大量未標注圖像(如:PET)或標注圖像不可用導致模型訓練困難的問題。(2)堆疊多層網(wǎng)絡(luò)的逐層訓練方式能夠?qū)υ夹蛄薪稻S,有助于利用有限的神經(jīng)影像數(shù)據(jù)學習到高度復雜模式的特征表示。
但該方法也存在以下問題亟需解決:(1)雖然堆疊AE可以自由選擇提取特征的維度,但是網(wǎng)絡(luò)調(diào)整和優(yōu)化模型參數(shù)的難度大。(2)在處理高維的多模態(tài)數(shù)據(jù)時存在計算量大、圖像配準困難等問題。(3)堆疊自編碼器網(wǎng)絡(luò)往往伴隨高計算量與長收斂時間。后續(xù)研究可嘗試模型輕量化等網(wǎng)絡(luò)結(jié)構(gòu)化裁剪方法,在保證模型性能的基礎(chǔ)下穩(wěn)定的壓縮計算量。
在無監(jiān)督神經(jīng)網(wǎng)絡(luò)模型中,深度置信網(wǎng)絡(luò)能夠通過預訓練初始化權(quán)網(wǎng)絡(luò)權(quán)重提升網(wǎng)絡(luò)收斂速度。
深度置信網(wǎng)絡(luò)(deep belief network,DBN)[56]與上述AE的作用類似,可以通過無監(jiān)督學習方式對輸入數(shù)據(jù)進行高維特征表示。DBN由可視層、分類層和若干個隱藏層組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。DBN的隱藏層由多個受限玻爾茲曼機(restricted Boltzmann machine,RBM)構(gòu)建,各層之間存在對稱連接,但是層內(nèi)的神經(jīng)元無任何連接。DBN中每次只訓練一層RBM,當前層的輸出作為下一層RBM的輸入,直至完成DBN中所有RBM層的訓練,最后使用wake-sleep算法進行調(diào)優(yōu)[57]。
圖6 深度置信網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Deep belief network structure diagram
DBN網(wǎng)絡(luò)通過疊加多層RBM解析神經(jīng)影像中復雜的非線性特征表示。Shen等人[58]提出一種三層RBM的DBN網(wǎng)絡(luò)基于腦PET成像提取MCI的鑒別特征。由于pMCI與sMCI類間差異較小,僅依靠單模態(tài)PET圖像容易受信息量不足等因素影響。為此,Zhou等人[59]綜合MRI和PET多模態(tài)成像提出一種稀疏響應網(wǎng)絡(luò)SR-DBN,結(jié)合主成分分析算法獲取兩模態(tài)圖像的高層語義信息,但是DBN網(wǎng)絡(luò)初始權(quán)值一定程度上具有指向性,可能與目標多模態(tài)學習任務(wù)存在較大差異。
上述分析可知,深度置信網(wǎng)絡(luò)的方法具有以下優(yōu)勢:(1)DBN可以通過無監(jiān)督的特征學習方式保留高維度神經(jīng)影像數(shù)據(jù)的深層次特征,適用于高維標簽數(shù)據(jù)樣本不足的模型訓練。(2)逐層訓練RBM方式為整個DBN網(wǎng)絡(luò)賦予了較好的初始權(quán)值,解決了深層次神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題。
但該方法也存在以下問題亟需解決:(1)DBN的無監(jiān)督預訓練對初始權(quán)值一定程度上具有指向性,需結(jié)合適當?shù)娜謱?yōu)算法對DBN的初始權(quán)值進行優(yōu)化。(2)在多模態(tài)數(shù)據(jù)融合的復雜分類診斷任務(wù)中網(wǎng)絡(luò)訓練難度大,模型分類精度和魯棒性表現(xiàn)不理想。
無論是有監(jiān)督或無監(jiān)督的深度學習方法都需要海量的數(shù)據(jù)作為支撐。近年來,生成式對抗網(wǎng)絡(luò)以其圖像生成領(lǐng)域的優(yōu)勢在無監(jiān)督學習研究中掀起熱潮。
生成式對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[60]為深度學習提供了一種新穎有效的數(shù)據(jù)建模方式。GAN由生成器和鑒別器組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。生成器通過模仿真實圖像合成新圖像來混淆鑒別器,同時鑒別器也不斷地加強鑒偽能力,利用兩個神經(jīng)網(wǎng)絡(luò)之間相互博弈形成對抗性關(guān)系。這種對抗性學習方式使GAN不斷增強高級語義信息的特征表達能力,通過無監(jiān)督學習生成偽標簽,可以有效解決小樣本訓練集問題。
圖7 生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Generative adversarial network structure diagram
考慮到AD分類診斷的深度學習方法需要大量的訓練數(shù)據(jù),因此基于GAN的數(shù)據(jù)增強技術(shù)被廣泛應用于不同的神經(jīng)影像。Islam等人[61]提出采用深度卷積生成式對抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGAN)合成不同階段的PET圖像,有效克服了訓練樣本的類別不平衡問題。與PET圖像相比,MRI圖像數(shù)據(jù)量大,GAN主要用于擴充其高質(zhì)量的圖像訓練集。Yu等人[62]采用三重博弈訓練策略以提高MRI圖像質(zhì)量,該研究受Odena等人[63]的啟發(fā),增加3D DenseNet輔助鑒別器。但三重對抗方法會增大網(wǎng)絡(luò)訓練難度,加重網(wǎng)絡(luò)訓練的不穩(wěn)定性,導致在單一模態(tài)數(shù)據(jù)有限的條件下強化特征的能力降低。為此,潘偉博等人[64]將GAN應用于MRI和PET多模態(tài)融合。該方法利用3D循環(huán)對抗生成網(wǎng)絡(luò)補全PET數(shù)據(jù),并且使用分層分解策略捕獲共享潛在表示,MCI/AD分類準確率為79.0%。
上述分析可知,生成式對抗網(wǎng)絡(luò)的方法具有以下優(yōu)勢:(1)為AD分類診斷模型訓練提供多類別、高質(zhì)量的神經(jīng)影像,幫助深度網(wǎng)絡(luò)獲得充分訓練,最終達到良好的分類性能。(2)GAN能結(jié)合其他先進的網(wǎng)絡(luò)模型構(gòu)建深度生成模型。(3)GAN在融合多模態(tài)數(shù)據(jù)的分類任務(wù)中通過學習不同模態(tài)數(shù)據(jù)間的關(guān)聯(lián)性補齊缺失數(shù)據(jù),為多模態(tài)診斷模型的模態(tài)缺失問題提供了有效解決方法。
但該方法也存在以下問題亟需解決:(1)生成器與鑒別器的訓練過程需保持良好的交替同步,網(wǎng)絡(luò)訓練不穩(wěn)定可能會導致網(wǎng)絡(luò)崩潰無法收斂。(2)生成圖像質(zhì)量與神經(jīng)網(wǎng)絡(luò)設(shè)計有著直接聯(lián)系,綜合設(shè)計合適的網(wǎng)絡(luò)架構(gòu)以保證生成圖像的有效性與多樣性。(3)為多模態(tài)數(shù)據(jù)補齊缺失模態(tài)的生成模型,無法為數(shù)據(jù)間的潛在關(guān)聯(lián)提供良好的可解釋性。
綜上所述,CNN、RNN等單網(wǎng)絡(luò)方法具有訓練速度快、計算成本低等優(yōu)點,在AD診斷中廣泛應用。由于AD病理特征的復雜性與多樣性,單網(wǎng)絡(luò)無法從成像方式復雜的神經(jīng)影像中充分學習更深層次的數(shù)據(jù)特征,滿足對AD診斷精準度、速度等需求。所以,眾多學者針對多網(wǎng)絡(luò)融合方法的應用價值進行探討。
多網(wǎng)絡(luò)融合是一種通過聯(lián)立兩個或以上的網(wǎng)絡(luò)架構(gòu),實現(xiàn)對AD分類診斷的深度學習方法。按照基于深度學習技術(shù)的AD分類診斷方法中多網(wǎng)絡(luò)架構(gòu)的融合方式,可將其分為多網(wǎng)絡(luò)級聯(lián)和多網(wǎng)絡(luò)集成。
2.6.1 多網(wǎng)絡(luò)級聯(lián)
多網(wǎng)絡(luò)級聯(lián)指多個網(wǎng)絡(luò)串聯(lián)完成AD分類診斷,即后一個網(wǎng)絡(luò)的輸入為前一個網(wǎng)絡(luò)的輸出,采用構(gòu)建多個神經(jīng)網(wǎng)絡(luò)的策略增強多級特征融合表達,進而實現(xiàn)阿爾茨海默病的一體化精準診斷。
Aqeel等人[65]提出了一個基于LSTM的混合神經(jīng)網(wǎng)絡(luò),LSTM后級聯(lián)一個多層感知機網(wǎng)絡(luò)用于AD分類,而LSTM的特征提取性能將直接影響最終分類效果。為此,Xia等人[66]構(gòu)建一個雙網(wǎng)絡(luò)架構(gòu)用于特征計算,如圖8所示。前網(wǎng)絡(luò)的特征圖輸入到3D CLSTM中進一步提取深層次空間結(jié)構(gòu)特征,能有效捕捉MRI圖像的高維特征信息。但是該方法在高維數(shù)據(jù)量偏小的情況下很難提取大腦萎縮區(qū)域信息。為此,Jin等人[67]提出了一種新型無監(jiān)督學習的對抗自編碼器網(wǎng)絡(luò)定位患者ROI腦區(qū),通過重構(gòu)MRI與原始的差異圖像判別AD,如圖9所示。該方法通過計算差異圖捕捉患者ROI腦區(qū),一定程度上克服了高維標注數(shù)據(jù)匱乏導致訓練困難的問題。
圖8 3D CNN+3D CLSTM級聯(lián)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 3D CNN+3D CLSTM cascaded neural network structure diagram
圖9 文獻[67]對抗自編碼器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 AAE network structure diagram in[67]
為了進一步提高診斷效率,一部分研究直接選取最早受到AD影響的海馬區(qū)進行分析。Li等人[68]在雙側(cè)海馬掩膜上構(gòu)建多通道三維-二維卷積神經(jīng)網(wǎng)絡(luò)識別AD,但該算法的診斷性能受限于海馬分割精度。為此,Cui等人[69]在局部海馬圖像塊上構(gòu)造DenseNet網(wǎng)絡(luò),并采用球面諧波系數(shù)優(yōu)化提取表面形狀特征。這不僅省略了繁瑣的腦組織分割步驟,而且可以有效綜合海馬的局部與全局特征。上述基于全腦或ROI腦區(qū)MRI的單一影像進行鑒別診斷可能存在假性結(jié)果,綜合受試者多類別影像檢查有助于捕獲更豐富的病理信息,提高診斷質(zhì)量。為此,F(xiàn)eng等人[70]基于多模態(tài)數(shù)據(jù)應用級聯(lián)RNN學習圖像深層隱藏特征,采用MRI與PET多模態(tài)數(shù)據(jù)構(gòu)建3DCNN與LSTM級聯(lián)網(wǎng)絡(luò),但在面臨模態(tài)數(shù)據(jù)缺失時可能會影響分類診斷結(jié)果,因此還需挖掘模態(tài)之間的潛在聯(lián)系進一步提高多模態(tài)模型性能。
上述分析可知,多網(wǎng)絡(luò)級聯(lián)的方法具有以下優(yōu)勢:(1)綜合各種單一網(wǎng)絡(luò)的優(yōu)點,各網(wǎng)絡(luò)分工協(xié)作完成AD分類任務(wù),有利于減少負荷的工作量。(2)不僅能從原始數(shù)據(jù)中快速篩選特征,而且能進一步融合多尺度深層特征,構(gòu)建多級特征表達從而輔助AD的精準診斷。(3)將多模態(tài)融合和分類統(tǒng)一到一個模型中,通過學習不同模態(tài)的共享特征表示來挖掘相連腦結(jié)構(gòu)特征關(guān)系。
但該方法也存在以下問題亟需解決:(1)后網(wǎng)絡(luò)對前網(wǎng)絡(luò)的依賴性很大,如果前一個網(wǎng)絡(luò)的輸出結(jié)果不理想,則可能直接導致后一個網(wǎng)絡(luò)失效。(2)多網(wǎng)絡(luò)雖然能有效提取大腦圖像中的深層特征,但是在特征融合過程中會產(chǎn)生特征冗余,從而影響全連接層網(wǎng)絡(luò)的分類性能。(3)考慮到多模態(tài)技術(shù)的實際臨床應用,并不是所有AD受試者均能提供完整的模態(tài)數(shù)據(jù)。模型可能受其中一模態(tài)數(shù)據(jù)丟失的影響,導致診斷性能下降。
2.6.2 多網(wǎng)絡(luò)集成
隨著網(wǎng)絡(luò)級聯(lián)次數(shù)的增加可能會引起過擬合,可以通過集成方式降低過擬合風險。多網(wǎng)絡(luò)集成采用構(gòu)建多個基分類器的集成算法進行腦圖像分類,即對來自多個網(wǎng)絡(luò)結(jié)構(gòu)的分類結(jié)果采用投票策略輸出最終決策。根據(jù)MRI的輸入特征,可以將AD診斷的集成學習方法分為多切片集成與多圖像塊集成。
Zeng等人[71]選取三個維度面上的MRI 2D切片進行訓練,將獲得的CNN集成分類器用于AD分類。其基分類器結(jié)構(gòu)如圖10所示,能夠有效利用同一腦區(qū)中不同方向上的特征信息。為進一步提高模型的準確率和穩(wěn)定性,Kang等人[72]在集成網(wǎng)絡(luò)中引入遷移學習,提出DCGAN和CNN的集成方法。該網(wǎng)絡(luò)集成VGG16、ResNet50、DCGAN的鑒別器三個分類器,可以有效緩解數(shù)據(jù)匱乏對模型性能提升的局限。但是以上研究忽略了AD惡化漸進性這一重要特征,為此,Liang等人[73]提出將Time-LSTM模塊集成到多任務(wù)學習框架,聯(lián)合多時間點縱向任務(wù)建立AD預測模型。該模型在預測60個月內(nèi)MCI進展為AD具有最佳的診斷效力。
圖10 MRI 2D切片基分類器結(jié)構(gòu)圖Fig.10 MRI 2D slice based classifier structure diagram
上述研究通過集成多個2D切片用于特征計算,但集成3D圖像塊的方法學習到的特征更適合于提取高維腦MRI圖像的細微特征。Raju等人[74]沿橫斷面方向取27塊圖像塊輸入多層集成3D CNN網(wǎng)絡(luò)提取特征,NC/AD二分類準確率達到97.77%。但是采用固定尺度提取圖像塊的方式帶來了巨大的參數(shù)計算量。為此,Wang等人[75]引入密集連接減輕計算壓力。該網(wǎng)絡(luò)構(gòu)建3D DenseNet作為基分類器,結(jié)構(gòu)如圖11所示。并且在DenseNet的兩DenseBlock之間增加1×1×1的卷積操作,同時保證特征提取的快速性與精確性。但是為了避免有效腦區(qū)遺漏,往往圖像塊劃定的范圍較大,導致全腦影像特征利用率低。Li等人[76]通過K均值聚類方法劃分三維圖像塊簇來提高特征利用率。該方法將相似腦組織圖像小塊進行聚類,可獲得較好的圖像方差魯棒性。上述研究針對網(wǎng)絡(luò)集成網(wǎng)絡(luò)架構(gòu)改進,為了進一步提高模型對AD診斷的適應能力,Pan等人[77]結(jié)合AD臨床病因改進網(wǎng)絡(luò)的融合算法。該集成網(wǎng)絡(luò)采用遺傳算法篩選最優(yōu)分類器組合。相比簡單的概率集成,結(jié)合遺傳算法的特征組合方法展現(xiàn)出更大優(yōu)勢。
圖11 文獻[75]中3D DenseNet基分類器結(jié)構(gòu)圖Fig.11 3D DenseNet classifier structure diagram in[75]
上述分析可知,多網(wǎng)絡(luò)集成的方法具有以下優(yōu)勢:(1)能夠獲取更全面的腦組織病變信息,有效彌補單一網(wǎng)絡(luò)模型丟失細節(jié)的缺點。(2)多個分類器結(jié)合進行集成學習能有效防止過擬合。(3)參與集成的基分類器和腦區(qū)是一一對應的,可以找出有顯著分類能力的腦區(qū)。
但該方法也存在以下問題亟需解決:(1)多網(wǎng)絡(luò)集成可能由于劃定腦區(qū)范圍大導致需要占用多個大量空間存儲的基分類器,而且基分類器可能會帶來額外的時間成本開支。(2)選擇不同的腦區(qū)劃分方法用于集成學習可能會對最終分類結(jié)果產(chǎn)生影響。(3)多個腦區(qū)基分類器集成導致計算代價與標注成本高,訓練時間長。
綜上所述,多網(wǎng)絡(luò)融合方法在級聯(lián)學習和集成學習方面均呈現(xiàn)出高水平模型性能。相比主流單網(wǎng)絡(luò)方法,多網(wǎng)絡(luò)融合在AD診斷應用中表現(xiàn)出更強的非線性特征映射能力、模型泛化能力和容錯能力,更能滿足實際臨床的需要。但是多網(wǎng)絡(luò)結(jié)構(gòu)增加了計算成本和存儲開銷,網(wǎng)絡(luò)設(shè)計難度也較大,今后工作需向更高效率的輕量化網(wǎng)絡(luò)探索與應用。
深度學習為圖像識別提供了一種強大的技術(shù)方法,但是深度學習模型的“黑盒”特性在面對其復雜的體系結(jié)構(gòu)和模型參數(shù)時無法提供直接的推理過程和決策解釋,是阻礙模型改進以及推廣應用的主要障礙之一。因此,理想的AD分類診斷系統(tǒng)不僅能夠進行準確的診斷決策,而且可以提供決策的中間過程,對模型臨床應用也尤為重要。
在AD診斷任務(wù)中,主要通過類激活映射(class activation mapping)、注意力機制(attention mechanism)等方法定位病灶腦區(qū)并提供可視化解釋依據(jù)。為了實現(xiàn)模型可解釋性與特征可視化,Qiu等人[78]通過全卷積神經(jīng)網(wǎng)絡(luò)生成AD風險概率圖提供模型解釋,使其突出與AD相關(guān)的高危腦區(qū)。但是該方法依賴于梯度加權(quán),對模型預測無關(guān)的因素敏感時魯棒性較差。為此,Bohle等人[79]采用分層相關(guān)性傳播(layer-wise relevance propagation,LRP)方法克服這一限制。該研究結(jié)合LRP生成腦部熱力圖解釋模型輸出,LRP能夠量化輸入特征與AD分類結(jié)果兩者間的相關(guān)性,但是生成熱力圖的方法主要通過視覺挑選特征進行定性分析。為了進一步捕捉病變腦區(qū)并量化對最終診斷結(jié)果的貢獻程度,Jin等人[80]提出一種3DAN網(wǎng)絡(luò)。該網(wǎng)絡(luò)引入注意力機制用于捕捉大腦重要萎縮部位,并通過注意力得分量化分析各個腦區(qū)。但是模型額外引入模塊需修改原有的網(wǎng)絡(luò)結(jié)構(gòu),導致在實際應用中以花費大量的時間成本為代價,可通過拆分網(wǎng)絡(luò)的各功能模塊生成解釋性的方法節(jié)省運行時間。
基于類激活映射等可解釋性方法可以將抽象數(shù)據(jù)映射為類激活圖,以此建立模型的可視化表達,可快速、全面地了解病灶腦區(qū)的分布特征,提高模型透明度。但該方法存在以下問題亟需解決:(1)病灶可視化方法無法與更高級的語義相關(guān)聯(lián)。將可視化特征與語義相解釋結(jié)合,并解釋可視化輸出從低級語義到高級語義的生成過程,有助于深入挖掘決策依據(jù),降低模型認知難度。(2)模型準確性與可解釋性相對立,難以平衡。一般規(guī)律下,復雜度高、參數(shù)量大的深度學習模型比結(jié)構(gòu)簡單、參數(shù)量小的模型性能水平更高,但是模型可解釋性較弱。拆分深度學習模型的功能模塊分別生成解釋然后再進行組合,是高精度復雜網(wǎng)絡(luò)模型增強可解釋性的方法之一。(3)基于醫(yī)學知識的因果推理可解釋性仍待進一步探索。利用知識圖譜將AD臨床診斷知識引入到深度學習模型中,有助于理解模型的邏輯推理過程,可有效解釋模型所做決策的真正原因。
綜上所述,深度學習方法為阿爾茨海默病輔助診斷提供了多樣性與高效性的網(wǎng)絡(luò)模型,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、自動編碼器(AE)、深度置信網(wǎng)絡(luò)(DBN)、生成式對抗網(wǎng)絡(luò)(GAN)和多網(wǎng)絡(luò)融合的方法實現(xiàn)了AD病程的高精度分類。本章對上述方法進行綜合分析,從主要思想、優(yōu)缺點三個方面進行對比總結(jié),如表2所示。
表2從深度學習的經(jīng)典網(wǎng)絡(luò)及多網(wǎng)絡(luò)融合各診斷方法的主要思想、優(yōu)劣勢進行歸納總結(jié)。為對上述方法進行更全面的對比分析,將從增強網(wǎng)絡(luò)特征表達能力、將網(wǎng)絡(luò)擴展到三維圖像、解決小樣本問題、提高泛化能力、節(jié)省計算成本五方面,對AD診斷方法面向高精度與輕量化的性能優(yōu)化方法的優(yōu)缺點和準確率進行歸納總結(jié),如表3所示。
表2 基于深度學習的AD分類診斷方法總結(jié)Table 2 Summary of deep learning-based diagnostic methods for AD classification
表3 高精度和輕量化的優(yōu)化方法對比分析Table 3 Comparison of high precision and lightweight optimization methods
(1)在增強網(wǎng)絡(luò)特征表達能力的相關(guān)算法中,采用嵌套的密集跨層連接、增加中間層的連接和輸出、改進卷積核的尺寸和步長等方法提取腦體積萎縮或局部腦代謝變化特征,高效捕獲圖像中病灶腦區(qū)。如林萬云等人[44]在模型中使用小尺寸卷積核和步長保留特征信息,采用大尺寸的卷積核和步長去除冗余信息,有效提取AD早期階段sMCI與pMCI的特征差異。
(2)在網(wǎng)絡(luò)擴展到3D圖像的相關(guān)算法中,采用構(gòu)建3D ICA_CNN、3D CNN+3D LSTM雙網(wǎng)絡(luò)、多層3D CNN集成學習等方法,從三維體素、三維ROI圖像塊和腦組織圖像塊集成中提取大腦三維結(jié)構(gòu)特征,獲取全面的空間維度信息。如Basheera等人[30]基于ICA的3D CNN逐體素分析網(wǎng)絡(luò),從全腦體素中分割提取灰質(zhì)用于病變分析,表現(xiàn)出良好的特異性和敏感性,NC/AD分類準確率達99.75%。
(3)針對小樣本訓練集改進的相關(guān)算法中,采用遷移學習、數(shù)據(jù)增強、無監(jiān)督學習等方法,實現(xiàn)有效擴充樣本量或降低對高質(zhì)量標記數(shù)據(jù)的需求。如Mehmood等人[32]采用微調(diào)VGG-19網(wǎng)絡(luò)結(jié)合數(shù)據(jù)增強的方法基于全腦體素進行AD分類診斷,NC/AD二分類準確率達98.73%。
(4)在提高模型泛化能力的相關(guān)算法中,采用跨種族數(shù)據(jù)集交叉訓練、MRI聯(lián)合PET多模態(tài)學習、結(jié)合臨床病因改進網(wǎng)絡(luò)集成算法等方法,在AD診斷應用中表現(xiàn)出更強的泛化能力,更能滿足實際臨床的需要。如Bae等人[25]考慮到種族和地區(qū)背景的差異,使用ADNI與首爾國立大學本當醫(yī)院數(shù)據(jù)集交叉訓練,增強模型跨種族患者間的通用性與泛化性。
(5)在節(jié)省計算成本和存儲開銷的相關(guān)算法中,采用擁有預訓練權(quán)重的輕量化網(wǎng)絡(luò)、密集跨層跳層結(jié)構(gòu)的網(wǎng)絡(luò)、將網(wǎng)絡(luò)底層多參數(shù)卷積塊替換為瓶頸結(jié)構(gòu)等方法,降低網(wǎng)絡(luò)復雜度,提高計算資源利用率。如Wang等人[75]在三維圖像塊的集成學習中,通過構(gòu)建3D DenseNets基分類器減輕計算壓力,NC/AD分類準確率達98.83%。
通過上述分析可知,AD分類診斷算法在分類精度和模型輕量化方面達到了較高水平,但由于病灶隱匿性與神經(jīng)影像高維性,通用的影像學診斷模型,存在病灶特征丟失的不足。為此,眾多學者展開相應研究,以降低病灶特征損失。將上述分類診斷算法進行歸納總結(jié),針對保留單模態(tài)病灶特征與捕捉多模態(tài)特征相關(guān)性兩方面的特征優(yōu)化方法進行對比分析,如表4所示。
表4 減少病灶特征損失分類診斷算法的性能對比分析Table 4 Comparative analysis of performance of diagnostic algorithm for reducing characteristic loss of lesions
(1)在保留sMRI數(shù)據(jù)單模態(tài)病灶特征的相關(guān)算法中,采用特征金字塔網(wǎng)絡(luò)、注意力patch-net等方法提取更細粒度的病灶特征,捕捉相鄰病程圖像的細微差別。如Zhu等人[38]使用帶注意力塊的patch-net提取sMRI小塊的判別特征,有助于提高早期階段MCI的分類準確率,sMCI/pMCI分類準確率達80.90%。
(2)在保留fMRI數(shù)據(jù)單模態(tài)病灶特征的相關(guān)算法中,采用3DPCANet網(wǎng)絡(luò)改進等方法提高模型對大腦紋理特征的學習能力。如賈洪飛等人[45]采用3DPCANet提取fMRI轉(zhuǎn)換圖像特征,實現(xiàn)了NC到AD間多個階段的分類診斷,sMCI/pMCI分類準確率達77.78%。
(3)在保留PET數(shù)據(jù)單模態(tài)病灶特征的相關(guān)算法中,Shen等人[58]采用在腦ROI上訓練多層DBN網(wǎng)絡(luò)等方法保留高維度神經(jīng)影像數(shù)據(jù)的深層次特征,識別AD早期階段病灶代謝特征,sMCI/pMCI分類準確率達86.60%。
(4)在捕捉sMRI、PET多模態(tài)神經(jīng)影像特征相關(guān)性的改進方法中,采用Adaboost算法、構(gòu)建MDNMF模型、多層極端學習網(wǎng)絡(luò)、SR-DBN結(jié)合主成分分析等方法捕獲兩模態(tài)特征間的高級關(guān)聯(lián)并融合形成高質(zhì)量特征表示,在AD分類診斷中具有良好的臨床應用成熟度與泛化能力。如Kim等人[55]采用多層極端學習策略構(gòu)建sELM-AE網(wǎng)絡(luò),聯(lián)合sMRI、PET模態(tài)間抽象特征表示,NC/AD分類準確率達97.12%,NC/MCI分類準確率達87.09%。
(5)在捕捉fMRI不同轉(zhuǎn)換圖像間多模態(tài)特征相關(guān)性的改進方法中,采用3DPCANet結(jié)合典型相關(guān)分析等方法提取融合轉(zhuǎn)換圖像間最相關(guān)特征與依賴關(guān)系。如Jia等人[46]采用CCA典型相關(guān)分析思想融合兩種轉(zhuǎn)換類型的圖像特征,實現(xiàn)了輸入的功能圖像變換的魯棒性,NC/AD分類準確率達92.00%。
上述分析可知,基于深度學習的阿爾茨海默病輔助診斷研究近年來獲得了廣泛關(guān)注,本章對其當前面臨挑戰(zhàn)和未來展望進行闡述。
近年來,深度學習技術(shù)的快速發(fā)展使其在AD診斷、早期預測領(lǐng)域取得了不錯的成果。雖然各神經(jīng)網(wǎng)模型已取得明顯的性能突破,但是仍面臨諸多挑戰(zhàn)。本節(jié)將深度學習在AD輔助診斷領(lǐng)域面臨的挑戰(zhàn)歸納如下:
(1)多分類診斷模型辨別MCI的準確率仍然較低。MCI是AD的前驅(qū)期,是高度可變?nèi)后w,故對sMCI和pMCI的鑒別與診斷十分重要?,F(xiàn)有的研究中NC/AD分類準確率一般在82.0%~99.0%,但是sMCI與pMCI由于樣本間差異較小,其分類準確度普遍偏低。
(2)模型性能受數(shù)據(jù)來源的限制?,F(xiàn)有的研究中基于MRI、PET等影像組學在AD的研究多為回顧性分析,不同的掃描設(shè)備、不同成像參數(shù)及不同醫(yī)學中心掃描方式會有所差異,因此會影響神經(jīng)網(wǎng)絡(luò)模型對疾病的分類效果,會出現(xiàn)模型在某個數(shù)據(jù)集上訓練效果較好,但在其他數(shù)據(jù)集上表現(xiàn)較差的情況,導致很難在實際臨床中普及應用。
(3)多模態(tài)模型的診斷性能有待提高。不同格式的數(shù)據(jù)(如:影像和化驗數(shù)據(jù))的融合算法還有待完善。而且考慮到多模態(tài)技術(shù)的實際臨床應用,模型可能受其中一模態(tài)數(shù)據(jù)丟失的影響,如果僅使用現(xiàn)有的完整模態(tài)數(shù)據(jù)進行訓練,將會進一步加重小樣本問題,導致模型的性能降低。
(4)高質(zhì)量醫(yī)學影像數(shù)據(jù)稀缺。在基于深度學習方法的研究中,模型需要大量圖像樣本進行訓練和測試以獲得更高的分類精度。AD的腦神經(jīng)影像學數(shù)據(jù)維度極高、結(jié)構(gòu)復雜且提取特征數(shù)往往遠大于樣本數(shù),易導致模型過擬合。
(5)深度學習方法的“黑盒”特性,導致模型可解釋性較差。深度神經(jīng)網(wǎng)絡(luò)中包括多個隱藏層,導致特征選擇和決策過程具有很大的不確定性?;谏疃葘W習的三維、多模態(tài)醫(yī)學圖像的AD分類涉及到與源數(shù)據(jù)不同維數(shù)的非線性卷積和池化,使得很難解釋原始數(shù)據(jù)中特征識別的重要性。
為解決AD診斷領(lǐng)域所面臨的挑戰(zhàn),深度學習技術(shù)為AD的分類診斷提供卓越性能的高精度診斷模型,今后的研究工作可側(cè)重于以下幾個方面展開:
(1)通過融合不同生物標志物數(shù)據(jù)提高AD早期診斷準確率。AD病因具有復雜性和異質(zhì)性,融合多模態(tài)比單模態(tài)方法分類效果更好。在神經(jīng)影像的基礎(chǔ)上增加其他生物標志物,如臨床診斷數(shù)據(jù)、基因數(shù)據(jù)等,有利于進一步了解阿爾茨海默病的潛在生理機制,為MCI的轉(zhuǎn)化預測提升分類精度。
(2)克服數(shù)據(jù)來源限制以加強模型實際臨床應用性。加強臨床工作者與理論技術(shù)人員的交流,實地考察放射科日常醫(yī)療環(huán)境與設(shè)備應用條件,評估成像數(shù)據(jù)來源對網(wǎng)絡(luò)性能的影響。雖然現(xiàn)有的計算機輔助系統(tǒng)仍然無法取代醫(yī)學專家,但可以提供支持信息,以提高臨床決策的可信度。
(3)挖掘模態(tài)之間的潛在聯(lián)系增強多模態(tài)模型性能。針對多模態(tài)數(shù)據(jù)的語義沖突問題,捕捉模態(tài)之間的層次關(guān)聯(lián)用于提高特征融合算法對復雜數(shù)據(jù)的融合性能。針對缺失模態(tài)問題,利用好模態(tài)之間的信息互補性,以及平衡網(wǎng)絡(luò)中富模態(tài)與缺失模態(tài)的特征權(quán)重。
(4)高維小樣本深度學習方法的研究。一方面通過技術(shù)上的手段加以克服,如無監(jiān)督學習、遷移學習、數(shù)據(jù)增廣等,另一方面利用現(xiàn)有的開放性數(shù)據(jù)庫構(gòu)建標準化的神經(jīng)影像數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡(luò),克服樣本匱乏問題。
(5)結(jié)合可視化技術(shù)提高深度學習模型可解釋性。深度神經(jīng)網(wǎng)絡(luò)結(jié)合類激活圖等可視化分析方法了解病灶腦區(qū)的分布特征,在保證決策準確率的情況下提高模型透明度,進一步解釋影像學特征與診斷結(jié)果之間的關(guān)系,輔助醫(yī)生臨床決策。
綜上所述,本文對阿爾茨海默病相關(guān)數(shù)據(jù)集、經(jīng)典深度學習網(wǎng)絡(luò)模型在阿爾茨海默病分類診斷中的應用以及深度學習模型可解釋性三個方面的相關(guān)工作進行了介紹和總結(jié)。基于對現(xiàn)有工作的綜述,重點總結(jié)了深度學習中卷積神經(jīng)網(wǎng)絡(luò)和融合多網(wǎng)絡(luò)在阿爾茨海默病分類診斷中常用的改進方法,可以作為未來研究工作的參考。相信隨著深度學習方法的不斷優(yōu)化改進,未來為阿爾茨海默病的臨床診斷與早期預測將提供更加準確、高效的輔助診斷方法。