姚麗麗,范炤
1.山西醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,山西太原 030001;2.山西醫(yī)科大學(xué)老年醫(yī)學(xué)研究所,山西太原 030001; *通訊作者 范炤fanzhao316@163.com
阿爾茨海默?。ˋlzheimer's disease,AD)是常見(jiàn)的老年癡呆癥。作為一種不可逆轉(zhuǎn)的退行性大腦疾病,患者具有認(rèn)知功能下降的特征[1]?;颊咴诨疾〕跗跓o(wú)明顯臨床表現(xiàn),致使病情延誤,最終發(fā)展為AD。目前本病尚無(wú)有效治療方法。因此,在癥狀前驅(qū)階段盡早發(fā)現(xiàn),以減緩或預(yù)防疾病尤為重要。針對(duì)這一難題,基于神經(jīng)影像系統(tǒng)計(jì)算機(jī)輔助機(jī)器學(xué)習(xí)方法成為大數(shù)據(jù)時(shí)代炙手可熱的研究課題[2]。
機(jī)器學(xué)習(xí)算法應(yīng)用于各領(lǐng)域,尤其在AD 病程的分類和預(yù)測(cè)方面取得了良好的效果[3],其中隨機(jī)森林、邏輯回歸(Logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)、決策樹等已在AD病程分類中發(fā)揮巨大優(yōu)勢(shì)。通過(guò)機(jī)器學(xué)習(xí)算法能夠早期發(fā)現(xiàn)患者,為臨床診斷提供輔助工具。LR和SVM在其他領(lǐng)域的分類效果也較為理想[4]。針對(duì)算法各自存在的不足,本研究引入L1 范數(shù)正則化對(duì)模型進(jìn)行優(yōu)化,利用AD 的結(jié)構(gòu)磁共振成像(structural magnetic resonance imaging,sMRI)數(shù)據(jù)獲得能夠識(shí)別早期AD的最優(yōu)模型,為推進(jìn)臨床輔助診斷系統(tǒng)研制提供參考。
1.1 研究對(duì)象 本研究數(shù)據(jù)來(lái)源于美國(guó)AD 神經(jīng)影像計(jì)劃(Alzheimer's Disease Neuroimaging Initiative,ADNI)數(shù)據(jù)庫(kù)。根據(jù)ADNI 標(biāo)準(zhǔn),選取2014年8月—2015年7月受教育水平(或參加工作)≥6年,且符合各組診斷標(biāo)準(zhǔn)的543例研究對(duì)象,年齡55~90歲。按照疾病發(fā)展病程分為認(rèn)知功能正常(cognitive normal,CN)組、早期輕度認(rèn)知功能下降(early mild cognitive impairment,EMCI)組、晚期輕度認(rèn)知功能下降(late mild cognitive impairment,LMCI)組和AD組。收集各組研究對(duì)象的性別、年齡、受教育程度、簡(jiǎn)易智力狀態(tài)檢查量表(mini-mental state examination,MMSE)評(píng)分以及sMRI 數(shù)據(jù)(表1)。
表1 各組研究對(duì)象一般資料比較
1.2 儀器與方法 采用Philips 3.0T 超高場(chǎng)強(qiáng)MRI 掃描儀,采集參數(shù):TR 6.8 ms,TE 3.1 ms,翻轉(zhuǎn)角9°,視野RL 204 mm、AP 240 mm、FH 256 mm,層厚1.2 mm,層數(shù)170,體素1 mm×1 mm×1.2 mm。將所得三維圖像以Freesurfer 4.3.0 軟件進(jìn)行空間標(biāo)化、圖像平滑、分割等預(yù)處理后,獲得272項(xiàng)MRI 全腦屬性指標(biāo)。
1.3 特征選擇 本研究使用嵌入式選擇法進(jìn)行特征選擇,加入懲罰項(xiàng)L1 范數(shù)正則化[5]。采用python3.7版本利用優(yōu)化后構(gòu)建的L1-LR和L1-SVM模型,對(duì)272項(xiàng)sMRI 數(shù)據(jù)和4項(xiàng)臨床資料進(jìn)行特征選擇,篩選獲得各自最優(yōu)的特征子集,發(fā)現(xiàn)各分類組別中與之相關(guān)的重要特征。
1.4 L1-LR和L1-SVM 分類模型
1.4.1 L1-LR分類模型 依據(jù)LASSO回歸模型思想,本研究得到L1-LR 分類模型算法為:
其中,w=[w0,w1,w2,…wp]T為回歸模型參數(shù),m為訓(xùn)練樣本個(gè)數(shù),隸屬類別Dm={(xi,yi)}m。
1.4.2 L1-SVM 分類模型 傳統(tǒng)SVM模型可能對(duì)離群值和無(wú)關(guān)特征缺乏魯棒性。因此本研究在SVM 中加入L1 正則化項(xiàng),并得到L1-SVM 的回歸模型:
其中,w為最優(yōu)懲罰系數(shù),w=μ-v(μ≥0,v≥0)。L1-SVM模型能夠同時(shí)實(shí)現(xiàn)研究對(duì)象的特征選擇和分類,即選擇樣本的若干特征參與模型的訓(xùn)練進(jìn)行組合優(yōu)化,從而在訓(xùn)練過(guò)程中通過(guò)生成稀疏解消除冗余特征[6]。
1.4.3 模型效能評(píng)價(jià) 將276項(xiàng)指標(biāo)進(jìn)行十折交叉驗(yàn)證劃分訓(xùn)練集與測(cè)試集并測(cè)試算法的準(zhǔn)確性,分類各組經(jīng)過(guò)兩種機(jī)器學(xué)習(xí)算法特征選擇后篩選得到各自最優(yōu)的特征子集作為訓(xùn)練模型的輸入特征。然后基于各指標(biāo)構(gòu)建CN、LMCI、EMCI、AD 各組兩兩組合的分類預(yù)測(cè)模型,以敏感度、特異度、ROC 曲線下面積(AUC)評(píng)價(jià)模型性能。
2.1 特征提取結(jié)果 本研究基于276項(xiàng)屬性提取特征,不同二分類組分別提取出與該組顯著相關(guān)的特征指標(biāo),具體為CN-EMCI組67項(xiàng)、CN-LMCI組42項(xiàng)、CN-AD組11項(xiàng)、EMCI-LMCI組56項(xiàng)、EMCI-AD組21項(xiàng)、LMCI-AD組20項(xiàng),預(yù)測(cè)相關(guān)性由大到小每組呈現(xiàn)前5位。對(duì)于CN-EMCI組,影響最大的依次為左顳橫回皮層厚度、右顳橫回表面積、MMSE評(píng)分、左島葉表面積、左額上回表面積;對(duì)于CN-LMCI組依次為左顳橫回皮層厚度、左顳下回表面積、MMSE評(píng)分、右海馬前下托海馬亞區(qū)體積和年齡;對(duì)于CN-AD組依次為MMSE評(píng)分、右海馬前下托海馬亞區(qū)體積、左海馬前下托海馬亞區(qū)體積、性別、左海馬下托海馬亞區(qū)體積;對(duì)于EMCI-LMCI組依次為左扣帶回后部皮層體積、左側(cè)腦室皮層下體積、左顳下回表面積、左額上回皮層體積、MMSE評(píng)分;對(duì)于EMCI-AD組依次為左杏仁核皮層厚度、左側(cè)腦室皮層下體積、MMSE評(píng)分、左額眶回內(nèi)側(cè)表面積、右海馬前下托體積;對(duì)于LMCI-AD組依次為MMSE評(píng)分、左額眶回內(nèi)側(cè)表面積、年齡、左眶回表面積、左顳上回皮層厚度。
2.2 L1-LR和L1-SVM 分類模型結(jié)果 結(jié)果顯示,兩種機(jī)器學(xué)習(xí)算法均獲得良好的預(yù)測(cè)效果。但基于最優(yōu)特征子集對(duì)不同分類組的預(yù)測(cè)效果不同(表2)。
表2 L1-LR和L1-SVM模型分類效果比較
L1-SVM和L1-LR兩種預(yù)測(cè)模型的AUC值在各分類組中穩(wěn)定在0.9左右,表明分類價(jià)值均較高。但L1-SVM的平均準(zhǔn)確率為91.49%,高于L1-LR的平均準(zhǔn)確率90.81%,提示L1-SVM分類器整體分類效果優(yōu)于LI-LR。L1-SVM模型的準(zhǔn)確率在區(qū)分CN-LMCI組、CN-AD組、EMCI-AD組時(shí)分別為93.63%、100.00%和99.32%。在區(qū)分CN-EMCI組和EMCI-LMCI組時(shí),L1-LR的準(zhǔn)確率更高,分別為86.94%和82.93%。除CNEMCI組外,各分類組中L1-SVM表現(xiàn)出更高的敏感度,CN-LMCI組、CN-AD組、EMCI-LMCI組、EMCIAD組和LMCI-AD組中的敏感度分別為81.36%、99.99%、62.91%、97.32%、88.21%,提示使用L1-SVM模型能夠比較準(zhǔn)確地對(duì)早期認(rèn)知功能下降患者進(jìn)行轉(zhuǎn)化預(yù)測(cè),且漏診率相對(duì)較低。此外,L1-SVM模型的準(zhǔn)確率和特異度在區(qū)分CN組和AD組時(shí)均為100.00%,AUC值為1.00。
正則化邏輯回歸作為一種模型選擇方法,已廣泛應(yīng)用于AD 分類。有研究基于功能性神經(jīng)影像數(shù)據(jù)和結(jié)構(gòu)影像數(shù)據(jù)的多體素模式進(jìn)行分析,并表現(xiàn)出優(yōu)于多數(shù)其他特征選擇方法的效果[7]。本研究發(fā)現(xiàn),L1-LR和L1-SVM 可較高效地獲取對(duì)分類模型貢獻(xiàn)較大的特征,降低數(shù)據(jù)維度,極大地提高了分類準(zhǔn)確率。這種特征選擇的方法較其他研究的主成分分析法、偏最小二乘法等的準(zhǔn)確率有較大提升,對(duì)于由MCI 向AD的轉(zhuǎn)化進(jìn)程具有良好的預(yù)測(cè)效果[8-9]。
對(duì)于各組所提取出的特征指標(biāo),最有意義的特征主要分布于顳葉和邊緣系統(tǒng),表明該部位是AD 患者的病變敏感區(qū)。顳葉內(nèi)側(cè)是AD 最早發(fā)生萎縮的部位;而海馬位于顳葉內(nèi)側(cè),占據(jù)記憶功能中的核心地位[10-11]。Vasta 等[12]研究表明,海馬亞區(qū)可能是AD 預(yù)測(cè)更適合的指標(biāo)。本研究方法進(jìn)行的特征選擇發(fā)現(xiàn),海馬前下托海馬亞區(qū)體積萎縮是區(qū)分CN-LMCI組、CN-AD組、EMCI-AD組最敏感的病理指標(biāo),表明記憶下降可作為反映疾病病程進(jìn)展的重要表現(xiàn)。對(duì)于CN-EMCI組、CN-LMCI組以及LMCI-AD組,顳橫回和顳上回萎縮對(duì)區(qū)分病程有較大意義,可作為病程轉(zhuǎn)變的預(yù)測(cè)指標(biāo)。由此可見(jiàn),聽(tīng)覺(jué)不斷減退在臨床病程判斷中可提供輔助參考。
此外,腦室增寬、側(cè)腦室皮層下體積增大可作為EMCI-LMCI組和EMCI-AD組的鑒別診斷,且集中在左側(cè)腦室。杏仁核附著在海馬末端,是識(shí)別情緒、產(chǎn)生情緒和調(diào)節(jié)情緒,控制學(xué)習(xí)和記憶的重要腦部組織[13]。左側(cè)杏仁核皮層厚度對(duì)于識(shí)別EMCI和AD組具有重要作用,臨床隨訪中關(guān)注受試者的情緒是一項(xiàng)重要內(nèi)容。綜合各種較敏感區(qū)域特征,醫(yī)師可根據(jù)受試者的病變部位異常判斷疾病分期。
既往研究多數(shù)僅基于MRI形態(tài)學(xué)指標(biāo)提取特征進(jìn)行分類,忽略了人口統(tǒng)計(jì)學(xué)指標(biāo)對(duì)病程分類的影響[14]。本研究結(jié)果顯示,MMSE評(píng)分對(duì)于病程各階段的分辨具有重要作用,尤其在區(qū)分CN-AD、LMCI-AD組時(shí)占首要地位,在識(shí)別CN 和AD 以及很難區(qū)分的LMCI向AD 轉(zhuǎn)化上,MMSE評(píng)分均是很重要的指標(biāo)。因此在進(jìn)行早期識(shí)別診斷時(shí),首先考慮MMSE評(píng)分可在很大程度上提高診斷準(zhǔn)確率。當(dāng)然,也有研究基于MRI 數(shù)據(jù)、基線認(rèn)知測(cè)量和年齡綜合考慮進(jìn)行特征選擇分類[15];而本研究基于MRI 數(shù)據(jù)、性別、年齡、受教育程度和MMSE評(píng)分共276項(xiàng)數(shù)據(jù)特征選擇后分類。兩項(xiàng)研究所用分類模型不同,但均可對(duì)各組進(jìn)行較好的區(qū)分,可見(jiàn)綜合考慮受試者的各項(xiàng)指標(biāo)更有利于提高分類的精度。此外,年齡和性別因素也對(duì)AD疾病發(fā)展具有重要影響。
對(duì)于各項(xiàng)評(píng)價(jià)指標(biāo),L1-SVM模型的整體平均準(zhǔn)確率高于L1-LR;但L1-LR 分類模型在區(qū)分CN 與EMCI組時(shí)效果更好。有研究利用SVM 和隨機(jī)森林對(duì)AD 病程進(jìn)行預(yù)測(cè),也達(dá)到了一定的預(yù)測(cè)效果[16]。單從CN-AD組分析,準(zhǔn)確率達(dá)到96.45%;而本研究構(gòu)建的L1-LR模型在該組的準(zhǔn)確率達(dá)到97.66%,其余各組的病程轉(zhuǎn)變中L1-SVM模型的預(yù)測(cè)效果優(yōu)于L1-LR,因此可為臨床早期診斷和早期干預(yù)提供更加便利、準(zhǔn)確、客觀的工具。
既往研究并未加入正則化,僅基于傳統(tǒng)統(tǒng)計(jì)學(xué)方法得出的分類結(jié)果[16]。本研究中,L1-SVM模型預(yù)測(cè)性能更高,在區(qū)分CN-EMCI、CN-LMCI、CN-AD、EMCI-LMCI、EMCI-AD、LMCI-AD 這6組中,預(yù)測(cè)準(zhǔn)確率分別提高了18.65%、19.63%、9.10%、9.88%、12.65%、18.49%。
本研究發(fā)現(xiàn)基于MRI 數(shù)據(jù)提出的機(jī)器學(xué)習(xí)算法可提取到更有利于AD 分類的特征,并能夠具體給出不同兩組中價(jià)值最大的特征,從而針對(duì)各階段病情及時(shí)做出干預(yù),遏制病情的發(fā)展。本研究尚存在不足,后期會(huì)增加樣本量繼續(xù)研究,也可結(jié)合多模態(tài)影像數(shù)據(jù),如功能MRI、擴(kuò)散張量成像、正電子發(fā)射斷層顯像等進(jìn)一步構(gòu)建模型,以提高AD 的預(yù)測(cè)。
中國(guó)醫(yī)學(xué)影像學(xué)雜志2021年2期