劉鴻麗 秦小麟 曹銳 陳俊杰 劉峰 郭浩
摘要:功能腦網(wǎng)絡(luò)中不同的模板定義導(dǎo)致網(wǎng)絡(luò)規(guī)模差異極大,進一步影響所構(gòu)建網(wǎng)絡(luò)的結(jié)構(gòu)及其拓撲屬性。但是,在機器學(xué)習(xí)方法中網(wǎng)絡(luò)規(guī)模差異是如何影響特征選擇策略及分類準確率并不清楚。研究中采用5種不同節(jié)點規(guī)模的模板進行腦網(wǎng)絡(luò)構(gòu)建,在此基礎(chǔ)上選擇腦網(wǎng)絡(luò)的三個局部特征用SVM方法構(gòu)建分類器進行抑郁癥患者的識別。結(jié)果表明,節(jié)點規(guī)模較大的模板的分類準確率較高;同時,在不同節(jié)點規(guī)模下傳統(tǒng)的P值的特征選擇方法均是可行的,但其閡值設(shè)置過于嚴格。
關(guān)鍵詞:功能腦網(wǎng)絡(luò);特征選擇;特征分類;節(jié)點規(guī)模;分類器;實驗分析
中圖分類號:TN915-34;TP181
文獻標識碼:A
文章編號:1004-373X( 2019) 24-0158-05
0 引言
近年來,隨著功能腦網(wǎng)絡(luò)研究的深入,越來越多的研究人員發(fā)現(xiàn)功能網(wǎng)絡(luò)的豐富拓撲結(jié)構(gòu)信息可用作各種神經(jīng)精神類疾病的生物學(xué)標志[1-2]。而所提取的網(wǎng)絡(luò)拓撲特征被廣泛應(yīng)用于分類模型的構(gòu)建中,以此進行腦疾病的輔助診斷。先前的研究中所選擇的拓撲屬性特征通常包括全局屬性、局部屬性[3]、社團結(jié)構(gòu)[4]等。一些研究人員提出了新的網(wǎng)絡(luò)特征分析方法,并應(yīng)用在腦疾病的機器學(xué)習(xí)研究中,如超圖”,、高序網(wǎng)絡(luò)、最小生成樹[6]、頻繁子圖[7]等。腦網(wǎng)絡(luò)拓撲屬性特征為磁共振影像與機器學(xué)習(xí)的結(jié)合研究提供了新的視角。
目前,這個領(lǐng)域仍在探索階段,許多方法論的問題有待解決。其中一個重要的問題便是如何進行合理的模板選擇以定義網(wǎng)絡(luò)的節(jié)點。先前的研究發(fā)現(xiàn),采用不同的腦網(wǎng)絡(luò)分割模板而導(dǎo)致的不同的節(jié)點規(guī)模,對所構(gòu)建網(wǎng)絡(luò)的結(jié)構(gòu)及其拓撲屬性會產(chǎn)生很大的影響。此外,節(jié)點規(guī)模對網(wǎng)絡(luò)的影響還體現(xiàn)在以網(wǎng)絡(luò)拓撲屬性作為特征的分類中。將不同節(jié)點數(shù)量中網(wǎng)絡(luò)的異常特征應(yīng)用到機器學(xué)習(xí)中,也會對分類準確性造成影響。在為數(shù)不多的研究中,文獻[8]用AAL-90(90個節(jié)點)和AAL-1 024(1 024個節(jié)點)兩個模板研究抑郁癥患者的識別性能,結(jié)果發(fā)現(xiàn)AAL-1024模板的識別性能優(yōu)于傳統(tǒng)模板AAL90;文獻[9]用AAL(90個節(jié)點)和LPBA40(54個節(jié)點)兩個模板來研究腦模板和特征選擇對阿爾茨海默病預(yù)測的影響,得到的結(jié)論是節(jié)點數(shù)量少時分類準確率低。前人研究驗證了網(wǎng)絡(luò)節(jié)點數(shù)量會對分類準確率產(chǎn)生影響,而且他們的結(jié)論是一致的:節(jié)點數(shù)量多的模板的準確率是要高于節(jié)點數(shù)量少的模板。但是,上述工作存在的潛在問題是使用的模板數(shù)量不多(只有兩個),結(jié)果缺乏可對比性。此外,上述研究選用了P值作為特征選擇方法(閾值設(shè)置為0.05或0.01),忽略了其他特征對分類的可能貢獻。
在此背景下,本文以抑郁癥為疾病模型,采用5個不同節(jié)點分割,分別構(gòu)建、分析靜息態(tài)功能腦網(wǎng)絡(luò)并提取具有組間差異的網(wǎng)絡(luò)局部拓撲屬性作為可判別性分類特征應(yīng)用到分類器,研究節(jié)點規(guī)模對于特征選擇策略、分類準確率的影響。
1 實驗材料
研究中共有66名被試,其中有38名首發(fā)、無用藥、重度抑郁癥患者作為抑郁組,28名年齡性別匹配的健康志愿者作為對照組。實驗前同每位參與者(對照組與本人,抑郁組與家屬)均達成了書面協(xié)議。被試的基本信息如表1所示。表中,數(shù)據(jù)范圍為最小值至最大值(平均值+標準差);HAMD為24項漢密爾頓量表值;aP值由雙樣本雙尾T檢驗獲得;bp值為由雙尾皮爾遜卡方檢驗獲得。
研究中數(shù)據(jù)的采集工作是在山西醫(yī)科大學(xué)第一醫(yī)院完成的,所有的掃描工作由熟悉磁共振操作的放射科醫(yī)生來完成。在掃描的過程中,要求被試閉眼、放松、不去想特定的事情,但要保持清醒不能睡著。掃描的參數(shù)如下:射頻重復(fù)時間(TR)=2 s,存儲矩陣=64 mmx64 mm,回波時間(TE)=30 ms,層間間隔=0 mm,層厚=4.0 mm,成像視野(FOV)=192 mmx192 mm。使用DPARSF軟件進行數(shù)據(jù)預(yù)處理。首先棄除頭動大于3 mm或轉(zhuǎn)動大于3。的被試數(shù)據(jù),然后根據(jù)標準的EPI模板將圖像在MNI標準空間上進行空間標準化,最后進行線性去模糊和低頻帶通濾波( 0.01-0.10 Hz),以降低低頻漂移及高頻的生物噪聲。
2 腦網(wǎng)絡(luò)的構(gòu)建
每個被試的腦網(wǎng)絡(luò)構(gòu)建過程包括節(jié)點定義與邊的定義。
2.1 節(jié)點的定義
采用K-means聚類算法得到不同節(jié)點數(shù)量的分割模板。K-means聚類的隨機種子體素法是基于AAL模板細分大腦區(qū)域,以定義不同的分割。具體方法如下:
1)選擇250個,500個,1 000個和1 500個節(jié)點作為預(yù)期節(jié)點數(shù)目。用原始的90個節(jié)點的AAL模板,總共獲得5個不同的分割模板。
2)計算原有AAL模板中每個腦區(qū)占所有腦區(qū)的體素比例V。然后,得到AAL原有腦區(qū)可細化的子區(qū)域的個數(shù)k= VN。
3)在原有腦區(qū)中設(shè)置k個隨機種子體素S=S1,S2,…,Sk。然后計算一個新的體素v與所有的后個種子體素之間的距離。
4)計算距離后,將當前體素v與最近體素si結(jié)合,定義新的子區(qū)域,將v和si的物理中心設(shè)置為新的種子體素。
5)重復(fù)上述步驟,直到全腦的所有體素都分開為止。此時,大腦區(qū)域被分成k個區(qū)域,當所有腦區(qū)完成劃分后,即可得到預(yù)期節(jié)點規(guī)模Ⅳ下的腦區(qū)劃分。
研究完成了5種節(jié)點規(guī)模的定義,標記為AAL90,Parc256,Parc497,Parc1003和Parc1501。前綴AAL旨在表示原始的AAL模板,前綴Parc表示使用上述算法確定的模板。
2.2 連接定義和閾值選擇
采用皮爾遜相關(guān)系數(shù)計算兩個節(jié)點之間的平均相關(guān)系數(shù),表示兩個節(jié)點之間的相關(guān)性,進一步作為網(wǎng)絡(luò)中節(jié)點之間邊的定義。通過對每個節(jié)點的平均時間序列的計算,產(chǎn)生Ⅳ×Ⅳ相關(guān)矩陣。這里,Ⅳ是給定分割中的節(jié)點的數(shù)量,數(shù)學(xué)定義如下:n表示模板中的節(jié)點數(shù)量。
在目前的研究中,根據(jù)預(yù)定的閾值,將相關(guān)矩陣轉(zhuǎn)換成二進制矩陣。通過稀疏度S進行閾值設(shè)置,5是實際存在的邊數(shù)與可能存在的最大邊數(shù)的比值。稀疏性定義方法在以前的類似研究中廣泛采用。為了在統(tǒng)一的空間內(nèi)進行比較,采用90個節(jié)點下的閾值空間S( 5%,40%)為標準,并且在該閾值空間內(nèi)以步長為0.5的所有稀疏度下,構(gòu)建所有被試的腦功能網(wǎng)絡(luò),每個被試均有8個不同稀疏度的網(wǎng)絡(luò)。
2.3 網(wǎng)絡(luò)指標
網(wǎng)絡(luò)指標是從不同層面刻畫網(wǎng)絡(luò)的拓撲屬性。在當前的研究中,選擇了三個局部指標,包括度、節(jié)點效率和中間中心性。
2.3.1 度
度為腦網(wǎng)絡(luò)中與該節(jié)點之間有連接的節(jié)點總數(shù),表示該節(jié)點在腦網(wǎng)絡(luò)中的連通性。節(jié)點i的度k(i)數(shù)學(xué)定義為:
網(wǎng)絡(luò)中節(jié)點m與節(jié)點n有多條連接路線。式中:σmn表示節(jié)點m與節(jié)點n連接中的最短路徑的條數(shù);σmn(i)表示節(jié)點m與節(jié)點n的連接中經(jīng)過特定節(jié)點i的最短路徑的條數(shù)。
為了表征指標在完整稀疏度空間下的整體特性,本文計算了每個指標的曲線下面積(Area Under theCurve,AUC)。AUC提供了一種測量網(wǎng)絡(luò)節(jié)點屬性在不同稀疏下總的變化強度的方法。該方法已應(yīng)用在研究中,同時有過相關(guān)報道,并被證明其對腦網(wǎng)絡(luò)拓撲屬性的改變是非常敏感的。AUC的數(shù)學(xué)公式如下:
3 特征選擇及分類器
本文研究中選擇度、中間中心度和節(jié)點效率三個局部指標作為特征。為了找到特征的最優(yōu)子集,避免過度擬合,提升模型性能,更快地訓(xùn)練分類器,需要在分類前進行特征選擇。選擇統(tǒng)計顯著性P值作為分類特征選擇方法(P<0.05,F(xiàn)DR校驗)。
由于SVM方法對小樣本數(shù)據(jù)具有良好的分類效果,選擇它作為分類器[10]。它是基于Matlab的LIBSVM工具包進行分類,并且使用10折交叉驗證(10-FoldC ross Validation)的方法來評估分類器的泛化性能。具體的過程是將所有的被試隨機分成10等分,逐一將其中的一等分作為測試集,剩余的9等分是訓(xùn)練集,最后對10次結(jié)果的均值作為對分類器性能評估。同時,為了得到更精確的結(jié)果,本實驗進行100次10折交叉驗證,最后對100次的結(jié)果求均值得到最終的結(jié)果。
4 分類特征評估
為了評估所選特征與分類器的關(guān)聯(lián)性,研究中采用了最大相關(guān)最小冗余(minimum Redundancy MaximumRelevance,mRMR)算法[11]。此方法通過互信息來判斷特征與類別之間的關(guān)聯(lián)程度以及特征間的相似程度,以評估特征有效性。其中,MID指標代表最大相關(guān)與最小冗余的差,即信息差。R指標為判別性特征之間依賴性關(guān)系的一種描述,它要求每個判別性特征之間的相關(guān)性最小,即最小冗余原則。最大相關(guān)與最小冗余的術(shù)語表見表2。表2中:,表示兩個變量的互信息;D表示判別性特征與類別之間的互信息值;h表示數(shù)據(jù)集的類別,l引表示判別性特征集的個數(shù);R表示特征間的冗余性。研究中選擇mRMR作為分類特征的評估方法是基于Matlab平臺的mRMR工具包。
5 實驗結(jié)果與分析
5.1 特征選擇與分類結(jié)果
本實驗使用重度抑郁癥數(shù)據(jù)分別構(gòu)建了5個節(jié)點規(guī)模的功能連接網(wǎng)絡(luò),并且將網(wǎng)絡(luò)的度、中間中心度、節(jié)點效率三個局部屬性定義為特征。對于不同的腦網(wǎng)絡(luò)節(jié)點數(shù)量,將不同稀疏度下的局部屬性使用AUC值統(tǒng)一后,分別得到的特征數(shù)量總數(shù)為270 (AAI90),768(Parc256),1 491 (Parc497),3 009 (Parc1003)和4 503(Parc1501)個。研究中,選擇統(tǒng)計顯著性P值作為特征選擇方法,選擇具有顯著差異的局部拓撲屬性作為判別性特征(P<0.05,F(xiàn)DR校驗)。多節(jié)點規(guī)模下辨別性特征的數(shù)量與分類器的準確率,敏感性及特異性如表3所示。結(jié)果表明,隨著網(wǎng)絡(luò)節(jié)點數(shù)量的增多,每種局部屬性的判別性特征的數(shù)目隨之增加,而且分類器的分類準確率也呈上升趨勢。表中:D(Degree)表示度;NE(NodeEfficiency)表示節(jié)點效率;BC( Beteenness Centrality)表示中間中心性。
5.2 P值特征選擇方法
為了驗證統(tǒng)計顯著性P值作為5個模板的特征選擇方法的表現(xiàn),研究中對每個規(guī)模分別進行了特征的P值與MID值的關(guān)聯(lián)分析。結(jié)果表明,所有規(guī)模中,P值與MID值二者均存在顯著負相關(guān),如圖1所示。圖1表明,利用統(tǒng)計顯著性P值進行可判別性特征選擇與機器學(xué)習(xí)方法同樣有效,同時其并不受節(jié)點規(guī)模差異的影響。
此外,為了分析全部特征的分類表現(xiàn),并發(fā)現(xiàn)最優(yōu)特征子集,文中對所有特征按照P值進行排序,并以3為步長遞增進行特征篩選,之后將所得特征用以訓(xùn)練分類模型。考慮到計算消耗,每個特征子集的分類重復(fù)5次。多個節(jié)點規(guī)模下不同特征數(shù)量對應(yīng)的平均分類準確率如圖2所示。結(jié)果表明,所有尺度均表現(xiàn)出類似的趨勢。同時,隨著初期特征數(shù)量的增加,分類準確率會持續(xù)上升。之后隨著所增加的特征的有效性降低,分類準確率逐步下降。特別是,當把每個尺度的所有特征全部作為分類特征進行分類器構(gòu)建時,準確率均為50%左右。
同時,5個尺度的分類結(jié)果均體現(xiàn)出傳統(tǒng)方法中對P值的閾值設(shè)定0.05,并非最優(yōu)值。圖中虛線表示P=0.05時的特征數(shù)目對應(yīng)的分類準確率,且分類準確率仍處于上升期。圖中黑色最高準確率對應(yīng)的特征數(shù)及近似P值分別為:39/0.162,111/0.119,204/0.115,324/0.096及654/0.126,這一結(jié)果暗示著,以P<0.05作為特征篩選的閾值過于嚴格,以致無法得到最高準確率。最優(yōu)特征子集的構(gòu)建是一個復(fù)雜的問題,這一問題涉及到特征數(shù)目、特征選擇的方法、特征的有效性等方面。而特征數(shù)目對分類器性能,同樣具有重要作用。從統(tǒng)計學(xué)角度,P<0.05的閾值設(shè)置能夠充分保證所篩選的特征具有顯著的統(tǒng)計學(xué)意義。但是,不得不說,這一設(shè)置從機器學(xué)習(xí)角度而言,顯得過于嚴格,以至于所得到的特征較少,應(yīng)該考慮更為寬松的閾值設(shè)置。
6結(jié)語
在機器學(xué)習(xí)方法中,研究分析了網(wǎng)絡(luò)規(guī)模差異是如何影響分類準確率及特征選擇策略。在利用P<0.05為特征選擇策略時,研究發(fā)現(xiàn)更大的網(wǎng)絡(luò)規(guī)模所帶來的分類準確率是更高的。同時,研究中在不同節(jié)點尺度下傳統(tǒng)的P值的特征選擇方法均是可行的,這一假設(shè)得到驗證。值得注意的是,P<0.05的閾值設(shè)置,能夠充分保證所篩選的特征具有顯著的統(tǒng)計學(xué)意義。但是,不得不說,這一設(shè)置從機器學(xué)習(xí)角度而言顯得過于嚴格,以至于所得到的特征較少,應(yīng)該考慮更為寬松的閾值設(shè)置。
參考文獻
[1] GARETH B,LIBUSE P,ANDREW C,et al.Thalamocorticalconnectivity predicts cognition in children born preterm [J]. Ce-rebral cortex. 2015. 25: 4310-4318.
[2] HAN K,MAC DONALD C L,JOHNSON A M. et al.Disrupt-ed modular organization of resting-state cortical functional con-nectivity in U.S. military personnel following concussive' mild'blast - related traumatic brain injury [J]. Neuroimage. 2014,84:76-96.
[3] GARRISON K A. SCHEINOST D. FINN E S. et al. The sta-bility of functional brain network measures across thresholds[J]. Neuroimage , 2015 . 118 : 651-661.
[4]李越.郭浩,陳俊杰,等,抑郁癥功能腦網(wǎng)絡(luò)社團結(jié)構(gòu)差異分析研究[J].計算機應(yīng)與軟件 , 2013( 7) : 52-56.
LI Yue. GUO Hao, CHEN Junjie, et al. Differences in associ-ation structure of functional brain network for depression [J].Computer application and software. 2013(7) : 52-56.
[5] JIE B, WEE C Y, SHEN D. et al. Hyper-connectivity of func-tional networks for brain disease diagnosis [J]. Medical imageanalysis, 2016, 32: 84.
[6] TEWARIE P. HILLEBRAND A, SCHOONHEIM M M. et al.Functional brain network analysis using minimum spanningtrees in multiple sclerosis : an MEG source - space study [J].Neurolmage, 2014( 88) : 308-318.
[7] JIE B, ZHANG D. GAO W, et al. Integration of network topo-Iogical and connectivity properties for neuroimaging classifica-tion [J]. IEEE transactions on biomedical engineering, 2014,61(2) : 576-589.
[8] JING B, LONG Z, LIU H, et al. ldentifying current and remit-ted major depressive disorder with the Hurst exponent : a com-parative study on two automated anatomical labeling atlases [J].Oncotarget, 2017( 8) : 904-912.
[9] OTA K, OISHl N. ITO K. et al. Effects of imaging modali-ties. brain atlases and feature selection on prediction of Al-zheimerWs disease [J]. Journal of neuroscience methods. 2015( 14 ) : 217-225.
[10] FEI Y, YUAN L X. FU S L. et al. An improved chaotic fruitfly optimization based on a mutation strategy for simultaneousfeature selection and parameter optimization for SVM and itsapplications [J]. PLOS ONE. 2017. 12(4) : 14-16.
[11] ZHANG N, ZHOU Y. HUANG T. et al. Discriminating be-tween lysine sumoylation and lysine acetylation using mRMRfeature selection and analysis [J]. PLOS ONE. 2014(9) : 142- 151.
作者簡介:劉鴻麗(1992-),女,山西呂梁人,碩士,研究方向為人工智能、智能信息處理與腦影像學(xué)。