薛曉倩,李 瑤,梁家瑞, ,孫 超,郭 浩
1(太原理工大學(xué) 信息與計算機(jī)學(xué)院,山西 晉中 030600)2(太原理工大學(xué) 軟件學(xué)院,山西 晉中 030600)
研究發(fā)現(xiàn),大腦的自發(fā)神經(jīng)元活動和低頻血氧水平依賴(Blood Oxygen Level-Dependent,BOLD)信號有密切的聯(lián)系[1],這表明在靜息狀態(tài)下,BOLD信號構(gòu)建的功能連接網(wǎng)絡(luò)能夠反映大腦區(qū)域之間的交互活動.在過去的幾年中,靜息態(tài)功能磁共振成像技術(shù)不斷發(fā)展,腦功能網(wǎng)絡(luò)作為大腦交互的簡化表示已被廣泛地應(yīng)用在抑郁癥[2]、阿爾茨海默癥[3]等精神疾病的研究中.
在傳統(tǒng)的功能連接方法中,往往是圖形化模型[4]和基于相關(guān)性分析方法[5]等占據(jù)主要位置,然而它們都存在不足之處:圖形化模型依賴于圖的先驗知識[6];基于相關(guān)性分析方法則存在兩個主要問題:1)其構(gòu)建的連接不保證絕對可靠,可根據(jù)自定義閾值選擇連接,因此存在虛假連接[7];2)由于其連接網(wǎng)絡(luò)是兩兩關(guān)系的映射,因此不能解決大腦信息傳遞的高階互動過程[6].
相關(guān)的研究證明,大腦的信息傳遞在局部場電位、神經(jīng)元同位素示蹤以及皮層活動中均存在明顯的高階交互[8].因此,超網(wǎng)絡(luò)被提出[9].腦區(qū)對應(yīng)網(wǎng)絡(luò)中的節(jié)點(diǎn),如果一個腦區(qū)與其他腦區(qū)之間有交互,則認(rèn)為這些腦區(qū)中存在超邊.
傳統(tǒng)的超網(wǎng)絡(luò)通過LASSO方法進(jìn)行構(gòu)建,然而該方法存在兩個問題:1)LASSO中的懲罰函數(shù)對系數(shù)的過強(qiáng)壓縮,導(dǎo)致模型中目標(biāo)變量回歸系數(shù)并不是無偏估計或近似無偏估計;2)LASSO是單一變量選擇模型,缺乏組效應(yīng)的解釋能力,這使得所構(gòu)建的腦功能超網(wǎng)絡(luò)將有可能失去一些重要的具有明顯神經(jīng)學(xué)意義解釋的連接.目前對后者的解決方法主要是通過引入分組的方法模型,如組LASSO[10]、 稀疏組LASSO[11]以及彈性網(wǎng)[12,13]方法.然而組LASSO和彈性網(wǎng)均是基于LASSO方法的延伸,而稀疏組LASSO則是組LASSO方法的延伸,因此上述方法同樣存在懲罰函數(shù)對系數(shù)的過強(qiáng)壓縮的問題,導(dǎo)致構(gòu)建的超網(wǎng)絡(luò)也許過于嚴(yán)格,從而失去一些重要的連接.
因此,本文提出兩種基于極小極大凹懲罰(The Minimax Concave Penalty,MCP)的無偏稀疏模型:組MCP[14]和復(fù)合MCP[15,16],通過解決稀疏線性回歸模型進(jìn)行超網(wǎng)絡(luò)構(gòu)建.MCP具有變量選擇連續(xù)性和無偏性,不會出現(xiàn)懲罰函數(shù)對系數(shù)的過強(qiáng)壓縮的問題.兩種方法均能解決組效應(yīng)問題,不同的是,組MCP方法將MCP懲罰僅應(yīng)用到組級,解決了組效應(yīng)問題;而復(fù)合MCP方法則把MCP懲罰既用作組級懲罰函數(shù),又作為組內(nèi)懲罰函數(shù),分別在組級和組間對變量進(jìn)行選擇.兩種方法對系數(shù)的壓縮程度不同,構(gòu)建出來的超網(wǎng)絡(luò)也不同.
研究結(jié)果表明,兩種方法均優(yōu)于傳統(tǒng)方法,而兩種方法所構(gòu)建的腦功能超網(wǎng)絡(luò)結(jié)構(gòu)有較大差異,考慮到是兩種懲罰函數(shù)對回歸系數(shù)的壓縮方式導(dǎo)致的,復(fù)合MCP方法構(gòu)建的超網(wǎng)絡(luò)的超邊數(shù)相較于組MCP方法分布集中,而組MCP方法的超邊分布較為分散;選取超網(wǎng)絡(luò)組間差異拓?fù)渲笜?biāo)為分類特征,利用支持向量機(jī)(Support Vector Machine,SVM)方法構(gòu)建分類模型.復(fù)合MCP具有最好的分類效果和較高的分類權(quán)重;最后,進(jìn)一步分析了方法模型中的各個參數(shù),探究方法參數(shù)和分類器參數(shù)以及顯著性腦區(qū)對方法是否產(chǎn)生影響.本文提出的方法一定程度上解決了無偏稀疏腦功能超網(wǎng)絡(luò)構(gòu)建過程中的組效應(yīng)問題,所構(gòu)建的腦功能超網(wǎng)絡(luò)可以更好地表達(dá)抑郁癥患者與正常對照的結(jié)構(gòu)差異,具有重要的理論意義和臨床價值.
本文嚴(yán)格按照山西醫(yī)學(xué)倫理委員會的要求(會議號:2012013),在該項研究實(shí)施之前,與每位參與者均達(dá)成了書面協(xié)議.根據(jù)赫爾辛基宣言,書面知情同意書由實(shí)驗中的每一個被試簽署.總共招募了66名被試,其中包括38名首發(fā),無用藥重度抑郁癥患者(Major Depression Disorder,MDD)(15名男性)和28名健康右利手志愿者(13名男性).靜息狀態(tài)下,應(yīng)用3T磁共振掃描儀(Siemens Trio 3-Tesla scanner,Siemens,Erlangen,Germany)對他們進(jìn)行功能磁共振成像(fMRI)掃描.被試的具體情況可參照表1.
表1 被試的具體信息Table 1 Specific information of participants
山西醫(yī)科大學(xué)第一醫(yī)院完成數(shù)據(jù)采集任務(wù),并且由精通磁共振技術(shù)的放射科醫(yī)師完成掃描任務(wù).被試在進(jìn)行掃描時也有相應(yīng)的要求,即被試需要在放松的狀態(tài)下閉上眼睛,但不能入睡,需要保持清醒,也不進(jìn)行特定的思考.每個掃描的結(jié)果是248個連續(xù)的EPI功能圖像,其中的掃描參數(shù)有如下設(shè)置:33 axial slices,echo time(TE)= 30ms,repetition time(TR)=2000ms,thickness/skip = 4/0 mm,flip angle = 90°,matrix = 64×64 mm,field of view(FOV)=192×192 mm.前10個功能圖像的時間序列由于被試對環(huán)境的自適應(yīng)性以及初始磁共振信號的不穩(wěn)定性而被丟棄.
表1中的a值表示通過雙值雙尾t檢驗得到P值;b值表示通過雙尾Pearson卡方檢驗得到P值.用SPM8[注]http://www.fil.ion.ucl.ac.uk/spm.來完成數(shù)據(jù)的預(yù)處理過程.首先,頭動校正和時間片校正必不可少,而在校正過程中,抑郁組和對照組中分別出現(xiàn)2例轉(zhuǎn)動大于3度或者頭動大于3毫米的被試,因此棄除這些被試的掃描數(shù)據(jù).需要注意的是,最后的66例樣本數(shù)據(jù)中不包含那些被丟棄的數(shù)據(jù).接著,圖像經(jīng)過優(yōu)化仿射變換會被標(biāo)準(zhǔn)化到MNI(Montreal Neurological Institute,MNI)的標(biāo)準(zhǔn)空間中.最后,為降低生物高頻噪音和低頻漂移的影響,對數(shù)據(jù)進(jìn)行帶通濾波(0.01-0.10Hz)和線性降維.
腦區(qū)分割時使用AAL[17](Anatomical Automatic Labeling,AAL)模板,得到90個感興趣解剖區(qū)域(Region Of Interest,ROI),它們均等分布在兩個腦半球中,這一模板已廣泛應(yīng)用在同類研究中[18].腦網(wǎng)絡(luò)中的一個節(jié)點(diǎn)可以由一個感興趣 解剖區(qū)域表示,因此90個感興趣解剖區(qū)域可以看成90個節(jié)點(diǎn)分布在腦網(wǎng)絡(luò)當(dāng)中.首先,按照超圖的基本定義[19],提取各腦區(qū)的時間序列信號,腦區(qū)之間的關(guān)聯(lián)關(guān)系可通過計算獲得;然后,由于頭動校正和白質(zhì)信號以及平均腦脊髓液會對信號產(chǎn)生影響,因此需要排除它們的影響,進(jìn)行腦區(qū)時間序列的回歸分析;最后,依據(jù)腦區(qū)的時間序列,在兩種方法模型下構(gòu)建腦功能超網(wǎng)絡(luò).
變量選擇一直是構(gòu)建模型的熱門方法,自LASSO方法被提出以來,各種變量選擇方法層出不窮.在對LASSO模型分析研究后發(fā)現(xiàn),最初人們只是著眼于其僅僅作為一種單變量選擇方法,無法解決組效應(yīng)問題,因而提出各種組級選擇方法.事實(shí)上,LASSO模型不僅存在以上問題,其懲罰函數(shù)對系數(shù)還具有過強(qiáng)壓縮的特性,從而導(dǎo)致模型中目標(biāo)變量回歸系數(shù)的有偏估計.而隨后的諸多方法則是在對LASSO方法缺乏組效應(yīng)解釋能力情況下的改進(jìn),同樣存在系數(shù)的過強(qiáng)壓縮問題.
因此,本文提出使用MCP懲罰函數(shù),該函數(shù)具有LASSO不具有的良好性質(zhì),將其應(yīng)用到組級,既不會對系數(shù)過度壓縮,又能解決組效應(yīng)問題.基于MCP懲罰,提出兩種變量選擇方法構(gòu)建超網(wǎng)絡(luò),分別是組MCP方法和復(fù)合MCP方法.
2.2.1 組MCP方法構(gòu)建超網(wǎng)絡(luò)
組MCP是將MCP懲罰應(yīng)用到組級上形成的.MCP是一種單一變量選擇方法,具有同步選擇一致性和漸近無偏性[20].這種性質(zhì)意味著該模型漸近等效于最大似然模型的擬合,在該模型中,事先已知真正非零系數(shù)的恒等式[21].將MCP擴(kuò)展到組級,就得到了組MCP,能在組級上對變量進(jìn)行選擇.
組MCP定義如下[14]:
(1)
(2)
構(gòu)建方法如下:首先,使用協(xié)調(diào)下降算法實(shí)現(xiàn)組MCP的稀疏線性回歸;然后,將每一個ROI表示為一個節(jié)點(diǎn),通過變化λ的值來構(gòu)建超邊,根據(jù)αk中的非零項構(gòu)建超邊,通過在指定范圍內(nèi)變化λ值可以產(chǎn)生一定數(shù)目的超邊;最后,將不同λ值構(gòu)建出來的網(wǎng)絡(luò)合并為一個,最終的超網(wǎng)絡(luò)是一個具有90個節(jié)點(diǎn),810條超邊的90×810的矩陣.γ采用默認(rèn)值3.
2.2.2 復(fù)合MCP方法構(gòu)建超網(wǎng)絡(luò)
組MCP方法只能反映組級選擇,未體現(xiàn)組間選擇,因此引入復(fù)合MCP[15]方法,它也是近似無偏稀疏模型.通過將MCP懲罰同時用作內(nèi)部懲罰和外部懲罰,可以實(shí)現(xiàn)雙級選擇,既能在組間選擇變量,又能選擇組內(nèi)的重要變量.復(fù)合MCP方法的這種懲罰方式意味著它既可以在組間產(chǎn)生稀疏度,又能在組內(nèi)保持稀疏性,因而可以同時選擇組間變量和該組內(nèi)的變量.
復(fù)合MCP方法定義如下[16]:
(3)
式中各參數(shù)與上述公式(1)中的相應(yīng)參數(shù)有相同的含義.φλ,η(·)為MCP懲罰:
(4)
復(fù)合MCP方法首先把MCP懲罰應(yīng)用于各個組間變量選擇上,然后在組級加入MCP懲罰,變量是否進(jìn)入模型取決于模型自身以及它所屬于的組.因此,該變量也許進(jìn)入模型,也可能不進(jìn)入模型而被消除.實(shí)驗過程與組MCP相似,不同之處在于進(jìn)行稀疏線性回歸模型求解時的懲罰函數(shù)為復(fù)合MCP,通過在一定范圍內(nèi)變化λ的值可以構(gòu)建一定數(shù)目的超邊.γ1和γ2均采用默認(rèn)值3.
構(gòu)建功能連接超網(wǎng)絡(luò)之后,選擇超網(wǎng)絡(luò)中每個頂點(diǎn)的屬性值作為特征.對已構(gòu)建的超網(wǎng)絡(luò)進(jìn)行指標(biāo)計算,聚類系數(shù)如今已廣泛用于衡量網(wǎng)絡(luò)的局部屬性,這3類指標(biāo)統(tǒng)稱為HCC指標(biāo),該指標(biāo)下有3種聚類系數(shù),分別具有不同的定義[23],分別記作HCC1、HCC2以及HCC3.
(5)
(6)
(7)
公式(5)計算與節(jié)點(diǎn)v不存在連接的相鄰節(jié)點(diǎn)的數(shù)目.節(jié)點(diǎn)用u,t,v表示,N(v)是集合,指超邊中除了節(jié)點(diǎn)v以外,還包括其它節(jié)點(diǎn)的集合.如果E表示邊集,ei表示某一條超邊,則I(u,t,v)=1當(dāng)且僅當(dāng)?ei∈E,u,t∈ei,但v?ei;否則I(u,t,v)=0.HCC1查找不包含u的鄰居之間的連接,HCC1的優(yōu)點(diǎn)是,在這個集合中發(fā)現(xiàn)的任何交互都可能表示鄰居之間的真實(shí)連接.它的缺點(diǎn)在于可能過分關(guān)注于那些次要的共享連接,這些連接與u的交互沒有什么關(guān)系.
公式(6)計算與節(jié)點(diǎn)v存在連接關(guān)系的相鄰節(jié)點(diǎn)的數(shù)目,式中各相同參數(shù)的含義同上.如果?ei∈E且u,t,v∈ei,則I′(u,t,v)=1.HCC2查找那些包含u的鄰居的連接,這種方式找到的邊真實(shí)地反應(yīng)了u和鄰居之間的聚集.但是需要注意這種連接可能只是與u共享連接的人工數(shù)據(jù).
公式(7)計算超邊之間的重疊量,具體指節(jié)點(diǎn)v的相鄰超邊,式中各相同參數(shù)的含義同上.|e|表示超邊中包含的節(jié)點(diǎn)數(shù)目;S(v)指超邊集合,這些超邊中都含有節(jié)點(diǎn)v,且S(v)={ei∈E:v∈ei}.通過鄰域超邊的重疊量來衡量鄰域的密度.其分子表示與u相關(guān)聯(lián)的超邊的頂點(diǎn)個數(shù).分母表示這種重疊可能的數(shù)目.HCC3則通過鄰域超邊的重疊量來衡量鄰域的密度.與以上兩種定義都不同,它從節(jié)點(diǎn)的角度來定義重疊量.
超網(wǎng)絡(luò)的局部聚類屬性可由HCC1、HCC2以及HCC3 3種屬性從不同的角度反映得出.在兩種方法構(gòu)建的超網(wǎng)絡(luò)中,將每一種聚類系數(shù)作為特征,分別提取.每個被試都有90個腦區(qū),為了簡便,計算出被試的平均聚類系數(shù)(對90個腦區(qū)進(jìn)行平均,分別記為平均HCC1,平均HCC2以及平均HCC3).將這3種不同定義下的聚類系數(shù)應(yīng)用于兩種方法所構(gòu)建的超網(wǎng)絡(luò),最后分別把3種聚類系數(shù)進(jìn)行融合.
本文利用統(tǒng)計學(xué)方法進(jìn)行特征選擇.在樣本量較小的情況下,使用Kolmogorov-Smirnov(KS)[24]非參數(shù)置換檢驗來分析兩組數(shù)據(jù)是否具有差異是一種常用的方法.在本文中,對抑郁癥患者和正常人的超網(wǎng)絡(luò)在計算HCC聚類系數(shù)后獲得的270個節(jié)點(diǎn)屬性進(jìn)行組間KS非參數(shù)檢驗,并進(jìn)行FDR校驗(q=0.05),通過非參數(shù)檢驗分別得出每個被試的270個腦區(qū)的p值大小.選取抑郁癥患者和正常人的p<0.05的顯著性特征,并將這些顯著性差異特征作為分類特征,進(jìn)行分類.
分類性能通過留一交叉驗證進(jìn)行評估.訓(xùn)練集使用K折交叉驗證(K-fold Cross Validation,K-CV)對參數(shù)c和g進(jìn)行尋優(yōu)[25].在訓(xùn)練集驗證中,c和g的最優(yōu)值取分類準(zhǔn)確率最高的那組值,并由此建立N個不同的模型.在標(biāo)準(zhǔn)化分類特征的平均值和標(biāo)準(zhǔn)偏差后,最后的分類結(jié)果取不同模型的分類準(zhǔn)確率的平均值.
為確定顯著差異是否存在于不同方法構(gòu)建的超網(wǎng)絡(luò)中,對兩種方法下的超網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了比較,并進(jìn)行了如下的實(shí)驗:
首先分別分析兩種方法的正常人和抑郁癥患者的超網(wǎng)絡(luò)的超邊,計算它們的超邊的邊度.結(jié)果表明,兩種方法下的超網(wǎng)絡(luò)結(jié)構(gòu)存在差異,具體說來,復(fù)合MCP方法構(gòu)建的超網(wǎng)絡(luò)的超邊度大多數(shù)分布在2-13范圍內(nèi);組MCP方法構(gòu)建的關(guān)于正常人和抑郁癥患者的超網(wǎng)絡(luò)的超邊度分布范圍較廣,分布比較離散,超邊度分布情況如圖1所示.
在每一個被試的超網(wǎng)絡(luò)中,計算出它們(對90個腦區(qū)進(jìn)行平均)的平均聚類系數(shù),分別記作平均HCC1,平均HCC2和平均HCC3.對抑郁組和正常對照組進(jìn)行非參數(shù)置換檢驗,對于平均HCC1,平均HCC2以及平均HCC3,分別比較兩種方法構(gòu)建的超網(wǎng)絡(luò)的差異.在兩種方法所構(gòu)建的超網(wǎng)絡(luò)中,平均聚類系數(shù)的分布情況如圖2所示.
圖1 抑郁組和正常對照組的超邊度分布圖Fig.1 Hyper-edge distribution of depression group and normal control group
圖2 抑郁組和正常對照組的平均聚類系數(shù)Fig.2 Average clustering coefficient of depression group and normal control group
結(jié)果表明,無論是正常對照組還是抑郁組,兩種方法下的平均聚類系數(shù)關(guān)于HCC2和HCC3分別具有顯著性差異,而關(guān)于HCC1的顯著性差異只存在于正常對照組中,抑郁組中則未發(fā)現(xiàn)顯著性差異(p>0.05,F(xiàn)DR校驗,q=0.05).因此,兩種方法構(gòu)建的超網(wǎng)絡(luò)存在結(jié)構(gòu)上的差異.分析其潛在的原因,組MCP方法是在組級上進(jìn)行變量選擇,而復(fù)合MCP是雙級選擇,既在組級上進(jìn)行變量選擇,又選擇組內(nèi)重要變量,從而造成了超網(wǎng)絡(luò)結(jié)構(gòu)上的不同.
在兩種不同的方法下分別進(jìn)行超網(wǎng)絡(luò)構(gòu)建并提取特征,對于每一個特征,進(jìn)行非參數(shù)置換檢驗對所有被試評估抑郁癥患者和正常人之間的差異.表2和表3分別列出了兩種不同超網(wǎng)絡(luò)構(gòu)建方法下所得到的具有顯著差異的大腦區(qū)域.
表2 組MCP方法下具有顯著差異的大腦區(qū)域Table 2 Brain regions with significant differences under the group MCP method
表3 復(fù)合MCP方法下具有顯著差異的大腦區(qū)域Table 3 Brain regions with significant differences under the composite MCP method
表中黑體字表示對應(yīng)的聚類系數(shù)的P值<0.05.兩種方法利用統(tǒng)計分析獲得的差異性腦區(qū)也不相同,其中不重疊的腦區(qū)數(shù)目較多,主要包括左側(cè)中央前回、右側(cè)中央前回、右側(cè)額中回、右側(cè)補(bǔ)充運(yùn)動區(qū)、左側(cè)內(nèi)側(cè)和旁扣帶腦回、右側(cè)杏仁核、左側(cè)枕上回、左側(cè)頂上回、左側(cè)頂下緣角回、右側(cè)中央旁小葉、左側(cè)豆?fàn)顨ず撕妥髠?cè)顳極:顳上回.在后面的研究中,復(fù)合MCP方法得出了最高的分類準(zhǔn)確率,因此本文對該方法下的差異性腦區(qū)進(jìn)行討論,且驗證了復(fù)合MCP方法下的很多腦區(qū)都與已有文獻(xiàn)一致,證明它們和抑郁癥病理有著密切聯(lián)系,具體見表4.
表4 已有文獻(xiàn)中關(guān)于抑郁癥的腦區(qū)Table 4 Brain areas of depression in the literature
為評估兩種超網(wǎng)絡(luò)構(gòu)建方法的分類性能,本文使用了分類準(zhǔn)確率、敏感度以及特異度3個特定指標(biāo).除此之外,由于不平衡數(shù)據(jù)集所帶來的膨脹性能,將特異度和敏感度的算術(shù)平均值定義為BAC.
同時,將文中所提出的方法與廣泛應(yīng)用至腦疾病中的LASSO方法和組LASSO以及稀疏組LASSO方法進(jìn)行了對比.同樣也使用分類準(zhǔn)確性、敏感度以及特異度3個指標(biāo).結(jié)果證明本文所提出的兩種方法的分類準(zhǔn)確度均優(yōu)于已有方法.比較結(jié)果如表5所示.
表5 不同方法的分類表現(xiàn)Table 5 Classification performance of different methods
組MCP和復(fù)合MCP方法的分類準(zhǔn)確率都能達(dá)到85%以上,其中復(fù)合MCP方法的分類準(zhǔn)確率最高,能達(dá)到89.39%.兩種方法對變量是否進(jìn)入模型采取了不同的解決辦 法,組MCP方法將懲罰函數(shù)運(yùn)用在組級層面,解決了組效應(yīng)問題;而復(fù)合MCP方法則在組級和組內(nèi)都應(yīng)用了懲罰函數(shù),既選擇了組間重要變量,又選擇出組內(nèi)重要的變量,因而是比組MCP更為嚴(yán)格的方法模型.以上結(jié)果表明在腦功能超網(wǎng)絡(luò)構(gòu)建中,組級選擇方法能更好地體現(xiàn)人腦中固有的組結(jié)構(gòu),且雙級選擇能較好地體現(xiàn)人腦中復(fù)雜的層次關(guān)系.
圖3 兩種方法的分類權(quán)重Fig.3 Classification weight of the two methods
此外,使用Relief算法[37]對特征的有效性進(jìn)行驗證.該方法會根據(jù)每個類別和功能相關(guān)性分配不同的權(quán)重,特征的分類能力越強(qiáng),分配的權(quán)重越大(反之亦然).本文對兩種方法以及傳統(tǒng)LASSO方法對應(yīng)的分類權(quán)重進(jìn)行了比較,結(jié)果表明,兩種方法的分類權(quán)重均高于LASSO方法,復(fù)合MCP方法具有最高的分類權(quán)重,結(jié)果顯示在圖3中.結(jié)果同樣表明基于雙級選擇的復(fù)合MCP方法能構(gòu)建合理有效的超網(wǎng)絡(luò).
兩種方法都在預(yù)定義分組下進(jìn)行超網(wǎng)絡(luò)構(gòu)建,實(shí)驗中使用了k-means[38]聚類算法,k表示分組大小,可以將數(shù)據(jù)預(yù)先分成k個組,是預(yù)定義分組的重要基礎(chǔ).本實(shí)驗以3為步長,進(jìn)行組數(shù)不大于最大分組90的分組過程,分別在每一個k值下進(jìn)行50次實(shí)驗,選取正確率的算術(shù)平均值作為最后的分類結(jié)果.結(jié)果顯示當(dāng)組數(shù)k=48時,復(fù)合MCP方法表現(xiàn)出最高的正確率89.394%.當(dāng)k=24時,組MCP方法表現(xiàn)出最高正確率達(dá)到86.364%.圖4為兩種方法在不同的k值下的正確率.
圖4 兩種方法的不同k值下的準(zhǔn)確率Fig.4 Accuracy of the two methods under different k values
SVM分類器在各領(lǐng)域中的應(yīng)用都比較廣泛,而分類時則經(jīng)常涉及到核函數(shù)的選取問題.由于RBF核函數(shù)應(yīng)用廣泛,無論是小樣本還是大樣本均適用,因此,在分類中選取RBF核函數(shù).SVM模型中有兩個參數(shù)對分類影響較大,即懲罰因子c和核參數(shù)g.c表示調(diào)節(jié)優(yōu)化方向中兩個指標(biāo)(間隔大小,分類準(zhǔn)確度)偏好的權(quán)重,即對誤差的寬容度,c過大或過小,其泛化能力都會變差;g隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,g越大,支持向量的個數(shù)越少,反之則越多,而支持向量的個數(shù)影響訓(xùn)練與預(yù)測的速度.最優(yōu)的c和g能使SVM的分類性能達(dá)到最佳.對于如何找出最佳的c和g,首先選取某一組給定的c和g的值,利用K-CV方法得到在該組c和g下的分類準(zhǔn)確率,然后不斷更換c,g的值,最終取分類準(zhǔn) 確率最高的那組c和g作為最佳參數(shù).c,g兩參數(shù)可在[2-8,28]內(nèi)變化,并將1設(shè)置為步長大小.結(jié)果顯示,分類準(zhǔn)確率最高時的c,g參數(shù)的值分別為2和0.5,最高準(zhǔn)確率是92.308%,如圖5所示.
圖5 c和g的參數(shù)尋優(yōu)結(jié)果Fig.5 Parameter optimization results of c and g
如今靜息態(tài)功能磁共振成像(R-fMRI)技術(shù)已被廣泛應(yīng)用于預(yù)測抑郁癥等精神疾病中.超網(wǎng)絡(luò)因能充分反應(yīng)各個腦區(qū)之間的互動而被廣泛應(yīng)用.現(xiàn)有的超網(wǎng)絡(luò)構(gòu)建多是基于稀疏表示方法,傳統(tǒng)的基于LASSO的稀疏表示方法缺乏解釋腦區(qū)之間的組效應(yīng)的能力,而且懲罰函數(shù)對系數(shù)的過強(qiáng)壓縮,導(dǎo)致模型中目標(biāo)變量回歸系數(shù)的有偏估計.考慮到這些問題,本文提出兩種超網(wǎng)絡(luò)構(gòu)建方法:組MCP方法和復(fù)合MCP方法,前者只能在組級上進(jìn)行變量選擇;后者既能在組級上進(jìn)行變量選擇,又能選擇組間的重要變量,稱為雙級選擇.
實(shí)驗結(jié)果表明,本文所提出的兩種方法均優(yōu)于LASSO方法.在超網(wǎng)絡(luò)的結(jié)構(gòu)上,兩種方法之間存在差異,復(fù)合MCP構(gòu)建的超網(wǎng)絡(luò)的超邊分布更為集中,能更好地體現(xiàn)人腦中復(fù)雜的層次關(guān)系;在分類性能上,本文所提出的兩種方法均優(yōu)于傳統(tǒng)LASSO方法以及組LASSO和稀疏組LASSO方法,并能夠獲得較高的分類權(quán)重.
盡管在目前的研究中,實(shí)驗已取得較好的結(jié)果,但仍存在局限性.首先,在實(shí)驗中假設(shè)組間沒有重疊的信息交互,但是在很多情況下,重疊組是存在的;其次,兩種方法由于聚類初始種子點(diǎn)的隨機(jī)選取以及聚類數(shù)k的不同會造成網(wǎng)絡(luò)結(jié)構(gòu)以及分類結(jié)果的不唯一,建立更加穩(wěn)定的超邊被期望以進(jìn)一步改善超網(wǎng)絡(luò).