陳江鵬 彭 斌 文 雯 唐小靜 文小焱 胡 珊
重慶醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院衛(wèi)生統(tǒng)計(jì)與信息管理教研室(400016)
微陣列數(shù)據(jù)中的先驗(yàn)信息對(duì)基于LASSO變量選擇方法影響的模擬研究*
陳江鵬 彭 斌△文 雯 唐小靜 文小焱 胡 珊
重慶醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院衛(wèi)生統(tǒng)計(jì)與信息管理教研室(400016)
目的 探討微陣列數(shù)據(jù)中的先驗(yàn)信息對(duì)基于LASSO變量選擇方法的影響。方法 設(shè)置真實(shí)模型后,逐步融合先驗(yàn)信息,采用R、MATLAB軟件編程,模擬比較先驗(yàn)信息對(duì)LASSO,group LASSO(簡(jiǎn)稱為gLASSO)中的non-overlap group LASSO(簡(jiǎn)稱為nogLASSO)和overlap group LASSO(簡(jiǎn)稱為ogLASSO)變量選擇的影響。結(jié)果 經(jīng)典的LASSO、ogLASSO變量選擇方法在處理模擬微陣列數(shù)據(jù)時(shí)具有較好的預(yù)測(cè)精度(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),LASSO可解釋性最強(qiáng)(平均入選模型基因數(shù)分別為21.52、111.95、101.01)。nogLASSO在處理基因通路信息時(shí),當(dāng)[X295]被錯(cuò)分至第19個(gè)通路后,盡管未改變其效應(yīng)值,但入選模型次數(shù)大為減少,預(yù)測(cè)精度下降較為明顯,而ogLASSO表現(xiàn)更穩(wěn)健。結(jié)論 融合微陣列數(shù)據(jù)中的先驗(yàn)信息并未提高基于LASSO變量選擇方法的預(yù)測(cè)性能及效率,經(jīng)典的LASSO變量選擇方法仍為處理微陣列數(shù)據(jù)的有效方法。
變量選擇 LASSO算法 模擬
隨著計(jì)算機(jī)計(jì)算能力和速度的大幅提升,Tibshirani提出的LASSO(Least Absolute Shrinkage and Selection Operator)變量選擇方法[1]因其良好的預(yù)測(cè)精度和可解釋性已廣泛應(yīng)用于高維數(shù)據(jù)分析。
LASSO估計(jì)最大的優(yōu)點(diǎn)在于它是一種連續(xù)收縮的正則化估計(jì),能準(zhǔn)確地篩選出重要的變量,并能給出系數(shù)的估計(jì),一些相關(guān)度較低的變量系數(shù)直接壓縮為0,能同時(shí)達(dá)到變量選擇和參數(shù)估計(jì)的目的,同時(shí)具有子集選擇和嶺回歸的優(yōu)點(diǎn)。Efron等提出的LARS[2]很好地解決了LASSO的計(jì)算問(wèn)題,使LASSO方法廣為流行。
1.模擬數(shù)據(jù)
從京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)下載6個(gè)基因通路圖,采用R軟件對(duì)基因通路圖進(jìn)行調(diào)整并構(gòu)造基因網(wǎng)絡(luò)。調(diào)整后基因網(wǎng)絡(luò)中包含K=19個(gè)基因通路,p=35個(gè)基因,模擬時(shí),樣本量取n=100。
模擬數(shù)據(jù)由以下方式生成:
z=α+x1β1+x2β2+…+xpβp+ε
其中:預(yù)測(cè)變量xj服從正態(tài)分布xj~N(0,1);ε為誤差噪聲且與自變量獨(dú)立,ε~N(0,1)。β=(β1,β2,…,β315)T是一個(gè)p=315維稀疏參數(shù)向量,即僅部分系數(shù)為非零;z為潛變量。從中選取8個(gè)基因:第2個(gè)通路中[X26,X31],第6和7個(gè)通路的重疊基因[X85],第14通路中[X217,X221],第18通路中[X286,X291,X295],設(shè)定為差異表達(dá),即這些基因?yàn)橹虏』?,其效?yīng)大小分別設(shè)置為:β26=β31=4.0,β85=4.0,β217=β221=6.0,β286=β291=β295=3.0。其他基因效應(yīng)設(shè)置為0,固定α=-3.0。
在基因表達(dá)數(shù)據(jù)中,響應(yīng)變量常為二分類變量(如疾病狀態(tài)等),其與潛變量關(guān)系定義為[6]:
模擬數(shù)據(jù)隨機(jī)分為訓(xùn)練集(75%)和測(cè)試集(25%),訓(xùn)練集用于估計(jì)和選擇重要變量(即構(gòu)造模型),測(cè)試集用于評(píng)估模型的預(yù)測(cè)能力。實(shí)驗(yàn)重復(fù)100次以避免模擬數(shù)據(jù)不穩(wěn)定性對(duì)變量選擇結(jié)果的影響。
2.分析方法
(1)LASSO方法
忽略微陣列數(shù)據(jù)的基因通路結(jié)構(gòu),直接采用LASSO方法對(duì)數(shù)據(jù)進(jìn)行分析。采用R軟件(R3.1.0,http://www.r-project.org)“glmnet”包[7]完成,LASSO的協(xié)調(diào)參數(shù)λ使用10折交叉驗(yàn)證獲得。
(2)nogLASSO方法
融合基因通路信息,忽略通路間重疊基因,采用nogLASSO方法對(duì)數(shù)據(jù)進(jìn)行分析。采用R軟件“gglasso”包完成,nogLASSO的協(xié)調(diào)參數(shù)λ使用10折交叉驗(yàn)證獲得?;蛲吩O(shè)置包括兩種情景,情景1:按照真實(shí)通路分組信息進(jìn)行設(shè)置,[X295]僅位于第18通路;情景2:將[X295] 錯(cuò)誤分組至第19通路,[X295]僅位于第19通路。
(3)ogLASSO方法
融合基因通路信息及通路間重疊基因,采用ogLASSO方法對(duì)數(shù)據(jù)進(jìn)行分析。采用MATLAB軟件“SLEP”工具箱完成,ogLASSO的協(xié)調(diào)參數(shù)λ使用計(jì)算機(jī)自動(dòng)生成λmax與人工輸入λ之比?;蛲芳爸丿B基因設(shè)置包括三種情景,情景1、2同前;情景3:將[X295]保留在第18通路的同時(shí)錯(cuò)誤分組至第19通路,[X295]同時(shí)位于第18、19通路即為重疊基因。
3.評(píng)價(jià)指標(biāo)
基于LASSO變量選擇方法篩選差異表達(dá)基因結(jié)果比較見(jiàn)表1。所有結(jié)果均為每個(gè)模型分析100個(gè)模擬數(shù)據(jù)集后的平均結(jié)果。從表1可見(jiàn),LASSO變量選擇模型最為稀疏,平均每次篩選時(shí)僅僅識(shí)別21.52個(gè)基因,而gLASSO平均選擇基因數(shù)均大于100。
預(yù)測(cè)精度方面,從AUC和MSE上看,LASSO模型均為最優(yōu)(AUC=0.8915;MSE=0.0928),ogLASSO與之接近;從平均正確選擇次數(shù)上看,LASSO仍表現(xiàn)良好,平均正確選擇次數(shù)達(dá)到98次,nogLASSO與之接近。
從表1可以看出,當(dāng)使用nogLASSO時(shí),一旦某一基因被錯(cuò)分至另一通路,盡管未改變效應(yīng)值,[X295]選中次數(shù)大幅減少。而使用ogLASSO時(shí),[X295]選中次數(shù)降幅不大,其預(yù)測(cè)精度和可解釋性較nogLASSO更為穩(wěn)健。
基于LASSO變量選擇方法篩選差異表達(dá)基因時(shí),每個(gè)基因入選模型次數(shù)如圖1~3所示。
*:括號(hào)內(nèi)標(biāo)注為該方法模擬情景序號(hào)。
本研究使用模擬數(shù)據(jù),在設(shè)置真實(shí)模型的基礎(chǔ)上,探討微陣列數(shù)據(jù)中的先驗(yàn)信息對(duì)基于LASSO變量選擇方法的影響,并從預(yù)測(cè)精度和可解釋性兩大方面評(píng)價(jià)其結(jié)果。本研究不僅橫向?qū)Ρ萀ASSO,nogLASSO,ogLASSO三種方法在處理微陣列數(shù)據(jù)時(shí)的優(yōu)劣,而且通過(guò)調(diào)整其中某一基因([X295])位置,試圖探討錯(cuò)誤的先驗(yàn)信息對(duì)基于LASSO變量選擇方法的影響,并考察模型的穩(wěn)定性。
一種算法預(yù)測(cè)精度高往往很難具有較好的可解釋性。然而使用三種基于LASSO變量選擇方法比較處理微陣列數(shù)據(jù)后發(fā)現(xiàn),經(jīng)典的LASSO回歸模型具有較好的預(yù)測(cè)精度、可解釋性以及泛化性能,不需使用任何先驗(yàn)信息可以直接使用標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行分析,不失為篩選差異表達(dá)基因的有效方法。實(shí)際分析處理基因表達(dá)數(shù)據(jù)時(shí),盡管某種疾病的致病基因數(shù)往往較少,但實(shí)際工作中收集樣本較困難加之基因芯片價(jià)格昂貴,因此,LASSO仍需要突破不能處理差異表達(dá)基因個(gè)數(shù)大于樣本量情況的限制。此外,在處理高維小樣本數(shù)據(jù)集時(shí),LASSO具有凸優(yōu)化的性質(zhì),在構(gòu)建線性回歸模型時(shí)過(guò)于嚴(yán)格,容易出現(xiàn)過(guò)擬合問(wèn)題,也是改進(jìn)的角度之一。我們還注意到使用LASSO(R軟件“glmnet”包)進(jìn)行變量選擇速度非??臁!癵lmnet”包的運(yùn)行速度與預(yù)測(cè)變量、協(xié)變量以及入選模型的協(xié)變量個(gè)數(shù)呈線性關(guān)系,因此較適用于高維數(shù)據(jù)分析[9]。
盡管nogLASSO能夠同時(shí)選擇基因和通路,但根據(jù)選擇結(jié)果我們可以看到所選通路均為包含差異表達(dá)基因的通路,認(rèn)為整個(gè)通路基因均差異表達(dá),盡管較符合生物學(xué)解釋,但實(shí)際意義并不大。從生物學(xué)角度上講,差異表達(dá)基因與所在通路的其他基因勢(shì)必存在相互調(diào)控的關(guān)系,若能直接篩選出差異表達(dá)基因也可推導(dǎo)出此結(jié)論,nogLASSO預(yù)測(cè)性能較差原因可能在于此。從平均正確選擇基因次數(shù)上看,其表現(xiàn)與LASSO接近,但平均選擇基因數(shù)顯著大于LASSO,因此,正確選擇基因次數(shù)較高可以歸因于入選模型基因數(shù)大大增加。
從ogLASSO篩選結(jié)果上看,與差異表達(dá)基因所在同一通路的其他基因會(huì)受到該基因較大影響,入選模型次數(shù)大幅增加,但較nogLASSO有明顯改進(jìn)。盡管未改變效應(yīng)值,將錯(cuò)誤分至第19通路時(shí),從選中次數(shù)和圖2、3中可以發(fā)現(xiàn),nogLASSO在篩選差異表達(dá)基因時(shí)受給定的通路信息影響較大。ogLASSO較nogLASSO更為穩(wěn)健,其預(yù)測(cè)精度也較好,因此,可以使用其作為篩選差異表達(dá)基因的常規(guī)方法,但當(dāng)通路中包含基因過(guò)多時(shí),gLASSO構(gòu)造模型不再具有稀疏性,需在此方面進(jìn)行改進(jìn)。
盡管融合了微陣列數(shù)據(jù)中的先驗(yàn)信息,但從實(shí)驗(yàn)結(jié)果上看到,預(yù)測(cè)精度以及可解釋性并未隨著融合信息的增多而更優(yōu),尤其是當(dāng)某一位點(diǎn)基因被錯(cuò)分至另一通路時(shí),盡管未改變其效應(yīng)值,但入選模型次數(shù)大為減少,預(yù)測(cè)精度下降較為明顯,入選模型的基因群中也包含了大量實(shí)際并無(wú)關(guān)聯(lián)的基因。在基于LASSO變量選擇方法中,先驗(yàn)信息(如通路、重疊基因)的使用并未使預(yù)測(cè)性能等方面得到改進(jìn),經(jīng)典的LASSO變量選擇方法仍為處理微陣列數(shù)據(jù)的有效方法。
LASSO依賴于線性模型,盡管本研究發(fā)現(xiàn)LASSO能夠較為準(zhǔn)確地篩選差異表達(dá)基因,但在分析多基因遺傳病時(shí)基因之間關(guān)系很可能為非線性。因此,有必要繼續(xù)開(kāi)發(fā)不同的基因數(shù)據(jù)分析方法,同時(shí)與以往方法進(jìn)行比較研究,但需要注意的是,在改進(jìn)方法時(shí)既要考慮到融合先驗(yàn)信息,更重要的是其預(yù)測(cè)精度和效率的提高。
[1]Tibshirani R.Regression Shrinkage and Selection via the Lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.
[2]Efron B,Hastie T,Johnstone I,et al.Least angle regression.Journal of the Institute of Mathematical Statistics,2004,32(2):407-499.
[3]Yuan M,Lin Y.Model selection and estimation in regression with grouped variables.Journal of the Royal Statistical Society:Series B (Statistical Methodology),68:49-67.
[4]Liu J,Ye JP.Fast Overlapping Group Lasso.CoRR abs/1009.0306.
[5]張秀秀,王慧,田雙雙,等.高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):922-926.
[6]Albert JH,Chib S.Bayesian analysis of binary and polychotomous response data.Journal of the American Statistical Association,1993,88(422):669-679.
[7]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of Statistical Software,2010,33:1-22.
[8]James G,Witten D,Hastie T,et al.An introduction to statistical learning with applications in R.America:Springer Press,2013.
[9]Motyer AJ,McKendry C,Galbraith S,et al.LASSO model selection with post-processing for a genome-wide association study data set.BMC Proceedings,2011,5(9):1-4.
(責(zé)任編輯:郭海強(qiáng))
Influence of Prior Information of Microarray Data on Variable Selection Based on LASSO:A Simulation Study
Chen Jiangpeng,Peng Bin,Wen Wen,et al
(Department of Health Statistics and Information Management,School of Public Health and Management,Chongqing Medical University(400016),Chongqing)
Objective Objective To explore the influence of prior information of microarray data on variable selection based on LASSO.Methods After setting the true model,we incorporated prior information into LASSO,non-overlap group LASSO(nogLASSO for short)and overlap group LASSO(ogLASSO for short) variable selection models and compared the influence by MATLAB or R software.Results LASSO、ogLASSO models seemed to have good prediction accuracy when processing microarray data(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),while only LASSO achieved a interpretable model(The average of genes selected in the models:21.52、111.95、101.01 respectively).When [X295] was misclassified into 19th pathway,the average of genes selected in the models decreased and the forecast precision declined by nogLASSO model,while ogLASSO model's performance seemed to be more robust.Conclusion Incorporating prior information of microarray data does not improve the prediction performance and efficiency of variable selection based on LASSO,therefore the simple LASSO regression model may be an efficient means to deal with microarray data.
Variable selection; Least Absolute Shrinkage and Selection Operator; Simulation
國(guó)家自然科學(xué)基金(81373103),重慶市科委基礎(chǔ)與前沿研究計(jì)劃項(xiàng)目(cstc2013jcyjA10009)
△ 通信作者:彭斌,E-mail:pengbin@cqmu.edu.cn
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年3期