国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高維生物醫(yī)學(xué)數(shù)據(jù)變量篩選方法的模擬研究

2021-07-09 06:37王靜嫻李業(yè)棉楊?;?/span>陳方堯
關(guān)鍵詞:高維樣本量生物醫(yī)學(xué)

王靜嫻,趙 芃,李業(yè)棉,楊?;?,陳方堯

(西安交通大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系,陜西西安 710061)

近年來,隨著生物醫(yī)學(xué)檢驗檢測技術(shù)的發(fā)展,研究中生物醫(yī)學(xué)數(shù)據(jù)的積累呈現(xiàn)指數(shù)級別的增長,尤其是在組學(xué)研究領(lǐng)域,測序技術(shù)的發(fā)展實現(xiàn)了基因、蛋白質(zhì)等大規(guī)模組學(xué)數(shù)據(jù)的測量和積累。常規(guī)的統(tǒng)計分析中,在進行多變量分析時,往往要求自變量的數(shù)量和樣本量成一定的比例[1]。然而,在實際研究中,特別是涉及組學(xué)分析的相關(guān)研究中,研究所關(guān)注的自變量數(shù)量往往遠大于其收集的樣本量數(shù)量,這類自變量的數(shù)量p遠大于樣本量n,即p>>n的數(shù)據(jù)被稱為高維數(shù)據(jù)[2]。目前,高維數(shù)據(jù)分析被廣泛應(yīng)用于生物醫(yī)學(xué)研究的各個領(lǐng)域,如計算生物學(xué)研究、組學(xué)研究、危險因素篩選和預(yù)后模型建立等。如何從海量的高維數(shù)據(jù)中提取有用的信息,篩選出最關(guān)鍵的研究變量,是高維數(shù)據(jù)分析研究中的重點和熱點問題。

由于在高維數(shù)據(jù)的分析中存在許多假定條件,且高維數(shù)據(jù)本身的統(tǒng)計性質(zhì)復(fù)雜,因此,在高維數(shù)據(jù)的分析中,雖然存在許多可選方法,但對于各個方法的實際效果,并沒有公認的一致評價。本研究旨在通過Monte Carlo 模擬的方法,評估幾種常用方法在高維數(shù)據(jù)變量篩選中的效果,為制定特定條件下高維生物醫(yī)學(xué)數(shù)據(jù)的變量篩選策略提供依據(jù)。

1 材料與方法

常規(guī)的統(tǒng)計建模方法中,常要求數(shù)據(jù)中的變量數(shù)量(成一定比例的)小于樣本量數(shù)量,且自變量間不存在或僅存在很弱的相關(guān)性。但是,這樣的要求對于高維數(shù)據(jù)的建模分析來說,通常是無法滿足的。因此,針對高維數(shù)據(jù)進行建模分析時,首先需要對數(shù)據(jù)進行降維,即變量篩選。為了解決這一問題,研究人員開發(fā)出了一系列方法,其中最為常見的方法包括以下這5種:

1.1 偏最小二乘法偏最小二乘法(partial least square, PLS)是高維數(shù)據(jù)降維分析中常用的方法之一,是常規(guī)的最小二乘法(ordinary least square, OLS)的一種擴展[3]。和OLS不同的是,PLS方法采用了主成分分析(principal component analysis, PCA)的方法從自變量空間中提取出主成分然后進行系數(shù)估計。由于在運算中采用了主成分分析的方法,因此,PLS方法可以很好地容忍高維變量間可能存在的多重共線性問題。

1.2 LASSO算法LASSO(least absolute square selection operator)是一種基于正則化(regularization)的高維數(shù)據(jù)變量篩選方法,它是由TIBSHIRANI[4]提出的。其基本思想是在最小二乘法的基礎(chǔ)上施加了一個L1范數(shù)的懲罰項,實現(xiàn)稀疏化,來限制參數(shù)的個數(shù):

1.3 Ridge算法嶺回歸(ridge regression)或Ridge算法也可以看作是最小二乘估計法的一種改進,且得到的回歸系數(shù)的標(biāo)準(zhǔn)差也比最小二乘估計的要小。其基本做法是在最小二乘法的基礎(chǔ)上施加了一個L2范數(shù)的懲罰項,基本思想與LASSO方法類似,也是基于正則化思想的一種方法[5]。當(dāng)自變量中存在較為顯著的多重相關(guān)關(guān)系時,它可以通過對回歸系數(shù)的控制,達到減小誤差的目的。其基本模型假設(shè)可以表示為:

1.4 彈性網(wǎng)ZOU和HASTIE[6]將Ridge算法和LASSO方法相結(jié)合,提出了彈性網(wǎng)(elastic net,EN)方法。其基本思想可表示為:

其中,λ1和λ2是模型中的兩個非負懲罰參數(shù),且有λ1+λ2=1。可以看出,當(dāng)λ1=0時,EN方法模型退化為嶺回歸;反之,當(dāng)λ2=0時,此退化為LASSO模型。因此,EN方法可以看做是LASSO和嶺回歸兩種方法的結(jié)合,兼有二者的性質(zhì)[7]。

1.5 自適應(yīng)LASSO自適應(yīng)LASSO方法(adaptive LASSO, ALASSO)是在LASSO方法的基礎(chǔ)上發(fā)展出來的一種算法[8]。在基于高維數(shù)據(jù)的變量篩選中,該方法首先通過使用LASSO方法,在一定的模型框架下,獲得變量系數(shù)的初始估計,再通過對懲罰項進行修正,達到壓縮參數(shù)個數(shù)的目的。它可以看作是在LASSO方法的基礎(chǔ)上對L1懲罰項的每一個系數(shù)進行了加權(quán)處理,對于一般的線性回歸,該方法可表示為:

2 模擬研究

本研究將通過模擬研究比較幾種不同的高維數(shù)據(jù)變量篩選方法在應(yīng)用中的效果。

2.1 模擬方法與參數(shù)設(shè)置模擬研究基于R語言及Rstudio編程實現(xiàn),模擬研究所用的高維數(shù)據(jù)基于Monte Carlo方法產(chǎn)生,假設(shè)變量服從廣義線性回歸模型:

P(y|X)=logit(βX+ε)

其中y為二分類結(jié)局變量,ε~N(0,1)為誤差項。X為服從多元正態(tài)分布的自變量矩陣,維數(shù)為n×p,其中,n為樣本量,p為自變量數(shù)。y為連續(xù)性應(yīng)變量。

考慮到高維數(shù)據(jù)分析實踐的特點,模擬研究中考慮兩種自變量間的相關(guān)性情況:①自變量間均線性無關(guān)的情況;②存在一定的線性相關(guān)性的情況,設(shè)ρ|i - j|=0.5表示任意兩個自變量Xi與Xj之間的相關(guān)系數(shù);自變量間的相關(guān)性通過方差協(xié)方差矩陣控制。

模擬研究考慮的參數(shù)包括樣本量(n)、自變量數(shù)量(p),且有p>>n;變量系數(shù)假定β={β1,β0},其中,β1=(0.2,0.5,0.8,1.1,1.4)5為X1~X5的系數(shù),β0=(0,…,0)p-5為X6~Xp的系數(shù)。模擬研究樣本量取40、80、120和160;樣本量與自變量數(shù)量的比值n∶p=1∶2~1∶4。每一個參數(shù)組合下,進行1 000次模擬。

模擬評價采用真陽性率(true positive rate, TPR)和真陰性率(true negative rate, TNR)進行評價。其中,真陽性率指實際相關(guān)的變量被篩選出的概率,真陰性率指實際無關(guān)的變量在變量篩選中被排除的概率,二者的定義如下:

理想狀態(tài)下,兩個指標(biāo)均為越接近1(100%)越好。

本研究中所涉及的5種變量篩選方法分別基于R包“msgps”(version 1.3.1),“glmnet”(version 4.1)和“plsVarSel”(version 0.9.6)實現(xiàn)。其R代碼如下:

#偏最小二乘法:

pls_v=rep_pls(y, X, N=SS)

pls_vs=pls_v$rep.selection

sig=matrix(0,SS+1,1)

sig[pls_vs,]=1

coef_pls[,i]=sig

#LASSO方法:

Gla=cv.glmnet(X, y, alpha=1)

coef_tepm_ri=coef(gla$glmnet.fit,s=gla

$lambda.min)

fit2=attributes(coef_tepm_ri)

coef_la[,i]=fit2$x

#Ridge方法:

gri=cv.glmnet(X, y, alpha =0)

coef_tepm_ri=coef(gla$glmnet.fit,s=gla

$lambda.min)

fit3=attributes(coef_tepm_ri)

coef_ri[,i]=fit3$x

#彈性網(wǎng)方法:

fit4=msgps(X, y, penalty="enet",alpha=0.5)

coef_en[,i]=coef(fit2,2.5)

#ALASSO方法

fit5=msgps(X, y, penalty="alasso",gamma=1)

coef_al[,i]=coef(fit5,2.5)

2.2 模擬結(jié)果

2.2.1變量間線性獨立條件下的篩選結(jié)果 第一部分模擬研中假設(shè)自變量間的相關(guān)系數(shù)均為0,即在變量間線性獨立的條件下進行變量篩選,5種篩選方法的效果如下表1所示:

表1 自變量間線性獨立條件下不同方法的變量篩選效果

2.2.2變量間線性相關(guān)條件下的篩選結(jié)果 第二部分模擬研中假設(shè)自變量間存在一定的相關(guān)性,即在變量間線性相關(guān)的條件下進行變量篩選,5種篩選方法的效果如下表2所示:

表2 自變量間線性相關(guān)條件下不同方法變量篩選效果

2.2.3樣本量對變量篩選結(jié)果的影響 表1、表2的模擬結(jié)果顯示,無論在自變量間是否存在關(guān)聯(lián)性:

①在一定的n∶p水平下,隨著樣本量增大,EN方法的TPR、TNR均增大,變量篩選效果變好,過擬合、欠擬合的風(fēng)險隨之降低;但在一定的樣本量下,隨著樣本量與變量數(shù)比例的增大(1∶1→1∶4),EN方法的TPR略有減小,但TNR增大。

②在一定的n∶p水平下,隨著樣本量增大,PLS方法的TPR增大,TNR基本不變;在一定的樣本量下,隨著樣本量與變量數(shù)比例的增大(1∶1→1∶4),TPR減小,TNR亦基本不變。

③在一定的n∶p水平下,隨著樣本量增大,LASSO方法得到的TPR、TNR均增大,但TNR始終高于TPR;在一定的樣本量下,隨著樣本量與變量數(shù)比例的增大(1∶1→1∶4),TPR減小,TNR增大。

④在一定的n∶p水平下,隨著樣本量增大,ALASSO方法得到的TPR增大,但TPR水平總體仍較低,存在一定欠擬合的風(fēng)險,TNR水平始終良好;在一定的樣本量下,隨著樣本量與變量數(shù)比例的增大(1∶1→1∶4),TPR有較大幅度減小,TNR基本保持一致且水平良好。

⑤Ridge算法無論在何種參數(shù)組合下,均沒有起到變量篩選的作用。

2.2.4變量間相關(guān)性對變量篩選結(jié)果的影響 自變量間存在關(guān)聯(lián)性時與自變量間獨立時相比:

①EN方法的變量篩選效果較為穩(wěn)健,且隨著樣本量增加效果越來越好。

②PLS方法的變量篩選效果也較為穩(wěn)健,且隨著樣本量增加效果逐漸變好,但次于EN方法。

③LASSO和ALASSO方法的變量篩選效果受到變量間關(guān)聯(lián)性影響較大,且ALASSO方法對變量間關(guān)聯(lián)性更加敏感,兩種方法相比,LASSO方法在變量間存在關(guān)聯(lián)性時的變量篩選效果更好。

④無論在何種條件下,Ridge算法都沒有起到變量篩選的作用。

3 討 論

變量篩選在高維生物醫(yī)學(xué)數(shù)據(jù)統(tǒng)計建模中扮演著十分重要的角色,它可以在保證模型穩(wěn)定性的前提下減少候選變量的個數(shù),更加充分和準(zhǔn)確地挖掘變量之間的關(guān)系。實踐中用于高維生物醫(yī)學(xué)數(shù)據(jù)變量篩選的方法較多,但在方法的選擇上并沒有公認的標(biāo)準(zhǔn)和依據(jù)。本研究在簡要介紹了5種高維數(shù)據(jù)變量篩選方法的基礎(chǔ)上,通過Monte Carlo方法,設(shè)置適當(dāng)?shù)臈l件和參數(shù),模擬分析對比了5種方法在高維數(shù)據(jù)變量篩選中的效果,為高維生物醫(yī)學(xué)數(shù)據(jù)變量篩選策略的指定提供依據(jù)。

從模擬結(jié)果來看,樣本量的增加對于變量篩選有較大影響。從模擬結(jié)果來看,無論何種方法,樣本量越大,變量篩選效果越好。在高維生物醫(yī)學(xué)數(shù)據(jù)的分析實踐中,研究者往往對于變量數(shù)的多少更加重視,而容易忽略樣本量的大小。盡管包括本研究所模擬的幾種方法在內(nèi)的許多變量篩選算法,都適用于變量數(shù)遠大于樣本量的情況,但如本研究結(jié)果所示,樣本量的絕對大小依舊會影響變量篩選的效果。因此,即使在分析中使用了相關(guān)的高維數(shù)據(jù)變量篩選方法,也需要注意樣本量的絕對大小,確保變量篩選的效果。

自變量間的相關(guān)性對變量篩選結(jié)果也有一定影響。模擬結(jié)果顯示,在相關(guān)性存在的情況下,各種方法的變量篩選效果都會下降,但EN方法在樣本量足夠大的時候,依舊可以達到良好的效果,這與EN方法本身的特性有關(guān)。EN方法可以看作是LASSO和Ridge兩種方法的結(jié)合,而Ridge方法是適用于變量間存在相關(guān)性的情況[7]。因此,EN方法兼有LASSO方法和Ridge方法的性質(zhì),對變量間的相關(guān)性容忍度很好。盡管很多分析模型都要求自變量間應(yīng)盡量保持線性獨立,但在高維生物醫(yī)學(xué)數(shù)據(jù)的分析中,變量間存在相關(guān)性的情況幾乎是不可避免的。因此,無論是建模分析還是在變量篩選,都應(yīng)該對變量間的相關(guān)性予以充分的重視。

ALASSO方法在模擬中并沒有在變量篩選中優(yōu)于LASSO方法。相關(guān)研究認為,在較低維的情況下,尤其是當(dāng)絕大部分自變量均與應(yīng)變量相關(guān)時,ALASSO方法的效果可能會優(yōu)于EN方法和LASSO方法[9]。本研究的模擬中僅有小部分自變量與應(yīng)變量相關(guān),這可能在一定程度上影響了ALASSO方法的變量篩選效果。

模擬研究也提示,Ridge方法對于自變量的篩選沒有任何作用,因此不推薦在變量篩選過程中使用Ridge算法。Ridge算法雖然與LASSO方法都屬于懲罰方法,但在進行系數(shù)壓縮時,LASSO方法會將一部分關(guān)聯(lián)性不顯著的系數(shù)壓縮至0,進而將這些變量篩選掉,而Ridge算法則僅將關(guān)聯(lián)性較小的一部分變量的系數(shù)壓縮至接近于0,因此無法起到真正的變量篩選作用。但根據(jù)相關(guān)研究的結(jié)果[10],在完成變量篩選后的建模過程中,該方法依舊是有效的建模算法之一。

4 結(jié)論

模擬研究顯示,在高維縱向數(shù)據(jù)的自變量篩選中,5種變量篩選方法在模擬研究中的變量篩選能力排序為EN>LASSO>ALASSO>PLS>Ridge。除Ridge算法外,其余4種方法在n∶p水平一定的條件下,增加樣本量均可提高變量篩選的效果。變量間的關(guān)聯(lián)性會對變量篩選結(jié)果產(chǎn)生影響,但EN方法(即彈性網(wǎng)算法)受其影響較小,最為穩(wěn)健。因此,在高維生物醫(yī)學(xué)數(shù)據(jù)分析的變量篩選中,更加推薦使用彈性網(wǎng)算法進行自變量篩選,但無論使用何種方法進行自變量篩選,充足的樣本量都是自變量篩選獲得良好效果的保證。

猜你喜歡
高維樣本量生物醫(yī)學(xué)
卡方檢驗的應(yīng)用條件
一種基于進化算法的概化理論最佳樣本量估計新方法:兼與三種傳統(tǒng)方法比較*
廣西醫(yī)科大學(xué)生物醫(yī)學(xué)工程一流學(xué)科建設(shè)成效
蠑螈的皮膚受傷后可快速愈合
基于相關(guān)子空間的高維離群數(shù)據(jù)檢測算法
網(wǎng)絡(luò)Meta分析研究進展系列(二十):網(wǎng)絡(luò)Meta分析的樣本量計算及精確性評估
臨床研究樣本量的估計方法和常見錯誤
基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法
生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與發(fā)展趨勢研究
高維洲作品欣賞
望城县| 旬邑县| 筠连县| 娱乐| 葵青区| 景泰县| 天津市| 德保县| 南通市| 德钦县| 绍兴市| 兴义市| 浏阳市| 修文县| 安新县| 花垣县| 揭阳市| 绥德县| 宣化县| 安平县| 临清市| 文登市| 金堂县| 饶平县| 玉林市| 轮台县| 铜川市| 宣汉县| 明光市| 徐水县| 刚察县| 凤山县| 古交市| 开江县| 阿拉善盟| 神木县| 屯昌县| 息烽县| 错那县| 罗甸县| 隆昌县|