基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso的預(yù)測模型研究*

2022-01-19 08:38:12哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室150081盧宇紅宋佳麗

中國衛(wèi)生統(tǒng)計 2021年6期

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150081) 盧宇紅宋佳麗王萌侯艷

【提要】目的探索深度神經(jīng)網(wǎng)絡(luò)(DNN)聯(lián)合不同正則化方法后模型預(yù)測準(zhǔn)確性的差異；探索模型預(yù)測準(zhǔn)確性較高時的樣本特征規(guī)律。方法 R軟件產(chǎn)生不同分組、不同樣本量的模擬數(shù)據(jù)集，在不同數(shù)據(jù)特征下比較DNN模型及融合正則化后模型的預(yù)測能力。通過真實數(shù)據(jù)分析進一步評價兩種模型的預(yù)測能力。結(jié)果 DNN融合不同正則化方法的結(jié)果均優(yōu)于單純DNN模型，其中DNN融合稀疏分組lasso(SDP)效果最好。稀疏組別組內(nèi)變量個數(shù)的大小及樣本量會影響預(yù)測準(zhǔn)確性，組內(nèi)變量個數(shù)≥8，樣本量≥700時，SDP模型預(yù)測準(zhǔn)確性較高。結(jié)論與單純DNN模型相比，SDP模型預(yù)測準(zhǔn)確性得到顯著改善；考慮不同樣本量和分組方式的情況，SDP模型的預(yù)測能力均有明顯提高，并且其對預(yù)測相關(guān)重要特征的提取較為準(zhǔn)確。在實際案例分析中發(fā)現(xiàn)在小樣本的高維組學(xué)數(shù)據(jù)中，SDP模型預(yù)測準(zhǔn)確性和防止過擬合的能力均有明顯提升。

隨著高通量檢測技術(shù)的快速發(fā)展，產(chǎn)生了大量的組學(xué)數(shù)據(jù)，其越來越普遍地用于疾病與健康的相關(guān)研究，但組學(xué)數(shù)據(jù)具有維度高、樣本量小、結(jié)構(gòu)復(fù)雜的特點，分析起來較為復(fù)雜，而深度神經(jīng)網(wǎng)絡(luò)(deep neural networks，DNN)模型可擬合任意函數(shù)，適用于分析此類數(shù)據(jù)，但在進行模型訓(xùn)練時，組學(xué)數(shù)據(jù)中存在大量與預(yù)測不相關(guān)的冗余特征，訓(xùn)練過程中使用全部特征可能會導(dǎo)致模型出現(xiàn)過擬合問題，影響模型預(yù)測的準(zhǔn)確性，而在DNN模型中，可以通過刪除冗余參數(shù)達到壓縮模型的目的[1-2]。在DNN壓縮方法中基于梯度正則化方法具有更高的優(yōu)勢，具體表現(xiàn)為該方法可在訓(xùn)練網(wǎng)絡(luò)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)的同時，進行特定結(jié)構(gòu)的稀疏[3]，并且對變量數(shù)目沒有限制、計算速度較快，可用于處理高維、低樣本量的數(shù)據(jù)[4]。目前基于梯度正則化方法主要用于對DNN結(jié)構(gòu)的調(diào)整，通過修剪或合并網(wǎng)絡(luò)結(jié)構(gòu)以簡化模型，降低模型的復(fù)雜度和過擬合程度，而未用于輸入層特征的稀疏[5-7]。

本文提出基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso的預(yù)測模型(prediction model based on deep neural network together with sparse group lasso，SDP)，該方法基于梯度正則化方法壓縮DNN結(jié)構(gòu)的思想，在每次迭代調(diào)整模型參數(shù)的過程中，修剪掉輸入層中不重要的特征，使模型充分學(xué)習(xí)重要特征，以提高預(yù)測準(zhǔn)確性、避免過擬合。本研究將通過模擬不同樣本特征的數(shù)據(jù)評估SDP模型的預(yù)測能力是否優(yōu)于傳統(tǒng)的DNN模型，并探索SDP模型預(yù)測能力較高時樣本特征規(guī)律。采用腫瘤基因組圖譜計劃(the cancer genome atlas，TCGA)數(shù)據(jù)庫中乳腺癌數(shù)據(jù)，按通路分組進行實例分析，進一步評價SDP模型與DNN模型的預(yù)測能力。

原理

1.深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso模型(SDP)

該方法的基本原理是把額外的懲罰項加到已有模型的損失函數(shù)上，稀疏模型中的特定結(jié)構(gòu)，以防止過擬合現(xiàn)象發(fā)生。在傳統(tǒng)的DNN基礎(chǔ)上，將正則化方法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)的輸入層與第一隱藏層間，用以對輸入層特征進行稀疏，將Cox模型連接于深度神經(jīng)網(wǎng)絡(luò)的輸出層，即圖1所示。

圖1 基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso模型(SDP)基本結(jié)構(gòu)

在深度神經(jīng)網(wǎng)絡(luò)中，第一隱藏層h1表示為：

h1=f(W1x+b1)

(1)

第二隱藏層h2表示為：

h2=f(W2h1+b2)

(2)

其中，f(z)為激活函數(shù)，本研究中采用常用的ReLU函數(shù)，表達式為：

f(x)=max(0，x)

(3)

將深度神經(jīng)網(wǎng)絡(luò)第二隱藏層的輸出作為Cox模型的輸入，則有

h(t|x)=h0(t)exp(βh2)

(4)

其中h2表示第二隱藏層節(jié)點，β表示第二隱藏層節(jié)點與輸出層之間的權(quán)重向量。βh2為預(yù)后指數(shù)(prognostic index，PI)，PI越大則風(fēng)險函數(shù)h(t|x)越大、預(yù)后越差，該指標(biāo)不隨時間的變化而變化。由于未對基礎(chǔ)風(fēng)險函數(shù)h0作任何假設(shè)，因此常規(guī)的最大似然估計無法估計回歸系數(shù)向量β，對此可以構(gòu)造對數(shù)偏似然函數(shù)對模型參數(shù)進行估計。

首先，將k個樣本生存時間從小到大排序t1

(5)

則各死亡時間點累積死亡概率為：

(6)

式中censor表示刪失狀態(tài)。對公式(6)取對數(shù)得到以下公式：

(7)

此為SDP模型不考慮正則化懲罰時的損失函數(shù)。當(dāng)考慮稀疏輸入層成組特征和單個特征時，將SGL懲罰項加入式(7)中，則SDP模型的損失函數(shù)表達式為：

(8)

2.模型訓(xùn)練及評價指標(biāo)

根據(jù)樣本量大小選取適當(dāng)批尺寸的樣本進行模型迭代訓(xùn)練，用60%的樣本作為訓(xùn)練數(shù)據(jù)集(training dataset)進行模型訓(xùn)練，用20%的驗證數(shù)據(jù)集(validation dataset)評估并選擇出模型預(yù)測能力較高時的正則化參數(shù)α、λ，最終的模型預(yù)測能力通過另外20%測試數(shù)據(jù)集(testing dataset)進行比較。本文以生存分析為例評價SDP模型的預(yù)測準(zhǔn)確性，評價指標(biāo)選用常規(guī)生存分析預(yù)測準(zhǔn)確性評價指標(biāo)C指數(shù)，C指數(shù)越高說明模型預(yù)測準(zhǔn)確性越高。

模擬數(shù)據(jù)

1.模擬數(shù)據(jù)產(chǎn)生原理及特征

通常分三步產(chǎn)生包含隨機刪失的生存數(shù)據(jù)：首先采用Bender等提出的模擬方法[8]，產(chǎn)生完整生存時間T。第二步產(chǎn)生刪失時間Tc，觀察時間T0=min(Tc，T)。第三步判斷樣本狀態(tài)，如果T≤TC，則觀察時間為T，該樣本狀態(tài)為死亡；如果T>TC，則觀察時間為Tc，此時樣本為刪失狀態(tài)。

本研究模擬在固定總特征不變的前提下，考慮不同分組信息以及每組包含不同的變量個數(shù)情況下，評價模型的預(yù)測能力。模擬數(shù)據(jù)共分為三個場景，主要探討深度神經(jīng)網(wǎng)絡(luò)融合不同正則化方法模型的預(yù)測能力及過擬合改善情況，以及模型預(yù)測能力較好時樣本特征規(guī)律。具體特征如表1。

表1 模擬數(shù)據(jù)特征*

2.模擬數(shù)據(jù)結(jié)果

(1)融合不同正則化方法模型預(yù)測效果比較

本次模擬改變輸入層與第一隱藏層權(quán)重稀疏方法，比較DNN及其融合不同正則化方法時模型預(yù)測準(zhǔn)確性。由圖2A可知DNN模型預(yù)測C指數(shù)約為0.5，準(zhǔn)確性較差，驗證集、測試集與訓(xùn)練集間距離依然很大存在過擬合現(xiàn)象。由圖2B～F可知，當(dāng)融合lasso回歸、嶺回歸、分組lasso回歸及稀疏分組lasso(SGL)時，測試集C指數(shù)均值分別為0.5、0.72、0.77、0.8，除嶺回歸外模型預(yù)測能力均有顯著改善；訓(xùn)練集與驗證集和測試集的間距明顯縮小，有效改善DNN模型的過擬合問題。其中融合SGL時預(yù)測準(zhǔn)確性及過擬合問題改善最為明顯。DNN模型測試集C指數(shù)約為0.5，與DNN融合稀疏分組lasso(SDP)模型的差異有統(tǒng)計學(xué)意義(t=-31.95，P<0.0001)，SDP模型預(yù)測能力優(yōu)于傳統(tǒng)的DNN模型。

圖2 DNN融合不同正則化方法后模型C指數(shù)隨迭代次數(shù)的變化情況

從上述結(jié)果中可以看出，基于模擬數(shù)據(jù)data1應(yīng)用SDP模型對生存風(fēng)險的預(yù)測結(jié)果與實際情況一致性較好(0.8)，為進一步探索模型對重要特征的提取能力，將基于data1數(shù)據(jù)集訓(xùn)練的SDP模型輸入層與第一隱藏層的權(quán)重輸出，對每個特征各節(jié)點權(quán)重加和后得到各個特征的權(quán)重，按絕對值大小進行排序，選取權(quán)重值前32的特征與模擬生存數(shù)據(jù)的特征做對比，32個特征中與相關(guān)特征(16個)一致的特征有15個，特征提取靈敏度為93.75%，可證明模型對重要特征提取的準(zhǔn)確性較高。

(2)不同分組情況SDP模型預(yù)測效果比較

本次模擬固定樣本量不變，假定先驗分組方式不同，則組內(nèi)變量個數(shù)不同，即模擬產(chǎn)生組內(nèi)變量個數(shù)不同的data2A～data2E數(shù)據(jù)集，比較先驗分組信息不同條件下SDP模型與DNN模型的預(yù)測準(zhǔn)確性。當(dāng)組內(nèi)變量個數(shù)為2、4、8、16、32時，正則化參數(shù)的最佳組合分別為0.5/0.99、0.25/0.99、16/0.99、64/0.999、32/0.99。在圖3A～B中，除組大小為2、4的C指數(shù)低于0.5，其余分組方式SDP模型C指數(shù)均高于0.8。說明應(yīng)用SDP模型時，要選擇合適的先驗分組信息，注意控制組內(nèi)變量個數(shù)不宜過低；圖3C中，隨著組大小的增大，C指數(shù)有逐漸增高的趨勢，當(dāng)組大小≥8時SDP模型C指數(shù)大于0.8，預(yù)測能力較好。為了進一步總結(jié)分組方式不同時，正則化參數(shù)設(shè)置的規(guī)律，以2E數(shù)據(jù)集為例，設(shè)λ×(1-α)為橫軸，迭代次數(shù)2000～3500的C指數(shù)均值為縱軸(此時模型訓(xùn)練趨于穩(wěn)定)，觀察隨正則化參數(shù)變化C指數(shù)均值變化情況，如圖3D，當(dāng)λ×(1-α)大于1時，C指數(shù)均值低至0.5，模型預(yù)測能力不佳，將圖3D的0～1部分放大，當(dāng)λ×(1-α)小于0.45時，SDP模型的預(yù)測C指數(shù)高于0.7，預(yù)測能力較好。

圖3 不同分組情況SDP模型的預(yù)測情況

(3)不同樣本量SDP模型預(yù)測效果比較

本次模擬固定分組方式不變，改變樣本量以比較不同樣本量條件下，SDP模型與DNN模型的預(yù)測準(zhǔn)確性。在不同研究、不同平臺及不同疾病等中，可獲得的模型訓(xùn)練數(shù)據(jù)樣本量不同，而樣本量大小可能影響模型的學(xué)習(xí)能力，進而影響其預(yù)測性能。如圖4A所示，在各樣本量條件下，SDP模型C指數(shù)均大于0.7，SDP模型預(yù)測能力較好；圖4B中，Y軸為訓(xùn)練穩(wěn)定后，各模擬數(shù)據(jù)集測試集C指數(shù)均值，SDP模型C指數(shù)均大于DNN模型，預(yù)測能力優(yōu)于DNN模型；如圖4C所示，隨著樣本量增大，SDP模型C指數(shù)有逐步上升的趨勢，當(dāng)樣本量≥700時，C指數(shù)在0.8以上，模型預(yù)測能力較好。

圖4 不同樣本量SDP模型和DNN模型的預(yù)測情況

實例分析

TCGA數(shù)據(jù)庫中乳腺癌患者的mRNA數(shù)據(jù)(1217例)、臨床表型數(shù)據(jù)(1284例)和生存數(shù)據(jù)(1260例)進行分析，考慮到樣本刪失率不能超過80%，否則測試時可能會導(dǎo)致無可比對子數(shù)進而無法計算C指數(shù)，因此排除部分刪失數(shù)據(jù)，最終選擇700例樣本作為模型訓(xùn)練樣本?？紤]到京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes，KEGG)通路是一組包含生物系統(tǒng)信息的網(wǎng)絡(luò)通路，其可整合生物分子及化學(xué)分子間的相互作用[9]，因此將KEGG通路作為乳腺癌mRNA特征的分組信息。采用R軟件中的“org.Hs.eg.db”軟件包識別60483個KEGG-ID號，共有25880個mRNA成功獲得KEGG-ID號；利用KEGG的API獲取基因?qū)?yīng)的通路信息，共有32605個mRNA(一個mRNA可能存在于多個通路中，共7921個mRNA)富集于337個通路，每個通路中包含的mRNA的范圍是1到1487個；考慮到臨床表型特征的實際意義以及缺失率，納入8個臨床表型特征進行分析，包括初始診斷年齡、TNM分期、樣本來源、種族、初始診斷類型以及stage分期，將每個特征單獨分為一組。

基于此數(shù)據(jù)訓(xùn)練模型，當(dāng)正則化參數(shù)λ、α分別設(shè)為16、0.999時，SDP模型預(yù)測結(jié)果如圖5所示，與DNN模型相比，SDP模型過擬合問題及預(yù)測能力有明顯改善。隨著迭代次數(shù)的增加SDP模型訓(xùn)練集C指數(shù)與驗證集、測試集的C指數(shù)間距小于DNN模型訓(xùn)練集與測試集間距，說明SDP模型一定程度上改善了單純DNN模型存在的過擬合現(xiàn)象(見圖5A和圖5B)。SDP模型測試集C指數(shù)均值為0.70，相較于DNN模型的0.58有明顯提高，預(yù)測能力改善明顯(見圖5C和圖5D)。

圖5 SDP模型及DNN模型在乳腺癌數(shù)據(jù)中的預(yù)測情況

為了進一步說明SDP模型特征提取的準(zhǔn)確性，在訓(xùn)練好的SDP預(yù)測模型中，根據(jù)輸入層與第一隱藏層的權(quán)重求得各特征的平均權(quán)重，排序得到權(quán)重前10的重要特征，基于這10個特征建立Cox模型，與利用全部特征擬合的Cox模型進行預(yù)測能力、過擬合改善情況的對比。如圖6A，基于全部特征訓(xùn)練Cox模型，其訓(xùn)練集C指數(shù)與驗證集、測試集C指數(shù)間差距較大，模型存在過擬合問題。如圖6B，基于提取特征訓(xùn)練的Cox模型，其訓(xùn)練集C指數(shù)與驗證集、測試集C指數(shù)間差距明顯縮小，有效改善了過擬合問題。由圖6C和圖6D可知，基于SDP模型中提取的重要特征訓(xùn)練的Cox模型C指數(shù)為0.67，與基于全部特征訓(xùn)練的模型的0.65相比，其預(yù)測能力差異不大。綜上所述，基于SDP模型提取的特征訓(xùn)練Cox模型，可在不降低預(yù)測準(zhǔn)確性的同時，有效改善由于變量過多導(dǎo)致的過擬合現(xiàn)象，提示提取的特征與預(yù)后相關(guān)較好，證明SDP模型在重要特征提取方面具有一定的優(yōu)越性。

圖6 基于乳腺癌數(shù)據(jù)不同特征擬合Cox模型的預(yù)測情況

討論

基于小樣本高維組學(xué)數(shù)據(jù)應(yīng)用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型時，存在的一個顯著缺點是模型的“過擬合”問題，該問題可以通過減少過度參數(shù)化、簡化、壓縮DNN解決。壓縮DNN模型一般有構(gòu)建法和修剪法兩種方法，修剪法學(xué)習(xí)速度較快，對初始條件的敏感度較低，并且泛化能力較強，因此修剪法更為常用。神經(jīng)網(wǎng)絡(luò)修剪方法，一般包括以下四種類型，即基于閾值的方法、基于結(jié)構(gòu)靈敏度的方法、基于結(jié)構(gòu)間相關(guān)性的方法以及基于梯度正則化的方法[10]。相對于其他三種方法，基于梯度正則化方法因以下優(yōu)勢而使用更加廣泛：第一，正則化方法不需要預(yù)訓(xùn)練模型，模型參數(shù)調(diào)整與結(jié)構(gòu)修剪可同時進行；第二，不需要計算靈敏度、特異度；第三，僅通過添加一個或多個正則化項稀疏網(wǎng)絡(luò)結(jié)構(gòu)；第四，可以考慮學(xué)習(xí)錯誤使模型獲得更好的性能。目前基于梯度正則化的方法未用于輸入層數(shù)據(jù)[7，11-12]，然而應(yīng)用DNN進行癌癥預(yù)測問題時，輸入數(shù)據(jù)中存在大量的對預(yù)測不重要的冗余數(shù)據(jù)，以及一些相對很重要的數(shù)據(jù)，若不加選擇地全部應(yīng)用于模型訓(xùn)練，勢必會導(dǎo)致模型的過擬合問題，影響其預(yù)測準(zhǔn)確性。

在本研究中，基于梯度正則化修剪網(wǎng)絡(luò)的思想，在DNN模型損失函數(shù)中加上稀疏輸入層特征的正則化項，在最小化誤差調(diào)節(jié)參數(shù)的同時懲罰輸入層特征的權(quán)重，不斷加強對重要特征的學(xué)習(xí)，有效改善了模型過擬合問題、提高了其預(yù)測能力。目前常見的正則化方法中，嶺回歸是將每個變量系數(shù)變?。籰asso可以使部分變量稀疏為0；分組lasso回歸根據(jù)先驗分組信息考慮組間特征的相關(guān)性，對分組變量進行篩選；SGL回歸結(jié)合lasso和GL回歸二者優(yōu)勢，可同時實現(xiàn)成組變量和單個變量的篩選，對特征的稀疏程度更加充分。由模擬實驗結(jié)果可知，相對于其他正則化方法，融合SGL的SDP模型的C指數(shù)最高、預(yù)測能力最好，測試集和驗證集C指數(shù)與訓(xùn)練集差距最小，過擬合改善情況最為明顯。可能的原因是與其他的正則化方法相比，SGL將先驗分組信息加入模型損失函數(shù)的正則化項，充分考慮了輸入特征間的相關(guān)性，同時稀疏分組特征和單個特征，模型對重要特征提取能力可能更高。當(dāng)組內(nèi)變量個數(shù)≥8時，SDP模型預(yù)測能力優(yōu)于單純DNN模型；應(yīng)用于不同樣本量數(shù)據(jù)時，SDP模型的預(yù)測能力優(yōu)于DNN模型，當(dāng)樣本量≥700時模型預(yù)測能力更佳，樣本量越大SDP模型的學(xué)習(xí)越充分。

在實例分析中，通過聯(lián)合TCGA乳腺癌的mRNA數(shù)據(jù)和臨床表型數(shù)據(jù)，應(yīng)用SDP模型和DNN模型進行死亡風(fēng)險預(yù)測，顯示SDP模型預(yù)測準(zhǔn)確性和過擬合改善情況優(yōu)于DNN模型。值得注意的是，有研究表明隨著數(shù)據(jù)刪失率的增大，Cox模型的偏倚性、準(zhǔn)確性以及模型的擬合程度均會有所下降，且刪失率較大時模型偏倚性有加速下降的趨勢[13-15]。而在乳腺癌訓(xùn)練數(shù)據(jù)中刪失率高達76%，但應(yīng)用SDP模型其預(yù)測準(zhǔn)確性較高，提示SDP模型對于刪失率較高的數(shù)據(jù)可能具有一定的適用性。另外，在基于乳腺癌數(shù)據(jù)訓(xùn)練的SDP模型中，通過特征權(quán)重排序獲得的重要特征訓(xùn)練Cox模型，與基于全部特征訓(xùn)練的Cox模型相比，過擬合現(xiàn)象有顯著的改善，說明SDP模型在特征提取方面具有一定的優(yōu)越性。

SDP模型也存在一定的缺陷，例如損失函數(shù)加入正則化項后降低了模型的運算速度，當(dāng)數(shù)據(jù)變量較多時較為耗時；另一個問題是網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置，如網(wǎng)絡(luò)層數(shù)、各層節(jié)點數(shù)，均可能影響模型的預(yù)測結(jié)果，如何設(shè)置網(wǎng)絡(luò)結(jié)構(gòu)有待進一步探討。根據(jù)目的不同，可以將SDP模型的輸出層部分的Cox模型替換，如當(dāng)感興趣結(jié)局為事件的分類時，像患病與否，疾病分型等，可連接logistic模型或者SVM模型等，但此時DNN融合正則化模型的預(yù)測能力是否依然優(yōu)于DNN模型有待未來的研究具體驗證。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso的預(yù)測模型研究*

原 理

模擬數(shù)據(jù)

實例分析

討 論

原理

討論