哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150081) 盧宇紅 宋佳麗 王 萌 侯 艷
【提 要】 目的 探索深度神經(jīng)網(wǎng)絡(luò)(DNN)聯(lián)合不同正則化方法后模型預(yù)測準(zhǔn)確性的差異;探索模型預(yù)測準(zhǔn)確性較高時的樣本特征規(guī)律。方法 R軟件產(chǎn)生不同分組、不同樣本量的模擬數(shù)據(jù)集,在不同數(shù)據(jù)特征下比較DNN模型及融合正則化后模型的預(yù)測能力。通過真實數(shù)據(jù)分析進一步評價兩種模型的預(yù)測能力。結(jié)果 DNN融合不同正則化方法的結(jié)果均優(yōu)于單純DNN模型,其中DNN融合稀疏分組lasso(SDP)效果最好。稀疏組別組內(nèi)變量個數(shù)的大小及樣本量會影響預(yù)測準(zhǔn)確性,組內(nèi)變量個數(shù)≥8,樣本量≥700時,SDP模型預(yù)測準(zhǔn)確性較高。結(jié)論 與單純DNN模型相比,SDP模型預(yù)測準(zhǔn)確性得到顯著改善;考慮不同樣本量和分組方式的情況,SDP模型的預(yù)測能力均有明顯提高,并且其對預(yù)測相關(guān)重要特征的提取較為準(zhǔn)確。在實際案例分析中發(fā)現(xiàn)在小樣本的高維組學(xué)數(shù)據(jù)中,SDP模型預(yù)測準(zhǔn)確性和防止過擬合的能力均有明顯提升。
隨著高通量檢測技術(shù)的快速發(fā)展,產(chǎn)生了大量的組學(xué)數(shù)據(jù),其越來越普遍地用于疾病與健康的相關(guān)研究,但組學(xué)數(shù)據(jù)具有維度高、樣本量小、結(jié)構(gòu)復(fù)雜的特點,分析起來較為復(fù)雜,而深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)模型可擬合任意函數(shù),適用于分析此類數(shù)據(jù),但在進行模型訓(xùn)練時,組學(xué)數(shù)據(jù)中存在大量與預(yù)測不相關(guān)的冗余特征,訓(xùn)練過程中使用全部特征可能會導(dǎo)致模型出現(xiàn)過擬合問題,影響模型預(yù)測的準(zhǔn)確性,而在DNN模型中,可以通過刪除冗余參數(shù)達到壓縮模型的目的[1-2]。在DNN壓縮方法中基于梯度正則化方法具有更高的優(yōu)勢,具體表現(xiàn)為該方法可在訓(xùn)練網(wǎng)絡(luò)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)的同時,進行特定結(jié)構(gòu)的稀疏[3],并且對變量數(shù)目沒有限制、計算速度較快,可用于處理高維、低樣本量的數(shù)據(jù)[4]。目前基于梯度正則化方法主要用于對DNN結(jié)構(gòu)的調(diào)整,通過修剪或合并網(wǎng)絡(luò)結(jié)構(gòu)以簡化模型,降低模型的復(fù)雜度和過擬合程度,而未用于輸入層特征的稀疏[5-7]。
本文提出基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso的預(yù)測模型(prediction model based on deep neural network together with sparse group lasso,SDP),該方法基于梯度正則化方法壓縮DNN結(jié)構(gòu)的思想,在每次迭代調(diào)整模型參數(shù)的過程中,修剪掉輸入層中不重要的特征,使模型充分學(xué)習(xí)重要特征,以提高預(yù)測準(zhǔn)確性、避免過擬合。本研究將通過模擬不同樣本特征的數(shù)據(jù)評估SDP模型的預(yù)測能力是否優(yōu)于傳統(tǒng)的DNN模型,并探索SDP模型預(yù)測能力較高時樣本特征規(guī)律。采用腫瘤基因組圖譜計劃(the cancer genome atlas,TCGA)數(shù)據(jù)庫中乳腺癌數(shù)據(jù),按通路分組進行實例分析,進一步評價SDP模型與DNN模型的預(yù)測能力。
1.深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso模型(SDP)
該方法的基本原理是把額外的懲罰項加到已有模型的損失函數(shù)上,稀疏模型中的特定結(jié)構(gòu),以防止過擬合現(xiàn)象發(fā)生。在傳統(tǒng)的DNN基礎(chǔ)上,將正則化方法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)的輸入層與第一隱藏層間,用以對輸入層特征進行稀疏,將Cox模型連接于深度神經(jīng)網(wǎng)絡(luò)的輸出層,即圖1所示。
圖1 基于深度神經(jīng)網(wǎng)絡(luò)融合稀疏分組lasso模型(SDP)基本結(jié)構(gòu)
在深度神經(jīng)網(wǎng)絡(luò)中,第一隱藏層h1表示為:
h1=f(W1x+b1)
(1)
第二隱藏層h2表示為:
h2=f(W2h1+b2)
(2)
其中,f(z)為激活函數(shù),本研究中采用常用的ReLU函數(shù),表達式為:
f(x)=max(0,x)
(3)
將深度神經(jīng)網(wǎng)絡(luò)第二隱藏層的輸出作為Cox模型的輸入,則有
h(t|x)=h0(t)exp(βh2)
(4)
其中h2表示第二隱藏層節(jié)點,β表示第二隱藏層節(jié)點與輸出層之間的權(quán)重向量。βh2為預(yù)后指數(shù)(prognostic index,PI),PI越大則風(fēng)險函數(shù)h(t|x)越大、預(yù)后越差,該指標(biāo)不隨時間的變化而變化。由于未對基礎(chǔ)風(fēng)險函數(shù)h0作任何假設(shè),因此常規(guī)的最大似然估計無法估計回歸系數(shù)向量β,對此可以構(gòu)造對數(shù)偏似然函數(shù)對模型參數(shù)進行估計。
首先,將k個樣本生存時間從小到大排序t1 (5) 則各死亡時間點累積死亡概率為: (6) 式中censor表示刪失狀態(tài)。對公式(6)取對數(shù)得到以下公式: (7) 此為SDP模型不考慮正則化懲罰時的損失函數(shù)。當(dāng)考慮稀疏輸入層成組特征和單個特征時,將SGL懲罰項加入式(7)中,則SDP模型的損失函數(shù)表達式為: (8) 2.模型訓(xùn)練及評價指標(biāo) 根據(jù)樣本量大小選取適當(dāng)批尺寸的樣本進行模型迭代訓(xùn)練,用60%的樣本作為訓(xùn)練數(shù)據(jù)集(training dataset)進行模型訓(xùn)練,用20%的驗證數(shù)據(jù)集(validation dataset)評估并選擇出模型預(yù)測能力較高時的正則化參數(shù)α、λ,最終的模型預(yù)測能力通過另外20%測試數(shù)據(jù)集(testing dataset)進行比較。本文以生存分析為例評價SDP模型的預(yù)測準(zhǔn)確性,評價指標(biāo)選用常規(guī)生存分析預(yù)測準(zhǔn)確性評價指標(biāo)C指數(shù),C指數(shù)越高說明模型預(yù)測準(zhǔn)確性越高。 1.模擬數(shù)據(jù)產(chǎn)生原理及特征 通常分三步產(chǎn)生包含隨機刪失的生存數(shù)據(jù):首先采用Bender等提出的模擬方法[8],產(chǎn)生完整生存時間T。第二步產(chǎn)生刪失時間Tc,觀察時間T0=min(Tc,T)。第三步判斷樣本狀態(tài),如果T≤TC,則觀察時間為T,該樣本狀態(tài)為死亡;如果T>TC,則觀察時間為Tc,此時樣本為刪失狀態(tài)。 本研究模擬在固定總特征不變的前提下,考慮不同分組信息以及每組包含不同的變量個數(shù)情況下,評價模型的預(yù)測能力。模擬數(shù)據(jù)共分為三個場景,主要探討深度神經(jīng)網(wǎng)絡(luò)融合不同正則化方法模型的預(yù)測能力及過擬合改善情況,以及模型預(yù)測能力較好時樣本特征規(guī)律。具體特征如表1。 表1 模擬數(shù)據(jù)特征* 2.模擬數(shù)據(jù)結(jié)果 (1)融合不同正則化方法模型預(yù)測效果比較 本次模擬改變輸入層與第一隱藏層權(quán)重稀疏方法,比較DNN及其融合不同正則化方法時模型預(yù)測準(zhǔn)確性。由圖2A可知DNN模型預(yù)測C指數(shù)約為0.5,準(zhǔn)確性較差,驗證集、測試集與訓(xùn)練集間距離依然很大存在過擬合現(xiàn)象。由圖2B~F可知,當(dāng)融合lasso回歸、嶺回歸、分組lasso回歸及稀疏分組lasso(SGL)時,測試集C指數(shù)均值分別為0.5、0.72、0.77、0.8,除嶺回歸外模型預(yù)測能力均有顯著改善;訓(xùn)練集與驗證集和測試集的間距明顯縮小,有效改善DNN模型的過擬合問題。其中融合SGL時預(yù)測準(zhǔn)確性及過擬合問題改善最為明顯。DNN模型測試集C指數(shù)約為0.5,與DNN融合稀疏分組lasso(SDP)模型的差異有統(tǒng)計學(xué)意義(t=-31.95,P<0.0001),SDP模型預(yù)測能力優(yōu)于傳統(tǒng)的DNN模型。 圖2 DNN融合不同正則化方法后模型C指數(shù)隨迭代次數(shù)的變化情況 從上述結(jié)果中可以看出,基于模擬數(shù)據(jù)data1應(yīng)用SDP模型對生存風(fēng)險的預(yù)測結(jié)果與實際情況一致性較好(0.8),為進一步探索模型對重要特征的提取能力,將基于data1數(shù)據(jù)集訓(xùn)練的SDP模型輸入層與第一隱藏層的權(quán)重輸出,對每個特征各節(jié)點權(quán)重加和后得到各個特征的權(quán)重,按絕對值大小進行排序,選取權(quán)重值前32的特征與模擬生存數(shù)據(jù)的特征做對比,32個特征中與相關(guān)特征(16個)一致的特征有15個,特征提取靈敏度為93.75%,可證明模型對重要特征提取的準(zhǔn)確性較高。 (2)不同分組情況SDP模型預(yù)測效果比較 本次模擬固定樣本量不變,假定先驗分組方式不同,則組內(nèi)變量個數(shù)不同,即模擬產(chǎn)生組內(nèi)變量個數(shù)不同的data2A~data2E數(shù)據(jù)集,比較先驗分組信息不同條件下SDP模型與DNN模型的預(yù)測準(zhǔn)確性。當(dāng)組內(nèi)變量個數(shù)為2、4、8、16、32時,正則化參數(shù)的最佳組合分別為0.5/0.99、0.25/0.99、16/0.99、64/0.999、32/0.99。在圖3A~B中,除組大小為2、4的C指數(shù)低于0.5,其余分組方式SDP模型C指數(shù)均高于0.8。說明應(yīng)用SDP模型時,要選擇合適的先驗分組信息,注意控制組內(nèi)變量個數(shù)不宜過低;圖3C中,隨著組大小的增大,C指數(shù)有逐漸增高的趨勢,當(dāng)組大小≥8時SDP模型C指數(shù)大于0.8,預(yù)測能力較好。為了進一步總結(jié)分組方式不同時,正則化參數(shù)設(shè)置的規(guī)律,以2E數(shù)據(jù)集為例,設(shè)λ×(1-α)為橫軸,迭代次數(shù)2000~3500的C指數(shù)均值為縱軸(此時模型訓(xùn)練趨于穩(wěn)定),觀察隨正則化參數(shù)變化C指數(shù)均值變化情況,如圖3D,當(dāng)λ×(1-α)大于1時,C指數(shù)均值低至0.5,模型預(yù)測能力不佳,將圖3D的0~1部分放大,當(dāng)λ×(1-α)小于0.45時,SDP模型的預(yù)測C指數(shù)高于0.7,預(yù)測能力較好。 圖3 不同分組情況SDP模型的預(yù)測情況 (3)不同樣本量SDP模型預(yù)測效果比較 本次模擬固定分組方式不變,改變樣本量以比較不同樣本量條件下,SDP模型與DNN模型的預(yù)測準(zhǔn)確性。在不同研究、不同平臺及不同疾病等中,可獲得的模型訓(xùn)練數(shù)據(jù)樣本量不同,而樣本量大小可能影響模型的學(xué)習(xí)能力,進而影響其預(yù)測性能。如圖4A所示,在各樣本量條件下,SDP模型C指數(shù)均大于0.7,SDP模型預(yù)測能力較好;圖4B中,Y軸為訓(xùn)練穩(wěn)定后,各模擬數(shù)據(jù)集測試集C指數(shù)均值,SDP模型C指數(shù)均大于DNN模型,預(yù)測能力優(yōu)于DNN模型;如圖4C所示,隨著樣本量增大,SDP模型C指數(shù)有逐步上升的趨勢,當(dāng)樣本量≥700時,C指數(shù)在0.8以上,模型預(yù)測能力較好。 圖4 不同樣本量SDP模型和DNN模型的預(yù)測情況 TCGA數(shù)據(jù)庫中乳腺癌患者的mRNA數(shù)據(jù)(1217例)、臨床表型數(shù)據(jù)(1284例)和生存數(shù)據(jù)(1260例)進行分析,考慮到樣本刪失率不能超過80%,否則測試時可能會導(dǎo)致無可比對子數(shù)進而無法計算C指數(shù),因此排除部分刪失數(shù)據(jù),最終選擇700例樣本作為模型訓(xùn)練樣本??紤]到京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)通路是一組包含生物系統(tǒng)信息的網(wǎng)絡(luò)通路,其可整合生物分子及化學(xué)分子間的相互作用[9],因此將KEGG通路作為乳腺癌mRNA特征的分組信息。采用R軟件中的“org.Hs.eg.db”軟件包識別60483個KEGG-ID號,共有25880個mRNA成功獲得KEGG-ID號;利用KEGG的API獲取基因?qū)?yīng)的通路信息,共有32605個mRNA(一個mRNA可能存在于多個通路中,共7921個mRNA)富集于337個通路,每個通路中包含的mRNA的范圍是1到1487個;考慮到臨床表型特征的實際意義以及缺失率,納入8個臨床表型特征進行分析,包括初始診斷年齡、TNM分期、樣本來源、種族、初始診斷類型以及stage分期,將每個特征單獨分為一組。 基于此數(shù)據(jù)訓(xùn)練模型,當(dāng)正則化參數(shù)λ、α分別設(shè)為16、0.999時,SDP模型預(yù)測結(jié)果如圖5所示,與DNN模型相比,SDP模型過擬合問題及預(yù)測能力有明顯改善。隨著迭代次數(shù)的增加SDP模型訓(xùn)練集C指數(shù)與驗證集、測試集的C指數(shù)間距小于DNN模型訓(xùn)練集與測試集間距,說明SDP模型一定程度上改善了單純DNN模型存在的過擬合現(xiàn)象(見圖5A和圖5B)。SDP模型測試集C指數(shù)均值為0.70,相較于DNN模型的0.58有明顯提高,預(yù)測能力改善明顯(見圖5C和圖5D)。 圖5 SDP模型及DNN模型在乳腺癌數(shù)據(jù)中的預(yù)測情況 為了進一步說明SDP模型特征提取的準(zhǔn)確性,在訓(xùn)練好的SDP預(yù)測模型中,根據(jù)輸入層與第一隱藏層的權(quán)重求得各特征的平均權(quán)重,排序得到權(quán)重前10的重要特征,基于這10個特征建立Cox模型,與利用全部特征擬合的Cox模型進行預(yù)測能力、過擬合改善情況的對比。如圖6A,基于全部特征訓(xùn)練Cox模型,其訓(xùn)練集C指數(shù)與驗證集、測試集C指數(shù)間差距較大,模型存在過擬合問題。如圖6B,基于提取特征訓(xùn)練的Cox模型,其訓(xùn)練集C指數(shù)與驗證集、測試集C指數(shù)間差距明顯縮小,有效改善了過擬合問題。由圖6C和圖6D可知,基于SDP模型中提取的重要特征訓(xùn)練的Cox模型C指數(shù)為0.67,與基于全部特征訓(xùn)練的模型的0.65相比,其預(yù)測能力差異不大。綜上所述,基于SDP模型提取的特征訓(xùn)練Cox模型,可在不降低預(yù)測準(zhǔn)確性的同時,有效改善由于變量過多導(dǎo)致的過擬合現(xiàn)象,提示提取的特征與預(yù)后相關(guān)較好,證明SDP模型在重要特征提取方面具有一定的優(yōu)越性。 圖6 基于乳腺癌數(shù)據(jù)不同特征擬合Cox模型的預(yù)測情況 基于小樣本高維組學(xué)數(shù)據(jù)應(yīng)用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型時,存在的一個顯著缺點是模型的“過擬合”問題,該問題可以通過減少過度參數(shù)化、簡化、壓縮DNN解決。壓縮DNN模型一般有構(gòu)建法和修剪法兩種方法,修剪法學(xué)習(xí)速度較快,對初始條件的敏感度較低,并且泛化能力較強,因此修剪法更為常用。神經(jīng)網(wǎng)絡(luò)修剪方法,一般包括以下四種類型,即基于閾值的方法、基于結(jié)構(gòu)靈敏度的方法、基于結(jié)構(gòu)間相關(guān)性的方法以及基于梯度正則化的方法[10]。相對于其他三種方法,基于梯度正則化方法因以下優(yōu)勢而使用更加廣泛:第一,正則化方法不需要預(yù)訓(xùn)練模型,模型參數(shù)調(diào)整與結(jié)構(gòu)修剪可同時進行;第二,不需要計算靈敏度、特異度;第三,僅通過添加一個或多個正則化項稀疏網(wǎng)絡(luò)結(jié)構(gòu);第四,可以考慮學(xué)習(xí)錯誤使模型獲得更好的性能。目前基于梯度正則化的方法未用于輸入層數(shù)據(jù)[7,11-12],然而應(yīng)用DNN進行癌癥預(yù)測問題時,輸入數(shù)據(jù)中存在大量的對預(yù)測不重要的冗余數(shù)據(jù),以及一些相對很重要的數(shù)據(jù),若不加選擇地全部應(yīng)用于模型訓(xùn)練,勢必會導(dǎo)致模型的過擬合問題,影響其預(yù)測準(zhǔn)確性。 在本研究中,基于梯度正則化修剪網(wǎng)絡(luò)的思想,在DNN模型損失函數(shù)中加上稀疏輸入層特征的正則化項,在最小化誤差調(diào)節(jié)參數(shù)的同時懲罰輸入層特征的權(quán)重,不斷加強對重要特征的學(xué)習(xí),有效改善了模型過擬合問題、提高了其預(yù)測能力。目前常見的正則化方法中,嶺回歸是將每個變量系數(shù)變?。籰asso可以使部分變量稀疏為0;分組lasso回歸根據(jù)先驗分組信息考慮組間特征的相關(guān)性,對分組變量進行篩選;SGL回歸結(jié)合lasso和GL回歸二者優(yōu)勢,可同時實現(xiàn)成組變量和單個變量的篩選,對特征的稀疏程度更加充分。由模擬實驗結(jié)果可知,相對于其他正則化方法,融合SGL的SDP模型的C指數(shù)最高、預(yù)測能力最好,測試集和驗證集C指數(shù)與訓(xùn)練集差距最小,過擬合改善情況最為明顯。可能的原因是與其他的正則化方法相比,SGL將先驗分組信息加入模型損失函數(shù)的正則化項,充分考慮了輸入特征間的相關(guān)性,同時稀疏分組特征和單個特征,模型對重要特征提取能力可能更高。當(dāng)組內(nèi)變量個數(shù)≥8時,SDP模型預(yù)測能力優(yōu)于單純DNN模型;應(yīng)用于不同樣本量數(shù)據(jù)時,SDP模型的預(yù)測能力優(yōu)于DNN模型,當(dāng)樣本量≥700時模型預(yù)測能力更佳,樣本量越大SDP模型的學(xué)習(xí)越充分。 在實例分析中,通過聯(lián)合TCGA乳腺癌的mRNA數(shù)據(jù)和臨床表型數(shù)據(jù),應(yīng)用SDP模型和DNN模型進行死亡風(fēng)險預(yù)測,顯示SDP模型預(yù)測準(zhǔn)確性和過擬合改善情況優(yōu)于DNN模型。值得注意的是,有研究表明隨著數(shù)據(jù)刪失率的增大,Cox模型的偏倚性、準(zhǔn)確性以及模型的擬合程度均會有所下降,且刪失率較大時模型偏倚性有加速下降的趨勢[13-15]。而在乳腺癌訓(xùn)練數(shù)據(jù)中刪失率高達76%,但應(yīng)用SDP模型其預(yù)測準(zhǔn)確性較高,提示SDP模型對于刪失率較高的數(shù)據(jù)可能具有一定的適用性。另外,在基于乳腺癌數(shù)據(jù)訓(xùn)練的SDP模型中,通過特征權(quán)重排序獲得的重要特征訓(xùn)練Cox模型,與基于全部特征訓(xùn)練的Cox模型相比,過擬合現(xiàn)象有顯著的改善,說明SDP模型在特征提取方面具有一定的優(yōu)越性。 SDP模型也存在一定的缺陷,例如損失函數(shù)加入正則化項后降低了模型的運算速度,當(dāng)數(shù)據(jù)變量較多時較為耗時;另一個問題是網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置,如網(wǎng)絡(luò)層數(shù)、各層節(jié)點數(shù),均可能影響模型的預(yù)測結(jié)果,如何設(shè)置網(wǎng)絡(luò)結(jié)構(gòu)有待進一步探討。根據(jù)目的不同,可以將SDP模型的輸出層部分的Cox模型替換,如當(dāng)感興趣結(jié)局為事件的分類時,像患病與否,疾病分型等,可連接logistic模型或者SVM模型等,但此時DNN融合正則化模型的預(yù)測能力是否依然優(yōu)于DNN模型有待未來的研究具體驗證。模擬數(shù)據(jù)
實例分析
討 論