国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖卷積神經(jīng)網(wǎng)絡(luò)在組學(xué)數(shù)據(jù)分類預(yù)測(cè)中的應(yīng)用*

2021-10-09 08:16張劉超榮志煒趙薇薇
關(guān)鍵詞:模擬實(shí)驗(yàn)黑色素瘤卷積

張劉超 榮志煒 趙薇薇 李 康△

【提 要】 目的 探討圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCNN)利用PPI網(wǎng)絡(luò)對(duì)組學(xué)數(shù)據(jù)的分類預(yù)測(cè)效能。方法 通過模擬實(shí)驗(yàn)和實(shí)例研究,對(duì)GCNN、隨機(jī)森林、支持向量機(jī)和多層感知機(jī)共四種方法的分類效果進(jìn)行比較。結(jié)果 模擬實(shí)驗(yàn)結(jié)果顯示,即便在樣本量和網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)量較少時(shí),GCNN的分類效能也明顯優(yōu)于其他三種方法,并且隨著節(jié)點(diǎn)數(shù)量的增加而不斷提高。實(shí)例研究表明,利用STRING網(wǎng)絡(luò),GCNN的分類效能最優(yōu)。結(jié)論 GCNN在組學(xué)數(shù)據(jù)的研究中極具潛力,值得進(jìn)一步研究。

腫瘤的發(fā)生發(fā)展是基因突變、表觀遺傳學(xué)改變,以及環(huán)境因素等共同作用的結(jié)果[1]。圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN)[2]是一種適用于圖(網(wǎng)絡(luò))結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)算法,即利用已知的PPI(protein-protein interaction)網(wǎng)絡(luò)提供的基因相互作用關(guān)系,可以更有效的提取腫瘤樣本的數(shù)據(jù)特征,再使用深度學(xué)習(xí)建立判別模型,有利于提高模型的判別能力,實(shí)現(xiàn)更好的分類預(yù)測(cè)效能。本研究通過模擬實(shí)驗(yàn)探究GCNN方法的分類預(yù)測(cè)效能,并與多層感知機(jī)(MLP)、隨機(jī)森林(RF)和支持向量機(jī)(SVM)三種方法進(jìn)行比較,最后給出應(yīng)用實(shí)例。

方法和原理

1.基本原理

圖結(jié)構(gòu)數(shù)據(jù)[3]由網(wǎng)絡(luò)圖和節(jié)點(diǎn)特征值組成,網(wǎng)絡(luò)圖是指根據(jù)特定的生物學(xué)關(guān)系,如基因調(diào)控或蛋白互作關(guān)系等構(gòu)成的網(wǎng)絡(luò)圖形,可以用G=(V,E,A)表示,其中V表示節(jié)點(diǎn),E為連接邊,A為加權(quán)鄰接矩陣,每個(gè)節(jié)點(diǎn)有其對(duì)應(yīng)的特征值。在PPI網(wǎng)絡(luò)中,節(jié)點(diǎn)代表蛋白質(zhì)或其對(duì)應(yīng)的基因,連接邊表示基因間的相互作用關(guān)系,特征值即為基因或蛋白質(zhì)的表達(dá)值。圖卷積神經(jīng)網(wǎng)絡(luò)算法的思想[2]:對(duì)網(wǎng)絡(luò)各節(jié)點(diǎn)與其直接相連或間接相連的節(jié)點(diǎn)表達(dá)值多次做加權(quán)平均,由此得到的節(jié)點(diǎn)表達(dá)值則更加穩(wěn)定;其權(quán)重可以利用拉普拉斯矩陣L,即計(jì)算各節(jié)點(diǎn)梯度的散度,其計(jì)算周圍點(diǎn)與中心點(diǎn)的梯度差,得到的是對(duì)該點(diǎn)進(jìn)行微小擾動(dòng)后可能獲得的總變化,以此作為卷積核的函數(shù)實(shí)現(xiàn)上述計(jì)算;最后以卷積的結(jié)果作為輸入,利用全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)判別和分類(流程如圖1)。

圖1 圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN)流程示意圖

2.具體計(jì)算過程

給定無向網(wǎng)絡(luò)圖G=(V,E,A),其中V={X1,

X2,…,Xm}表示圖中節(jié)點(diǎn)的集合,m為圖中節(jié)點(diǎn)的個(gè)數(shù);E={(Xi,Xj)},(Xi,Xj)表示節(jié)點(diǎn)Xi與Xj之間的連接邊(1≤i,j≤m);A為加權(quán)鄰接矩陣,即

(1)

式中0≤aij≤1表示連接邊(Xi,Xj)上的權(quán)重,aii=1。同時(shí)定義對(duì)角陣

(2)

Defferrard[5]提出使用切比雪夫多項(xiàng)式計(jì)算圖卷積操作的卷積核,若取最高為K階的鄰接點(diǎn)做卷積,K=0,1,2,…,m-1,則相應(yīng)的卷積核為一個(gè)K維向量:

(3)

(4)

其中,n表示樣本個(gè)數(shù),m表示基因個(gè)數(shù)。則圖卷積操作為

(5)

在上述卷積運(yùn)算基礎(chǔ)上,以末次卷積運(yùn)算的結(jié)果X(C)作為輸入,由后端的全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行判別和分類。

模擬實(shí)驗(yàn)

1.GCNN的超參數(shù)設(shè)置

圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN)包含兩個(gè)卷積層和兩個(gè)全連接層;在模擬實(shí)驗(yàn)和實(shí)例研究1中,每個(gè)卷積層設(shè)置32個(gè)卷積核,且K=8;后端的兩個(gè)全連接隱藏層神經(jīng)元個(gè)數(shù)分別為1024和516。在實(shí)例研究2中,兩個(gè)卷積層分別設(shè)置32和64個(gè)卷積核,K=14;后端的兩個(gè)全連接隱藏層神經(jīng)元個(gè)數(shù)分別為1024和512。學(xué)習(xí)率為0.001,使用ReLU函數(shù)進(jìn)行非線性轉(zhuǎn)換,ReLU(x)=max(0,x)。計(jì)算樣本標(biāo)簽真實(shí)值與預(yù)測(cè)值的交叉熵?fù)p失,使用反向傳播算法對(duì)權(quán)值進(jìn)行更新。

2.模擬數(shù)據(jù)

模擬實(shí)驗(yàn)1:兩組多變量數(shù)據(jù)均值向量相同,協(xié)方差陣不同時(shí)四種方法的比較。設(shè)置變量數(shù)依次為100、250、500、750、1000,各變量的邊際分布服從正態(tài)分布N(0,1),并且平均與其他10個(gè)變量相關(guān)。為了描述所有變化情況,將取自正態(tài)分布N(0.1,0.12)的數(shù)值隨機(jī)與1,-1或0相乘得到不同兩組的相關(guān)系數(shù)。訓(xùn)練集的樣本量為200∶200,測(cè)試集的樣本量為2000∶2000。重復(fù)實(shí)驗(yàn)1000次。

模擬實(shí)驗(yàn)2:兩組多變量數(shù)據(jù)均值向量不同,同時(shí)協(xié)方差陣不同時(shí)四種方法的比較。固定變量數(shù)為500,生成一組數(shù)據(jù)各變量邊際分布服從N(0,1),另一組數(shù)據(jù)各變量邊際分布服從N(μ,1),均值μ分別為0、0.05、0.1、0.15和0.25。其他條件與模擬實(shí)驗(yàn)1相同。

3.模擬實(shí)驗(yàn)結(jié)果

模擬結(jié)果顯示,即使在組間均值沒有差異的情況下,當(dāng)網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)量較少時(shí),GCNN具有較好的分類預(yù)測(cè)能力,并且隨著節(jié)點(diǎn)數(shù)量的增加,GCNN分類預(yù)測(cè)的AUC值和準(zhǔn)確率不斷增加,并趨近于1,明顯優(yōu)于其他三種方法(見圖2)。當(dāng)固定網(wǎng)絡(luò)圖中節(jié)點(diǎn)數(shù)量為500時(shí),隨著兩組數(shù)據(jù)間均值向量的差異不斷變大,各種方法的分類預(yù)測(cè)效能相應(yīng)提高,但是GCNN的分類預(yù)測(cè)效能仍優(yōu)于其他方法(圖3)。上述模擬實(shí)驗(yàn)表明,GCNN的優(yōu)勢(shì)在于通過利用網(wǎng)絡(luò)表示的變量之間的相關(guān)關(guān)系,可以很好地學(xué)習(xí)到不同樣本之間的特征,實(shí)現(xiàn)較好的分類預(yù)測(cè)效能,尤其適用于樣本均值向量差異較小的情況。

圖2 不同網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)下四種方法的比較

圖3 不同組間差異下四種方法的比較

實(shí)例應(yīng)用

實(shí)例研究1:為了進(jìn)一步驗(yàn)證GCNN對(duì)真實(shí)數(shù)據(jù)的分類效能,選用TCGA數(shù)據(jù)庫(kù)中黑色素瘤(SKCM)的mRNA表達(dá)數(shù)據(jù),探究GCNN對(duì)黑色素瘤原發(fā)癌和癌轉(zhuǎn)移的分類預(yù)測(cè)效能。使用OncoGenomic Landscapes數(shù)據(jù)庫(kù)[7]給出的黑色素瘤相關(guān)基因進(jìn)行變量篩選,選取STRING數(shù)據(jù)庫(kù)[8]中相應(yīng)的PPI網(wǎng)絡(luò)。最終,本研究納入472例黑色素瘤患者,其中368名癌轉(zhuǎn)移患者,104名原發(fā)癌患者,PPI網(wǎng)絡(luò)中含有272個(gè)節(jié)點(diǎn),17687條邊。使用十折交叉驗(yàn)證測(cè)試各個(gè)模型的分類預(yù)測(cè)效能。在GCNN和MLP的模型訓(xùn)練過程中,從訓(xùn)練集中隨機(jī)選取10%的樣本作為驗(yàn)證集,輔助模型訓(xùn)練。

實(shí)例研究2:選用TCGA數(shù)據(jù)庫(kù)中黑色素瘤(SKCM)的蛋白質(zhì)組數(shù)據(jù)和STRING數(shù)據(jù)庫(kù)中的PPI網(wǎng)絡(luò),進(jìn)一步探究GCNN在蛋白質(zhì)組學(xué)上的學(xué)習(xí)效能。在剔除存在缺失的蛋白質(zhì)后,本研究共納入258名癌轉(zhuǎn)移患者,96名原發(fā)癌患者,PPI網(wǎng)絡(luò)中含有67個(gè)節(jié)點(diǎn),1926條邊。使用十折交叉驗(yàn)證測(cè)試各個(gè)模型的分類預(yù)測(cè)效能。在GCNN和MLP的模型訓(xùn)練過程中,從訓(xùn)練集中隨機(jī)選取10%的樣本作為驗(yàn)證集,輔助模型訓(xùn)練。

實(shí)例研究結(jié)果:由表1和表2所列結(jié)果可知,無論是轉(zhuǎn)錄組數(shù)據(jù)還是蛋白質(zhì)組數(shù)據(jù),GCNN對(duì)黑色素瘤癌轉(zhuǎn)移預(yù)測(cè)的AUC均值為87.46%和83.30%,均高于其余三種方法,并且分類預(yù)測(cè)效能較穩(wěn)定。

表1 基于mRNA表達(dá)數(shù)據(jù)的黑色素瘤轉(zhuǎn)移分類預(yù)測(cè)結(jié)果(%)

表2 基于蛋白質(zhì)組數(shù)據(jù)的黑色素瘤轉(zhuǎn)移分類預(yù)測(cè)結(jié)果(%)

討 論

與傳統(tǒng)機(jī)器學(xué)習(xí)方法通過樣本數(shù)據(jù)的數(shù)字特征進(jìn)行分類預(yù)測(cè)相比,GCNN在研究基因或蛋白質(zhì)表達(dá)量差異的同時(shí),利用PPI網(wǎng)絡(luò)所提供的基因間相互作用關(guān)系,通過其強(qiáng)大的非線性擬合能力,將樣本數(shù)字特征和生物學(xué)知識(shí)進(jìn)行有機(jī)結(jié)合,實(shí)現(xiàn)更優(yōu)的分類預(yù)測(cè)效能,在組學(xué)數(shù)據(jù)的研究中極具潛力。

由模擬實(shí)驗(yàn)1的結(jié)果可知,當(dāng)兩組的均值相同時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)方法在只考慮樣本數(shù)據(jù)的數(shù)字特征時(shí),很難區(qū)分兩組樣本。但是,GCNN通過利用網(wǎng)絡(luò)結(jié)構(gòu)提供的變量間的相互作用關(guān)系,仍可以學(xué)習(xí)到不同組別樣本的特征,具有較好的預(yù)測(cè)效能。隨著變量個(gè)數(shù)的增多,變量間的關(guān)系更為復(fù)雜,但GCNN的預(yù)測(cè)效能卻在不斷提高,展現(xiàn)出GCNN強(qiáng)大的擬合能力。模擬實(shí)驗(yàn)2的結(jié)果顯示,當(dāng)兩組樣本的均值差異較大時(shí),雖然傳統(tǒng)方法僅依據(jù)樣本的數(shù)字特征便具有不錯(cuò)的區(qū)分能力,但是GCNN的分類預(yù)測(cè)效能仍然略優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法,這與實(shí)例研究的結(jié)果相吻合,在黑色素瘤原發(fā)癌和癌轉(zhuǎn)移患者的基因表達(dá)情況差異較大的情況下,可以看出GCNN的預(yù)測(cè)效能仍略優(yōu)于RF和SVM等方法。

本研究尚存在一些不足之處,首先本研究使用OncoGenomicLandscapes數(shù)據(jù)庫(kù)中的黑色素瘤相關(guān)基因進(jìn)行變量篩選,尚不能使用GCNN完成變量篩選。其次,本研究所用的PPI網(wǎng)絡(luò)并不能完全表征基因間的全部相互作用關(guān)系,可能會(huì)對(duì)GCNN造成一定程度的干擾。我們將在后續(xù)的研究中進(jìn)一步解決上述問題。

猜你喜歡
模擬實(shí)驗(yàn)黑色素瘤卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
斷塊油藏注采耦合物理模擬實(shí)驗(yàn)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
輸氣管道砂沖蝕的模擬實(shí)驗(yàn)
原發(fā)性食管惡性黑色素瘤1例并文獻(xiàn)復(fù)習(xí)
TGF-β1在黑色素瘤血清中的異常表達(dá)及其對(duì)腫瘤細(xì)胞凋亡的影響
顱內(nèi)黑色素瘤的研究進(jìn)展
左拇指巨大黑色素瘤1例
射孔井水力壓裂模擬實(shí)驗(yàn)相似準(zhǔn)則推導(dǎo)