哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081)
榮志煒 王文杰 李 康△
網(wǎng)絡既擁有簡潔的表達形式,又能夠闡釋復雜的生物分子間的關系。目前已經(jīng)有多種的網(wǎng)絡構(gòu)建方法,如基于相關系數(shù)、互信息、距離相關等相關性網(wǎng)絡,還有可以將調(diào)控方向納入其中的貝葉斯網(wǎng)絡(BN)、基于lasso線性回歸和隨機森林(RF)[1]回歸構(gòu)建的網(wǎng)絡等。由于組學數(shù)據(jù)維數(shù)高、調(diào)控關系復雜,網(wǎng)絡構(gòu)建過程中容易做出假陽性的調(diào)控關系,其中間接效應是主要問題。如圖1所示,其中實線代表真實調(diào)控關系,虛線代表可能產(chǎn)生的間接邊。變量A和變量B間存在關聯(lián),變量B和變量C間也存在關聯(lián),則即使變量A和變量C間無調(diào)控關系,建網(wǎng)時也可能會表現(xiàn)為兩節(jié)點之間具有一定的關聯(lián)。如圖1(b)所示,各種間接效應疊加可能使得在建網(wǎng)時出現(xiàn)許多虛假的調(diào)控邊。解卷積(network deconvolution,ND)和沉默算法(silencing)兩種網(wǎng)絡優(yōu)化方法可用于改善間接邊的問題。本研究將結(jié)合多種網(wǎng)絡構(gòu)建方法,對上述兩種優(yōu)化方法進行研究。
圖1 原始網(wǎng)絡與具有間接效應的網(wǎng)絡
網(wǎng)絡解卷積(ND)方法由Feize(2013)提出[2],它是一種可用于優(yōu)化高維數(shù)據(jù)網(wǎng)絡的方法,這種方法能夠利用網(wǎng)絡結(jié)構(gòu)的信息推斷網(wǎng)絡中的直接相關,移除由于級聯(lián)效應產(chǎn)生的間接相關邊。設有N個變量,其基本原理:根據(jù)實際數(shù)據(jù)建立任意兩變量的關聯(lián)矩陣Gobs(如Pearson相關系數(shù)),Gobs為N×N階矩陣,將其分解為具有直接關聯(lián)和各種長度的間接關聯(lián)的矩陣之和,即
(1)
可以利用矩陣的特征值分解
Gdir=UΛdirU-1
(2)
(3)
(4)
對Gobs直接進行特征值分解
(5)
結(jié)合(4)和(5)可以有如下關系
(6)
這樣就可以由Gobs得到Gdir的特征值,進而可以得到矩陣Gdir。這里解卷積方法本身有兩個基本假設:①間接效應是級聯(lián)各直接效應的乘積;②Gobs是直接效應和所有間接效應之和。
網(wǎng)絡沉默方法(silencing)由Barzel(2013)提出[3],也是一種高維數(shù)據(jù)網(wǎng)絡優(yōu)化方法。其基本原理:將網(wǎng)絡看做一個動力學系統(tǒng),系統(tǒng)達到穩(wěn)定狀態(tài)時各變量之間的關系
xi=fi(x1,…,xi-1,xi+1,…,xN),i=1,…,N
(7)
N為變量的數(shù)目。當xj(j≠i)產(chǎn)生一個小的擾動?xj時,變量xi也會產(chǎn)生相應變化?xi(i=1,…,N),于是變量xi與xj的Gdir可以用兩者之間的比值來衡量
(8)
在單獨考慮xj對xi的影響時,則有
(9)
根據(jù)微分學鏈式法則兩者有以下關系
(10)
對于對角線元素,有近似的關系
(11)
其中I指單位矩陣,從而得到下面的網(wǎng)絡沉默算法
(12)
diag(·)指取矩陣的對角線元素構(gòu)成的對角矩陣。
為了真實體現(xiàn)基因網(wǎng)絡數(shù)據(jù)的特點,本研究選擇使用基因逆向工程評估與方法對話平臺(DREAM)的研究數(shù)據(jù)[4]。DREAM5主要針對于高維靜態(tài)網(wǎng)絡,符合本研究前述兩種方法的測試條件?,F(xiàn)選取其中的三個網(wǎng)絡數(shù)據(jù)(insilico,E.coli,S.cerevisiae)進行評價。三個網(wǎng)絡的基本信息如下表1所示,其中E.coli是大腸桿菌的基因調(diào)控網(wǎng)絡,S.cerevisiae是酵母菌的基因調(diào)控網(wǎng)絡,這兩個網(wǎng)絡都有較強的實驗證據(jù)支持,基因表達數(shù)據(jù)來自GEO。insilico則是利用E.coli和S.cerevisiae的子網(wǎng)絡使用微分方程模型模擬得到[5]。
表1 DREAM5網(wǎng)絡數(shù)據(jù)驗證平臺
為了能夠充分評價兩種優(yōu)化方法的性能,選擇了7種基本方法來構(gòu)建網(wǎng)絡。這7種方法涵蓋了靜態(tài)基因調(diào)控網(wǎng)絡構(gòu)建的常見類型,其基本情況如表2所示。
表2 7種不同網(wǎng)絡構(gòu)建方法得特點
多數(shù)建網(wǎng)方法首先得到的是一個關于邊的權(quán)重值,然后再根據(jù)權(quán)重值來決定邊的存在與否。網(wǎng)絡評價采用基于ROC曲線和PR曲線的評分方法[4]。具體步驟:事先隨機產(chǎn)生250000個隨機網(wǎng)絡,構(gòu)建ROC曲線下面積(AUROC)和PR曲線下面積(AUPR)在零假設下的分布,由此可以計算出構(gòu)建的每個網(wǎng)絡AUROC和AUPR的p值,再計算以下的評分
i∈{in.silico,E.coli,S.aureus}
(13)
該式綜合了ROC曲線和PR曲線來評價所構(gòu)建的網(wǎng)絡效果。ROC曲線下面積的計算公式為
(14)
其中TPR(k)=TP(k)/P,FPR(k)=FP(k)/N。TP(k)為建網(wǎng)得出的k條邊在與金標準比較后正確邊的數(shù)量,P為金標準中陽性邊的數(shù)量,FP(k)為建網(wǎng)得出的k條邊在與金標準比較后錯誤邊的數(shù)量,N為金標準中陰性邊的數(shù)量,c為網(wǎng)絡邊數(shù)。PR曲線下面積為
(15)
其中PRE(k)=TP(k)/k。
另外,特定的網(wǎng)絡構(gòu)建方法可能對網(wǎng)絡中的不同結(jié)構(gòu)識別效果不同[4],本研究提取出網(wǎng)絡中三種常見的結(jié)構(gòu),分別用FFL、Core和Casc表示,結(jié)構(gòu)如表3所示。其中,實線表示相應的邊存在,虛線表示相應的邊不存在,計算曲線下面積時是針對圖中的AB邊進行的,1和0分別為所用的標簽值。兩種優(yōu)化方法作為去除間接邊的方法,應該提高FFL和Core的重建能力,而不降低Casc的重建能力。本研究使用三個數(shù)據(jù)中預測最好的網(wǎng)絡來進行網(wǎng)絡結(jié)構(gòu)分析。
表3 網(wǎng)絡中常見的結(jié)構(gòu)
各個網(wǎng)絡的得分如圖2,其中Overall表示三個網(wǎng)絡得分的均值。結(jié)果顯示,網(wǎng)絡解卷積和網(wǎng)絡沉默都能夠提高無方向網(wǎng)絡的性能,其中網(wǎng)絡解卷積在Pearson相關系數(shù)、Spearman相關系數(shù)、MI和ARACNE上的表現(xiàn)要優(yōu)于網(wǎng)絡沉默;網(wǎng)絡沉默在CLR上的表現(xiàn)優(yōu)于網(wǎng)絡解卷積,并且達到了無方向網(wǎng)的最高水平。對于RF建網(wǎng),網(wǎng)絡解卷積優(yōu)化后網(wǎng)絡的準確性有所提高,而網(wǎng)絡沉默優(yōu)化后則基本沒有改變。對于TIGRESS,兩種方法都沒有能夠提高其網(wǎng)絡的準確性。
結(jié)構(gòu)分析結(jié)果如圖3所示。因為insilico數(shù)據(jù)網(wǎng)絡的總體預測準確性是最好的,所以使用它做網(wǎng)絡結(jié)構(gòu)分析??梢钥闯?對于FFL和Core兩種結(jié)構(gòu),在使用解卷積和沉默算法優(yōu)化后,網(wǎng)絡的準確度都有一定程度的提高,特別是對Core結(jié)構(gòu),兩種優(yōu)化算法對網(wǎng)絡準確度的提升都很明顯;但對于Casc結(jié)構(gòu)則略有降低。
圖2 基于7種構(gòu)建網(wǎng)絡方法優(yōu)化前后評分
圖3 in silico網(wǎng)絡中三種結(jié)構(gòu)網(wǎng)絡優(yōu)化后準確度的變化
網(wǎng)絡解卷積雖然可對有方向網(wǎng)絡進行優(yōu)化,但通常是將其方向去除后對網(wǎng)絡優(yōu)化,得到的是個無方向網(wǎng)絡,而網(wǎng)絡沉默則可以保留網(wǎng)絡的方向性。RF和TIGRESS是七種建網(wǎng)方法中對方向也進行預測的方法,其中網(wǎng)絡沉默方法對其優(yōu)化效果不明顯。
對FFL、Core和Casc三種網(wǎng)絡結(jié)構(gòu)AUPR優(yōu)化后有比較明顯的變化。對于FFL和Core,兩種優(yōu)化方法都有提高,特別是對于Core,解卷積方法提高所有的網(wǎng)絡,而沉默方法則提高了部分建網(wǎng)方法的準確性。注意到對Casc的優(yōu)化略有下降,說明可能存在一些真實的邊被當作間接效應給去除了,但下降不多。
總體上看,RF建網(wǎng)后解卷積優(yōu)化(RF+ND)是最優(yōu)的建網(wǎng)策略。但考慮到RF建網(wǎng)在建立大型網(wǎng)絡時耗費的時間較多,并且解卷積算法需要進行參數(shù)調(diào)整,在維數(shù)較高(如m>500)的情況下,CLR建網(wǎng)后使用沉默算法優(yōu)化(CLR+Silencing)計算量小,是一種值得考慮的建網(wǎng)策略。