国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

差異網(wǎng)絡(luò)分析方法在組學數(shù)據(jù)變量篩選中的應(yīng)用*

2019-09-17 11:45:20哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室150081蔡雨晴
中國衛(wèi)生統(tǒng)計 2019年4期
關(guān)鍵詞:網(wǎng)絡(luò)分析全局權(quán)重

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081) 蔡雨晴 宋 微 徐 歡 李 康

組學數(shù)據(jù)(omics data),如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等數(shù)據(jù)能夠反映疾病的發(fā)生、發(fā)展和預后的情況。對于組學數(shù)據(jù)的分析,主要是篩選有用的生物標志物、分析調(diào)控網(wǎng)絡(luò)和建立預測模型。一般是通過變量差異表達量分析不同類別之間的差別。但在實際中,也可能有這樣一種情況,即在不同分類中,變量的量值變化不大,但其網(wǎng)絡(luò)拓撲結(jié)構(gòu)(network topology structure,NTS)卻發(fā)生了變化,這種情況同樣能反映不同的生物學特征,并據(jù)此發(fā)現(xiàn)重要的生物標記物。差異網(wǎng)絡(luò)分析方法是近年來新提出的一種以網(wǎng)絡(luò)為基礎(chǔ)的生物信息算法,注重不同狀態(tài)(如健康或患病等)下NTS的差異,從而發(fā)現(xiàn)導致不同生物進程的重要差異物質(zhì)[1]。與傳統(tǒng)的差異變量分析方法相比,差異網(wǎng)絡(luò)分析方法更側(cè)重于分析變量間關(guān)系的改變,在調(diào)控關(guān)系發(fā)生變化時使用這種分析方法更為有效[2]。本文對近年來提出和發(fā)展的幾種差異網(wǎng)絡(luò)分析方法做一綜述。

基于NTS局部改變的分析方法

差異網(wǎng)絡(luò)分析將不同分組情況下的數(shù)據(jù)分別構(gòu)建網(wǎng)絡(luò),如圖1a和圖1b為兩不同分組的網(wǎng)絡(luò)調(diào)控關(guān)系,圖1c標示了兩組變化的調(diào)控邊。

圖1 兩不同分組的調(diào)控網(wǎng)絡(luò)及差異邊

網(wǎng)絡(luò)圖中描述局部連接參數(shù)的指標較多,其中應(yīng)用最多的為網(wǎng)絡(luò)連接權(quán)重(connectivity),其意義為節(jié)點之間的調(diào)控關(guān)系強弱。在圖1中,節(jié)點之間的連接邊粗細代表不同權(quán)重大小。連接權(quán)重的求解方法有互信息法、相關(guān)系數(shù)法、偏相關(guān)系數(shù)法、回歸系數(shù)法及其他非線性回歸方法等[3]。網(wǎng)絡(luò)連接權(quán)重可以通過隨機置換試驗選擇合適的閾值,減少不顯著的假陽性邊,得到更為優(yōu)化的網(wǎng)絡(luò)關(guān)系。Zhang等學者提出權(quán)重基因共表達網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)[4],將WGCNA的思想應(yīng)用在網(wǎng)絡(luò)中的連接邊上,可以得到比未加權(quán)更具穩(wěn)定性的網(wǎng)絡(luò)。

1.DiffK算法

(1)

其中,u為網(wǎng)絡(luò)內(nèi)任一節(jié)點,Nu是在網(wǎng)絡(luò)中與節(jié)點u相關(guān)聯(lián)的節(jié)點集合。kA(u,v)和kB(u,v)分別表示不同網(wǎng)絡(luò)A、B中節(jié)點u與其關(guān)聯(lián)節(jié)點的連接權(quán)重。DiffK值用于比較節(jié)點在不同網(wǎng)絡(luò)中連接權(quán)重的差異,以網(wǎng)絡(luò)中節(jié)點連接權(quán)重最大值max(kA)和max(kB)進行標準化以便比較。從公式(1)中可以看出,節(jié)點u與其他節(jié)點的連接權(quán)重和越大,節(jié)點u的DiffK值越大。DiffK值可在一定程度上反映節(jié)點在網(wǎng)絡(luò)中的作用大小。Fuller等人在小鼠基因組數(shù)據(jù)中應(yīng)用WGCNA方法,與傳統(tǒng)的差異表達分析方法相比,找到了與小鼠體重有關(guān)的生物標志物和通路信息,表明結(jié)合網(wǎng)絡(luò)特性的DiffK算法效果更好[5]。

網(wǎng)絡(luò)連接權(quán)重從節(jié)點間的關(guān)聯(lián)強度考慮節(jié)點重要性。在實際生物學現(xiàn)象中,節(jié)點的度(degree)同樣重要。度即節(jié)點的連接邊數(shù)量,如在圖1a中,節(jié)點G1在網(wǎng)絡(luò)中有4條連接邊,即節(jié)點G1度為4。實際中的多數(shù)網(wǎng)絡(luò)為無標度網(wǎng)絡(luò)(scale-free network),其特性是僅少數(shù)節(jié)點有較大的度數(shù),如中心基因(hub genes),多數(shù)節(jié)點只有少量的連接邊。中心基因表達水平的微小變化雖不容易識別,卻能明顯改變網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。在蛋白互作網(wǎng)絡(luò)中,重要的功能性蛋白通常具有較高的度[6]。

2.NC算法

(2)

其中,Nu為與節(jié)點u相關(guān)聯(lián)的節(jié)點集合,Zu,v表示在網(wǎng)絡(luò)圖中由節(jié)點u和v與其他任意相關(guān)節(jié)點連接邊所組成的三角形數(shù)量,du、dv分別代表節(jié)點u和v的度。公式(2)每個單項式分母含義為節(jié)點u和v與其他節(jié)點連接組成的三角形最大數(shù)量,分子為相應(yīng)的三角形實際數(shù)量。如圖1a,G1與G3的度都為4,理論上由G1和G3構(gòu)成的三角形最大數(shù)量為3個,但實際只有Δ1391個。NC算法既能考慮到節(jié)點的中心性,也能考慮到節(jié)點與相鄰節(jié)點之間的聯(lián)系。Wang等人將NC算法應(yīng)用于三個不同的酵母菌蛋白交互網(wǎng)絡(luò)中,與其他六種差異網(wǎng)絡(luò)分析方法對比,NC算法在所有網(wǎng)絡(luò)中的陽性結(jié)果,均能得到更多的必需蛋白質(zhì),同時NC算法具有更高的靈敏度和特異度[7]。

3.DCloc算法

(3)

4.PageRank算法

Page在1998年首次在網(wǎng)頁瀏覽重要性應(yīng)用上提出PageRank概念[9],即網(wǎng)頁的重要性取決于網(wǎng)頁鏈接指向該網(wǎng)頁的其他網(wǎng)頁的重要性。同理,可將其理解為網(wǎng)絡(luò)圖中一節(jié)點的連接重要性取決于相鄰節(jié)點的度。如與某一節(jié)點連接的相鄰節(jié)點的度大,則該節(jié)點在網(wǎng)絡(luò)中可能起到傳播或橋梁作用。其計算公式為

(4)

PageRank算法首先對所有節(jié)點進行一個簡單的排秩,通過不斷使用公式(4)迭代計算使其收斂。Pu表示指向節(jié)點u的節(jié)點集合,Bu為節(jié)點u指向的節(jié)點集合,Nu為Bu內(nèi)節(jié)點數(shù)量。該方法假設(shè)節(jié)點u的秩R(u)被其指向的節(jié)點集合Bu均分,由于一些節(jié)點可能沒有Bu而損失了u的秩,因此cA和cB分別為A、B網(wǎng)絡(luò)的標準化系數(shù),它可使網(wǎng)絡(luò)中所有節(jié)點的秩和恒定。Omranian等人以PageRank算法為基礎(chǔ)在擬南芥轉(zhuǎn)錄組數(shù)據(jù)中發(fā)現(xiàn)了不同信號通路的關(guān)鍵基因[10]。值得注意的是,PageRank算法是基于有向網(wǎng)絡(luò)的一種方法,對網(wǎng)絡(luò)中心節(jié)點的發(fā)現(xiàn)有重要意義,尤其當變量數(shù)量較多時。

基于NTS全局改變的分析方法

以上基于網(wǎng)絡(luò)拓撲結(jié)構(gòu)局部改變的方法都是以節(jié)點的直接連接節(jié)點出發(fā)計算其差異統(tǒng)計量,而無法考慮網(wǎng)絡(luò)中的所有節(jié)點對被分析節(jié)點的影響,包括直接連接點和間接連接點?;诖耍現(xiàn)reeman在1977年提出中介中心性(between centrality,BC)這一概念[11],其公式為

(5)

其中,s、t為網(wǎng)絡(luò)中任意兩點,ρ(s,t)表示網(wǎng)絡(luò)中以s為起點、t為終點的最短路徑的總數(shù),ρ(s,u,t)表示在經(jīng)過s、t節(jié)點的所有最短路徑(沿節(jié)點s到節(jié)點t的所有路徑中,各邊的權(quán)重總和最小的路徑)中,同時經(jīng)過節(jié)點u的數(shù)量。當節(jié)點u的關(guān)聯(lián)節(jié)點數(shù)目較少或節(jié)點之間連接權(quán)重較小,卻是網(wǎng)絡(luò)中最短路徑的必經(jīng)節(jié)點時(如圖2中,G6雖然只與G5和G7相關(guān)聯(lián),但網(wǎng)絡(luò)中大部分最短路徑都要經(jīng)過G6),仍可認為u是網(wǎng)絡(luò)中的重要節(jié)點,此時BC(u)值能夠反映節(jié)點u在網(wǎng)絡(luò)全局中的重要程度。在蛋白網(wǎng)絡(luò)應(yīng)用中,一些度低但中介中心性很高(high betweenness low degree,HBLC)的蛋白也發(fā)揮著十分重要的作用[11]。Potapov將其應(yīng)用于哺乳動物轉(zhuǎn)錄組數(shù)據(jù)的兩個網(wǎng)絡(luò)中,發(fā)現(xiàn)中介中心性對描述生物網(wǎng)絡(luò)拓撲結(jié)構(gòu)有重要意義,更具有實際生物學意義[12]。

圖2 BC算法適用的網(wǎng)絡(luò)圖示

基于NTS的全局和局部改變分析方法

既然網(wǎng)絡(luò)拓撲結(jié)構(gòu)的局部改變與全局改變同樣重要,Odibat即提出DiffRank算法[13]。DiffRank算法根據(jù)節(jié)點對網(wǎng)絡(luò)差異改變的貢獻排序,從而篩選出引起網(wǎng)絡(luò)差異的重要節(jié)點。局部和全局結(jié)構(gòu)改變評價指標為

(6)

(7)

(8)

基于每一節(jié)點的差異評分π給所有節(jié)點排序,π越大表示在差異網(wǎng)絡(luò)中貢獻越大,即我們所需要篩選的差異位點。DiffRank算法既考慮了網(wǎng)絡(luò)中節(jié)點的局部信息,又考慮了網(wǎng)絡(luò)全局信息,Lichtblau評價了十種差異網(wǎng)絡(luò)分析方法對4個相同數(shù)據(jù)集的篩選效果,其中包括多個局部與全局NTS差異網(wǎng)絡(luò)算法,根據(jù)給出的差異基因金標準(gold standard list,GSL)[14]判斷,DiffRank算法在前40個差異位點中重合概率最高,F(xiàn)isher確切檢驗表明結(jié)果具有統(tǒng)計學意義[1]。

結(jié) 語

本文主要介紹了網(wǎng)絡(luò)拓撲結(jié)構(gòu)的一些基本概念以及近年來提出和發(fā)展的幾種差異網(wǎng)絡(luò)分析方法,其主要特點是通過不同分組各節(jié)點或拓撲結(jié)構(gòu)的變化篩選重要的變量,克服了單純比較變量均值變化的不足。本文介紹的三類方法各有特點,如局部度數(shù)檢驗能夠識別直接調(diào)控其他節(jié)點的關(guān)鍵調(diào)控因子,但不能發(fā)現(xiàn)間接調(diào)控其他節(jié)點的重要節(jié)點;全局中介中心性算法考慮了網(wǎng)絡(luò)中各節(jié)點對其他節(jié)點的影響,更強調(diào)中間調(diào)節(jié)點;局部與全局結(jié)合在一起的DiffRank算法則能夠更全面地分析網(wǎng)絡(luò)調(diào)控信息。實際中,當變量數(shù)過大時,在差異網(wǎng)絡(luò)分析之前,可以結(jié)合差異表達分析對變量進行篩選或選取與分組信息有關(guān)的通路進行分析。

網(wǎng)絡(luò)的基本概念還包括接近中心性(closeness centrality,CC)、特征向量中心性(eigenvector centrality,EC)等,基于這些概念的差異網(wǎng)絡(luò)分析方法也有很多,不僅能通過網(wǎng)絡(luò)的信息篩選組學數(shù)據(jù)中的差異位點,還可以得到導致不同結(jié)局的差異邊,如根據(jù)貝葉斯算法判斷差異邊等[15]。目前大部分差異網(wǎng)絡(luò)分析都是基于排秩方法判斷差異物質(zhì),但不同數(shù)據(jù)情況無法確定取前幾位,因此如何通過統(tǒng)計學方法選取合適的顯著性差異物質(zhì)是亟需解決的問題。同時,由于基因間真實的相關(guān)關(guān)系未知,缺乏可用的金標準來評估差異網(wǎng)絡(luò)分析方法用于真實數(shù)據(jù)的可靠性,目前可借助已有的通路信息(如KEGG、GO等數(shù)據(jù)庫)對其進行驗證和支持。

猜你喜歡
網(wǎng)絡(luò)分析全局權(quán)重
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
基于ISM模型的EPC項目風險網(wǎng)絡(luò)分析
權(quán)重常思“浮名輕”
當代陜西(2020年17期)2020-10-28 08:18:18
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
為黨督政勤履職 代民行權(quán)重擔當
鐵路有線調(diào)度通信的網(wǎng)絡(luò)分析
基于公約式權(quán)重的截短線性分組碼盲識別方法
電信科學(2017年6期)2017-07-01 15:44:57
2016年社交網(wǎng)絡(luò)分析
大班幼兒同伴交往的社會網(wǎng)絡(luò)分析
温泉县| 绥宁县| 江北区| 嵩明县| 周至县| 抚远县| 绍兴市| 六盘水市| 宿迁市| 东莞市| 克拉玛依市| 裕民县| 宜兰县| 玉山县| 普格县| 元江| 铜山县| 大洼县| 文成县| 大同县| 台中县| 永平县| 大方县| 惠水县| 双桥区| 鄢陵县| 霍邱县| 工布江达县| 瑞昌市| 太保市| 南丰县| 田东县| 宽城| 泰安市| 乐都县| 台前县| 平泉县| 宿松县| 宝应县| 克东县| 通州市|