国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)雜網(wǎng)絡(luò)控制理論的腫瘤關(guān)鍵基因預(yù)測(cè)研究

2022-01-26 12:43:20詹秀秀張子柯
關(guān)鍵詞:關(guān)鍵癌癥蛋白質(zhì)

姚 旭,詹秀秀,劉 闖*,張子柯,2

(1.杭州師范大學(xué)阿里巴巴復(fù)雜科學(xué)研究中心 杭州 311121;2.浙江大學(xué)媒體與國(guó)際文化學(xué)院 杭州 310018)

隨著人口的增長(zhǎng)及老齡化,惡性腫瘤(即癌癥)已經(jīng)成為人類死亡主要原因之一,是威脅生命健康的最大因素[1]。腫瘤癌變是環(huán)境因素和遺傳因素引起基因突變?cè)斐傻?,識(shí)別癌癥的致病基因?qū)τ诰_腫瘤學(xué)至關(guān)重要,并且能夠促進(jìn)靶向藥物的開(kāi)發(fā),對(duì)癌癥的治療具有指導(dǎo)意義[2-4]。

隨著第二代測(cè)序技術(shù)普及,以及人類基因組計(jì)劃、TCGA 計(jì)劃和ICGC 計(jì)劃的推進(jìn),研究者從大規(guī)模測(cè)序分析結(jié)果中明確了腫瘤存在著廣泛的異質(zhì)性[5]。分布在不同患者個(gè)體中或者同一患者體內(nèi)不同部位中的同種惡性腫瘤細(xì)胞,會(huì)產(chǎn)生從基因型到表型上的差異,相應(yīng)地表現(xiàn)為多樣的基因突變[6]。高通量的測(cè)序數(shù)據(jù)使得科學(xué)家能從蛋白質(zhì)水平中揭示腫瘤細(xì)胞發(fā)生機(jī)制,驗(yàn)證腫瘤的相關(guān)基因突變,在癌癥中的應(yīng)用有著廣泛的前景。文獻(xiàn)[7]證明了乳腺癌的蛋白質(zhì)組學(xué)分析能夠解讀體細(xì)胞突變,縮小了缺失和擴(kuò)增區(qū)域內(nèi)驅(qū)動(dòng)基因的候選提名范圍,并發(fā)現(xiàn)了相關(guān)治療靶標(biāo)。文獻(xiàn)[8]從蛋白質(zhì)組學(xué)研究入手,發(fā)現(xiàn)了白血病抑制因子(Leukemia inhibitory factor,LIF)是介導(dǎo)胰腺癌細(xì)胞和星狀細(xì)胞之間信號(hào)傳導(dǎo)的關(guān)鍵因子,并驗(yàn)證了其可以作為胰腺癌治療的靶點(diǎn)和生物標(biāo)志物。

然而,面對(duì)龐大的腫瘤數(shù)據(jù),精準(zhǔn)地找到腫瘤關(guān)鍵基因仍面臨著挑戰(zhàn),僅從生物學(xué)角度研究腫瘤關(guān)鍵基因是遠(yuǎn)遠(yuǎn)不夠的。如今,癌癥這個(gè)復(fù)雜疾病又被稱為“網(wǎng)絡(luò)疾病”,可以從網(wǎng)絡(luò)的角度對(duì)生物學(xué)進(jìn)行研究[9-10]。網(wǎng)絡(luò)中的節(jié)點(diǎn)可以代表生物分子,其相應(yīng)的邊可以看作生物分子之間的功能、物理或化學(xué)相互作用[10]。因此,挖掘腫瘤的致病關(guān)鍵基因,找到潛在的控制疾病進(jìn)展的靶點(diǎn),可以從網(wǎng)絡(luò)控制入手。復(fù)雜網(wǎng)絡(luò)的控制理論和方法源于經(jīng)典控制理論與復(fù)雜系統(tǒng)研究的結(jié)合,如果網(wǎng)絡(luò)中的一部分節(jié)點(diǎn)能夠在有限時(shí)間內(nèi)將網(wǎng)絡(luò)從任意初始狀態(tài)變?yōu)槿我馄谕淖罱K狀態(tài),則該網(wǎng)絡(luò)稱為可控網(wǎng)絡(luò)[10-11]。文獻(xiàn)[12]在復(fù)雜網(wǎng)絡(luò)可控性方面做出了開(kāi)拓性的研究,將網(wǎng)絡(luò)的可控性簡(jiǎn)化為判定網(wǎng)絡(luò)結(jié)構(gòu)可控性的問(wèn)題,即忽略網(wǎng)絡(luò)中系統(tǒng)矩陣的邊權(quán),只需關(guān)注系統(tǒng)內(nèi)部的結(jié)構(gòu)框架及節(jié)點(diǎn)間的連接方式。然而,文獻(xiàn)[12]提出的最大匹配算法只適合在有向網(wǎng)絡(luò)中尋找控制節(jié)點(diǎn)。為了應(yīng)用于無(wú)向網(wǎng)絡(luò),文獻(xiàn)[13]提出了最小控制集(minimum dominating set,MDS)方法,并發(fā)現(xiàn)MDS 方法在無(wú)標(biāo)度網(wǎng)絡(luò)中只需要較小比例的節(jié)點(diǎn)就可以覆蓋控制網(wǎng)絡(luò),并且網(wǎng)絡(luò)度分布的異質(zhì)性越強(qiáng),就越容易控制整個(gè)系統(tǒng)。

如今,復(fù)雜網(wǎng)絡(luò)控制理論已被廣泛應(yīng)用到各種生物網(wǎng)絡(luò)分析中。文獻(xiàn)[14]在有向人類蛋白質(zhì)相互作用網(wǎng)絡(luò)中應(yīng)用最大匹配算法[12]確定了最小驅(qū)動(dòng)蛋白集合,根據(jù)移除驅(qū)動(dòng)節(jié)點(diǎn)后所包含的驅(qū)動(dòng)節(jié)點(diǎn)數(shù),對(duì)基因進(jìn)行分類。此外,同時(shí)發(fā)現(xiàn)該可控性分析在疾病基因以及藥物靶點(diǎn)上的有關(guān)鍵作用。文獻(xiàn)[15]利用MDS 方法研究了蛋白質(zhì)相互作用網(wǎng)絡(luò)的可控性,并確定了驅(qū)動(dòng)蛋白集,分析表明該集合富含必需基因、癌癥相關(guān)基因以及病毒靶向基因,并且這些集合在網(wǎng)絡(luò)調(diào)控(富含轉(zhuǎn)錄因子和蛋白激酶)中有著重要作用。文獻(xiàn)[16]在MDS 模型的基礎(chǔ)上提出了一種中心性校正的最小支配集(centrality corrected-MDS,CC-MDS)模型,該模型比MDS 模型能夠捕獲更多的驅(qū)動(dòng)蛋白。文獻(xiàn)[17]利用網(wǎng)絡(luò)的無(wú)標(biāo)度特性算法[18]巧妙地避開(kāi)了MDS 計(jì)算的復(fù)雜性,利用MDS各個(gè)解集中元素的角色,將節(jié)點(diǎn)分為3 類并應(yīng)用于蛋白質(zhì)相互作用網(wǎng)絡(luò)中,首次捕捉到了基因結(jié)構(gòu)可控性、基因致死性和動(dòng)態(tài)共表達(dá)的同步性之間的直接聯(lián)系。雖然網(wǎng)絡(luò)控制的方法可以捕捉生物網(wǎng)絡(luò)中的關(guān)鍵驅(qū)動(dòng)蛋白及重要的相關(guān)調(diào)控功能,但是其對(duì)于各類癌癥中腫瘤關(guān)鍵基因識(shí)別預(yù)測(cè)方面還未得到分析驗(yàn)證。

本研究利用復(fù)雜網(wǎng)絡(luò)控制理論的思想,從蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein protein interaction network,PPI)入手,通過(guò)對(duì)腫瘤發(fā)生的不同階段PPI 的變化進(jìn)行分析,對(duì)腫瘤關(guān)鍵基因進(jìn)行預(yù)測(cè)研究,可以闡明腫瘤蛋白表達(dá)水平的變化與腫瘤發(fā)生發(fā)展的相互關(guān)系及其規(guī)律。檢測(cè)、分析和確定腫瘤不同時(shí)期的標(biāo)志蛋白,可以作為抗癌藥物篩選的作用靶點(diǎn)。該應(yīng)用不僅對(duì)抗癌藥物發(fā)現(xiàn)具有指導(dǎo)意義,還可形成未來(lái)腫瘤診斷學(xué)、治療學(xué)的基礎(chǔ)理論。

1 研究方法

1.1 腫瘤關(guān)鍵基因預(yù)測(cè)分析流程

為了預(yù)測(cè)對(duì)腫瘤發(fā)展具有關(guān)鍵影響的基因,本文將復(fù)雜網(wǎng)絡(luò)控制理論應(yīng)用于人類相互作用蛋白數(shù)據(jù)中,結(jié)合控制集和復(fù)雜網(wǎng)絡(luò)的拓?fù)湫再|(zhì),對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)中的基因進(jìn)行了篩選,并對(duì)最終預(yù)測(cè)的腫瘤關(guān)鍵基因進(jìn)行了有效的驗(yàn)證。圖1 描述了腫瘤關(guān)鍵基因預(yù)測(cè)分析的流程,主要包含3 個(gè)步驟:1)通過(guò)最小控制集和控制分類模型將蛋白質(zhì)網(wǎng)絡(luò)中的基因進(jìn)行分類;2)對(duì)得到的各分類中的基因集合利用綜合中心性進(jìn)行排序,進(jìn)行富集分析,篩選出最終可用來(lái)預(yù)測(cè)的腫瘤關(guān)鍵基因;3)將得到的腫瘤關(guān)鍵基因,通過(guò)突變數(shù)據(jù)及相應(yīng)的文獻(xiàn)分析,證明預(yù)測(cè)的腫瘤關(guān)鍵基因?qū)δ[瘤發(fā)展的影響力。Z_score 衡量的是觀測(cè)值與平均值間的差異,p指的是在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端的結(jié)果出現(xiàn)的概率。

圖1 腫瘤關(guān)鍵基因預(yù)測(cè)分析流程

1.2 最大連通子圖

假設(shè)G=(V,E)表 示一個(gè)無(wú)向圖,其中V={v1,v2,···,vn}為G的 節(jié)點(diǎn)集,N為無(wú)向圖中節(jié)點(diǎn)的個(gè)數(shù),E為G的 邊集。如果從頂點(diǎn)vi到 頂點(diǎn)vj中有路徑存在,則稱vi和vj連 通。存在子圖G′,如果其中的任意兩個(gè)頂點(diǎn)之間都連通并且為連通的子圖中最大的一個(gè)圖,則該圖G′為 無(wú)向圖G的最大連通子圖。

在蛋白質(zhì)相互作用網(wǎng)絡(luò)中,節(jié)點(diǎn)代表蛋白質(zhì),邊代表兩個(gè)蛋白質(zhì)之間的相互作用關(guān)系。其最大連通子圖就是蛋白質(zhì)相互作用網(wǎng)絡(luò)中的最大的一個(gè)連通網(wǎng)絡(luò),網(wǎng)絡(luò)中任意兩個(gè)蛋白質(zhì)之間都能夠直接(或間接)相連通。

1.3 最小控制集模型

圖G=(V,E)中 存在一個(gè)節(jié)點(diǎn)集S?V,如果節(jié)點(diǎn)vi∈V,其要么是節(jié)點(diǎn)集S的一部分,要么與節(jié)點(diǎn)集S里一個(gè)元素相鄰,則稱這樣的節(jié)點(diǎn)集S為控制集(如圖1a 中間網(wǎng)絡(luò)中的紅色方形節(jié)點(diǎn))??刂萍疭里的這些節(jié)點(diǎn)是圖1a 中的最優(yōu)節(jié)點(diǎn)集,它對(duì)整個(gè)圖的結(jié)構(gòu)有著支撐作用,除此之外的每個(gè)節(jié)點(diǎn)都能夠通過(guò)一條連邊與控制集S里的一個(gè)節(jié)點(diǎn)相連。本文定義在圖G的所有可能的控制集當(dāng)中節(jié)點(diǎn)數(shù)最少的集合為MDS。

MDS 的概念屬于圖的控制理論。由于控制問(wèn)題是經(jīng)典的NP 完全問(wèn)題,要解決這個(gè)未知能否在多項(xiàng)式時(shí)間內(nèi)求解的問(wèn)題,需要把它歸結(jié)為一個(gè)二進(jìn)制的整數(shù)規(guī)劃問(wèn)題(integer linear programming,ILP)來(lái)計(jì)算。本文通過(guò)尋找二進(jìn)制向量x來(lái)最小化具有線性約束下的線性函數(shù)f(x)。圖G=(V,E)中每個(gè)節(jié)點(diǎn)vi的都有一個(gè)值為0 或1 的二進(jìn)制整數(shù)變量xi,屬于控制集的節(jié)點(diǎn)的二進(jìn)制變量取值為1,否則為0。于是,線性函數(shù)f(x)的約束表示為:

并且滿足約束:

式中,N(i)表 示節(jié)點(diǎn)vi的 鄰居;而n是圖中的節(jié)點(diǎn)總數(shù)。

最小控制集能夠提供對(duì)整個(gè)網(wǎng)絡(luò)起控制作用的節(jié)點(diǎn)集。蛋白質(zhì)相互作用網(wǎng)絡(luò)中的這些最小控制集,能夠通過(guò)其相互作用影響整個(gè)PPI 網(wǎng)絡(luò)。解決最小控制集這個(gè)二進(jìn)制整數(shù)規(guī)劃問(wèn)題,可以利用分支限界算法來(lái)尋找這二進(jìn)制線性函數(shù)約束問(wèn)題的最優(yōu)解。

1.4 控制分類模型

在一個(gè)連通的蛋白質(zhì)相互作用網(wǎng)絡(luò)中,尋找控制基因集的最優(yōu)解,往往會(huì)有多種符合最優(yōu)解的解決方案。單純地將其中的一個(gè)最小控制基因集作用于復(fù)雜網(wǎng)絡(luò)中,并不能確定始終能夠影響整個(gè)網(wǎng)絡(luò)的一些關(guān)鍵節(jié)點(diǎn)的角色(即對(duì)整個(gè)癌癥網(wǎng)絡(luò)有確定影響的基因集),因此需要對(duì)集合進(jìn)行進(jìn)一步的分類。為了解決這個(gè)問(wèn)題,文獻(xiàn)[13,17]根據(jù)每個(gè)節(jié)點(diǎn)在不同配置中參與的角色,提出了分類算法,構(gòu)建了控制分類模型:始終存在于配置方案的關(guān)鍵節(jié)點(diǎn)(critical)、從不參與任何配置方案的冗余節(jié)點(diǎn)(redundant)、屬于某些配置方案但不存在于其他配置方案的間歇性節(jié)點(diǎn)(intermittent)。這3 類節(jié)點(diǎn)分別對(duì)應(yīng)著圖1a 右側(cè)網(wǎng)絡(luò)的紅色、藍(lán)色和紫色的圓形節(jié)點(diǎn)。為了優(yōu)化計(jì)算速度,文獻(xiàn)[13,17]在分類之前利用所證實(shí)的推論,對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行了預(yù)處理,利用拓?fù)湫再|(zhì)提前確定了一些節(jié)點(diǎn)的類型。

推論1 關(guān)鍵節(jié)點(diǎn)推論。如果節(jié)點(diǎn)vi有兩個(gè)或兩個(gè)以上的度為1 的鄰居結(jié)點(diǎn),那么這個(gè)節(jié)點(diǎn)vi被定義為一個(gè)關(guān)鍵節(jié)點(diǎn)。

推論2 冗余節(jié)點(diǎn)推論。如果節(jié)點(diǎn)vi所有的鄰居結(jié)點(diǎn)都是關(guān)鍵節(jié)點(diǎn),那么這個(gè)節(jié)點(diǎn)vi被定義為一個(gè)冗余節(jié)點(diǎn)。

本文整合了該控制分類模型,并將網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行了分類,算法流程如下所示。

算法1 節(jié)點(diǎn)的控制分類

輸入:節(jié)點(diǎn)集V、邊集E

輸出:關(guān)鍵節(jié)點(diǎn)集Gcritical、冗余節(jié)點(diǎn)集Gredundant、間歇性節(jié)點(diǎn)集Gintermittent

利用控制分類模型,將蛋白質(zhì)相互作用網(wǎng)絡(luò)中的基因從復(fù)雜的相互作用關(guān)系中分類出3 部分,每部分集合中的基因之間對(duì)網(wǎng)絡(luò)控制的作用相同。

1.5 綜合中心性

文獻(xiàn)[19]提出的中心性-致命性規(guī)則指出,蛋白質(zhì)相互作用網(wǎng)絡(luò)中高度連接的蛋白質(zhì)往往是必不可少的。中心性是衡量網(wǎng)絡(luò)節(jié)點(diǎn)重要性的重要指標(biāo),能夠刻畫(huà)節(jié)點(diǎn)在網(wǎng)絡(luò)中的地位。如度中心性描述了一個(gè)節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的直接影響;介數(shù)中心性刻畫(huà)了經(jīng)過(guò)一個(gè)節(jié)點(diǎn)的最短路徑數(shù),表明這個(gè)節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)最短傳輸?shù)目刂屏?;接近中心性反映了一個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的接近程度,此節(jié)點(diǎn)可以通過(guò)鄰居節(jié)點(diǎn)能夠迅速地覆蓋到整個(gè)網(wǎng)絡(luò)。綜合中心性是通過(guò)加權(quán)的方法,將度中心性、介數(shù)中心性、接近中心性歸一化,并結(jié)合起來(lái)衡量節(jié)點(diǎn)在網(wǎng)絡(luò)中的綜合表現(xiàn)。為了精確地篩選腫瘤基因集中的更為關(guān)鍵的基因,本文利用綜合中心性來(lái)衡量基因?qū)ι锞W(wǎng)絡(luò)的重要程度,并對(duì)從蛋白質(zhì)相互作用網(wǎng)絡(luò)中分離出來(lái)的腫瘤基因集進(jìn)行了排序。相關(guān)中心性的定義為:

式中,Cd(vi)表 示節(jié)點(diǎn)vi的 度中心性;ki表示節(jié)點(diǎn)vi的 鄰居節(jié)點(diǎn)的數(shù)目;N表示節(jié)點(diǎn)個(gè)數(shù);N?1指節(jié)點(diǎn)可能的最大度值。

式中,Cb(vi) 表 示節(jié)點(diǎn)vi的介數(shù)中心性;σs,t表示節(jié)點(diǎn)s與節(jié)點(diǎn)t之 間最短路徑總數(shù);σs,t(i)表 示節(jié)點(diǎn)s與節(jié)點(diǎn)t之間經(jīng)過(guò)節(jié)點(diǎn)vi的最短路徑數(shù)目。

式中,Ccl(vi)表 示節(jié)點(diǎn)vi的 接近中心性;d(vi,vj)表示節(jié)點(diǎn)vi與節(jié)點(diǎn)vj的距離。

式中,Cintgr(vi)表 示節(jié)點(diǎn)vi的 綜合中心性;Cd,max,Cb,max,Ccl,max分 別為{Cd},{Cb},{Ccl}中的最大值。

2 數(shù) 據(jù)

2.1 蛋白質(zhì)相互作用網(wǎng)絡(luò)

本文首先整合了多個(gè)人類蛋白-蛋白互作數(shù)據(jù)庫(kù)的PPI 數(shù)據(jù)(包含InnateDB[20]、PINA[21]、BioGrid[22]及HINT[23]等),刪除其中重復(fù)的邊和自環(huán),構(gòu)成了由15 474 個(gè)蛋白形成的170 631 條邊的網(wǎng)絡(luò)。本文從TCGA 數(shù)據(jù)庫(kù)[24]中收集了包括乳腺癌(BRCA)、腎透明細(xì)胞癌(KIRC)、肺腺癌(LUAD)、結(jié)腸腺癌(COAD)和頭頸鱗狀細(xì)胞癌(HNSC)在內(nèi)的5 種癌癥類型及其相應(yīng)的正常樣本的RNA-Seq (RPKM)數(shù)據(jù),對(duì)于每個(gè)基因?qū)?,?jì)算其共表達(dá)的皮爾森相關(guān)系數(shù)及相應(yīng)的p值。將不同的癌癥類型的共表達(dá)關(guān)系嵌入到PPI 網(wǎng)絡(luò)中,選擇顯著的連邊(p<0.05)構(gòu)成癌癥特異性蛋白-蛋白網(wǎng)絡(luò)[25]。

2.2 生物通路數(shù)據(jù)

本文從WiKiPathways 代謝通路數(shù)據(jù)庫(kù)[26]中收集了上述5 種癌癥類型的生物通路數(shù)據(jù)集,并利用一些已知與癌癥相關(guān)的生物通路,進(jìn)一步得到每個(gè)與癌癥相關(guān)的生物通路的基因集,這些基因?qū)Ω魃锕δ芷鹬{(diào)控作用。

2.3 顯著基因集

本文收集了SMG (significantly mutated genes)[3],CGC (cancer gene census)[27]這兩個(gè)腫瘤基因集,這些基因集的基因在癌癥變化發(fā)展中所起到的重要作用都已被廣泛證實(shí)。

2.4 突變數(shù)據(jù)集

本文從TCGA 數(shù)據(jù)庫(kù)中下載了上述5 種癌癥類型的腫瘤病人的體細(xì)胞突變數(shù)據(jù)。

3 實(shí)驗(yàn)與分析

3.1 基于網(wǎng)絡(luò)控制理論的基因分類

本文對(duì)TCGA 數(shù)據(jù)庫(kù)中的5 種癌癥類型的蛋白質(zhì)相互作用數(shù)據(jù)進(jìn)行了處理,從中提取出了具有顯著意義的連邊(即p<0.05),并利用最大連通子圖的定義,剔除了一些在網(wǎng)絡(luò)中最大連通子圖之外的小簇基因集,重構(gòu)了蛋白質(zhì)相互作用網(wǎng)絡(luò),各個(gè)網(wǎng)絡(luò)的統(tǒng)征如表1 所示。

表1 腫瘤不同階段的最大連通子圖的節(jié)點(diǎn)連邊情況

為了從各個(gè)階段復(fù)雜的蛋白質(zhì)相互作用對(duì)中,找到對(duì)腫瘤發(fā)展具有關(guān)鍵影響的基因集,本文利用復(fù)雜網(wǎng)絡(luò)控制理論中的最小控制集模型,并通過(guò)控制分類模型將各癌癥網(wǎng)絡(luò)各階段的基因進(jìn)行了分類,研究這些基因?qū)W(wǎng)絡(luò)產(chǎn)生的具體影響。通過(guò)方法1.3 和1.4,得出了各癌癥網(wǎng)絡(luò)各階段的3 種類型的基因集:關(guān)鍵(critical)基因集、間歇性(intermittent)基因集、冗余(redundant)基因集,其包含的基因情況如表2 所示。從最小控制集模型和控制分類模型的定義中,可以了解到關(guān)鍵基因集中的基因是滿足所有最小控制集配置方案的集合,即不管最小控制集的配置如何變化,這些基因始終包含在控制集中,其他非控制集中的基因都可以通過(guò)這些基因相互作用而到達(dá)。因此,關(guān)鍵基因集這一分類更有可能符合對(duì)腫瘤關(guān)鍵基因的研究預(yù)測(cè)集合的預(yù)期,于是本文提出了一個(gè)猜想:關(guān)鍵基因集中的基因能夠控制影響腫瘤的變化發(fā)展,在腫瘤突變中較為顯著。

表2 各腫瘤不同階段的基因分類個(gè)數(shù)

3.2 腫瘤關(guān)鍵基因集的篩選

為了驗(yàn)證本文的猜想,即關(guān)鍵基因集所包含的基因?qū)Π┌Y發(fā)展的影響顯著明顯于其他兩種類型的基因集,本文將獲取的癌癥相關(guān)的生物通路數(shù)據(jù)集和顯著基因集與這3 種類型的基因集進(jìn)行了富集分析。顯著基因集包含了CGC 基因集和SMG 基因集,它們所涉及的基因已被廣泛地被證實(shí)對(duì)癌癥具有重要影響;生物通路數(shù)據(jù)集中包含了多個(gè)與癌癥相關(guān)的生物功能作用,每個(gè)功能都有與其作用相關(guān)的基因組。結(jié)合并利用上述數(shù)據(jù),分析3 種類型的基因集合在其中的富集情況,評(píng)估它們預(yù)測(cè)癌癥關(guān)鍵基因的性能。本文從網(wǎng)絡(luò)中隨機(jī)生成了10 000次與3 種類型基因集同等大小的集合作為參考,并與獲取的數(shù)據(jù)集做了交集,來(lái)衡量這3 種類型基因集相對(duì)于隨機(jī)基因集的顯著程度。本文利用了ZScore 值來(lái)表示3 種基因集的顯著性,圖2 顯示了腫瘤樣本Tumor 的3 種類別的基因集在共有的7 種生物通路功能和顯著基因集(SMG 和CGC)的富集程度(正常樣本Normal 的富集情況與其類似)。圖中橫坐標(biāo)中C 表示critical;I 表示intermittent;R 表示redundant,縱坐標(biāo)中AG 表示angiogenesis;CC 表示cell cycle;DDR 表示DNA damage response;ICP 表示integrated cancer pathway;MR 表示mismatch repair;SPIG 表示signaling pathways in glioblastoma;TN 表示TP53 network。從圖中可以看到:關(guān)鍵基因集具有統(tǒng)計(jì)學(xué)意義,富集度明顯優(yōu)于間歇性基因集、冗余基因集。結(jié)果表明,關(guān)鍵基因集能夠很好地解釋其在生物通路(血管生成、細(xì)胞周期、DNA損傷反應(yīng)、綜合癌癥通路、膠質(zhì)母細(xì)胞瘤信號(hào)通路、TP53 通路)上的重要程度,以及富含癌癥驅(qū)動(dòng)基因的良好表現(xiàn)。在本階段工作中,本文從復(fù)雜的蛋白質(zhì)相互作用網(wǎng)絡(luò)中初步篩選出了腫瘤關(guān)鍵基因集,使得本文可以從該基礎(chǔ)上進(jìn)一步地縮小規(guī)模,預(yù)測(cè)更為重要的腫瘤關(guān)鍵基因。

圖2 5 種癌癥Tumor 階段各類集合富集分析

對(duì)各類癌癥的多階段的關(guān)鍵基因集的作用情況進(jìn)行統(tǒng)計(jì),如圖3 所示,發(fā)現(xiàn)上述分類統(tǒng)計(jì)的腫瘤關(guān)鍵基因在整體中占比相近。為了進(jìn)一步挖掘可預(yù)測(cè)的關(guān)鍵基因,本文利用顯著基因集(SMG,CGC)對(duì)這3 個(gè)部分進(jìn)行富集占比分析,評(píng)估各個(gè)部分在腫瘤的突變過(guò)程中的作用效果,最終篩選出對(duì)腫瘤突變產(chǎn)生至關(guān)影響的部分。圖4 給出了各癌癥不同的集合在這兩個(gè)顯著基因集中的不同占比情況,可以發(fā)現(xiàn):僅在Tumor 階段為關(guān)鍵基因的集合(Tumor-Normal)更具有研究意義,其存在于顯著基因集的占比在大多數(shù)情況下(BRCA、COAD、HNSC、KIRC、LUAD)都要優(yōu)于另外兩個(gè)交集集合。相比顯著基因集在Normal 或者Tumor 中的占比,除了個(gè)別情況外(存在于癌癥的COAD、HNSC 集合中顯著基因集CGC 的占比),僅在Tumor 階段為關(guān)鍵基因的集合所存在的比例仍優(yōu)于前者??紤]到單階段(Normal 或Tumor)的關(guān)鍵基因集,不能反應(yīng)腫瘤在突變過(guò)程的變化,解釋不了其基因的突變以及對(duì)整個(gè)癌癥的影響趨勢(shì),綜合Normal、Tumor 兩個(gè)階段選擇的關(guān)鍵基因集的研究要優(yōu)于單階段的關(guān)鍵基因集。圖4 的COAD、HNSC 中,Normal 階段的關(guān)鍵基因集與僅在Tumor階段為關(guān)鍵基因的集合的比例相差在0.5%內(nèi),但這并不影響本文對(duì)結(jié)果(僅在Tumor 階段為關(guān)鍵基因的集合)的選擇。

圖3 5 種癌癥類型Normal 階段和Tumor 階段關(guān)鍵基因集的韋恩圖

圖4 各癌癥各階段各部分的關(guān)鍵基因集與SMG、CGC 基因的占比情況

3.3 腫瘤關(guān)鍵基因分析

上述研究工作對(duì)腫瘤關(guān)鍵基因集進(jìn)行了篩選,最終選擇了僅存在于Tumor 階段(Tumor-Normal)的腫瘤關(guān)鍵基因集,用于對(duì)驅(qū)動(dòng)癌癥發(fā)展及突變的關(guān)鍵基因的預(yù)測(cè)。本文綜合了復(fù)雜網(wǎng)絡(luò)的度量指標(biāo),利用綜合中心性對(duì)最終的關(guān)鍵基因集按照分?jǐn)?shù)進(jìn)行降序排列,排名較高的基因更有可能驅(qū)動(dòng)癌癥的發(fā)展,可作為潛在的靶點(diǎn)基因。接著利用SMG、CGC 顯著基因集,排除了已知被廣泛證實(shí)有驅(qū)動(dòng)作用的一些關(guān)鍵基因。最后,對(duì)剩下的關(guān)鍵基因進(jìn)行了分析,同時(shí)來(lái)驗(yàn)證本文所預(yù)測(cè)的未知的驅(qū)動(dòng)基因在癌癥發(fā)展變化過(guò)程中的顯著表現(xiàn)。

在乳腺癌(BRCA)的蛋白質(zhì)相互作用網(wǎng)絡(luò)中,本文選取了綜合中心性排名靠前的SIRT7 基因作為驗(yàn)證。圖5a 描述了SIRT7 的鄰居節(jié)點(diǎn)中SMG、CGC 基因的富集程度。為了排除一般基因(通常表現(xiàn)為低度)對(duì)結(jié)果的影響,實(shí)驗(yàn)選取了排名在前40%的度較高的基因作為參考標(biāo)準(zhǔn)。其中圖5a 中的紅色標(biāo)記為SIRT7 的鄰居中SMG 和CGC 的基因個(gè)數(shù),紫色標(biāo)記則為其他參考基因集與顯著基因集的交集基因分布情況。本文將交集個(gè)數(shù)大于等于觀察值的基因與總體的占比作為顯著性檢驗(yàn)(p)的衡量標(biāo)準(zhǔn)。從結(jié)果可以看出,SIRT7 基因的鄰居節(jié)點(diǎn)相對(duì)于其他基因的鄰居節(jié)點(diǎn),在兩個(gè)顯著基因集中都顯著富集(SMG 下p為4.73×10?3,CGC 下p為8.76×10?4)。實(shí)驗(yàn)證明,SIRT7 對(duì)腫瘤網(wǎng)絡(luò)的控制有著重要作用,不僅從它作用性質(zhì)的角度,而且可以通過(guò)它本身的突變帶動(dòng)其周圍鄰居基因的突變,同時(shí)這些鄰居基因中富集了與癌癥相關(guān)的顯著基因。圖5b 展示了SIRT7 和它的鄰居基因的總體突變分布,其突變分布在T 檢驗(yàn)中具有統(tǒng)計(jì)學(xué)意義(p=2.20×10?28),突變頻率明顯大于整體,在癌癥中具有較高的突變頻次。先前有實(shí)驗(yàn)研究表明SIRT7 的表達(dá)可作為乳腺癌的預(yù)后生物標(biāo)志物[28-29]。深圳大學(xué)健康科學(xué)中心的研究人員發(fā)現(xiàn),SIRT7 與乳腺癌肺轉(zhuǎn)移相關(guān),SIRT7 通過(guò)轉(zhuǎn)化因子?β 信號(hào)調(diào)節(jié)EMT,能夠抑制乳腺癌向肺部的轉(zhuǎn)移,提供了有效的乳腺癌轉(zhuǎn)移治療策略[28]。深圳大學(xué)附屬第一醫(yī)院的研究人員發(fā)現(xiàn),SIRT7 可能是乳腺癌瘤體免疫浸潤(rùn)相關(guān)的預(yù)后生物標(biāo)志物[29]。

圖5 乳腺癌中的SIRT7 基因的重要性分析

在頭頸部鱗狀細(xì)胞癌(HNSC)的蛋白質(zhì)相互作用網(wǎng)絡(luò)中,本文選擇了ETS1 基因作為驗(yàn)證,圖6a描述了ETS1 基因的鄰居為SMG、CGC 基因的情況,結(jié)果表明ETS1 的鄰居顯著基因數(shù)要明顯多于所參考的基因集(SMG 下p為1.66×10?2,CGC 下p為4.56×10?2),這也驗(yàn)證了基因的度中心性較高的基因更有可能與更多的顯著基因相鄰。ETS1 基因在癌癥中的表達(dá)變化,影響著與其相關(guān)的顯著基因,在發(fā)生癌變的過(guò)程中擔(dān)任著重要角色。圖6b顯示了ETS1 基因和它的鄰居相對(duì)于蛋白質(zhì)相互作用網(wǎng)絡(luò)中所有基因及其鄰居的表現(xiàn)情況,結(jié)果表明ETS1 基因以及它的鄰居的突變分布要高于網(wǎng)絡(luò)整體水平(p=3.49×10?4),可作為致頭頸癌產(chǎn)生癌變的關(guān)鍵基因。已有研究表明ETS1可以作為治療頭頸癌的關(guān)鍵靶點(diǎn)[30-31]。美國(guó)紐約州立大學(xué)的研究人員發(fā)現(xiàn)ETS1 是頭頸部鱗狀細(xì)胞癌的生物標(biāo)志物,它在頭頸部鱗狀細(xì)胞癌中的過(guò)度表達(dá)與預(yù)后不良相關(guān),并且是關(guān)鍵上皮性向間質(zhì)轉(zhuǎn)化(EMT)基因的主要調(diào)節(jié)因子,為腫瘤亞型特異性的靶向治療提供新途徑[30]。文獻(xiàn)[31]發(fā)現(xiàn)SRC-ETS1生存通路的上調(diào)與頭頸部鱗狀細(xì)胞癌HNSC 的細(xì)胞增殖、存活、遷移、侵襲和順鉑耐藥有關(guān)。

圖6 頭頸癌中的ETS1 基因的重要性分析

4 結(jié)束語(yǔ)

網(wǎng)絡(luò)控制理論能夠揭示預(yù)測(cè)蛋白質(zhì)互作網(wǎng)絡(luò)的相互作用機(jī)制,能夠從復(fù)雜的生物網(wǎng)絡(luò)中識(shí)別出腫瘤關(guān)鍵基因,為癌癥的藥物設(shè)計(jì)及預(yù)后生物標(biāo)志物預(yù)測(cè)提供了很好的借鑒。本文利用復(fù)雜網(wǎng)絡(luò)控制理論的方法對(duì)來(lái)自TCGA 數(shù)據(jù)庫(kù)中5 種癌癥網(wǎng)絡(luò)腫瘤基因進(jìn)行了分類篩選,并結(jié)合腫瘤基因在兩個(gè)階段中的蛋白質(zhì)網(wǎng)絡(luò)相互作用情況,進(jìn)一步確認(rèn)了腫瘤的關(guān)鍵基因集合。利用網(wǎng)絡(luò)的綜合中心性,除去已知被證實(shí)為顯著基因,對(duì)其他腫瘤關(guān)鍵基因集進(jìn)行排序,得到潛在的腫瘤關(guān)鍵基因。通過(guò)驗(yàn)證研究分析,在網(wǎng)絡(luò)中具有生物學(xué)統(tǒng)計(jì)意義的關(guān)鍵基因在腫瘤發(fā)展過(guò)程中的研究可能有著重要影響,它們能夠作為藥物靶點(diǎn)或者作為預(yù)后生物標(biāo)志物,推動(dòng)癌癥的治療及防控的研究。

本文利用復(fù)雜網(wǎng)絡(luò)控制理論和基因網(wǎng)絡(luò)分析,結(jié)合生物醫(yī)療數(shù)據(jù)對(duì)腫瘤的關(guān)鍵基因進(jìn)行預(yù)測(cè),為網(wǎng)絡(luò)控制在生物醫(yī)療方面的研究提供了良好的思路。但是本研究中只考慮了Normal 和Tumor 兩個(gè)階段的癌癥蛋白質(zhì)相互作用網(wǎng)絡(luò),如果進(jìn)一步地結(jié)合Tumor 不同時(shí)期的數(shù)據(jù)細(xì)化腫瘤關(guān)鍵基因的識(shí)別,可以更好地進(jìn)行腫瘤演化方面的分析,這也是未來(lái)工作中的研究方向。

猜你喜歡
關(guān)鍵癌癥蛋白質(zhì)
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
高考考好是關(guān)鍵
留意10種癌癥的蛛絲馬跡
癌癥“偏愛(ài)”那些人?
海峽姐妹(2018年7期)2018-07-27 02:30:36
對(duì)癌癥要恩威并施
特別健康(2018年4期)2018-07-03 00:38:08
不如擁抱癌癥
特別健康(2018年2期)2018-06-29 06:13:42
蛋白質(zhì)計(jì)算問(wèn)題歸納
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
生意無(wú)大小,關(guān)鍵是怎么做?
宝丰县| 平阳县| 固始县| 阜阳市| 巢湖市| 普兰县| 石首市| 邢台市| 商城县| 策勒县| 阿拉善左旗| 和顺县| 阆中市| 黄龙县| 石台县| 临清市| 芦溪县| 枣阳市| 苏尼特右旗| 义乌市| 潞西市| 贵港市| 拜泉县| 巍山| 楚雄市| 通河县| 碌曲县| 渑池县| 石楼县| 马山县| 建湖县| 绥江县| 宝山区| 林芝县| 密云县| 扎兰屯市| 西平县| 来宾市| 罗山县| 依兰县| 阜城县|