張婕 李夢(mèng)婷
摘 ?要:選取NCBI基因表達(dá)譜數(shù)據(jù)庫(kù)中訪(fǎng)問(wèn)號(hào)為GSE41439的基因芯片數(shù)據(jù)集為分析對(duì)象,首先利用R軟件篩選差異表達(dá)基因并繪制成聚類(lèi)熱圖,然后將差異基因上傳至DAVID數(shù)據(jù)庫(kù)進(jìn)行GO功能與KEGG通路富集分析,接著利用STRING數(shù)據(jù)庫(kù)構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò),并利用Cytoscape軟件進(jìn)行可視化,以直觀(guān)地觀(guān)察蛋白與蛋白之間的相互關(guān)系。由蛋白互作網(wǎng)絡(luò)篩選出4個(gè)關(guān)鍵基因:PIK3R1、GNAS、GNAL、GNG4,可對(duì)其進(jìn)行更深入的討論。此方法適用于多種基因芯片的研究,具有很好的可推廣性,將其運(yùn)用于疾病相關(guān)的基因芯片,可為醫(yī)學(xué)診斷與精準(zhǔn)治療提供一定的幫助。
關(guān)鍵詞:生物信息學(xué);R軟件;DAVID數(shù)據(jù)庫(kù);STRING數(shù)據(jù)庫(kù);Cytoscape
中圖分類(lèi)號(hào):R319 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)04-0076-04
Abstract:The gene chip data set with access number GSE41439 in NCBI gene expression profile database is selected as the analysis object. Firstly,the differential expression genes are screened by R-studio and the clustering heat map is drawn,then the differential genes are uploaded to DAVID database for GO function and KEGG pathway enrichment analysis,and then the protein interaction network is constructed by using STRING database,and can be seen by using Cytoscape software to observe the relationship between protein and protein directly. Four key genes,PIK3R1,GNAS,GNAL and GNG4,were screened out by protein interaction network,which can be further discussed. This method is suitable for the research of many kinds of gene chips,and has good generalization. It can be applied to the disease-related gene chips,which can provide some help for medical diagnosis and precise treatment.
Keywords:bioinformatics;R-studio;DAVID data base;STRING data base;Cytoscape
0 ?引 ?言
隨著精準(zhǔn)醫(yī)療與計(jì)算機(jī)技術(shù)的迅速發(fā)展,計(jì)算機(jī)技術(shù)在數(shù)據(jù)挖掘方面的優(yōu)勢(shì)逐漸顯現(xiàn),同時(shí)基因組學(xué)和蛋白質(zhì)組學(xué)的快速發(fā)展積累了大量的生物數(shù)據(jù),生物與計(jì)算機(jī)的結(jié)合讓生命科學(xué)領(lǐng)域進(jìn)入大數(shù)據(jù)時(shí)代[1]。生物信息數(shù)據(jù)庫(kù)具有種類(lèi)多、規(guī)模大、覆蓋面廣以及更新速度快等特點(diǎn),充分利用這一特點(diǎn),可以識(shí)別疾病的潛在治療靶基因,挖掘基因的功能以及基因之間的關(guān)聯(lián)性,為疾病的預(yù)防和治療提供新的途徑[2]。本文以NCBI高通量基因表達(dá)譜數(shù)據(jù)庫(kù)(GEO)中訪(fǎng)問(wèn)號(hào)為GSE41439的基因芯片數(shù)據(jù)集為例,介紹基于R軟件和數(shù)據(jù)庫(kù)的生物信息分析方法,挖掘芯片所包含的潛在信息。該芯片基于GPL570平臺(tái),含有8個(gè)樣本信息,比較了正常人胚胎干細(xì)胞系VUB01、VUB02、VUB03和VUB07及其含有20q11.21重復(fù)序列的亞系的基因表達(dá)差異。20q11.21的增加是染色體異常的一種,分析具有正常核型的人胚胎干細(xì)胞與獲得20q11.21重復(fù)后的細(xì)胞內(nèi)差異表達(dá)基因,可以為識(shí)別導(dǎo)致染色體異常的關(guān)鍵基因及其所參與的功能提供幫助。
1 ?基于R軟件的基因芯片數(shù)據(jù)處理與初步分析
1.1 ?安裝程序包
R軟件是專(zhuān)業(yè)的統(tǒng)計(jì)軟件,是統(tǒng)計(jì)計(jì)算、數(shù)據(jù)可視化的優(yōu)秀工具,同時(shí)R也是免費(fèi)開(kāi)源的軟件,在其官網(wǎng)和鏡像網(wǎng)站中可以下載安裝程序、源代碼和程序包等[3]。R軟件為用戶(hù)提供了大量的程序包,使得用戶(hù)能夠靈活地運(yùn)用這些程序包進(jìn)行數(shù)據(jù)的分析及可視化,運(yùn)用R軟件處理基因芯片的第一步即是安裝自己所需的程序包。
1.2 ?數(shù)據(jù)過(guò)濾及標(biāo)準(zhǔn)化
GEO數(shù)據(jù)庫(kù)提供了大量開(kāi)放共享的基因芯片數(shù)據(jù)集,分析芯片所包含的信息使得我們能夠從分子層面認(rèn)識(shí)樣本,從而獲取其中的關(guān)鍵基因,甚至可以作為疾病分子診斷與治療的依據(jù)。從GEO數(shù)據(jù)庫(kù)中下載訪(fǎng)問(wèn)號(hào)為GSE41439的基因芯片原始數(shù)據(jù),并將其解壓為CEL文件,整理其所包含的樣本信息為如表1所示。
其中,名稱(chēng)為樣本的名字,文件名稱(chēng)為樣本文件的名字,標(biāo)識(shí)為樣本的標(biāo)簽與類(lèi)型,各列之間以Tab鍵進(jìn)行分隔,將整理好的樣本信息文件,與解壓好的CEL文件共同存于同一文件夾下,即可運(yùn)用R軟件的GC-RMA算法對(duì)其進(jìn)行數(shù)據(jù)過(guò)濾及標(biāo)準(zhǔn)化。
1.3 ?篩選差異表達(dá)基因
差異表達(dá)基因是分析樣本之間差異信息并進(jìn)一步尋找核心基因的關(guān)鍵,R軟件的limma包提供了相對(duì)完善的差異分析工具,本文即運(yùn)用R軟件的limma包進(jìn)行差異表達(dá)基因的篩選,選定篩選條件為|logFC|>1.00且P.Value<0.05,進(jìn)一步分析基因芯片蘊(yùn)含的豐富信息,最終獲得3個(gè)有意義的文件,分別為差異表達(dá)基因的分析結(jié)果、上調(diào)基因的具體結(jié)果以及下調(diào)基因的具體結(jié)果,文件自動(dòng)存入默認(rèn)工作路徑下。
1.4 ?層次聚類(lèi)熱圖繪制
層次聚類(lèi)熱圖可以用于判斷不同條件下的差異基因表達(dá)模式,直觀(guān)地展示基因芯片的分析結(jié)果即某一個(gè)位置基因表達(dá)水平的高低,從而看出各差異基因在各樣本中的表達(dá)情況。首先從GEO數(shù)據(jù)庫(kù)下載GSE41439芯片的基因表達(dá)矩陣,并與通過(guò)R軟件篩選到的差異表達(dá)基因進(jìn)行整合,得到各差異基因在各個(gè)樣本之間的表達(dá)矩陣。然后利用R軟件對(duì)差異基因表達(dá)矩陣進(jìn)行可視化,采用雙向聚類(lèi)的方法,根據(jù)某一樣本中不同基因的表達(dá)水平將基因進(jìn)行聚類(lèi),同時(shí)根據(jù)某一基因在不同樣本中的表達(dá)水平將樣本進(jìn)行聚類(lèi),對(duì)基因在行方向進(jìn)行標(biāo)準(zhǔn)化,設(shè)置行列方向的樹(shù)高分別為100和20,同時(shí)選用由深到淺的顏色進(jìn)行標(biāo)記,繪制成層次聚類(lèi)熱圖,如圖1所示。
2 ?基于數(shù)據(jù)庫(kù)的基因芯片數(shù)據(jù)挖掘
2.1 ?DAVID數(shù)據(jù)庫(kù)進(jìn)行富集分析
DAVID[4]是一個(gè)為大量基因列表提供一整套功能性注釋的數(shù)據(jù)庫(kù),其從上傳的基因列表中系統(tǒng)地提取具有生物意義的基因或蛋白,列出涉及到的疾病、蛋白功能域、GO功能、KEGG通路等。GO功能富集分析以及KEGG代謝通路富集分析可以幫助我們從分子層面更深入的了解差異表達(dá)基因以及它們之間的富集關(guān)系,從而找到富集差異基因的GO分類(lèi)條目和KEGG通路,得出差異基因可能參與的基因功能以及代謝通路。
將差異表達(dá)基因名上傳至DAVID在線(xiàn)數(shù)據(jù)庫(kù),并選擇物種背景為homo sapiens,進(jìn)行富集分析。設(shè)定p<0.05,將所得的差異基因歸類(lèi)到生物學(xué)過(guò)程(如表2所示)、分子功能、細(xì)胞組分以及KEGG通路三種生物學(xué)關(guān)系中,并將富集分析結(jié)果下載以便后續(xù)的可視化分析。
2.2 ?STRING數(shù)據(jù)庫(kù)進(jìn)行互作分析
STRING 11.0[5]數(shù)據(jù)庫(kù)能夠提供對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)分析和預(yù)測(cè)的全局視圖。為了得到差異表達(dá)基因之間的相互作用,我們將顯著差異基因上傳至STRING 11.0版在線(xiàn)數(shù)據(jù)庫(kù),并選擇綜合得分≥0.4的基因進(jìn)行蛋白交互網(wǎng)絡(luò)(PPI)構(gòu)建。將沒(méi)有相互作用的節(jié)點(diǎn)隱藏,最終得到共有48個(gè)節(jié)點(diǎn)和55條邊的PPI網(wǎng)絡(luò),如圖2所示,并導(dǎo)出其相互作用表格、蛋白序列以及注釋等信息,以便后續(xù)的可視化分析。
3 ?數(shù)據(jù)庫(kù)結(jié)果可視化
3.1 ?富集結(jié)果可視化之氣泡圖
氣泡圖可以直觀(guān)的表征功能富集分析的結(jié)果,其中橫軸代表基因比例,即條目所包含基因占所有基因的百分比,單位為%,縱軸代表GO富集分析的具體條目,點(diǎn)的大小反映基因的個(gè)數(shù),而顏色的深淺反映P值的高低。本文將DAVID數(shù)據(jù)庫(kù)分析所得的生物學(xué)過(guò)程富集結(jié)果導(dǎo)入R軟件繪制成氣泡圖,如圖3所示。
3.2 ?互作網(wǎng)絡(luò)可視化之Cytoscape
Cytoscape是一個(gè)基于Java技術(shù)的開(kāi)放源代碼的網(wǎng)絡(luò)可視化軟件平臺(tái),主要用于復(fù)雜生物網(wǎng)絡(luò)的分析研究設(shè)計(jì),可以用其繪制基因表達(dá)調(diào)控網(wǎng)絡(luò)、蛋白互作網(wǎng)絡(luò)等任何與網(wǎng)絡(luò)結(jié)構(gòu)、層級(jí)有關(guān)系的內(nèi)容[6]。Cytoscape軟件可構(gòu)建可視化的分子交互作用網(wǎng)絡(luò)圖,節(jié)點(diǎn)與節(jié)點(diǎn)的連線(xiàn)則表示彼此之間有相互作用,并可將已有的基因表達(dá)信息整合到網(wǎng)絡(luò)圖中,從而較為容易地觀(guān)察蛋白與蛋白之間的關(guān)聯(lián)性[7]。
本文將所得的相互作用表格、蛋白序列及注釋信息等導(dǎo)入Cytoscape軟件3.7.1版,構(gòu)建可視化的交互網(wǎng)絡(luò)。首先選擇Cytoscape軟件菜單“File-Import-Network from File”輸入網(wǎng)絡(luò)表格數(shù)據(jù),并設(shè)置Source列和Target列及相關(guān)屬性列,生成初步的調(diào)控網(wǎng)絡(luò)。接著我們將其表達(dá)信息整合到網(wǎng)絡(luò)的節(jié)點(diǎn)(Node)與邊(Edge)中,通過(guò)選擇Cytoscape軟件控制面板“Control Panel”中的“Style”選項(xiàng)卡對(duì)節(jié)點(diǎn)、邊和網(wǎng)絡(luò)進(jìn)行樣式設(shè)置,其中每一個(gè)節(jié)點(diǎn)代表一個(gè)蛋白(基因),節(jié)點(diǎn)大小隨度漸變,深色代表上調(diào),淺色代表下調(diào),每一條邊代表一個(gè)交互關(guān)系,邊的粗細(xì)隨相互作用的強(qiáng)度漸變,最終獲得可視化蛋白交互網(wǎng)絡(luò),如圖4所示。
從圖4中可以初步看出,整個(gè)交互網(wǎng)絡(luò)以PIK3R1、GNAS、GNAL、GNG4為中心節(jié)點(diǎn),與其他蛋白相互作用,其中PIK3R1、GNAS、GNAL顯著上調(diào),GNG4顯著下調(diào),這4個(gè)基因可能是導(dǎo)致20q11.21增加染色體異常的關(guān)鍵基因。GO功能富集分析結(jié)果表明這些關(guān)鍵基因與胰島素樣生長(zhǎng)因子受體信號(hào)通路、骨骼發(fā)育、PI3K活性的調(diào)節(jié)、血管內(nèi)皮生長(zhǎng)因子受體信號(hào)通路等生物過(guò)程密切相關(guān),且主要發(fā)揮胰島素樣生長(zhǎng)因子受體結(jié)合、調(diào)節(jié)PI3K活性、信號(hào)傳感器活動(dòng)、調(diào)節(jié)跨膜受體蛋白酪氨酸激酶銜接活性等分子功能;KEGG通路富集分析結(jié)果表明差異基因顯著富集到血清素能性突觸傳遞通路、多巴胺能突觸傳遞通路以及鈣信號(hào)途徑等,與染色體異常密切相關(guān)。我們可以初步猜測(cè),20q11.21增加導(dǎo)致的染色體異常可能對(duì)這些富集到的生物過(guò)程、分子功能以及信號(hào)通路產(chǎn)生影響,有了初步的分析結(jié)果,則可以應(yīng)用其他分析方法進(jìn)一步探索并證明其中的分子機(jī)制,研究基因之間的關(guān)聯(lián)性。
4 ?結(jié) ?論
GEO數(shù)據(jù)庫(kù)提供了大量與疾病相關(guān)的基因芯片信息,此研究方法能夠使識(shí)別疾病潛在的治療靶基因成為可能。在實(shí)際分析中,選取自己感興趣的基因芯片數(shù)據(jù)集,運(yùn)用R軟件和生物信息相關(guān)的數(shù)據(jù)庫(kù)對(duì)基因芯片的信息進(jìn)行數(shù)據(jù)挖掘,并利用Cytoscape將其整合到網(wǎng)絡(luò)圖中,從而找出關(guān)鍵基因,分析其所參與的GO功能以及代謝通路。此外,也可將此數(shù)據(jù)存入數(shù)據(jù)庫(kù),以便在后續(xù)研究中調(diào)用和參考,為臨床分子診斷和精準(zhǔn)治療提供一定的幫助。
參考文獻(xiàn):
[1] 褚皓.數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用 [J].數(shù)字技術(shù)與應(yīng)用,2018,36(10):123-124.
[2] LUSCOMBE NM,GREENBAUM D,GERSTEIN M. What is bioinformatics? A proposed definition and overview of the field [J]. Methods of Information in Medicine,2001,40(4):346-58.
[3] 吳劍,錢(qián)進(jìn).R軟件在工科概率論與數(shù)理統(tǒng)計(jì)教學(xué)中的應(yīng)用 [J].考試周刊,2019(29):29.
[4] HUANG D W,SHERMAN B T,QINA T,et al. DAVID Bioinformatics Resources:expanded annotation database and novel algorithms to better extract biology from large gene lists [J].Nucleic Acids Research,2007,35(Web Server issue):169-175.
[5] FRANCESCHINI A,SZKLARCZYK D,F(xiàn)RANKILD S,et al. STRING v9.1:protein-protein interaction networks,with increased coverage and integration [J].Nucleic Acids Research,2013,41(D1):808-815.
[6] 楊淼,杜菁,李冬果,等.基于Cytoscape的miRNA調(diào)控網(wǎng)絡(luò)的構(gòu)建與研究 [J].中國(guó)醫(yī)學(xué)裝備,2018,15(10):95-97.
[7] HAMMOND D E,HYDE R,KRATCHMAROVA I,et al. Quantitative Analysis of HGF and EGF-Dependent Phosphotyrosine Signaling Networks [J].Journal of Proteome Research,2010,9(5):2734-2742.
作者簡(jiǎn)介:張婕(1998.10-),女,漢族,江蘇淮安人,本科在讀,研究方向:生物信息學(xué)。