石勝軍,田斌群
(武漢大學(xué)中南醫(yī)院泌尿外科,武漢 430071)
據(jù)統(tǒng)計(jì)2012年全世界新診斷前列腺癌約1 100 000例,居男性腫瘤第二位;同時(shí)約30 700人死于前列腺癌,居男性腫瘤死亡率第五位[1]。相對(duì)于歐美國(guó)家,中國(guó)前列腺癌患病率較低,但也有逐年上升的趨勢(shì)[2]。目前對(duì)于前列腺癌的初篩主要依靠前列腺腫瘤標(biāo)志物(prostate-specific antigen,PSA),但特異性不高,可能導(dǎo)致許多不必要的前列腺穿刺活檢[3],另外也有研究表明PSA的篩查并不能明顯降低前列腺癌死亡率[4]。同時(shí)在晚期前列腺癌治療方面目前仍存在巨大挑戰(zhàn)[5],因此對(duì)前列腺癌早期診斷標(biāo)志物及治療靶標(biāo)的研究是具有重要意義的。
本研究利用生物信息學(xué)對(duì)GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù)中有關(guān)基因芯片數(shù)據(jù)進(jìn)行分析,篩選出樞紐基因,并通過(guò)生物信息學(xué)方法初步驗(yàn)證,以期為進(jìn)一步研究提供線索。
1.1數(shù)據(jù)下載從GEO 數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/geo/)下載編號(hào)為GSE55945的芯片數(shù)據(jù)集,該芯片數(shù)據(jù)集基于GPL570平臺(tái),共21例樣本,包括13例前列腺癌組織及8例良性前列腺增生組織。另外從癌癥和腫瘤基因圖譜(the Cancer Genome Atlas,TCGA)數(shù)據(jù)庫(kù)下載前列腺癌相關(guān)表達(dá)數(shù)據(jù),包括498例前列腺癌組織及52例癌旁組織。
1.2數(shù)據(jù)預(yù)處理利用R軟件Affy包[6]讀取原始文件,然后使用Affy 包的MAS5.0算法標(biāo)準(zhǔn)化數(shù)據(jù)后得到基因的表達(dá)矩陣,計(jì)算樣本之間的 Pearson 相關(guān)系數(shù),對(duì)所有樣本進(jìn)行聚類分析,剔除明顯離群樣本。
1.3差異表達(dá)基因篩選利用R軟件limma包[7]來(lái)對(duì)預(yù)處理后的基因表達(dá)矩陣進(jìn)行分析并且應(yīng)用貝葉斯檢驗(yàn)方法進(jìn)行多重檢驗(yàn)校正,得到前列腺癌組織與良性前列腺組織間差異表達(dá)基因(differentially expressed genes,DEGs),篩選條件為:FDR<0.05,| log2 FC|≥1.0,其中FC為fold change即兩組間差異表達(dá)倍數(shù)。
1.4GO與KEGG富集分析為進(jìn)一步了解差異基因可能功能,利用R軟件clusterProfiler包[8]對(duì)得到的差異表達(dá)基因進(jìn)行基因本體功能(gene ontology,GO)富集分析,并進(jìn)行京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析。P<0.05為具有統(tǒng)計(jì)學(xué)意義。
1.5蛋白互作網(wǎng)絡(luò)構(gòu)建及樞紐基因的篩選利用R軟件STRINGdb包[9]分析差異表達(dá)基因得到蛋白互作網(wǎng)絡(luò)。然后運(yùn)用R軟件進(jìn)一步分析計(jì)算點(diǎn)度中心性(degree)等并繪制簡(jiǎn)化蛋白互作網(wǎng)絡(luò)圖。其中每個(gè)節(jié)點(diǎn)均代表一個(gè)蛋白,而點(diǎn)度中心性表示與該節(jié)點(diǎn)蛋白相連的節(jié)點(diǎn)數(shù),值越大則該節(jié)點(diǎn)在網(wǎng)絡(luò)中越重要,點(diǎn)度中心性最多的節(jié)點(diǎn)對(duì)應(yīng)的基因即為樞紐基因。
1.6樞紐蛋白(基因)驗(yàn)證利用基因表達(dá)譜交互式分析(Gene Expression Profiling Interactive Analysisi,GEPIA) 數(shù)據(jù)庫(kù)[10](http://GEPIA.cancer-pku.cn/)對(duì)樞紐基因在前列腺癌與正常組織間的表達(dá)量進(jìn)行進(jìn)一步驗(yàn)證篩選,其中前列腺癌組織數(shù)據(jù)來(lái)自TCGA數(shù)據(jù)而正常組織數(shù)據(jù)則來(lái)自TCGA及GTEx數(shù)據(jù)。進(jìn)一步利用HPA(the Human Protein Atlas)數(shù)據(jù)庫(kù)驗(yàn)證樞紐基因的翻譯水平。另外基于TCGA數(shù)據(jù)繪制各備選樞紐受試者工作特征曲線 (receiver operating characteristic curve,ROC)曲線并計(jì)算AUC驗(yàn)證其診斷效能,當(dāng)AUC>0.7時(shí),該樞紐基因被認(rèn)為對(duì)于前列腺的診斷有較高的靈敏度及特異度。
2.1差異表達(dá)基因篩選結(jié)果在FDR<0.05,|log2 FC|≥1.0的篩選條件下,共得到差異表達(dá)基因共462個(gè),其中上調(diào)基因114個(gè),下調(diào)基因348個(gè)。差異表達(dá)基因熱圖如圖1所示,前列腺癌組織與良性前列腺組織間基因表達(dá)差異明顯且分組聚類良好。
2.2差異表達(dá)基因GO功能富集分析和KEGG通路分析為了解差異基因可能功能,對(duì)差異基因進(jìn)行GO功能富集分析和KEGG通路分析。將GO功能富集分析和KEGG通路分析結(jié)果最顯著的前15條列于圖2。GO功能富集分析顯示差異表達(dá)基因主要參與肌肉系統(tǒng)、系統(tǒng)生物過(guò)程調(diào)節(jié)、循環(huán)系統(tǒng)等生物過(guò)程(圖2A);KEGG通路分析顯示這些差異表達(dá)基因主要涉及粘著斑、蛋白聚糖、cAMP信號(hào)通路、鈣離子信號(hào)通路及cGMP-PKG信號(hào)通路等相關(guān)通路(圖2B)。
2.3蛋白互作網(wǎng)絡(luò)構(gòu)建及備選樞紐基因的篩選利用R軟件STRINGdb包分析差異表達(dá)基因得到蛋白互作網(wǎng)絡(luò),根據(jù)每個(gè)基因的點(diǎn)度中心性排序,節(jié)點(diǎn)最多的基因即備選樞紐基因有6個(gè),分別為VCL、RND3、RRAS、 MET、BMP2、RAP1A。
2.4樞紐基因驗(yàn)證通過(guò)查詢GEPIA數(shù)據(jù)庫(kù)得到備選樞紐基因在前列腺癌組織與正常組織的表達(dá)量,結(jié)果顯示VCL、RND3、RRAS在前列腺癌組織中表達(dá)量較正常組織均存在明顯下調(diào);而MET、BMP2、RAP1A則無(wú)明顯差異(圖3),綜上篩選得到3個(gè)樞紐基因:VCL、RND3、RRAS。利用The Human Protein Atlas數(shù)據(jù)庫(kù)進(jìn)一步驗(yàn)證,結(jié)果顯示VCL、RND3、RRAS在前列腺癌組織中蛋白翻譯水平較正常組織均降低(圖4)。通過(guò)繪制ROC曲線顯示各樞紐基因AUC值均大于0.7(P<0.001,圖5),表明各樞紐基因均能夠區(qū)分前列腺癌及正常前列腺。
圖2差異表達(dá)基因GO功能富集分析和KEGG通路分析
A:GO功能富集分析;B:KEGG通路分析。
圖3 基于TCGA及GTEx數(shù)據(jù)的GEPIA中各備選樞紐基因的表達(dá)量(*P<0.01)
圖4 The Human Protein Atlas數(shù)據(jù)庫(kù)中各樞紐基因蛋白翻譯水平
圖5 基于TCGA數(shù)據(jù)各備選樞紐基因ROC曲線
本研究利用生物信息學(xué)對(duì)基因芯片數(shù)據(jù)集GSE55945進(jìn)行分析,共篩選出差異表達(dá)基因共462個(gè),其中上調(diào)基因114個(gè),下調(diào)基因348個(gè)。通過(guò)蛋白互作網(wǎng)絡(luò)篩選出6個(gè)備選樞紐基因,使用GEPIA 數(shù)據(jù)庫(kù)進(jìn)一步驗(yàn)證篩選得到3個(gè)樞紐基因:VCL、RND3、RRAS。另外進(jìn)一步使用The Human Protein Atlas數(shù)據(jù)庫(kù)驗(yàn)證顯示各樞紐基因在前列腺癌組織中蛋白翻譯水平較正常組織均降低;繪制ROC曲線驗(yàn)證其診斷效能顯示各樞紐基因均能夠區(qū)分前列腺癌及正常組織(AUC>0.7,P<0.001)。
VCL,主要編碼粘著斑蛋白,參與細(xì)胞骨架的形成及粘著斑的構(gòu)成并聯(lián)系細(xì)胞與細(xì)胞外基質(zhì),在細(xì)胞粘附、生長(zhǎng)增殖、凋亡、腫瘤的發(fā)生及侵襲中有著重要作用[11]。LI 等[12]研究發(fā)現(xiàn):①結(jié)直腸腫瘤細(xì)胞系及轉(zhuǎn)移組織中VCL的表達(dá)均處于明顯下調(diào)狀態(tài);②過(guò)表達(dá)VCL能夠抑制腫瘤的侵襲與轉(zhuǎn)移;③VCL的低表達(dá)與結(jié)直腸腫瘤的預(yù)后相關(guān)。朱等[13]通過(guò)免疫組化證實(shí)VCL在前列腺癌組織中是低表達(dá)的,但有趣的是在前列腺癌轉(zhuǎn)移組織中VCL的表達(dá)明顯高于原位前列腺癌組織。另外KAWAKAMI等[14]通過(guò)研究發(fā)現(xiàn)與未出現(xiàn)紫杉醇耐藥的PC-3細(xì)胞相比,VCL在紫杉醇耐藥的PC-3細(xì)胞系中的表達(dá)量出現(xiàn)明顯上調(diào),認(rèn)為VCL的表達(dá)量能夠作為晚期前列腺癌進(jìn)展的一個(gè)指標(biāo)。綜上,VCL表達(dá)量在前列腺癌不同階段可能有所不同,VCL有成為前列腺癌診斷、預(yù)后判斷指標(biāo)的可能,但需要大量的研究去驗(yàn)證。RND3編碼的蛋白屬于小G蛋白的一種,在細(xì)胞生長(zhǎng)、細(xì)胞粘附等有重要作用。RND3表達(dá)的下調(diào)會(huì)促進(jìn)肺癌、肝癌等多種腫瘤的侵襲、轉(zhuǎn)移[15-18]。BEKTIC等[19]發(fā)現(xiàn)RND3表達(dá)量在前列腺癌中明顯下降,過(guò)表達(dá)能夠誘導(dǎo)細(xì)胞周期停止及凋亡,但其中機(jī)制尚不清楚。RRAS編碼的蛋白同樣屬于小G蛋白的一種,主要參與血管生成、血管穩(wěn)態(tài)及再生、細(xì)胞粘附等生物過(guò)程。RRAS最初作為癌基因被認(rèn)識(shí),但近來(lái)有研究顯示RRAS的表達(dá)量在乳腺癌組織中呈低表達(dá)狀態(tài)且RRAS的過(guò)表達(dá)會(huì)抑制腫瘤細(xì)胞的生長(zhǎng)、粘附及細(xì)胞周期[20],至于RRAS與前列腺癌的聯(lián)系目前尚無(wú)明確報(bào)道,仍有待進(jìn)一步研究。
為了解差異基因可能功能,對(duì)篩選得到差異基因進(jìn)行GO功能富集及KEGG通路富集分析。GO功能富集分析顯示這些差異表達(dá)基因主要參與肌肉系統(tǒng)、系統(tǒng)生物過(guò)程調(diào)節(jié)、循環(huán)系統(tǒng)等生物過(guò)程;KEGG通路富集分析顯示差異表達(dá)基因主要涉及粘著斑、蛋白聚糖、cAMP信號(hào)通路、鈣離子信號(hào)通路及cGMP-PKG信號(hào)通路等通路。其中VCL主要富集于細(xì)胞-基底粘附、細(xì)胞運(yùn)動(dòng)的負(fù)調(diào)節(jié)等生物過(guò)程以及粘著斑信號(hào)通路,VCL可能通過(guò)粘著斑通路來(lái)調(diào)節(jié)細(xì)胞的粘附及運(yùn)動(dòng),這在前列腺癌的發(fā)生發(fā)展中可能有著重要作用。另外RRAS主要富集于細(xì)胞運(yùn)動(dòng)的負(fù)調(diào)節(jié)生物過(guò)程以及cAMP信號(hào)通路,RRAS可能通過(guò)cAMP信號(hào)通路實(shí)現(xiàn)對(duì)細(xì)胞運(yùn)動(dòng)的負(fù)調(diào)節(jié)來(lái)影響前列腺癌的發(fā)生發(fā)展。而RND3未被發(fā)現(xiàn)富集至得到的生物過(guò)程或通路中,其可能作用機(jī)制仍有待進(jìn)一步研究。
總之,我們通過(guò)對(duì)基因芯片進(jìn)行分析篩選出相關(guān)樞紐基因并對(duì)其進(jìn)行生物信息學(xué)分析,可能為前列腺癌的進(jìn)一步研究提供線索,并且這些基因作為潛在生物標(biāo)志物將來(lái)可能成為前列腺癌早期診斷、治療及預(yù)后判斷的靶點(diǎn)。