許夢瑩 張廣美
卵巢癌的病死率居婦科腫瘤首位[1],因其發(fā)病隱匿,缺乏有效的早期診斷方法,超過70%的患者就診時已為晚期[2-3],并且大多數(shù)已經(jīng)發(fā)生了遠(yuǎn)處轉(zhuǎn)移。大多數(shù)患者在2年內(nèi)經(jīng)歷疾病復(fù)發(fā),且復(fù)發(fā)性卵巢癌缺乏有效的治療方案。隨著DNA和RNA測序、DNA微陣列、高通量蛋白質(zhì)組學(xué)和代謝組學(xué)等技術(shù)的日益普及,需要新的方法將這些新類型的數(shù)據(jù)轉(zhuǎn)化為新信息,因此,通過高通量的基因芯片技術(shù)和生物信息學(xué)尋找卵巢癌有效的腫瘤標(biāo)志物、關(guān)鍵預(yù)后基因,探索卵巢癌發(fā)生發(fā)展的機制具有重要意義,為卵巢癌患者的靶向治療提供契機??紤]到基因芯片結(jié)果假陽性的可能,本研究綜合幾個基因芯片數(shù)據(jù)進(jìn)行了分析。
從基因表達(dá)數(shù)據(jù)庫GEO(www.ncbi.nlm.nih.gov/geo)中下載得到ID號為GSE14407、GSE18520[4]、GSE66957及GSE54388的漿液性卵巢癌及正常卵巢細(xì)胞mRNA芯片數(shù)據(jù)。其中GSE14407包含12例正常卵巢表面上皮細(xì)胞和12例漿液性卵巢癌上皮細(xì)胞,GSE18520包含10例正常卵巢表面上皮細(xì)胞和53例漿液性卵巢癌上皮細(xì)胞,GSE66957包含12例正常卵巢表面上皮細(xì)胞和57例漿液性卵巢癌上皮細(xì)胞,GSE54388包含6例正常卵巢表面上皮細(xì)胞和16例漿液性卵巢癌上皮細(xì)胞。
1. 共同差異基因的篩選:將GSE14407、GSE18520、GSE54388和GSE66957芯片數(shù)據(jù)導(dǎo)入R語言(https://www.r-project.org/)軟件中,使用affy包對上述數(shù)據(jù)集的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并運用Limma包(http://www.bioconductor.org/package/release/bioc/html/limma.html/)對GEO芯片數(shù)據(jù)進(jìn)行差異計算,篩選閾值設(shè)為校正后P<0.05,差異表達(dá)倍數(shù)|logFC|≥2[5],并使用ggplot 2繪制各數(shù)據(jù)集差異基因的火山圖,運用R VennDiagram對四個數(shù)據(jù)集中表達(dá)均為上調(diào)或下調(diào)的差異基因取交集得到共同差異基因,運用R heatmap對表達(dá)上調(diào)和下調(diào)的共同差異基因繪制熱圖。以下的生物信息學(xué)分析對象均為共同差異基因。
2.共同差異基因的功能富集:運用R clusterProfiler包(http://www.bioconductor.org/package/release/bioc/html/clusterProfiler.html/)對共同差異基因進(jìn)行GO功能及KEGG通路富集[6](以P<0.05作為顯著性富集的閾值)。
3. 建立蛋白質(zhì)互作用網(wǎng)絡(luò):運用STRING(https://string-db.org)構(gòu)建共同差異基因的蛋白相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)[7],將最低互作用分值設(shè)置成高度可信(high confidence=0.8)[8],并將使用Cytoscape軟件進(jìn)行可視化分析,選出節(jié)點較多的關(guān)鍵基因并構(gòu)建PPI核心網(wǎng)絡(luò)。
4. 統(tǒng)計方法:使用survival包、survminer包分析關(guān)鍵差異基因的表達(dá)對卵巢癌患者生存率(病人樣本來自TCGA數(shù)據(jù)庫,以表達(dá)中位數(shù)為界,分為高表達(dá)組和低表達(dá)組)的影響,并用survminer包繪制生存曲線,通過Log-rank檢驗法比較生存曲線的差異,設(shè)置參數(shù)P<0.05為差異有統(tǒng)計學(xué)意義。
在GSE14407篩選得到共同差異基因6 572個,其中上調(diào)基因4 953個、下調(diào)基因1 619個;在GSE18520篩選得到共同差異基因3 648個,其中上調(diào)基因2 012個、下調(diào)基因1 636個;在GSE66957篩選得到共同差異基因9 342個,其中上調(diào)基因5 814個、下調(diào)基因3 528個;在GSE54388篩選得到共同差異基因2 435個,其中上調(diào)基因1 512個、下調(diào)基因923個(校正后P<0.05,差異表達(dá)倍數(shù)|logFC|≥2)。各數(shù)據(jù)集差異基因火山圖見圖1。四個數(shù)據(jù)集共篩選得到305個差異基因,其中250個表達(dá)上調(diào)的共同差異基因和55個表達(dá)下調(diào)的共同差異基因,韋恩圖及熱圖見圖2。
富集分析結(jié)果(P<0.05)顯示,在卵巢癌中表達(dá)上調(diào)的共同差異基因主要富集于染色體分離、細(xì)胞周期G1/S轉(zhuǎn)變、細(xì)胞黏附、細(xì)胞間連接、磷脂酰肌醇-3-激酶/絲蘇氨酸蛋白激酶(PI3K-AKT)信號通路和Rap1信號通路等;表達(dá)下調(diào)的共同差異基因則主要富集于細(xì)胞增殖調(diào)控、粘附斑激酶信號通路等,見表1及圖3、圖4。
(A) GSE14407;(B) GSE18520;(C) GSE66957; (D)GSE54388. (The red dot indicates the differentially expressed up-regulated genes, the blue dot indicates the differentially expressed down-regulated genes, and the black dots indicate genes that are not significantly differentially expressed.)
圖2 共同差異基因熱圖及韋恩圖Figure 2 Heatmap and Venn diagram of common DEGs
表1 共同差異基因的GO功能和KEGG通路Table 1 GO function and KEGG pathway analysis of common DEGs
蛋白互作用分析,將最低互作用分值設(shè)置成高度可信(high confidence=0.8)[8],得到包含51個節(jié)點的PPI網(wǎng)絡(luò)。其中,PPI核心網(wǎng)絡(luò)由相互作用關(guān)系較高的14關(guān)鍵基因構(gòu)成,分別為ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK,提示上述基因在卵巢癌中起關(guān)鍵作用,見圖5。
分析ZWINT、CENPF、CDCA8、KIF18A、KIF15、KIF11、CDCA3、ESPL1、TPX2、DLGAP5、PTTG1、UBE2C、CEP55、MELK關(guān)鍵基因的表達(dá)水平與卵巢癌患者生存率之間的關(guān)系。其中僅UBE2C的表達(dá)高低與卵巢癌患者的生存率呈負(fù)相關(guān)。即UBE2C高表達(dá)患者的生存率明顯低于該基因低表達(dá)患者,見圖6。
圖3 共同差異基因的GO功能分析Figure 3 GO functional analysis of common DEGs
圖4 共同差異基因的KEGG通路富集分析Figure 4 KEGGpathway analysis of common DEGs
圖5 蛋白質(zhì)相互作用網(wǎng)絡(luò)分析Figure 5 Protein-protein interaction network
圖6 UBE2C的表達(dá)與卵巢癌患者生存率的生存曲線Figure 6 The relationship between the expression of UBE2C and the overall survival time of patients with ovarian cancer
卵巢癌是女性生殖系統(tǒng)最致命的惡性腫瘤,是導(dǎo)致女性癌癥患者死亡的第五大原因[1]。此外,其高轉(zhuǎn)移率和化療耐藥引起的疾病復(fù)發(fā)是卵巢癌死亡的主要原因。因此,尋找可靠的腫瘤標(biāo)志物,探索卵巢癌的分子機制對卵巢癌的診斷、治療和預(yù)后具有重要意義。在本研究中,使用生物信息學(xué)方法整合了四個基因芯片數(shù)據(jù)集:GSE14407、GSE18520、GSE54388和GSE66957,使用R語言軟件中的軟件包篩選共得到305個共同差異基因,其中250個表達(dá)上調(diào)基因,55個表達(dá)下調(diào)基因。GO與KEGG分析顯示共同差異基因主要富集于染色體分離、細(xì)胞周期G1/S轉(zhuǎn)變、細(xì)胞黏附、細(xì)胞間連接、磷脂酰肌醇-3-激酶/絲蘇氨酸蛋白激酶(PI3K-AKT)信號通路、Rap1信號通路、細(xì)胞增殖調(diào)控和粘附斑激酶信號通路等。
本研究通過在線數(shù)據(jù)庫STRING對共同差異基因進(jìn)行蛋白質(zhì)相互作用分析,篩選得到節(jié)點較多的14個關(guān)鍵基因,對關(guān)鍵基因進(jìn)行分析,其中僅泛素結(jié)合酶E2C(UBE2C)的高表達(dá)與卵巢癌患者的生存率呈負(fù)相關(guān)。UBE2C是泛素-蛋白酶體系統(tǒng)(ubiquitin-proteasome system,UPS)中泛素偶聯(lián)酶E2家族的主要成員之一,泛素化酶主要分為3類:泛素激活酶(E1),負(fù)責(zé)激活泛素分子;泛素連接酶(E3),負(fù)責(zé)與靶蛋白結(jié)合;泛素結(jié)合酶(E2),在E3酶的介導(dǎo)下將泛素傳給靶分子[9]。1997年Townsley等人初次克隆了人類的UBE2C基因[10],該基因位點位于20q13.12,編碼的泛素結(jié)合酶由179個氨基酸組成,分子量為19.6KD[11],是人類細(xì)胞中被識別的第十個泛素結(jié)合酶基因,可通過激活有絲分裂后期促進(jìn)復(fù)合物形成[12],通過參與泛素依賴的蛋白水解過程在細(xì)胞周期、信號轉(zhuǎn)導(dǎo)、細(xì)胞分化[13]等多種正常細(xì)胞過程中發(fā)揮重要作用。UPS介導(dǎo)的泛素酶解過程依賴于其成員泛素活化酶E1、泛素結(jié)合酶E2、泛素連接酶E3酶鏈的順序激活,UBE2C與經(jīng)E1活化的泛素形成中間復(fù)合物,與E3相識別并在E3的催化作用下把泛素呈遞給底物蛋白,如此反復(fù)最終將多泛素化的底物蛋白(如cyclinsA和cyclinsB等細(xì)胞周期相關(guān)蛋白)呈遞給26S蛋白酶體并迅速分解[14],使得細(xì)胞進(jìn)入正常有絲分裂中,通過終止紡錘體檢查點信號使得細(xì)胞由中期進(jìn)入后期,直至染色體正常分離,細(xì)胞完成正常有絲分裂。然而UBE2C異常高表達(dá),使細(xì)胞染色體不穩(wěn)定性增加,使得細(xì)胞逃離紡錘體檢查點的監(jiān)控作用,染色體不能正常分離或延遲分離而發(fā)生染色體紊亂,最終使得細(xì)胞不能完成正常分裂,形成非整倍體,這也是細(xì)胞癌變的特點之一[15]。Dai認(rèn)為染色體延遲分離是UBE2C過表達(dá)導(dǎo)致染色體紊亂的主要原因[16]。Okamoto等通過實驗研究表明UBE2C在肺癌、結(jié)腸癌、乳腺癌、胰腺癌、骨肉瘤等多種腫瘤中高表達(dá),并促進(jìn)細(xì)胞的增殖和惡變從而發(fā)生致癌基因的作用[17],尤其是惡性程度高、分化程度低、轉(zhuǎn)移傾向高的癌癥,往往表現(xiàn)為UBE2C高表達(dá)、患者低生存率[18]。Martinez-canales基于生物信息學(xué)在卵巢癌中的研究發(fā)現(xiàn),在6%的卵巢癌組織中發(fā)現(xiàn)了UBE2C基因的上調(diào)和擴增,是具有治療干預(yù)潛力的基因[19]。
本研究應(yīng)用生物信息學(xué)方法綜合分析了漿液性卵巢癌共同差異基因,結(jié)果得到了關(guān)鍵基因UBE2C,其與卵巢癌患者生存率成負(fù)相關(guān),即UBE2C高表達(dá)患者的生存率明顯低于低表達(dá)患者,提示其可能是改善卵巢癌患者預(yù)后的生物學(xué)靶點,但在卵巢癌中的分子機制尚不明確,需進(jìn)一步研究。