馬惠涵 秘嘉慶 秦 倩 馬梅杰 馮勤梅
1.山西醫(yī)科大學(xué)第五臨床醫(yī)學(xué)院,山西太原 030001;2.山西醫(yī)科大學(xué)附屬人民醫(yī)院婦科,山西太原 030012
卵巢癌是婦科癌癥中導(dǎo)致女性死亡的主要原因。晚期卵巢癌患者5 年生存率不到20%,且多數(shù)患者會在18 個月的中位無進(jìn)展生存期復(fù)發(fā)[1-2]。
轉(zhuǎn)錄異常的基因可作為癌癥的預(yù)后標(biāo)志物,在臨床試驗(yàn)中進(jìn)行新藥研發(fā)和指導(dǎo)治療[3]。Leoutsakou等[4]使用半定量RT-PCR 方法發(fā)現(xiàn)SRA1 基因在卵巢腫瘤組織中高表達(dá),Dong 等[5]將胰島素樣生長因子2確定為卵巢癌與卵巢組織的差異表達(dá)基因,F(xiàn)u 等[6]通過蛋白質(zhì)組學(xué)和轉(zhuǎn)錄組分析發(fā)現(xiàn)UTP23 的低表達(dá)促進(jìn)了卵巢癌細(xì)胞對紫杉醇的耐藥性,但因不穩(wěn)定性和非適用性,目前尚鮮見報道可指導(dǎo)臨床的生物標(biāo)志物。
本研究從NCBI 基因表達(dá)綜合數(shù)據(jù)庫下載數(shù)據(jù)集,利用R 軟件識別卵巢癌與正常對照間的差異表達(dá)基因(differentially expressed genes,DEG),并進(jìn)行功能富集分析。此外,建立DEG 和關(guān)鍵模塊的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)并進(jìn)行模塊分析、生存分析及相關(guān)性分析,最終發(fā)現(xiàn)3 個與卵巢癌預(yù)后相關(guān)的重要基因。
基因表達(dá)匯編(gene expression omnibus,GEO)由美國國立生物技術(shù)信息中心創(chuàng)建,保存高通量功能基因組學(xué)數(shù)據(jù)。4 個數(shù)據(jù)集均出于此且已發(fā)表相關(guān)文獻(xiàn)。
基于編程語言R,使用hgu133plus2.db 注釋包和hgu133a.db 注釋包轉(zhuǎn)換基因名,使用limma 軟件包[7]識別出4 個數(shù)據(jù)集中卵巢癌組織與對照健康卵巢組織相比的DEG,用VennDiagram 軟件包[8]對DEG 進(jìn)行整合。|logFC|>1.5 和P <0.05 被認(rèn)為對DEG 有統(tǒng)計學(xué)意義。logFC>1.5 認(rèn)為是上調(diào)DEG,logFC<1.5 為下調(diào)DEG。
使用Clusterprofiler 包對DEGS 進(jìn)行功能和途徑富集分析,顯著閾值設(shè)定為P<0.05?;虮倔w論(gene ontology,GO)功能富集主要從細(xì)胞成分、生物過程和分子功能三方面描述基因和其產(chǎn)物的功能。京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)途徑富集分析從基因的生化途徑和調(diào)控途徑等方面進(jìn)行說明。
使用數(shù)據(jù)庫STRING 映射DEG 以綜合得分≥0.4為截止值。Cytoscape 軟件[9]構(gòu)建PPI 網(wǎng)絡(luò),可視化分析卵巢癌中DEG 編碼蛋白間的相互作用并使用Cytohubba 鑒定出20 個hub 基因。同時用分子復(fù)合物檢測(molecular complex detection,MCODE)PPI 網(wǎng)絡(luò)的密集區(qū)域,選擇MCODE分?jǐn)?shù)>3 和節(jié)點(diǎn)數(shù)>4 的模塊并對基因分別進(jìn)行KEGG 富集分析。
Kaplan-Meier Plotter 中有大量卵巢癌患者的臨床數(shù)據(jù),可用于分析20 個hub 基因?qū)Υ婊畹挠绊?,選擇logrank P <0.05 的基因。
使用基因表達(dá)譜交互式分析(gene expression profiling interactive analysis,GEPIA)對影響預(yù)后的hub基因進(jìn)行表達(dá)水平分析,設(shè)定P <0.01 為差異有統(tǒng)計學(xué)意義。
納入4 個數(shù)據(jù)集,共297 例卵巢癌樣本和32 例健康對照樣本(表1)。經(jīng)limma 軟件包篩選出812、2820、1495 和536 個DEG(|logFC|>1.5,P <0.05),通過VennDiagram 包進(jìn)行基因整合。通過VennDiagram包對4 個數(shù)據(jù)集中的105 個DEGs 取交集。與正常卵巢組織比較,卵巢癌組織樣本中共有135 個DEG。見圖1。
表1 數(shù)據(jù)集的相關(guān)信息
在編程語言R 中使用Clusterprofiler 包對DEG進(jìn)行生物學(xué)注釋并得到P 值<0.05 的GO 功能富集。其顯著性結(jié)果表明:細(xì)胞組成中,上調(diào)DEG 主要富集在雙株緊密連接、后期促進(jìn)復(fù)合物、頂端連接復(fù)合物及緊密連接中,下調(diào)DEG 主要富集在細(xì)胞外基質(zhì)、含膠原的細(xì)胞外基質(zhì)及血液微粒中;生物過程中,上調(diào)DEG 明顯富集在有絲分裂紡錘體組裝檢查點(diǎn)、染色體分離調(diào)控、細(xì)胞周期中后期轉(zhuǎn)變的調(diào)控和染色體分離等,下調(diào)DEG 明顯富集在蛋白絲氨酸/蘇氨酸激酶活性的調(diào)控、黏多糖代謝過程和Wnt 信號通路;分子功能中,下調(diào)DEG 主要在肝素結(jié)合及卷曲結(jié)合中富集,而上調(diào)DEG 未見符合標(biāo)準(zhǔn)的明顯富集。
經(jīng)STRING 數(shù)據(jù)庫建立PPI 網(wǎng)絡(luò)并導(dǎo)入Cytoscape軟件。MCODE 檢測到4 個模塊,選擇分?jǐn)?shù)較高模塊進(jìn)行下一步分析(圖2)。使用Cytohubba 篩選hub 基因,前20 分別為KDR、SOX9、EPCAM、WNT5A、FGF13、PDGFRA、CP、ALDH1A1、KLF4、CDC20、UBE2C、FGF9、SOX17、TTK、TRIP13、CKS2、RACGAP1、CD24、CHGB、LAMB1。
經(jīng)KEGG 富集分析后發(fā)現(xiàn):模塊1 中均為上調(diào)DEG,主要在細(xì)胞周期、泛素介導(dǎo)蛋白水解作用途徑富集;模塊2 中除ALDH1A1 為下調(diào)DEG,余為上調(diào)DEG,未見明顯通路富集;模塊3 中除CP 為上調(diào)DEG,余為下調(diào)DEG,富集后CP 在鐵死亡、卟啉和葉綠素代謝途徑中存在,LAMB1 在ECM 受體相互作用、小細(xì)胞肺癌等途徑中存在。
在Kaplan Meier Plotter 中對20 個hub 基因進(jìn)行生存分析,發(fā)現(xiàn)13 個基因關(guān)聯(lián)卵巢癌患者的預(yù)后較差(P <0.05)。使用GEPIA 進(jìn)一步分析發(fā)現(xiàn),卵巢癌樣本中有SOX9、EPCAM、CP、UBE2C、TTK、RACGAP1、CD24 7 個基因反映出高表達(dá)(P <0.01)。見圖3。
為確定卵巢癌預(yù)后不良的重要基因,本研究采用生物信息學(xué)方法對GEO 數(shù)據(jù)庫的數(shù)據(jù)集進(jìn)行整合分析。最終取交集得到UBE2C、TTK、CP 3 個基因在卵巢癌中高表達(dá)且影響預(yù)后,又顯著富集于KEGG 通路,將其認(rèn)為是改善卵巢癌患者預(yù)后的有效靶點(diǎn)。
UBE2C 在細(xì)胞周期進(jìn)程中促進(jìn)目標(biāo)蛋白降解,異常的UBE2C 過表達(dá)與異常的細(xì)胞增殖可能相關(guān)[14]。Wang 等[15]研究顯示UBE2C 在胃癌中高表達(dá),敲低UBE2C 會通過Wnt/β-catenin 和PI3K/Akt 信號通路抑制胃癌腫瘤形成,將其定義為診斷胃癌潛在生物標(biāo)志物。Yuan 等[16]構(gòu)建基因共表達(dá)網(wǎng)絡(luò)鑒定出6 種與透明細(xì)胞腎細(xì)胞癌的進(jìn)展和預(yù)后相關(guān)的hub 基因,其中包括UBE2C。Martínez-Canales 等[17]通過數(shù)據(jù)集轉(zhuǎn)錄組功能注釋和PPI 網(wǎng)絡(luò)分析確定UBE2C 基因的過表達(dá)與較差預(yù)后相關(guān),和本研究一致。
TTK 的轉(zhuǎn)錄水平在細(xì)胞進(jìn)入正常細(xì)胞周期中通過有絲分裂時被上調(diào),后期被泛素E3 連接酶降解失活而下調(diào),也就是TTK 的及時失活才能維持正常細(xì)胞周期進(jìn)程[18]。Tang 等[19]使用加權(quán)共表達(dá)網(wǎng)絡(luò)分析確定TTK 可作為乳腺癌臨床研究的預(yù)后生物標(biāo)志物,Zhang 等[20]從公開轉(zhuǎn)錄組數(shù)據(jù)發(fā)現(xiàn)高水平TTK 與大腸癌患者預(yù)后不良有關(guān),F(xiàn)eng 等[21]使用與本研究不完全相同的GEO 數(shù)據(jù)集發(fā)現(xiàn)卵巢癌中4 個影響預(yù)后的顯著上調(diào)基因,其中包括TTK,間接驗(yàn)證本研究的可靠性。
CP 基因編碼銅藍(lán)蛋白,血清中銅藍(lán)蛋白水平在炎癥和組織損傷中上調(diào)[22]。Arner 等[23]發(fā)現(xiàn)CP 在肥胖受試者的脂肪組織和與肥胖相關(guān)的癌細(xì)胞中過表達(dá)(如子宮內(nèi)膜癌),將其確定為新型脂肪因子。通過定量實(shí)時RT-PCR 和Western blot 檢測肺腺癌臨床樣本,Matsuoka 等[24]發(fā)現(xiàn)CP 表達(dá)與較差預(yù)后顯著相關(guān),將其作為肺腺癌的獨(dú)立預(yù)后因素。在卵巢癌中,患者血漿銅藍(lán)蛋白水平較對照組明顯增加,且其啟動子活性表現(xiàn)更明顯[25]。
總之,本研究通過對4 個不同數(shù)據(jù)集進(jìn)行客觀的生物信息學(xué)分析,明確得到卵巢癌組織和健康對照樣本間的3 個DEG,其高表達(dá)與卵巢癌患者的預(yù)后不良呈正相關(guān)??偨Y(jié)和比較與之相關(guān)的大量文獻(xiàn),本研究認(rèn)為這3 個基因在卵巢癌的進(jìn)程中可能起到關(guān)鍵作用,可作為新的預(yù)后生物標(biāo)志物。這些數(shù)據(jù)都為卵巢癌的治療和改善患者預(yù)后提供有用的方向。但目前尚未進(jìn)行實(shí)驗(yàn)驗(yàn)證,這也是未來進(jìn)行深入研究的重點(diǎn)。