郭勇亮(天津市北辰醫(yī)院,天津 300400)
2020年全球范圍內(nèi)的腫瘤流行病學(xué)研究顯示,2018年全世界新增結(jié)直腸癌(CRC)病例超過180萬例,死亡病例為88.1萬[1]。目前,大多數(shù)研究證實,CRC是由結(jié)直腸腺瘤逐步發(fā)展演化而來,但其進展為癌的分子機制并未完全清晰。隨著分子生物學(xué)和高通量技術(shù)的進步,更多的證據(jù)指向多基因集的時空表達失調(diào)在CRC發(fā)生中發(fā)揮重要機制[2]。本研究采用生物信息分析技術(shù),探討結(jié)直腸癌差異表達基因篩選及其與患者預(yù)后關(guān)系。
1.1 試驗設(shè)計 本研究的設(shè)計思路為首先在結(jié)直腸癌與正常腸上皮差異表達的多個數(shù)據(jù)集中篩選出差異表達基因譜系,并對共差異表達基因進行鑒定;然后對共差異表達基因進行拓?fù)渚W(wǎng)絡(luò)分析、GO+KEGG分析富集和hub基因篩選;對篩選出的hub基因分析其與CRC生存的關(guān)系,具體設(shè)計和實施見圖1。
圖1 研究分析的流程圖
1.2 數(shù)據(jù)及材料 基因綜合表達數(shù)據(jù)庫(Gene Expression Omnibus,GEO)、京都基因與基因組百科全書(KEGG)、蛋白互相作用拓?fù)渚W(wǎng)絡(luò)數(shù)據(jù)庫(STRING)、腫瘤生存分析數(shù)據(jù)庫(Kaplan-Meier),作為本次研究的主要數(shù)據(jù)來源。
1.3 方法 GEO數(shù)據(jù)庫中檢索CRC基因表達數(shù)據(jù)集,檢索詞為“colorectal cancer/colon cancer/rectal cancer”,種屬為“homo”。進一步對檢索到的結(jié)果進行篩選,選取了GSE32323[3]、GSE21510[4]和GSE9348[5]數(shù)據(jù)為研究對象三個數(shù)據(jù)集進行分析。根據(jù)數(shù)據(jù)集中CRC患者結(jié)直腸癌組織與正常腸上皮組織中基因表達譜情況進行篩選,篩選條件為CRC組和正常組中上調(diào)或下調(diào)超過2個拷貝的基因,且P<0.05;分別對上述數(shù)據(jù)集中篩查出的差異表達基因進行分析,鑒定出共差異基因,并繪制Venn圖。在STRING數(shù)據(jù)庫中對篩選出的共差異表達基因進行蛋白相互作用拓?fù)渚W(wǎng)絡(luò)構(gòu)建,構(gòu)建條件為:數(shù)據(jù)來源Textmining,co-expression,gene function 和co-occurrence;相互作用關(guān)系系數(shù)≥0.4;相互作用蛋白不高于20個。在KEGG數(shù)據(jù)庫中對篩選出的差異表達基因相關(guān)信號通路進行富集分析。采用Cytoscapev3.7.2軟件對拓?fù)渚W(wǎng)絡(luò)中的hub基因篩選關(guān)鍵hub基因,篩選依據(jù)為node-score。
1.4 統(tǒng)計學(xué)處理 本研究涉及的數(shù)據(jù)采用R軟件及對應(yīng)的統(tǒng)計包進行分析,計量資料應(yīng)用±s表示,應(yīng)用t檢驗;計數(shù)采用率表示,應(yīng)用卡方檢驗,P<0.05表示有統(tǒng)計意義。
2.1 CRC差異表達基因篩選 選取了GSE32323、GSE21510和GSE9348數(shù)據(jù)為研究對象,3個數(shù)據(jù)集基本特征見表1。3個數(shù)據(jù)集中共差異表達的基因為23個(見圖2)。
表1 納入分析的4個數(shù)據(jù)基本特征
圖2 CRC差異表達基因篩選火山圖和Venn圖(A:GSE32323數(shù)據(jù)集;B:GSE9348數(shù)據(jù)集;C:GSE21510數(shù)據(jù)集;D:3個數(shù)據(jù)集Venn圖)
2.2 差異表達基因GO及KEGG分析 23個差異表達基因GO分析主要富集于DNA聚合酶活性的正向調(diào)節(jié)、核苷酸切除修復(fù);DNA缺口填充、染色體復(fù)制叉;DNA酶活性和ATP結(jié)合等(見表2);KEGG信號通路主要富集于消化系統(tǒng)腫瘤、JAK-STAT信號通路和趨化因子信號通路等(見表3)。
表2 差異表達基因GO富集
表3 KEGG信號通路富集
2.3 差異表達基因聚類熱圖分析 根據(jù)CRC與正常肝組織23個差異基因表達水平繪制聚類熱圖,CRC腫瘤組織與正常組織間聚類明顯,見圖3。
圖3 CRC差異表達的23個基因聚類熱圖
2.4 PPI拓?fù)渚W(wǎng)絡(luò)及hub基因 23個CRC與正常腸上皮組織差異表達基因繪制PPI拓?fù)渚W(wǎng)絡(luò),網(wǎng)絡(luò)中有43個蛋白節(jié)點,75個作用關(guān)系,平均作用度為3.49,區(qū)域聚類指數(shù)為0.417。Cytoscapev3.7.2軟件對拓?fù)渚W(wǎng)絡(luò)中的hub基因進行篩選,RFC5為23個差異基因中的關(guān)鍵hub基因,見圖4。
圖4 37個差異表達基因PPI拓?fù)渚W(wǎng)絡(luò)及hub基因
2.5 hub基因與CRC預(yù)后分析 RFC5(HR=0.60,P=0.019)和RFC1(HR=0.58,P=0.017)高表達組OS顯著高于低表達組,其有統(tǒng)計學(xué)差異(P<0.05);而RFC5和RFC1高表達組PFS與低表達組比較,無統(tǒng)計學(xué)差異(P>0.05),見圖5。
圖5 三個hub基因差別與CRC預(yù)后關(guān)系的生存曲線
2015年中國新增結(jié)直腸癌患者約37.6萬例,結(jié)直腸癌死亡患者約19.1萬例,占惡性腫瘤發(fā)病率和死亡率的五分之一[6]。近年來雖然CRC的診斷方面取得了重大進展,但在CRC確診時大多數(shù)患者已發(fā)展為中晚期,預(yù)后較差。目前,大多數(shù)研究證實,結(jié)直腸癌是由結(jié)直腸腺瘤逐步發(fā)展演化而來,但其進展為癌的分子機制并未完全清晰。隨著分子生物學(xué)和高通量技術(shù)的進步,更多的證據(jù)指向多基因集的時空表達失調(diào)在CRC發(fā)生中發(fā)揮重要機制。高通量測序(如微陣列和RNA測序)的轉(zhuǎn)錄組分析被認(rèn)為是癌癥研究中很有前途的工具,可以識別候選預(yù)后和診斷生物標(biāo)志物的通路和基因[7]。此外,這些生物標(biāo)志物可能為改善CRC的預(yù)防和治療帶來突破性進展。近年來,對基因表達數(shù)據(jù)的生物信息學(xué)分析探索了CRC潛在的基因生物標(biāo)志物,但有時生物信息學(xué)結(jié)果并不完全一致[8-9]。在此背景下,將多個分子生物檢測結(jié)果進行匯總分析有望提高結(jié)論的可靠性。此外,在CRC中已經(jīng)從微陣列數(shù)據(jù)集中識別出大量的DEG。然而,尚未完全了解DEGs在CRC進展相關(guān)的分子機制和信號網(wǎng)絡(luò)中的作用。
在本研究中,對3個CRC數(shù)據(jù)集進行了綜合分析,篩選出了共差異表達基因,并對共差異基因進行了功能富集、信號通路及與患者預(yù)后相關(guān)性研究。結(jié)果顯示,GSE32323、GSE21510和GSE9348數(shù)據(jù)中共差異表達的基因為23個,RFC5為23個差異基因中的關(guān)鍵hub基因;RFC5(HR=0.60,P=0.019)和RFC1(HR=0.58,P=0.017)高表達組OS顯著高于低表達組,其有統(tǒng)計學(xué)差異(P<0.05);而RFC5和RFC1高表達組PFS與低表達組比較,無統(tǒng)計學(xué)差異(P>0.05)。研究認(rèn)為,RFC5和RFC1可能與CRC的發(fā)生有關(guān),并可作為CRC預(yù)后良好的分子標(biāo)志物。
RFC1和RFC5為RFC家族成員,RFC是一個五亞基的蛋白復(fù)合物,是DNA復(fù)制所必需的。這個異五聚體的亞基被命名為RFC1、RFC2、RFC3、RFC4和RFC5[10]。RFC與DNA的3'端結(jié)合同時利用ATP打開PCNA的環(huán)并包圍DNA,為后續(xù)DNA復(fù)制提供條件。據(jù)報道,RFC在多種惡性腫瘤中具有生物學(xué)活性,可能在腫瘤的增殖、進展、侵襲和轉(zhuǎn)移中發(fā)揮重要作用[10]。根據(jù)腫瘤的細(xì)胞和組織學(xué)特征,它可以作為癌基因或抑癌基因[11-14]。筆者發(fā)現(xiàn),RFC1和RFC5高表達的CRC患者,OS存在明顯優(yōu)勢,但DFS無差異。結(jié)果提示,RFC1和RFC5有可能成為CRC潛在的預(yù)后生物學(xué)標(biāo)志物,同時也為CRC的靶向治療提供的新的潛在靶點。