房佳慧 王金勝
食管癌(Esophageal cancer,ESCA)在全球腫瘤中的發(fā)病率及死亡率分別為第6位和第8位[1-2]。其中,近90%的食管癌病例為食管鱗狀細胞癌(Esophageal squamous cell carcinoma,ESCC)。由于食管鱗癌的早期癥狀不明顯,導致大多數(shù)病人發(fā)現(xiàn)時已是中晚期,預后不良。缺乏早期診斷指標仍然是食管鱗癌治療和預后面臨的巨大挑戰(zhàn)。近年來,為了挖掘出與人類腫瘤演進有關的差異表達基因(Differentially expressed genes,DEGs),識別生物標志物和潛在的治療靶點,越來越多的微陣列和高通量測序技術結合生物信息學分析被廣泛應用[3]。但只有很少的生物標志物和藥物靶點被轉化為臨床實踐,主要原因是由于獨立的微陣列分析、不同的技術平臺會造成假陽性。
在本研究中,我們從基因表達匯編(Gene expression omnibus,GEO)數(shù)據(jù)庫中下載3個包含ESCC與非癌組織的原始數(shù)據(jù)集進行分析,使用維恩圖工具重疊3個數(shù)據(jù)集,獲得223個共有的DEGs進行進一步的生物信息學分析,包括基因本體(Gene ontology,GO),京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)分析和蛋白-蛋白相互作用(Protein-protein interaction,PPI)網(wǎng)絡構建,并驗證樞紐(hub)基因的相對表達水平及其與食管鱗癌患者存活的關系,以幫助我們了解食管鱗癌發(fā)生和轉移相關樞紐基因和關鍵通路。
從GEO(http://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫[4]下載GSE161533、GSE100942、GSE45670的ESCC及鄰近正常組織基因表達譜,關鍵詞“食管”和“人”用作查詢。其中GSE161533包括28個ESCC組織和28個非腫瘤組織;GSE100942包括4個ESCC組織和4個非腫瘤組織;GSE45670包括28個ESCC組織和10個非腫瘤組織。
使用GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)對ESCC和非腫瘤組織之間的差異基因進行篩選。以logFC(fold change)>1和P<0.05為有統(tǒng)計學意義。對每個數(shù)據(jù)集進行統(tǒng)計分析,并使用維恩圖web工具(https://bioinformatics.psb.ugent.be/webtools/venn/)識別相交部分。
將從3個數(shù)據(jù)集中篩選出的共有的差異基因用DAVID數(shù)據(jù)庫[5](http://david.ncifcrf.gov)先進行GO功能富集分析,包括生物過程(Biological processes,BP)、分子功能(Molecular function,MF)、細胞成分(Cell component,CC);再進行KEGG通路富集分析,尋找其關鍵的信號通路。以P<0.05為差異有統(tǒng)計學意義。
利用相互作用基因檢索工具STRING(http://string-db.org)在線數(shù)據(jù)庫[6]構建DEGs的PPI網(wǎng)絡,一個組合交互>0.4的評分被認為有統(tǒng)計學意義。利用Cytoscape平臺[7]繪制PPI網(wǎng)絡,并使用其cytohubba插件篩選食管鱗狀細胞癌hub基因[8]。Genclip(http://ci.smu.edu.cn/genclip3/analysis.php)繪制hub基因的火山圖。
應用GEPIA(cancer-pku.cn)[9]及UCSC癌癥基因組瀏覽器(http://genome-cancer.ucsc.edu)[10]驗證hub基因在腫瘤樣本與正常組織之間的表達差異。并采用Kaplan Meier-plotter(KM plotter,http://kmplot.com/analysis/)[11]在線工具進行hub基因的生存分析,以識別食管鱗癌生存相關的生物標志物。
經(jīng)芯片結果標準化后,GSE161533中有850個DEGs,GSE100942中有409個DEGs,GSE45670中有6 413個DEGs。3個數(shù)據(jù)集的重疊部分包含227個基因,223個基因有相同的表達趨勢,其中食管鱗癌組織與非癌組織間上調基因91個,下調基因132個。見圖1。
圖1 GSE161533、GSE100942、GSE45670中DEGs的韋恩圖Fig.1 Venn diagram of DEGs common to all 3 GEO datasets
生物過程富集分析顯示,DEGs主要與RNA聚合酶II啟動子轉錄的正調控、細胞黏附、轉錄的正調控、DNA 模板化、細胞增殖的正/負調控等過程有關(見圖2A)。DEGs的細胞組成主要包括細胞質、胞外外泌體、胞外區(qū)、細胞外間隙、蛋白質細胞外基質等(見圖2B)。DEGs分子功能(MF)的變化主要集中在蛋白質結合、鋅離子結合、相同的蛋白質結合、肌動蛋白結合等(見圖2C)。在KEGG功能通路中,DEGs主要參與趨化因子信號通路、甲狀腺激素信號通路、心肌細胞中的腎上腺素信號等(見圖2D)。
A.GO生物學過程分析;B.GO細胞學組成分析;C.GO分子功能分析;D.KEGG通路分析圖2 DEGs的GO和KEGG分析Fig.2 GO and KEGG analysis of DEGs
本研究利用STRING數(shù)據(jù)庫結合Cytoscape軟件構建PPI網(wǎng)絡。紅色標記為上調基因,藍色標記為下調基因,見圖3。
利用Cytoscape其中的模塊cytoHubba篩選hub基因并進行可視化,按照最大團中心性(Maximal clique centrality,MCC)方法排名前10位的hub基因分別為激光激酶A(Aurora kinase A,AURKA)基因、泛素結合酶E2C(Ubiquitin-conjugating enzyme E2C,UBE2C)基因、Xklp2靶向蛋白(Targeting protein for Xklp2,TPX2)基因、甲狀腺激素受體互作體13(Thyroid hormone receptor interactor 13,TRIP13)基因、拓撲異構酶 2A(Topoisomerase 2A,TOP2A)基因、異常紡錘體樣小頭相關蛋白(Abnormal spindle-like microcephaly-associated,ASPM)基因、中心體蛋白(Centrosomal protein 55,CEP55)基因、無齒E3泛素蛋白連接酶同源物(Denticleless E3 ubiquitin protein ligase homolog,DTL)基因、細胞分裂周期6(Cell division cycle 6,CDC6)基因、細胞周期蛋白依賴性激酶抑制劑3(Cyclin dependent kinase inhibitor 3,CDKN3)基因。隨后構建了10個樞紐hub基因的PPI網(wǎng)絡(見圖4A)。genclip繪制相關hub基因的火山圖(見圖4B),發(fā)現(xiàn)10個hub基因在ESCC中均屬于上調基因。
紅色:上調基因; 藍色:下調基因圖3 DEGs的PPI網(wǎng)絡構建Fig.3 PPI network construction of DEGs
A.利用 Cytoscape中cytoHubba插件篩選10個hub基因網(wǎng)絡圖;B.hub基因火山圖。紅點代表上調基因,綠點代表下調基因圖4 鑒定hub基因Fig.4 Identification of hub gene
使用在線數(shù)據(jù)庫GEPIA與UCSC數(shù)據(jù)庫,對Hub基因進行驗證,發(fā)現(xiàn)其表達水平均明顯高于正常組織,差異有統(tǒng)計學意義(P<0.05),見圖5、圖6。
采用Kaplan-Meier在線數(shù)據(jù)庫分析ESCC中10個樞紐基因的預后情況。其中7個基因,包括ASPM、DTL、CDKN3、AURKA、TPX2、TOP2A和CDC6基因高表達組與食管鱗癌病人總體生存率相關,風險率(Hazard Rate,HR)分別為0.35,0.30,2.45,0.32,0.33,0.31和0.29,差異有統(tǒng)計學意義(P<0.05)。通過GEPIA分析發(fā)現(xiàn)篩選出的hub基因均與食管癌臨床分期無顯著關系。
*P<0.05; ■ Tumor; ■ Normal圖5 食管癌腫瘤組織與正常組織之間hub基因表達差異Fig.5 The expression difference of hub gene between esophageal cancer tumor tissue and normal tissue
藍色:食管癌樣本;紅色:非癌樣本;紫色:發(fā)生轉移樣本圖6 基因表達差異情況Fig.6 Hub gene expression differences
雖然近年來已有大量研究探討食管鱗癌的發(fā)病機制,但在世界范圍內(nèi)食管鱗癌的發(fā)病率和死亡率仍呈上升趨勢。與以往僅關注幾個基因或單個隊列的研究相比,本研究選擇了來自不同研究團隊的3個高質量基因譜數(shù)據(jù)集,對ESCC中的驅動基因和生物學途徑進行了綜合研究。最后鑒定出223個DEGs(91個上調,132個下調);通過GO、KEGG富集分析、PPI網(wǎng)絡構建等方法探索DEGs之間的相互作用;構建了包括165個節(jié)點和534條邊的PPI網(wǎng)絡,鑒定出10個與ESCC具有高度連通性的hub基因,包括ASPM、DTL、CDKN3、AURKA、UBE2C、TPX2、TRIP13、TOP2A、CEP55和CDC6。這些基因的生物學功能主要富集在RNA聚合酶Ⅱ啟動子轉錄的正調控、細胞黏附、轉錄的正調控、DNA 模板化、細胞增殖的正/負調控等過程。富集途徑主要為趨化因子信號通路、甲狀腺激素信號通路、心肌細胞中的腎上腺素信號等。這些基因可能在腫瘤微環(huán)境內(nèi)與各種趨化因子參與復雜的信號傳導過程,促進惡性細胞通過基質遷移,促進腫瘤進展。
此外,與正常組織相比,食管癌組織中的所有hub基因表達水平均上調。通過文獻查詢,9/10的hub基因都有食管癌相關的實驗及臨床研究,證實參與了食管癌的發(fā)生發(fā)展。其中TOP2A是本研究中連接節(jié)點最高的基因,它是一種參與DNA復制的基因編碼酶,與蒽環(huán)類化合物對多種癌癥的反應相關[12]。它的過度表達在包括ESCA在內(nèi)的多種癌癥中很常見。此外,TOP2A抑制劑已被用于多種實體腫瘤,如小細胞肺癌、食管癌等[13-14]。關于ASPM在食管癌中的基礎研究未見報道。ASPM是一種中心體蛋白,Wnt信號通路的正調節(jié)因子,在有絲分裂紡錘體調節(jié)、神經(jīng)發(fā)生和大小腦調節(jié)中起著至關重要的作用[15]。有研究表明,ASPM在多種癌癥中高表達,與臨床預后差和復發(fā)密切相關。PAI等[16]報道前列腺癌組織中ASPM的表達增加,并通過增強Wnt-β-catenin信號促進癌細胞的增殖、遷移和侵襲。最近研究顯示,在子宮內(nèi)膜癌患者中ASPM的表達水平上調[17]。為進一步探討研究ASPM與食管鱗癌的關系,評價其是否可作為判斷食管鱗癌患者臨床治療的靶基因及預后的獨立指標提供依據(jù)。
與單數(shù)據(jù)集研究相比,本研究采用綜合生物信息學分析可能提供更準確的結果,為ESCC的研究提供了新的發(fā)現(xiàn)。本研究仍存在一定的局限性,首先,基因表達譜數(shù)量只有3個;其次,我們主要探討了hub基因的功能和潛在作用,而沒有深入分析其他基因;另外,我們僅使用Gepia和UCSC數(shù)據(jù)驗證hub基因的表達水平,以上結果還需要進一步的實驗研究證實。
綜上所述,本研究通過數(shù)據(jù)庫篩選鑒定出與食管鱗癌發(fā)展和預后相關的的10個基因,為探討食管鱗癌的發(fā)病機制提供了線索。這些結果為全面了解食管鱗癌特征提供了重要思路,仍需進一步研究來驗證并闡明這些基因在食管鱗癌中的具體分子機制。