王思月 張洪梅 胡文倩 張雪梅
1華北理工大學(xué)公共衛(wèi)生學(xué)院 河北唐山 063210;2華北理工大學(xué)臨床醫(yī)學(xué)院
胃癌為我國高發(fā)消化道癌癥,且根據(jù)全球癌癥統(tǒng)計數(shù)據(jù),胃癌在全球范圍內(nèi)也是發(fā)病率和死亡率位居前五位的癌癥[1- 2]。胃腺癌(Gastric adenocarcinoma, GAC)是胃癌中最常見的一種病理類型,占胃癌總病例數(shù)的90%以上[3- 5]。少數(shù)GAC患者可以通過手術(shù)治愈,但大多數(shù)晚期患者無法手術(shù),晚期復(fù)發(fā)難治性GAC可通過術(shù)前術(shù)后輔助化療、靶向治療和免疫治療有效干預(yù),但治愈率僅在40%左右[6- 7]。因此需進一步對GAC中的關(guān)鍵基因進行篩選鑒別,了解其發(fā)病機制,以探索對GAC患者的早期診斷有價值的腫瘤標(biāo)志物。
本研究基于基因表達(dá)數(shù)據(jù)庫(GEO)中與GAC有關(guān)的數(shù)據(jù)集,篩選差異表達(dá)基因(DEGs)和可能影響GAC患者預(yù)后的關(guān)鍵基因,并分析預(yù)后關(guān)鍵基因?qū)AC進展的影響,以期為GAC的分子機制研究及預(yù)后判斷提供依據(jù)。
1.1數(shù)據(jù)處理和DEGs的篩選 在本研究中,GAC數(shù)據(jù)來源于GEO數(shù)據(jù)庫基因芯片數(shù)據(jù)GSE118916,該數(shù)據(jù)集包括15個GAC組織和15個癌旁組織標(biāo)本。使用R語言Limma程序包篩選病例樣本、對照樣本之間的DEGs。DEGs篩選依據(jù)為FDR<0.05,|log2FC| >1.5,使用R語言ggplot2程序包繪制火山圖及熱圖。
1.2KEGG和GO富集分析 對GAC的DEGs進行生物學(xué)功能富集,使用R語言ClusterProfiler程序包聚類分析,京都基因組百科全書富集分析(Kyoto Encyclopedia of Genes and Genomes, KEGG)揭示DEGs的生物學(xué)意義及與GAC相關(guān)的關(guān)鍵通路(P<0.05)。通過DAVID進行基因本體(GO)功能富集分析,并以矯正后P值排序,取前5個進行繪圖。
1.3PPI網(wǎng)絡(luò)構(gòu)建及關(guān)鍵基因的識別 通過STRING和Cytoscape (版本3.8.2)構(gòu)建DEGs的蛋白相互作用網(wǎng)絡(luò)(Protein-protein interaction network, PPI)(score>0.9)。應(yīng)用Cytoscape插件MCODE(Molecular Complex Detection)篩選PPI網(wǎng)絡(luò)中有緊密作用的模塊(Node score cutoff=0.2, degree cutoff=2, k-score=2, max depth=100)。利用Cytoscape插件cytoHubba插件分析了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),并得到了degree,按照degree排列前十的基因確定為關(guān)鍵基因。
1.4關(guān)鍵基因的表達(dá)與GAC患者生存的關(guān)系分析 UALCAN(http://ualcan.path.uab.edu)是基于癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中的31種癌癥類型的3級RNA序列和臨床數(shù)據(jù)的在線數(shù)據(jù)庫。用于分析查詢基因在腫瘤和正常樣本中的相對表達(dá)差異以及預(yù)后的關(guān)系[8]。本研究運用UALCAN數(shù)據(jù)庫預(yù)測關(guān)鍵基因的表達(dá)與GAC患者生存時間的關(guān)系。
1.5預(yù)后關(guān)鍵基因的表達(dá)與TNM分期關(guān)系分析 在線數(shù)據(jù)庫GEPIA(http://gepia.cancer-pku.cn/)包含來自TCGA和GTEx項目的33種癌癥類型的9736例腫瘤樣本和8587例癌旁樣本的RNA測序數(shù)據(jù)。GEPIA為研究者提供基因信息查詢、基因差異表達(dá)分析、基因的相關(guān)性分析等研究數(shù)據(jù)[9]。通過該數(shù)據(jù)庫分析預(yù)后關(guān)鍵基因mRNA水平與GAC腫瘤分期TNM之間的關(guān)系。
1.6預(yù)后關(guān)鍵基因的調(diào)控通路分析 根據(jù)候選基因的表達(dá)中位數(shù),將GAC組織分為高表達(dá)組和低表達(dá)組。使用R語言ssGSEA程序進行基因集變異分析(P<0.05),分析與候選基因表達(dá)相關(guān)的通路。
2.1DEGs的篩選 分析數(shù)據(jù)集GSE118916中的15對腫瘤樣本和正常組織樣本,采用R程序包Limma根據(jù)篩選閾值FDR<0.05,|log2FC|>1.5進行DEGs識別。微陣列顯示兩組樣本數(shù)據(jù)中704個基因差異表達(dá),其中上調(diào)基因422個,下調(diào)基因282個,見圖1A。層次聚類分析顯示了樣本間DEGs的表達(dá)模式,可見GAC腫瘤組織中的基因表達(dá)與腫瘤相鄰組織中的基因表達(dá)有明顯的異質(zhì)性,見圖1B。
圖1 兩組樣本之間的差異分析
2.2DEGs的 KEGG通路富集分析 將篩選出的704個差異基因進行KEGG通路富集分析,共富集到26條通路。DEGs主要主要涉及補體通路Complement and coagulation cascades),ECM-受體相互作用(ECM-receptor interaction)、蛋白質(zhì)的消化吸收(Protein digestion and absorption)、黏著斑(Focal adhesion)以及參與瘧疾(Malaria)的形成。其中17個基因富集在補體通路(C3、C7、C3AR1、FGG、A2M、C5AR1、FGA、SERPINA5、SERPINE1、ERPING1、C1R、C1QU、PLAL、F2R、F2RL2、ITGB2、SEPRPINB2)。纖維連接蛋白1(FN1)、COMP、整合素α1(ITGA1)、整合素α7(ITGA1)、分泌型磷酸蛋白1(SPP1)、血小板反應(yīng)素家族(THBS1、THBS2、THBS3、THBS4)、細(xì)胞黏合素C(TNC)與膠原蛋白家族成員(COL1A1、COL1A2、COL2A1、COL4A1、COL4A2、COL6A1、COL6A3、COL6A5)參與ECM-受體相互作用和黏著斑信號傳遞途徑,其中ECM是腫瘤微環(huán)境的重要的組成部分。見圖2。
圖2 KEGG通路富集分析
2.3DEGs的GO富集分析 將704個差異表達(dá)的基因通過DAVID進行GO功能富集分析,結(jié)果顯示DEGs主要富集的生物學(xué)過程(BP):細(xì)胞外基質(zhì)組織(extracellular matrix organization)、細(xì)胞粘附(cell adhesion)、炎癥反應(yīng)(inflammatory response)、膠原蛋白分解代謝(collagen catabolic process)、白細(xì)胞分泌(leukocyte migration)。細(xì)胞定位(CC)顯示主要位于細(xì)胞外來體(extracellular exosome)、細(xì)胞外基質(zhì)(extracellular matrix)、胞外區(qū)(extracellular region)、蛋白質(zhì)的細(xì)胞外基質(zhì)(proteinaceous extracellular matrix)、細(xì)胞表面(cell surface)等區(qū)域。主要參與肝素結(jié)合(heparin binding)、蛋白質(zhì)結(jié)合(protein binding)、整合素結(jié)合(integrin binding)、鈣離子結(jié)合(calcium ion binding)、細(xì)胞外結(jié)構(gòu)基質(zhì)(extracellular matrix structural constituent)等分子功能(MF)。見表1。
表1 差異基因GO功能富集分析結(jié)果
2.4PPI網(wǎng)絡(luò)構(gòu)建和關(guān)鍵基因確定 利用網(wǎng)站STRING分析DEGs之間的相互作用關(guān)系,構(gòu)建PPI網(wǎng)絡(luò),以相互作用與綜合評分大于0.9為意義顯著的條件。利用Cytoscape軟件,根據(jù)cytoHubba插件估計差異基因的核心程度,去掉單獨存在的基因,形成239個節(jié)點956條邊的PPI網(wǎng)絡(luò),見圖3A;顏色越深代表差異基因degree分?jǐn)?shù)越高。根據(jù)Cytoscape中的MCODE插件尋找緊密連接的區(qū)域,篩選出PPI中最重要的模塊,共由60個基因組成(Score=17.356),見圖3B。根據(jù)cytoHubba算法篩出排名前10的基因作為關(guān)鍵基因(hub genes),分別是C3、FGG、FGA、TIMP1、PENK、FN1、GNB4、COL1A2、COL1A1、SAA1,見圖3C。
圖3 DEGs和關(guān)鍵基因PPI
2.5關(guān)鍵基因?qū)AC患者生存影響 使用UALCAN數(shù)據(jù)庫分析10個核心基因?qū)AC患者預(yù)后的影響,結(jié)果顯示C3(P=0.031)、PENK(P=0.013)、FN1(P=0.0076)、GNB4(P=0.00079)、COL1A2(P=0.029)的表達(dá)與GAC患者總體生存率相關(guān),且C3、PENK、FN1、GNB4、COL1A2高表達(dá)的GAC患者總體生存率較低。而FGG、FGA、TIMP1、COL1A1、SAA1(P>0.05)的表達(dá)不影響患者的總體生存率,見圖4。
圖4 GAC關(guān)鍵基因生存分析
J,SAA1。P<0.05為差異有統(tǒng)計學(xué)意義。
2.6預(yù)后關(guān)鍵基因與GAC進展分析 進一步分析了C3、PENK、FN1、GNB4、COL1A2 基因mRNA表達(dá)和GAC患者個體分期的關(guān)系。C3(P=0.0013)、GNB4(P=0.00109)、COL1A2(P=0.0292)與GAC的TNM分期有關(guān),PENK(P=0.354)、FN1(P=0.105)與GAC的TNM分期無關(guān)。見圖5。
圖5 預(yù)后關(guān)鍵基因mRNA表達(dá)與TNM分期的關(guān)系
2.7預(yù)后關(guān)鍵基因的調(diào)控通路分析 GSEA結(jié)果顯示,GNB4高表達(dá)組相關(guān)調(diào)控通路富集在ECM-受體相互作用、黏著斑、肥厚性心肌病、肌動蛋白細(xì)胞骨架調(diào)節(jié)、轉(zhuǎn)化生長因子-β信號,見圖6A。COL1A2高表達(dá)組主要富集在ECM-受體相互作用、黏著斑、癌癥通路、轉(zhuǎn)化生長因子-β信號、干細(xì)胞Wnt信號途徑等通路,見圖6B。C3高表達(dá)組相關(guān)調(diào)控通路富集在黏著斑、干細(xì)胞Wnt信號途徑、Fcγ-R介導(dǎo)的吞噬作用、癌癥通路、細(xì)胞溶酶體等途徑,見圖6C。
圖6 GSEA單基因富集分析
GAC是起源于胃黏膜的惡性腫瘤[10],有各種表型和基因型組的一種異質(zhì)性疾病(Cell Cycle-Targeted Cancer Therapies)。隨著遺傳學(xué)和分子生物學(xué)的快速發(fā)展,關(guān)于GCA的發(fā)生機制逐漸被揭示,大量的生物學(xué)標(biāo)記物被用于GAC的早期篩查和診斷[11-12],但仍不完備。為進一步探索有意義的GAC預(yù)后生物標(biāo)志物,本研究采用生物信息學(xué)方法分析出GEO數(shù)據(jù)庫中GSE118916數(shù)據(jù)集的DEGs,得到704個差異基因,其中上調(diào)基因422個,下調(diào)基因282個。使用Ualcan數(shù)據(jù)庫分析Cytoscape軟件評估出的10個核心基因為GAC患者預(yù)后的影響因素,結(jié)果顯示C3、PENK、FN1、GNB4、COL1A2基因的表達(dá)與GAC總體生存率相關(guān)。其中C3、GNB4、COL1A2與GAC的腫瘤分期也有關(guān)。
C3是補體激活級聯(lián)中心分子,C3激活后通常作為有效的促炎過敏反應(yīng)蛋白,刺激免疫細(xì)胞的招募和激活,導(dǎo)致區(qū)域炎癥和細(xì)胞裂解的形成[13];然而,C3可能在腫瘤微環(huán)境中也發(fā)揮作用。多項研究表明,它通過調(diào)節(jié)有絲分裂信號通路,促進細(xì)胞增殖和再生,維持血管生成和腫瘤發(fā)生[14-15]。本研究證實了C3基因的mRNA表達(dá)水平越高,腫瘤患者的分期越高,預(yù)后越差。Yuan等的研究與本研究結(jié)果相似,胃癌組織微環(huán)境中C3沉積、激活與局部炎癥、腫瘤細(xì)胞侵襲相關(guān)。局部C3沉積激活了JAK2/STAT3信號通路,與腫瘤的不良預(yù)后相關(guān)[16]。提示C3基因作為預(yù)測GAC復(fù)發(fā)和生存的生物標(biāo)物已得到初步證實,但仍需要進一步的驗證。
GNB4是異質(zhì)三聚體G蛋白的重要組成部分,在G蛋白偶聯(lián)受體介導(dǎo)的信號轉(zhuǎn)導(dǎo)中發(fā)揮重要作用。Wang B等[17]發(fā)現(xiàn),GNB4有助于克服乳腺癌的抗雌激素抵抗,并通過DNA甲基轉(zhuǎn)移酶3B (DNMT3B)進行DNA甲基化沉默。研究也報道GNB4表達(dá)上調(diào)與尿路上皮癌患者的預(yù)后不良相關(guān)[18]。但到目前為止,關(guān)于GNB4在GAC中的作用報道甚少。
I型膠原α2 (COL1A2)是編碼I型膠原的前-α2鏈。膠原纖維是細(xì)胞外基質(zhì)的主要成分,對細(xì)胞的重塑、腫瘤相關(guān)成纖維細(xì)胞發(fā)揮著重要作用[19]。與本研究結(jié)果一致,Zang[20]等研究發(fā)現(xiàn)COL1A2在胃癌組織和癌旁組織表達(dá)具有差異性。COL1A2與COL6A3、THBS2的沉默通過PI3k-Akt信號通路抑制胃癌細(xì)胞增殖、遷移和侵襲,同時促進細(xì)胞凋亡[21]。
綜上所述,本研究中應(yīng)用生物信息學(xué)方法挖掘出與預(yù)后相關(guān)的5個關(guān)鍵基因及其相關(guān)調(diào)控通路,發(fā)現(xiàn)GAC組織中C3、PENK、FN1、GNB4、COL1A2基因表達(dá)水平均顯著高于癌旁組織,其中C3、GNB4、COL1A2與GAC與患者總體生存率和腫瘤分期均有關(guān)。