竇承賢,郭 菲,梁晉濤,李桂銀,2
(1.桂林電子科技大學(xué)生命與環(huán)境科學(xué)學(xué)院,廣西壯族自治區(qū)桂林 541004;2.廣東石油化工學(xué)院化學(xué)學(xué)院,廣東茂名 525000)
肝癌是發(fā)生于肝臟部位的惡性腫瘤,有著多因素、多步驟的復(fù)雜發(fā)病因素,早期診斷具有很大難度,目前依舊缺乏有效的早期檢測(cè)標(biāo)志物,肝癌晚期患者在治療后仍會(huì)出現(xiàn)生存期較短等問(wèn)題,因此有必要從基因?qū)用鎸ふ矣行У脑缙跇?biāo)志物.近年來(lái),基因組學(xué)研究處于高速發(fā)展時(shí)期,多項(xiàng)研究發(fā)現(xiàn)一些基因的上調(diào)或下調(diào)與肝癌發(fā)生具有顯著性關(guān)系,已確定的肝癌標(biāo)志物有P53[1]、CYP1A1[2](細(xì)胞色素P4501A1)、ALDH2[3](乙醛脫氫酶2)、EPHX1[4](環(huán)氧化物水解酶)等.此外,Luo 等[5]在一項(xiàng)肝癌預(yù)后生物標(biāo)志物的檢測(cè)實(shí)驗(yàn)中,通過(guò)Oncomine、HPA 等數(shù)據(jù)庫(kù)的表達(dá)數(shù)據(jù),發(fā)現(xiàn)SSRP1是一種新的肝癌預(yù)后標(biāo)志物.Shen 等[6]研究MITD1 預(yù)后價(jià)值時(shí)發(fā)現(xiàn),MITD1 在肝癌患者中可作為一個(gè)獨(dú)立的預(yù)后因素并且起著關(guān)鍵作用,還闡明了細(xì)胞分裂和免疫環(huán)境的變化如何促進(jìn)肝癌的發(fā)展.
本研究采用生物信息學(xué)的研究方法,從GEO 數(shù)據(jù)庫(kù)中選擇GSE36376、GSE14520、GSE25097 等3 組數(shù)據(jù),以一定閾值篩選出差異表達(dá)基因(differentially expressed genes,DEGs),將3 組差異表達(dá)基因的交集定義為公共差異表達(dá)基因. 通過(guò)富集分析和蛋白質(zhì)互作網(wǎng)絡(luò)分析得到樞紐基因并進(jìn)行生物信息學(xué)分析,證實(shí)這些樞紐基因可以作為有效的肝癌基因標(biāo)志物預(yù)測(cè)肝癌的早期發(fā)生.
GEO 數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)包含了多物種的數(shù)據(jù)信息,數(shù)據(jù)資源全面[7].從GEO數(shù)據(jù)庫(kù)選擇3個(gè)基因芯片數(shù)據(jù)集,分別為GSE36376、GSE14520 和GSE25097.每個(gè)數(shù)據(jù)集中都有正常和腫瘤對(duì)照的樣本,具體信息見(jiàn)表1.
表1 基因數(shù)據(jù)集的詳細(xì)信息Tab.1 Gene dataset details
使用GEO2R (https://www.ncbi.nlm.nih.gov/geo/geo2r/)工具獲取3個(gè)數(shù)據(jù)集中肝癌與非肝癌組織間差異顯著的基因[8],將結(jié)果進(jìn)行進(jìn)一步處理,去掉某些基因名為空的數(shù)據(jù),以|log2(Fold change)|≥1 且P<0.01 為閾值,利用R 軟件的“ggplot2”和“VennDiagram”包繪制火山圖和韋恩圖.
使用DAVID(https://david.ncifcrf.gov/tools.jsp)工具進(jìn)行基因本體論(Gene Ontology,GO)和京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析[9],并且認(rèn)為P<0.05 時(shí)為顯著富集,具有統(tǒng)計(jì)學(xué)意義.
通過(guò)STRING(https://string-db.org/)建立蛋白互作網(wǎng)絡(luò)(Protein-Protein Interaction,PPI)[10].設(shè)置交互評(píng)分的最低閾值為0.4,評(píng)估不同基因間的相互關(guān)系與相互作用.使用Cytoscape 軟件的CytoHubba 插件,基于最大集團(tuán)中心性(maximal clique centrality,MCC)篩選出樞紐基因.
使用GEPIA2(http://gepia.cancer-pku.cn/index.html)工具分別對(duì)樞紐基因進(jìn)行總生存率的預(yù)后分析和對(duì)照樣本間的表達(dá)分析[11],研究樞紐基因的預(yù)后及其在肝癌患者與正常人之間的差異表達(dá).
使用DAVID 在線工具對(duì)樞紐基因進(jìn)行KEGG 分析,研究樞紐基因可能參與調(diào)控的通路.從蛋白質(zhì)圖譜數(shù)據(jù)庫(kù)(Human Protein Atlas,HPA)[12]中檢索關(guān)鍵調(diào)控基因的免疫組化染色數(shù)據(jù),檢測(cè)肝癌組織和正常組織對(duì)照中蛋白水平的表達(dá).
使用GEPIA2 在線工具對(duì)關(guān)鍵基因的主要肝癌病理分期進(jìn)行分析,基于單向方差分析得到F值和P值,用小提琴圖顯示分析結(jié)果.
本研究利用GEO2R 在線工具分析GSE36376、GSE14520、GSE25097 這3個(gè)基因芯片數(shù)據(jù),從而確定肝癌組織與正常組織間的差異表達(dá)基因.GSE25097包含1 872個(gè)DEGs(上調(diào)675個(gè),下調(diào)1 197個(gè));GSE36376 包含697個(gè)DEGs(上調(diào)430個(gè),下調(diào)267個(gè));GSE14520 包含1 289個(gè)DEGs(上調(diào)617個(gè),下調(diào)672個(gè)),圖1 為差異表達(dá)分析的火山圖.3個(gè)數(shù)據(jù)集取交集后的公共DEGs 共197個(gè),包含69個(gè)上調(diào)和128個(gè)下調(diào),如圖2 所示.
圖1 差異表達(dá)基因的火山圖Fig.1 Volcano map of DEGs
圖2 篩選公共DEGs 的韋恩圖Fig.2 Veen diagram for filter common DEGs
為了進(jìn)一步研究DEGs 在腫瘤發(fā)生中的分子機(jī)制,通過(guò)GO 和KEGG 富集分析篩選了一系列富集途徑,結(jié)果如圖3 所示.GO 結(jié)果(圖3(a)—3(c))顯示有197個(gè)差異基因主要富集于:①生物過(guò)程(biological process,BP),包含異種生物代謝過(guò)程(xenobiotic metabolic process)、脂質(zhì)代謝過(guò)程(cholesterol metabolic process)、藥物代謝過(guò)程(drug metabolic process)等;②分子功能(molecular function,MF),包含同種蛋白結(jié)合(identical protein binding)、鐵離子結(jié)合(iron ion binding)等;③細(xì)胞成分(cell component,CC),包含細(xì)胞外泌體(cytosol)、細(xì)胞外區(qū)域(extracellular exosome)和細(xì)胞外間隙(extracellular region)等. KEGG 分析(圖3(d))表明:代謝途徑(metabolic pathways)、藥物代謝-細(xì)胞色素P450(drug metabolism-cytochrome P450)、視黃醇代謝(retinol metabolism)、酪氨酸代謝(tyrosine metabolism)和DNA 復(fù)制(DNA replication)是主要的富集通路,其中代謝途徑最為顯著.
圖3 197個(gè)差異表達(dá)基因的GO 和KEGG 富集分析Fig.3 GO and KEGG enrichment analysis of 197 DEGs
結(jié)合STRING 工具和Cytoscape 軟件構(gòu)建PPI 網(wǎng)絡(luò),結(jié)果如圖4(a)所示. 由圖4(a)可知,該P(yáng)PI 網(wǎng)絡(luò)共有196個(gè)節(jié)點(diǎn)和764 條邊. 選擇MCC 計(jì)算出的8個(gè)得分最高的基因作為樞紐基因,分別為ASPM(assembly factor for spindle microtubules)、AURKA(aurora kinase A)、CDC20(cell division cycle 20)、FEN1(flap structure -specific endonuclease 1)、NUSAP1(nucleolar and spindle associated protein 1)、RACGAP1(rac gtpase activating protein 1)、RFC4(replication factor c subunit 4)、TOP2A(topoisomerase Ⅱalpha),這8個(gè)基因均為上調(diào)基因(圖4(b)).
圖4 PPI 網(wǎng)絡(luò)和樞紐基因Fig.4 PPI network and hub genes
對(duì)8個(gè)樞紐基因進(jìn)行總生存率的預(yù)后分析和差異表達(dá)分析,結(jié)果分別如圖5 和圖6 所示.由圖5 可以看出,將樣本以中位數(shù)為標(biāo)準(zhǔn)分為高表達(dá)組和低表達(dá)組,8個(gè)基因高表達(dá)時(shí)會(huì)伴隨著總生存率的顯著降低.進(jìn)一步分析8個(gè)樞紐基因在肝癌患者與正常人之間的差異表達(dá)水平,結(jié)果顯示,8個(gè)基因在肝癌樣本中均為高表達(dá)(圖6).
圖5 樞紐基因生存分析與肝癌患者總生存曲線Fig.5 Hub genes survival analysis and overall survival curve of liver cancer patients
圖6 樞紐基因在肝癌組織與正常組織中的表達(dá)Fig.6 Expression of hub gene in liver cancer and normal tissue
對(duì)8個(gè)樞紐基因進(jìn)行KEGG 重分析,研究這8個(gè)樞紐基因的富集通路,結(jié)果如表2 所示.由表2 可以看出,有4個(gè)基因在DNA 復(fù)制和卵母細(xì)胞減數(shù)分裂這2 條途徑中富集,F(xiàn)EN1和RFC4這2個(gè)關(guān)鍵基因在DNA 復(fù)制通路中顯著富集(P=0.017 6).
表2 樞紐基因的KEGG 重分析Tab.2 KEGG reanalysis of hub genes
從人類(lèi)蛋白質(zhì)圖譜數(shù)據(jù)庫(kù)中通過(guò)檢索HPA 數(shù)據(jù)庫(kù)中的IHC 染色數(shù)據(jù),在蛋白水平上研究RFC4和FEN1的表達(dá),結(jié)果如圖7 所示.由圖7 可以看出,在肝癌組織中RFC4和FEN1均有中、高表達(dá)水平.
圖7 HPA 數(shù)據(jù)庫(kù)中肝癌和非癌性肝組織的免疫組化圖像Fig.7 Immunohistochemical images of hepatocellular carcinoma and non cancerous liver tissues in HPA database
使用GEPIA2 的“病理分期圖”模塊分析RFC4和FEN1的表達(dá)與病理分期之間的相關(guān)性,結(jié)果如圖8所示.分析得到F值分別為7.23 和5.99,其對(duì)應(yīng)的P值均小于0.05,表明這2個(gè)基因在肝癌各個(gè)分期的表達(dá)具有顯著差異.
近年來(lái),多項(xiàng)研究通過(guò)生物信息學(xué)方法識(shí)別肝癌的預(yù)后生物標(biāo)志物,然而肝癌的分子機(jī)制尚不完全清楚. 本研究綜合生物信息學(xué)相關(guān)方法,利用GSE36376、GSE14520、GSE25097 數(shù)據(jù)集分析了一些有利于肝癌診斷和預(yù)測(cè)預(yù)后的生物標(biāo)志物.通過(guò)3個(gè)基因數(shù)據(jù)集共篩選出了197個(gè)公共差異表達(dá)基因,GO 和KEGG 分析揭示了這些基因主要的富集途徑,其中代謝途徑是最顯著的富集通路.代謝途徑是完成代謝過(guò)程的一組相互銜接的酶促反應(yīng),腫瘤的起始和進(jìn)展需要癌細(xì)胞的代謝重編程.癌細(xì)胞通過(guò)各種代謝途徑自動(dòng)改變其通量,以滿(mǎn)足增加的生物能量和生物合成需求,并減輕氧化應(yīng)激所需的癌細(xì)胞增殖和生存.癌癥驅(qū)動(dòng)基因突變與環(huán)境營(yíng)養(yǎng)可用性共同控制著這些代謝途徑的通量.當(dāng)代謝產(chǎn)物異常積累時(shí),也可促進(jìn)腫瘤發(fā)生,異常代謝途徑已被認(rèn)為是癌癥的標(biāo)志之一,如Chen 等[13]報(bào)道了代謝途徑增強(qiáng)可使P53 外顯子產(chǎn)生突變進(jìn)而導(dǎo)致肝癌預(yù)后不良.
利用Cytosacpe 軟件的CytoHubba 插件從197個(gè)基因中篩選出了8個(gè)基因,分別為ASPM、AURKA、CDC20、FEN1、NUSAP1、RACGAP1、RFC4、TOP2A.既往研究顯示,ASPM和TOP2A在結(jié)直腸癌[14-15]、胰腺癌[16]、膀胱癌[17-18]、肺腺癌[19-20]等多種癌癥中異常表達(dá),RFC4和FEN1與腫瘤的進(jìn)展相關(guān)[21-22],AURKA的激活已被證明在多種癌癥中發(fā)揮重要作用[23],CDC20、NUSAP1和RACGAP1均被報(bào)道了與肝癌的進(jìn)展顯著相關(guān)[24-26].
KEGG 重分析結(jié)果顯示,RFC4和FEN1在DNA復(fù)制通路上富集.有研究證實(shí),DNA 復(fù)制時(shí)發(fā)生錯(cuò)誤是多種癌癥發(fā)生的主要因素[27]. 基因組的穩(wěn)定性直接關(guān)聯(lián)到細(xì)胞是否發(fā)生癌變,其中,DNA 復(fù)制是最容易發(fā)生變化的過(guò)程,也是最容易致癌的過(guò)程.任何導(dǎo)致DNA 損傷高水平發(fā)生的條件也都會(huì)引發(fā)復(fù)制應(yīng)激,這是基因組不穩(wěn)定的來(lái)源之一,也是區(qū)分癌變前細(xì)胞與癌變細(xì)胞的一大標(biāo)志.FEN1突變可能會(huì)引起單鏈DNA 斷裂以及隨后的DNA 復(fù)制叉瓦解,從而出現(xiàn)DNA 復(fù)制應(yīng)激.持續(xù)的復(fù)制應(yīng)激通常會(huì)引發(fā)P53 介導(dǎo)的衰亡進(jìn)程或者細(xì)胞凋亡,用以預(yù)防腫瘤擴(kuò)展.
RFC 家族在DNA 復(fù)制和DNA 修復(fù)中發(fā)揮重要作用.其中,編碼RFC 復(fù)合體的第4 大亞基RFC4 也參與了這些生物過(guò)程.RFC4 全稱(chēng)為復(fù)制因子C 亞基4,位于第3 號(hào)染色體長(zhǎng)臂上,可能參與了多引物DNA 模板的延伸. 有研究表明,RFC4基因與多種腫瘤不良預(yù)后顯著相關(guān),如Wang 等[28]提出DNA 拷貝數(shù)改變介導(dǎo)的RFC4表達(dá)上調(diào)與食管鱗狀細(xì)胞癌的早期診斷和免疫逃逸有關(guān),Zhang 等[29]發(fā)現(xiàn)RFC4在體內(nèi)外均可促進(jìn)口腔舌鱗癌的進(jìn)展和生長(zhǎng). 在肝癌方面,Arai 等[30]發(fā)現(xiàn)敲除內(nèi)源性復(fù)制因子C4 可降低肝癌細(xì)胞的生長(zhǎng)并增強(qiáng)化療敏感性;Chen 等[31]報(bào)道了人肝細(xì)胞癌中的復(fù)制因子C4 是一個(gè)與細(xì)胞增殖相關(guān)的強(qiáng)有力的預(yù)后因子.RFC4的解除調(diào)控可能有助于細(xì)胞增殖和腫瘤發(fā)生.
FEN1 全稱(chēng)為瓣結(jié)構(gòu)特異性核酸內(nèi)切酶1,位于第11 號(hào)染色體長(zhǎng)臂上,主要功能為參與岡崎片段成熟、DNA 損傷修復(fù)、端粒穩(wěn)定性維持與細(xì)胞凋亡DNA片段化,參與機(jī)體內(nèi)多種DNA 代謝途徑,作用極其重要.Wu 等[32]通過(guò)生物信息學(xué)分析發(fā)現(xiàn),在乳腺癌組織中FEN1 蛋白水平和mRNA 表達(dá)明顯高于正常組織,血清中FEN1 的水平隨乳腺癌的發(fā)生而升高,而在術(shù)后患者中有所下降.Xu 等[33]也報(bào)道了FEN1 可調(diào)節(jié)polo 樣激酶4(PLK4)的表達(dá)水平,從而促進(jìn)三陰性乳腺癌細(xì)胞的遷移和侵襲.Shi 等[34]發(fā)現(xiàn)FEN1 的1個(gè)關(guān)鍵殘基上的琥珀?;瘏⑴c了DNA 損傷反應(yīng),減少DNA 上存在的突變.Zhang 等[35]通過(guò)體外實(shí)驗(yàn)發(fā)現(xiàn)調(diào)節(jié)c-Myc、survivin 和G1/S-特異性周期蛋白-D1 沉默F(xiàn)EN1 可抑制細(xì)胞的增殖和遷移.
本研究借助生物信息學(xué)分析,從3個(gè)獨(dú)立的基因芯片數(shù)據(jù)中,共鑒定出69個(gè)上調(diào)基因和128個(gè)下調(diào)基因.通過(guò)富集分析和蛋白質(zhì)互作網(wǎng)絡(luò)分析,篩選出8個(gè)樞紐基因,分別為CDC20、RACGAP1、ASPM、RFC4、FEN1、AURKA、NUSAP1、TOP2A.使用GEPIA2 在線工具進(jìn)一步分析,8個(gè)基因的高表達(dá)都會(huì)伴隨著肝癌總生存率的降低,并且8個(gè)基因在肝癌患者中均表現(xiàn)為高表達(dá). 進(jìn)一步對(duì)8個(gè)基因重新進(jìn)行KEGG 通路富集,發(fā)現(xiàn)RFC4和FEN1這2個(gè)基因在DNA 復(fù)制通路中富集.通過(guò)人類(lèi)蛋白質(zhì)圖譜數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘發(fā)現(xiàn),在蛋白水平上肝癌患者的RFC4和FEN1基因的轉(zhuǎn)錄及翻譯可能均表現(xiàn)為高表達(dá),這還有待實(shí)驗(yàn)證明.本研究認(rèn)為篩選出的8個(gè)基因可以作為肝癌診斷潛在的生物標(biāo)志物,其中RFC4和FEN1可能是調(diào)控肝癌發(fā)生、發(fā)展和轉(zhuǎn)移的關(guān)鍵基因.