張鑫,冉小柯,趙云霞,陳茜,徐宗瑤,陳曉琦
1河南中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,鄭州 450000
2河南中醫(yī)藥大學(xué)第一附屬醫(yī)院脾胃肝膽科,鄭州 450000
原發(fā)性肝癌是世界性的健康難題,預(yù)計到2025 年全球每年將有超過100 萬人受到肝癌的影響[1]。乙型或丙型肝炎病毒感染、酒精性肝損傷、肥胖等導(dǎo)致肝硬化和慢性肝病的因素與肝癌的發(fā)病密切相關(guān),盡管進(jìn)行了相應(yīng)預(yù)防,但肝癌總體發(fā)病率始終居高不下[2]。肝癌是全球腫瘤的第三大死亡原因,而且主要死亡人口集中在東亞地區(qū)[3]。據(jù)中國癌癥中心統(tǒng)計,2012—2015 年中國肝癌患者的5 年生存率僅為12.1%[4]。肝癌的發(fā)生發(fā)展涉及眾多基因、通路的共同作用,其中原癌基因激活、抑癌基因失活及信號通路異?;罨c肝癌的發(fā)病密切相關(guān)[5]。從基因?qū)用嫒ヌ綄じ伟┑陌l(fā)生發(fā)展機(jī)制,挖掘精準(zhǔn)的生物標(biāo)志物和治療靶點,可更好地指導(dǎo)臨床診療,為肝癌診治帶來新的希望。本研究利用癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫的基因信息對肝癌進(jìn)行生物信息學(xué)分析,尋找其發(fā)生發(fā)展的分子機(jī)制,構(gòu)建肝癌生物標(biāo)志物預(yù)后模型,為尋找肝癌的治療靶點及臨床診療提供參考,現(xiàn)報道如下。
從TCGA 數(shù)據(jù)庫網(wǎng)站(https://portal.gdc.cancer.gov/repository)下載肝癌及癌旁組織的臨床數(shù)據(jù)及基因表達(dá)量等信息,采用Perl軟件將原始數(shù)據(jù)提取為矩陣文件,從ensembl 網(wǎng)站(https://asia.ensembl.org/index.html)下載人類基因名與基因id 的對應(yīng)關(guān)系,通過Perl軟件將原始數(shù)據(jù)中的基因id轉(zhuǎn)換為基因名。
R 語言4.04 版本環(huán)境下(下同),引用“edgR”數(shù)據(jù)包進(jìn)行差異基因分析,設(shè)定篩選條件fold-Change=3(差異倍數(shù)﹥9),padj=0.01(糾正后P 值﹤0.01),引用“gplots”數(shù)據(jù)包進(jìn)行差異基因的“volcano”(火山圖)繪制,使結(jié)果可視化。
引用“clusterProfiler”包,對差異基因中上調(diào)和下調(diào)基因進(jìn)行基因本體論(Gene Ontology,GO)功能富集分析和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,設(shè)定篩選條件為P value cut off=0.05(P﹤0.05)、Q value cut off=0.05(Q﹤0.05),引用“barplot”(柱狀圖)數(shù)據(jù)包使分析結(jié)果可視化。
采用String 數(shù)據(jù)庫(https://www.string-db.org/)對差異上調(diào)基因進(jìn)行蛋白功能互作(protein-protein interaction,PPI)生物分析,去除網(wǎng)絡(luò)無關(guān)基因并設(shè)定最小所需互動分?jǐn)?shù)為0.99,輸出圖形。采用R 軟件尋找PPI 網(wǎng)絡(luò)核心基因,引用“barplot”數(shù)據(jù)包使分析結(jié)果可視化。
引用“survival”數(shù)據(jù)包,采用Kaplan-Meier 法對差異基因進(jìn)行單基因生存分析,根據(jù)基因在所有組織中表達(dá)量的中位數(shù)將樣品分為高、低表達(dá)兩組,引用“survdiff”函數(shù)分析高、低表達(dá)組的生存差異,引用“plot”工具包使差異結(jié)果可視化,并以年為單位批量繪制5 年生存曲線。
引用“survival”數(shù)據(jù)包對差異基因進(jìn)行Cox 單因素分析,得出風(fēng)險比(hazard ratio,HR)值、P 值等。采用R 軟件取兩項生存分析中P﹤0.0001 的交集基因,差異交集基因作為單線變量進(jìn)行Cox 多因素分析。采用“step”函數(shù)篩選出差異交集基因中信息量最大、基因數(shù)目最小的基因變量,得出基因變量X、回歸系數(shù)β,并得出模型基因變量的HR值,引用“survminer”數(shù)據(jù)包繪制森林圖使HR 值結(jié)果可視化。
引用“predict”函數(shù),根據(jù)生存風(fēng)險評分(survival risk score,SRS)公式計算每個組織的SRS,根據(jù)所有組織SRS 的中位數(shù)將組織分為低風(fēng)險組和高風(fēng)險組。采用Kaplan-Meier 法進(jìn)行生存分析,驗證SRS 與預(yù)后的相關(guān)性。引用“survivalROC”數(shù)據(jù)包繪制受試者工作特征(receiver operating characteristic,ROC)曲線,評估SRS 預(yù)后模型的準(zhǔn)確性。
采用R 語言進(jìn)行統(tǒng)計學(xué)分析,以P﹤0.05 為差異有統(tǒng)計學(xué)意義。
本次下載共得到407 例肝癌組織、58 例癌旁組織中的60 244個基因表達(dá)信息。差異分析后得出差異顯著基因1913 個(差異倍數(shù)﹥9,糾正后P 值﹤0.01),其中上調(diào)基因1836個,下調(diào)基因77個。(圖1)
圖1 肝癌組織(n=407)和癌旁組織(n=58)中差異基因的火山圖
差異上調(diào)基因GO 富集分析顯示,過度激活基因主要聚集于DNA 結(jié)合轉(zhuǎn)錄激活因子活性,DNA結(jié)合轉(zhuǎn)錄激活因子活性,特異性RNA 聚合酶Ⅱ,激素活性,被動的跨膜轉(zhuǎn)運蛋白活性,門控通道活性,通道活性功能上(P﹤0.0001)(圖2A)。差異下調(diào)基因GO 富集分析顯示,表達(dá)被抑制的基因主要聚集在糖結(jié)合、甘露糖結(jié)合、受體配體活性、單糖結(jié)合、信號轉(zhuǎn)導(dǎo)受體激活劑活性功能上(P ﹤0.0001)(圖2B)。
圖2 差異上調(diào)基因和下調(diào)基因的GO功能富集分析柱狀圖
差異上調(diào)基因KEGG 富集分析顯示,過度激活基因主要聚集于神經(jīng)活性配體受體相互作用、細(xì)胞周期、蛋白質(zhì)消化吸收、尼古丁成癮通路上(P﹤0.001)(圖3)。差異下調(diào)基因由于基因數(shù)目較少,本次KEGG 分析并未富集出有意義的結(jié)果。
圖3 差異上調(diào)基因的KEGG通路富集分析柱狀圖
差異上調(diào)基因PPI 網(wǎng)絡(luò)中的部分作用結(jié)果如下:基因染色體鄰域評分為0,基因融合評分最高值為細(xì)胞周期蛋白A2(cyclin A2,CCNA2)-細(xì)胞周期蛋白依賴性激酶1(cyclin dependent kinase 1,CDK1)基因(0.007),系統(tǒng)并發(fā)發(fā)育評分最高值為serpin 家 族B 成 員3(serpin family B member 3,SERPINB3)-serpin 家 族B 成 員4(serpin family B member 3,SERPINB4)基因(0.449),同族評分最高值為SERPINB3-SERPINB4(0.984),共表達(dá)評分最高值為非SMC 凝聚素Ⅰ復(fù)合亞基G(non-SMC condensin Ⅰcomplex subunit G,NCAPG)-非SMC凝聚素Ⅰ復(fù)合亞基H(non-SMC condensin Ⅰcomplex subunit H,NCAPH)(0.994),實驗確定相互作用評分最高值為細(xì)胞周期蛋白B1(cyclin B1,CCNB1)-CDK1、BUB1 有絲分裂檢查點絲氨酸/蘇氨酸激B(BUB1 mitotic checkpoint serine/threonine kinase B,BUB1B)-細(xì)胞分裂周期20(cell division cycle 20,CDC20)(0.999),文本挖掘評分最高值為CCNB1-CDK1(0.983),數(shù)據(jù)注釋評分最高值為CCNB1-CDK1、NDC8 動粒復(fù)合體成分(NDC80 kinetochore complex component,NDC80)、NDC80 動粒復(fù)合體的SPC25 成分(SPC25 component of NDC80 kinetochore complex,SPC25)等(0.900),混合評分最高值為CCNB1-CDK1、NDC80-SPC25 等(0.999),R 軟件得出互作蛋白數(shù)最高的基因為CDK1(39)。
生存分析顯示,1913 個差異基因中360 個基因與樣品生存時間相關(guān)(P﹤0.05),34 個基因顯著相關(guān)(P﹤0.0001),如基質(zhì)金屬蛋白酶10(matrix metalloproteinase 10,MMP10)、甲狀腺激素受體相互作用物13(thyroid hormone receptor interactor 13,TRIP13)、細(xì)胞分裂周期相關(guān)8(cell division cycle associated 8,CDCA8)等。
Cox 單因素生存分析結(jié)果顯示,1913 個差異基因中632個基因與樣品生存時間相關(guān)(P﹤0.05),97個基因顯著相關(guān)(P﹤0.0001)。Kaplan-Meier 生存分析、Cox 單因素分析中的顯著相關(guān)基因共有29 個交集基因,選取前10個基因建立預(yù)后模型。(圖4)
圖4 交集基因的森林圖
由預(yù)后模型得出的402個樣品的SRS中位數(shù)將樣品分為高風(fēng)險組(n=201)和低風(fēng)險組(n=201)。Kaplan-Meier 生存分析顯示,高風(fēng)險組患者生存情況明顯差于低風(fēng)險組患者(P﹤0.01)。(圖5)
圖5 高風(fēng)險組(n=201)與低風(fēng)險組(n=201)肝癌患者的生存曲線
繪制ROC 曲線評估SRS 基因模型預(yù)測預(yù)后的價值,結(jié)果顯示,曲線下面積(area under the curve,AUC)=0.724,表明SRS 基因模型預(yù)測肝癌患者預(yù)后具有較高的價值。(圖6)
圖6 SRS基因模型預(yù)測肝癌患者預(yù)后的ROC曲線
原發(fā)性肝癌以其早期診斷困難、中晚期轉(zhuǎn)移迅速、治療難度大等特點嚴(yán)重威脅著中國人民的生命健康[6]??刂颇[瘤的復(fù)發(fā)轉(zhuǎn)移是治療腫瘤的核心問題,目前抗腫瘤血管生成藥物及免疫檢查點抑制劑的臨床應(yīng)用在患者的客觀緩解率和總生存率上取得了令人鼓舞的治療效果[7],但仍需深入挖掘新的治療靶點以達(dá)到更佳的治療效果。本文基于TCGA 數(shù)據(jù)庫對肝癌組織和癌旁組織的差異基因進(jìn)行生物信息學(xué)分析,分析出原癌基因與抑癌基因的主要功能及通路富集點,揭示了肝癌的可能發(fā)生發(fā)展機(jī)制。同時通過對差異基因的多層次預(yù)后分析,尋找到與肝癌患者預(yù)后密切相關(guān)的10個核心基因,并構(gòu)建出相關(guān)預(yù)后模型,ROC 曲線分析證明該模型對患者的預(yù)后預(yù)測具有較高的價值。
本研究通過PPI 生物學(xué)分析證明原癌基因CDK1 在肝癌發(fā)生發(fā)展調(diào)控網(wǎng)絡(luò)中居核心位置。CDK 是重要的細(xì)胞周期調(diào)節(jié)蛋白,屬于絲氨酸/蘇氨酸激酶家族,CDK 家族中CDK1 可以單獨促進(jìn)細(xì)胞周期,對細(xì)胞周期進(jìn)程和細(xì)胞分裂至關(guān)重要[8]。有研究發(fā)現(xiàn),CDK1 在胰腺癌組織中高表達(dá),且CDK1 的高表達(dá)與腫瘤大小、組織學(xué)分級、不良預(yù)后相關(guān)[9]。CDK1 可以促進(jìn)5-氟尿嘧啶耐藥的結(jié)腸癌細(xì)胞遷移、侵襲并抑制其凋亡,抑制CDK1的表達(dá)可以增強(qiáng)結(jié)腸癌細(xì)胞對5-氟尿嘧啶的敏感性[10]。以上研究與本研究結(jié)果一致,但目前關(guān)于CDK1 與肝癌發(fā)生發(fā)展之間的關(guān)系并無明確闡述,值得深入探討。
本研究發(fā)現(xiàn)了與肝癌患者預(yù)后顯著相關(guān)的10個核心基因,其中NIMA 相關(guān)激酶2(NIMA related kinase 2,NEK2)、TOPBP1 交互檢查點和復(fù)制調(diào)節(jié)器(TOPBP1 interacting checkpoint and replication regulator,TICRR)、E2F 轉(zhuǎn)錄因子2(E2F transcription factor 2,E2F2)、RAD54 樣基因(RAD54 like,RAD54L)的表達(dá)量與肝癌患者的預(yù)后呈正相關(guān)。有研究通過免疫組化分析證明NEK2 在肝癌組織中的表達(dá)水平低于癌旁組織,同時發(fā)現(xiàn)低表達(dá)的NEK2 與肝細(xì)胞肝癌的進(jìn)展和不良預(yù)后相關(guān)[11]。有研究證明,S 期周期蛋白依賴激酶可以磷酸化TICRR 限制細(xì)胞S 期進(jìn)展,進(jìn)而可能會影響腫瘤的發(fā)生發(fā)展[12]。有研究發(fā)現(xiàn),E2F2 的轉(zhuǎn)錄活性有助于促進(jìn)成年肝細(xì)胞增殖和肝臟再生[13],亦有研究證明E2F2 失活與Myc 基因表達(dá)共同促進(jìn)皮膚和口腔腫瘤的發(fā)展[14]。有研究證明,同源重組修復(fù)基因RAD54L 可以影響胰腺癌[15]、膀胱癌[16]患者的生存期。上述研究中,過表達(dá)的NEK2 對肝癌細(xì)胞的抑制作用與本研究結(jié)果一致,TICRR、E2F2、RAD54L被證實可以抑制腫瘤進(jìn)展,但與肝癌的關(guān)系仍需進(jìn)一步探討。
本研究證明,SRS 模型中霍利迪連接識別蛋白(Holliday junction recognition protein,HJURP)、CDCA8、TRIP13、nei 樣DNA 糖基化酶3(nei like DNA glycosylase 3,NEIL3)、分泌磷蛋白1(secreted phosphoprotein 1,SPP1)、SRY-box 轉(zhuǎn)錄因子11(SRY-box transcription factor 11,SOX11)的表達(dá)量與肝癌患者的預(yù)后呈負(fù)相關(guān)。HJURP 在體內(nèi)體外均能通過促分裂原活化的蛋白激酶(mitogen-activated protein kinase,MAPK)/細(xì)胞外信號調(diào)節(jié)激酶(extracellular signal-regulated kinase,ERK)1/2 和蛋白激酶B(protein kinase B,PKB,又稱AKT)/糖原合酶激酶3β(glycogen synthase kinase 3β,GSK3β)信號通路使p21 不穩(wěn)定從而促進(jìn)肝癌細(xì)胞增殖[17]。有研究通過體外實驗證明SPP1 特異性抗體能有效抑制肝癌細(xì)胞的侵襲,并在裸鼠體內(nèi)抑制肝癌細(xì)胞的肺轉(zhuǎn)移[18]。研究通過TCGA 數(shù)據(jù)分析證明CDCA8表達(dá)增加與肝癌預(yù)后不良顯著相關(guān),同時發(fā)現(xiàn)CDCA8 可能通過細(xì)胞凋亡、細(xì)胞周期、p53、轉(zhuǎn)化生長因子-β(transforming growth factor-β,TGF-β)等信號通路促進(jìn)腫瘤發(fā)展[19]。有研究證明,TRIP13 能與肌動蛋白α4(actinin alpha 4,ACTN4)相互作用并正調(diào)控其表達(dá),從而激活A(yù)KT/雷帕霉素靶蛋白(mechanistic target of rapamycin kinase,MTOR)通路驅(qū)動肝癌細(xì)胞的增殖、遷移和侵襲[20]。相關(guān)研究通過公共數(shù)據(jù)分析證明,SOX11 在肝癌組織中明顯上調(diào),其mRNA表達(dá)水平與肝癌患者的不良預(yù)后密切相關(guān)[21]。研究發(fā)現(xiàn)NEIL3 過表達(dá)的胰腺癌、肺腺癌等腫瘤患者的總生存期較差[22],同時NEIL3 突變與受損的B 細(xì)胞功能和嚴(yán)重的自身免疫有關(guān)[23];這揭示了NEIL3 可能成為腫瘤的潛在免疫治療靶點。以上研究證明,過表達(dá)的HJURP、CDCA8、TRIP13、SPP1、SOX11、NEIL3 均可促進(jìn)肝癌的發(fā)生發(fā)展,這與本研究的結(jié)論一致。
本研究通過公共數(shù)據(jù)分析構(gòu)建并驗證了10 個核心基因組成的預(yù)后模型,通過模型求得的SRS可計算風(fēng)險分層,預(yù)測肝癌患者預(yù)后,為臨床的個體化精準(zhǔn)診療提供依據(jù),而核心基因可作為高度特異性的生物標(biāo)志物為肝癌患者的診斷和治療帶來新的希望。