[摘要]目的基于細胞周期調控相關基因構建新的肝癌預后模型,為預測肝癌的預后及腫瘤治療提供新的思路和方向。方法肝癌病人的mRNA表達譜和臨床數(shù)據收集于TCGA腫瘤數(shù)據庫、GEO基因表達數(shù)據庫和ICGC腫瘤基因數(shù)據庫。通過R軟件分析篩選肝癌的差異表達基因,并通過通路與基因功能富集(PPEA)方法確定與細胞周期相關的基因集。使用單因素Cox回歸分析和Kaplan-Meier曲線聯(lián)合確定與肝癌預后相關的細胞周期調控基因,使用Lasso Cox回歸模型構建和驗證肝癌預后模型。最后使用3對臨床樣本進行二代測序驗證基因表達水平。結果通過差異篩選和基因富集分析以及單因素Cox回歸分析,找到24個細胞周期調控基因與肝癌病人預后相關(HRgt;1,F(xiàn)DRlt;0.05)。Lasso Cox回歸構建的肝癌預后模型評估結果顯示,高風險組的總生存期(OS)顯著小于低風險組(TCGA-LIHC構建隊列Plt;0.001,LIRI-JP驗證隊列Plt;0.001);風險評分是OS的獨立預后因素(HRgt;1,Plt;0.001)。臨床樣本測序結果驗證顯示,大部分肝癌細胞周期調控預后基因在肝癌組織中存在顯著高表達。結論本研究構建了細胞周期調控相關基因的肝癌病人預后模型,為肝癌病人的預后預測和治療提供新的思路和分子治療靶點。
[關鍵詞]癌,肝細胞;細胞周期;預后;計算生物學;轉錄組測序技術
[中圖分類號]R735.7[文獻標志碼]A[文章編號]2096-5532(2022)02-0205-08
doi:10.11712/jms.2096-5532.2022.58.079[開放科學(資源服務)標識碼(OSID)]
[網絡出版]https://kns.cnki.net/kcms/detail/37.1517.R.20220416.2316.004.html;2022-04-1919:41:29
CONSTRUCTION AND EVALUATION OF PROGNOSTIC MODEL FOR HEPATOCELLULAR CARCINOMA BASED ON CELL CYCLE REGULATION-ASSOCIATED GENES" SUN Dongxu, ZHU Wenjing, JIN Zhipeng, LIU Huayuan, ZHU Pengcheng, SHI Guangjun (Graduate School, Dalian Medical University, Dalian 116000, China)
[ABSTRACT]ObjectiveTo construct a new prognostic model for hepatocellular carcinoma (HCC) patients based on cell cycle regulation-associated genes, and to provide a new idea and method for predicting the prognosis and treatment of HCC. MethodsThe mRNA expression profile and clinical data of HCC patients were collected from TCGA, GEO, and ICGC databases. Differentially expressed genes were screened out using R software, and the gene sets related to cell cycle were identified by pathway and gene set enrichment analysis. Univariate Cox regression analysis and Kaplan-Meier curve were used to identify the cell cycle regulation genes associated with the prognosis of HCC. The Lasso Cox regression model was used to construct and verify the prognostic model of HCC. Finally, three pairs of clinical samples were subjected to next-generation sequencing to verify gene expression levels.ResultsThrough differential screening, gene enrichment analysis, and univariate Cox regression analysis, 24 cell cycle regulation genes were found to be associated with prognosis of HCC patients (HRgt;1, 1 discovery rate lt;0.05). The prognostic model for HCC constructed by Lasso Cox regression showed that the overall survival (OS) of the high-risk group was significantly lower than that of the low-risk group (TCGA-LIHC cohort Plt;0.001, LIRI-JP cohort Plt;0.001); risk score was an independent predictor of OS (HRgt;1,Plt;0.001). The results of clinical sample sequencing showed that most of the cell cycle regulation genes associated with the prognosis of HCC were significantly overexpressed in HCC tissues. ConclusionIn this study, a prognostic model of HCC patients related to cell cycle regulation-associated genes was constructed, providing new ideas and molecular therapeutic targets for the prognostic prediction and treatment of HCC patients.
[KEY WORDS]carcinoma, hepatocellular; cell cycle; prognosis; computational biology; RNA-Seq
肝細胞癌是世界范圍內發(fā)病率較高的惡性腫瘤,約占肝癌病人的90%[1]。盡管肝細胞癌的治療取得了一些進展,但肝細胞癌病人的預后仍然很差[2]。既往生物信息學綜合性研究所構建的肝癌預后模型等研究結果十分廣泛,包括基于免疫相關編碼基因集合[3]、p53相關的microRNA集合[4]等。但由于預后腫瘤標志物和治療靶點尚未得到充分研究和臨床應用,肝細胞癌病人的預后判斷和個體化診療仍是一大挑戰(zhàn)。本研究的目的是構建預后模型,為肝癌病人的預后預測和個體化治療提供分子標志物和新的方向。
1資料和方法
1.1肝癌轉錄表達數(shù)據的獲取和差異表達基因的篩選
從TCGA數(shù)據庫(https://portal.gdc.cancer.gov/)下載TCGA-LIHC肝癌數(shù)據集。TCGA數(shù)據庫肝癌數(shù)據集包含374例肝細胞癌腫瘤組織樣本和50例癌旁正常肝組織樣本的表達數(shù)據以及臨床數(shù)據。使用統(tǒng)計學軟件R軟件(3.6.1版)[5]和Bioconductor ‘edge’軟件包分析肝細胞癌樣本與正常組織間差異表達基因的表達差異[6-7]。|Log2FC|gt;2和校正后P值lt;0.05的基因被定義為差異表達基因。
從GEO數(shù)據庫(https://www.ncbi.nlm.nih.gov/geo/)[8]GPL10558平臺(Illumina HumanHT-12 V4.0 expression beadchip)下載肝癌數(shù)據集GSE36376。GSE36376數(shù)據集包含240例肝細胞癌組織樣本和193例癌旁組織樣本的表達數(shù)據和臨床數(shù)據。|Log2FC|gt;1和校正后P值lt;0.05的基因被鑒定為差異表達基因。使用維恩圖在線工具(http://bioinformatics.psb.ugent.be/webtools/Venn/) 繪制韋恩圖鑒定共同上調和下調基因。
從ICGC數(shù)據庫(https://dcc.icgc.org/projects/LIRI-JP/)LIRI-JP肝癌數(shù)據集下載231例肝癌樣本的表達數(shù)據和臨床數(shù)據。這些樣本主要來自日本乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染人群[9]。樣本數(shù)據使用了標準化的計數(shù)值。
1.2肝癌差異表達基因的通路和功能富集分析
利用Metascape網站[10]對差異表達基因進行通路和功能富集分析?;騁O功能注釋及基因參與通路來源于以下數(shù)據庫的并集:Kyoto Encyclopaedia of Genes and Genomes (KEGG) Pathway, Gene Ontology (GO) Biological Processes, Reactome Gene Sets, Canonical Pathways, CORUM, TRRUST, DisGeNET, PaGenBase, Transcription Factor Targets, COVID。將基因組中的所有基因作為富集背景。P值的計算基于累積超幾何分布,q值的計算采用Benjamin-Hochberg (BH)進行多重檢驗[11]。最后使用Cytoscape可視化網絡[12]。
1.3肝癌細胞周期調控相關基因預后模型的構建和驗證
采用單因素Cox回歸分析細胞周期調控相關差異表達基因的預后價值。根據表達量的中位值將病人分為高表達組和低表達組,通過在線Kaplan-Meier plotter (http://kmplot.com/analysis/)進行Kaplan-Meier生存曲線驗證[13]。使用Lasso Cox回歸分析方法建立預后模型[14-15]。采用‘glmnet R’包使用LASSO算法進行選擇和收縮自變量。根據中位風險評分將病人分為高風險組和低風險組?;谀P椭械幕虮磉_,采用‘stats’R包的‘prcomp’程序進行主成分分析(PCA);同樣基于模型中的基因表達,采用‘Rtsne’R包中的t-分布隨機相鄰嵌入分析(t-SNE)方法,分析不同風險組的分布,確定各風險組的區(qū)分顯著性。采用‘survminer’ R包的‘sur_cutpoint’程序來確定最佳截斷表達值,進行Kaplan-Meier生存分析確定高低風險組的病人生存情況差異。使用單因素和多因素Cox回歸分析確定模型風險評分是否為總生存期(OS)的獨立預后因素。應用‘survival ROC’R包進行時間依賴性受試者工作特征(ROC)曲線分析,以評估模型基因集的預測能力。生成用于模型可視化和臨床應用的列線圖(Nomogram),應用校準曲線(Calibration curve)評價列線圖的校準度,應用決策曲線分析(DCA)評價臨床適用度。
1.4樣品采集和標準化處理
收集青島大學附屬青島市市立醫(yī)院肝膽外科3例確診為肝細胞癌病人的肝癌組織和癌旁組織,樣本采集和存儲采用標準化的方法。對組織樣本進行基因轉錄水平二代測序(NGS),對數(shù)據進行標準化處理,統(tǒng)計方法采用Mann-Whitney U檢驗。
1.5統(tǒng)計學分析
所有統(tǒng)計分析均使用R軟件。除特殊標注外,計量資料比較采用t檢驗,計數(shù)資料比較采用χ2檢驗。應用Cox回歸估計危險比(HR)和95%置信區(qū)間(CI)。生存分析采用Kaplan-Meier法,采用logrank檢驗確定差異是否有統(tǒng)計學意義。使用BH法校正P值。采用雙側檢驗,Plt;0.05為差異有統(tǒng)計學意義。
2結果
2.1肝癌腫瘤組織和正常肝臟組織差異表達基因的篩選
TCGA數(shù)據庫TCGA-LIHC肝癌數(shù)據集共篩選出3 619個差異表達基因 (|log2FC|gt;2, FDRlt;0.05),差異表達基因的熱圖和火山圖見圖1 A、B。 GEO數(shù)據庫GSE36376肝癌數(shù)據集共篩選出687個差異表達基因 (|log2FC|gt;1, FDRlt;0.05)。應用韋恩圖共同鑒定了141個差異表達基因,其中70個基因表達顯著上調,71個基因表達顯著下調。見圖1 C、D和表1。
2.2肝癌細胞周期調控相關預后基因的確定
通路及功能富集分析顯示,肝癌差異表達基因共參與了409個重要功能及通路(圖1),其中有95個通路和功能與肝癌細胞周期調控密切相關,通過統(tǒng)計歸納,最后確定了28個與肝癌細胞周期調控相關基因。見表2。單因素Cox回歸分析顯示,與肝癌預后相關的細胞周期調控基因有24個,其中包括CDC20、AURKA、NUSAP1、HMMR、TP2A和MDK等(HRgt;1,F(xiàn)DRlt;0.05)(圖2A);基因表達熱圖顯示了這些基因的表達水平(FDRlt;0.05)(圖2B)。應用在線Kaplan-Meier Plotter分析驗證肝癌病人細胞周期調控相關基因的預后價值,最終確定這24個細胞周期調控相關基因均與肝癌病人的預后顯著相關(圖2C)。
2.3肝癌細胞周期調控基因預后模型的構建
基于TCGA數(shù)據庫TCGA-LIHC肝癌病人隊列,用Lasso Cox回歸分析建立預后模型?;趹土P參數(shù)的最優(yōu)值λ,確定了一個8個基因的基因集(圖3)。風險評分計算方法如下:風險評分=e(0.319×CDC20表達量-0.393×NUSAP1表達量+0.438×HMMR表達量+0.066×ARID3A表達量+0.068×RACGAP1表達量+0.123×NCAPG表達量-0.141×SPC24表達量+0.004×MELK表達量)。根據其中位截斷值,將病人分為高風險組(n=182)和低風險組(n=183)(圖3A)。PCA和t-SNE分析顯示,高風險組和低風險組病人離散方向不同(圖3B、C),高風險病人早期死亡的可能性高于低風險病人(圖3D)。Kaplan-Meier曲線分析顯示,高風險組的OS明顯低于低風險組(圖3E,Plt;0.001),低風險評分的肝癌病人較高風險評分者有更好的預后。應用ROC曲線評估模型的預測能力,生存時間1年的ROC曲線下面積(AUC)為0.800(95%CI=0.737~0.863),2年為0.750(95%CI=0.687~0.813),3年AUC為0.731(95%CI=0.659~0.804),表明本文建立的預后模型具有良好的預后預測準確度和特異度(圖3F)。利用TCGA隊列中多因素Cox回歸模型生成的系數(shù),將風險評分與分期、分級、年齡和性別等重要的臨床變量整合在一起,以進一步提高預后預測的準確性,建立了模型可視化和臨床應用的列線圖(圖4A)。校準曲線檢測出列線圖預測與實際觀測之間的最佳預測閾值(圖4B)。最后,通過1、2和3年的DCA比較風險評分與其他臨床指標的臨床凈效益(圖4C~E),結果顯示,在上述閾值概率的大部分范圍內,風險評分顯示出更大的凈收益,表明風險評分在預測肝癌病人預后方面具有較好的臨床應用價值。
2.4肝癌細胞周期調控基因預后模型的驗證
為了檢驗肝癌病人隊列模型的穩(wěn)健性,按照與TCGA數(shù)據庫TCGA-LIHC肝癌病人隊列構建模型的相同公式,將ICGC數(shù)據庫LIRI-JP肝癌病人隊列分為高風險組(n=182)和低風險組(n=78)(圖5A)。PCA分析和t-SNE分析確定了病人在兩個亞組中離散方向的分布,見圖5B、C。與低風險組相比,高風險組病人早期死亡可能性更高(圖5D),生存時間更短(圖5E,Plt;0.001)。ROC曲線分析顯示,生存時間1年的AUC為0.722(95%CI=0.584~0.861),2年為0.739(95%CI=0.633~0.845),3年為0.733(95%CI=0.627~0.839),預后模型具有良好的預測準確度和特異度(圖5F)。
2.5肝癌細胞周期調控基因預后模型風險評分的獨立預后價值
單因素Cox回歸分析顯示,TCGA-LIHC肝癌病人隊列(構建隊列)和LIRI-JP肝癌病人隊列(驗證隊列)的風險評分與OS之間存在顯著相關性(構建隊列:HR=3.767,95%CI=2.661~5.333,Plt;0.001;驗證隊列:HR=3.752,95%CI=2.240~6.266,Plt;0.001)。多因素Cox回歸分析顯示,風險評分是OS的獨立預測因子(TCGA數(shù)據庫肝癌病人隊列:HR=3.436,95%CI=2.402~4.916,Plt;0.001;ICGC數(shù)據庫肝癌病人隊列:HR=3.264,95%CI=1.920~5.549,Plt;0.001)。見圖6。
2.6肝癌細胞周期調控相關預后基因的轉錄表達水平鑒定
本文NGS結果顯示,包括CDC20、AURKA和NUSAP1等在內的16個細胞周期調控相關預后基因在肝癌中表達顯著上調(圖7)。
3討論
肝癌等惡性腫瘤細胞的特點是無限增殖,這與細胞周期調控密切相關。盡管細胞周期調控的機制已經成為腫瘤研究的核心領域,但其具體機制仍不明確,細胞周期調控的機制以及相關基因對肝癌病人預后的預測價值也尚不清楚。既往的研究結果表明,基于p53相關的microRNA集合[5]、免疫相關編碼基因集合[4]、CpG島甲基化表型(CIMP)相關基因[16]、控制胚胎發(fā)育的claudin基因家族[17]等構建的肝癌預后模型顯示了優(yōu)秀的預測能力。與這些研究相比,本研究1、2、3年的ROC曲線及DCA曲線等結果均顯示本文構建的預后模型具有良好的準確性、特異性及臨床適用性,能夠準確預測肝癌病人的預后。
本文構建的預后模型中,參與模型的共有8個細胞周期調控相關基因,分別為RACGAP1、CDC20、NUSAP1、HMMR、ARID3A、NCAPG、SPC24和MELK。迄今為止的研究顯示,其中6個致癌基因CDC20[18]、NUSAP1[19]、RACGAP1[20-21]、NCAPG[22]、MELK[23]和SPC24[24]已經在肝癌中被確定具有重要作用,但HMMR和ARID3A在肝癌中的作用尚不清楚。有生物信息學研究結果表明,HMMR可能是肝癌中較高表達的致癌基因[25]。本文研究表明,HMMR可能通過調控肝癌細胞周期影響病人的預后。此外,ARID3A基因在腫瘤中作用研究甚少,本文研究顯示ARID3A可能通過調控細胞周期影響肝癌病人的預后。為了驗證本文篩選出的預后基因的表達水平,我們使用NGS技術檢測3例肝癌組織與癌旁組織基因表達,結果顯示16個細胞周期調控相關預后基因在肝癌中表達顯著上調,在轉錄水平上證明了細胞周期調控相關預后基因的作用。
綜上所述,本研究成功構建了細胞周期調控相關基因的預后模型,為肝癌病人的預后及治療提供新的方向。本文測序分析為后續(xù)的模型驗證提供了轉錄水平表達數(shù)據基礎,但仍需檢測更多的組織樣本進行驗證,并進行更加深入的基礎實驗研究。
[參考文獻]
[1]LLOVET J M, KELLEY R K, VILLANUEVA A, et al.Hepatocellular carcinoma[J]." Nature Reviews Disease Pri-mers, 2021,7(1):6.
[2]FORNER A, REIG M, BRUIX J. Hepatocellular carcinoma
[J]." Lancet (London, England), 2018,391(10127):1301-1314.
[3]YU J H, MA S Y, TIAN S Y, et al. Systematic construction and validation of a prognostic model for hepatocellular carcinoma based on immune-related genes[J]." Frontiers in Cell and Developmental Biology, 2021,9:700553.
[4]FANG S S, GUO J C, ZHANG J H, et al. A P53-related microRNA model for predicting the prognosis of hepatocellular carcinoma patients[J]." Journal of Cellular Physiology, 2020,235(4):3569-3578.
[5]ANDERS S, HUBER W. Differential expression analysis for sequence count data[J]." Genome Biology, 2010,11(10): R106.
[6]ROBINSON M D, MCCARTHY D J, SMYTH G K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data[J]." Bioinformatics (Oxford, England), 2010,26(1):139-140.
[7]MCCARTHY D J, CHEN Y S, SMYTH G K. Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation[J]." Nucleic Acids Research, 2012,40(10):4288-4297.
[8]BARRETT T, TROUP D B, WILHITE S E, et al. NCBI GEO: archive for functional genomics data sets:10 years on[J]." Nucleic Acids Research, 2011,39(Database issue): D1005-D1010.
[9]FUJIMOTO A, FURUTA M, TOTOKI Y, et al. Erratum: Whole-genome mutational landscape and characterization of noncoding and structural mutations in liver cancer[J]." Nature Genetics, 2016,48(6):700.
[10]ZHOU Y Y, ZHOU B, PACHE L, et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets[J]." Nature Communications, 2019,10(1):1523.
[11]HOCHBERG Y, BENJAMINI Y. More powerful procedures for multiple significance testing[J]." Statistics in Medicine,1990,9(7):811-818.
[12]SHANNON P, MARKIEL A, OZIER O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]." Genome Research, 2003,13(11):2498-2504.
[13]GYRFFY B, LANCZKY A, EKLUND A C, et al. An online survival analysis tool to rapidly assess the effect of 22,277 genes on breast cancer prognosis using microarray data of 1 809 patients[J]." Breast Cancer Research and Treatment, 2010,123(3):725-731.
[14]SIMON N, FRIEDMAN J, HASTIE T, et al. Regularization paths for Cox’s proportional hazards model via coordinate descent[J]." Journal of Statistical Software, 2011,39(5):1-13.
[15]TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]." Statistics in Medicine,1997,16(4):385-395.
[16]LI G X, XU W Q, ZHANG L, et al. Development and validation of a CIMP-associated prognostic model for hepatocellular carcinoma[J]." EBioMedicine, 2019,47:128-141.
[17]KONG F E, TANG Y Q, GONG Y F, et al. Identification of prognostic claudins signature in hepatocellular carcinoma from a hepatocyte differentiation model[J]." Hepatology Internatio-nal, 2020,14(4):521-533.
[18]LI J, GAO J Z, DU J L, et al. Increased CDC20 expression is associated with development and progression of hepatocellular carcinoma[J]." International Journal of Oncology, 2014,45(4):1547-1555.
[19]ROY S, HOOIVELD G J, SEEHAWER M, et al. microRNA 193a-5p regulates levels of nucleolar- and spindle-associated protein 1 to suppress hepatocarcinogenesis[J]." Gastroenterology, 2018,155(6):1951-1966.e26.
[20]CHEN J X, XIA H P, ZHANG X Q, et al. ECT2 regulates the Rho/ERK signalling axis to promote early recurrence in human hepatocellular carcinoma[J]." Journal of Hepatology, 2015,62(6):1287-1295.
[21]WANG S M, OOI L L P J, HUI K M. Upregulation of rac GTPase-activating protein 1 is significantly associated with the early recurrence of human hepatocellular carcinoma[J]." Clinical Cancer Research, 2011,17(18):6040-6051.
[22]GONG C W, AI J Y, FAN Y, et al. NCAPG promotes the proliferation of hepatocellular carcinoma through PI3K/AKT signaling[J]." OncoTargets and Therapy, 2019,12:8537-8552.
[23]XIA H P, KONG S N, CHEN J X, et al. MELK is an oncogenic kinase essential for early hepatocellular carcinoma recurrence[J]." Cancer Letters, 2016,383(1):85-93.
[24]ZHU P P, JIN J F, LIAO Y, et al. A novel prognostic biomarker SPC24 up-regulated in hepatocellular carcinoma[J]." Oncotarget, 2015,6(38):41383-41397.
[25]SHEN S, KONG J J, QIU Y W, et al. Identification of core genes and outcomes in hepatocellular carcinoma by bioinformatics analysis[J]." Journal of Cellular Biochemistry, 2019,120(6):10069-10081.
(本文編輯黃建鄉(xiāng))