張思嘉,蔡 挺,張 順
(中國科學院大學 寧波華美醫(yī)院醫(yī)學實驗部,浙江 寧波 315100)
肝癌是目前我國第4位常見惡性腫瘤及第2位腫瘤致死病因,全世界每年近一半的新發(fā)和死亡病例發(fā)生在中國[1]。目前原發(fā)性肝癌的治療方法雖然很多,但腫瘤治療的預后效果仍不理想:HCC首選方法是手術切除,但由于其起病隱蔽,確診時患者多已中晚期,失去手術切除機會[2]。而傳統(tǒng)的放化療等手段預后較差,不良反應較多,這使目前我國HCC的臨床治療充滿挑戰(zhàn),急需新的治療策略來改善肝癌患者的生存質量。
肝癌發(fā)生是多因素、多步驟和受多種機制調控的復雜過程,具有高度異質性。目前針對肝癌的大體分型和組織病理學分型是制定臨床治療方案,預測判斷患者的預后與轉歸的重要依據(jù)。但實踐表明許多具有相同類型和相同分期的肝癌的患者應用相似的臨床治療手段,其預后的差別很大,這與肝癌極其復雜的腫瘤異質性密切相關。因此迫切需要新的分期分型指標以助力肝癌精準診斷與治療,以提高患者生存率。隨著二代測序(Next-generation Sequencing,NGS)技術,基因組、轉錄組、單細胞測序等多組學的發(fā)展,這些技術逐漸被應用于腫瘤的發(fā)病機制的研究以及分子分型的判斷中,并為診治手段及預后分析提供重要信息[3-4]。而基于腫瘤分子異質性的個體化精準診療已成為未來惡性腫瘤診療的發(fā)展方向:該診療方式將傳統(tǒng)的肝癌臨床病理分型和分期與肝癌的分子表型相結合,對肝癌患者進行更加細致的亞群劃分,并在這一基礎上將手術、放療、化療、免疫治療、分子靶向治療等手段,按照患者的個體化特征定制精準治療方案,從而大幅度提高治療手段的針對性和治療效果[5-6]。
單核苷酸多態(tài)性(SNPs)是指基因組DNA序列中由于單個核苷酸替換而引起的多態(tài)性,是最普遍的遺傳變異形式。絕大多數(shù)SNP并不影響蛋白序列,而是通過對基因表達的調控對生物個體產生影響[7]。越來越多的臨床研究證實,通過監(jiān)測腫瘤患者中生物標志物的SNP突變、mRNA及蛋白的表達水平的異常變化,來評價預后并指導臨床個體化治療,可提高療效果,減輕不良反應,促進醫(yī)療資源的合理利用[8-10]。本研究利用肝癌患者的轉錄組和SNP突變數(shù)據(jù),對樣本進行分子分型并分析不同分型間的生物學差異,有利于進一步認識肝癌發(fā)生和進展的過程,并對肝癌的臨床診斷和治療選擇以及預后預測具有一定的參考價值。
本研究涉及的359例肝細胞癌患者的mRNA表達數(shù)據(jù)、單核苷酸突變數(shù)據(jù)及臨床數(shù)據(jù)下載于TCGA在線公共數(shù)據(jù)庫(https://portal.gdc.cancer.gov)。
1.2.1 SNP突變與mRNA表達譜聯(lián)合分析
單核苷酸突變(SNP)可以通過影響基因編碼和剪接影響基因表達[11]。本研究通過對肝癌患者SNP突變數(shù)據(jù)和mRNA表達譜的聯(lián)合分析,篩選出因單核苷酸突變引起表達水平變化的差異基因,具體實施方式如下:首先根據(jù)SNP突變數(shù)據(jù)中基因是否發(fā)生突變,將肝癌患者劃分為野生型和突變型兩組,再通過wilcoxon秩和檢驗比較野生型和突變型肝癌患者中的表達水平,其中表達水平存在存在顯著差異的基因作為單核苷酸突變差異表達基因(取P<0.01為差異具有統(tǒng)計學意義)。最后運用KEGG數(shù)據(jù)庫通路富集和基因功能注釋的信息,對單核苷酸突變表達差異基因進行功能聚類分析和代謝途徑分析,并選取與癌癥相關的單核苷酸突變差異表達基因進行后續(xù)分析。
1.2.2 蛋白互作網絡的構建與樞紐基因的篩選
將與癌癥相關的單核苷酸突變差異表達基因導入STRING數(shù)據(jù)庫(https://www.string-db.org),得到相互作用的網絡節(jié)點文件,再通過Cytoscape軟件對蛋白-蛋白相互作用網絡PPI(Protein-protein Interaction)進行可視化處理,同時用插件CytoHubba對PPI網絡進行模塊分析,選取出10個連接度最高的Hub 基因作為肝癌分子分型的潛在特征和重要依據(jù)。
1.2.3 肝癌患者分子分型與預后分析
非負矩陣分解(Nonnegative Matrix Factorization,NMF)屬于雙向聚類,具有良好的可解釋性和數(shù)值結果,該方法已廣泛用于基因表達譜數(shù)據(jù)的癌癥分類[12-14]。本研究利用R語言中的“Consensus ClusterPlus”分析包,根據(jù)肝癌患者10個hub基因的mRNA表達量構建NMF分子分型模型,聚類數(shù)k值取2~8,根據(jù)聚類效果選取具有較好聚類穩(wěn)定性的k值用于分子分型的劃分,并進一步將樣本的基因表達數(shù)據(jù)和臨床預后信息整合,去除生存時間小于30天的樣本,再利用R軟件中的"Survival"包,對不同分子分型的肝癌患者進行Kaplan-Meier 生存分析及l(fā)og-rank檢驗,判斷不同分子分型患者的生存預后是否具有顯著性差異。
1.2.4 不同分子分型肝癌患者轉錄組特征對比
首先采用R軟件的DESeq2軟件包,對不同分子分型患者的基因轉錄組數(shù)據(jù)進行差異表達分析,差異基因的篩選標準為:算法矯正假發(fā)現(xiàn)率(FDR)<0.05,差異倍數(shù)(Fold change)> 1。再結合樣本的分子分型分組,針對差異表達基因利用R軟件的WGCNA 軟件包進行加權共表達網絡分析,具體步驟如下:1)構建基因共表達相似性矩陣,確定軟閾值后再將相似性矩陣轉換為鄰接矩陣。2)將鄰接矩陣轉換成拓撲矩陣,并采用拓撲覆蓋法對差異基因進行層次聚類,按照混合動態(tài)剪切樹的方法確定基因模塊,同時繪制樹狀圖并對基因模塊進行可視化,其中每個模塊的最小基因數(shù)目為30。3)將基因模塊與分子分型進行關聯(lián),尋找與2種分子分型最顯著相關的基因模塊[15]。并對與分子分型相關的基因模塊中的基因利用R軟件“Cluster Profiler”包進行KEGG富集分析,預測與2種肝癌分子分型相關的功能和信號通路。
通過對癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中獲得肝癌患者SNP突變數(shù)據(jù)的統(tǒng)計分析,共發(fā)現(xiàn)1 932種突變率大于5%的突變基因。根據(jù)基因是否發(fā)生突變,并通過對突變基因在突變型和野生型兩組患者mRNA表達譜的差異分析,確定561種在突變前后的表達水平發(fā)生顯著性變化的基因作為單核苷酸突變差異表達基因,進一步通過Gene ontology (GO)富集分析進行篩選,最終共得到64種與癌癥發(fā)生發(fā)展相關的單核苷酸突變差異表達基因。將上述基因輸入STRING網站,導入Cytoscape軟件得到可視化PPI網絡圖,顯示有58個節(jié)點和220個邊(見圖1)。運用CytoHubba插件,計算每個基因得連接度,得分最高的前10個基因作為hub基因(見表1)。其中大多數(shù)核心基因的SNP突變與多種腫瘤有關,比如單核苷酸突變引起的KRAS激活可導致多種惡性腫瘤,包括肺腺癌、粘液腺瘤、胰腺導管癌和大腸癌;SMAD4作為一種腫瘤抑制基因,其突變失活引起的TGF-β信號轉導紊亂導致對腫瘤細胞生長抑制作用的逃逸[16]。TSC2是常染色體基因,在體內作為抑癌基因廣泛表達[17]。STK11突變導致的表達缺失已被證明是腸道息肉綜合征(PJS)重要致病原因并與散發(fā)性的結直腸癌直接相關[18]。TP53基因(編碼p53蛋白)作為一個重要的抑瘤癌基因,通過調控一系列信號轉導通路廣泛參與了多種惡性腫瘤的發(fā)生發(fā)展,TP53突變在肝癌中有著較為明顯的特征[19]。CTNNB1是Wnt通路的關鍵成員,參與細胞間黏附以及細胞間信號傳遞,與腫瘤的形成和浸潤,轉移密不可分[20]。mTOR控制蛋白質合成、細胞生長和增殖,是PI3K—Akt—mTOR信號通路的核心基因[21]。對10種hub基因進行進一步生存分析,發(fā)現(xiàn)共有7種hub基因與肝癌患者生存預后顯著相關。其中高表達的CDKN2A、KARS是預后的危險因素,低表達的FOXO1、CDKN1A、MTOR、STK11、TP53是預后的危險因素。由此可見Hub基因的表達異常與肝癌患者的預后關系密切,這些Hub基因有望成為肝癌患者早期診斷、治療及預后判斷的重要靶點。
表1 蛋白質互作網絡中連接度排名前 10 核心基因及生存分析結果4Table 1 Ten hub genes in PPI networkand survival analysis(top ten in connectivity)
圖1 突變后表達顯著差異的癌癥相關基因構建的PPI網絡和hub基因模塊Fig.1 PPI network and hub gene module of cancer-associated genes which are significant differentially expressed after mutation
基于2.1篩選出的10個hub基因的表達量,運用非負矩陣因子分解(NMF)算法對肝癌患者進行分子分型。綜合判斷聚類穩(wěn)定性,發(fā)現(xiàn)當k=2時,即肝癌樣本分為2種分子分型時,模型的穩(wěn)定性較好且樣本分布均勻。生存曲線(見圖2)以及l(fā)og-rank檢驗結果顯示2種肝癌分子分型患者的預后情況具有顯著性差異,其中cluster1的5年生存率顯著低于cluster2(P=0.039)。因此本研究按照2種肝癌分子分型患者生存率的高低將cluster1作為高危組,cluster2作為低危組。由于NMF算法無法直接對因子的貢獻度進行統(tǒng)計,為進一步尋找對肝癌分子分型的影響最為顯著的Hub基因,本文以Heatmap的形式對比10個Hub基因在高危組(Cluster1)和低危組(Cluster2)的表達趨勢,其中基因表達趨勢與樣本分子分型相關性最為明顯的Hub基因將作為后續(xù)研究重點。突變基因CDKN2A和FOXO1表達量與樣本分子分型的分布最具有明顯的趨勢性(見圖3)。具體表現(xiàn)為CDKN2A在高危組(Cluster1)中的表達量明顯高于低危組(Cluster2),F(xiàn)OXO1在低危組(Cluster2)中的表達量明顯高于高危組(Cluster1)。并且進一步研究發(fā)現(xiàn),在不考慮分子分型對全部肝細胞癌患者進行生存分析,CDKN2A基因高表達和FOXO1基因低表達的患者生存時間顯著降低(見圖4)。這與高、低危組兩種分子分型組間的生存率高低差異相一致。由此可以初步推測:由突變導致的CDKN2A與FOXO1表達量變化對肝癌樣本分子分型貢獻較大,其中CDKN2A為預后不良基因(Unfavorable gene),F(xiàn)OXO1為預后良好基因(Favorable gene),因此以CDKN2A、FOXO1突變?yōu)榛A的分子分型方法具有較大的研究潛力。
圖2 2個肝細胞癌分子分型的生存曲線Fig.2 Survival analysis of two HCC molecular typing
圖3 基于NMF模型構建肝細胞癌分子分型Fig.3 Molecular classification of HCC based on NMF model
圖4 10種hub基因在不同肝細胞癌分子分型表達水平Fig.4 Expression level of ten hub genes in different molecular typing of HCC
由以上分析表明,基于10種hub基因表達水平預測的分子分型有望成為潛在肝癌的有效預后指標。本研究通過進一步構建肝癌1~5年死亡概率預測列線圖,比較肝癌分子分型與其它臨床預后變量的關系,從而為肝癌患者的預后情況提供個體化預測。其中臨床預后變量均為分類變量,包括肝癌的TNM分期變量、性別、年齡分層,以及治療方法等,并按照臨床預后變量的重要性由下至上進行排列,每一個預后變量均包括若干個變量取值,每一個變量取值對應分值標尺上的一個分值,總分值標尺和患者死亡概率變量均為連續(xù)性變量?;颊吒伟┓肿臃中驮陬A測模型中的重要程度僅次于T分期,且優(yōu)于M、N分期以及性別年齡分層(見圖5)。該列線圖模型的預測準確性較高,1年生存率的AUC為0.762,3年生存率的AUC為0.749,5年生存率的AUC為0.732。由此可以看出基于10中hub基因構建的肝癌分子分型方法在對肝癌患者的病情評估和預后判斷具有一定的臨床指導意義。
圖5 包含年齡(age)、性別(gender)、腫瘤分期(TMN)、治療方法(treatment type)和分子分型(cluster)等預測因素的肝癌患者1年、3年、5年死亡率的列線圖預測模型Fig.5 Nomogram including age, gender,TMN stage, treatment type,and molecular cluster for 1-,3-, and 5-year overall death rate in patients with HCC
為進一步驗證分子分型方法的可靠性和穩(wěn)定性,基于GEO(Gene Expression Omnibus)數(shù)據(jù)庫的GSE76427數(shù)據(jù)集測序數(shù)據(jù)及臨床信息,采用相同分子分型方法對該數(shù)據(jù)集中的115例肝癌患者進行預測,并對預測結果中的不同分型患者進行生存分析,同時針對分子分型方法中的關鍵基因CDKN2A和FOXO的表達水平進行差異分析。如圖5所示驗證集GSE76427與TCGA數(shù)據(jù)庫的結論相似:生存分析結果均提示cluster2(低危險組)的預后顯著優(yōu)于cluster1(高危險組),且關鍵基因CDKN2A和FOXO1的表達水平也分別符合在cluster2(低危組)和cluster1(高危組)高表達。
為進一步分析影響2種分子分型的肝癌患者分子分型生存率差異的原因,探究高、低危組患者的分子遺傳調控機制的不同。本研究首先在轉錄組水平上,對高危組(Cluster1)和低危組(Cluster2)肝癌患者的轉錄組表達譜進行差異分析,共篩選出顯著差異表達的mRNA共186個(差異倍數(shù)變化值大于2或小于0.50且P<0.05),其中高危組(Cluster1)相較于低危組(Cluster2)共有120個下調基因及17個上調基因(見圖5),10種hub基因表達在高危組,低危組中均具有統(tǒng)計學差異,其中CDKN1A和FOXO1在高危組的表達顯著低于低危組,KARS和CDKN2A在高危組的表達顯著高于低危組,這些hub基因的在高、低危組的表達趨勢與生存分析結果相一致(見表1)。其次利用加權基因共表達網絡分析算法(WGCNA),針對差異表達基因構建共表達模塊,并分別對模塊進行富集分析,重點挖掘和癌癥發(fā)生發(fā)展相關的通路,并展開更深層次的探索。
通過WGCNA分析共鑒定出5個共表達模塊,由于灰色模塊(MEgrey)由沒有共表達的游離基因組成,因此最終確定的有效模塊數(shù)目為4個(見圖6),每個模塊包含基因數(shù)目大于30。為確定與分子分型顯著相關的特異性基因模塊,將基因模塊與肝癌分子分型進行關聯(lián)分析,并計算基因模塊與高、低危兩種分型的相關性系數(shù)和P值。結果顯示(見圖7) MEblue模塊與高危組(Cluster1)具有顯著正相關性(r=0.34,P=3×10-11),而MEbrown、MEgreen模塊與高危組(Cluster1)具有顯著的負相關性(r=-0.4,P=2×10-15)。此外不同基因模塊具有特異性的代謝通路及生物學過程,其中MEblue模塊基因在TECM-受體相互作用、PI3K-Akt信號通路、黏附信號等3個通路上顯著富集,而MEgreen、MEyellow模塊則分別與胰腺分泌、糖胺聚糖生物合成-硫酸乙酰肝素/肝素等通路密切相關,MEbrown模塊中的基因則主要參與細胞周期的調控(見圖8)。結合WGCNA分析和KEGG富集結果,推測高危組富集多種與腫瘤發(fā)生發(fā)展相關的基因與通路,其中包括ECM-受體相互作用,黏附信號通路,以及與腫瘤細胞增殖相關的PI3K-Akt信號通路,而低危組中主要是與細胞周期的改變相關。類似結果在曹穎穎等人在對比高危組和中低危病胃癌患者分析也有所提及(見圖9)[22]。
圖6 GSE76427數(shù)據(jù)集對肝癌分子分型方法的驗證Fig.6 Validation for molecular classification method of HCC by GSE76427 dataset
表2 主要基因模塊的KEGG通路富集結果Table 2 KEGG analysis of genes in major gene modules
圖7 肝癌分子分型差異表達基因的火山圖Fig.7 Volcanic map of differentially expressed genes ofdifferent molecular typing of HCC注:左側藍點為高危組表達水平顯著高于低危組的基因,右側紅點為高危組表達水平顯著低于低危組的基因;10種Hub基因具有文字標注.
圖8 聯(lián)合加權共表達網絡:基因層次聚類樹及基因模塊Fig.8 WGCNA: clustering dendrogram of genes with assigned modules
圖9 基因模塊與肝細胞癌不同分子分型的相關分析Fig.9 Associations between gene modules and different molecular typing of HCC
通過SNP和mRNA表達譜關聯(lián)分析及分子分型模型的構建,本研究基于10種核心基因的表達水平將患者分為高危組和低危組兩類,二者的生存率存在顯著差異。其中核心基因CDKN2A和FOXO1在肝癌分子分型中起到決定性作用,因此我們推測由突變導致的CDKN2A高表達和FOXO1低表達可能與肝癌患者的不良預后密切相關。CDKN2A即細胞周期依賴性激酶抑制基因(Cyclin-dependentkinase inhibitor) ,是一種直接參與細胞周期調控的抑癌基因,由Kamb等于1994年首次報道[23],并以其在腫瘤細胞中的高突變率和抑癌作用而在腫瘤遺傳學和腫瘤分子生物學的研究中受到了廣泛關注。研究表明CDKN2A的缺失、突變和甲基化可導致其編碼兩種細胞周期抑制蛋白p16INK4a和p14ARF異常,其中p16INK4a不能與CDKN2A和CDK6結合,使pRb蛋白磷酸化和轉錄調節(jié)因子E2F釋放,誘導G1期停滯,有助于腫瘤的發(fā)生[24],而p14ARF功能的分子機制比較復雜,可能是通過P14AFP-MDM2-p53途徑起作用[25-26],這兩條途徑的異常普遍存在于各種腫瘤。但本研究基于TCGA數(shù)據(jù)庫的分析結果顯示,CDKN2A在肝癌中屬于不良預后因子并在高危組中高表達。此外通過對TCGA數(shù)據(jù)庫中其它癌癥類型的數(shù)據(jù)分析結果,發(fā)現(xiàn)在子宮內膜癌、腎癌中CDKN2A同樣屬于不良預后因子,類似的結果在Larque A B等[27]關于hpv陰性的喉部鱗狀細胞癌的研究中也有所提及??偠灾瓹DKN2A作為一種重要的抑癌基因,其純合缺失、啟動子甲基化或基因點突變與腫瘤的發(fā)生密切相關,但其mRNA表達水平作為肝癌患者預后因子的研究還不充分,CDKN2A是否為肝癌的不良預后因子還需更加系統(tǒng)、深入的研究和驗證。FOXO又名叉頭蛋白(Forkhead box protein)是一類轉錄因子,廣泛參與到細胞新陳代謝、分化、凋亡、增殖等生命活動中,尤其在細胞周期進程的調控和程序化死亡中起到重要作用。許多研究表明,F(xiàn)OXO的失活與腫瘤的發(fā)生發(fā)展顯著相關,是哺乳動物細胞最重要的一類抑癌基因,并且在多種腫瘤中都可觀察到FOXO轉錄因子的異常表達。FOXO1是叉頭轉錄因子FOXO家族的一個重要成員,F(xiàn)OXO1在肝癌組織中低表達,導致肝癌細胞的細胞周期失控和凋亡異常抵抗,進而加速腫瘤的進展。提高FOXO1的活性,可影響上調細胞周期抑制蛋白p21、p27和下調細胞周期蛋白cyclinD1的表達從而抑制肝癌細胞增殖,并通過激活促凋亡蛋白Bim,誘導肝癌細胞凋亡[28-30]。研究發(fā)現(xiàn),由FOXO1突變引發(fā)的mRNA表達水平的變化,對肝癌患者的分子分型起到重要作用同時與預后存在較強的相關性?;谝陨辖Y果我們推斷,F(xiàn)OXO1可能是肝癌的腫瘤抑制基因,該基因突變導致的表達水平降低可導致肝癌患者生存期縮短。
此外本研究還發(fā)現(xiàn),兩種分子分型的差異表達基因功能,與腫瘤細胞侵蝕、轉移、復發(fā)過程相關的信號通路相關,包括與高危組顯著相關的信號通路包括:ECM-受體相互作用,黏附信號通路[31-32],以及與腫瘤細胞增殖相關的PI3K-Akt信號通路[33-34];而低危組中異常通路信號則主要與細胞周期、胰液分泌異常有關。研究表明,肝癌的發(fā)病早期往往就出現(xiàn)門靜脈侵襲、肝內轉移以及肝外肺臟和骨組織的轉移,而肝癌的侵襲、轉移和術后復發(fā)是影響患者預后的主要因素。惡性腫瘤發(fā)生發(fā)展常常伴有細胞外基質(Extracellular Matrix,ECM)及其細胞表面受體表達的變化[35-36];而黏附信號通路的激活則在細胞分化,發(fā)育以及增殖,凋亡方面起重要作用,并參與腫瘤的侵襲,運動和轉移過程[37];PI3K/Akt/mTOR信號通路則作為細胞內重要信號傳導通路之一,可通過影響下游多種效應分子的活化狀態(tài),維持腫瘤細胞惡性增殖的生物學特性[32]。由此可以看出高危組腫瘤的惡性程度高,侵襲性強,極易復發(fā)和轉移,是造成患者預后較差、生存率較低的主要原因。
利用TCGA數(shù)據(jù)庫中肝癌患者SNP突變數(shù)據(jù)和轉錄組芯片數(shù)據(jù)的聯(lián)合分析,通過蛋白互作網絡篩選出核心基因,并構建肝癌分子分型方法。在沒有任何先驗信息的情況下對肝癌患者進行分子分型,分析結果表明這種分子分型方法對肝癌患者的預后評估具有一定的作用。另外通過 WGCNA和KEGG富集分析探尋了高危、低危兩種分型間的基因表達和異常代謝通路的差異,對造成不同肝癌分子分型患者生存率差異的原因進行進一步研究,同時篩選出的核心基因CDKN2A、FOXO1也可作為肝癌早期診斷,預后監(jiān)測的新型分子標志物以及分子治療的新靶點。
1)CDKN2A和FOXO1在肝癌分子分型中起到決定性作用,且CDKN2A高表達和FOXO1低表達可能與肝癌患者的不良預后密切相關。
2)高危組異常信號通路ECM-受體相互作用,黏附信號通路,PI3K-Akt信號通路可能與惡性程度高,侵襲性強,極易復發(fā)和轉移,預后較差有關。