蔡 杰, 蔡劍橋, 朱余明, 趙曉剛
(同濟大學(xué)附屬上海市肺科醫(yī)院胸外科,上海 200433)
肺癌是世界第一大癌,每年全球約有200萬的新發(fā)病例和170萬的死亡病例,是惡性腫瘤致死的首要原因[1-3]。非小細胞肺癌(non-small-cell lung carcinoma, NSCLC)約占所有肺癌病例的85%,其中肺腺癌(lung adenocarcinoma, LAD)是最常見的病理類型,約占全部NSCLC病例的50%[2]。遺憾的是,盡管禁煙、空氣治理、肺CT篩查和早期手術(shù)等一些早期干預(yù)措施的施行,超半數(shù)(57%)的NSCLC患者發(fā)現(xiàn)時已是中晚期,其5年生存率僅為6%[1]。過去20年,肺癌的治療進入到傳統(tǒng)治療如手術(shù)、放化療和新興治療如靶向治療、免疫治療相結(jié)合的個體化治療階段[4],及早鑒別不良預(yù)后高風險肺癌患者人群并給予個體化綜合治療將極大改善其預(yù)后。
因此,本研究在獲得TCGA肺腺癌數(shù)據(jù)集的干性指數(shù)mRNAsi基礎(chǔ)上,應(yīng)用加權(quán)基因共表達網(wǎng)絡(luò)分析(WGCNA)篩選得干性相關(guān)基因,并進一步根據(jù)TCGA肺腺癌預(yù)后信息進行LASSO回歸分析構(gòu)建得一個由20個基因組成的風險模型預(yù)測肺腺癌的預(yù)后。最后,為更好地進行臨床應(yīng)用,建立了基于這一風險模型的列線圖,該列線圖能更準確有效地及早鑒別不良預(yù)后高風險肺腺癌患者,為患者帶來臨床獲益。
在TCGA數(shù)據(jù)集(https:∥portal.gdc.cancer.gov/)中下載肺腺癌STAR-Counts原始數(shù)據(jù),進行數(shù)據(jù)標準化和低質(zhì)量數(shù)據(jù)清理,應(yīng)用R語言包“DESeq2”進行肺腺癌和癌旁組織之間的差異表達分析,提取其中的差異表達mRNA(P<0.05且差異倍數(shù)>1.5)。R語言包“clusterProfiler”被用于進行GO和KEGG通路富集分析。
應(yīng)用R語言包“WGCNA”對上訴差異表達mRNA進行WGCNA分析,該分析可根據(jù)基因間的加權(quán)共表達情況對基因進行富集分類。從原始發(fā)表論文獲取肺腺癌干性指數(shù)mRNAsi數(shù)據(jù),對各富集基因集與mRNAsi作相關(guān)分析,從3個與mRNAsi相關(guān)系數(shù)最高的基因集中進一步篩選中樞干性相關(guān)差異表達基因,要求符合模塊身份(module membership, MM)>0.5且基因顯著性(gene significance, GS)>0.5。
將TCGA肺腺癌數(shù)據(jù)集隨機分成試驗組和內(nèi)部驗證組,在試驗組中進行多基因LASSO回歸模型的構(gòu)建。首先,對每個候選中樞干性相關(guān)差異表達基因進行單因素Cox回歸分析并計算P值,當P<0.2時,則納入進一步分析以構(gòu)建LASSO回歸模型。R語言包“glmnet”返回一系列l(wèi)ambdas(λs)值和風險模型。進一步利用“glmnet”包中的“cv.glmnet”函數(shù)進行十折交叉驗證,選擇具有最小平均交叉驗證誤差的λ值,該值對應(yīng)的LASSO模型即是所構(gòu)建的理想LASSO風險模型。
分別在試驗組、內(nèi)部驗證組和外部驗證組中根據(jù)模型公式計算每個患者的風險評分,繪制ROC曲線,靈敏度及特異度之和最大時所對應(yīng)的風險評分即是將肺腺癌患者分為預(yù)后低、高風險組的臨界值。ROC曲線下面積,即AUC值,被用來評估不同變量的預(yù)測準確性。應(yīng)用Kaplan-Meier方法繪制生存曲線,用對數(shù)秩檢驗比較不同組的生存差異。P<0.05被認為結(jié)果具有統(tǒng)計學(xué)意義。
在單因素Cox預(yù)后分析的基礎(chǔ)上,將P<0.1的臨床病理因素(包括干性LASSO模型)納入以構(gòu)建預(yù)測肺腺癌預(yù)后的列線圖。校準曲線和一致性指數(shù)(C指數(shù))被用于評估該列線圖的有效性。決策曲線分析被用于評估列線圖的臨床獲益度。R語言包“rms”被用于完成上述分析。
應(yīng)用R語言包“DESeq2”篩選TCGA肺腺癌數(shù)據(jù)集中的差異表達mRNA,共獲得上調(diào)表達基因4 111個和下調(diào)表達基因3 899個(圖1A)。GO分析結(jié)果顯示,上調(diào)基因主要富集在核分裂、DNA復(fù)制和ATP代謝等通路,下調(diào)基因則主要富集在細胞黏附、MAPK信號和免疫應(yīng)答等通路(圖1B、1C)。KEGG分析結(jié)果顯示,上調(diào)表達基因主要富集在DNA復(fù)制、氨基酸合成和細胞周期等通路,下調(diào)表達基因主要富集在細胞黏附、Ca2+信號和cGMP-PKG信號等通路(圖1D、1E)。
圖1 TCGA肺腺癌差異表達基因篩選
圖2 中樞干性相關(guān)差異表達基因的篩選
將TCGA肺腺癌數(shù)據(jù)集隨機均分為試驗組和內(nèi)部驗證組,在試驗組中進行LASSO模型構(gòu)建。對上述中樞干性相關(guān)差異表達基因進行單因素Cox回歸分析,當P<0.2時,則納入進一步分析以構(gòu)建LASSO回歸模型。R語言包“glmnet”返回一系列LASSO風險模型,每一條曲線即代表一個基因,每一個不同的λ值處所包含的具有非零系數(shù)的基因和相應(yīng)的非零系數(shù)即構(gòu)成該λ值處的一個LASSO風險模型。為進一步挑選最優(yōu)的風險模型,進行十則交叉驗證分析,結(jié)果顯示當λ=0.038 79,該模型的交叉驗證誤差最小(圖3)。
在該λ值處,共獲得20個帶有非零風險系數(shù)的基因,組成的風險模型公式如下: 風險評分=(-0.821 95×PREX1表達狀態(tài))+(-0.475 02×DPH2表達狀態(tài))+(-0.465 33×SLC15A2表達狀態(tài)) +(-0.301 49×ADRB2表達狀態(tài))+(-0.310 36×TFB2M表達狀態(tài))+(-0.242 76×THSD1表達狀態(tài))+(-0.163 58×PRKCE表達狀態(tài))+(-0.158 38×STXBP6表達狀態(tài))+(-0.145 52×ZNF25表達狀態(tài)+(-0.143 29×IL11RA表達狀態(tài))+(-0.101 92×MEST表達狀態(tài))+(-0.075 26×GJC2表達狀態(tài))+(-0.048 07×IL34表達狀態(tài))+(-0.0128 0×CA5B表達狀態(tài))+ (-0.011 42×PREB表達狀態(tài))+(0.004 20×DHFR表達狀態(tài))+(0.075 43×FAM111B表達狀態(tài))+(0.241 86×CDC7表達狀態(tài))+(0.392 36×RBMS2表達狀態(tài))+(0.752 92×IQSEC3表達狀態(tài))(圖3)。在該公式中,基因的低表達狀態(tài)等于0,高表達狀態(tài)等于1。
圖3 肺腺癌干性相關(guān)分子預(yù)后預(yù)測LASSO模型的構(gòu)建
圖4 該LASSO模型的有效性驗證
圖5 基于該LASSO模型的列線圖構(gòu)建及其臨床獲益評估
肺癌是目前世界上第一高發(fā)和致死腫瘤,其中肺腺癌是肺癌最常見病理類型[12]。TNM分期系統(tǒng)是一種確定腫瘤病變范圍的分類方法,被廣泛用于評估患者的腫瘤分期,指導(dǎo)治療并進行預(yù)后評判[13]。然而,由于該分期系統(tǒng)僅關(guān)注臨床病理特征而忽視腫瘤分子遺傳背景的差異,其并不能保證準確可靠地預(yù)測肺腺癌患者的預(yù)后[14]。
腫瘤干性是引起腫瘤惡性進展的重要因素,既往研究已表明部分基因可以影響肺腺癌的干性維持,促進肺腺癌惡性進展,影響肺腺癌術(shù)后預(yù)后。Liu等[15]發(fā)現(xiàn),EHD1結(jié)合CD44形成EHD1/CD44/Hippo/SP1正反饋環(huán)路,促進肺腺癌細胞干性維持和遷移侵襲,導(dǎo)致肺腺癌患者的不良預(yù)后。此外,Xu等[16]發(fā)現(xiàn),SIRPγ連接MST1和PP2A以促進MST1去磷酸化,激活Hippo/YAP信號和CD47表達,導(dǎo)致肺腺癌細胞干性維持和免疫逃脫,高表達SIRPγ預(yù)示肺腺癌的不良預(yù)后。由于腫瘤分子遺傳背景的多樣性和系統(tǒng)性,單一分子標志物因為敏感性和特異性不足,往往無法準確預(yù)測腫瘤的預(yù)后。因此,應(yīng)用特定的分析方法建立多分子標志物的預(yù)測模型,以完善目前的腫瘤分期系統(tǒng),可以實現(xiàn)及早鑒定肺腺癌不良預(yù)后患者,并進行更為密切的隨訪和早期干預(yù),以提高肺腺癌患者的總體生存。
干性指數(shù)mRNAsi由Malta等[8]在2018年提出,其基于TCGA中各腫瘤基因表達數(shù)據(jù)集,應(yīng)用機器學(xué)習方法計算獲得,該指數(shù)能有效評估腫瘤的干性程度。本研究首先篩選得TCGA肺腺癌-癌旁間的差異表達基因,分析差異表達基因與mRNAsi的相關(guān)性以進一步篩選得中樞干性相關(guān)差異表達基因。最后利用R語言包“glmnet”構(gòu)建一系列LASSO風險模型,十折交叉驗證后選擇了平均交叉驗證誤差最小的最優(yōu)風險模型,該風險模型公式由20個基因和對應(yīng)的非零系數(shù)組成。該風險模型中部分基因已經(jīng)被報道與細胞干性或分化有關(guān)。CDC7被發(fā)現(xiàn)可以促進TGF-β介導(dǎo)的平滑肌細胞分化[17]。Fawal等[18]發(fā)現(xiàn),DHFR在腦腫瘤特別是腦腫瘤始動細胞中顯著高表達,靶向DHFR可以抑制腦腫瘤始動細胞的干性維持,促進腦腫瘤始動細胞的良性分化,減少腦腫瘤形成。Huang等[19]發(fā)現(xiàn),PRKCE通過抑制ABCB1的轉(zhuǎn)運及PI3K/Akt、MAPK/ERK信號通路激活,進而抑制腎癌細胞的干性維持。牙周韌帶干細胞是牙周組織再生的主要細胞來源,Hasegawa等[20]發(fā)現(xiàn),MEST在低-高分化牙周韌帶干細胞間顯著差異表達,敲低MEST可顯著抑制牙周韌帶干細胞的增殖及其干細胞標志物如CD105、CD146、p75NTR、N-cadherin和NANOG的表達。
進一步的分析顯示,該LASSO風險模型被證明在試驗組、內(nèi)部驗證組和外部驗證組這3個隊列中均能顯著區(qū)分肺腺癌生存,并且其對肺腺癌1、3和5年預(yù)后均有良好預(yù)測價值。為更好地實現(xiàn)臨床應(yīng)用,本研究基于風險模型進一步構(gòu)建列線圖,校準曲線表明整合風險模型后的列線圖的預(yù)測準確度更高,決策曲線分析證實整合風險模型后的列線圖能使肺腺癌患者的總體臨床收益度顯著提升。
不可否認,本研究還存在一定局限性。首先,除了mRNA之外,lncRNA、microRNA、CpG和單核苷酸多態(tài)性等其他標志物已被證實有一定的腫瘤預(yù)后預(yù)測價值[21-24],更多維數(shù)據(jù)的整合分析將進一步提高風險模型的預(yù)測效率。其次,一些重要的臨床病理指標如病理亞型、胸膜浸潤、脈管內(nèi)癌栓以及影像特征等數(shù)據(jù)無法在TCGA中獲得,這可能會降低整合風險模型后列線圖的預(yù)后預(yù)測價值。最后,本部分研究基于公共數(shù)據(jù)集的分析,未在實際肺腺癌隊列中得到驗證,下一步應(yīng)進行前瞻性臨床試驗以評估該風險模型對肺腺癌預(yù)后的實際預(yù)測價值。
總之,本研究構(gòu)建了一個實用的風險模型能夠預(yù)測肺腺癌的預(yù)后,可能是對目前肺腺癌TNM臨床分期的有效補充。醫(yī)生或者患者可以通過這一風險模型公式對肺腺癌預(yù)后進行個體化預(yù)測,并制定下一步的診療計劃,使社會和國家的醫(yī)療資源得到更為恰當?shù)睦?,符合當前個性化醫(yī)療的大趨勢。