陳彬彬 葉威 黃約諾 方濤 林雪嬌 董曉亭
肺腺癌(lung adenocarcinoma,LUAD)是肺癌中常見的病理類型,建立準(zhǔn)確預(yù)測LUAD 患者預(yù)后的工具有利于指導(dǎo)臨床診治[1]。自噬(autophagy)是溶酶體將細胞內(nèi)受損、變性或衰老的蛋白質(zhì)以及細胞器進行消化降解的過程[2]。自噬在腫瘤發(fā)生、發(fā)展中發(fā)揮著雙刃劍的作用:在正常情況下,細胞自噬防止致癌的蛋白質(zhì)和細胞器等積累,維持細胞的穩(wěn)定;在腫瘤細胞中,細胞自噬可以降解非功能細胞器提供營養(yǎng)給癌細胞促進生長[2]。ATGs 的下調(diào)能夠通過抑制Hedgehog 信號通路增強抗LUAD 的療效[3]。本研究利用出公共數(shù)據(jù)庫篩選出生存相關(guān)的自噬基因(autophagy gene,ATG),建立LUAD-ATG 預(yù)后模型并加以驗證其應(yīng)用價值。
1.1 數(shù)據(jù)下載整理 從癌癥基因數(shù)據(jù)庫(The cancer Genome Atlas,TCGA)中選擇LUAD 患者的RNA 表達數(shù)據(jù),提取與患者相關(guān)的臨床數(shù)據(jù)。從人類自噬數(shù)據(jù)庫中(Human Autophagy Database http://www.autophagy.lu)查找自噬相關(guān)基因。本文的所有下載數(shù)據(jù)截至2021 年1 月23 日。
1.2 自噬差異基因表達 從TCGA 數(shù)據(jù)庫中篩選出LUAD 組織和正常組織樣本中ATGs 的表達數(shù)據(jù)。通過R(v4.0.3)軟件運用Wilcox 檢驗篩選LUAD 癌組織樣品和正常樣品中差異表達的ATGs。篩選標(biāo)準(zhǔn)為:|logFC|>1,F(xiàn)DR<0.05。為了進一步探索潛在生物學(xué)功能,調(diào)用中“org.Hs.eg.db”“enrichplot”和“gplot2”包進行GO 功能注釋分析,P<0.05 被認為是有意義的生物學(xué)通路。
1.3 預(yù)后相關(guān)的自噬基因 采用Survival 包先后運用單、多因素COX 回歸篩選出影響患者生存期的ATGs(P 值<0.05)。此外,運用多因素Cox 回歸計算出預(yù)后相關(guān)ATGs 的相關(guān)系數(shù)(coefficient,coef)并計算每個樣本的風(fēng)險值(risk score,RS),從而建立預(yù)后模型。
RS=a1*coef1+a2*coef2......an*coefn
a 代表預(yù)后相關(guān)TAGs 的表達量,coef 代表預(yù)后相關(guān)TAGs 的相關(guān)系數(shù)。
然后根據(jù)RS 的中位數(shù)將所有患樣本分為高風(fēng)險組和低風(fēng)險組,運用Kaplan-Meier 生存曲線評價高、低風(fēng)險組的生存差異,P<0.05 被認為生存差異有統(tǒng)計學(xué)意義。進一步判斷獨立預(yù)后因素,通過Survival 包對年齡、性別、TNM 分期、臨床分期和RS 多個因素進行單因素COX 分析。TMN 分期能夠?qū)δ[瘤進行準(zhǔn)確的分期,指導(dǎo)臨床腫瘤治療,其中T 是指照腫瘤大小,N 是指淋巴狀態(tài),M 是指遠處轉(zhuǎn)移狀態(tài)。為了排除混雜因素的干擾,對上述多個影響因素進行多因素COX 分析。最后采用受試者工作特征(receiver operator characteristic,ROC)曲線評估預(yù)測模型的準(zhǔn)確性。其中曲線下面積(area under the curve,AUC),AUC>0.06 被認為是可以接受的預(yù)測。
1.4 臨床相關(guān)性分析 運用R 軟件中beeswarm 包繪采用Wilcox 檢驗來比較預(yù)后相關(guān)的ATGs 與腫瘤大小、淋巴結(jié)狀態(tài)、遠處轉(zhuǎn)移、臨床分期、性別、年齡之間的相關(guān)性。P<0.05 被認為差異有統(tǒng)計學(xué)意義。
2.1 自噬相關(guān)差異基因的篩選 TCGA 數(shù)據(jù)庫中共下載了535 例LUAD 組織樣本和59 例癌旁組織樣本的mRNA 表達數(shù)據(jù)及對應(yīng)的臨床信息。采用Wilcox 檢驗所得P 值的對數(shù)-lg(pvalue)為縱坐標(biāo),以差異倍數(shù)的對數(shù)值log2(fold change,F(xiàn)C)為橫坐標(biāo)繪制火山圖。以|logFC|>1,F(xiàn)DR<0.05 為標(biāo)準(zhǔn)篩選出30 個差異表達ATGs,其中HSPA5、IFNG、P4HB、ATIC、PTK6、ERO1A 等18 個基因上調(diào),DLC1、CCL2、DAPK2、PRKCQ、FOS 等12 個基因下調(diào),進一步通過箱線圖展示ATG 在腫瘤組織和癌旁組織的差異表達情況(P<0.05),見圖1。
圖1 肺腺癌和癌旁樣本的差異表達的自噬基因
為了揭示差異TAGs 的潛在功能,用clusterProfiler 包對差異表達的ATGs 進行功能分析,分別展示了分子功能(molecular function)、生物過程(biological process)、細胞組成(cellular component)三個部分GO分類條目(P<0.05)。圖2 顯示,主要與內(nèi)源性凋亡、未折疊蛋白反應(yīng)、ErbB-2 信號通路等相關(guān)。
圖2 差異表達的自噬基因的GO 富集分析
2.2 ATG 預(yù)后模型的建立 通過單因素Cox 回歸分析以P <0.01 為閾值篩選出ERN1、ATG16L2、VEGFA、CCR2、ATG2A、DDIT3、CFLAR、IRGM 等共有28 個可能影響患者總體生存期的ATGs,其中HR>1表示高風(fēng)險基因,HR<1 表示低風(fēng)險因素,P<0.05 表示差異有統(tǒng)計學(xué)意義(見圖3)。進一步采用多因素Cox 分析優(yōu)化,篩選出RAC1、SQSTM1、CD46、NRG3、IKBKB、VMP1、WIPI1、FKBP1B、IKBKE 在內(nèi)的9 個預(yù)后相關(guān)ATGs。其中CD46、NRG3、IKBKB、VMP1、IKBKE、WIPI1 被認為是危險因素,高表達與較差生存期相關(guān);高表達的RAC1、SQSTM1、FKBP1B 被認為是保護因素,過度表達能夠延長生存期。見表1。
圖3 肺腺癌差異表達的自噬基因單因素COX 回歸分析注:Hazard ration(HR)為風(fēng)險比;pvalue 為P值
表1 9 個自噬基因的多因素COX 回歸分析
根據(jù)風(fēng)險值公式計算的各個樣本RS 值并將LUAD 患者分為高風(fēng)險組、低風(fēng)險組。為了進一步驗證結(jié)果準(zhǔn)確性,圖4A 運用Kaplan-Meier 生存曲線進行分析發(fā)現(xiàn)低RS 組具有更長的生存期(P<0.05)。此外,通過將所有的患者跟進RS 進行排名,以觀察其生存率。隨著RS 越高,死亡患者數(shù)量越多(見圖4B-C)。圖4D 顯示,LUAO 自噬相關(guān)模型中ATGs 在高風(fēng)險組、低風(fēng)險組的表達量。
圖4 風(fēng)險值與生存時間/生存狀態(tài)、基因表達量之間的關(guān)系
2.3 生存分析及ROC 曲線 納入Cox 回歸分析的自變量中的連續(xù)變量為RS,年齡、TMN 分期、病理分期等為分類變量。單因素Cox 回歸模型分析結(jié)果顯示,RS、腫瘤原發(fā)灶情況是影響癌總體生存期的危險因素(P<0.05),見圖5A。多因素Cox 回歸模型分析結(jié)果顯示,RS、腫瘤原發(fā)灶情況是LUAD 患者預(yù)后的獨立影響因素(P<0.05),見圖5B。
圖5 單因素(A)和多因素(B)分析患者預(yù)后影響因素
ROC 曲線分析影響因素與5 年的生存率之間的關(guān)系,RS 的ROC 曲線的AUC 值最大,為0.659,認為RS 可作為LUAD 獨立預(yù)后指標(biāo)。見圖6。
圖6 LUAD 預(yù)后預(yù)測模型的ROC 曲線分析
2.4 不同臨床特征下自噬相關(guān)基因表達水平情況進一步分析9 個預(yù)后相關(guān)ATGs 與臨床特征的相關(guān)性(見圖7-8),IKBKB 與臨床分期、腫瘤原發(fā)灶情況、腫瘤淋巴結(jié)情況顯著相關(guān)(P<0.05);NRG3 在腫瘤淋巴結(jié)情況顯著相關(guān)(P<0.05);FKBPIB 與性別具有相關(guān)性(P<0.05),在女性中FKBPIB 的表達量更多。
圖7 CD46、FKBP1B、IKBKB、IKBKE、NRG3 與臨床特征之間的相關(guān)性
圖8 RAC1、SQSTM1、VMP1、WIPI1 與臨床特征之間的相關(guān)性
自噬既是一種促細胞生存機制,也是一種程序性細胞死亡機制。越來越多證據(jù)證明自噬不僅能夠為癌細胞提供能量,而且能夠從各個途徑促進癌癥侵襲及轉(zhuǎn)移[4]。Wang等[5]對393 例接受了放射治療的北美非小細胞肺癌患者進行研究,通過對ATG2B、ATG10、ATG12 ATG16L2 在內(nèi)的4 個ATGs 中的9個潛在功能單核苷酸多態(tài)性進行基因分型,發(fā)現(xiàn)ATG16L2 rs10898880 CC 變異基因型患者的無局部復(fù)發(fā)生存率、無局部區(qū)域進展生存率和總生存率較好,表明該位點的多態(tài)性參與了抗腫瘤治療和肺部炎癥的過程,也提示自噬以某種方式參加腫瘤的病理變化。NRG3 是神經(jīng)調(diào)節(jié)蛋白家族之一(其它成員包括NRG1、NRG2 等),是ErbB 家族受體酪氨酸激酶的配體[6]。近年研究顯示,NRG-1 與非小細胞肺癌、食管癌、甲狀腺癌等多種腫瘤的發(fā)生、發(fā)展密切相關(guān),其作用過程可能涉及腫瘤相關(guān)的信號通路分子改變[7-9]。但是關(guān)于NRG3 尚未針對癌癥進行過研究。IKBKB 是組成IKK 復(fù)合體的重要催化亞基之一,其在IKK 復(fù)合體激活NF-κB 過程中發(fā)揮重要作用[10]。而NF-κB 異常激活存在腫瘤細胞和腫瘤微環(huán)境中,被認為在乳腺癌、肝癌、肺癌、前列腺癌在內(nèi)的多種腫瘤發(fā)生、發(fā)展發(fā)揮著重要的作用[11-14]。此外,IKBKB的高表達與乳腺癌耐順鉑耐藥性相關(guān),可能通過抑制FOXO3 而導(dǎo)致耐藥性的產(chǎn)生[15]。Qi等[16]通過A549細胞中轉(zhuǎn)染pcDNA3.1/IKBKB 質(zhì)粒過表達了IKBKB基因,發(fā)現(xiàn)IKBKB 高表達的A549 細胞耐藥性明顯增加,明顯抑制細胞凋亡。這可能與激活NF-κB 信號通路有關(guān),導(dǎo)致耐藥性的產(chǎn)生。
對差異表達的ATGs 進行GO 分析發(fā)現(xiàn),較多的基因富集在凋亡信號通路、未折疊蛋白反應(yīng),這與以前的研究結(jié)論是一致的:腫瘤細胞通過引起的錯誤折疊的蛋白質(zhì)和受損的細胞器來消除細胞器的壓力[17]。ErbB-2 信號通路在腫瘤發(fā)生中發(fā)揮著重要的作用,ERBB2 種族突變存在于肺癌患者中[18]。本研究發(fā)現(xiàn),ErbB-2 信號通路上富集到多個ATG,側(cè)面說明ATGs 也可通過這種經(jīng)典的癌癥通路影響腫瘤進展。
進一步使用單、多COX 回歸分析后確定了9 個與生存相關(guān)的ATGs(RAC1、SQSTM1、CD46、NRG3、IKBKB、VMP1、WIPI1、FKBP1B、IKBKE)并構(gòu)建預(yù)后風(fēng)險模型。根據(jù)風(fēng)險評分中位值分為高、低風(fēng)險組,不同的RS 分組與生存相關(guān),擁有不同臨床特征(P<0.05)。通過繪制RS 分布、Kaplan-Meier 分析證實,相較于高RS 組,低RS 組患者的預(yù)后更好。ROC曲線具有簡單、直觀的特點,用來評價模型的準(zhǔn)確性。根據(jù)ROC 曲線,9 個ATGs 建立的ATGs 預(yù)后模型AUC 為0.659,進一步證實預(yù)后模型的穩(wěn)定性和可靠性。此外,對RS 和其他因素進行了單、多因素Cox 回歸分析,證實RS 可作為LUAD 患者的獨立預(yù)后預(yù)測因子。
近年出現(xiàn)了許多不同的統(tǒng)計學(xué)方法構(gòu)建的腫瘤預(yù)后模型,包括乳腺癌、肺癌、結(jié)直腸癌等[19-21],有利于臨床診治,推進精準(zhǔn)醫(yī)學(xué)發(fā)展。本研究構(gòu)建的ATG-LUAD 預(yù)后模型仍存下述局限:(1)本模型處于初步建立階段,仍需要更多臨床數(shù)據(jù)驗證模型的可靠性;(2)本模型以TCGA 數(shù)據(jù)庫為基礎(chǔ)構(gòu)建,缺少亞洲人群的轉(zhuǎn)錄組數(shù)據(jù),在預(yù)測國人生存期方面的準(zhǔn)確性較差。