賈曉晨,賈勇圣,孟文靜,佟仲生
乳腺癌是全球女性最常見的惡性腫瘤之一,發(fā)病率正在逐年上升,死亡率居女性惡性腫瘤的第二位,因此建立準確預測乳腺癌患者預后的工具對于指導臨床診治至關重要[1?2]。目前臨床上主要通過年齡、腫瘤大小、淋巴結轉(zhuǎn)移情況以及組織學分級等臨床病理特征評價乳腺癌患者預后[3]。乳腺癌是在分子水平上高度異質(zhì)性的腫瘤,根據(jù)雌激素受體(ER)、孕激素受體(PR)、人表皮生長因子受體?2(HER?2)、Ki?67蛋白表達的結果將乳腺癌分為Luminal A型、Luminal B型、HER?2過表達型及Basal?like型,不同分子亞型的乳腺癌患者的預后差異明顯[4?5]。癌癥基因組圖譜數(shù)據(jù)庫(The Cancer Genome Atlas,TCGA)涵蓋33個癌種,包含11 000例患者的腫瘤樣本和與之對應的正常組織樣本,是由美國國家癌癥研究所(National Cancer Institute,NCI)及美國國家人類基因組研究所(National Human Genome Research Institute,NHGRI)啟動并完成的對人類腫瘤基因組進行大規(guī)模測序得到的基因組變異圖譜[6?7]。本研究利用TCGA數(shù)據(jù)庫中的乳腺癌數(shù)據(jù)分析乳腺癌樣本和正常樣本中差異表達的基因,從中篩選并建立可以獨立預測乳腺癌患者預后的多基因預后模型,并在總體乳腺癌患者和根據(jù)臨床病理特征分組的各乳腺癌亞組中驗證該模型的預測價值。
1.1 一般資料 從TCGA數(shù)據(jù)庫中選取乳腺癌患者的mRNA數(shù)據(jù),同時下載與患者相關的臨床數(shù)據(jù)。提取的臨床數(shù)據(jù)信息包括總生存期(overall survival,OS)、年齡、ER狀態(tài)、HER?2表達情況、腫瘤大小、淋巴結轉(zhuǎn)移情況和臨床病理分期。OS定義為從患者診斷日期開始到死亡日期截止。本文所有下載數(shù)據(jù)均截止于2017年12月25日。
1.2 方法 應用R語言軟件edgeR包對下載的數(shù)據(jù)進行表達值的標準化,采用DEGseq包分析和篩選出在乳腺癌組織樣本和正常組織樣本中的差異表達的基因,即差異基因(differentially expression genes,DEGs)。采用Survival包通過單因素Cox回歸分析對DEGs進行篩選,篩選出影響患者總體生存期的DEGs,納入多因素Cox回歸分析建立多基因預后預測模型并計算預后評分(prognostic index,PI),根據(jù)評分中位值將患者分為高風險組及低風險組。臨床特征分組及變量賦值如下:根據(jù)年齡分為高年齡組(≥60歲),低年齡組(<60歲);根據(jù)ER狀態(tài)分為ER陽性組和ER陰性組;根據(jù)腫瘤大小分為T1組(腫瘤最大徑≤2 cm),T2組(2 cm<腫瘤最大徑≤5 cm),T3組(腫瘤最大徑>5 cm),T4組(侵犯胸壁及皮膚);根據(jù)淋巴結轉(zhuǎn)移狀態(tài)分為淋巴結陽性組和淋巴結陰性組;根據(jù)美國癌癥聯(lián)合委員會(American Joint Committee on Cancer,AJCC)乳腺癌臨床病理分期分為Ⅰ期組、Ⅱ期組、Ⅲ期組和Ⅳ期組。
1.3 統(tǒng)計學方法 采用R語言edgeR和DEGseq包篩選差異基因,差異倍數(shù)(Fold Change,F(xiàn)C)采取log2處理,篩選標準為:∣log2FC∣>1且P<0.05。通過R語言Survival包進行單因素和多因素Cox比例回歸模型篩選,并建立多基因預后模型。通過SPSS 22.0軟件將臨床病理因素及預后評分納入單因素和多因素Cox回歸模型分析乳腺癌患者生存的影響因素,P<0.05為差異有統(tǒng)計學意義。生存分析采用Kaplan?Meier(K?M)法,根據(jù)年齡、ER狀態(tài)、HER?2表達情況、淋巴結轉(zhuǎn)移狀態(tài)及病理分期,驗證多基因預后模型在總體和各亞組乳腺癌患者中的預后預測價值;受試者工作特征(ROC)曲線用來評價多基因預后模型的有效性和敏感性,計算曲線下面積(AUC)。
2.1 TCGA數(shù)據(jù)庫中選取的乳腺癌患者的臨床特征 TCGA數(shù)據(jù)庫中共下載了1 109例乳腺癌組織樣本和113例正常組織樣本的mRNA表達信息,同時下載1 097例乳腺癌患者的臨床信息,對可以提取到完整臨床數(shù)據(jù)的709例乳腺癌患者的相關數(shù)據(jù)進行整理并分析,納入患者的臨床特征見表1。
Tab.1 Clinical characteristics of 709 patients with breast cancer in TCGA database表1 TCGA數(shù)據(jù)庫中709例乳腺癌患者的臨床特征
2.2 差異基因的篩選以及多基因預后模型的建立 篩選出乳腺癌組織和正常組織中差異基因共2 142個,其中上調(diào)1 353個,下調(diào)789個。2 142個差異基因經(jīng)過單因素Cox回歸模型篩選后,共有18個差異基因可能影響患者的總體生存期,分別是CEL、POU3F2、CYP24A1、FABP7、LOC100190940、MURC、MYBPC1、TUBA3D、GCGR、NPY1R、LRP1B、FGFBP1、PRSS2、SLC25A47、ARPP21、LINC01854、DLGAP1-AS4及IGF2BP1。將上述18個基因進行多因素Cox分析后,共篩選出羧基酯脂肪酶(CEL)、POU區(qū)域轉(zhuǎn)錄因子(POU3F2)、維生素D?24羥化酶(CYP24A1)、脂肪酸結合蛋白7(FABP7)、MURC、G蛋白偶聯(lián)受體(GCCR)、低密度脂蛋白受體相關蛋白?1B(LRP1B)及絲氨酸蛋白酶2(PRSS2)等8個基因并建立預后預測模型,見表2。預后評分公式為:PI=0.156×CEL的表達量+0.112×POU3F2的表達量-0.071×CYP24A1的表達量-0.065×FABP7的表達量+0.135×MURC的表達量-0.201×GCGR的表達量-0.063×LRP1B的表達量-0.090×PRSS2的表達量。根據(jù)預后評分公式計算709例患者的中位PI值為0.98,將評分<0.98的354例患者納入低風險組,評分≥0.98的355例患者納入高風險組。
2.3 乳腺癌患者生存影響因素的Cox回歸分析 納入Cox回歸分析的自變量賦值如下:年齡(歲),ER狀態(tài)(陰性=0,陽性=1),HER?2狀態(tài)(陰性=0,陽性=1),腫瘤大?。═1期=1,T2期=2,T3期=3,T4期=4),淋巴結狀態(tài)(陰性=0,陽性=1),病理分期(Ⅰ期=1,Ⅱ期=2,Ⅲ期=3,Ⅳ期=4),八基因模型(PI<0.98=0,PI≥0.98=1);因變量賦值如下:總體生存期(天)及生存狀態(tài)(存活=0;死亡=1)。單因素Cox回歸模型分析結果顯示,年齡、腫瘤大小、淋巴結轉(zhuǎn)移情況、病理分期及八基因預后模型可能是乳腺癌總體生存期的影響因素(P<0.05),見表3。將可能影響乳腺癌預后的因素納入多因素Cox回歸模型分析,結果顯示年齡、病理分期、八基因預后模型是乳腺癌患者預后的獨立影響因素(P<0.05),見表4。
Tab.3 Factors related with overall survival for 709 patients with breast cancer in univariate Cox proportional hazard analysis表3 單因素Cox回歸分析影響709例患者總體生存期的因素
Tab.4 Factors related with overall survival for 709 patients with breast cancer in multivariate Cox proportional hazard analysis表4 多因素Cox回歸分析影響患者總體生存期的因素
2.4 八基因預后模型與各臨床病理特征關系 在共709例患者中,將低風險組和高風險組的乳腺癌患者的總生存期進行對比,結果顯示低風險組的中位OS(2.75年)較高風險組(1.92年)明顯延長,總生存率優(yōu)于高風險組(Log rankχ2=63.700,P<0.01),見圖1A。ROC曲線的AUC值為0.707(零假設:實面積=0.5,P<0.001),提示八基因模型預測預后能力較好,見圖1B。除病理分期Ⅳ期外,在各亞組中,預后評分為低風險組患者的總生存率高于高風險組(P<0.01),見表5。
Fig.1 Kaplan?Meier plots(A)and ROC curves(B)of overall survival in 8?gene signature and prognosis in 709 patients with breast cancer圖1 709例乳腺癌患者中八基因預后模型與預后關系的生存曲線Kaplan?Meier分析(A)及ROC曲線分析(B)
本研究建立了八基因預后預測模型,在總體乳腺癌患者及各乳腺癌亞組中進行了驗證,證實八基因預后模型可以預測乳腺癌患者的預后。
CEL參與肝臟中膽固醇酯的攝取及降解過程,影響脂類的代謝,有研究證實CEL突變可能與非酒精性脂肪肝相關肝細胞癌和胰腺癌的發(fā)生有關[8?9]。POU3F2通過調(diào)節(jié)腫瘤相關NADH氧化酶的表達水平參與腫瘤形成的過程,POU3F2過表達可能會促進胃癌細胞的增殖、遷徙及侵襲[10]。CYP24A1被證實在多個癌種中過表達,目前已經(jīng)證實CYP24A1的過表達與結直腸癌、乳腺癌的發(fā)生密切相關[11?12]。在膠質(zhì)母細胞瘤、腎透明細胞腫瘤中,細胞的增殖、浸潤都可能與FABP7的表達上調(diào)有關,也有報道證實,在基底樣乳腺癌中FABP7基因高表達預示著較差的預后[13?15]。MURC/cavin?4與小凹蛋白一起參與調(diào)節(jié)心肌功能和小凹結構的形成和功能,有報道稱MURC/cavin?4基因沉默阻止了橫紋肌肉瘤細胞的分化[16?17]。GCGR 是 B 類 G 蛋白偶聯(lián)受體(G protein coupled receptor,GPCR)的一員,參與維持機體血糖的穩(wěn)定,是2型糖尿病病生理過程的重要影響因素[18]。LRP1B是低密度脂蛋白(LDL)家族的一員,有研究證實,LRP1B可能是非小細胞肺癌和胃癌的腫瘤抑制因子[19]。多個研究報道,PRSS2可以減輕胰腺內(nèi)胰蛋白酶活性,對慢性胰腺炎起到保護作用[20]。
Tab.5 Association between eight-gene signature and prognosis in patients of subgroups(Kaplan-Meier method)表5 八基因模型與各亞組乳腺癌患者預后的關系(Kaplan-Meier方法)
目前乳腺癌預后預測工具包括第一代預后標志物(21基因檢測,MammaPrint,Genomic Grade Index)[21]和第二代預后標志物(Prosigna,EndoPredict,乳腺癌指數(shù))[22]。美國國家癌癥網(wǎng)絡(NCCN)指南推薦乳腺癌21基因檢測適用對象為:Ⅰ期或Ⅱ期、ER陽性、淋巴結陰性的新確診乳腺癌;淋巴結陽性(1~3個)、ER陽性的絕經(jīng)后浸潤性乳腺癌患者,可以評估是否需要化療。目前現(xiàn)有的乳腺癌預后標志物僅適用于ER陽性的早期乳腺癌,對于ER陰性、淋巴結轉(zhuǎn)移大于3個的乳腺癌患者仍缺乏有效的預后預測手段[23?24]。在本研究中,八基因模型在不同臨床病理分組(Ⅳ期除外)的患者中均具有較好的預后預測價值,特別是對于淋巴結陽性,病理分期Ⅱ期和Ⅲ期以及HER?2陰性和陽性的患者。
本研究仍存在許多不足和問題亟待解決:(1)多基因預后模型的預測能力仍需大量多中心的循證醫(yī)學證據(jù)證實。(2)多基因預后模型對于不同亞型乳腺癌患者的治療方案選擇及治療周期的指導意義尚不明確。(3)由于經(jīng)濟、技術等局限性,多基因檢測模型在未來臨床應用的前景仍不明確。(4)被納入的多基因模型的基因功能和參與的機制尚不明確,與乳腺癌的發(fā)生、發(fā)展的關系仍需要大量的研究進一步印證。
建立多基因預后模型比臨床病理指標更能提供精確的預后評價指導,可以減少醫(yī)療資源的浪費,對個體化治療方案的選擇具有重要的參考價值,使患者從臨床獲益。