楊永 張蕾 舒鵬
胃癌(gastric cancer,GC)是常見惡性腫瘤,其發(fā)病率在消化道惡性腫瘤中排名第一,是全球范圍內(nèi)癌癥導(dǎo)致死亡的第四大原因[1]。近年來,隨著手術(shù)治療和靶向藥物的應(yīng)用等治療方法的進(jìn)步和發(fā)展,GC 患者的生存時間得到了一定程度的延長[2],但總體預(yù)后仍然不盡如人意,超過一半的晚期GC 患者出現(xiàn)局部復(fù)發(fā)或遠(yuǎn)處轉(zhuǎn)移,5 年生存率僅為5%~10%[3]。GC 具有廣泛的異質(zhì)性,不同患者的臨床表征和預(yù)后各異。測序技術(shù)可以從整個基因組水平分析疾病發(fā)生和發(fā)展的潛在變化,已逐步成為檢測疾病發(fā)生和發(fā)展的重要手段之一。一些研究已經(jīng)開發(fā)出基于基因表達(dá)的標(biāo)志物用于GC 預(yù)后預(yù)測[4-6]。然而,受限于GC 異質(zhì)性,大多數(shù)標(biāo)志物的預(yù)測效能較低,不能直接應(yīng)用于臨床實踐。因此,如何根據(jù)不同患者的個體異質(zhì)性,尋找一種可靠而方便的生物標(biāo)志物來進(jìn)行GC 預(yù)后評估,是目前臨床上急需解決的問題。有研究將GC 劃分為具有不同分子和臨床特征的4 種亞型,其中上皮間質(zhì)轉(zhuǎn)化(epithelial-mesenchymal transition,EMT)亞型的預(yù)后最差[7]。因此識別惡性程度高的亞型的內(nèi)在分子機制有助對GC 患者進(jìn)行風(fēng)險評估,并制定更精準(zhǔn)的定向治療策略。代謝重編程是癌癥的重要特征之一。代謝異常與GC 的發(fā)生、增殖、侵襲和轉(zhuǎn)移有關(guān)[8]。流行病學(xué)研究發(fā)現(xiàn),肥胖人群GC 患病率較高,GC 病理組織中觀察到脂質(zhì)積累[9]。一些研究發(fā)現(xiàn)GC 患者存在代謝組異常,且這種異常與GC 的進(jìn)展和侵襲密切相關(guān)[10-11]。因此,基于代謝基因開發(fā)GC 的預(yù)后標(biāo)志物在理論上具備可行性。本研究以整合網(wǎng)絡(luò)分析為主要手段,探討代謝相關(guān)基因調(diào)控EMT 亞型的機制,篩選出主調(diào)控EMT 亞型的代謝標(biāo)志基因,構(gòu)建基于代謝相關(guān)基因的GC 預(yù)后模型(metabolism-related prognostic signature for GC,MPSGC),并綜合分析MPSGC 的內(nèi)在生物學(xué)和臨床應(yīng)用意義,以指導(dǎo)對GC 患者進(jìn)行精準(zhǔn)的預(yù)后評估,為患者臨床治療方案的制定提供新的依據(jù)。
1.1 資料 數(shù)據(jù)來源于基因綜合表達(dá)(gene expression omnibus,GEO)數(shù)據(jù)庫的4 個公共隊列,包含798例GC 患者的轉(zhuǎn)錄譜數(shù)據(jù),隊列名稱為GSE15459(192例)、GSE26901(109 例)、GSE13861(65 例)和GSE26253(432 例)。使用“GEOquery”R 包[12]獲取每個隊列的轉(zhuǎn)錄譜數(shù)據(jù)及對應(yīng)的臨床信息。應(yīng)用多陣列對數(shù)健壯算法對每個隊列的轉(zhuǎn)錄譜數(shù)據(jù)進(jìn)行背景校正和四分位數(shù)歸一化處理,探針I(yè)D 被轉(zhuǎn)換為基因符號;若有多個探針I(yè)D 對應(yīng)相同的基因符號,則保留平均值最高的探針I(yè)D 表示相應(yīng)的基因。GC 的分子分型信息來源于Tsekrekos 等[9]的研究。以GSE15459 為訓(xùn)練數(shù)據(jù)集,GSE26901、GSE13861、GSE26253 為驗證數(shù)據(jù)集。收集所有患者臨床資料,見表1。
表1 患者臨床資料
1.2 整合網(wǎng)絡(luò)分析 參照Bai 等[13]的研究中獲取訓(xùn)練數(shù)據(jù)集2 752 個代謝相關(guān)基因。使用“l(fā)imma”R 包篩選EMT 亞型和非EMT 亞型間差異表達(dá)的代謝相關(guān)基因(log2 FC>0.75;Adj-P<0.05)和靶基因(log2 FC >1;Adj-P<0.05)[14]。使用“RTN”R 包整合差異表達(dá)基因構(gòu)建調(diào)控網(wǎng)絡(luò)[15]。使用主調(diào)控分析(master regulator analysis,MRA)算法計算各代謝基因調(diào)控單元中的EMT 基因的超幾何檢驗P值,篩選得到主調(diào)控EMT 亞型的代謝標(biāo)志基因。
1.3 MPSGC 的構(gòu)建和驗證 基于1.2 篩選的代謝標(biāo)志基因的表達(dá)水平和患者生存信息,使用Cox 比例風(fēng)險回歸,對患者進(jìn)行風(fēng)險賦分,根據(jù)風(fēng)險評分構(gòu)建MPSGC。以風(fēng)險評分中位數(shù)為閾值將患者分為高危組和低危組。繪制Kaplan-Meier 生存曲線比較兩組間總體生存期(overall survival,OS)和無復(fù)發(fā)生存期(relapsefree survival,RFS)差異。
1.4 基因集富集分析(gene set enrichment analysis,GSEA) 使用“fgsea”R包進(jìn)行基因集富集分析[16]。設(shè)定P<0.05 為顯著性閾值,置換檢驗次數(shù)設(shè)置為1 000,篩選出具有最高歸一化富集分?jǐn)?shù)的基因集。
1.5 免疫細(xì)胞浸潤分析 結(jié)合CIBERSORT[17]和MCPCOUNTER 算法[18]表征兩組患者腫瘤組織基因表達(dá)譜中免疫細(xì)胞的豐度。其中CIBERSORT 是一種反卷積算法,可以估算出每個腫瘤組織樣本中22 種免疫浸潤細(xì)胞的相對比例。MCPCOUNTER 基于表達(dá)矩陣中的標(biāo)記基因表達(dá)量計算每個樣本中CD3+T 細(xì)胞、CD8+T細(xì)胞、細(xì)胞毒性淋巴細(xì)胞、自然殺傷細(xì)胞、B 淋巴細(xì)胞、來源于單核細(xì)胞(單核系)的細(xì)胞、髓樣樹突狀細(xì)胞、中性粒細(xì)胞、內(nèi)皮細(xì)胞和成纖維細(xì)胞的豐度得分,并比較不同樣本間相應(yīng)細(xì)胞類型的豐度。
1.6 統(tǒng)計學(xué)處理 使用R 3.6.1 統(tǒng)計軟件。使用χ2檢驗比較數(shù)據(jù)集間的性別、病理分型、分期、疾病復(fù)發(fā)和生存狀態(tài)的分布差異,使用Mann-WhitneyU檢驗比較EMT 和非EMT 亞型患者基因表達(dá)值和數(shù)據(jù)集間的年齡差異。使用log-rank 檢驗比較高危組和低危組的生存差異。P<0.05 為差異有統(tǒng)計學(xué)意義。
2.1 代謝標(biāo)志基因的篩選和模型構(gòu)建 基因表達(dá)差異分析顯示,EMT 亞型和非EMT 亞型間有58 個差異表達(dá)的代謝相關(guān)基因和1 276 個差異表達(dá)的靶基因。MRA 篩選出3 個主調(diào)控EMT 亞型的代謝相關(guān)標(biāo)志基因,分別是人脂質(zhì)磷酸磷酸酶相關(guān)蛋白4 型(phospholipid phosphatase related 4,LPPR4)基因,谷氨酰胺-果糖-6-磷酸轉(zhuǎn)氨酶2(glutamine-fructose-6-phosphate transaminase 2,GFPT2)基因和硫酸酯酶1(sulfatase 1,SULF1)基因,見表2。相比非EMT 亞型,EMT 亞型中這3 個基因的表達(dá)值均顯著升高(均P<0.01),見圖1。Cox 比例風(fēng)險回歸分析顯示,3 個基因的回歸系數(shù)分別為0.148,-0.112 和0.373,風(fēng)險評分=(0.148×LPPR4 基因表達(dá)值)-(0.112×GFPT2 基因表達(dá)值)+(0.373×SULF1 基因表達(dá)值)。根據(jù)風(fēng)險評分中位數(shù)將納入患者劃分為不同風(fēng)險組,高危組EMT 亞型患者比例更高,患者腫瘤-淋巴結(jié)-遠(yuǎn)處轉(zhuǎn)移(tumor-nodemetastasis,TNM)分期多為Ⅲ期和Ⅳ期,見圖2(插頁)。
圖1 EMT 和非EMT 亞型3 個基因表達(dá)值比較
圖2 根據(jù)風(fēng)險評分劃分的風(fēng)險組
表2 主調(diào)控分析篩選出的代謝標(biāo)志基因
2.2 MPSGC 的構(gòu)建與驗證評估 Kaplan-Meier 曲線顯示,在1 個訓(xùn)練數(shù)據(jù)集和3 個驗證數(shù)據(jù)集中,高危組OS均明顯短于低危組,HR分 別 為2.126(95%CI:1.413~3.322)、1.432(95%CI:1.013~1.901)、2.413(95%CI:1.411~4.243)和3.541(95%CI:1.612~7.723),均P<0.05,見圖3;高危組RFS 也顯著短于低危組,3 個驗證集的HR分別為1.523(95%CI:1.133~2.014)、2.142(95%CI:1.232~3.503)和4.832(95%CI:2.102~10.931),均P<0.05,見圖4。
圖3 訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集中兩組患者的總生存曲線
圖4 驗證數(shù)據(jù)集中兩組患者的無復(fù)發(fā)生存曲線
2.3 GSEA 分析 富集分析結(jié)果表明,轉(zhuǎn)化生長因子(transforming growth factor,TGF)-β 信號傳導(dǎo)、EMT、血管生成、黏著斑、血管平滑肌收縮、黏多糖生物合成硫酸軟骨素等EMT 相關(guān)通路在高危組中呈現(xiàn)顯著富集,見圖5。
圖5 EMT 相關(guān)通路的基因集富集分析
2.4 免疫細(xì)胞浸潤分析 CIBERSORT 分析顯示高危組中M2 巨噬細(xì)胞、M0 巨噬細(xì)胞及中性粒細(xì)胞的比例顯著增加,低危組中幼稚B 細(xì)胞和漿細(xì)胞的比例較高,見圖6A。MCPCOUNTER 分析顯示,高危組中癌癥相關(guān)成纖維細(xì)胞(cancer-associated fibroblasts,CAFs)、內(nèi)皮細(xì)胞、單核/巨噬細(xì)胞豐度較高,低危組中B 淋巴細(xì)胞和自然殺傷細(xì)胞豐度較高,見圖6B。
GC 表現(xiàn)出高度的異質(zhì)性,即使是同一分期階段的患者,臨床轉(zhuǎn)歸也往往相差甚遠(yuǎn)。對GC患者進(jìn)行風(fēng)險評估和預(yù)后預(yù)測有助于識別高風(fēng)險患者和提高個體治療療效。近年來高通量測序技術(shù)飛速發(fā)展,海量大數(shù)據(jù)成為挖掘癌癥新型生物標(biāo)志物的寶庫。大量研究表明,某些特定基因的表達(dá)和GC臨床密切相關(guān),有不少預(yù)后標(biāo)志物也因此被陸續(xù)開發(fā)。然而,這些標(biāo)志物的預(yù)測評估效能有限,難以在臨床工作中推廣普及。
大量證據(jù)表明,腫瘤細(xì)胞通過代謝重編程,發(fā)展出各種異常分解代謝途徑,如癌細(xì)胞中能量產(chǎn)生主要通過糖酵解途徑而非正常的三羧酸循環(huán)。這些異常代謝加劇了腫瘤微環(huán)境的酸性、缺氧狀態(tài),促進(jìn)了腫瘤細(xì)胞的增殖、轉(zhuǎn)移。通過對轉(zhuǎn)錄組數(shù)據(jù)的無監(jiān)督分類,GC 可被聚類為4種分子亞型,其中EMT亞型預(yù)后最差,復(fù)發(fā)率最高。本研究基于轉(zhuǎn)錄組數(shù)據(jù)和代謝相關(guān)基因構(gòu)建的預(yù)后模型,有助于實現(xiàn)對患者的風(fēng)險分層。
本研究構(gòu)建的模型由LPPR4、GFPT2 和SULF1 等3個代謝標(biāo)志基因組成,這些基因在糖類、脂質(zhì)代謝中發(fā)揮重要作用,已被證實與腫瘤的發(fā)生、進(jìn)展和患者預(yù)后密切相關(guān)。LPPR4 為脂質(zhì)磷酸磷酸酶相關(guān)蛋白家族成員,廣泛參與多種生物活性脂質(zhì)磷酸鹽的脫磷酸過程[19],通過Sp1/整合素α/黏著斑激酶(focal adhesion kinase,F(xiàn)AK)信號通路促進(jìn)GC 的腹膜轉(zhuǎn)移;高表達(dá)LPPR4 的GC 患 者總 體 生存 狀 態(tài)不佳[20]。GFPT2 是 己糖胺生物合成的限速酶,催化6-磷酸葡萄糖胺合成[21],激活NF-κB 通路可上調(diào)GFPT2,并促進(jìn)EMT 進(jìn)程[22];高表達(dá)的GFPT2 與結(jié)腸癌的進(jìn)展和轉(zhuǎn)移、侵襲相關(guān)[23]。SULF1 編碼硫酸酯酶1,選擇性地切除硫酸胰腺肝素蛋白聚糖中的6-O-硫酸酯基團,并因此調(diào)節(jié)細(xì)胞生長、增殖、分化等基本信號通路[24];SULF1 在宮頸癌和GC 中表達(dá)升高,增強了宮頸癌細(xì)胞增殖和浸潤能力[25],與GC 患者的耐藥復(fù)發(fā)相關(guān)[26]。本研究使用MPSGC 實現(xiàn)GC 患者的風(fēng)險分層,高危組患者OS 和RFS 均顯著短于低危組。富集分析結(jié)果表明,一些促進(jìn)EMT 的通路在高危組中顯著富集。Fristedt 等[27]研究發(fā)現(xiàn)漿細(xì)胞的浸潤有助于延長GC 患者OS,M2 巨噬細(xì)胞在GC 中提示預(yù)后不良[28],自然殺傷細(xì)胞在GC 中發(fā)揮重要的免疫監(jiān)視作用,通過直接殺傷腫瘤細(xì)胞或分泌相關(guān)細(xì)胞因子而發(fā)揮有效的抗腫瘤活性[29],而CAFs 廣泛參與腫瘤生長轉(zhuǎn)移、微環(huán)境改變、抗藥性產(chǎn)生等進(jìn)程[30]。本研究發(fā)現(xiàn)高危組中M2 巨噬細(xì)胞和CAFs 顯著富集,而低危組中漿細(xì)胞和自然殺傷細(xì)胞豐度更高。這些結(jié)果印證模型定義的風(fēng)險組間存在顯著生物學(xué)差異。
盡管該模型在訓(xùn)練和驗證隊列中表現(xiàn)出良好的預(yù)測效能,然而其存在的不足和缺陷仍需進(jìn)一步重視和改進(jìn)。首先,本研究納入的隊列數(shù)據(jù)由轉(zhuǎn)錄組測序產(chǎn)生,價格高昂,且后續(xù)的分析需要復(fù)雜的計算過程,限制了其在臨床中的推廣;其次,盡管研究結(jié)果在數(shù)個獨立隊列中進(jìn)行驗證,但作為一項回顧性分析納入的信息有限,無法涵蓋不同區(qū)域患者的差異;且腫瘤微環(huán)境成分復(fù)雜,包含范圍廣泛,包括腫瘤核心、浸潤邊緣等,本研究中分析的樣本均取自于腫瘤核心區(qū)域,無法評估腫瘤整體的代謝狀態(tài)。后續(xù)研究可將納入多中心、前瞻性隊列來深入探究代謝標(biāo)志基因的在GC 中的生物學(xué)功能。