汪 遜,陸雪強(qiáng),侯傳勝,陳 剛
(復(fù)旦大學(xué)附屬金山醫(yī)院泌尿外科,上海 201508)
據(jù)2020年全球癌癥統(tǒng)計報告顯示,前列腺癌是男性死亡率第2的癌癥[1],目前很難通過環(huán)境暴露來完全解釋其發(fā)生發(fā)展[2],已確定的危險因素僅限于高齡、前列腺癌家族史、基因突變(如BRCA1)和疾病(林奇綜合征)[1]。流行病學(xué)研究已證實,前列腺癌是最具遺傳性和最高可抗藥性的癌癥之一[3-4]。約15%的前列腺癌被診斷為預(yù)后不良高風(fēng)險疾病[5]。在臨床上,醫(yī)生主要通過TNM分期、高危因素以及患者基礎(chǔ)情況來判斷患者的生存期,但這類指標(biāo)并不完全準(zhǔn)確。而早期診斷和預(yù)后預(yù)測的困難性往往導(dǎo)致治療不足或過度治療,因此,尋找預(yù)測前列腺癌不良預(yù)后的聯(lián)合標(biāo)志物具有重要意義,新的標(biāo)志物與臨床病理學(xué)特征以及影像學(xué)診斷等結(jié)合使用,可有效減少相關(guān)風(fēng)險[6-7]。在本研究中,我們分析了癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫中前列腺癌的原始基因表達(dá)數(shù)據(jù),以識別參與前列腺癌發(fā)生和進(jìn)展中的關(guān)鍵基因和功能通路;同時結(jié)合患者的臨床病理資料,深入挖掘這些基因的臨床意義,以期尋找相關(guān)標(biāo)志物,更好地判斷前列腺癌的發(fā)展和預(yù)后,為臨床醫(yī)師診療決策提供一定的指導(dǎo)。
1.1 基因表達(dá)譜數(shù)據(jù)從TCGA數(shù)據(jù)庫(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)中下載了498例前列腺癌組織樣本及52例癌旁正常前列腺組織樣本的基因表達(dá)數(shù)據(jù)以及對應(yīng)的臨床病理資料,數(shù)據(jù)下載時間為2021年4月。
1.2 數(shù)據(jù)處理和識別差異表達(dá)的基因?qū)CGA數(shù)據(jù),使用TCGAbiolinks包,進(jìn)行前列腺癌表達(dá)數(shù)據(jù)(Counts/Fpkm)下載和整理,隨后利用 DESeq包, 以|FC| >1 &P<0.05作為識別差異表達(dá)基因(differential expression genes,DEGs)的閾值,進(jìn)行腫瘤和正常樣本的組間差異分析,得到差異上下調(diào)基因。得到所有差異基因后,輸出所有差異表達(dá)基因的表達(dá)矩陣,并用R語言ggplot程序包繪制火山圖,將表達(dá)上調(diào)基因設(shè)置為紅色,下調(diào)基因基因設(shè)置為綠色。
1.3 差異基因通路富集分析為確定篩選出的DEGs的功能,用R軟件對其進(jìn)行了基因本體注釋(Gene Ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。此外,以P<0.05篩選重要通路和功能的臨界值設(shè)置。GO富集分析采用GOseq包對生物過程(biological process,bp)、分子功能(molecular function,mf)和細(xì)胞組分(cellular component,cc)富集的GO term上基因分布情況進(jìn)行了分析。KEGG Pathway顯著性富集分析以KEGG Pathway為單位,應(yīng)用超幾何檢驗,找出與整個基因組背景相比,在DEGs基因中顯著性富集的Pathway。
1.4 KM分析建立基因預(yù)后風(fēng)險模型和臨床參數(shù)的預(yù)后分析用R軟件的survival和survimner包,以該基因表達(dá)的中位數(shù)為二分類變量,采用Kaplan-Meier survival estimate(KM生存分析)以估計篩選出的所有DEGs的生存曲線。以P<0.05作為篩選的臨界值。
1.5 臨床資料分析對1.4中篩選出的基因,進(jìn)行臨床資料分析。根據(jù)臨床資料的情況,使用R軟件的XML等程序包,對前列腺癌患者clinical T category(cT)、pathologic T category(pT)、pathologic N category(pN)、clinical M category(cM)的各個臨床分期分別進(jìn)行了分析。另外,根據(jù)美國癌癥協(xié)會官網(wǎng)(https://www.cancer.org/cancer/prostate-cancer/detection-diagnosis-staging/staging.html)對前列腺癌最新TNM分期的分類,將患者分為4個Stage,并用Wilcoxon秩和檢驗對這4個Stage分期分別進(jìn)行了分析。此外,我們還對篩選出的基因進(jìn)行了腫瘤和正常樣本之間(全部/配對) boxplot圖驗證。
1.6 風(fēng)險預(yù)測以① 年齡≥60歲、② T3~T4、③ N1、④ M1、⑤ Gleason評分≥8、⑥ 復(fù)發(fā)作為預(yù)后不良高風(fēng)險因素,以① 年齡<60歲、② T1~T2、③ N0、④ M0、⑤ Gleason評分<8、⑥ 未復(fù)發(fā)作為低風(fēng)險因素。分別按照年齡、TNM分期、Gleason評分和復(fù)發(fā)情況,將前列腺癌患者分成6組不同的高低風(fēng)險組。DESeq2差異分析尋找篩選出1.4中篩選出的基因的表達(dá)情況。
2.1 DEGs識別和富集分析為了獲得TCGA數(shù)據(jù)集差異表達(dá)的基因,采用DESeq2包根據(jù)|FC| >1和P<0.05的閾值篩選差異表達(dá)基因。共篩選出360個差異基因,其中上調(diào)基因334個,下調(diào)基因26個,火山圖顯示了來自上調(diào)和下調(diào)差異表達(dá)基因的數(shù)量(圖1A)。我們通過GO和KEGG通路富集分析,分析了差異基因所參與的生物學(xué)功能。根據(jù)KEGG 通路富集分析,DEGs主要參與神經(jīng)活性配體受體相互作用相關(guān)通路(圖1B)。GO分析結(jié)果顯示DEGs顯著富集在肌肉系統(tǒng)(bp,圖1C)、肌動蛋白(mf,圖1D)和肌纖維(cc,圖1E),三者的綜合匯總情況見圖1F。
2.2 KM預(yù)后分析我們對篩選出的360個DEGs均進(jìn)行了KM生存分析,以該基因表達(dá)的中位數(shù)為二分類變量,P<0.05作為篩選的臨界值,最終篩選出了12個與OS顯著相關(guān)的基因,分別是PATE1、TGM4、TPSB2、PRLR、UGT2B17、BCAN、KLHL40、MEI4、CACNG7、CRYGD、OR52E8、OLIG2(圖2)。
2.3 TNM分期根據(jù)臨床資料,對篩選出的12個基因與前列腺癌患者cT、pT、pN和cM的相關(guān)性分別進(jìn)行了分析,結(jié)果顯示PRLR、BCAN、TPSB2與cT分期相關(guān)(P<0.05,圖3A~圖3C),TPSB2、CRYGD、UGT2B17與pT分期相關(guān)(P<0.05,圖3D~F),BCAN、CRYGD與pN分期相關(guān)(P<0.05,圖3G~H),OLIG2與cM分期相關(guān)(P<0.05,圖3I)。
A:PRLR基因與臨床T分期;B:BCAN基因與臨床T分期;C:TPSB2基因與臨床T分期;D:TPSB2基因與病理T分期;E:CRYGD基因與病理T分期;F:UGT217基因與病理T分期;G:BCAN基因與病理N分期;H:CRYGD基因與病理N分期;I:OLIG2基因與臨床M分期。圖3 各基因與TNM分期的相關(guān)性分析
此外,我們還對前列腺癌患者的臨床病理資料進(jìn)行了整理,將患者分為4個Stage,并用Wilcoxon秩和檢驗對這4個Stage分期分別進(jìn)行了分析。結(jié)果顯示,TPSB2、UGT2B17、BCAN、CRYGD與Stage分期相關(guān)(P<0.05,圖4)。
A:UGT2B17;B:BCAN;C:CRYGD;D:TPSB2。圖4 各基因與Stage分期的相關(guān)性分析
2.4 前列腺癌高低風(fēng)險組相關(guān)性分析分別按照年齡、TNM分期、Gleason評分和復(fù)發(fā)情況,將前列腺癌患者分成6組不同的預(yù)后高低風(fēng)險組。DESeq2差異分析尋找篩選出的12個基因的表達(dá)情況。結(jié)果顯示,KLHL40在年齡大于等于60組和T3~T4組中表達(dá)更多,UGT2B17和OR52E8在年齡小于60組和T1~T2組中表達(dá)更多(P<0.05,圖5A~B)。KLHL40在N1組中表達(dá)更多,PATE1和OR52E8在N0組中表達(dá)更多(P<0.05,圖5C)。KLHL40在Gleason評分≥8組中表達(dá)更多,PATE1在Gleason評分<8組中表達(dá)更多(P<0.05,圖5E)。KLHL40、PATE1、TGM4、OR52E8在未復(fù)發(fā)組表達(dá)更多(P<0.05,圖5F)。
A:年齡;B:T;C:N;D:M;E:Gleason評分;F:復(fù)發(fā)。紅色為表達(dá)上調(diào)基因,綠色為下調(diào)基因。圖5 各基因與高低危險組的相關(guān)性分析
2.5 樣本配對驗證我們對篩選出的12個基因的表達(dá)量用Wilcox test分別進(jìn)行了正常和腫瘤樣本之間(全部/配對) boxplot圖驗證(圖6)。PATE1、MEI4、CRYGD在正常和腫瘤樣本全部和配對boxplot圖中P值<0.05。
A、B、C:分別代表CRYGD、MEI4、PATE1基因在腫瘤和正常組織(全部)表達(dá)的boxplot圖;D、E、F:分別代表CRYGD、MEI4、PATE1基因在腫瘤和正常組織(配對)表達(dá)的boxplot圖。圖6 正常組均和腫瘤樣本(全部/配對)表達(dá)的boxplot圖
發(fā)現(xiàn)可靠度高且能準(zhǔn)確預(yù)測前列腺癌患者預(yù)后的分子生物標(biāo)志物迫在眉睫。有效的預(yù)后生物標(biāo)志物可提供在沒有治療的情況下特定患者臨床預(yù)后的重要信息,并彌補(bǔ)現(xiàn)有TNM 分期和高危因素等信息指導(dǎo)臨床醫(yī)生決策的不足,對于治療方案的選擇也是有非常大的參考價值。而各種生物信息學(xué)分析技術(shù)如單細(xì)胞測序[8]、蛋白組學(xué)[9]等已廣泛用于識別與前列腺癌相關(guān)的潛在分子標(biāo)記物。與之前的研究相比,我們在識別差異表達(dá)的基因后,通過KM生存分析篩選了與預(yù)后相關(guān)的基因,并結(jié)合患者的臨床病理資料對篩選出的基因與TNM分期和高危因素相關(guān)的臨床意義進(jìn)行了深度挖掘。最后還用Wilcox test分別進(jìn)行了正常和腫瘤樣本之間(全部/配對) boxplot圖驗證。
在篩選出的12個基因中,TPSB2、UGT2B17、BCAN、CRYGD與TNM Stage分期相關(guān)。而在高危因素的分析中,KLHL40、UGT2B17和OR52E8與年齡和原位腫瘤大小相關(guān)。KLHL40、PATE1和OR52E8與淋巴結(jié)轉(zhuǎn)移相關(guān)。KLHL40、PATE1與Gleson評分相關(guān)。KLHL40、PATE1、TGM4、OR52E8與是否復(fù)發(fā)相關(guān)。最后,PATE1、MEI4、CRYGD在腫瘤和正常樣本全部和配對boxplot圖中均通過了驗證。該部分研究結(jié)果已有部分被逐步證實,如UGT2B17在子宮內(nèi)膜癌中呈現(xiàn)明顯的表達(dá)上調(diào)[10],而且該基因的多態(tài)性與前列腺癌易感性有關(guān),其序列的突變會增加罹患前列腺癌的風(fēng)險[11]。
本研究中仍存在一些局限性:首先,這些生物標(biāo)志物的大部分研究都是在歐美人群中進(jìn)行的[12-14],對于中國人群來說,這些標(biāo)志物是否產(chǎn)生相似的影響,對于預(yù)后的判斷和評估作用目前尚無法判斷,有待進(jìn)一步研究。其次,我們無法評估從公共數(shù)據(jù)庫獲取的數(shù)據(jù)的可靠性和真實性。這12個基因的預(yù)測準(zhǔn)確性還需要大規(guī)模的獨立研究來進(jìn)一步驗證。另外,由于臨床資料的限制和缺失,患者還有大量臨床參數(shù)未進(jìn)行收集和分析,這可能會導(dǎo)致一些重要的生物學(xué)信息被忽略。
總而言之,本研究發(fā)現(xiàn)了由12個前列腺癌的預(yù)后基因標(biāo)志物,該組標(biāo)志物可以作為前列腺癌患者的獨立預(yù)后因素,并且這一組標(biāo)志物可作為前列腺癌藥物合成的潛在新靶點。此外,根據(jù)不同基因標(biāo)志物及其對應(yīng)的臨床參數(shù),我們可進(jìn)一步預(yù)測患者的不同維度的臨床結(jié)局,為前列腺癌患者的臨床治療決策提供有效的建議。