康 敏,余敏敏
(南京市第二醫(yī)院/南京中醫(yī)藥大學(xué)附屬南京醫(yī)院,南京 210003)
宮頸癌(Cervical cancer, CC)的發(fā)病率和死亡率在女性惡性腫瘤中均排名第二位,僅次于乳腺癌[1]。在中國,每年死于宮頸癌的女性有5萬多名[2]。宮頸癌的臨床治療方法包括手術(shù)、化療和放療,這些治療手段有效降低了早期宮頸癌患者的死亡率,但晚期宮頸癌患者的治療效果不佳[3]。因此,迫切需要識別新的腫瘤標(biāo)志物,對宮頸癌患者的預(yù)后進(jìn)行準(zhǔn)確判斷,以期指導(dǎo)臨床治療。
有研究證實(shí)基因組不穩(wěn)定性是癌癥的驅(qū)動因素之一[4]。基因組不穩(wěn)定性已被確定為一個(gè)重要的預(yù)后因素,基因組不穩(wěn)定性的積累與腫瘤進(jìn)展和生存相關(guān)[5]。盡管基因組不穩(wěn)定性的分子機(jī)制尚未完全了解,但異常轉(zhuǎn)錄和轉(zhuǎn)錄后調(diào)控與基因組不穩(wěn)定性有關(guān),顯示了分子標(biāo)記作為基因組不穩(wěn)定性定量測量的潛力[6]。例如,Christine How[7]等研究發(fā)現(xiàn)基因組不穩(wěn)定性在宮頸癌中具有重要作用,且與宮頸癌患者的預(yù)后顯著相關(guān)。長鏈非編碼RNA (lncRNA)是一類無編碼蛋白質(zhì)能力的、長度大于200 nt的轉(zhuǎn)錄本[8]。近年來,越來越多的體內(nèi)和體外實(shí)驗(yàn)證明,lncRNA在不同的生物學(xué)過程中發(fā)揮著重要的作用[9-10]特別是lncRNA的異常表達(dá)可能影響細(xì)胞增殖、腫瘤進(jìn)展或轉(zhuǎn)移[11-12]。目前已發(fā)現(xiàn)大量的lncRNA在各種癌癥中異常表達(dá)[13-14], 部分在宮頸癌中異常表達(dá)的lncRNA與宮頸癌患者的預(yù)后密切相關(guān)[15-17]。新的研究證明lncRNA在維持基因組不穩(wěn)定性方面起到關(guān)鍵作用[18-19]。Mendell[20]等研究發(fā)現(xiàn)一種特定的lncRNA即被DNA損傷(NORAD)激活的非編碼RNA,與參與DNA復(fù)制和修復(fù)的蛋白質(zhì)相互作用,有助于基因組的穩(wěn)定性。雖然一些lncRNA已被證實(shí)參與了基因組不穩(wěn)定性,但基因組不穩(wěn)定性相關(guān)的lncRNA及其在癌癥中的臨床意義仍有很大部分未被探索。
本研究基于TCGA數(shù)據(jù)庫中宮頸癌的lncRNA表達(dá)譜和體細(xì)胞突變譜,設(shè)計(jì)了一個(gè)基于突變假設(shè)的預(yù)后模型,以研究lncRNA標(biāo)記作為基因組穩(wěn)定性指標(biāo)的可能性,為宮頸癌的預(yù)后提供新的研究思路。
女性宮頸癌患者的臨床數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)和體細(xì)胞突變信息來自癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(https://portal.gdc.cancer.gov)。我們保留337例具有配對lncRNA和mRNA表達(dá)譜、生存信息、體細(xì)胞突變信息和常見臨床病理特征的女性樣本,以供進(jìn)一步研究。本研究中所有的宮頸癌患者按照批次分為兩個(gè)組,分別命名為Train組和Test組。臨床和病理特征的簡要總結(jié)(見表1)。
表1 兩組宮頸癌患者的臨床信息Table 1 Clinical information of two groups of patients with cervical cancer
結(jié)合TCGA數(shù)據(jù)庫中宮頸癌的lncRNA表達(dá)譜和體細(xì)胞突變譜,鑒定基因組不穩(wěn)定性相關(guān)的lncRNA:1)計(jì)算每個(gè)患者的累積體細(xì)胞突變數(shù)量;2)患者按體細(xì)胞突變累積數(shù)量降序排列;3)將前25%的患者定義為基因組不穩(wěn)定(GU-like)組,最后25%定義為基因組穩(wěn)定(GS-like)組; 4)使用微陣列顯著性分析(SAM)方法比較GU-like組和GS-like組之間lncRNA表達(dá)譜;5)兩組間差異表達(dá)的lncRNA(logFC>0或logFC<0,P<0.05)被定義為基因組不穩(wěn)定性相關(guān)的lncRNA。
采用歐氏距離法和沃德連鎖法進(jìn)行層次聚類分析。采用單因素和多因素Cox分析來評估基因組不穩(wěn)定性相關(guān)lncRNA的表達(dá)水平與總生存率之間的關(guān)系。我們構(gòu)建了一個(gè)預(yù)后風(fēng)險(xiǎn)模型用于結(jié)果預(yù)測,公式如下:
(1)
其中,GILncSig(patient)是宮頸癌患者的預(yù)后風(fēng)險(xiǎn)值。lncRNAi代表第i個(gè)預(yù)后lncRNA, expr (lncRNAi)代表患者lncRNAi的表達(dá)水平,coef(lncRNAi)表示lncRNAi對預(yù)后風(fēng)險(xiǎn)值的貢獻(xiàn),這些評分由多變量Cox分析的回歸系數(shù)獲得。利用預(yù)后模型分別計(jì)算Train組與Test組各樣本的預(yù)后風(fēng)險(xiǎn)值。將各組樣本的風(fēng)險(xiǎn)值從低到高排序,以Train組中患者的中位風(fēng)險(xiǎn)值作為分界點(diǎn),將患者分為高GILncSig分值的高風(fēng)險(xiǎn)組和低GILncSig分值的低風(fēng)險(xiǎn)組。采用Kaplan-Meier法計(jì)算各預(yù)后危險(xiǎn)組的生存率和中位生存期,采用log-rank檢驗(yàn)評估高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組的生存期差異,其顯著性水平為5%。采用多變量Cox回歸和分層分析來評估GILncSig是否獨(dú)立于其他關(guān)鍵臨床因素。利用survival ROC包輸出所有樣本的ROC曲線對GILncSig的預(yù)測能力進(jìn)行評估。采用R-version 4.0.3進(jìn)行所有統(tǒng)計(jì)分析[21]。
通過皮爾遜相關(guān)系數(shù)來衡量配對的lncRNA和mRNA的表達(dá)是否具有相關(guān)性,前10個(gè)mRNA被認(rèn)為是lncRNA共同表達(dá)的相關(guān)伴侶。為了預(yù)測lncRNA的潛在功能,使用R語言的clusterProfiler數(shù)據(jù)包對lncRNA共表達(dá)的mRNA進(jìn)行GO和KEGG的功能注釋、分類或通路分析。
為了識別與基因組不穩(wěn)定性相關(guān)的lncRNA,計(jì)算每個(gè)患者的體細(xì)胞突變累積數(shù)量并按降序排列。根據(jù)體細(xì)胞突變的累積數(shù)量,將前25%(n=73)患者分配到GU-like組和最后25%(n=74)名患者分配到GS-like組。然后比較GU-like組73例患者和GS-like組74例患者的lncRNA表達(dá)譜,發(fā)現(xiàn)差異顯著的lncRNA。通過Wilcoxon檢驗(yàn),總共36個(gè)lncRNA具有顯著差異(logFC>0或logFC<0,P<0.05)。其中,在GU-like 組中發(fā)現(xiàn)9個(gè)lncRNA上調(diào), 27個(gè)lncRNA下調(diào)(見圖1)。
圖1 差異表達(dá)的基因組不穩(wěn)定性相關(guān)lncRNAFig.1 Differentially expressed genomic instability-related lncRNAs注:表達(dá)越高或越低,顏色越深(紅色上調(diào),藍(lán)色下調(diào)).
利用36個(gè)差異表達(dá)lncRNA的集合,對來自TCGA數(shù)據(jù)庫的337名宮頸癌患者進(jìn)行了無監(jiān)督層次聚類分析,結(jié)果(見圖2a)。根據(jù)36個(gè)差異表達(dá)的lncRNA的表達(dá)水平,將337個(gè)樣本分為兩組。兩組樣本的體細(xì)胞突變模式有顯著差異。體細(xì)胞突變累積數(shù)量較多的組命名為GU-like組,另一組命名為GS-like組。GU-like組體細(xì)胞突變累積數(shù)量中位數(shù)顯著高于GS-like組(P<0.01, Mann-Whitney U檢驗(yàn);見圖2b)。接下來,比較了UBQLN4基因(一個(gè)新發(fā)現(xiàn)的基因組不穩(wěn)定性驅(qū)動因子)在兩組中的表達(dá)水平。結(jié)果(見圖2c),GU-like組中UBQLN4的表達(dá)水平與GS-like組無明顯差異(P=0.51, Mann-Whitney U檢驗(yàn))。為了確定36個(gè)lncRNA的潛在功能和通路是否與基因組不穩(wěn)定性相關(guān),通過GO和KEGG富集分析來預(yù)測其潛在功能。首先篩選出36個(gè)差異表達(dá)的lncRNA相關(guān)的蛋白編碼基因(protein coding genes, PCGs)PCGs,挑選出與每個(gè)lncRNA相關(guān)性最高的前10個(gè)PCGs。構(gòu)建了一個(gè)lncRNA-mRNA共表達(dá)網(wǎng)絡(luò),其中節(jié)點(diǎn)為lncRNA和mRNA,如果它們相互關(guān)聯(lián),則lncRNA和mRNA連接在一起(見圖2d)。對lncRNA相關(guān)的PCGs進(jìn)行GO富集分析,以確定PCGs的功能。關(guān)于生物過程,該網(wǎng)絡(luò)中的PCGs主要與2-氧代戊二酸代謝過程顯著相關(guān)。細(xì)胞組分中GO含量最高的是運(yùn)動纖毛。此外,在分子功能方面,GO含量最高的是轉(zhuǎn)移酶活性,轉(zhuǎn)移含氮基團(tuán)(見圖2e)。對lncRNA相關(guān)的PCGs進(jìn)行KEGG通路分析,我們發(fā)現(xiàn)其與2-氧代羧酸代謝通路顯著相關(guān)(見圖2e)。
圖2 宮頸癌患者基因組不穩(wěn)定性相關(guān)lncRNA的鑒定和功能注釋Fig. 2 Identification and functional annotation of lncRNAs related to genomic instability in patients with cervical cancer*注:(a)左邊為GU-like組,右邊為GS-like組,表達(dá)越高或越低,顏色越深(紅色上調(diào),藍(lán)色下調(diào)),(b)紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.002 2,(c)紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.51,(d)顯示基因組不穩(wěn)定性相關(guān)lncRNA共表達(dá)相關(guān)性排名前十的PCGs(紅色點(diǎn)代表mRNA,藍(lán)色點(diǎn)代表LncRNA),(e)分析了基因組不穩(wěn)定性相關(guān)lncRNA共表達(dá)基因的GO注釋和KEGG途徑的顯著富集。
為了進(jìn)一步研究這些lncRNA與宮頸癌患者生存預(yù)后之間的關(guān)系,將TCGA數(shù)據(jù)庫下載的337例宮頸癌患者分為Train組(n=169)和Test組(n=168)。為了篩選與預(yù)后相關(guān)的lncRNA,采用單因素Cox分析分析36個(gè)基因組不穩(wěn)定性相關(guān)lncRNA的表達(dá)水平與Train組中病人生存時(shí)間和生存狀態(tài)的關(guān)系,2個(gè)基因組不穩(wěn)定性相關(guān)lncRNA (AC107464.2 和 AP001527.2)被確定為宮頸癌預(yù)后相關(guān)lncRNA(P<0.05)。根據(jù)單因素Cox分析系數(shù)和兩個(gè)預(yù)后相關(guān)lncRNA的表達(dá)水平來構(gòu)建預(yù)后風(fēng)險(xiǎn)模型(GILncSig)評估宮頸癌患者的預(yù)后風(fēng)險(xiǎn)值:GILncSig分值=(-1.201 8×AC107 464.2的表達(dá)量)+(0.091 6×AP001527.2的表達(dá)量)。在GILncSig中,AP001527.2的系數(shù)是正值,說明它可能是宮頸癌生存預(yù)后相關(guān)危險(xiǎn)因素,其高表達(dá)與預(yù)后不良有關(guān),AC107464.2的系數(shù)是負(fù)值,說明它可能是宮頸癌預(yù)后相關(guān)保護(hù)性因素,其高表達(dá)與更長的生存期相關(guān)。根據(jù)預(yù)后風(fēng)險(xiǎn)模型得到Train組中每個(gè)患者的風(fēng)險(xiǎn)值,然后以中位風(fēng)險(xiǎn)值作為分界點(diǎn)將這些患者分為不同的預(yù)后組。風(fēng)險(xiǎn)值大于等于中位風(fēng)險(xiǎn)值的組命名為高風(fēng)險(xiǎn)組,風(fēng)險(xiǎn)值小于中位風(fēng)險(xiǎn)值的組命名為低風(fēng)險(xiǎn)組。Kaplan-Meier分析顯示低風(fēng)險(xiǎn)組患者的生存結(jié)局明顯優(yōu)于高風(fēng)險(xiǎn)組患者(P<0.001;見圖3a)。高風(fēng)險(xiǎn)組5年生存率為11.8%,低風(fēng)險(xiǎn)組為15.7%(見圖3a)。對GILncSig進(jìn)行ROC曲線分析,得出曲線下面積(AUC)為0.762 (見圖3b)。我們根據(jù)風(fēng)險(xiǎn)值對訓(xùn)練集中的患者進(jìn)行排序,觀察兩個(gè)預(yù)后相關(guān)lncRNA的表達(dá)水平、患者體細(xì)胞突變數(shù)和UBQLN4的表達(dá)水平如何隨著風(fēng)險(xiǎn)值的增加而變化(見圖3c)。在低風(fēng)險(xiǎn)患者中,風(fēng)險(xiǎn)lncRNA AP001527.2表達(dá)水平下調(diào),而保護(hù)性lncRNA AC107464.2表達(dá)水平上調(diào),與高風(fēng)險(xiǎn)組患者的表達(dá)模式相反(見圖3c)。比較高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組患者體細(xì)胞突變模式和UBQLN4表達(dá)模式,高風(fēng)險(xiǎn)組患者軀體突變的數(shù)量與低風(fēng)險(xiǎn)組患者無明顯差異(P= 0.078, Mann-Whitney U檢驗(yàn); 見圖3d),此外,UBQLN4在兩組患者中表達(dá)水平無明顯差異(P= 0.28, Mann-Whitney U test; 見圖3e)。
圖3 在Train組中識別基因組不穩(wěn)定性衍生的GILncSig得分用于預(yù)測結(jié)果Fig.3 Identifying GILncSig score derived from genomic instability in Train group for results prediction*注:(c)左邊為低風(fēng)險(xiǎn)組,右邊為高風(fēng)險(xiǎn)組,表達(dá)越高或越低,顏色越深(紅色上調(diào),藍(lán)色下調(diào)),(d) 紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.078,(e)紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.28.
為了評估GILncSig的準(zhǔn)確性,在Test組中驗(yàn)證其預(yù)后作用。將Train組中得到的GILncSig分值和中位風(fēng)險(xiǎn)值應(yīng)用到Test組中,將患者分為兩組,低風(fēng)險(xiǎn)組72例,高風(fēng)險(xiǎn)組80例(見圖4a)。高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組患者生存率具有明顯差異(P<0.05),與Train組趨勢一致。
對GILncSig進(jìn)行時(shí)間依賴性ROC曲線分析,得出曲線下面積(AUC)為0.782 (見圖4b)。隨后,根據(jù)評分對Test的患者進(jìn)行排序,觀察基因組不穩(wěn)定性相關(guān)lncRNA、患者體細(xì)胞突變數(shù)和UBQLN4的表達(dá)水平隨著風(fēng)險(xiǎn)值增加而變化的情況(見圖4c)。與Train組結(jié)果相似的是,在低風(fēng)險(xiǎn)患者中,風(fēng)險(xiǎn)lncRNA AP001527.2表達(dá)水平下調(diào),保護(hù)性lncRNA AC107464.2表達(dá)水平上調(diào),而高風(fēng)險(xiǎn)患者中兩者表達(dá)情況正好相反(見圖4c)。同樣,體細(xì)胞突變模式在高風(fēng)險(xiǎn)組中和低風(fēng)險(xiǎn)組中無明顯差異(P=0.058,見圖4d),UBQLN4表達(dá)模式在兩組中也無明顯差異(P=0.53,見圖4e)。
圖4 在Test組中GILncSig的獨(dú)立驗(yàn)證Fig.4 Independent validation of GILncSig in test group*注:(c) 左邊為低風(fēng)險(xiǎn)組,右邊為高風(fēng)險(xiǎn)組,表達(dá)越高或越低,顏色越深(紅色上調(diào),藍(lán)色下調(diào)),(d) 紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.058,(e)紅色簇代表GU-like組,藍(lán)色代表GS-like組,P=0.53.
為了評估GILncSig的預(yù)后作用是否獨(dú)立于常見的臨床變量,對年齡、病理分級和GILncSig進(jìn)行了多變量Cox回歸分析。結(jié)果顯示,在調(diào)整年齡、病理分級后,GILncSig與各組的總生存率顯著相關(guān)(見表2)。說明GILncSig是與宮頸癌患者的整體生存相關(guān)的獨(dú)立預(yù)后因子。
表2 單因素和多因素COX回歸分析GILncSig與不同病人組的總生存率Table 2 Univariate and multivariate COX regression analyses of GILncSig and overall survival in different patient groups
統(tǒng)計(jì)了每個(gè)基因在樣本中的突變情況,其中發(fā)生TTN基因突變的樣本數(shù)最多。進(jìn)一步分析顯示,在Train組、Test組和TCGA組中,高風(fēng)險(xiǎn)組TTN突變患者的比例與低風(fēng)險(xiǎn)組無明顯差異(見圖5a)。進(jìn)一步檢驗(yàn)GILncSig與TTN突變狀態(tài)相比有更好的預(yù)測結(jié)果。當(dāng)GILncSig應(yīng)用于TTN野生型(TTN-wild)患者時(shí),GILncSig將TTN-wild患者分為TTN Wild/GS-like組和TTN Wild/GU-like組,當(dāng)GILncSig應(yīng)用于TTN突變型(TTN-Mutation)患者時(shí),TTN-Mutation患者被GILncSig分為TTN Mutation/GS-like組和TTN Mutation/GU-like組(見圖5b)。GILncSig對TTN Wild/GS-like組、TTN Wild/GU-like組、TTN Mutation/GS-like組和TTN Mutation/GU-like組4種風(fēng)險(xiǎn)組的生存曲線無明顯差異(P=0.581)。
圖5 GilncSig與TTN體細(xì)胞突變之間的關(guān)系Fig.5 Relationship between GilncSig and TTN somatic mutation*注:(a)紅色代表存在TTN突變,綠色代表不存在TTN突變.
在近幾十年中,隨著HPV疫苗接種和早期聯(lián)合篩查的應(yīng)用,宮頸癌的發(fā)病率和死亡率有下降趨勢,但發(fā)展中國家的宮頸癌發(fā)病率仍然很高,且患者往往預(yù)后不佳[22]。因此,確定可靠的新生物標(biāo)志物來預(yù)測宮頸癌的生存預(yù)后至關(guān)重要?;蚪M不穩(wěn)定性被認(rèn)為是大多數(shù)癌癥所共有的特征[23-24]?;蚪M不穩(wěn)定性在癌癥進(jìn)展和復(fù)發(fā)中起著重要的主導(dǎo)作用,表明基因組不穩(wěn)定性的模式和程度具有重要的診斷和預(yù)后意義[25-26]。近幾年,lncRNA作為一種新型的ncRNA,已被證實(shí)是腫瘤生物學(xué)過程的重要組成部分,其在癌癥中的異常表達(dá)與疾病發(fā)生發(fā)展密切相關(guān),可能有作為患者預(yù)后標(biāo)志物的潛力[27-29]。隨著對lncRNA功能機(jī)制研究的不斷深入,認(rèn)識到lncRNA對基因組穩(wěn)定性也具有至關(guān)重要的作用[30-31]。已經(jīng)做了一些研究,但全基因組識別基因組不穩(wěn)定性相關(guān)的lncRNA以及系統(tǒng)探索其在癌癥中的臨床意義仍處于初階階段。因此,開發(fā)了一個(gè)結(jié)合lncRNA表達(dá)和腫瘤突變表型來識別基因組不穩(wěn)定性相關(guān)lncRNA的預(yù)測模型。隨后我們結(jié)合lncRNA表達(dá)譜和宮頸癌體細(xì)胞突變譜作為研究對象,鑒定了36個(gè)新的基因組不穩(wěn)定性相關(guān)的lncRNA。通過對36個(gè)與基因組不穩(wěn)定性相關(guān)lncRNA共表達(dá)的基因的功能分析,我們的觀察發(fā)現(xiàn),與36個(gè)lncRNA共表達(dá)的基因在2-氧代戊二酸代謝過程和2-氧羧酸代謝通路中富集。2-氧代戊二酸的代謝異??赡軙绊?-氧代戊二酸依賴的加氧酶(2OGXs)的活性。2-氧代戊二酸依賴的加氧酶(2OGXs) 的活性改變可能會影響其核酸修復(fù)、轉(zhuǎn)錄/蛋白生物合成調(diào)節(jié)等生物功能,并與某些腫瘤的基因組不穩(wěn)定性相關(guān)[32]。接下來,我們研究了基因組不穩(wěn)定性相關(guān)的lncRNA是否可以預(yù)測宮頸癌的臨床結(jié)果,并產(chǎn)生了包含兩個(gè)基因組不穩(wěn)定性相關(guān)的lncRNA(AC107464.2和AP001527.2)的預(yù)后風(fēng)險(xiǎn)模型(GILncSig)。GILncSig將Train組患者分成兩個(gè)風(fēng)險(xiǎn)組,兩組患者存活率有顯著差異,這在Test組中得到了驗(yàn)證。高風(fēng)險(xiǎn)組TTN突變患者的比例與低風(fēng)險(xiǎn)組無明顯差異,這說明GILncSig的預(yù)后意義與單獨(dú)的TTN突變狀態(tài)無明顯差異。雖然我們的研究為更好地評估宮頸癌患者的基因組不穩(wěn)定性和預(yù)后提供了重要的見解。此外,GILncSig是基于突變假設(shè)的計(jì)算框架來識別的,因此,還需要進(jìn)一步的生物學(xué)功能研究,以了解GILncSig在維持基因組不穩(wěn)定性方面的調(diào)節(jié)機(jī)制。
提出了一個(gè)基于突變假設(shè)的計(jì)算框架來識別與基因組不穩(wěn)定性相關(guān)的lncRNA,為進(jìn)一步研究lncRNA在基因組不穩(wěn)定性中的作用提供了重要的途徑和資源。通過將lncRNA表達(dá)譜、體細(xì)胞突變譜和宮頸癌臨床信息結(jié)合在一起研究,確定了一個(gè)由基因組不穩(wěn)定性衍生的預(yù)后風(fēng)險(xiǎn)模型(GILncSig)作為一個(gè)獨(dú)立的預(yù)后標(biāo)志物來對宮頸癌患者的危險(xiǎn)亞組進(jìn)行分層,在獨(dú)立的患者隊(duì)列中成功驗(yàn)證。通過進(jìn)一步的前瞻性研究,GILncSig可能對宮頸癌患者的基因組不穩(wěn)定性和制定治療策略方面具有重要意義。