杜寶順,王運剛,尚 飛,張哲瑩
(1.新鄉(xiāng)市中心醫(yī)院神經(jīng)外二科,河南 新鄉(xiāng) 453000;2.新鄉(xiāng)醫(yī)學(xué)院病理學(xué)教研室,河南 新鄉(xiāng) 453003)
成人最常見的惡性原發(fā)性腦腫瘤是膠質(zhì)瘤,膠質(zhì)瘤占成人惡性原發(fā)性腦腫瘤的75%[1]。根據(jù)WHO腦腫瘤分級系統(tǒng)對膠質(zhì)瘤進(jìn)行分類,將膠質(zhì)瘤分為Ⅰ~Ⅳ級等4級[2]。Ⅳ級惡性程度最高,又被稱為膠質(zhì)母細(xì)胞瘤,膠質(zhì)瘤的一半以上都是膠質(zhì)母細(xì)胞瘤[3]。膠質(zhì)母細(xì)胞瘤是成人原發(fā)性腦腫瘤中最致命的腫瘤,大多數(shù)患者不能存活超過1 a,大約5%的患者存活超過5 a[4]。近年來,盡管在膠質(zhì)瘤發(fā)病機制方面取得了長足的進(jìn)步,但仍缺乏有效的治療手段,分子生物學(xué)的最新進(jìn)展提高了膠質(zhì)瘤的早期診斷率以及發(fā)病機制的理解,并且描述了一些臨床上重要的遺傳分子改變。尋找并了解這些分子將有助于腦腫瘤的診斷、分級和治療,早期采取有針對性的干預(yù)措施,提高患者生存率。
長鏈非編碼RNA(long non-coding RNA,lncRNA)是一類轉(zhuǎn)錄本長度超過200個核苷酸的RNA分子,它們并不編碼蛋白,而是以RNA的形式在多種層面上(表觀遺傳調(diào)控、轉(zhuǎn)錄調(diào)控以及轉(zhuǎn)錄后調(diào)控等)調(diào)控基因的表達(dá)水平[5]。目前發(fā)現(xiàn)lncRNA具有重要的生物學(xué)功能,如調(diào)控細(xì)胞增殖、細(xì)胞周期、細(xì)胞分化、細(xì)胞凋亡等[6]。LncRNA的異常表達(dá)與人類疾病密切相關(guān),尤其在腫瘤方面[7]?,F(xiàn)已在乳腺癌、胃癌、肺癌、膠質(zhì)瘤、甲狀腺癌和卵巢癌等多種腫瘤中發(fā)現(xiàn)lncRNA異常表達(dá),且這些lncRNA主要參與腫瘤的發(fā)生、生長、浸潤、轉(zhuǎn)移及復(fù)發(fā)等過程,提示lncRNA在腫瘤的發(fā)生、發(fā)展過程中起到重要作用[8-11]。
本研究通過信息挖掘的方法從腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫獲得lncRNA的表達(dá)數(shù)據(jù)及臨床資料,將其整合為一個具有風(fēng)險分型和預(yù)后評估價值的預(yù)測模型,并在膠質(zhì)母細(xì)胞瘤患者中進(jìn)行驗證。
1.1 數(shù)據(jù)來源從GDC Data Portal(https://portal.gdc.cancer.gov/)下載膠質(zhì)母細(xì)胞瘤患者的RNA表達(dá)譜數(shù)據(jù)及相關(guān)的臨床資料。共174例樣本,其中腫瘤患者169例,正常對照者5例。
1.2 數(shù)據(jù)處理對下載的基因表達(dá)譜數(shù)據(jù)進(jìn)行注釋,根據(jù)GENCODE數(shù)據(jù)庫(https://www.gencodegenes.org/)注釋文件獲得lncRNA。對下載的數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,并篩選在膠質(zhì)母細(xì)胞瘤組織和正常組織樣本中差異表達(dá)的lncRNA,篩選條件為logFC≥2或≤-2,P<0.01。對差異表達(dá)的lncRNA采用單因素Cox和Lasso回歸分析,篩選出來相關(guān)變量,納入多因素Cox回歸分析并建立lncRNA預(yù)后風(fēng)險評分模型,進(jìn)一步驗證風(fēng)險評估模型及篩選出來的lncRNA與膠質(zhì)母細(xì)胞瘤患者預(yù)后的關(guān)系。
1.3 統(tǒng)計學(xué)處理采用R 3.6.1進(jìn)行數(shù)據(jù)分析及相應(yīng)圖形繪制,篩選差異基因用edge R軟件包,單因素和多因素Cox回歸分析模型篩選用Survival軟件包,并建立多基因預(yù)后模型。使用Survival軟件包計算受試者工作特征(receiver operator characteristic,ROC)曲線評價模型的有效性,并計算曲線下面積(area under curve,AUC)[12]。
2.1 膠質(zhì)母細(xì)胞瘤中差異表達(dá)的lncRNA相關(guān)基因使用edge R軟件包進(jìn)行l(wèi)ncRNA差異基因分析(logFC≥2或≤-2,P<0.01)得到差異基因1 255個。其中591個基因表達(dá)顯著高于正常腦組織,為上調(diào)基因;664個基因的表達(dá)明顯低于正常腦組織,為下調(diào)基因。
2.2 LncRNA預(yù)后模型的建立對篩選出的1 255個差異lncRNA進(jìn)行單因素Cox回歸分析,依據(jù)P<0.01 篩選得到影響患者生存的39個lncRNA,進(jìn)而進(jìn)行Lasso回歸分析得到23個差異lncRNA,將上述23個基因納入多因素Cox回歸分析,按P<0.05最后得到5個lncRNA,分別是AC006487.1、AC021594.1、AC066612.2、AC092287.1、OSMR-AS1。對Lasso回歸分析得到的23個基因和多因素Cox回歸分析得到的5個基因分別構(gòu)建風(fēng)險預(yù)測模型。23個差異基因組成的風(fēng)險模型:風(fēng)險得分=(0.122*AC005632.4)+(0.353*AC006487.1)+(-0.0356*AC007375.3)+(0.009*AC010327.3)+(0.501*AC021594.1)+(0.283*AC066612.2)+(0.092*AC080112.2)+(0.305*AC092287.1)+(0.215*AC093388.1)+(-0.052*AC093627.1)+(0.160*AC104667.1)+(0.109*AGAP2-AS1)+(-0.194*AL132800.1)+(0.049*AL450003.2)+(0.089*HOXB-AS1)+(0.060*HOXC-AS2)+(0.062*HOXC-AS3)+(-0.031*LINC01268)+(0.169*LINC01574)+(0.115*LINC01956)+(0.147*LINC02078)+(0.189*OSMR-AS1)+(0.025*UNC5B-AS1)。基于5個lncRNA的預(yù)后風(fēng)險模型:風(fēng)險得分=(0.362*AC006487.1)+(0.522*AC021594.1)+(0.366*AC066612.2)+(0.347*AC092287.1)+(0.232*OSMR-AS1)(表1)。
表1 Cox回歸分析篩選到的5個差異lncRNA
2.3 2種lncRNA預(yù)后模型的評估2種風(fēng)險模型構(gòu)成2種風(fēng)險得分,計算每個樣品的風(fēng)險得分,根據(jù)風(fēng)險得分的中位數(shù)進(jìn)行分組,劃分為高風(fēng)險組和低風(fēng)險阻。2種模型Kaplan-Meier生存分析均顯示高風(fēng)險組與低風(fēng)險組相比預(yù)后明顯較差(P<0.001)(圖1)。繪制2種模型的ROC曲線,3 a生存率AUC分別為0.955和0.890,5 a生存率AUC分別為0.961和0.849。23種lncRNA構(gòu)成模型要優(yōu)于5種lncRNA模型(圖2)。但兩者AUC差別不大,5種lncRNA構(gòu)成的模型比較簡單,我們選擇5種lncRNA進(jìn)一步分析。
圖1 單因素Lasso(左)和多因素Cox(右)回歸分析構(gòu)建模型Kaplan-Meier生存曲線
圖2 單因素Lasso(左)和多因素Cox(右)回歸分析構(gòu)建模型ROC曲線
2.4 多因素Cox回歸分析模型中l(wèi)ncRNA的生存分析我們對所選5種基因?qū)ι媲闆r影響進(jìn)行分析,發(fā)現(xiàn)5種基因均與預(yù)后有關(guān)(P均<0.05)。最相關(guān)基因為AC066612.2,P=0.001。見圖3。
圖3 多因素Cox回歸分析構(gòu)建模型分析5種lncRNA不同表達(dá)的Kaplan-Meier生存曲線
LncRNA的異常表達(dá)與惡性腫瘤的疾病進(jìn)展關(guān)系密切,廣發(fā)參與了惡性腫瘤的各個生物學(xué)過程以及治療手段發(fā)揮重用的各種途徑[10,13-17]。本研究中篩選出的1 225個差異lncRNA基因,通過單因素Cox、Lasso和多因素Cox回歸分析篩選出和預(yù)后相關(guān)的lncRNA,并分別構(gòu)建了2種預(yù)后風(fēng)險預(yù)測模型。2種模型劃分的高風(fēng)險組和低風(fēng)險組均能很好預(yù)測患者生存率。我們對5個lncRNA組成的模型中的每個lncRNA做Kaplan-Meier生存分析,結(jié)果顯示5個基因均和預(yù)后相關(guān),其中相關(guān)性最大的是AC066612.2。
該模型獨立于患者年齡等經(jīng)典的臨床預(yù)后指標(biāo),為現(xiàn)行的膠質(zhì)母細(xì)胞瘤分子病理診斷系統(tǒng)提供一定的拓展。這2種模型特異性和敏感性性均較強,可用于患者的風(fēng)險分型和預(yù)后評估。為膠質(zhì)母細(xì)胞瘤的臨床預(yù)后判斷提供幫助,并為基礎(chǔ)研究提供更多可供選擇的生物標(biāo)志物。然而本研究尚存在許多不足之處,很多基因數(shù)據(jù)庫沒有覆蓋,納入模型的lncRNA尚沒有文獻(xiàn)報道,在膠質(zhì)母細(xì)胞瘤發(fā)生、發(fā)展中起的作用尚缺乏實驗證據(jù)的支持。