李睿哲,薛軍帥,楊龍山,董兆如,洪建國,李濤,王東旭
(山東大學齊魯醫(yī)院 肝膽外科,山東 濟南 250012)
原發(fā)性肝癌(primary liver cancer,PLC)排在最常見惡性腫瘤的第六位,腫瘤致死病因的第三位。盡管由于疫苗以及抗病毒藥物的有效應用,東南亞國家的肝癌發(fā)病呈現(xiàn)下降趨勢,但在歐洲、北美地區(qū)則呈現(xiàn)上升趨勢,因此全球肝癌的發(fā)病形勢依然嚴峻,尋求對肝癌的全方位防治尤為重要[1]。手術(shù)切除是肝癌獲得根治的主要手段,然而初始可手術(shù)切除的腫瘤僅占到了15%~30%,多數(shù)患者在診斷后已處于中晚期,無法行一期根治性切除[2]。因此,系統(tǒng)治療在肝癌的整體治療中舉足輕重。隨著近幾年來靶向、免疫治療的進展,肝癌的系統(tǒng)治療藥物逐漸增多[3]。而基于這些藥物的療效,患者生存期不斷延長的同時,晚期肝癌降期轉(zhuǎn)化切除比例逐漸增多[4]。然而,能夠在系統(tǒng)性藥物的幫助下轉(zhuǎn)化降期,進而獲得根治性手術(shù)的肝癌主要局限在肝內(nèi),有明確的肝外擴散患者則希望渺然。同時,當前研究表明,肝癌轉(zhuǎn)移離開肝臟后定植于機體其他器官組織,受限于不同的生長環(huán)境,腫瘤內(nèi)的微環(huán)境與原位相比差異明顯,藥物治療的敏感性也有所不同[5-6]。因此,針對未發(fā)生遠處轉(zhuǎn)移的肝癌,特異篩選出該類樣本,探索其內(nèi)微環(huán)境特點并發(fā)現(xiàn)能夠與其性質(zhì)相關(guān)的特異生物標志物有利于進一步提高治療效果。
長鏈非編碼RNA(lncRNAs)是一種長度超過200 bp的非編碼RNA并廣泛參與了機體細胞增殖、分化、調(diào)控等諸多生理過程[7-9]。當前研究表明lncRNAs與許多疾病的發(fā)生發(fā)展有關(guān)并且特定的lncRNAs對相關(guān)疾病的疾病特征有一定的預測價值,如腫瘤、心血管疾病、內(nèi)分泌疾病等[8-9]。此外,lncRNAs可以作為在包括肝癌在內(nèi)的多癌癥中的良好預后生物標志物[10]。
轉(zhuǎn)錄組數(shù)據(jù)準備:從XENA數(shù)據(jù)庫(https://xenabrowser.net/datapages/)下載了TCGA-LIHC隊列369例患者共421份樣本的表達量數(shù)據(jù),其中371份為肝細胞肝癌組織樣本,50 份為正常組織樣本,同時下載了GTEx數(shù)據(jù)庫中的110 份正常肝組織樣本。數(shù)據(jù)類型為TPM數(shù)據(jù)。LncRNA名稱數(shù)據(jù)的提取和原始矩陣的所有RNA的名稱匹配全部對照的是第23版本的GTF基因注釋文件。臨床數(shù)據(jù)準備:下載TCGA-LIHC隊列和GETx數(shù)據(jù)庫中肝臟的臨床數(shù)據(jù),去除有明確的轉(zhuǎn)移M1或者轉(zhuǎn)移狀態(tài)不明確Mx的患者的表達量數(shù)據(jù),保留未發(fā)生遠處轉(zhuǎn)移的M0患者的表達量數(shù)據(jù)進行后續(xù)分析。
提取免疫相關(guān)lncRNA:免疫基因集獲取于ImmPort數(shù)據(jù)庫(http://www.immport.org);通過免疫基因與lncRNA共表達分析鑒定出免疫相關(guān)性lncRNA;通過“l(fā)imma”數(shù)據(jù)包提取正常組織和腫瘤組織中差異表達的lncRNA,過濾條件設(shè)定為FDR<0.05以及|logFC|>1。對獲取的所有的lncRNA進行兩者之間的表達情況比較,表達上升的基因?qū)擞洖椤?”,反之為“0”。
獲得的免疫lncRNA基因?qū)εc患者的生存數(shù)據(jù)整合。單因素Cox回歸篩選出具有預后相關(guān)的候選基因?qū)?,P<0.05認為差異具有統(tǒng)計學意義。對單因素Cox回歸篩選出的免疫LncRNA基因?qū)\用LASSO回歸模型進行進一步壓縮篩選,并進行交叉驗證。多因素Cox回歸模型分析鑒定出的免疫lncRNA基因與患者的總生存OS關(guān)系。患者風險值計算公式為:
Riskscore=h0(t)×expCoefficient(Genei)×Exp(Genei)。h0(t)為基準風險函數(shù),Coefficient(Genei)為多因素Cox回歸分析得到的第i個基因的回歸系數(shù),Exp(Genei)為第i個基因的表達量。
利用ROC受試者曲線繪制患者風險值對生存的預測圖形,確定最優(yōu)Cutoff值,根據(jù)Cutoff值區(qū)分患者為高風險組(H組)以及低分險組(L組)。同時,根據(jù)患者生存時間分為1、2、3 年生存率,分別計算AUC。根據(jù)患者風險分組情況對患者生存情況進行比較,并進行Log-rank檢驗。結(jié)合臨床因素及患者風險值進行獨立預后分析驗證。
免疫浸潤分析數(shù)據(jù)庫TIMER(http://timer.cistrome.org)下載腫瘤免疫細胞浸潤數(shù)據(jù)。根據(jù)免疫相關(guān)基因的表達,利用多軟件計算樣本中的免疫細胞浸潤豐度。利用Wilcoxon檢驗計算不同風險組免疫細胞的差異,P<0.05 認為差異具有統(tǒng)計學意義。相關(guān)性分析鑒定樣本風險值與免疫細胞浸潤的相關(guān)性。計算在高低風險組間免疫檢查點相關(guān)基因的表達差異。
pRRophetic算法根據(jù)GDSC細胞系表達譜和TCGA基因表達譜構(gòu)建嶺回歸模型預測藥物IC50。選取了在肝癌做過三期臨床試驗的相關(guān)藥物索拉非尼(Sorafenib)、順鉑(Cisplatin)、阿昔替尼(Axitinib)、舒尼替尼(Sunitinib)、埃羅替尼(Erlotinib)、拉帕替尼(Lapatinib)并利用“pRRopheticPredict”工具包評估肝癌治療中多種藥物在不同風險組的敏感性。
本研究的數(shù)據(jù)篩選流程在圖1A 中展示。從XENA數(shù)據(jù)庫(https://xenabrowser.net/datapages/)下載了TCGA-LIHC隊列的421 份樣本的表達量數(shù)據(jù),其中371 份為肝細胞肝癌組織樣本,50 份為正常組織樣本,同時下載了GTEx數(shù)據(jù)庫中的110份正常肝組織樣本。數(shù)據(jù)類型為TPM數(shù)據(jù)。lncRNA名稱數(shù)據(jù)的提取和原始矩陣的所有RNA的名稱匹配全部對照的是第23版本的GTF基因注釋文件。去除平均表達量小于0.5 的基因,肝癌樣本中去除有明確的轉(zhuǎn)移M1或者轉(zhuǎn)移狀態(tài)不明確Mx的患者的肝癌樣本共106份,保留未發(fā)生遠處轉(zhuǎn)移的M0患者的肝癌樣本265份進行后續(xù)分析。
圖1 流程圖、差異分析火山圖與熱圖
基于從免疫基因數(shù)據(jù)庫ImmPort database(http://www.immport.org)下載的免疫基因,使用R軟件從LIHC隊列的表達矩陣中提取出1030 個免疫基因的表達矩陣。根據(jù)23版GTF基因注釋文件從肝癌表達矩陣中提取出lncRNA的表達矩陣,我們使用共表達分析的方法找出與免疫基因表達相關(guān)的lncRNA為841個(相關(guān)系數(shù)>0.5),之后我們通過使用“l(fā)imma”工具包找出在肝癌標本與正常肝組織中表達差異的免疫相關(guān)lncRNA 261個(圖1B),肝癌組織與正常肝組織中上調(diào)、下調(diào)的差異表達的免疫相關(guān)lncRNA的熱圖見圖1C。通過迭代循環(huán)和0或1個矩陣篩選,獲得了17 835 對差異表達的lncRNA基因?qū)ΑHコ鏀?shù)據(jù)不完整的患者和生存時間為0 d的患者,剩余261 例肝癌患者進行后續(xù)的生存分析。通過單因素Cox回歸分析根據(jù)篩選條件P<0.05的到2 456個差異表達的lncRNA基因?qū)?,表明? 456個差異表達的lncRNA基因?qū)εc肝癌患者的預后相關(guān),之后將其進行LASSO回歸分析和使用交叉驗證的方法進行迭代分析,并將其的篩選得到的lncRNA基因?qū)M行逐步回歸多因素Cox回歸分析得到9 個預后相關(guān)的lncRNA基因?qū)ΓˋC009014.3|RP11-800A18.4、CTB-193M12.5|KB-68A7.1、CTC-518P12.6|RP5-1171I10.5、F11-AS1|RP5-940J5.9、KB-68A7.1|RP11-196G18.23、MIR503HG|RP11-498C9.15、MKLN1-AS|RP11-325K4.2、RP11-196G18.23|RP5-1171I10.5、RP11-498C9.15|RP13-104F24.2)(圖2A),并根據(jù)其多因素Cox回歸分析的相關(guān)系數(shù)來計算每個肝癌患者的風險打分,并建立免疫lncRNA基因?qū)δP停↖RLP),其模型公式為:
圖2 免疫相關(guān)lncRNA基因?qū)︻A后模型質(zhì)量評估
分析免疫lncRNA基因?qū)δP停↖RLP)的時間依賴性受試者工作特征曲線(ROC曲線),得到1、2、3年的曲線下面積(AUC值)分別為0.859、0.885、0.900(圖2B),并且以1 年ROC曲線最大喬丹指數(shù)處的截止點的對應值作為截止值為3.529(圖2C)。本模型1、2、3年的AUC值均大于0.850,表明IRLP預后模型中的9 個deirlncRNA基因?qū)τ谠桓伟┗颊呱骖A測具有高度的敏感性和特異性。之后,我們根據(jù)選取的截止值3.529和每份肝癌患者對應的風險打分將患者分為高風險組(n=111)和低風險組(n=150)并畫出K-M曲線,結(jié)果表明高低風險組的預后差異有統(tǒng)計學意義(P<0.001)(圖2D)也表明了該9個差異表達的lncRNA基因?qū)τ蓄A測肝癌患者預后的有效性?;颊叩娘L險曲線和生存時間隨風險的分的分布見圖3A、3B。風險曲線顯示,高風險組HCC患者的病死率高于低風險組。排除無年齡、性別、分級和腫瘤分期信息的患者,對訓練組的樣本進行多因素Cox回歸分析,以評估獨立的危險因素。森林圖顯示,臨床分期(HR1.500,95%CI1.131~1.988,P=0.005)和IRLP風險打分(HR1.074,95%CI1.055~1.094,P<0.001),差異有統(tǒng)計學意義(圖3B)。在多因素回歸分析中,IRLP風險打分(HR1.074,95%CI1.055~1.094,P<0.001)(圖3B、3C)是影響HCC患者預后的獨立危險因素。臨床相關(guān)熱圖顯示,風險打分與腫瘤分級、臨床分期和T分期相關(guān)(圖3D)。
由于lncRNA與免疫相關(guān)基因相互關(guān)聯(lián),我們進一步探討了該模型與腫瘤免疫微環(huán)境之間的關(guān)系。結(jié)果顯示,模型中的高風險組與多種免疫細胞有相關(guān)性,見圖4A。XCell基于標記基因,計算64 種免疫細胞和基質(zhì)細胞相對富集分數(shù),通過比較并制作箱式圖,發(fā)現(xiàn)基質(zhì)細胞分數(shù)與免疫微環(huán)境分數(shù)在低風險組中顯著高于高風險組(圖4B、4C)。CD8+T細胞在腫瘤免疫微環(huán)境中期重要作用,通過比較并制作箱式圖發(fā)現(xiàn)CD8+T細胞在低風險組中顯著高于高風險組(圖4D)。以上表明低風險組的肝癌患者擁有較高的免疫浸潤。之后,我們又分析了免疫調(diào)節(jié)基因包括免疫檢查點在內(nèi)的表達量在高低風險組的差異情況。結(jié)果表明,高風險組的免疫負性調(diào)節(jié)基因IL10RB、TGFBR1的表達量顯著高于低風險組(P<0.05)(圖5A、5B),潛在表明高風險組的患者有較強的免疫抑制的腫瘤微環(huán)境。
圖4 免疫浸潤分析
藥物敏感性分析顯示,高風險組中厄羅替尼(P=0.0081)、阿昔替尼(P=0.0056)的IC50高于低風險組(圖5C、5D),低風險組中的拉帕替尼(P=0.02)和臨床肝癌一線用藥索拉非尼(P=0.025)的IC50高于高風險組(圖5E、5F)。結(jié)果表明,該模型可作為HCC治療藥物敏感性的潛在預測因子。
圖5 免疫調(diào)節(jié)基因與藥物敏感性分析
本研究中,我們在未發(fā)生轉(zhuǎn)移的原位肝癌樣本中篩選出免疫相關(guān)lncRNA基因?qū)?,并結(jié)合患者的生存狀況建立了預測模型,該模型能夠獨立預測患者的生存狀況,低風險組患者的生存獲益顯著優(yōu)于高風險組(P<0.001)。同時,在腫瘤免疫微環(huán)境方面,高風險組表現(xiàn)出了更為突出的免疫抑制狀態(tài)。而基于表達數(shù)據(jù)的藥物敏感性分析表明了拉帕替尼、厄羅替尼、阿昔替尼以及順鉑在基于風險分組的患者中敏感性的差異,潛在為更加精準的應用相關(guān)藥物提供了依據(jù)。
腫瘤數(shù)據(jù)庫保存的樣本涉及各個分期的腫瘤,當前大部分研究采用TCGA數(shù)據(jù)庫數(shù)據(jù)進行分析時并沒有對各個分期的腫瘤進行細致分類,這樣導致樣本中混雜了轉(zhuǎn)移瘤,復發(fā)腫瘤以及原位腫瘤等多種情況。而針對性的區(qū)分腫瘤,能夠避免腫瘤異質(zhì)性的混雜,排除干擾,更加精確地篩選出靶標,從而建立預測價值更可靠的模型。
迄今為止,關(guān)于腫瘤中l(wèi)ncRNA的研究大部分集中在腫瘤發(fā)展和轉(zhuǎn)移中的調(diào)控[11]。最近的研究表明,lncRNAs在腫瘤免疫的不同階段發(fā)揮著至關(guān)重要的作用,包括抗原釋放、呈遞、免疫激活、免疫細胞遷移、腫瘤細胞的浸潤等[11-12]。lncRNA在腫瘤免疫中的研究能夠從一個新的角度揭示了腫瘤免疫中復雜的分子機制,潛在為腫瘤免疫治療提供新的潛在靶點。該研究中,我們建立的模型能夠很好的區(qū)分患者1、2和3年的生存獲益狀況;同時,該風險分值在包括腫瘤病理分級,臨床分期的多因素下能夠獨立的預測患者預后。這表明該模型具有良好且穩(wěn)定的預測能力。盡管研究納入的數(shù)據(jù)是基因的表達量數(shù)據(jù),然而,本研究采用基因?qū)Φ慕M合模式,對數(shù)據(jù)內(nèi)部之間進行比較,而不需要進行數(shù)據(jù)之間的校正,這樣以來避免了不同樣本間的數(shù)據(jù)偏差,有效降低了結(jié)果的偏倚[13]。
HCC中的腫瘤異質(zhì)性明顯。據(jù)估計,30%~50%的復發(fā)性或轉(zhuǎn)移性腫瘤具有與原發(fā)腫瘤不同的克隆,22%~79%的同位置腫瘤具有克隆性差異,12%~66%的單個腫瘤具有腫瘤內(nèi)異質(zhì)性[6,14]。大量的腫瘤間和腫瘤內(nèi)異質(zhì)性使得生物標志物研究意義非凡,而這對于分子靶向治療的開發(fā)和管理也至關(guān)重要。同時,肝癌早期免疫浸潤豐富,腫瘤負荷較??;機體免疫并未完全失去戰(zhàn)斗力,此時腫瘤內(nèi)微環(huán)境特點與晚期腫瘤具有明顯區(qū)別。因此充分了解此類腫瘤的免疫微環(huán)境的特征更有利于免疫治療的開展,對早期應用免疫治療更能提供相對精確的指導[15]。該研究基于XCELL計算了64 種免疫細胞和基質(zhì)細胞相對富集分數(shù),表明低風險組的肝癌患者擁有較高的免疫浸潤,以及其免疫抑制情況較輕。在兩組免疫調(diào)節(jié)基因的表達量差異情況上,高風險組的免疫負性調(diào)節(jié)基因IL10RB、TGFBR1的表達量顯著高于低風險組,表明高風險組腫瘤逐漸進展衍生出更為廣泛的免疫逃逸。
肝癌系統(tǒng)治療近幾年取得長足進步,包括索拉非尼、倫伐替尼等小分子靶向藥物、納武單抗等單克隆抗體在內(nèi)的藥物療效令人欣喜[16-17]。除了上述藥物被應用到肝癌一線、二線治療外,還有一些潛在的藥物也正在臨床試驗或臨床前開發(fā)中[18]。拉帕替尼、厄羅替尼、阿昔替尼及順鉑均在肝癌開展過前瞻性的臨床試驗研究[19-21],雖然并沒有統(tǒng)計學意義的結(jié)果,但其在特定類型或是狀態(tài)下肝癌的療效仍然值得關(guān)注。該研究中,對于不同風險組其藥物敏感性具有顯著不同,這潛在提示基于該模型下肝癌患者分組后或許可以更加精準的運用相關(guān)藥物。
盡管本研究進行了嚴謹?shù)脑O(shè)計,依然面對著一些問題。本研究中數(shù)據(jù)獲取于TCGA數(shù)據(jù)庫,其中肝癌TNM分期參考AJCC的指導原則,ⅣA期為沒有肝外腫瘤的轉(zhuǎn)移,僅有明確的淋巴結(jié)轉(zhuǎn)移,ⅣB期患者為明確的肝外轉(zhuǎn)移患者。因此本研究中ⅣA期患者數(shù)量較少,其臨床相關(guān)性分析結(jié)果并不能完全說明問題。同時,對當前肝癌細胞系藥物敏感性的模擬難以完全匹配機體肝癌的疾病特點[15,22]。不僅是在肝癌,在泛腫瘤中也是如此,腫瘤具有復雜的微環(huán)境特點,單獨的腫瘤細胞離體模擬只能提供潛在參考價值。
總之,本研究利用未發(fā)生遠處轉(zhuǎn)移的原位肝癌樣本構(gòu)建了免疫相關(guān)lncRNA的基因?qū)δP湍軌蜉^好的預測患者生存狀況,同時表明高風險的患者中免疫抑制狀態(tài)明顯,而不同的風險組對肝癌特定藥物治療敏感性不同。