馮振興,鄭雅方,田鐵栓
天津市胸科醫(yī)院·天津市心血管病研究所,天津 300222
小細(xì)胞肺癌(small cell lung cancer,SCLC)是一種高度惡性的神經(jīng)內(nèi)分泌腫瘤,約占所有肺癌的15%,具有增殖速度快,血管密度高,基因組不穩(wěn)定和明顯的早期轉(zhuǎn)移傾向等特點(diǎn),總體預(yù)后差[1]。全面的基因組分析在研究SCLC發(fā)病的機(jī)制和發(fā)現(xiàn)潛在治療靶點(diǎn)中起到重要作用。目前非小細(xì)胞肺癌的靶向治療和免疫治療已進(jìn)行了深入研究及臨床廣泛應(yīng)用,盡管在過去的30年里進(jìn)行了廣泛的基礎(chǔ)和臨床研究,SCLC的靶向治療仍未取得顯著的進(jìn)展,一個(gè)潛在的原因是外科手術(shù)治療在SCLC中的應(yīng)用較少,病理組織樣本的缺乏限制了SCLC基因組學(xué)分析,進(jìn)而阻礙了新的靶向藥物的發(fā)現(xiàn)[2-3]。
隨著基因表達(dá)芯片技術(shù)的廣泛應(yīng)用,大量數(shù)據(jù)在公共數(shù)據(jù)庫平臺(tái)上發(fā)布。美國國立生物技術(shù)信息中心旗下的基因表達(dá)綜合數(shù)據(jù)庫(gene expression omnibus,GEO)是一個(gè)國際公共數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/),該數(shù)據(jù)庫對(duì)高通量基因表達(dá)和其他功能基因組數(shù)據(jù)集進(jìn)行歸檔和自由分發(fā)[4]。本研究利用GEO數(shù)據(jù)庫中SCLC相關(guān)的基因芯片和臨床數(shù)據(jù),采用生物信息學(xué)方法挖掘與SCLC發(fā)生發(fā)展相關(guān)的關(guān)鍵基因和信號(hào)通路,為SCLC的靶向治療提供新的思路。
從GEO數(shù)據(jù)庫中檢索到GSE6044、GSE40275和GSE43346 3套SCLC基因表達(dá)數(shù)據(jù)集,其中GSE6044(平臺(tái)號(hào):GPL10558)包括9例SCLC和5例正常肺組織,GSE40275(平臺(tái)號(hào):GPL15974)包括15例SCLC和43例正常肺組織,GSE43346(平臺(tái)號(hào):GPL570)包括23例SCLC和1例正常肺組織,用于篩選SCLC和正常肺組織的差異表達(dá)基因(Differential expressed genes,DEGs)。
下載平臺(tái)文件和基因表達(dá)矩陣文件,使用Active-Perl-5.26軟件進(jìn)行基因名注釋,使用R-3.5.3軟件的impute函數(shù)包進(jìn)行缺失值補(bǔ)充(KNN法),基因?qū)?yīng)多個(gè)探針時(shí)取均值,對(duì)芯片數(shù)據(jù)進(jìn)行歸一化校正和log2處理,采用limma包計(jì)算DEGs,定義P<0.05和|logFC|>1的基因?yàn)镈EGs,應(yīng)用ggplot2包繪制火山圖,應(yīng)用FunRich-3.1.3軟件對(duì)上述3套數(shù)據(jù)集的DEGs取交集。
使用DAVID數(shù)據(jù)庫(https://david.ncifcrf.gov)對(duì)DEGs進(jìn)行GO(Gene ontology,基因本體)功能注釋和KEGG(Kyoto encyclopedia of genes and genomes,京都基因與基因組百科全書)通路富集分析,GO分析包括DEGs的細(xì)胞組成、分子功能、生物學(xué)過程,選取P<0.05富集結(jié)果進(jìn)行分析。
使用交互基因檢索工具
STRING-11.0(https://string-db.org)對(duì)DEGs進(jìn)行蛋白互作網(wǎng)絡(luò)分析。設(shè)置置信度閾值大于0.4,將DEGs的蛋白互作數(shù)據(jù)導(dǎo)入Cytoscape-3.7.1軟件中建立互作網(wǎng)絡(luò)可視化模型,并采用MCODE插件對(duì)蛋白互作網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),篩選顯著模塊進(jìn)行通路富集分析,使用CytoHubba插件篩選關(guān)鍵DEGs[5]。
GSE30219數(shù)據(jù)集(平臺(tái)號(hào):GPL570)包括21例SCLC和14例正常肺組織基因表達(dá)數(shù)據(jù)以及19例SCLC患者臨床預(yù)后資料,該數(shù)據(jù)集用于關(guān)鍵DEGs的驗(yàn)證,分析關(guān)鍵DEGs對(duì)SCLC生存時(shí)間的影響。使用GraphPad 8.0進(jìn)行統(tǒng)計(jì)學(xué)分析和繪圖,DEGs的驗(yàn)證采用t檢驗(yàn),生存分析采用Kaplan-Meier法,P<0.05表示差異有顯著統(tǒng)計(jì)學(xué)意義。
R軟件運(yùn)算結(jié)果表明,GSE6044數(shù)據(jù)集中共獲得966個(gè)DEGs,其中上調(diào)基因474個(gè),下調(diào)基因492個(gè),GSE40275中共獲得3 099個(gè)DEGs,其中上調(diào)1 524個(gè),下調(diào)1 575個(gè),GSE43346中共獲得493個(gè)DEGs,其中上調(diào)352個(gè),下調(diào)141個(gè)。3套數(shù)據(jù)集的結(jié)果取交集后篩選出81個(gè)DEGs,其中上調(diào)62個(gè),下調(diào)19個(gè),見圖1。
圖1 3個(gè)數(shù)據(jù)集共同差異表達(dá)基因的Venn圖
通過DAVID在線分析工具對(duì)SCLC中81個(gè)DEGs的GO分析結(jié)果顯示(圖2A-C),SCLC的DEGs主要分布在中間體、紡錘體微管、胞漿的核周區(qū)、驅(qū)動(dòng)蛋白復(fù)合體和有絲分裂紡錘體等細(xì)胞組分中;其分子功能主要涉及染色質(zhì)結(jié)合、ATP結(jié)合、微管運(yùn)動(dòng)、ATP酶活性和微管蛋白結(jié)合等;DEGs主要參與DNA復(fù)制起始、有絲分裂胞質(zhì)分裂、微管運(yùn)動(dòng)、DNA依賴性DNA復(fù)制和有絲分裂染色體濃縮等22個(gè)在生物過程,其中與有15個(gè)與有絲分裂有關(guān),包括有絲分裂細(xì)胞周期的調(diào)控、有絲分裂紡錘體組織、胞質(zhì)分裂和紡錘體組裝等,涉及42個(gè)有絲分裂相關(guān)基因。KEGG分析結(jié)果表明(圖2D),這些差異基因共涉及11條信號(hào)通路,主要的信號(hào)通路有細(xì)胞周期、DNA復(fù)制和腫瘤通路等。
圖2 DEGs的GO和KEGG富集分析結(jié)果
通過SRING網(wǎng)站分析和cytoscape軟件獲得的DEGs蛋白互作網(wǎng)絡(luò)如圖3所示,該蛋白互作網(wǎng)絡(luò)包括71個(gè)結(jié)點(diǎn)和819條相互作用線,包含55個(gè)上調(diào)DEGs和16個(gè)下調(diào)DEGs。使用MCODE插件篩選出1個(gè)顯著的蛋白互作模塊(見圖4),包括39個(gè)結(jié)點(diǎn)(均為上調(diào)的DEGs)和706條線,涉及的DEGs主要富集在細(xì)胞周期、DNA復(fù)制和小細(xì)胞肺癌等信號(hào)通路。本研究使用CytoHubba插件中12種拓?fù)浞治龇ǚ謩e計(jì)算出評(píng)分排名前30位的DEGs,并對(duì)12種算法結(jié)果取交集獲得了8個(gè)關(guān)鍵DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,詳見表1。上述8個(gè)的關(guān)鍵DEGs均參與MCODE模塊中的蛋白互作。
圖3 差異表達(dá)蛋白相互作用網(wǎng)絡(luò)
表1 蛋白互作網(wǎng)絡(luò)篩選出的8個(gè)關(guān)鍵DEGs
使用GSE30219中基因表達(dá)數(shù)據(jù)驗(yàn)證上述8個(gè)關(guān)鍵DEGs的表達(dá)水平,結(jié)果表明8個(gè)關(guān)鍵DEGs的mRNA在SCLC(n=21)中的相對(duì)表達(dá)水平均明顯高于正常肺組織(n=14),差異具有顯著統(tǒng)計(jì)學(xué)意義(P<0.001,見圖4)。GSE30219數(shù)據(jù)集中共有293例肺癌基因表達(dá)及臨床預(yù)后數(shù)據(jù),從中篩選出19例隨訪資料完整的SCLC患者用于分析驗(yàn)證8個(gè)關(guān)鍵DEGs對(duì)SCLC患者生存時(shí)間的影響,以中位數(shù)為界分為低表達(dá)組和高表達(dá)組,結(jié)果表明CENPF高表達(dá)組患者生存期顯著低于低表達(dá)患者(P=0.017,見圖5)。
圖4 關(guān)鍵DEGs在SCLC及正常肺組織中的相對(duì)表達(dá)水平
圖5 CENPF表達(dá)水平與SCLC患者預(yù)后的關(guān)系
基于生物信息學(xué)方法比較分析SCLC與正常細(xì)胞基因表達(dá)譜的差異,尋找SCLC相關(guān)基因,是發(fā)現(xiàn)SCLC潛在的治療靶基因的重要途徑之一。目前國內(nèi)鮮有利用生物信息學(xué)方法挖掘SCLC靶基因的相關(guān)研究報(bào)道。鑒于TCGA(The Cancer Genome Atlas)癌癥基因組圖譜數(shù)據(jù)庫中沒有SCLC的相關(guān)數(shù)據(jù),本研究通過檢索GEO數(shù)據(jù)庫中SCLC數(shù)據(jù),對(duì)SCLC的潛在靶基因表達(dá)水平及其臨床預(yù)后進(jìn)行了深度挖掘分析,共篩選出了81個(gè)DEGs,包括62個(gè)上調(diào)基因和19個(gè)下調(diào)基因。GO和KEGG功能富集分析表明這些DEGs的產(chǎn)物主要包括中間體、微管和紡錘體等有絲分裂相關(guān)的細(xì)胞組分,主要參與有絲分裂、細(xì)胞周期和DNA損傷修復(fù)等分子功能及信號(hào)通路。上述細(xì)胞組分、分子功能及通路與腫瘤細(xì)胞的增殖、侵襲和轉(zhuǎn)移密切相關(guān),為研究SCLC的發(fā)病機(jī)制及診斷治療提供參考思路。
本研究通過蛋白互作分析篩選出8個(gè)處于互作網(wǎng)絡(luò)核心節(jié)點(diǎn)的關(guān)鍵DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,這些基因且均為有絲分裂相關(guān)基因且相互之間聯(lián)系密切。SCLC快速增殖依賴于有絲分裂事件的增加,有絲分裂的關(guān)鍵步驟是紡錘體裝置的調(diào)節(jié)裝配和染色體的分離[24]。表1中匯總了8個(gè)關(guān)鍵DEGs在有絲分裂中的具體功能及相關(guān)研究進(jìn)展。研究表明這些基因在人類多種惡性腫瘤等中異常表達(dá),且與腫瘤的增殖、侵襲及預(yù)后密切相關(guān),但與SCLC相關(guān)的研究鮮有報(bào)道。
目前僅有AURKA與SCLC的治療相關(guān)的報(bào)道。AURKA是重要的有絲分裂調(diào)節(jié)因子,研究表明Alisertib和LY3295668等多種高選擇性AURKA抑制劑可誘導(dǎo)細(xì)胞發(fā)生有絲分裂災(zāi)難,研究表明Alisertib單藥作為晚期SCLC患者二線治療的客觀緩解率為21%[7-8]。此外,AURKA激酶磷酸化可招募著CENP家族的多種蛋白參與有絲分裂中期染色體在赤道板的正確排列[25]。CENPF是一種著絲粒-動(dòng)粒復(fù)合體相關(guān)蛋白質(zhì),在有絲分裂著絲點(diǎn)形成和著絲粒組裝中發(fā)揮重要作用,并與腫瘤細(xì)胞代謝和進(jìn)展有關(guān)[9]。臨床前研究表明抑制CENPF表達(dá)可起到抗腫瘤的作用,CENPF在非小細(xì)胞肺癌、前列腺癌、腦膠質(zhì)瘤、結(jié)直腸癌和鼻咽癌等多種惡性腫瘤中呈高表達(dá),CENPF高表達(dá)與腫瘤侵襲和不良預(yù)后相關(guān),但其分子機(jī)制尚未闡明[10]。本研究對(duì)篩選出的8個(gè)關(guān)鍵DEGs進(jìn)行預(yù)后分析,結(jié)果僅有CENPF高表達(dá)與SCLC不良預(yù)后相關(guān),提示CENPF可能是SCLC潛在的治療靶點(diǎn)。
綜上所述,本研究共篩選出81個(gè)DEGs,其中8個(gè)關(guān)鍵DEGs包括AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,這些基因均是有絲分裂重要的作用因子,與SCLC的分裂和增殖關(guān)系密切,具有潛在的研究?jī)r(jià)值。鑒于CENPF在SCLC中高表達(dá)且與預(yù)后不良有關(guān),因此我們篩選出CENPF作為候選靶分子。由于現(xiàn)有的數(shù)據(jù)庫中SCLC病例數(shù)量較少,后續(xù)本課題組將進(jìn)一步擴(kuò)大樣本量,探究CENPF表達(dá)與SCLC預(yù)后相關(guān)的臨床研究,同時(shí)進(jìn)行分子生物學(xué)機(jī)制的基礎(chǔ)研究,以期為SCLC的治療提供新的作用靶點(diǎn)。