馬 華,畢文靜,張 旭
(西南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400715)
口腔鱗狀細(xì)胞癌(OSCC)是頭頸部最常見(jiàn)的癌癥.世界范圍內(nèi),口腔癌約占全世界惡性腫瘤的3%[1-2].每年全世界估計(jì)有300萬(wàn)新病例[2-3].盡管口腔癌的治療取得了長(zhǎng)足進(jìn)步,早期患者的生存率超過(guò)90%,但晚期患者的總體生存率僅為30%[4-5].患者不能早診治、局部淋巴結(jié)轉(zhuǎn)移及原發(fā)灶復(fù)發(fā)是口腔鱗癌預(yù)后差及五年生存率低的主要原因[2,6].因此,早期階段癌癥預(yù)測(cè)因子的檢測(cè)顯得十分重要.
與微陣列方法相比,轉(zhuǎn)錄本的測(cè)序(RNA-Seq)數(shù)據(jù)具有多個(gè)優(yōu)勢(shì),包括檢測(cè)體細(xì)胞突變和準(zhǔn)確測(cè)量等位基因特異性表達(dá)能力等[7].口腔癌中最常見(jiàn)的細(xì)胞來(lái)源是鱗狀細(xì)胞,在口腔癌中占的比例超過(guò)90%[8].晚期階段,這些癌細(xì)胞具有高度浸潤(rùn)性和轉(zhuǎn)移性.Wang等人通過(guò)分析來(lái)自GEO和癌癥基因組圖譜(TCGA)數(shù)據(jù),發(fā)現(xiàn)CXCL10、OAS2、IFIT1、CCL5、LRRK2和PLAU六個(gè)基因可作為口腔鱗狀細(xì)胞癌的生物標(biāo)記或潛在治療靶標(biāo)[9].Wang等人通過(guò)轉(zhuǎn)錄組測(cè)序和生物信息學(xué)分析發(fā)現(xiàn),TGFBI過(guò)表達(dá)可促進(jìn)口腔鱗狀細(xì)胞癌,并與患者不良預(yù)后有關(guān)[10].Ge等人通過(guò)加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析確定了七個(gè)hub基因PLAU、SERPINE1、LAMC2、ITGA5、TGFBI、FSCN1和HLF與口腔鱗狀細(xì)胞癌的發(fā)生和預(yù)后相關(guān)[11].Liu等人研究表明,唾液LDOC1是口腔鱗狀細(xì)胞癌的性別差異生物標(biāo)志物[12].然而,上述文獻(xiàn)中均使用微陣列芯片數(shù)據(jù)集以及采用單一的方法選擇hub基因,并且OSCC的潛在分子機(jī)制尚不清楚,有待進(jìn)一步探索.
本研究利用公共數(shù)據(jù)庫(kù)轉(zhuǎn)錄本的測(cè)序(RNA-Seq)數(shù)據(jù)集,使用edgeR鑒定了口腔鱗狀細(xì)胞癌組織和正常組織之間的差異表達(dá)基因,并通過(guò)STRING V11數(shù)據(jù)庫(kù)構(gòu)建了差異基因的PPI網(wǎng)絡(luò).使用Cytoscape軟件對(duì)其進(jìn)行可視化,采用五種拓?fù)浞治龇椒ù_定了hub基因.CytoHubba提取了網(wǎng)絡(luò)中與hub基因相關(guān)的重要模塊.GO功能和KEGG途徑富集分析探索這些聚類模塊在OSCC發(fā)病機(jī)理中的作用.Kaplan-Meier分析評(píng)估了這些hub基因的預(yù)后價(jià)值.
收集一組來(lái)自口腔鱗狀細(xì)胞癌和它配對(duì)的正常組織的表達(dá)數(shù)據(jù).此數(shù)據(jù)來(lái)自美國(guó)國(guó)家生物信息中心(NCBI)數(shù)據(jù)庫(kù)的GEO數(shù)據(jù)(http://www.ncbi.nlm.nih.gov/geo/),下載文檔GSE20116_RAW.tar.該數(shù)據(jù)集包括三個(gè)腫瘤樣本和三個(gè)正常樣本.文獻(xiàn)[7]運(yùn)用這組數(shù)據(jù)證明了腫瘤中的等位基因失衡與拷貝數(shù)突變相關(guān),而拷貝數(shù)突變又與轉(zhuǎn)錄本豐度的變化強(qiáng)烈相關(guān).本研究主要通過(guò)5種拓?fù)浞治龇椒ㄈ〗患Y選與口腔鱗狀細(xì)胞癌相關(guān)的hub基因作為潛在的生物標(biāo)志物.
1.2.1 DEGs的鑒定和富集分析
使用edgeR軟件包,鑒定口腔鱗狀細(xì)胞癌組織和正常組織之間的DEGs.首先,采用TMM算法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和過(guò)濾(相同基因符號(hào)的不同RefSeq轉(zhuǎn)錄本,為每個(gè)基因符號(hào)保留一個(gè)轉(zhuǎn)錄本).隨后采用負(fù)二項(xiàng)分布對(duì)差異表達(dá)分析進(jìn)行檢驗(yàn).對(duì)于任意樣本i中的任意一個(gè)基因g,假設(shè)它符合二項(xiàng)式分布
Ygi=NB(MiPgi,φg)
(1)
其中Mi是樣本i中讀段總數(shù);φg是基因g的離散度;Pgi是基因g在某個(gè)條件或分組j下的相對(duì)豐度.
篩選差異基因的標(biāo)準(zhǔn)是:將閾值設(shè)置為log2(FC)>1和p-value<0.05表示上調(diào)的差異基因,log2(FC)<-1和p-value<0.05表示下調(diào)的差異基因.使用Cytoscape中的插件Bingo來(lái)查看所有DEGs在生物過(guò)程(biological processes,BP),分子功能(molecular functions,MF)和細(xì)胞成分(cell components,CC)的中的富集情況[13].
1.2.2 PPI網(wǎng)絡(luò)與OSCC相關(guān)聚類模塊的構(gòu)建
首先,把篩選出的所有DEGs輸入到STRING V11數(shù)據(jù)庫(kù)構(gòu)建PPI網(wǎng)絡(luò).基于PPI網(wǎng)絡(luò)中的基因,通過(guò)CytoHubba插件中的5種拓?fù)浞治龇椒ㄈ〗患x出hub基因[14].然后,利用CytoHubba插件構(gòu)建與hub基因相關(guān)的聚類模塊.本文將其作為OSCC相關(guān)模塊.
1.2.3 GO功能和KEGG途徑富集分析
為了探索OSCC相關(guān)模塊中基因的潛在功能,使用R中的clusterProfiler程序包,enrichGO(pvalueCutoff = 0.01,qvalueCutoff = 0.01)和enrichKEGG(pvalueCutoff = 0.01,qvalueCutoff = 0.01)函數(shù)對(duì)這個(gè)模塊執(zhí)行GO功能分析和KEGG途徑富集分析.ClusterProfiler是Bioconductor的R包,可以對(duì)基因集或基因簇的功能性聚類進(jìn)行統(tǒng)計(jì)分析和可視化[15].
1.2.4 生存分析
Kaplan-Meier繪圖儀數(shù)據(jù)庫(kù)(http://kmplot.com) 是一種在線工具,可用于評(píng)估乳腺癌、卵巢癌、肺癌和胃癌等患者中基因的預(yù)后價(jià)值.該工具用于分析已鑒定的hub基因與總體生存率之間的關(guān)聯(lián)[16].計(jì)算風(fēng)險(xiǎn)比(HR)及其0.95 的置信區(qū)間.根據(jù)基因表達(dá)量的中位值將數(shù)據(jù)分為高表達(dá)組和低表達(dá)組.使用默認(rèn)參數(shù),計(jì)算每個(gè)基因高表達(dá)組和低表達(dá)組的總體生存率.若P<0.05,則說(shuō)明該基因與總體生存相關(guān).
從GSE20116數(shù)據(jù)集中共鑒定了1 269個(gè)DEGs,包括331個(gè)上調(diào)和938個(gè)下調(diào)基因.這些差異基因的分布情況如圖1.灰色表示在OSCC中上調(diào)或下調(diào)的DEGs.Cytoscape的插件Bingo生成一個(gè)有向無(wú)環(huán)圖,圖2顏色深淺代表富集程度,越深富集水平越高,反之越低.
圖1 差異表達(dá)基因的火山圖
圖2 差異表達(dá)基因的富集分析
基于1 269個(gè)DEGs,構(gòu)建了具有1 194個(gè)基因節(jié)點(diǎn)和7 900條邊的PPI網(wǎng)絡(luò)(圖3A),其中淺灰色代表hub基因,深灰色代表差異基因.通過(guò)5種常用的計(jì)算hub基因的算法,較為準(zhǔn)確地找到hub gene.表1是每種方法前20個(gè)重要基因的排名,然后取交集(圖3B).其中被五種算法公認(rèn)的hub基因是EGF、FGF2、IGF1、ACTN2、ACTA1、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4.CytoHubba插件提取了與11個(gè)hub基因相關(guān)的重要聚類模塊.該模塊具有393個(gè)節(jié)點(diǎn)和3 848條邊(圖3C),其中淺灰色代表hub基因,深灰色代表差異基因.把這個(gè)OSCC相關(guān)的模塊用于下游途徑分析.
表1 5種拓?fù)浞治龇椒ㄅ琶?0的基因
A:PPI網(wǎng)絡(luò);B:5種方法取交集的韋恩圖;C:由11個(gè)hub基因調(diào)控的聚類模塊
為了探討這個(gè)聚類模塊在OSCC發(fā)病機(jī)制中的作用,對(duì)OSCC相關(guān)模塊進(jìn)行了GO功能分析和KEGG通路分析(圖4).其中圖4A是BP中排名前15的術(shù)語(yǔ)、4B是CC中排名前15的術(shù)語(yǔ)、4C是MF中排名前15的術(shù)語(yǔ)和4D是KEGG途徑分析中排名前15的術(shù)語(yǔ).GO功能分析結(jié)果表明,855個(gè)生物過(guò)程,顯著地富集在肌肉細(xì)胞分化、細(xì)胞外結(jié)構(gòu)組織、細(xì)胞外基質(zhì)組織、肌肉組織發(fā)育等過(guò)程;70個(gè)細(xì)胞組分主要富集在收縮纖維、肌原纖維、肌動(dòng)蛋白細(xì)胞骨架、肌節(jié)細(xì)胞外基質(zhì)等和52個(gè)分子功能,其中與肌動(dòng)蛋白結(jié)合、肌動(dòng)蛋白絲結(jié)合、細(xì)胞黏附分子結(jié)合、糖胺聚糖結(jié)合、硫化合物結(jié)合、受體配體活性等功能顯著相關(guān).而KEGG途徑富集分析鑒定了35個(gè)KEGG途徑,其中與PI3K-Akt信號(hào)通路、ECM-受體相互作用、黏著斑和軸突傳導(dǎo)等顯著相關(guān).PI3K-Akt信號(hào)通路抑制劑LY2442可逆轉(zhuǎn)PAR-2引起的致癌作用.PAR-2可通過(guò)激活PI3K-Akt信號(hào)通路促進(jìn)OSCC的生長(zhǎng)和發(fā)展[17-19].ECM-受體相互作用和黏著斑通路等有密切的相互作用.這些相互作用有利于OSCC的增殖、運(yùn)動(dòng)、分化和ECM代謝,同時(shí)抑制細(xì)胞死亡、平穩(wěn)地極化生長(zhǎng)和ECM的穩(wěn)定性[20].ECM受體相互作用和黏著斑信號(hào)通路對(duì)癌細(xì)胞有明顯的調(diào)控作用[21].
圖4 GO功能和KEGG途徑富集分析
使用Kaplan-Meier繪圖儀數(shù)據(jù)庫(kù),繪制了11個(gè)hub基因的預(yù)后價(jià)值(圖5).根據(jù)基因表達(dá)量的中位值將數(shù)據(jù)分為高表達(dá)組和低表達(dá)組.灰色線條代表高表達(dá)組,黑色線條代表低表達(dá)組.log-rankP<0.05,說(shuō)明高低表達(dá)組的生存率有顯著差異.由圖5可以看出,EGF、FGF2、IGF1、ACTN2、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4高表達(dá)組的生存率顯著高于低表達(dá)組,說(shuō)明這10個(gè)基因的低表達(dá)組伴有較差的總體生存率.而ACTA1低表達(dá)組的生存率顯著高于高表達(dá)組,說(shuō)明該基因高表達(dá)組的生存率較差.綜上所述,這11個(gè)hub基因都與OSCC患者的總體生存率相關(guān)(log-rankP<0.05).
圖5 hub基因的生存分析圖
分子遺傳學(xué)和信號(hào)通路的研究可以促進(jìn)對(duì)OSCC發(fā)病機(jī)理的了解,并有助于OSCC的早期診斷.因此,鑒定OSCC的差異表達(dá)基因可能有助于早期診斷和開(kāi)發(fā)有效的治療方法.
在本研究中,從OSCC數(shù)據(jù)集中總共識(shí)別出1 269個(gè)DEGs,其中331個(gè)上調(diào)和938個(gè)下調(diào)基因.基于這些DEGs構(gòu)建了一個(gè)PPI網(wǎng)絡(luò).該網(wǎng)絡(luò)由1 194個(gè)基因和7 900個(gè)邊組成.然后,通過(guò)5種拓?fù)浞治龇椒ㄈ〗患x擇了11個(gè)hub基因.CytoHubba提取了與11個(gè)hub基因相關(guān)的聚類模塊.為了探索該聚類模塊在OSCC發(fā)病機(jī)理中的作用,對(duì)該模塊進(jìn)行了GO功能和KEGG途徑分析.發(fā)現(xiàn)該模塊中的基因富含多種功能和途徑,其中PI3K-Akt信號(hào)通路、ECM-受體相互作用、細(xì)胞黏附分子(CAMs)和人乳頭瘤病毒感染等與OSCC顯著相關(guān).Kaplan-Meier分析顯示11個(gè)hub基因與OSCC患者的整體生存有關(guān).
這項(xiàng)研究的總體目標(biāo)是確定可以作為OSCC診斷和治療的潛在生物標(biāo)記的hub基因,并通過(guò)綜合分析進(jìn)一步探索OSCC的潛在機(jī)制.在文獻(xiàn)研究的基礎(chǔ)上,從生物學(xué)角度揭示了11個(gè)hub基因都與癌癥相關(guān).其中相關(guān)文獻(xiàn)已經(jīng)證實(shí)了有5個(gè)hub基因在OSCC中具有重要作用,6個(gè)hub基因與其他癌癥和疾病密切相關(guān).Chen等人研究表明,miR-23a-3p可能通過(guò)靶向FGF2抑制腫瘤的增殖、侵襲并促進(jìn)OSCC的凋亡[22].Zhao等人研究表明,隨著啟動(dòng)子甲基化率的升高,ACTN2,ACTA1在OSCC中的表達(dá)降低[23].Tand等人研究表明,VWF被用作內(nèi)皮細(xì)胞標(biāo)記,這種蛋白質(zhì)是由內(nèi)皮細(xì)胞合成的,在止血中起著重要作用,促進(jìn)了第一批血小板與血管內(nèi)皮下細(xì)胞的黏附[24].Zhang等人發(fā)現(xiàn),CXCL12與FoxP3 +腫瘤浸潤(rùn)淋巴細(xì)胞相關(guān),并影響OSCC患者的生存[25].Ikebe等人發(fā)現(xiàn),TLR4增強(qiáng)了胰腺癌細(xì)胞的侵襲能力并促進(jìn)了胰腺癌的進(jìn)程[26].Li等人研究表明了miR-26b與PTGS2相互作用,抑制PTGS2蛋白表達(dá).此外,PTGS2表達(dá)抑制細(xì)胞增殖[27].Takahashi等人研究表明,血管內(nèi)皮生長(zhǎng)因子及其受體KDR的表達(dá)與人結(jié)腸癌的血管形成、轉(zhuǎn)移和增殖相關(guān)[28].Kong等人研究表明,表面活性物質(zhì)(EPR)降低OSCC表皮生長(zhǎng)因子(EGF)受體表達(dá)[29].Jacobsen等人研究表明,PTPRC的突變與某些家系中多發(fā)性硬化癥的發(fā)展有關(guān)[30].Cheng等人研究表明,IGF1遺傳變異與前列腺癌的發(fā)病風(fēng)險(xiǎn)相關(guān)聯(lián)[31].
針對(duì)以往篩選hub基因方法單一的問(wèn)題,提出一種可以綜合考慮各種方法來(lái)精確篩選hub基因的新思路.本文主要通過(guò)5種拓?fù)浞治龇椒?,確定了11個(gè)hub基因,包括EGF、FGF2、IGF1、ACTN2、ACTA1、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4.通過(guò)途徑分析、相關(guān)文獻(xiàn)和kaplan-meier分析驗(yàn)證了這些hub基因.結(jié)果表明,這11個(gè)hub基因可以作為OSCC的潛在預(yù)后生物標(biāo)志物和治療靶標(biāo).盡管對(duì)本研究結(jié)果需要進(jìn)一步的生物學(xué)驗(yàn)證,但本研究為探索潛在的生物標(biāo)志物和OSCC相關(guān)的診斷、預(yù)后和治療靶標(biāo)提供了新的思路.