黃成 易尚輝 查文婷 呂媛
摘要:目的? 通過(guò)對(duì)GEO數(shù)據(jù)庫(kù)提供的基因芯片數(shù)據(jù)進(jìn)行挖掘,結(jié)合生物信息學(xué)分析基因表達(dá)譜,獲取舌鱗狀細(xì)胞癌(TSCC)核心基因,利用生存分析初步驗(yàn)證核心基因?qū)ι圜[狀細(xì)胞癌的預(yù)測(cè)效果。方法? 從GEO數(shù)據(jù)庫(kù)下載舌鱗狀細(xì)胞癌相關(guān)芯片數(shù)據(jù)(GSE9844),獲得了26例TSCC組織樣本和12例癌旁組織樣本的全基因組轉(zhuǎn)錄組譜,采用SAM算法篩選出TSCC與癌旁組織間的差異表達(dá)基因,并借助GEO的gene信息庫(kù)對(duì)基因功能進(jìn)行描述,篩選出TSCC與癌旁組織間的差異細(xì)胞信號(hào)通路,構(gòu)建決定TSCC的基因共表達(dá)網(wǎng)絡(luò),通過(guò)GEPIA數(shù)據(jù)庫(kù)來(lái)初步驗(yàn)證共表達(dá)網(wǎng)絡(luò)中的核心基因是否與TSCC患者的生存預(yù)后存在相關(guān)性。結(jié)果? 篩選出2074個(gè)差異表達(dá)基因,包括1119個(gè)上調(diào)基因和955個(gè)下調(diào)基因。以2074個(gè)差異表達(dá)基因作為共表達(dá)網(wǎng)絡(luò)的構(gòu)建基礎(chǔ),共納入230個(gè)差異表達(dá)基因,篩選出5個(gè)TSCC核心的基因(ADCY4、PLA2G12A、MAOB、PDE2A、CYP2C9),通過(guò)GEPIA數(shù)據(jù)庫(kù)對(duì)核心基因進(jìn)行生存分析,初步驗(yàn)證共表達(dá)網(wǎng)絡(luò)中高表達(dá)的ADCY4基因與TSCC總體生存率呈正相關(guān)(P=0.014),高表達(dá)PLA2G12A基因與TSCC總體生存率呈負(fù)相關(guān)(P=0.0029),MAOB、PDE2A及CYP2C9基因患者生存率比較,差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。結(jié)論? 通過(guò)生物信息學(xué)方法分析影響TSCC的核心基因,最終篩選出2個(gè)差異表達(dá)非常顯著且對(duì)患者預(yù)后影響明顯的基因,對(duì)TSCC的診斷和預(yù)后治療提供了新思路,提高TSCC機(jī)制的研究效率。
關(guān)鍵詞:舌鱗狀細(xì)胞癌;生物信息學(xué);核心基因;共表達(dá)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):R739.91? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.3969/j.issn.1006-1959.2020.03.002
文章編號(hào):1006-1959(2020)03-0006-07
Screening Core Genes of Tongue Squamous Cell Carcinoma Based
on Bioinformatics Analysis and Its Prognostic Value
HUANG Cheng,YI Shang-hui,ZHA Wen-ting,LYU Yuan
(Hunan Normal University Medical College,Changsha 410001,Hunan,China)
Abstract:Objective? To obtain core genes of tongue squamous cell carcinoma (TSCC) by mining gene chip data provided by the GEO database and analyzing gene expression profiles in combination with bioinformatics, and use survival analysis to initially verify the role of core genes in tongue squamous cell carcinoma forecast effect. Methods? Tongue squamous cell carcinoma-related chip data (GSE9844) was downloaded from the GEO database, and the genome-wide transcriptome profiles of 26 TSCC tissue samples and 12 adjacent cancer tissue samples were obtained. The differences between TSCC and adjacent cancer tissues were screened using the SAM algorithm express genes, and use GEO's gene information database to describe gene functions, screen differential signaling pathways between TSCC and adjacent tissues, construct a gene co-expression network that determines TSCC, and use the GEPIA database to initially verify the co-expression network. Whether the core genes are correlated with the survival prognosis of patients with TSCC.Results? 2074 differentially expressed genes were screened, including 1119 up-regulated genes and 955 down-regulated genes. Using 2,074 differentially expressed genes as the basis for the construction of a co-expression network, a total of 230 differentially expressed genes were included, and 5 TSCC core genes (ADCY4, PLA2G12A, MAOB, PDE2A, CYP2C9) were selected, and the core genes were survived through the GEPIA database. The analysis showed that the highly expressed ADCY4 gene in the co-expression network was positively correlated with the overall survival rate of TSCC (P = 0.014), the highly expressed PLA2G12A gene was negatively correlated with the overall survival rate of TSCC (P = 0.0029), and patients with MAOB, PDE2A, and CYP2C9 genes,there was no significant difference in survival rate (P> 0.05).Conclusion? The core genes affecting TSCC were analyzed by bioinformatics methods. 2 genes with very significant differential expression and significant effects on patients' prognosis were finally screened, which provided new ideas for the diagnosis and prognosis of TSCC and improved the research efficiency of TSCC mechanism.
Key words:Tongue squamous cell carcinoma;Bioinformatics;Core genes;Co-expression network
生物信息學(xué)是20世紀(jì)80年代末隨著人類(lèi)基因組計(jì)劃的啟動(dòng)而興起的一門(mén)交叉學(xué)科,體現(xiàn)了生物學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)等學(xué)科間的滲透與融合。其通過(guò)對(duì)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲(chǔ)、檢索與分析,達(dá)到揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義從而解讀生物活動(dòng)規(guī)律的目的,在后期的臨床試驗(yàn)、新藥研制以及復(fù)雜疾病早期診斷、治療中具有重要指導(dǎo)意義[1-5]。舌鱗狀細(xì)胞癌(tongue squamous cell carcinoma,TSCC)作為頭頸部最為常見(jiàn)的癌癥,具有惡性化程度高、浸潤(rùn)生長(zhǎng)速度快、易轉(zhuǎn)移等特點(diǎn),可累及舌肌導(dǎo)致吞咽、言語(yǔ)功能受損[6],目前的流行病學(xué)研究顯示[7],TSCC發(fā)病率逐年上升,并且有年輕化的趨勢(shì)。雖然目前的臨床治療手段不斷提升,但是TSCC容易淋巴轉(zhuǎn)移的特點(diǎn)導(dǎo)致其總體生存率不高,TSCC的侵襲和淋巴轉(zhuǎn)移已經(jīng)成為其預(yù)后不佳的主要原因[8]。舌癌的發(fā)生是多基因參與、多步驟發(fā)生的生物學(xué)過(guò)程,包括多基因的功能失常,如原癌基因激活和抑癌基因失活等,目前對(duì)TSCC的生物信息學(xué)研究較多,但大多篩選出的基因僅停留在實(shí)驗(yàn)室研究階段,應(yīng)用于臨床實(shí)踐的相關(guān)報(bào)道罕見(jiàn)。TSCC的發(fā)生與發(fā)展是一個(gè)多基因及相關(guān)因子作用的結(jié)果,隨著高通量測(cè)序和基因芯片技術(shù)的不斷發(fā)展,為T(mén)SCC的預(yù)防和治療,以及發(fā)現(xiàn)導(dǎo)致TSCC的核心基因提供了基礎(chǔ)保障[9]。本研究利用GEO數(shù)據(jù)庫(kù)中TSCC基因芯片數(shù)據(jù)篩選出TSCC差異表達(dá)基因,對(duì)差異基因進(jìn)行生物信息學(xué)分析及共表達(dá)網(wǎng)絡(luò)構(gòu)建,以期獲取TSCC 的核心基因及相關(guān)通路[10]。通過(guò)GEPIA數(shù)據(jù)庫(kù)對(duì)核心基因進(jìn)行生存分析,初步驗(yàn)證核心基因的表達(dá)與TSCC的關(guān)系,為進(jìn)一步研究TSCC發(fā)生發(fā)展的作用機(jī)制提供科學(xué)依據(jù)。
1資料與方法
1.1數(shù)據(jù)資料收集? 本研究中所使用的基因芯片表達(dá)譜來(lái)自GEO數(shù)據(jù)庫(kù)(網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/),所有患者的表達(dá)譜數(shù)據(jù)均來(lái)自相同的實(shí)驗(yàn)平臺(tái)(Affyme-trix U133 Plus 2.0 array)。
1.2差異基因篩選方法? 本研究在篩選差異基因階段所采用的SAM(significance analysis of microarrays)算法[11]是一種專(zhuān)業(yè)針對(duì)DNA芯片數(shù)據(jù)進(jìn)行分析的算法,由美國(guó)Standford大學(xué)開(kāi)發(fā),其本質(zhì)為一種高通量的生物信息分析平臺(tái)。采用GEO 數(shù)據(jù)庫(kù)自帶的GEO2R分析實(shí)驗(yàn)室分析GSE9844中TSCC樣本及癌旁組織中的差異表達(dá)基因,差異基因篩選標(biāo)準(zhǔn):Fold change>1.2且P<0.05。
1.3細(xì)胞信號(hào)通路分析方法? GO功能富集分析一般包括生物過(guò)程(biological? process,BP)、分子功能(molecular function,MF)和細(xì)胞成分(cellular component,CC),本研究中對(duì)基因的生物過(guò)程、分子功能和細(xì)胞成分進(jìn)行富集分析。將這些差異表達(dá)基因?qū)氲皆诰€工具DAVID 數(shù)據(jù)庫(kù)中,分別進(jìn)行GO 和KEGG富集分析,P<0.05表示差異有統(tǒng)計(jì)學(xué)意義[12]。利用KEGG數(shù)據(jù)庫(kù)來(lái)識(shí)別下調(diào)差異表達(dá)基因以及上調(diào)差異表達(dá)基因中顯著富集的通路。通路數(shù)據(jù)資源均來(lái)源自kyoto encyclopedia of genes and genomes database(KEGG) 數(shù)據(jù)庫(kù)。KEGG數(shù)據(jù)庫(kù)(http://www.genome.ad.jp/kegg)是一組數(shù)據(jù)庫(kù)與基因信息相關(guān)聯(lián)在一起的軟件,用于通過(guò)其基因組信息幫助理解與模擬細(xì)胞或者生物系統(tǒng)中的高階功能行為[13-17]。
1.4基因共表達(dá)網(wǎng)絡(luò)分析方法? 利用在線數(shù)據(jù)庫(kù)String構(gòu)建差異表達(dá)基因之間的交互作用網(wǎng)絡(luò)圖(PPI),分析蛋白質(zhì)功能之間的相互作用。隨后我們應(yīng)用 Cytoscape 軟件(3.5.1)在線工具使 PPI 的網(wǎng)絡(luò)模塊可視化,使用 Cyto Hubba 插件對(duì)差異基因共表達(dá)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)度分析,并根據(jù)節(jié)點(diǎn)度(degree)大小進(jìn)行排序,篩選出核心基因[18,19]。
1.5生存分析? 通過(guò)GEPIA數(shù)據(jù)庫(kù)對(duì)TSCC核心基因進(jìn)行在線生存分析,篩選條件為L(zhǎng)UAD數(shù)據(jù)集,95%置信區(qū)間,時(shí)間軸單位為月?;虮磉_(dá)差異采用t檢驗(yàn),在TSCC中表達(dá)量與預(yù)后的關(guān)系采用Log-rank檢驗(yàn),以P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
2結(jié)果
2.1TSCC基因芯片樣本類(lèi)型分布? 本研究從美國(guó)國(guó)立生物技術(shù)信息中心共收集基因芯片樣本38例,TSCC樣本26例(68.42%);癌旁組織基因芯片樣本12例(31.58%)。
2.2差異表達(dá)基因篩選結(jié)果? 本研究共獲得2074個(gè)差異表達(dá)基因,火山圖中紅色為上調(diào)基因(見(jiàn)圖1),藍(lán)色為下調(diào)基因。其中包括1119個(gè)上調(diào)基因和955個(gè)下調(diào)基因,q-value為誤判率,即差異基因中假陽(yáng)性基因所占比例的期望,值越小假陽(yáng)性率越低。圖2為2074個(gè)差異表達(dá)基因的聚類(lèi)熱圖。在樣本聚類(lèi)中,紅色代表TSCC組織樣本,綠色代表正常癌旁組織樣本。在基因聚類(lèi)中,紅色代表基因表達(dá)水平較高,綠色代表基因表達(dá)水平較低。表1為DEGs列表(局部),TSCC組織中基因表達(dá)水平與正常癌旁組織相比較,MMP1基因在癌組織上調(diào)基因中差異倍數(shù)最高,TMPRSS11B在下調(diào)基因中差異倍數(shù)最高。
2.3細(xì)胞信號(hào)通路富集分析結(jié)果? 針對(duì)2074個(gè)差異表達(dá)基因的細(xì)胞信號(hào)通路富集結(jié)果顯示,富集度最高的信號(hào)通路為ECM-receptor interaction,富集度為8.63,富集度排名前5的信號(hào)通路還包括Metabolic pathways通路、PI3K-Akt signaling pathway、Focal adhesion通路及Pathways in cancer通路。前20位差異細(xì)胞信號(hào)通路富集結(jié)果比較,差異均有統(tǒng)計(jì)學(xué)意義(P<0.001),可認(rèn)為本研究得到的信號(hào)通路富集結(jié)果具有較高的真實(shí)性和有效性,見(jiàn)表2、圖3。
2.4基因共表達(dá)網(wǎng)絡(luò)結(jié)果? 以2074個(gè)在不同組發(fā)生差異表達(dá)的基因作為共表達(dá)網(wǎng)絡(luò)的構(gòu)建基礎(chǔ),本次構(gòu)建得到的共表達(dá)網(wǎng)絡(luò)共納入230個(gè)發(fā)生差異表達(dá)的基因。以TSCC(TSCC)為實(shí)驗(yàn)組,以正常癌旁組織為對(duì)照組,采用MCODE算法計(jì)算基因調(diào)控能力評(píng)分的結(jié)果顯示,決定TSCC調(diào)控能力評(píng)分最高基因?yàn)锳DCY4基因,得分為425.2分,該基因在本次構(gòu)建得到的模塊中上游基因數(shù)為10,下游基因數(shù)為6,這在某種程度上說(shuō)明ADCY4基因在決定TSCC的過(guò)程中雖具有較強(qiáng)的調(diào)控能力,但其功能的發(fā)揮在很大程度上受到其上游基因的影響。
此外,PLA2G12A、MAOB、PDE2A以及CYP2C9基因的調(diào)控能力評(píng)分均高于或接近于200,因此可認(rèn)為它們是本次構(gòu)建得到的共表達(dá)網(wǎng)絡(luò)模塊中的核心基因。本次構(gòu)建得到的共表達(dá)網(wǎng)絡(luò)模塊中所有納入基因的調(diào)控能力評(píng)分以及上下游基因數(shù)參見(jiàn)表3,決定TSCC基因共表達(dá)網(wǎng)絡(luò)全局圖見(jiàn)圖4。
2.5決定TSCC的共表達(dá)網(wǎng)絡(luò)基因功能描述? 通過(guò)TSCC基因共表達(dá)網(wǎng)絡(luò)MCODE算法得分,篩選出得分排在前二十位的基因,其中排名在前五位的基因分別是:ADCY4(腺苷酸環(huán)化酶4)、PLA2G12A(磷脂酶A2,XIIA組)、MAOB(單胺氧化酶B)、PDE2A(磷酸二酯酶2A,cGMP刺激)和CYP2C9(細(xì)胞色素P450,家族2,家族C,多肽9),見(jiàn)表4。
2.6 TSCC中5種核心基因與患者預(yù)后關(guān)系? PLA2G12A表達(dá)水平對(duì)患者的總生存時(shí)間有著顯著影響(P<0.05)。而ADCY4對(duì)患者生存率也有明顯影響(P<0.05),MAOB、PDE2A以及CYP2C9對(duì)患者的生存率影響無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),見(jiàn)圖5。
衡量富集度的大小。因此,細(xì)胞信號(hào)通路的富集度越大,就越能認(rèn)為該信號(hào)通路在疾病的發(fā)生發(fā)展中起著重要的作用[23]。
對(duì)TSCC差異基因進(jìn)行網(wǎng)絡(luò)化分析,以基因之間的關(guān)系為線,實(shí)線表示激活作用,虛線表示抑制作用,如果在共表達(dá)網(wǎng)絡(luò)中不知道某個(gè)基因的功能,可以通過(guò)調(diào)控的相關(guān)節(jié)點(diǎn)基因和周?chē)倪B線來(lái)判斷該基因的功能。此處經(jīng)常用到基因調(diào)控能力評(píng)分來(lái)對(duì)基因在共表達(dá)網(wǎng)絡(luò)中的調(diào)控能力進(jìn)行量化評(píng)估,其計(jì)算原理主要涉及 MCODE 代碼算法,其本質(zhì)為一種尋找共表達(dá)網(wǎng)絡(luò)局部稠密區(qū)域的算法,找到網(wǎng)絡(luò)圖的局部密集地區(qū)后,MCODE 代碼基于聚類(lèi)系數(shù),使用頂點(diǎn)加權(quán)方案。MCODE代碼算法包括三個(gè)階段(頂點(diǎn)加權(quán)、復(fù)雜預(yù)測(cè)和可選后處理),其原理類(lèi)似于聚類(lèi)分析(都是通過(guò)指標(biāo)的降維進(jìn)而選取有代表性的指標(biāo)),但有別于聚類(lèi)分析的是,共表達(dá)網(wǎng)絡(luò)在構(gòu)建的過(guò)程中放大了重要關(guān)聯(lián)圖區(qū)域的權(quán)重,因此在進(jìn)行核心基因篩選的過(guò)程中具有一定的算法優(yōu)勢(shì)[24]。
以上的研究表明通過(guò)生物信息學(xué)方法來(lái)尋找TSCC的生物標(biāo)志物和其對(duì)臨床預(yù)后可能有重要意義,通過(guò)相關(guān)的文獻(xiàn)來(lái)進(jìn)一步證明這些核心基因在舌癌和其他腫瘤的發(fā)生發(fā)展中起到重要的作用[25,26],以期為對(duì)舌癌的診斷和預(yù)后治療提供了新思路,提高舌癌機(jī)制的研究效率,為將來(lái)對(duì)TSCC的早期診斷和基因靶向治療提供了科學(xué)依據(jù)和理論指導(dǎo)。
參考文獻(xiàn):
[1]Chan LL,Jiang P.Bioinformatics analysis of circulating cell-free DNA sequencing data[J].Clin Biochem,2015,48(15):962-975.
[2]Ranganathan S,Tan T,Schonbach C.InCoB2014:bioinformatics to tackle the datato knowledge? challenge.Introduction[J].BMC Bioinformatics,2014,15(16):1471-2105.
[3]Ow TJ,Upadhyay K,Belbin? TJ,et al.Bioinformatics? in? otolaryngology? research.Part one: concepts in DNA sequencing and gene expression analysis[J].J Laryngol Otol,2014,128(10):848-858.
[4]Meldolesi E,van Soest J,Damiani A,et al.Standardized data collection to build prediction models in oncology:a prototype for rectal cancer[J].Future Oncol,2016,12(1):119-136.
[5]Perry PM.Harnessing the power of big data and data analysis to improve healthcare entities[J]. Healthc Financ Manage,2016,70(1):74-75.
[6]D?觟brossy L.Epidemiology of head and neck cancer:Magnitude of the problem[J].Cancer Metastasis Rev,2005,24(1):9-17.
[7]Timar J,Csuka O,Remenar E,et al.Progression ofhead and neck squamous cell cancer[J].Cancer Metastasis Rev,2005,24(1):107-127.
[8]Mackenzie J,Ah-See K,Thakker N,et al.Increasing incidence of oral cancer amongst youngpersons:what is the aetiology[J].Oral Oncol,2000,36(4):387-389.
[9]Annertz K,Anderson H,Biorklund A,et al.Incidence and survival of squamouscell carcinoma of the tongue in Scandinavia,with special reference to young adults[J].Int J Cancer,2002,101(1):95-99.
[10]Ye H,Yu T,Temam S,et al.Transcriptomic dissection of tongue squamous cell carcinoma[J]. BMC Genomics,2008,9(1):69-70.
[11]Jez S,Martin M,South S,et al.Variants of unknown significance on chromosomal microarray analysis:parental perspectives[J].J Community Genet,2015,6(4):343-349.
[12]Kanehisa M,Sato Y,Morishima? K.BlastKOALA? and? GhostKOALA:KEGG? Tools for Functional Characterization of Genome and Metagenome Sequences[J].J Mol Biol,2016,428(4):726-731.
[13]Cheng L,Lin H,Hu? Y,et? al.Gene? function? prediction? based? on? the? Gene? Ontology hierarchical structure[J].PLoS One,2014,9(9):e84685.
[14]Kanehisa? M,Sato? Y,Kawashima? M,et? al.KEGG? as? a? reference? resource? for? gene and protein annotation[J].Nucleic Acids Res,2016,44(D1):17.
[15]Blake JA,Chan J,Kishore R,et al.Gene Ontology Consortium:going forward[J].Nucleic Acids Research,2015,43(Database issue):1049-1056.
[16]Nigrovic PA,Muscal E,Riebschleger M,et al.AMIGO:a novel approach to the mentorship gap in pediatric rheumatology[J].J Pediatr,2013,164(2):226-227.e1-e3.
[17]Peltola MA,Kuja-Panula J,Liuhanen J,et al.AMIGO-Kv2.1 Potassium Channel Complex Is Associated With Schizophrenia-Related Phenotypes[J].Schizophr Bull,2016,42(1):191-201.
[18]Zhou T,Zhang Y,Wu P,et al.Potential biomarkers and latent pathways for vasculitis based on latent pathway identification analysis[J].Int J Rheum Dis,2014,17(6):671-678.
[19]魏選東.基于芯片分析的乳腺癌預(yù)后核心基因篩選及其預(yù)測(cè)效果分析[D].湖南師范大學(xué),2018.
[20]Iancu OD,Colville A,Darakjian P,et al.Coexpression and cosplicing network app roaches for the study of mammalian brain transcriptomes[J].Int Rev Neurobiol,2014,116(1):73-93.
[21]汪濤,蔣慶華,彭佳杰,等.基因共表達(dá)網(wǎng)絡(luò)的構(gòu)建及分析方法研究綜述[J].智能計(jì)算機(jī)與應(yīng)用,2014(6):51-54,57.
[22]洪勝君.基于轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的基因共表達(dá)網(wǎng)絡(luò)研究[D].復(fù)旦大學(xué),2013.
[23]王安訓(xùn).舌鱗狀細(xì)胞癌侵襲和轉(zhuǎn)移的研究進(jìn)展[J].口腔疾病防治,2016,24(5):261-266.
[24]Nsman A,Bersani C,Lindquist D,et al.Human papillomavirus and po-tentiallyrelevant biomarkers in tonsillar and base of tongue squamouscell carcinoma[J].Anticancer Res,2017,37(10):5319-5328.
[25]高桂林,朱斌,顏孟雄.舌鱗狀細(xì)胞癌相關(guān)差異基因的生物信息學(xué)及預(yù)后分析[J].臨床口腔醫(yī)學(xué)雜志,2018(3):145-149.
[26]Langfelder P,Horvath S.WGCNA:an R package for weighted correlation network analysis[J]. BMC Bioinformatics,2008,9(1):559.
收稿日期:2019-12-24;修回日期:2020-01-10
編輯/肖婷婷