李燦楦, 陳潔, 徐爭光, 林晏廷, 李曉
(暨南大學(xué) 附屬第一醫(yī)院 泌尿外科,廣東 廣州 510632)
腎細胞癌(renal cell carcinoma,RCC)是常見的泌尿系統(tǒng)腫瘤之一,約占所有腎臟惡性腫瘤的90%,其中腎透明細胞癌(clear cell renal cell carcinoma, ccRCC)是最常見的病理亞型,約占腎細胞癌的75%[1].最新統(tǒng)計數(shù)據(jù)顯示,ccRCC發(fā)病率正以每年2%的速度遞增[2].目前,早期ccRCC患者主要依賴外科手術(shù)治療,但早期患者多無特異性癥狀,因此約1/3的患者在確診時已經(jīng)出現(xiàn)了轉(zhuǎn)移,轉(zhuǎn)移和復(fù)發(fā)患者不僅失去了根治手術(shù)的機會,還易對傳統(tǒng)放化療耐受[3].盡管分子靶向藥物已取得一定進展,但大部分患者最終都會出現(xiàn)靶向藥物耐受的情況[4-5].因此,挖掘與ccRCC診斷、治療相關(guān)的新靶向生物標記物是當前癌癥研究的熱點之一,也是當務(wù)之急.
隨著基因芯片的普及和高通量測序技術(shù)的發(fā)展,生物信息學(xué)分析在生物腫瘤領(lǐng)域的應(yīng)用越來越廣泛.通過大數(shù)據(jù)整合和生物信息學(xué)來挖掘與腫瘤發(fā)生、發(fā)展、預(yù)后相關(guān)的樞紐基因,對癌癥的新型分子靶向治療具有重要的臨床意義.本研究通過分析公共基因芯片數(shù)據(jù)庫(gene expression omnibus, GEO)中的ccRCC基因芯片數(shù)據(jù)集,尋找ccRCC組織和正常腎臟組織間的差異表達基因,運用生物信息學(xué)方法篩選出可能參與ccRCC發(fā)生、發(fā)展的關(guān)鍵樞紐基因并對其進行綜合分析,為后續(xù)找到可用于ccRCC臨床診斷、治療的靶點提供幫助.
GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)是由美國國家生物技術(shù)信息中心(national center for biotechnology information)開發(fā)和維護的綜合數(shù)據(jù)庫.本研究從NCBI-GEO(http://www.ncbi.nlm.nih.gov/geo/)數(shù)據(jù)庫獲取ccRCC基因芯片數(shù)據(jù)集GSE66270[6-7].該芯片來自于GPL570平臺([HG-U133_Plus_2]人類基因組 U133 Plus 2.0 陣列),包括14例ccRCC組織及14例正常癌旁組織.
GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)是一個基于R語言的Web數(shù)據(jù)分析工具,可用于GEO數(shù)據(jù)集的復(fù)雜分析,該工具提供了一個簡潔的界面,可幫助用戶識別和可視化GEO數(shù)據(jù)集中兩組或多組樣本的差異表達基因[8].本研究通過在線GEO2R工具篩選差異表達基因,基因表達的差異用倍數(shù)變化(fold change, FC)表示.為增加本研究結(jié)果的可信度,本研究將篩選標準設(shè)置為校正后P<0.01且|log2FC|>4,其中,log2FC>4為上調(diào)基因,log2FC<-4為下調(diào)基因.
clusterProfiler軟件包是一個基于本體(ontology-based)的工具,不僅可以自動進行生物術(shù)語分類和基因簇的富集分析過程,而且還提供了用于顯示分析結(jié)果的可視化模塊[9].本研究利用R軟件的clusterProfiler包對差異表達基因進行GO(gene ontology, GO)功能注釋和KEGG(kyoto encyclopedia of gene and genome, KEGG)通路富集分析.本研究將篩選條件設(shè)定為校正后Padj<0.05.
STRING數(shù)據(jù)庫(www.string-db.org)收集并整合了包括人類在內(nèi)的許多生物的已知和預(yù)測的蛋白質(zhì)-蛋白質(zhì)關(guān)聯(lián)數(shù)據(jù).本研究通過STRING數(shù)據(jù)庫[10]預(yù)測差異表達基因所編碼蛋白質(zhì)之間的相互作用,以互作評分combination score>0.4為條件構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò)(protein-protein interaction, PPI).然后將數(shù)據(jù)導(dǎo)入Cytoscape軟件進行可視化,最后利用Cytoscape軟件中的Cytohubba插件篩選出PPI網(wǎng)絡(luò)中的重要節(jié)點以確定關(guān)鍵樞紐基因.Cytoscape軟件可用于探索由蛋白質(zhì)、基因和其他類型的相互作用組成的生物醫(yī)學(xué)網(wǎng)絡(luò)[11],其中Cytohubba插件可用于探索生物網(wǎng)絡(luò)中的重要節(jié)點,它提供包括邊緣滲透組件(edge percolated component, EPC),度(degree),最大鄰域組件(maximum neighborhood component, MNC),最大鄰域組件密度(density of maximum neighborhood component, DMNC)和最大集團中心度(maximal clique centrality, MCC)等多種拓撲分析方法[12].為提高預(yù)測結(jié)果的準確性,本研究使用前三種方法即EPC、Degree和MNC,分別探索PPI網(wǎng)絡(luò)中的前10個重要節(jié)點,并將各自取得的前10個重要節(jié)點取交集得出本研究的關(guān)鍵樞紐基因.
GEPIA數(shù)據(jù)庫(http://gepia.cancer-pku.cn)是由北京大學(xué)研制開發(fā)的可用于在線分析基因在癌癥和正常組織中差異表達的數(shù)據(jù)庫,包含來自The Cancer Genome Atlas(TCGA)和Genotype-Tissue Expression(GTEx)項目的 9 736個腫瘤組織和 8 587 個正常組織的 RNA 測序表達數(shù)據(jù),包含 33種惡性腫瘤[13].本研究通過GEPIA數(shù)據(jù)庫中的TCGA-KIRC數(shù)據(jù)集驗證GEO數(shù)據(jù)庫的分析結(jié)果,并以關(guān)鍵樞紐基因相對表達量的中位值為界限,將ccRCC患者分為不同表達組,大于中位值者為高表達組,小于中位值者為低表達組,從而分析關(guān)鍵樞紐基因與ccRCC患者預(yù)后的相關(guān)性.篩選條件按照默認設(shè)置進行.
所有統(tǒng)計分析均采用在線數(shù)據(jù)庫完成.采用GEO數(shù)據(jù)庫自帶的GEO2R工具在線分析ccRCC組織和正常腎組織的差異表達基因;通過Kaplan-Meier方法分析關(guān)鍵樞紐基因與ccRCC患者預(yù)后的關(guān)系.P<0.05為有統(tǒng)計學(xué)差異.
圖1 本研究的工作流程
本研究選擇的基因表達譜芯片GSE66270包括14個ccRCC組織樣本和14個正常癌旁組織樣本,以校正后Padj<0.01, |log2FC|>4作為篩選標準篩選差異表達基因.結(jié)果如圖2所示,經(jīng)GEO2R分析處理后共獲得280個差異表達基因,其中84個為上調(diào)基因,196個為下調(diào)基因.差異表達的基因中,校正后P值最小的前10位基因分別在火山圖中顯示.
通過R軟件的clusterProfiler軟件包對篩選出的280個差異表達基因進行GO功能注釋和KEGG通路富集分析.其中GO功能分析結(jié)果如圖3A所示,差異表達基因主要定位于膜、血液微粒、質(zhì)子和離子通道復(fù)合體等細胞成分(cell component, CC);主要參與腎小管上皮的發(fā)育,鈉離子的穩(wěn)態(tài)、跨膜轉(zhuǎn)運以及其他有機、無機陰離子的運輸?shù)壬飳W(xué)過程(biological processes, BP);主要參與離子跨膜轉(zhuǎn)運蛋白活性、肝素結(jié)合和糖胺聚糖結(jié)合等分子功能(molecular function, MF).此外KEGG通路富集分析結(jié)果顯示,差異表達基因主要參與過氧化物酶體增殖物激活受體(peroxisome proliferator-activated receptor, PPAR)信號通路、補體和凝血級聯(lián)反應(yīng)、膽固醇代謝等相關(guān)腫瘤信號通路(圖3B).
圖2 差異表達基因的篩選
使用STRING數(shù)據(jù)庫預(yù)測280個差異表達基因編碼的蛋白之間的相互作用,為提高分析結(jié)果的可信度,將其中未參與相互作用關(guān)系的蛋白質(zhì)過濾,得到一個包含250個節(jié)點和656種連接度的PPI網(wǎng)絡(luò)(圖4A).然后基于Cytoscape軟件中Cytohubba插件的EPC(邊緣滲透組件)、Degree(度)和MNC(最大鄰域組件)三種拓撲算法分別探索PPI網(wǎng)絡(luò)中的前10個重要節(jié)點,結(jié)果如表1和圖4B-4D所示.最后將上述三種算法所獲得結(jié)果取交集,得出7個重疊差異表達基因,其中包括3個上調(diào)基因C3、CXCR4、CXCL9和4個下調(diào)基因EGF、ALB、KNG1、CASR(表2和圖5).這7個基因即本研究確定的關(guān)鍵樞紐基因.
A: GO功能注釋;B: KEGG通路富集分析.
紅色代表上調(diào)基因,藍色代表下調(diào)基因,連線代表基因間的相互作用.A:差異表達基因構(gòu)建的PPI網(wǎng)絡(luò);B: EPC算法中排名前10名的基因;C:Degree算法中排名前10名的基因;D: MNC算法中排名前10名的基因.
Red represents upregulatd genes, blue represents downregulated genes, and line represents gene-gene interaction.A: The PPI network constructed by differentially expressed genes; B: The top ten genes rank in the EPC algorithm; C: The top ten genes rank in the Degree algorithm; D: The top ten genes rank in the MNC algorithm.
圖4 差異表達基因的PPI網(wǎng)絡(luò)及關(guān)鍵樞紐基因的篩選
Fig.4 The PPI network for differentially expressed genes and screening of key hub genes
表1 EPC, Degree和MNC算法分別得出的前10名基因
EPC:邊緣滲透組件; Degree:度; MNC:最大鄰域組件
表2 EPC, Degree和MNC算法中前10名基因的交集
Table 2 The intersection of top ten genes from EPC, Degree, and MNC algorithms
基因簡稱基因名全稱表達情況C3complementC3上調(diào)CXCR4C-X-Cmotifchemokinereceptor4上調(diào)CXCL9C-X-Cmotifchemokineligand9上調(diào)EGFepidermalgrowthfactor下調(diào)ALBalbumin下調(diào)KNG1kininogen1下調(diào)CASRcalciumsensingreceptor下調(diào)
EPC:邊緣滲透組件; Degree:度; MNC:最大鄰域組件
基于GEPIA數(shù)據(jù)庫的TCGA-KIRC數(shù)據(jù)集對關(guān)鍵樞紐基因的表達進行驗證,結(jié)果顯示,C3、CXCR4和CXCL9在ccRCC組織中較正常腎臟組織高表達,EGF、ALB、KNG1和CASR在ccRCC組織中較正常腎臟組織低表達(圖6),與GEO數(shù)據(jù)集分析結(jié)果一致.關(guān)鍵樞紐基因與ccRCC患者預(yù)后的相關(guān)性分析結(jié)果如圖7所示.上調(diào)關(guān)鍵樞紐基因中,C3高表達組ccRCC患者的總體生存率(overall survival, OS)(HR=1.9,P(HR)=5.5×10-5, log-rankP=4.1×10-5)和無病生存率(disease free survival, DFS)(HR=1.9,P(HR)=8.0×10-4, log-rankP=0.000 64)明顯低于低表達組患者.下調(diào)關(guān)鍵樞紐基因中,CASR低表達與ccRCC患者較短的OS(HR=0.71,P(HR)=0.027, log-rankP=0.027)和DFS(HR=0.62,P(HR)=0.009 7, log-rankP=0.009)相關(guān).以上分析結(jié)果提示C3在ccRCC中可能充當癌基因的角色,而CASR可能具有抑癌作用.
EPC:邊緣滲透組件; Degree:度; MNC:最大鄰域組件
圖5 EPC, Degree和MNC算法中前10名基因的交集
Fig.5 The intersection of top ten genes from EPC, Degree, and MNC algorithms
A:C3mRNA在不同腎組織中的表達情況;B:CXCR4mRNA在不同腎組織中的表達情況;C:CXCL9mRNA在不同腎組織中的表達情況;D:EGFmRNA 在不同腎組織中的表達情況;E:ALBmRNA在不同腎組織中的表達情況;F:KNG1mRNA在不同腎組織中的表達情況;G:CASRmRNA在不同腎組織中的表達情況.1)P<0.05.
A:the expression ofC3mRNA in different renal tissues;B:the expression ofCXCR4mRNA in different renal tissues;C:the expression ofCXCL9mRNA in different renal tissues;D:the expression ofEGFmRNA in different renal tissues;E:the expression ofALBmRNA in different renal tissues;F:the expression ofKNG1mRNA in different renal tissues;G:the expression ofCASRmRNA in different renal tissues.1)P<0.05.
圖6 關(guān)鍵樞紐基因在GEPIA數(shù)據(jù)庫中的驗證情況
Fig.6 The verification of key hub genes in the GEPIA database
A:C3表達情況與ccRCC患者總生存率的關(guān)系;B:C3表達情況與ccRCC患者無病生存率的關(guān)系;C:CASR表達情況與ccRCC患者總生存率的關(guān)系;D:CASR表達情況與ccRCC患者無病生存率的關(guān)系
A: Relationship betweenC3expression and overall survival rate of ccRCC patients; B: Relationship betweenC3expression and disease-free survival rate of ccRCC patients; C: Relationship betweenCASRexpression and overall survival rate of ccRCC patients; D: Relationship betweenCASRexpression and disease-free survival rate of ccRCC patients.
圖7 GEPIA數(shù)據(jù)庫中C3和CASR不同表達的ccRCC患者生存分析
Fig.7 survival analysis of ccRCC patients with differentC3andCASRexpression of GEPIA database
腎透明細胞癌起源于腎小管上皮細胞,約占腎細胞癌的75%.近年來,ccRCC發(fā)病率有所上升[1].目前大約1/3的患者確診時已經(jīng)處于轉(zhuǎn)移階段,且對于轉(zhuǎn)移和復(fù)發(fā)ccRCC患者臨床治療手段有限[3, 14-15].盡管靶向藥物的出現(xiàn)改善了晚期腎癌的生存,但仍有大部分高危患者會出現(xiàn)耐受,預(yù)后較差[4-5].因此,進一步探索ccRCC發(fā)生、發(fā)展、預(yù)后相關(guān)的生物標志物和治療靶點具有重要意義.隨著基因芯片的普及和公共數(shù)據(jù)庫的開放使用,越來越多的研究者使用生物信息學(xué)分析癌癥組織及正常癌旁組織的差異表達基因,這對癌癥的新型分子靶向治療具有重要的臨床意義.
本研究通過生物信息學(xué)分析方法,從GSE66270基因芯片篩選出了280個差異表達基因, 包括84個上調(diào)基因以及196個下調(diào)基因,GO 分析結(jié)果提示這些差異表達基因在離子的穩(wěn)態(tài)、跨膜轉(zhuǎn)運和離子跨膜轉(zhuǎn)運蛋白活性中顯著富集.KEGG富集分析結(jié)果顯示,差異表達基因主要參與PPAR信號通路、補體和凝血級聯(lián)反應(yīng)以及膽固醇代謝等相關(guān)腫瘤信號通路.以上這些差異表達基因的功能注釋結(jié)果可為進一步研究ccRCC的發(fā)病機理提供理論依據(jù).接著,本研究構(gòu)建了差異表達基因編碼蛋白之間的PPI網(wǎng)絡(luò)并利用Cytoscape軟件的cytohubba插件成功篩選出7個關(guān)鍵樞紐基因,其中包括3個上調(diào)基因C3、CXCR4、CXCL9和4個下調(diào)基因EGF、ALB、KNG1、CASR.關(guān)鍵樞紐基因的表達在TCGA-KIRC數(shù)據(jù)集中得到驗證,與GEO數(shù)據(jù)集分析結(jié)果相一致,證明了研究的準確性.最后Kaplan-Meier生存分析顯示,C3mRNA 高表達與CASRmRNA低表達與ccRCC患者的預(yù)后不良有關(guān).
補體系統(tǒng)是先天免疫系統(tǒng)的一部分,通過調(diào)節(jié)免疫反應(yīng),將免疫細胞募集到感染部位或者直接通過細胞裂解來抵御細菌、病毒和寄生蟲感染;此外,補體的激活通常情況下被認為是對抗人類腫瘤形成的保護性機制[16].而近幾年研究顯示,補體系統(tǒng)在腫瘤進展中起到雙重作用.例如,研究表明,在癌癥微環(huán)境中,激活的補體可通過釋放趨化肽C5a募集髓樣抑制細胞,進而促進癌癥的發(fā)展[17].相反的是,有研究人員發(fā)現(xiàn)在癌細胞表面激活的補體可控制腫瘤的進展[18].補體成分C3作為補體系統(tǒng)的重要成分在補體系統(tǒng)的激活中起著至關(guān)重要的作用.RIIHIL等[19]發(fā)現(xiàn)補體成分C3的上調(diào)可以促進皮膚鱗狀細胞癌(cutaneous squamous cell carcinoma, CSCC)的生長,而敲除補體C3則可抑制CSCC細胞的遷移和增殖.CHO等[20]證實C3的過表達可降低卵巢癌細胞中的E-鈣粘蛋白的表達并增強上皮-間質(zhì)轉(zhuǎn)化(epithelial-mesenchymal transition, EMT),從而促進腫瘤的進展.此外他們還發(fā)現(xiàn)C3的裂解產(chǎn)物C3a具有激活有絲分裂信號傳導(dǎo)途徑(PI3K/AKT),具有激活有絲分裂信號傳導(dǎo)途徑、縮短細胞周期以及提高腫瘤壞死因子α(tumor necrosis factor-α,TNF-α)、轉(zhuǎn)化生長因子-β(transforming growth factor-β,TGF-β)、白細胞介素-6(interleukin 6,IL-6)分泌的能力[21].盡管目前尚未有足夠證據(jù)說明C3參與了ccRCC的進程,但值得注意的是,C3在其他癌癥中介導(dǎo)的相關(guān)腫瘤信號通路在ccRCC的發(fā)生、發(fā)展過程中的作用已得到廣泛證實[22-23],結(jié)合本研究的結(jié)果,可以推測補體成分C3有可能是ccRCC的潛在預(yù)后標記物.
鈣敏感受體(calcium sensing receptor,CASR)基因定位于3q13.33-q21.1區(qū)域,包含11個外顯子區(qū)域,主要分布于腎臟、膽囊和結(jié)腸等器官,在其他多數(shù)器官組織中呈現(xiàn)低表達.該基因編碼的G蛋白偶聯(lián)受體可感知循環(huán)中鈣濃度的微小變化,在維持鈣離子穩(wěn)態(tài)中起著重要作用[24].除了在鈣穩(wěn)態(tài)中的核心作用外,CASR還參與調(diào)控包括細胞增殖、分化、凋亡,細胞趨化性以及激素分泌在內(nèi)的多種細胞行為[25].這種能力預(yù)示著CASR對腫瘤的發(fā)生發(fā)展具有重要影響.研究表明,根據(jù)涉及的組織不同,CASR在癌癥中具有預(yù)防或促進腫瘤進展的雙重作用.有證據(jù)顯示CASR在前列腺和乳腺癌中高表達并且可增強癌細胞的骨轉(zhuǎn)移能力,起著癌基因的作用[26-27].相反,在甲狀旁腺腫瘤和結(jié)腸癌中,CASR高表達可抑制癌細胞的增殖并誘導(dǎo)細胞的終末分化,而CASR的缺失則賦予了癌細胞惡性潛能[28-29],提示CASR在結(jié)腸癌和甲狀旁腺腫瘤中具有抑癌作用.雖然目前尚缺乏CASR與ccRCC關(guān)系的實驗研究證據(jù),但YUAN等[30]通過生物信息學(xué)分析發(fā)現(xiàn),CASR可能是ccRCC發(fā)生、發(fā)展中的腫瘤抑制因子,這與本研究結(jié)論相一致, 因而更值得進一步深入研究和探討.
隨著基因芯片的普及和高通量測序技術(shù)的發(fā)展,生物信息學(xué)分析已經(jīng)成為一種探索疾病診斷、治療相關(guān)預(yù)后標記物及其生物學(xué)機制的重要工具[31].本研究通過生物信息學(xué)方法從GSE66270基因芯片篩選出280個差異表達基因和7個關(guān)鍵樞紐基因,這些基因可能在ccRCC發(fā)生、發(fā)展中發(fā)揮重要的作用.但本研究仍存在局限性,首先研究結(jié)果均基于基因芯片數(shù)據(jù)庫,僅可作為一種探索性研究.其次,單基因芯片分析結(jié)果可能存在一定的局限性,后期宜整合多數(shù)據(jù)庫、多芯片數(shù)據(jù)集進一步驗證該結(jié)論.最后,本研究僅從轉(zhuǎn)錄水平對篩選出的差異表達基因和關(guān)鍵樞紐基因進行分析,后期宜通過臨床樣本結(jié)合免疫組織化學(xué)進一步分析蛋白水平上的表達及分布情況.
暨南大學(xué)學(xué)報(自然科學(xué)與醫(yī)學(xué)版)2020年4期