謝成茂,范琳媛
(首都醫(yī)科大學(xué)附屬北京婦產(chǎn)醫(yī)院/北京婦幼保健院婦科,北京 100026)
子宮肌瘤(uterine myoma,UM)是女性常見(jiàn)的良性腫瘤,可導(dǎo)致患者盆腔受壓、異常子宮出血、疼痛或生育能力喪失等,嚴(yán)重威脅女性健康[1]。子宮肌瘤的治療措施主要為藥物和手術(shù)治療,藥物治療效果良好,但停藥后肌瘤復(fù)發(fā)幾率高,臨床癥狀反復(fù)出現(xiàn)[2]。手術(shù)治療主要是子宮肌瘤剔除或子宮切除,是臨床治療中應(yīng)用較廣的一種方法,但術(shù)后殘余幾率大、復(fù)發(fā)風(fēng)險(xiǎn)高、創(chuàng)傷大、出血多,可能對(duì)生育造成不良影響[3]。近年研究發(fā)現(xiàn),子宮肌瘤的發(fā)病率明顯增高,但其發(fā)病機(jī)制并不明確。因此,探索子宮肌瘤發(fā)病的關(guān)鍵基因和通路對(duì)子宮肌瘤的診療具有重要意義。近年來(lái),生物信息學(xué)方法為在分子水平上研究各種疾病的分子機(jī)制提供了新的思路。本研究通過(guò)收集GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù)中子宮肌瘤的芯片數(shù)據(jù),對(duì)子宮肌瘤發(fā)生發(fā)展的相關(guān)基因進(jìn)行挖掘,并進(jìn)行生物信息學(xué)分析,以期為子宮肌瘤發(fā)生發(fā)展與早期診斷治療提供新的方向。
1.1 數(shù)據(jù)檢索及標(biāo)本收集 以“Uterine myoma”為關(guān)鍵詞在GEO數(shù)據(jù)庫(kù)中檢索與UM相關(guān)的基因表達(dá)譜數(shù)據(jù)集。最終選取由Hoffman等[3]提供的GSE593,其標(biāo)本分為兩組:子宮平滑肌瘤組織:GSM9093-GSM9097;正常子宮肌層組織:GSM9098-GSM9102。選取2019年1月至2020年12月因確診為子宮肌瘤在首都醫(yī)科大學(xué)附屬北京婦產(chǎn)醫(yī)院就診且行全子宮切除的30例患者,術(shù)中采集部分子宮肌瘤及瘤旁正常組織,經(jīng)液氮快速冷凍,-80℃冰箱保存。本研究已獲得患者及家屬知情同意并經(jīng)醫(yī)院倫理委員會(huì)審核通過(guò)。
1.2 篩選差異基因 應(yīng)用R軟件對(duì)差異表達(dá)基因進(jìn)行篩選,篩選標(biāo)準(zhǔn)為logFoldChange>1且adjustP<0.05。
1.3 差異基因的生物信息學(xué)分析 應(yīng)用R軟件對(duì)篩選出的差異基因進(jìn)行功能富集分析(Gene Ontology,GO)及通路富集分析(KEGG),并對(duì)相關(guān)基因進(jìn)行GO與KEGG注釋。將篩選出的差異基因輸入STRING數(shù)據(jù)庫(kù),找出差異基因?qū)?yīng)蛋白之間的可能互作關(guān)系,并構(gòu)建相互作用網(wǎng)絡(luò)結(jié)構(gòu)圖(protein-protein interaction,PPI)。應(yīng)用Cytoscope將富集的通路進(jìn)行可視化。研究中應(yīng)用的R軟件包主要有:GEO query,reshape2,DESeq2,limma,Affy,ggplot2,pheatmap,topGo,Rgraphviz,pathview,clusterPro-filer,org.Hs.eg.db,enrichplot,Cytoscape3.7.2。
1.4 GSE593差異基因結(jié)果驗(yàn)證 從芯片數(shù)據(jù)GSE593分析得到的結(jié)果中篩選出4個(gè)差異基因KDR、VEGFA、PIK3R1及PRKCB。收集子宮肌瘤及瘤旁組織樣本各30例,RT-PCR及Western blot法檢測(cè)這4個(gè)基因表達(dá)情況,對(duì)芯片結(jié)果進(jìn)行驗(yàn)證。KDR上游引物5'-TTCTGACTGCACAAACCAGCTTC-3',下游引物5'-TTTGACACCACACACAGCTTCAC-3';VEGFA上游引物5'-AAGATCCGCAGACGTGTAAATGTT-3',下游引物5'-CGGCTTGTCACATGCAAGTA-3';PIK3R1上游引物5'-AGCAACCTGGCAGAATTACG-3',下游引物5'-GCTGCTGGAATGACAGGATT-3';PRKCB上游引物5'-ATCGCCCCCGAGATAATTGC-3',下游引物5'-GGATAGCGGGTGAAAAATCG-3'(北京梓熙)。采用RT-PCR試劑盒(購(gòu)自美國(guó)Invitrogen公司),按實(shí)驗(yàn)步驟實(shí)行實(shí)時(shí)熒光定量PCR測(cè)定KDR、VEGFA、PIK3R1及PRKCB基因的mRNA表達(dá)水平。Western blot法對(duì)KDR、VEGFA、PIK3R1及PRKCB基因的蛋白表達(dá)水平進(jìn)行驗(yàn)證,所用一抗包括Anti-KDR抗體(Ab134191)、Anti-VEGFA抗體(Ab1316)、Anti-PIK3R1抗體(Ab182651)、Anti-PRKCB抗體(Ab195039),均購(gòu)自美國(guó)Abcam公司;二抗試劑盒(生物素標(biāo)記羊抗小鼠IgG及生物素標(biāo)記羊抗兔IgG)購(gòu)自北京中杉金橋。實(shí)驗(yàn)組15例;對(duì)照組15例。
2.1 樣本標(biāo)準(zhǔn)化處理 對(duì)選取的芯片數(shù)據(jù)進(jìn)行背景矯正及標(biāo)準(zhǔn)化處理,篩選差異基因。GSE593芯片中原始探針數(shù)據(jù)(CEL文件)的分析應(yīng)用穩(wěn)固多陣列平均算法(robust multiarray average algorithm,RMA)在R軟件中進(jìn)行分析(Affy包),各探針表達(dá)的均值即為該基因的表達(dá)值。
2.2 差異基因的篩選 對(duì)GSE593進(jìn)行分析篩選,最終篩選出差異基因共172個(gè),其中高表達(dá)72個(gè),低表達(dá)100個(gè)。差異超過(guò)4倍且P<0.01的基因?yàn)楹罄m(xù)研究對(duì)象,根據(jù)所得結(jié)果的分布繪制火山圖(圖1)。上調(diào)或下調(diào)前20的基因,見(jiàn)表1。對(duì)所有差異基因行聚類(lèi)分析,探索不同差異基因的潛在共同特征。
圖1 GSE593數(shù)據(jù)集差異表達(dá)基因的篩選紅色為上調(diào),綠色為下調(diào),黑色為無(wú)統(tǒng)計(jì)學(xué)意義差異基因
表1 差異表達(dá)最明顯的前20位基因
2.3 GO功能富集分析 對(duì)差異基因進(jìn)行GO功能富集分析后發(fā)現(xiàn),篩選出的差異基因在細(xì)胞組分(cellular component,CC)層面主要富集于細(xì)胞外間隙、細(xì)胞外基質(zhì)、細(xì)胞外基質(zhì)蛋白等;在生物學(xué)過(guò)程(biological process,BP)方面主要集中于RNA聚合酶Ⅱ啟動(dòng)子轉(zhuǎn)錄的負(fù)調(diào)控、血管生成、促細(xì)胞成熟等;而在分子功能(molecular function,MF)方面,篩選出的差異基因主要富集于整合素結(jié)合、蛋白質(zhì)結(jié)合等(圖2A)。差異前50個(gè)基因主要富集于蛋白質(zhì)結(jié)合、RNA聚合酶Ⅱ啟動(dòng)子轉(zhuǎn)錄的負(fù)調(diào)控等9個(gè)方面(圖2B)。
圖2 GSE593差異表達(dá)基因的GO富集分析及前50基因的富集分析結(jié)果A:差異基因的GO分析結(jié)果;B:差異基因前50的GO分析結(jié)果
2.4 差異基因間PPI網(wǎng)絡(luò)分析 應(yīng)用String數(shù)據(jù)庫(kù)將篩選出的172個(gè)差異基因編碼的蛋白進(jìn)行PPI分析。結(jié)果顯示,這些差異基因之間存在廣泛的蛋白相互作用,如VEGF與PIK3R1、EGR1、FLT1、PRKCB及KDR,ATF3與SERPINF1,ANXA1與EMP1,FOS與BCL6等之間均存在較為密切的相互作用(圖3,無(wú)相互作用蛋白已隱藏)。
圖3 GSE593差異表達(dá)基因PPI網(wǎng)絡(luò)分析
2.5 KEGG信號(hào)通路的富集 對(duì)GSE593差異基因進(jìn)行KEGG信號(hào)通路富集分析并進(jìn)行可視化,結(jié)果顯示篩選出來(lái)的差異基因參與的主要信號(hào)通路富集于流體剪切應(yīng)力與動(dòng)脈粥樣硬化信號(hào)通路、糖尿病并發(fā)癥中的AGE-RAGE信號(hào)通路、黏著斑激酶信號(hào)通路以及EGFR酪氨酸激酶抑制劑耐藥性信號(hào)通路等。表明在子宮肌瘤的發(fā)生發(fā)展過(guò)程有復(fù)雜多樣的信號(hào)通路參與調(diào)控(圖4A)。應(yīng)用Cytoscape軟件對(duì)差異基因富集信號(hào)通路進(jìn)行可視化分析。發(fā)現(xiàn)篩選出的差異基因富集的信號(hào)通路網(wǎng)絡(luò)龐大,結(jié)構(gòu)復(fù)雜,通路之間存在多種交叉因子(圖4B、表2)。表明這些通路之間可相互影響,在子宮肌瘤發(fā)病過(guò)程中發(fā)揮著極其復(fù)雜的作用。
圖4 GSE593差異表達(dá)基因KEGG信號(hào)通路富集分析及可視化A:差異表達(dá)基因KEGG信號(hào)通路富集分析;B:差異表達(dá)基因KEGG信號(hào)通路富集分析可視化(紅色:表達(dá)升高;綠色:表達(dá)降低;藍(lán)色:信號(hào)通路)
表2 KEGG信號(hào)通路富集分析
2.6 GSE593差異基因驗(yàn)證結(jié)果 RT-PCR及Western blot結(jié)果顯示,子宮肌瘤組織中PIK3R1及PRKCB表達(dá)水平明顯高于對(duì)照組,KDR及VEGFA表達(dá)水平則低于對(duì)照組,與芯片結(jié)果完全一致,進(jìn)一步驗(yàn)證了芯片數(shù)據(jù)GSE593的結(jié)果真實(shí)可靠。見(jiàn)圖5。
圖5 GSE593差異基因結(jié)果的RT-PCR及Western blot驗(yàn)證結(jié)果A:RT-PCR法檢測(cè);B、C:Western blot法檢測(cè);**P<0.01
根據(jù)生長(zhǎng)部位不同,子宮肌瘤分為漿膜下肌瘤、黏膜下肌瘤及肌壁間肌瘤,??蓪?dǎo)致患者出現(xiàn)異常子宮出血、盆腔疼痛、尿頻及便秘等壓迫癥狀,以及不孕、流產(chǎn)或早產(chǎn)等,嚴(yán)重影響女性生活質(zhì)量[4-5]。根據(jù)流行病學(xué)研究顯示,子宮肌瘤的發(fā)病具有明顯的種族差異和家族聚集性,子宮肌瘤患者的直系親屬發(fā)病率明顯高于普通人群[6-8]。子宮肌瘤的發(fā)生發(fā)展是一個(gè)多基因、多通路參與的復(fù)雜過(guò)程。目前關(guān)于子宮肌瘤發(fā)病機(jī)制有多種理論,其中被廣泛接受的理論是高水平的雌激素、孕激素促使子宮肌瘤的形成和發(fā)展,即子宮肌瘤被認(rèn)為是一種卵巢性激素依賴性腫瘤,然而其確切病因及機(jī)制并不明確[9]。
子宮肌瘤由異常的子宮平滑肌細(xì)胞和成纖維細(xì)胞組成,周?chē)写罅康募?xì)胞外基質(zhì),包括膠原蛋白、纖維連接蛋白、層粘連蛋白和蛋白多糖,其最重要的特點(diǎn)是其生長(zhǎng)趨勢(shì)取決于肌瘤的位置,并可導(dǎo)致特定的臨床癥狀[10-11]。研究顯示,大的子宮肌瘤生長(zhǎng)緩慢,而非常小的子宮肌瘤生長(zhǎng)迅速[12]。子宮肌瘤的發(fā)病過(guò)程可分為兩個(gè)步驟:轉(zhuǎn)化和腫瘤形成[13]。正常子宮平滑肌細(xì)胞向異常子宮平滑肌細(xì)胞的轉(zhuǎn)化主要通過(guò)介體復(fù)合物亞單位12(MED12)和高遷移率蛋白AT-hook 2(HMGA2)的突變發(fā)生[14-15]。干細(xì)胞主要在激素的影響下轉(zhuǎn)化并生長(zhǎng)為子宮肌瘤,而肌瘤的生長(zhǎng)是通過(guò)大量的細(xì)胞擴(kuò)張和細(xì)胞外基質(zhì)積累實(shí)現(xiàn)的[16]。子宮肌瘤細(xì)胞依賴于激素刺激,特別是雌激素和孕酮?,F(xiàn)有數(shù)據(jù)表明,孕酮在子宮肌瘤的發(fā)病中起著重要的作用[17]。盡管目前研究主要集中于子宮肌瘤的發(fā)生發(fā)展與激素之間的關(guān)系,但是不能忽視這一過(guò)程中涉及的其他重要途徑,因?yàn)榧に夭皇菍?dǎo)致子宮肌瘤發(fā)展的唯一因素[18-19]。復(fù)雜的信號(hào)通路改變對(duì)子宮肌瘤的發(fā)展至關(guān)重要,但子宮肌瘤的確切生物學(xué)基礎(chǔ)尚不清楚。子宮肌瘤的病理生理學(xué)主要集中在類(lèi)固醇和其他激素。然而,還有其他非常重要的途徑,它們不僅依賴于激素[20]。
本研究中通過(guò)GEO數(shù)據(jù)庫(kù)得到子宮肌瘤芯片數(shù)據(jù)GSE593,分析發(fā)現(xiàn)子宮肌瘤組織與正常子宮肌層組織相比差異表達(dá)基因172個(gè),其中表達(dá)上調(diào)72個(gè),表達(dá)下調(diào)100個(gè)。進(jìn)一步對(duì)差異基因進(jìn)行GO及KEGG富集分析發(fā)現(xiàn),這些差異基因具有眾多生物學(xué)功能并參與多條信號(hào)通路,進(jìn)而影響子宮肌瘤的發(fā)生發(fā)展。從其差異基因中挑選出4個(gè)基因進(jìn)行結(jié)果驗(yàn)證,與芯片結(jié)果完全一致,表明GSE593芯片結(jié)果真實(shí)可靠。血管內(nèi)皮生長(zhǎng)因子(vascular endothelial growth factor,VEGF)是一種對(duì)血管生長(zhǎng)有極強(qiáng)誘導(dǎo)作用的生長(zhǎng)因子,與血管內(nèi)皮細(xì)胞上的受體高親和力結(jié)合后可作為內(nèi)皮細(xì)胞特異性有絲分裂原誘導(dǎo)內(nèi)皮細(xì)胞增生毛細(xì)血管袢形成,刺激血管內(nèi)皮細(xì)胞增殖,加速血管生成,誘導(dǎo)子宮肌瘤的生長(zhǎng)[21-22]。磷脂酰肌醇-3激酶調(diào)節(jié)亞基1(phosphoinositide-3-kinase regulatory subunit 1,PIK3R1)是細(xì)胞應(yīng)答并且傳遞細(xì)胞間信號(hào)的重要協(xié)調(diào)者,與腫瘤的發(fā)生發(fā)展密切相關(guān),但目前關(guān)于PIK3R1與子宮肌瘤之間關(guān)系的研究很少[23-26]。子宮肌瘤組織中蛋白激酶C-β(protein kinase C beta,PRKCB)分子量為67~83kDa,屬于絲氨酸激酶家族中的單鏈多肽家族,編碼PKC-βI、PKC-βII,定位于16p11.2,全長(zhǎng)約375kb[27]。PRKCB在細(xì)胞內(nèi)定位于線粒體,這種激酶與線粒體完整性和氧化磷酸化的調(diào)節(jié)有關(guān)[28-30]。線粒體是細(xì)胞的主要能量產(chǎn)生者,被認(rèn)為是多種細(xì)胞死亡途徑的關(guān)鍵參與者和傳感器,若其功能失調(diào)可導(dǎo)致多種疾病的發(fā)生發(fā)展[31-33]。目前關(guān)于PRKCB與子宮肌瘤之間的關(guān)系及其在子宮肌瘤發(fā)生發(fā)展過(guò)程中的作用未見(jiàn)相關(guān)文獻(xiàn)報(bào)道,需進(jìn)一步研究證實(shí)。血管內(nèi)皮生長(zhǎng)因子受體-2(kinase insert domain receptor,KDR)是VEGFA的主要受體,不僅在血管內(nèi)皮細(xì)胞表達(dá),在某些腫瘤細(xì)胞中也有廣泛表達(dá),KDR高表達(dá)的腫瘤患者預(yù)后較差[24-26]。KDR可與VEGFA結(jié)合形成VEGF-R復(fù)合物,使肌瘤血管內(nèi)皮細(xì)胞對(duì)VEGFA敏感性增強(qiáng),促進(jìn)肌瘤中血管生長(zhǎng),增加肌瘤血運(yùn),進(jìn)而促進(jìn)肌瘤生長(zhǎng)[34]。本研究結(jié)果顯示,子宮肌瘤組織中VEGFA及KDR表達(dá)量低于瘤旁組織,這可能是因納入的數(shù)據(jù)集及樣本量偏小,同時(shí)因個(gè)體差異所致。后續(xù)將繼續(xù)擴(kuò)大樣本量及數(shù)據(jù)集,進(jìn)一步探索VEGFA及KDR與子宮肌瘤之間的關(guān)系。
總之,通過(guò)對(duì)GEO數(shù)據(jù)庫(kù)子宮肌瘤芯片數(shù)據(jù)集進(jìn)行生物信息學(xué)分析、挖掘,篩選出子宮肌瘤發(fā)生發(fā)展過(guò)程中表達(dá)差異的基因及相關(guān)信號(hào)通路,其中PRKCB基因及其編碼蛋白可能在子宮肌瘤發(fā)病過(guò)程中發(fā)揮著重要作用。數(shù)據(jù)挖掘及生物信息學(xué)分析在疾病發(fā)病機(jī)制的探索、療效評(píng)價(jià)及預(yù)后預(yù)測(cè)方面具有應(yīng)用價(jià)值,可為疾病的診療提供新的思路。