張開健,胡康,張步春
缺血性心肌病(ischemic cardiomyopathy,ICM)為冠心病晚期階段和特殊類型,主要發(fā)病機(jī)制與冠狀動(dòng)脈粥樣硬化有關(guān),引起心肌變性、壞死和纖維化,隨著疾病進(jìn)展,容易發(fā)展為心力衰竭。而ICM心力衰竭具有起病急、病情進(jìn)展快、致死率高等特點(diǎn),隨著人口老齡化,ICM發(fā)病率呈升高趨勢(shì)[1-2]。生物信息學(xué)是研究各種組學(xué)數(shù)據(jù),包括轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)等生物學(xué)數(shù)據(jù)的一門新興交叉學(xué)科,研究方法主要包括對(duì)生物學(xué)數(shù)據(jù)的搜集(收集和篩選)、處理(編輯、整理、管理和顯示) 、利用(計(jì)算和模擬)及分析[3],近年來實(shí)踐表明生物信息學(xué)技術(shù)在篩選疾病生物標(biāo)志物中有極大的應(yīng)用價(jià)值,其對(duì)疾病的診斷、治療以及預(yù)后有極大的意義,使人們對(duì)疾病的認(rèn)識(shí)更加全面且深刻。目前許多預(yù)測(cè)心血管疾病生物標(biāo)志物已經(jīng)被評(píng)估,且成功地應(yīng)用于心血管疾病的風(fēng)險(xiǎn)預(yù)測(cè)[4],但在心肌缺血方面還需要進(jìn)一步研究確定新的生物標(biāo)志物。本研究基于生物信息學(xué)方法,通過分析ICM患者心肌組織的高通量測(cè)序芯片,初步篩選心肌缺血相關(guān)的潛在生物標(biāo)志物,以期為ICM診療提供依據(jù)。
1.1 數(shù)據(jù)來源 研究數(shù)據(jù)來自美國國家生物信息中心NCBI(www.ncbi.nlm.nih.gov)中的GEO數(shù)據(jù)庫,利用R語言(R4.1.2)直接從GEO數(shù)據(jù)庫中下載數(shù)據(jù)集GSE26887,該數(shù)據(jù)集用取自患者心臟左心室活檢組織,基于GPL6244檢測(cè)平臺(tái),用Affymetrix GeneChips Human Gene 1.0 ST芯片檢測(cè)基因表達(dá),包含5例健康對(duì)照、7例缺血后擴(kuò)張型心肌病合并糖尿病、12例缺血后擴(kuò)張型心肌病不合并糖尿病患者的基因的RNA表達(dá)譜。本研究設(shè)置5例健康樣本為對(duì)照組(GSM662158—GSM662162)、12例ICM患者為實(shí)驗(yàn)組(GSM662179—GSM662181),2組患者的年齡、性別、吸煙、高血壓、體重指數(shù)(BMI)等一般資料比較差異無統(tǒng)計(jì)學(xué)意義,且排除了重要影響因素糖尿病對(duì)研究的影響。
1.2 數(shù)據(jù)的獲取與前期處理 基于R語言(R4.1.2)的GEOquery包獲取GSE26887數(shù)據(jù)集,通過GPL6244平臺(tái)對(duì)應(yīng)的hugene10sttranscriptcluster.db包對(duì)數(shù)據(jù)集基因芯片探針進(jìn)行基因名稱注釋,獲取基因名稱、基因表達(dá)值,去除探針未對(duì)應(yīng)基因名的數(shù)據(jù)及一個(gè)基因名對(duì)應(yīng)多個(gè)探針的數(shù)據(jù)(僅保留最大表達(dá)量探針對(duì)應(yīng)基因名),去除7例ICM合并糖尿病數(shù)據(jù)集。
1.3 DEGs的獲取與可視化 基于R語言limma包對(duì)上述數(shù)據(jù)進(jìn)行差異表達(dá)分析,獲得DEGs及LogFC、t值、P值、adj.P等,由于存在DEGs基數(shù)較大,部分DEGs差異倍數(shù)(fold change,F(xiàn)C)較小、差異無統(tǒng)計(jì)學(xué)意義等因素,設(shè)定篩選條件|LogFC|>1且adj.P<0.01進(jìn)一步篩選DEGs,并基于R語言ggplot2包、pheatmap包分別對(duì)其繪制火山圖、熱圖進(jìn)行可視化處理。
1.4 DEGs的GO和KEGG富集分析 GO(gene ontology,GO)富集分析可以從基因的生物學(xué)過程(biological process,BP)、細(xì)胞組分(cellular component,CC)及分子功能(molecular function,MF)等方面進(jìn)行基因注釋,KEGG(kyoto encyclopedia of genes and genomes,KEGG)富集分析可以對(duì)DEGs的信號(hào)通路方面進(jìn)行富集分析,以挖掘疾病相關(guān)基因的生物學(xué)通路,基于R語言clusterProfiler、org.Hs.eg.db包行DEGs的GO和KEGG富集分析,使用ggplot2包行可視化處理,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.5 DEGs對(duì)應(yīng)PPI網(wǎng)絡(luò)的構(gòu)建 蛋白-蛋白互作網(wǎng)絡(luò)可以基于現(xiàn)有數(shù)據(jù)對(duì)DEGs建立功能性蛋白質(zhì)關(guān)聯(lián)網(wǎng)絡(luò),可通過string數(shù)據(jù)庫(https://cn.string-db.org/)實(shí)現(xiàn),并通過Cytoscape3.7.1軟件構(gòu)建PPI網(wǎng)絡(luò),篩選關(guān)聯(lián)度高的hub gene。
1.6 部分Hub gene應(yīng)用價(jià)值的初步驗(yàn)證 利用R語言pROC包,以Cytoscape3.7.1軟件中degree值為篩選標(biāo)準(zhǔn),對(duì)部分關(guān)聯(lián)度高的hub gene做ROC曲線,初步驗(yàn)證其作為疾病標(biāo)志物的價(jià)值。
2.1 DEGs篩選 通過對(duì)數(shù)據(jù)的下載及前期處理,健康對(duì)照組相對(duì)于病變組做差異表達(dá)分析后一共得到18 843個(gè)DEGs,根據(jù)|LogFC|>1、adj.P<0.01條件篩選得到259個(gè)FC值明顯改變的基因,包括135個(gè)上調(diào)基因,124個(gè)下調(diào)基因(對(duì)照組與ICM組),R語言繪制可視化火山圖,見圖1。以|LogFC|>1.5、adj.P<0.01為條件共篩選出52個(gè)DEGs,包括25個(gè)上調(diào)基因,27個(gè)下調(diào)基因,R語言繪制可視化熱圖,見圖2。按|LogFC|的大小分別篩選上調(diào)、下調(diào)基因前10的DEGs并列表。見表1。
表1 上調(diào)、下調(diào)DEGs列表
圖1 健康心肌組織與缺血性心肌病心肌組織DEGs火山圖
圖2 健康心肌組織與缺血性心肌病心肌組織DEGs熱圖(|LogFC|>1.5,adj.P<0.01)
(|LogFC|>1,adj.P<0.01),紅色點(diǎn)表示上調(diào)基因,藍(lán)色點(diǎn)表示下調(diào)基因,黑色點(diǎn)為未達(dá)到篩選條件的差異基因。
2.2 DEGs GO分析結(jié)果 對(duì)篩選得到的135個(gè)上調(diào)基因,124個(gè)下調(diào)基因分別做GO富集分析,設(shè)定P值<0.05。見圖3。上調(diào)基因的BP主要富集在炎癥反應(yīng)調(diào)節(jié)、白細(xì)胞游走、創(chuàng)傷修復(fù)、細(xì)胞之間黏附調(diào)節(jié)、對(duì)內(nèi)毒素的應(yīng)答、對(duì)細(xì)菌來源分子的應(yīng)答、骨髓白細(xì)胞游走、白細(xì)胞趨化性、炎癥反應(yīng)的正向調(diào)節(jié)、單核細(xì)胞趨化性;下調(diào)基因的BP主要富集在肌系統(tǒng)進(jìn)程、肌肉收縮、心臟傳導(dǎo)系統(tǒng)動(dòng)態(tài)變化。見圖3A。上調(diào)基因CC主要富集在含膠原纖維的細(xì)胞外基質(zhì)、細(xì)胞焦點(diǎn)粘連、細(xì)胞基質(zhì)連接、分泌囊內(nèi)腔、細(xì)胞質(zhì)囊、囊泡腔、質(zhì)膜外側(cè)面、初級(jí)溶酶體、嗜苯胺藍(lán)粒(淋巴細(xì)胞)、血小板α顆粒;下調(diào)基因CC主要富集在平滑肌纖維。見圖3B。上調(diào)基因MF主要富集在糖基化終產(chǎn)物受體(RAGE)受體結(jié)合,下調(diào)基因MF主要富集在氧化還原酶活性、NADP結(jié)合途徑、細(xì)胞外基質(zhì)中具有抗壓功能的結(jié)構(gòu)成分。見圖3C。
2.3 DEGs KEGG分析結(jié)果 對(duì)篩選得到的135個(gè)上調(diào)基因,124個(gè)下調(diào)基因分別做KEGG富集分析,設(shè)定P值<0.05。見圖4。上調(diào)的DEGs主要富集在ECM受體交互作用途徑、沙門氏菌感染、HIF-1信號(hào)通路、TNF信號(hào)通路、Malaria通路、細(xì)胞中吞噬體、造血細(xì)胞譜系、致病性大腸桿菌感染、細(xì)胞的焦點(diǎn)粘連、癌癥中的MicroRNAs。下調(diào)的DEGs主要富集在藥物代謝細(xì)胞色素P450途徑。
4A 上調(diào)基因KEGG富集分析 4B 下調(diào)基因KEGG富集分析
2.4 PPI網(wǎng)絡(luò)的構(gòu)建 將259個(gè)DEGs導(dǎo)入string(https://cn.string-db.org/)數(shù)據(jù)庫構(gòu)建相互之間的作用網(wǎng)絡(luò),在獲得的網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)(node)代表DEGs表達(dá)對(duì)應(yīng)的蛋白質(zhì),節(jié)點(diǎn)之間的連線(edge)代表蛋白質(zhì)之間的相互作用,利用NetworkAnalyzer計(jì)算無向網(wǎng)絡(luò)拓?fù)鋮?shù),得出每個(gè)節(jié)點(diǎn)的連線數(shù)量,即degree值,按degree值從大到小篩選節(jié)點(diǎn),degree值越大的節(jié)點(diǎn)越有可能是疾病相關(guān)的生物標(biāo)志物,利用CytoHubba插件生成DEGs前10個(gè)節(jié)點(diǎn)可視化網(wǎng)絡(luò)圖,見圖5,并按Degree值大小分別列出前十個(gè)節(jié)點(diǎn)對(duì)應(yīng)的DEGs、差異上調(diào)基因及差異下調(diào)基因。見表2。
圖5 利用cytoscape構(gòu)建的DEGsPPI網(wǎng)絡(luò)圖
表2 Degree數(shù)值前10位DEGs列表
2.5 部分Hub gene應(yīng)用價(jià)值的驗(yàn)證 選擇上述上調(diào)、下調(diào)基因中degree值最大的前2個(gè)hub gene(IL6和RHOA),結(jié)合其在基因芯片中的表達(dá)量數(shù)值,基于R語言的pROC包繪制ROC曲線圖,可見IL6和RHOA的AUC值分別達(dá)到了93.3%和96.7%,其作為疾病相關(guān)的潛在標(biāo)志物價(jià)值較大。見圖6。
6A IL-6 的ROC曲線圖 6B RHOA的ROC曲線圖
ICM患者與健康人基因表達(dá)存在差異,利用生物信息學(xué)方法,從ICM患者的基因及蛋白質(zhì)層面進(jìn)行挖掘分析,試圖找到ICM相關(guān)生物標(biāo)志物,以期對(duì)ICM患者的早期診斷、治療及預(yù)后提供參考。與正常對(duì)照組相比,DEGs的GO富集分析顯示,上調(diào)基因的BP富集結(jié)果包括肌肉收縮、心臟傳導(dǎo)系統(tǒng)的變化,CC富集結(jié)果包括平滑肌纖維,MF富集結(jié)果包括具有抗壓性的細(xì)胞外基質(zhì)成分;下調(diào)基因的CC富集結(jié)果包括含膠原纖維的細(xì)胞外基質(zhì)(extracellular matrix,ECM)、細(xì)胞基質(zhì)連接、細(xì)胞焦點(diǎn)粘連等,下調(diào)基因的KEGG富集分析主要富集在ECM受體交互作用途徑。ICM患者在支配平滑肌纖維、肌肉收縮、心臟傳導(dǎo)等基因中表達(dá)上調(diào),這符合心肌缺血病理生理。此外,ICM患者細(xì)胞外基質(zhì)與正常人差異明顯,Jiang等[5]研究ICM患者的心外膜脂肪組織(epicardialadpose tissue,EAT)發(fā)現(xiàn),EAT發(fā)生了嚴(yán)重的ECM重構(gòu),而EAT與心肌是無筋膜隔開的,其與心肌有共同的微循環(huán)[6],可見ECM的變化對(duì)ICM的診治有著重要的意義。此外,ICM患者上調(diào)基因中GO富集分析MF富集在氧化還原酶活性、NADP聯(lián)合,提示ICM患者的發(fā)病可能與某些氧化還原酶活性相關(guān),Watanabe等[7]研究發(fā)現(xiàn)血漿黃嘌呤氧化還原酶(xanthine oxidoreductase,XOR)活性是冠狀動(dòng)脈痙攣(coronaryspasm ,CAS)發(fā)生的獨(dú)立危險(xiǎn)因素,且較高的XOR活性與痙攣的嚴(yán)重程度相關(guān),黃嘌呤氧化酶、黃嘌呤脫氫酶及大部分氧化還原酶均以NAD+/NADH作為電子轉(zhuǎn)移的受體和供體,可見ICM患者的部分氧化還原酶可能成為疾病的潛在生物標(biāo)志物。
RHOA在ICM患者中表達(dá)上調(diào),RHOA表達(dá)為蛋白質(zhì)RhoA,其下游靶點(diǎn)是Rho激酶ROCK(rho-associated protein kinase,ROCK)。在心血管系統(tǒng)中,血管張力的調(diào)節(jié)主要依賴肌球蛋白輕鏈激酶活化的Ca依賴性血管收縮和RhoA/ROCK非Ca依賴性血管收縮[8-9]兩條途徑,RhoA/ROCK可作用于肌球蛋白輕鏈,使其磷酸化并導(dǎo)致血管收縮,也可直接作用于肌球蛋白輕鏈磷酸酶,使肌球蛋白輕鏈去磷酸化受限導(dǎo)致血管收縮[10]。因此RHOA過表達(dá)有可能是心肌缺血的重要原因,目前Rho激酶抑制劑鹽酸法舒地爾已被廣泛應(yīng)用于臨床改善腦組織微循環(huán),包括Y-27643等Rho激酶抑制劑[11]。也有研究[12]表明在進(jìn)行冠狀動(dòng)脈搭橋手術(shù)時(shí),用異氟烷預(yù)處理會(huì)抑制RhoA/ROCK,激活內(nèi)皮細(xì)胞NO合成酶,導(dǎo)致移植血管冠狀動(dòng)脈前降支血管舒張,對(duì)冠狀動(dòng)脈左前降支血管重建后缺血心肌的再灌注非常有用。所以RHOA的過表達(dá)可能是ICM心肌缺血的一個(gè)潛在靶點(diǎn),對(duì)ICM的預(yù)防和早期治療有意義。
IL-6不僅是一種多效免疫調(diào)節(jié)細(xì)胞因子,可由多種類型細(xì)胞分泌[13]。血管內(nèi)皮細(xì)胞中IL-6可以使血小板衍生生長因子(platelet derived growth factor,PDGF)表達(dá)升高,PDGF不僅可以刺激血管平滑肌細(xì)胞和成纖維細(xì)胞的增殖和遷移,同時(shí)PDGF也作為一種趨化因子,對(duì)單核細(xì)胞和中性粒細(xì)胞有趨化作用,誘導(dǎo)其產(chǎn)生炎癥因子。IL6也可以增加血管內(nèi)皮細(xì)胞的滲透性,促進(jìn)血管炎與動(dòng)脈粥樣硬化的發(fā)生。內(nèi)皮細(xì)胞可以通過L-精氨酸合成、釋放NO,調(diào)節(jié)冠狀動(dòng)脈血管及鄰近血管的血管阻力,在心肌缺血梗死后,IL-6可能激活L精氨酸/NO通路[14]。研究[15]顯示IL-6對(duì)心臟組織的作用因作用的時(shí)間和下游信號(hào)而不同,在急性缺血損傷期,IL-6信號(hào)轉(zhuǎn)導(dǎo)主要起保護(hù)心肌組織作用,當(dāng)長期持續(xù)時(shí),則會(huì)抑制肌細(xì)胞功能造成組織損傷,主要基于JAK-STAT(janus kinase-signal transducers and activators of transcription)通路完成。Podewski等[16]研究發(fā)現(xiàn)IL-6在缺血性擴(kuò)張型心肌病患者的心肌組織中表達(dá)下調(diào),且IL-6及其相關(guān)因子通過共同作用于gp130、JAKs及STATs為心肌細(xì)胞提供重要生存途徑,這與篩選結(jié)果是一致的。NPPA、NPPB可轉(zhuǎn)錄利鈉肽,研究顯示其在缺血心肌病后期心衰時(shí)可升高,目前B型利鈉肽、氨基末端B型利鈉肽在心力衰竭診斷及預(yù)后評(píng)估中被廣泛應(yīng)用。TLR2、TLR4主要表達(dá)Toll樣受體,與炎癥相關(guān),部分GO、KEGG富集分析顯示ICM與炎癥反應(yīng)、免疫反應(yīng)相關(guān)。本研究顯示IL-6 ROC曲線下面積AUC高達(dá)93.3%,對(duì)ICM的診斷價(jià)值較高,應(yīng)進(jìn)一步研究其對(duì)ICM的診斷和療效觀察價(jià)值。
本研究通過生物信息學(xué)方法結(jié)合高通量數(shù)據(jù)集,通過健康心肌組織與缺血心肌組織的DEGs分析,并對(duì)DEGs進(jìn)行富集分析、構(gòu)建PPI網(wǎng)絡(luò)尋找hub gene及對(duì)部分hub gene做ROC曲線驗(yàn)證其應(yīng)用價(jià)值,發(fā)現(xiàn)ICM患者RHOA基因的過表達(dá)、細(xì)胞外基質(zhì)的變化、氧化還原酶活性、炎癥反應(yīng)的調(diào)節(jié)等,可能與ICM的發(fā)病密切相關(guān),并且本研究發(fā)現(xiàn)RHOA和IL-6是ICM潛在的生物標(biāo)志物,需要進(jìn)一步驗(yàn)證其用于ICM的診療和療效觀察價(jià)值。