国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于熵值的冠心病基因網(wǎng)絡(luò)模塊劃分方法評價(jià)與模塊功能相似度分析

2018-08-21 09:16:46陳寅螢王朋倩
關(guān)鍵詞:卡德通路冠心病

顧 浩,陳寅螢,王朋倩,王 忠

(中國中醫(yī)科學(xué)院1.中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,3.中藥研究所,北京 100700;2.中國中醫(yī)科學(xué)院廣安門醫(yī)院科研處,北京 100053)

冠心病是冠狀動脈粥樣硬化使血管腔狹窄或阻塞或(和)因冠狀動脈功能性改變(痙攣)導(dǎo)致心肌缺血缺氧或壞死而引起的一類心臟?。?]。目前已知的冠心病致病基因達(dá)上百個(gè),且關(guān)系網(wǎng)絡(luò)復(fù)雜,利用單基因單靶點(diǎn)的一對一分析,很難發(fā)現(xiàn)核心致病基因群及其主要的生物學(xué)功能[2]。利用網(wǎng)絡(luò)模塊劃分方法,可以更好地分析疾病網(wǎng)絡(luò)的結(jié)構(gòu)和功能,有助于發(fā)現(xiàn)疾病關(guān)鍵基因群[3]。

隨著組學(xué)技術(shù)和大數(shù)據(jù)的發(fā)展,生命科學(xué)在人體和疾病的生物分子層面積累了大量的數(shù)據(jù)[4-5],網(wǎng)絡(luò)為大量生物信息的整合提供了有效手段[6-7]?;谏锞W(wǎng)絡(luò)的模塊劃分方法,成為網(wǎng)絡(luò)簡化分解和抽提新知識的重要途徑[8-9]。從網(wǎng)絡(luò)節(jié)點(diǎn)在模塊中的分布重疊情況,模塊劃分方法可以分為重疊模塊和非重疊模塊劃分方法。目前,常用的重疊模塊劃分方法主要包括MCLiQUE,Cluster one,NCMine,PEW?CC和Fuzzifier cluster等算法[10]。非重疊模塊劃分方 法 包 括 Community cluster(glay),Connected component cluster,MCL cluster,MCODE cluster,Spectral clusters of protein sequences和AP等[11]。

面對眾多的模塊劃分方法,如何選擇一個(gè)優(yōu)化的模塊劃分方法對網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)和功能解析,從而得到一個(gè)相對穩(wěn)定可靠的結(jié)果,是目前模塊研究的重要內(nèi)容。有研究者提出了網(wǎng)絡(luò)結(jié)構(gòu)熵的概念,可以有效地刻畫無尺度網(wǎng)絡(luò)的無序性[12-15]。本研究團(tuán)隊(duì)前期利用網(wǎng)絡(luò)結(jié)構(gòu)熵計(jì)算方法,對中藥成分干預(yù)腦缺血的藥理網(wǎng)絡(luò)進(jìn)行了模塊劃分結(jié)果的熵值計(jì)算[15]。用最小網(wǎng)絡(luò)結(jié)構(gòu)熵刻畫節(jié)點(diǎn)間的關(guān)系,熵越小,節(jié)點(diǎn)間越相似,那么識別出來的功能模塊就越穩(wěn)定,這為本研究進(jìn)一步篩選疾病網(wǎng)絡(luò)模塊劃分方法提供了可借鑒的經(jīng)驗(yàn)。

本研究以冠心病為例,利用重疊模塊和非重疊模塊等多種常用模塊劃分方法,解析冠心病基因網(wǎng)絡(luò);通過最小網(wǎng)絡(luò)結(jié)構(gòu)熵值,判定適用于冠心病基因的模塊識別的最佳方法;利用杰卡德相似系數(shù)(Jaccard similarity coefficient)分析冠心病網(wǎng)絡(luò)和模塊網(wǎng)絡(luò)功能的相關(guān)性,為簡化和理解疾病網(wǎng)絡(luò)提供一種可行方案。

1 數(shù)據(jù)來源與方法

1.1 數(shù)據(jù)來源

2017年6月10日,以“coronary heart disease”為關(guān)鍵詞檢索美國NCB(I生物科技信息中心基因數(shù)據(jù)庫,National Center for Biotechnology Infor?mation,https://www.ncbi.nlm.nih.gov/gene/),收集到302個(gè)冠心病相關(guān)基因。

利用String數(shù)據(jù)庫的文本挖掘功能,發(fā)現(xiàn)上述基因之間的相關(guān)關(guān)系,從而構(gòu)建基因關(guān)系網(wǎng)絡(luò)。將302個(gè)冠心病相關(guān)基因,輸入String數(shù)據(jù)庫,選擇智人(Homo sapiens)屬,能夠識別其中284個(gè)基因。在此基礎(chǔ)上,以綜合積分(score≥0.4)為條件篩選基因之間的相關(guān)關(guān)系,得到1個(gè)由284個(gè)節(jié)點(diǎn)和3039條邊構(gòu)成的冠心病相關(guān)基因關(guān)系網(wǎng)絡(luò),相關(guān)參數(shù)見表1。從表1可以看出,網(wǎng)絡(luò)中共有284個(gè)節(jié)點(diǎn),3039條邊,平均節(jié)點(diǎn)度21.4,平均局部聚集系數(shù)0.531,期望邊數(shù)881條。

Tab.1 Topological parameters of coronary heart disease related gene network

本研究利用多種模塊劃分方法對冠心病網(wǎng)絡(luò)進(jìn)行了模塊劃分,并利用David數(shù)據(jù)庫(DAVID Bioin?formatics Resources 6.8,https://david.ncifcrf.gov/summary.jsp)進(jìn)行了冠心病網(wǎng)絡(luò)的相關(guān)通路富集分析。

1.2 研究方法

1.2.1模塊劃分方法

本研究對前述的11種常用方法均進(jìn)行了計(jì)算,除AP算法不能成功劃分出模塊,其他方法均可。因此,本研究在能劃分出模塊方法的基礎(chǔ)上進(jìn)一步開展熵值計(jì)算。

1.2.2熵值計(jì)算方法

網(wǎng)絡(luò)結(jié)構(gòu)熵(network structure entropy)[15],計(jì)算公式如下:

其中,N為網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)目,Ii為第i個(gè)節(jié)點(diǎn)的重要度。網(wǎng)絡(luò)結(jié)構(gòu)熵由節(jié)點(diǎn)的連接度分布確定,因此,節(jié)點(diǎn)的重要度定義為每個(gè)節(jié)點(diǎn)連接度占所有節(jié)點(diǎn)連接度總和的比例。

1.2.3杰卡德相似系數(shù)

杰卡德相似系數(shù)用來度量2個(gè)集合之間的相似性,被定義為2個(gè)集合A和B的交集元素在A和B的并集中所占的比例,稱為2個(gè)集合的杰卡德相似系數(shù),用符號J(A,B)表示。公式如下:

利用David數(shù)據(jù)庫富集模塊的相關(guān)通路,可以得到每個(gè)模塊的通路集合。要比較模塊相似性,可以通過比較不同模塊的通路集合的相似系數(shù),評價(jià)模塊之間功能的相關(guān)性。

1.3 研究技術(shù)路線

根據(jù)NCBI數(shù)據(jù)庫收集的冠心病相關(guān)基因通過String數(shù)據(jù)庫進(jìn)行基因關(guān)系網(wǎng)絡(luò)的構(gòu)建。針對冠心病基因關(guān)系網(wǎng)絡(luò),利用12種重疊模塊和非重疊模塊的劃分方法,進(jìn)行網(wǎng)絡(luò)模塊劃分,得到12個(gè)模塊劃分結(jié)果網(wǎng)絡(luò)。利用網(wǎng)絡(luò)信息熵的計(jì)算方法對12個(gè)結(jié)果進(jìn)行評價(jià),確定熵值最低的劃分結(jié)果以及相應(yīng)的劃分方法為MCODE cluster。用MCODE cluster方法劃分共得到11個(gè)模塊,利用David數(shù)據(jù)分析平臺進(jìn)行基因本體(gene ontology,GO)功能富集分析,分析冠心病基因網(wǎng)絡(luò)和11個(gè)模塊的生物信號通路。利用杰卡德相似系數(shù)比較劃分前后網(wǎng)絡(luò)的生物信號通路之間的相似度,從而評價(jià)網(wǎng)絡(luò)模塊劃分結(jié)果是否與原網(wǎng)絡(luò)功能一致(圖1)。

2 結(jié)果

2.1 模塊劃分方法比較

基于11種模塊劃分方法劃分模塊,然后計(jì)算模塊網(wǎng)絡(luò)熵值(表2)。熵值越小,網(wǎng)絡(luò)的混亂度越低,越趨于穩(wěn)定。上述方法劃分模塊后,計(jì)算熵值,比較熵值大小,發(fā)現(xiàn)MCODE cluster方法得到熵值最低,為4.33637。說明MCODE cluster方法比較適合冠心病基因關(guān)系網(wǎng)絡(luò)的模塊劃分。因此,選取MCODE cluster方法劃分的模塊網(wǎng)絡(luò)為研究對象,進(jìn)行下一步計(jì)算和分析。

2.2 基于最優(yōu)算法MCODE cluster的模塊劃分結(jié)果

Fig.1 Work flow diagram for gene network construction and analysis of coronary heart disease.The work flow diagram consists of four parts:the construction of the disease gene network,the module division based on 11 methods,the module division method evaluation by entropy value,and the function analysis of the module division result.★:the method with the lowest entropy.

Tab.2 Entropy calculation of results of module division

基于MCODE cluster方法,劃分模塊網(wǎng)絡(luò)結(jié)果如圖2。從圖2可以看出,11個(gè)內(nèi)部相互連接、外部相對獨(dú)立的網(wǎng)絡(luò)集團(tuán)即為模塊?;贛CODE cluster方法,冠心病基因網(wǎng)絡(luò)被劃分為11個(gè)模塊,詳細(xì)信息如表3所示。圖2中第1排從左到右依次為1~5號模塊,從表3中可以看到相關(guān)模塊內(nèi)包含的基因名稱。圖1第2排從左到右,依次為6~11號模塊。其中,模塊1包含51個(gè)節(jié)點(diǎn),926條邊,是網(wǎng)絡(luò)中最大的模塊。模塊8,9,10和11均包含3個(gè)節(jié)點(diǎn),3條邊,是網(wǎng)絡(luò)中最小的模塊。

2.3 基于David數(shù)據(jù)庫冠心病基因功能富集分析

為探討原網(wǎng)絡(luò)和劃分后的模塊網(wǎng)絡(luò)在生物功能上的相關(guān)性,基于David生物信息分析平臺,對冠心病原網(wǎng)絡(luò)和劃分后11個(gè)模塊網(wǎng)絡(luò)進(jìn)行基因的相關(guān)信號通路富集分析。最終富集結(jié)果發(fā)現(xiàn),冠心病原網(wǎng)絡(luò)中基因涉及52條KEGG信號通路(P<0.05),由于篇幅有限,表4中展示其中15條通路。

11個(gè)模塊富集結(jié)果總共涵蓋冠心病相關(guān)通路中的38條通路,覆蓋率達(dá)73.1%。在功能上說明劃分后的模塊能夠表達(dá)原疾病網(wǎng)絡(luò)的絕大部分功能。圖3可以看出11個(gè)模塊分別在冠心病通路中所占的比例分布。模塊1占46.6%,模塊2占1.6%,模塊3占7.8%,模塊4占4.7%,模塊5和6占0.0%,模塊7占10.9%,模塊8,9和10占0.0%,模塊11占1.6%。

Fig.2 Eleven modules of coronary heart disease network divided by MCODE method.SEL:selectin;CCR:C-C motif chemokine receptor;MMP:matrix metallopeptidase;CXCL:C-X-C motif chemokine ligand;IL:interleukin;ICAM:intercellular adhesion molecule;TGFB:transforming growth factor beta;FGF:fibroblast growth factor;VEGFA:vascular endothelial growth factor A;IFNG:interferon gamma;KDR:kinase insert domain receptor;VCAM:vascular cell adhesion molecule;VWF:von Willebrand factor;LDLR:low density lipoprotein receptor;ALB:albumin;NOS:nitric oxide synthase;CCL:C-C motif chemokine ligand;TNF:tumor necrosis factor;SCARB:scavenger receptor class B;CRP:C-reactive protein;EDN1:endothelin 1;INS:insulin;SERPINE:serpin family E;ESR1:estrogen receptor 1;AGTR:angiotensin Ⅱ receptor;LEP:leptin;ACE:angiotensin I converting enzyme;IGF:insulin like growth factor;RETN:resistin;ADIPOQ:adiponectin;C1Q and collagen domain containing;PPAR:peroxisome proliferator activated receptor;HMGCR:3-hydroxy-3-methylglutaryl-Co A reductase;CETP:cholesteryl ester transfer protein;LCAT:lecithin-cholesterol acyltransferase;APO:apolipoprotein;LIPC:lipase C;hepatic type;NQO:NAD(P)H quinone dehydrogenase;GST:glutathione S-transferase;EPHX1:epoxide hydrolase 1;CYP:cytochrome P450;NAT:N-acetyltransferase;PLA:phospholipase A;NR1H:nuclear receptor subfamily 1 group H;ABC:ATP binding cassette;SREBF:sterol regulatory element binding transcription factor;NPC1L:NPC1 like intracellular cholesterol transporter;PCSK:proprotein convertase subtilisin/kexin;CXCR:C-X-C motif chemokine receptor;P2RY12:purinergic receptor P2Y12;CNR:cannabinoid receptor;POMC:proopiomelanocortin;AR:androgen receptor;GHRL:ghrelin and obestatin prepro?peptide;PTH:parathyroid hormone;IGFBP:insulin like growth factor binding protein;HTR:5-hydroxytryptamine receptor;UTS:urotensin;F2RL:F2R like thrombin or trypsin receptor;HTR:5-hydroxytryptamine receptor;KALRN:kalirin RhoGEF kinase;CX3C:C-X3-C motif chemokine;CTLA:cytotoxic T-lymphocyte associated protein;FCGR:Fc fragment of IgG receptor;HIF1A:hypoxia inducible factor 1 alpha subunit;ANGPT:angiopoietin;HBA1:hemoglobin subunit alpha 1;GAS:growth arrest specific;FGB:fibrinogen beta chain;CLU:clus?terin;FTO:alpha-ketoglutarate dependent dioxygenase;TCF:transcription factor;F11:coagulation factor XI;GP1BA:glycoprotein Ib platelet alpha subunit;PROC:protein C,inactivator of coagulation factors Va and VIIIa;KCNJ:potassium voltage-gated channel subfamily J.

Tab.3 Eleven modules of coronary heart disease network

Tab.4 Pathway enrichment of coronary heart disease related genes

MCODE cluster模塊劃分方法對劃分出的網(wǎng)絡(luò)模塊進(jìn)行了評分和排序,密度大模塊評分高,根據(jù)評分高低對模塊編號和排序[16]。按照這一評分方案作為判定模塊主次的依據(jù),則該方法劃分的主要模塊為1號模塊,其涉及通路包括過氧化物酶體增生物激活受體信號通路、腫瘤壞死因子信號通路、造血細(xì)胞譜系、雌激素信號通路、肥厚性心肌病、Jak-STAT信號通路和趨化因子信號通路等30個(gè)信號通路,占冠心病相關(guān)通路的46.6%。因此,主要模塊與冠心病功能一致度較高。

Fig.3 Distribution of module-related pathways in coro?nary heart disease.

3.4 利用杰卡德相似系數(shù)模塊功能相似度分析,驗(yàn)證基于熵值所獲得的冠心病基因網(wǎng)絡(luò)模塊劃分結(jié)果的合理性

無論模塊如何劃分,最終目的都是在復(fù)雜網(wǎng)絡(luò)中找到結(jié)構(gòu)和功能相對獨(dú)立的基團(tuán)。熵值的方法從網(wǎng)絡(luò)結(jié)構(gòu)和能量角度,評價(jià)了模塊劃分方法的生物穩(wěn)定性?;诮芸ǖ孪嗨葡禂?shù)的模塊功能相似度分析,可以評價(jià)各個(gè)模塊與疾病功能的相關(guān)性。因此,本部分采用杰卡德相似系數(shù),從生物功能角度,驗(yàn)證基于熵值所獲得的冠心病基因網(wǎng)絡(luò)模塊的合理性。

表5中顯示了11個(gè)模塊所富集到的通路數(shù)量、與疾病總網(wǎng)絡(luò)相比較的交集和并集,以及通過交集與并集計(jì)算的杰卡德相似系數(shù)。同時(shí)列出了11個(gè)模塊基因數(shù)與疾病總網(wǎng)絡(luò)基因數(shù)的比例。

利用折線圖4,可以更直觀地顯示基因占比和杰卡德相似系數(shù)的關(guān)系。橫坐標(biāo)表示模塊編號,縱坐標(biāo)代表模塊網(wǎng)絡(luò)與疾病總網(wǎng)絡(luò)相比較,在通路功能和基因數(shù)量上所占的比例,即杰卡德相似系數(shù)和模塊基因數(shù)占比。

Fig.4 Comparison of number and function of genes between coronary heart disease and its modules.

從結(jié)果可以看出,杰卡德相似系數(shù)在模塊1,3,4,和7中,相對于基因占比平均高出1倍以上。模塊1基因數(shù)占比接近0.17,但代表疾病相關(guān)通路占比的杰卡德相似系數(shù)卻超過0.38。同理,模塊3,4和7均用較少的基因富集到較多的功能。這一結(jié)果表明,模塊在功能富集上具有一定優(yōu)勢。模塊2,5,6,8,9,10和11基因占比與功能杰卡德相似系數(shù)基本一致,差異較小。通過此方法,還可判斷功能富集能力較高的模塊,從而為評價(jià)主要模塊和次要模塊提供另一個(gè)可參考指標(biāo)。

Tab.5 Comparison of pathway levels and gene levels between 11 modules and coronary heart disease network

3 討論

基于生物網(wǎng)絡(luò)的模塊劃分方法,旨在實(shí)現(xiàn)將大量分子作功能分區(qū)的劃歸,化繁為簡,達(dá)到從不同尺度理解生命活動的層級和結(jié)構(gòu)的目的,從而針對分區(qū)進(jìn)行有效的干預(yù)和調(diào)控。但目前模塊劃分方法多樣,如何評價(jià)和選擇適合疾病網(wǎng)絡(luò)的模塊劃分方法,是值得醫(yī)藥學(xué)關(guān)注的問題。

本研究通過多種常用模塊劃分方法,對冠心病基因網(wǎng)絡(luò)進(jìn)行了模塊劃分,劃分結(jié)果通過網(wǎng)絡(luò)結(jié)構(gòu)熵值計(jì)算進(jìn)行評價(jià),發(fā)現(xiàn)MCODE cluster方法劃分出11個(gè)模塊,網(wǎng)絡(luò)熵值為4.33637,在幾種方法中熵值最小,較為適用于冠心病基因網(wǎng)絡(luò)的模塊識別?;贒avid數(shù)據(jù)庫進(jìn)行基因功能富集分析,發(fā)現(xiàn)冠心病相關(guān)基因涉及52條KEGG信號通路(P<0.05),11個(gè)模塊總共能涵蓋冠心病相關(guān)通路中的38條通路,覆蓋率達(dá)到73.07%,說明模塊網(wǎng)絡(luò)能夠表達(dá)原疾病網(wǎng)絡(luò)的絕大部分功能。利用杰卡德相似指數(shù)分析,發(fā)現(xiàn)第3,4和7模塊都用較少的基因,富集到較多的功能,這一結(jié)果表明模塊在功能富集上有一定優(yōu)勢。

本研究使用的網(wǎng)絡(luò)結(jié)構(gòu)熵方法,具有明確的物理意義,熵值越小,網(wǎng)絡(luò)的混亂度越低,越趨于穩(wěn)定,適用于對所有模塊劃分結(jié)果網(wǎng)絡(luò)的穩(wěn)定性評價(jià)。通過對冠心病基因網(wǎng)絡(luò)的實(shí)踐,表明該方法能夠?yàn)榛蛳嚓P(guān)疾病網(wǎng)絡(luò)的簡化和解析提供依據(jù),并為進(jìn)一步基于疾病模塊的組合藥物設(shè)計(jì)與開發(fā)奠定基礎(chǔ)。

猜你喜歡
卡德通路冠心病
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
想要什么禮物
妻子想要的禮物
故事會(2016年6期)2016-03-23 21:59:01
冠心病室性早搏的中醫(yī)治療探析
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
妻子想要的禮物
中外文摘(2015年3期)2015-11-22 23:36:25
proBDNF-p75NTR通路抑制C6細(xì)胞增殖
通路快建林翰:對重模式應(yīng)有再認(rèn)識
修武县| 洛宁县| 海城市| 梅州市| 安达市| 邛崃市| 宝山区| 杭锦旗| 涪陵区| 宁河县| 那坡县| 尼木县| 吉木乃县| 社旗县| 张家界市| 华阴市| 阿坝| 安庆市| 逊克县| 扎鲁特旗| 平湖市| 商都县| 博乐市| 罗城| 白银市| 拉萨市| 内乡县| 榆社县| 镇康县| 安吉县| 阜康市| 星子县| 泽普县| 衢州市| 西昌市| 加查县| 邢台市| 探索| 昌黎县| 武定县| 道孚县|