李宗瑾 宋長(zhǎng)新
摘要:肺動(dòng)脈高壓(pulmonary arterialhypertension,PAH)是一種嚴(yán)重的心血管疾病,發(fā)病機(jī)制復(fù)雜,分子機(jī)制尚未完全闡明,臨床死亡率僅次于腫瘤與心肌梗死,嚴(yán)重威脅人類(lèi)的生命健康。因此,需要更多的方法來(lái)探究PAH的分子機(jī)制,挖掘影響其發(fā)生的關(guān)鍵因子。該文將PAH疾病的分子研究與加權(quán)基因共表達(dá)網(wǎng)絡(luò)(WGCNA)相結(jié)合,通過(guò)構(gòu)建PAH加權(quán)基因共表達(dá)網(wǎng)絡(luò),探討其潛在生物標(biāo)志物,篩選可能與PAH顯著相關(guān)的關(guān)鍵基因,為PAH的預(yù)防及早期治療提供理論與實(shí)踐基礎(chǔ)。
關(guān)鍵詞:PAN;WGCNA;關(guān)鍵基因;生物標(biāo)志物
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)15-0008-02
1背景
PAH是一種病因不明、受遺傳與環(huán)境等多因素共同影響的綜合征。其特征是肺動(dòng)脈壓力和血管阻力增加導(dǎo)致右心衰竭和死亡,診斷后平均生存時(shí)間為2.8年。近年來(lái),隨著對(duì)PAH發(fā)病機(jī)制的深入研究,發(fā)現(xiàn)遺傳因素在其發(fā)病中起著重要作用。目前,仍存在治療難度大、藥物敏感性低及預(yù)后極差的問(wèn)題,因此需要更多方法來(lái)發(fā)現(xiàn)潛在的關(guān)鍵(樞紐)基因,進(jìn)而揭示其分子機(jī)制,進(jìn)而降低其死亡率。WGCNA是一種系統(tǒng)生物學(xué)方法,是以基因間表達(dá)相似性為基礎(chǔ)來(lái)實(shí)現(xiàn)基因網(wǎng)絡(luò)構(gòu)建的算法,常用來(lái)探索基因和表型之間復(fù)雜關(guān)系,不僅可以篩選具有價(jià)值的生物標(biāo)志物或靶位點(diǎn)的鑒定,還具有揭示生物學(xué)規(guī)律、疾病關(guān)鍵驅(qū)動(dòng)因子和藥物作用機(jī)理的功能。在本研究中,我們利用GEO數(shù)據(jù)庫(kù)中的PAH表達(dá)譜數(shù)據(jù)構(gòu)建了加權(quán)基因共表達(dá)網(wǎng)絡(luò),篩選可能影響PAH疾病發(fā)生的關(guān)鍵因子,為實(shí)現(xiàn)PAH的早期預(yù)防與及時(shí)治療提供理論基礎(chǔ)。
2材料與方法
2.1數(shù)據(jù)來(lái)源及數(shù)據(jù)預(yù)處理
本文的PAH基因表達(dá)譜數(shù)據(jù)fGSEll7261)來(lái)自GEO數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/geo,),包含25個(gè)正常人類(lèi)樣本,和58個(gè)PAH樣本,平臺(tái)為GPL6244。本研究使用R編程語(yǔ)言(v3.6.2),Bioconductor軟件包和WGCNA軟件包進(jìn)行數(shù)據(jù)分析。
2.2共表達(dá)網(wǎng)絡(luò)的構(gòu)建和模塊構(gòu)建
我們使用R中的WGCNA軟件包來(lái)構(gòu)建PAH加權(quán)基因共表達(dá)網(wǎng)絡(luò)。首先,計(jì)算所有基因?qū)Φ南嚓P(guān)性構(gòu)建Pearson相關(guān)矩陣,如公式(1)。然后,使用冪函數(shù)nil=Allg將相關(guān)矩陣轉(zhuǎn)換為鄰接矩陣,其中β是一個(gè)可以強(qiáng)調(diào)強(qiáng)相關(guān)性的軟閾值,軟閾值p可以使網(wǎng)絡(luò)符合標(biāo)準(zhǔn)的無(wú)尺度網(wǎng)絡(luò),從而實(shí)現(xiàn)無(wú)標(biāo)度拓?fù)?。第三,將鄰接矩陣轉(zhuǎn)換為拓?fù)渲丿B矩陣(TOM),如公式(2),并計(jì)算基因間相異度矩陣dissTOM=1-TOM,對(duì)dissTOM層次聚類(lèi)得到系統(tǒng)聚類(lèi)樹(shù),即將具有相似表達(dá)的基因分為同簇。第四,通過(guò)dynamic Tree Cut動(dòng)態(tài)剪枝算法來(lái)區(qū)分共表達(dá)模塊,其中min-ModuleSize為50,deepSplit為2,其他參數(shù)設(shè)置為默認(rèn)值,并計(jì)算代特征向量值(ME),通過(guò)聚類(lèi)合并具有高度相似的模塊,便可得到基因模塊。
其中,Bij表示基因i和基因j之間的鄰接系數(shù);lij表示基因i與基因i所有共同相鄰基因的鄰接系數(shù)的乘積之和;ki代表基因i與所有相鄰節(jié)點(diǎn)的鄰接系數(shù)綜合。若值為0,表示這兩個(gè)基因都是孤立的。若值是1,表示這兩個(gè)基因與所有基因都是相鄰的。
2.3篩選共表達(dá)網(wǎng)絡(luò)關(guān)鍵模塊
本文將使用兩種方法來(lái)鑒別與高血壓相關(guān)的模塊。第一種方法,計(jì)算各模塊的模塊特征基因(module eigengene,ME)與疾病性狀皮爾森相關(guān)系數(shù)及其P值來(lái)確定關(guān)鍵模塊;第二種方法,通過(guò)計(jì)算基因顯著性(Gene Significance,GS)和模塊顯著性(Module Significance,MS)來(lái)確定關(guān)鍵模塊。GS是指基因的表達(dá)量與某一臨床信息的皮爾森相關(guān)系數(shù),MS是指模塊中所有基因的GS的平均值。一般所有模塊MS與GS的絕對(duì)值越大,說(shuō)明與PAH疾病越相關(guān)。
2.4鑒定關(guān)鍵模塊的樞紐基因
模塊的樞紐基因是與疾病最緊密相關(guān)的基因,通常具有更大的生物學(xué)意義。Gs表示了基因在各種網(wǎng)絡(luò)中的重要性,模塊身份(Modularmembership,MM)用來(lái)衡量基因在模塊內(nèi)的重要性,基因之間的權(quán)重顯著性p.weighted可以通過(guò)WGCNA包中的networkScrenningO函數(shù)計(jì)算得到。為了鑒定出更加可靠的關(guān)鍵基因,我們?cè)俅尾捎镁W(wǎng)絡(luò)的最大集團(tuán)度(MCC),如公式(3)。篩選關(guān)鍵模塊中的樞紐基因,最后將兩種方法的共同基因作為關(guān)鍵基因。
3結(jié)果
3.1芯片數(shù)據(jù)預(yù)處理
我們使用R軟件和limma軟件包對(duì)數(shù)據(jù)進(jìn)行校正批處理、去除空探針及重復(fù)基因。根據(jù)映射的探針確定了每個(gè)基因的表達(dá)值,如果多個(gè)探針映射到同一基因,則最大值表達(dá)值用于表示該基因的表達(dá)水平。最后,獲得了20359個(gè)基因的表達(dá)譜。對(duì)表達(dá)譜矩陣進(jìn)行標(biāo)準(zhǔn)差(sD)排序,選取前5000個(gè)基因作為共表達(dá)網(wǎng)絡(luò)構(gòu)建的輸人數(shù)據(jù),進(jìn)行聚類(lèi)分析,發(fā)現(xiàn)去除離群樣本GSM3290090。
3.2并加權(quán)共表達(dá)網(wǎng)絡(luò)的構(gòu)建
軟閾值的選擇是構(gòu)建WGCNA的關(guān)鍵。我們對(duì)從1到20的閾值進(jìn)行了網(wǎng)絡(luò)拓?fù)浞治?,發(fā)現(xiàn)當(dāng)B=6時(shí),滿(mǎn)足無(wú)標(biāo)度網(wǎng)絡(luò)條件。通過(guò)層次聚類(lèi)將具有相似表達(dá)的基因分組為同一模塊,同時(shí)將切割線(xiàn)MEDissThres設(shè)置為0.2來(lái)合并模塊,鑒定了17個(gè)基因模塊。
3.3確定關(guān)鍵基因模塊
我們通過(guò)第一種方法得到從模塊purple和pink與PAH相-關(guān)性系數(shù)分別為-0.77,0.64,其絕對(duì)值大于其他模塊的相關(guān)系數(shù)(圖1),且P值都小于0.01,因此推斷這兩個(gè)模塊與PAH最相關(guān),且分別與PAH在顯著的負(fù)相關(guān)和正相關(guān),即前者模塊中的基因可能抑制PAH的發(fā)生,后者可能促進(jìn)PAH的發(fā)生。為保證關(guān)鍵模塊篩選的準(zhǔn)確性,我們用另一種方法重新篩選關(guān)鍵模塊,結(jié)果表明purple和pink模塊的GS絕對(duì)值最大(圖2)。用上述兩種不同方法篩選結(jié)果相同,因此purple和pink模塊為關(guān)鍵模塊。
3.4與PAH發(fā)生相關(guān)的樞紐基因
在本研究中,首先以|MM|>0.8、|GS|>0.2和p.weighted<0.05為標(biāo)準(zhǔn)進(jìn)行篩選,分別在purple和pink模塊中篩選出了24個(gè)和21個(gè)樞紐基因。然后將關(guān)鍵模塊基因文件導(dǎo)人Cyto-scape,通過(guò)MCC算法分別獲得toplO樞紐基因,將兩個(gè)方法獲得基因取交集,最終在purple模塊中確定了7個(gè)關(guān)鍵基因(TLR1,AQP9,SIGLEC9,LRRC25,LILRA6,LILRB3,S100A9),在pink模塊中確定了5個(gè)關(guān)鍵基因(ANTXRl,UACA,ECM2,RBFOX2,NREP)。
4討論
在這項(xiàng)研究中,我們使用WGCNA構(gòu)建PAH的基因共表達(dá)網(wǎng)絡(luò),目的是尋找新的和關(guān)鍵的生物標(biāo)志物。在WGCNA中,動(dòng)態(tài)樹(shù)切割共識(shí)別了17個(gè)基因模塊,其中purple和pink模塊是與PAH高度相關(guān)的兩個(gè)模塊。然后篩選了12個(gè)與PAH相關(guān)的潛在樞紐基因,即TLRl、AQP9、SIGLEC9、LRRC25、LILRA6、HLRB3、S100A9、ANTXRl、UACA、ECM2、RBFOX2、NREP。其中,前七個(gè)關(guān)鍵基因與PAH呈負(fù)相關(guān),可能抑制PAH的發(fā)生,后五個(gè)關(guān)鍵基因與PAH呈正相關(guān),可能誘發(fā)PAH的發(fā)生。
通過(guò)查詢(xún)文獻(xiàn)及基因數(shù)據(jù)庫(kù),發(fā)現(xiàn)有三個(gè)關(guān)鍵基因(TLRl、AQP9和RBFOX21已經(jīng)有研究表明與PAH或高血壓相關(guān),如Koupenova M等人發(fā)現(xiàn)不同性別的血小板TLR轉(zhuǎn)錄物與不同的心血管危險(xiǎn)因素和循環(huán)炎癥水平相關(guān);AQP9在內(nèi)皮細(xì)胞,血管平滑肌細(xì)胞和心血管系統(tǒng)心臟中表達(dá),參與心血管功能和相關(guān)疾病的病理過(guò)程;Zhou Y等人研究發(fā)現(xiàn)RBFOX2在高血壓中起關(guān)鍵作用。有四個(gè)關(guān)鍵(sIGLEC9、ANTXRl、LRRC25和ECM21雖然還未有報(bào)道其與PAH相關(guān),但其對(duì)血管具有調(diào)節(jié)作用或與TGT-β相關(guān)。其余五個(gè)關(guān)鍵基因(LILRA6、LILRB3、S100A9、UACA和NREPl調(diào)控參與腫瘤的免疫反應(yīng)、胰島素抵抗/2糖尿病、調(diào)節(jié)細(xì)胞凋亡、腎纖維化的新靶標(biāo)等。表明我們的研究可以篩選出具有生物學(xué)意義的PAH關(guān)鍵基因。這些發(fā)現(xiàn)有助于更好地了解PAH的發(fā)病的機(jī)制,為臨床決策提供預(yù)后生物標(biāo)志物。