夏 鑫,呂萬強(qiáng),張 薔,劉會(huì)敏,張衛(wèi)東
鄭州大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室 鄭州 450001
炎癥性腸病(inflammatory bowel disease,IBD)是一種累及回腸、直腸、結(jié)腸的一種特發(fā)性腸道炎癥性疾病。近年來,IBD的全球發(fā)病率一直在上升,在18~20歲的歐洲后裔中,每10萬人中有100~150人發(fā)病[1]。IBD主要包括潰瘍性結(jié)腸炎(ulcerative colitis,UC)和克羅恩病(crohn′s disease,CD)[2]。CD一般情況下累及回腸和結(jié)腸,有些情況下可能影響腸道的任何區(qū)域[3]。UC主要累及結(jié)腸黏膜下層和直腸[4-5]。兩種疾病均有各自的臨床特點(diǎn),同時(shí)又有著某種共同的發(fā)病機(jī)制。遺傳流行病學(xué)數(shù)據(jù)[1,3,5]表明,IBD發(fā)病的易感性是可遺傳的,迄今為止,已經(jīng)超過有200個(gè)基因被識別為IBD的潛在致病基因。2015年的一項(xiàng)跨種族全基因組關(guān)聯(lián)研究(genome wide assiciation study,GWAS)的meta分析識別出了38個(gè)與這兩種疾病都相關(guān)的遺傳位點(diǎn),但這些位點(diǎn)僅能分別解釋CD和UC遺傳度的13.1%和8.2%[1]。本研究利用更加高效的統(tǒng)計(jì)方法——條件錯(cuò)誤發(fā)現(xiàn)率(conditional false discovery rate,cFDR)方法識別更多與歐洲人群IBD相關(guān)的遺傳變異位點(diǎn)。
1.1數(shù)據(jù)集來源匯總數(shù)據(jù)集由國際炎癥性腸病遺傳學(xué)協(xié)會(huì)在其官網(wǎng)上發(fā)布,下載地址為https://www.ibdgenetics.org/downloads.html。最新的數(shù)據(jù)集為Latest combined GWAS and Immunochip trans-ancestry summary statistics,該數(shù)據(jù)來源于歐洲人群,CD數(shù)據(jù)集來自7個(gè)GWAS數(shù)據(jù)的meta分析匯總數(shù)據(jù);UC數(shù)據(jù)集來自8個(gè)GWAS數(shù)據(jù)的meta分析匯總數(shù)據(jù)[1]。CD相關(guān)的meta分析涉及5 956個(gè)病例和14 927個(gè)對照;UC相關(guān)的meta分析涉及6 968個(gè)病例和20 464個(gè)對照[1]。
1.2數(shù)據(jù)集的處理首先整合數(shù)據(jù),保留UC和CD數(shù)據(jù)集中均有包含的單核苷酸多態(tài)性(SNP)位點(diǎn),最終得到10 867 439個(gè)SNPs,對于每條染色體以每50個(gè)相鄰的SNPs為單位,以HapMap Phase3為參照,以歐洲人群的基因庫作為對照,計(jì)算SNPs兩兩之間的LD值(r2),如果r2大于0.2,就刪除掉MAF較小的那個(gè)SNP,重復(fù)上面的刪減過程,直到剩下的SNPs之間不再有強(qiáng)連鎖現(xiàn)象,最終剩余140 983個(gè)SNPs。由于在meta分析之前,GWAS分析已經(jīng)對這些SNPs進(jìn)行了相應(yīng)的質(zhì)量控制[1],因此,在本研究中不再考慮質(zhì)量控制問題。
1.3FDR方法的簡介假設(shè)同時(shí)研究的兩個(gè)疾病分別為疾病i和疾病j,則某SNP與疾病i相關(guān)的cFDR被定義為該SNP所對應(yīng)的pi和pj值均小于預(yù)先設(shè)定的閾值p0i和p0j,且在真實(shí)情況下SNPs與疾病i是沒有關(guān)聯(lián)的概率值,表示為cFDR(pi∣pj)=Pr(H0i∣pi≤p0i,pi≤p0j)。其中,pi代表某個(gè)SNP與疾病i之間關(guān)聯(lián)強(qiáng)度假設(shè)檢驗(yàn)的P值;pj代表了該SNP與疾病j之間關(guān)聯(lián)強(qiáng)度假設(shè)檢驗(yàn)的P值,H0i表示真實(shí)情況下該SNP與疾病i的發(fā)生沒有關(guān)系[6]。
將ccFDR定義為cFDR(CD|UC)和cFDR(UC|CD)中較大的一個(gè)[6]。如果某個(gè)SNP的ccFDR小于設(shè)定的閾值,就代表這個(gè)SNP和兩個(gè)表現(xiàn)型均相關(guān)。
1.4多效性的評估和曼哈頓圖利用分層Q-Q圖和分層TDR圖對UC和CD之間的多效性富集程度進(jìn)行評估。分層標(biāo)準(zhǔn),pj≤1(即所有的SNPs都納入的一組),pj≤0.1,pj≤0.01,pj≤0.001,pj≤0.000 1。如果圖中的散點(diǎn)向左偏離對角線則說明UC和CD之間存在多效性富集現(xiàn)象,而且偏離的程度越大,說明富集程度越強(qiáng)。
以軸遺傳變異位點(diǎn)的位置信息為x,以-log10cFDR或-log10ccFDR為y軸作曼哈頓圖。以y=2為基準(zhǔn)線,基準(zhǔn)線以上的散點(diǎn)對應(yīng)的遺傳變異位點(diǎn)為與疾病相關(guān)的SNPs。
1.5統(tǒng)計(jì)學(xué)處理cFDR以及ccFDR的計(jì)算和曼哈頓圖的繪制均使用R3.42,SNPs的標(biāo)注和修剪均使用Plink 1.07,數(shù)據(jù)分析操作過程均在Ubuntu 16.04下完成。
2.1多效性的評估見圖1。圖1A、B顯示,隨著與條件疾病對應(yīng)P值的減小,SNPs對應(yīng)的散點(diǎn)向左偏離對角線的程度逐漸增大,表明UC和CD之間存在很強(qiáng)的多效性富集現(xiàn)象。圖1C、D顯示,與CD或UC相關(guān)的多效性富集程度最強(qiáng)的分層(分層條件為0.000 1)TDR也最大。
A:以CD為條件的UC分層Q-Q圖;B:以UC為條件的CD分層Q-Q圖;C:以CD為條件的UC分層TDR圖; D:以UC為條件的CD分層TDR圖
圖1分層Q-Q圖和分層TDR圖
2.2UC相關(guān)位點(diǎn)識別結(jié)果有130個(gè)SNPs的cFDR(UC|CD)小于0.01,分別位于21條常染色體上(圖2)。有87個(gè)SNPs已被報(bào)道和UC相關(guān)[7-10],43個(gè)SNPs是新發(fā)現(xiàn)的關(guān)聯(lián)位點(diǎn)。其中有5個(gè)新發(fā)現(xiàn)的SNPs被報(bào)道與類風(fēng)濕性關(guān)節(jié)炎(RA)或銀屑病相關(guān)[11-13]。這130個(gè)SNPs一共被標(biāo)注了144個(gè)基因,有70個(gè)基因被報(bào)道與UC相關(guān)聯(lián)[1,14]。
縱坐標(biāo):以CD為條件與UC相關(guān)的SNPs的-log10cFDR;橫坐標(biāo):常染色體編號以及對應(yīng)的位置;紅線以上的點(diǎn):cFDR小于0.01的SNPs
圖2以CD為條件的UC的曼哈頓圖
2.3CD相關(guān)位點(diǎn)識別結(jié)果有174個(gè)SNPs的cFDR(CD|UC)小于0.01,分別位于22條常染色體上(圖3)。有88個(gè)SNPs已被報(bào)道和CD是相關(guān),86個(gè)SNPs是新發(fā)現(xiàn)的關(guān)聯(lián)位點(diǎn)。有57個(gè)SNPs被報(bào)道與CD疾病相關(guān);剩余的86個(gè)SNPs是新發(fā)現(xiàn)的遺傳位點(diǎn),其中有6個(gè)新發(fā)現(xiàn)的SNPs被報(bào)道與乳糜瀉、類風(fēng)濕性關(guān)節(jié)炎(RA)或多發(fā)性硬化(MS)相關(guān)[2,4,15]。這174個(gè)SNPs一共被標(biāo)注了190個(gè)基因,有82個(gè)基因被報(bào)道與CD相關(guān)聯(lián)[1,16]。
縱坐標(biāo):以UC為條件下與CD相關(guān)的SNPs的-log10cFDR;橫坐標(biāo):常染色體編號以及對應(yīng)的位置;紅線以上的點(diǎn):cFDR小于0.01的SNPs
圖3以UC為條件的CD的曼哈頓圖
2.4UC和CD同有相關(guān)位點(diǎn)分析結(jié)果共有75個(gè)多效性SNPs與UC和CD均有關(guān),分別位于19條染色體上(圖4)。其中,有22個(gè)SNPs是新識別的和53個(gè)SNPs已經(jīng)被報(bào)道[1,8,13,16]。有3個(gè)新識別的SNPs被報(bào)道與RA或銀屑病(Psoriasis)有關(guān)。這75個(gè)多效性的SNPs被標(biāo)注了87個(gè)基因,其中有36個(gè)基因與這兩種疾病都相關(guān)[1,3,16-17]。有11個(gè)新識別的SNPs被標(biāo)注到了與UC和CD都相關(guān)的基因上,見表1。
縱坐標(biāo):與UC和CD均相關(guān)的SNPs的-log10ccFDR;橫坐標(biāo):常染色體編號以及對應(yīng)的位置;紅線以上的點(diǎn):ccFDR小于0.01的SNPs
圖4 CD和UC的聯(lián)合曼哈頓圖表1 新識別的UC和CD共相關(guān)位點(diǎn)
#:被報(bào)道和RA或銀屑病相關(guān)
利用cFDR新識別的SNPs中有一部分被標(biāo)注在和IBD相關(guān)的基因上,有些SNPs位于基因間或非編碼區(qū),有些SNPs是位于疾病相關(guān)基因的編碼區(qū)甚至是UTR3或UTR5,如果這些位點(diǎn)發(fā)生突變,影響基因表達(dá)的可能性就會(huì)很大,那么這一部分的SNPs和疾病真實(shí)相關(guān)的可能性就會(huì)很大,這個(gè)結(jié)果也從側(cè)面證明了cFDR方法的可靠性。例如,本研究中一個(gè)和CD相關(guān)的SNP rs1738074,它的cFDR=0.008 8,位于CHR6的BP為159465977,且被標(biāo)注在基因TAGAP(Gene ID:117289)的UTR5區(qū)域,該基因和一些自身免疫性疾病是相關(guān)的,如類風(fēng)濕關(guān)節(jié)炎(Rheumatoid Arthritis, RA),乳糜瀉和多發(fā)性硬化[18-19],而且這個(gè)基因被報(bào)道和CD是相關(guān)的[20],如果該位點(diǎn)發(fā)生突變,很可能通過影響基因TAGAP的表達(dá)進(jìn)而對疾病的發(fā)生造成影響,且該基因同時(shí)和一些自身免疫性疾病相關(guān),這與臨床數(shù)據(jù)顯示的IBD常伴有一些自神免疫性疾病相符合。同時(shí)進(jìn)一步證明使用的cFDR分析方法可以更加有效的識別與疾病相關(guān)的位點(diǎn)。另外,有兩個(gè)SNP rs3812609和SNP rs6563在本研究中被識別出與CD和UC都相關(guān),它們對應(yīng)的ccFDR分別為0.005 6和0.000 66,這兩個(gè)位點(diǎn)均位于CHR 9上,BP分別為139408892和139389184,兩者的LD度量r2=0.032且rs3812609位于基因NOTCH1(Gene ID: 4851)的內(nèi)含子區(qū)域,rs6563位于該基因的UTR3區(qū)域。而對于基因NOTCH1而言,它是編碼了NOTCH家族的單通道跨膜受體[21-22];NOTCH信號通路是一種高度保守的細(xì)胞間信號通路,它在及時(shí)的細(xì)胞譜系規(guī)范中扮演著重要的角色,包括內(nèi)分泌和外分泌腺的胰腺和來自共同的淋巴細(xì)胞前體T細(xì)胞譜系血統(tǒng)繼承,而且有研究[23-24]表明NOTCH信號通路的失調(diào)或故障會(huì)對腸道的健康造成很大的影響。而且這個(gè)基因在之前的研究中已被報(bào)道與UC和CD都相關(guān)[25]。
本研究通過使用cFDR方法,識別出了22個(gè)與兩個(gè)疾病都相關(guān)的遺傳位點(diǎn),這些新發(fā)現(xiàn)為探索UC和CD同有的致病機(jī)制提供了新的見解,并為進(jìn)一步的實(shí)驗(yàn)研究提供了可能的線索。但本研究也存在一定的局限性:首先,由于缺乏詳細(xì)的個(gè)人樣本數(shù)據(jù),沒有多效性位點(diǎn)對表型影響方向的信息;此外,因?yàn)闊o法獲得樣本的臨床數(shù)據(jù)資料,無法將識別的遺傳位點(diǎn)與臨床結(jié)果聯(lián)系起來;最后,因?yàn)楸狙芯恐惺褂玫氖菂R總數(shù)據(jù)的一個(gè)子集,所以研究的結(jié)果中并沒有包含發(fā)現(xiàn)所有之前已報(bào)道的與CD和UC有關(guān)的位點(diǎn)和基因,且由于在對SNPs進(jìn)行修剪的過程中,刪除掉了那些具有較小MAF的SNPs,這會(huì)削弱cFDR方法對罕見變異的識別能力。因此,我們的這些新發(fā)現(xiàn)還需要更多的臨床數(shù)據(jù)資料和對應(yīng)的生物實(shí)驗(yàn)研究來做進(jìn)一步驗(yàn)證。
總之,通過利用cFDR方法將UC和CD的GWAS數(shù)據(jù)進(jìn)行二次挖掘,研究發(fā)現(xiàn)UC和CD之間的存在很強(qiáng)的多效性富集現(xiàn)象,并且識別出22個(gè)兩者共有的多效性遺傳位點(diǎn)。這些識別出的UC和CD之間的多效性遺傳位點(diǎn),可能會(huì)為研究這兩個(gè)疾病之間共同的遺傳機(jī)制供新的見解或線索。
鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2018年5期