周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
?
基于基因組關(guān)聯(lián)數(shù)據(jù)識(shí)別阿爾茨海默病相關(guān)通路
周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
摘要::阿爾茨海默病又稱老年性癡呆,是一種復(fù)雜的中樞神經(jīng)系統(tǒng)退行性疾病,本文選取一套阿爾茨海默病全基因組關(guān)聯(lián)分析(GWAS)數(shù)據(jù),利用ProxyGeneLD 軟件進(jìn)行基因水平上的檢驗(yàn),利用WebGestalt 數(shù)據(jù)庫(kù)進(jìn)行遺傳通路分析,識(shí)別出320個(gè)顯著(P<0.05)的阿爾茨海默病相關(guān)基因、8個(gè)顯著的KEGG通路和41個(gè)顯著的GO功能類,這些研究結(jié)果對(duì)進(jìn)一步揭示阿爾茨海默病潛在的發(fā)病機(jī)制具有重要意義。
關(guān)鍵詞:全基因組關(guān)聯(lián)研究;遺傳通路;阿爾茨海默病
阿爾茨海默病 (Alzheimer’s disease, AD),又稱老年性癡呆,是一種復(fù)雜的中樞神經(jīng)系統(tǒng)退行性疾病,以高級(jí)認(rèn)知功能障礙為特征,以老年斑、神經(jīng)纖維纏結(jié)和神經(jīng)元丟失為主要病理改變的綜合病。阿爾茨海默病發(fā)病率與年齡呈現(xiàn)正相關(guān)性。據(jù)估計(jì),65歲老年人發(fā)病率為4.4%,90歲以上老年人的發(fā)病率是22%[1]。隨著世界人口日趨老齡化,阿爾茨海默病已經(jīng)成為當(dāng)前老年醫(yī)學(xué)面臨的最嚴(yán)峻的問(wèn)題之一。在我國(guó),人口的老年化進(jìn)程不斷加快,如何對(duì)這兩種常見(jiàn)老年疾病進(jìn)行有效地預(yù)防和早期治療,已成為我國(guó)面臨的一項(xiàng)關(guān)系到國(guó)家人口研究數(shù)據(jù)識(shí)別阿爾茨海默相關(guān)的風(fēng)險(xiǎn)位點(diǎn)和遺傳通路。
目前,歐洲和美國(guó)研究人員普遍采用全基因組關(guān)聯(lián)研究(Genome-Wide Association Studies, GWAS)和候選基因研究的方法篩選阿爾茨海默病易感基因,取得了前所未有的成就。一些新的阿爾茨海默病易感基因,例如CR1, BIN1, CLU, PICALM, MS4A4/MS4A6E, CD2AP, CD33, EPHA1和ABCA7等已經(jīng)被逐漸報(bào)道[2]。AD作為一種人類復(fù)雜性狀,涉及多個(gè)基因,但是每個(gè)基因?qū)Ρ硇椭挥休^小或微小的影響,只有若干個(gè)基因共同作用,才可對(duì)表型產(chǎn)生明顯影響,即個(gè)體表型是與多個(gè)基因相關(guān)的變異協(xié)同作用的結(jié)果。因此,利用生物信息學(xué)識(shí)別AD相關(guān)的遺傳學(xué)通路,更能揭示潛在的遺傳機(jī)制。本研究通過(guò)利用生物遺傳通路分析方法,分析基因組關(guān)聯(lián)研究AD數(shù)據(jù),識(shí)別影響AD的生物學(xué)遺傳通路,揭示AD潛在的遺傳機(jī)制。
1材料與方法
1.1遺傳關(guān)聯(lián)研究數(shù)據(jù)
選取一套AD GWAS數(shù)據(jù),該數(shù)據(jù)公開(kāi)獲得。該數(shù)據(jù)包含11 789歐洲人,其中有3 941 AD 病例個(gè)體和7 848個(gè)對(duì)照個(gè)體。本套數(shù)據(jù)包含529 205個(gè)人類常染色體單核苷酸多態(tài)性(Single nucleotide polymorphism, SNP)數(shù)據(jù)。所有SNP信息來(lái)自人類基因組版本37(Human genome build 37)和SNP版本132(dbSNP build 132)。加性模型下的回歸分析用來(lái)衡量單個(gè)SNP和AD的關(guān)聯(lián)。最終,我們得到了761個(gè)P<=1.00×10-3的SNPs。更多詳細(xì)信息在文章中有描述[3]。
1.2方法
1.2.1基因水平上檢驗(yàn)AD GWAS
利用ProxyGeneLD軟件進(jìn)行基因水平上的檢驗(yàn)。該軟件考慮到人類基因上復(fù)雜的連鎖不平衡模式,利用HapMap數(shù)據(jù)的連鎖不平衡信息[4],矯正由于基因長(zhǎng)度所引起的顯著性膨脹問(wèn)題。如果有一些SNP在HapMap數(shù)據(jù)中高度連鎖平衡 (r2>0.8),那么這些SNP歸為一類,作為單個(gè)遺傳信號(hào)。然后檢驗(yàn)每個(gè)GWAS顯著的SNP是否包含在某一個(gè)類里面。最后,每個(gè)基因都賦予一個(gè)經(jīng)過(guò)多重檢驗(yàn)矯正的P值。我們選取矯正后P<0.05的基因進(jìn)行通路水平上的檢驗(yàn)。
1.2.2通路水平檢驗(yàn)AD GWAS
利用WebGestalt數(shù)據(jù)庫(kù)進(jìn)行遺傳通路分析,連接地址為:http://bioi nfo.vanderbilt.edu/webgest alt/[5]。對(duì)于一個(gè)給定的通路,采用超幾何分布檢驗(yàn)識(shí)別這一通路與AD關(guān)聯(lián)是否顯著。在某一個(gè)通路中觀測(cè)到K個(gè)AD相關(guān)基因的P值可以計(jì)算為:
N是所有參考基因的數(shù)據(jù), S是所有AD相關(guān)基因的數(shù)目,m是通路中含有的基因的數(shù)目,K是通路中含有的AD相關(guān)基因的數(shù)目。我們采用FDR(False discovery rate)方法進(jìn)行多重檢驗(yàn)校正[5]。對(duì)于任何一個(gè)通路,如果校正后的P<0.05,并且含有至少5個(gè)AD相關(guān)基因,則認(rèn)為這個(gè)通路和疾病顯著相關(guān)。
2結(jié)果與分析
2.1顯著富集的KEGG通路
利用ProxyGeneLD軟件進(jìn)行基因水平上的檢驗(yàn),識(shí)別出320個(gè)AD基因。根據(jù)WebGestalt進(jìn)行通路水平上的檢驗(yàn),分別發(fā)現(xiàn)了8個(gè)顯著的KEGG通路(P<0.05)。其中Cell adhesion molecules,是最顯著的遺傳通路。其它通路主要包含3個(gè)心血管疾病通路(Dilated cardiomyopathy,Arrhythmogenic right ventricular cardiomyopathy和Hypertrophic cardiom-yopathy),代謝通路(Glycosaminoglycan biosynthesis-chondroitin sulfate 和Purine metabolism),神經(jīng)系統(tǒng)和疾病(5個(gè)),見(jiàn)表1。
表1 顯著的KEGG通路
注:NG:輸入基因列表中注釋到通路中的基因數(shù)據(jù) (輸入基因數(shù)目); NGR:通路中還有的基因數(shù)目(參考基因中的所有基因數(shù)目); O:觀測(cè)到在通路中與AD相關(guān)基因的數(shù)目,rawP:原始的P值,adjP:矯正后的P值。
Notes: NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
2.2顯著富集的GO通路
利用320個(gè)AD基因,我們得到了41個(gè)顯著的功能類P<0.05。我們進(jìn)一步發(fā)現(xiàn)這些功能里都與代謝有關(guān)。主要包含reverse cholesterol transport (GO:0043691), phospholipid efflux (GO:0033700), triglyceride homeostasis (GO:0070328), activation of phospholipase C activity (GO:0007202), lipid metabolic process (GO:0006629), cholesterol efflux (GO:0033344), cholesterol homeostasis (GO:0042632), cholesterol metabolic process (GO:0008203), lipid transport (GO:0006869),和lipoprotein metabolic process (GO:0042157)。 有趣的是, cell adhesion (GO: 0007155) 依然是第三顯著的通路P=1.90×10-5。本研究中我們列出前10個(gè)顯著的功能類,見(jiàn)表2。
表2 前十個(gè)顯著的GO通路
注:NG:輸入基因列表中注釋到通路中的基因數(shù)據(jù) (輸入基因數(shù)目); NGR:通路中還有的基因數(shù)目(參考基因中的所有基因數(shù)目); O:觀測(cè)到在通路中與AD相關(guān)基因的數(shù)目,rawP:原始的P值,adjP:矯正后的P值。
Notes:NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
3討論與結(jié)論
生物信息學(xué)是生命科學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等學(xué)科逐步發(fā)展相互滲透的新興交叉學(xué)科。隨著對(duì)人類基因組計(jì)劃的深入研究,生物信息學(xué)得到了蓬勃的發(fā)展,尤其是在了解各類疾病的發(fā)生機(jī)制及遺傳基礎(chǔ)上發(fā)揮了重要作用[6]。通過(guò)識(shí)別出與疾病發(fā)生發(fā)展相關(guān)的基因和通路,再據(jù)此進(jìn)行實(shí)驗(yàn)驗(yàn)證,將是一種高效的研究途徑。AD是一種復(fù)雜疾病,利用生物信息學(xué)識(shí)別AD相關(guān)的遺傳學(xué)通路,更能揭示AD潛在的遺傳機(jī)制。本研究我們利用生物信息學(xué)方法,采用生物遺傳通路分析了一套AD全基因組關(guān)聯(lián)研究數(shù)據(jù)。
本研究中,我們利用ProxyGeneLD軟件進(jìn)行基因水平上的檢驗(yàn),檢測(cè)出320個(gè)顯著(P<0.05)的AD基因。利用WebGestalt進(jìn)行通路水平上的檢驗(yàn),發(fā)現(xiàn)了8個(gè)顯著的KEGG通路和41個(gè)顯著的GO功能類(P<0.05)。其中,我們發(fā)現(xiàn)Cell adhesion molecules是KEGG中最顯著的遺傳通路,也是GO通路中第三顯著的遺傳信號(hào)。我們查閱了相關(guān)文獻(xiàn),前期的研究支持了我們的發(fā)現(xiàn)。Lambert和Jones等人都使用ALIGATOR和GenGen軟件,并且都用來(lái)分析兩套AD GWAS數(shù)據(jù),但是這兩個(gè)研究卻沒(méi)有產(chǎn)生一致的結(jié)果[7]。中國(guó)科學(xué)院的研究人員認(rèn)為不同的研究可能有共享的遺傳通路。為了檢驗(yàn)這種假設(shè),他們應(yīng)用多重遺傳通路分析方法,分析了來(lái)自法國(guó)和美國(guó)的AD GWAS數(shù)據(jù)(9 580個(gè)樣本)。在KEGG數(shù)據(jù)庫(kù)中,發(fā)現(xiàn)了一個(gè)與阿爾茨海默病高度相關(guān)的遺傳通路(Cell adhesion molecules,CAM)。在GO數(shù)據(jù)庫(kù),他們重復(fù)了這一發(fā)現(xiàn)[7]。進(jìn)一步我們發(fā)現(xiàn),cell adhesion molecules還參與了好多自身免疫疾病[8]。
同時(shí),我們發(fā)現(xiàn)了AD參與了3條直接與心血管病相關(guān)通路,Dilated cardiomyopathy, Arrhythmogenic right ventricular cardiomyopathy 和 Hypertrophic cardiom-yopathy。該結(jié)果也進(jìn)一步驗(yàn)證了早期廣東醫(yī)科大學(xué)的發(fā)現(xiàn)。研究人員對(duì)來(lái)自歐洲的14 138個(gè)樣本(6 399個(gè)AD疾病個(gè)體和7 739個(gè)對(duì)照個(gè)體) 進(jìn)行了全基因組范圍內(nèi)基于基因和生物遺傳通路水平上的分析。利用基因水平上關(guān)聯(lián)檢驗(yàn)的方法得到了1 458個(gè)顯著(P<0.05)的AD 基因。然后采用生物遺傳通路分析對(duì)1 458個(gè)AD相關(guān)基因進(jìn)行KEGG和GO遺傳通路注釋,結(jié)果發(fā)現(xiàn)了3個(gè)與心血管疾病有關(guān)的顯著富集的KEGG通路:viral myocarditis (hsa05416), dilated cardiomyopathy(DCM)(hsa05414),hypertrophic cardiomyopathy (HCM) (hsa05410)。因此,本研究中,我們驗(yàn)證支持了dilated cardiomyopathy (DCM) (hsa05414) 和 hypertrophic cardiomyopathy (HCM) (hsa05410)。
本研究中,進(jìn)一步發(fā)現(xiàn)了顯著的代謝GO功能類,進(jìn)一步支持了早期的研究結(jié)果。國(guó)外的研究人員Jones等分析了兩套AD GWAS數(shù)據(jù). 識(shí)別出25個(gè)顯著的GO功能類,大部分都與代謝有關(guān)[6]。本研究中,我們選用KEGG通路和GO通路,主要基于以下考慮:KEGG是通過(guò)人工文獻(xiàn)閱讀和提取的生物學(xué)知識(shí)數(shù)據(jù)庫(kù),沒(méi)有明顯的分層迭代結(jié)構(gòu)[9];GO數(shù)據(jù)庫(kù)主要是基于計(jì)算預(yù)測(cè)以及人工注釋,具有明顯的分層迭代結(jié)構(gòu),而且GO分析假定每個(gè)GO功能分類是彼此獨(dú)立的,只有大約1%的功能分類是經(jīng)過(guò)試驗(yàn)驗(yàn)證的[10]。因此,這兩個(gè)數(shù)據(jù)庫(kù)形成了很好的補(bǔ)充。
盡管本研究得到了有價(jià)值的結(jié)果,但仍有其局限性。例如本研究中我們采用了多重檢驗(yàn)校正,但是還不足以校正所有的偏倚,研究結(jié)果最好需要隨機(jī)擾動(dòng)試驗(yàn)。但是目前我們無(wú)法獲得原始的基因型數(shù)據(jù),因此我們后期的研究中還需要獲得原始基因型數(shù)據(jù),來(lái)進(jìn)一步驗(yàn)證研究結(jié)果。
參考文獻(xiàn)
[1]BETTENS K, SLEEGERS K, BROECKHOVEN C V. Current status on Alzheimer disease molecular genetics: from past, to present, to future[J].Human Molecular Genetics,2010,19(R1):R4-R11.
[2]BERTRAM L, MCQUEEN M B, MULLIN K, et al. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database[J].Nature Genetics,2007,39(1):17-23.
A V, CONSORTIUM D, INVESTIGATORS M, et al. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits[J]. Plos Genetics,2010,6(8):e1001058.
[4]CAPONE R, JANG H, KOTLER S A, et al. Probing structural features of Alzheimer's amyloid-beta pores in bilayers using site-specific amino acid substitutions[J]. Biochemistry, 2012, 51(3): 776-785.
[5]ZHANG B, KIROV S, SNODDY J. WebGestalt:an integrated system for exploring gene sets in various biological contexts[J].Nucleic Acids Research,2005,33(Web Server issue):W741-748.
[6]YOONA H, FLORES L F, KIM J. MicroRNAs in brain cholesterol metabolism and their implications for Alzheimer's disease[J]. Biochimica et Biophysica Acta (BBA)-Molecular and Cell Biology of Lipids, 2016, doi:10.1016/j.bbalip.2016.04.020.
[7]LIU G, JIANG Y, WANG P, et al. Cell adhesion molecules contribute to Alzheimer's disease: multiple pathway analyses of two genome-wide association studies[J].Journal of Neurochemistry, 2012, 120(1):190-198.
[8]LIU G, JIANG Y, CHEN X, et al. Measles contributes to rheumatoid arthritis: evidence from pathway and network analyses of genome-wide association studies[J].PLoS One,2013,8(10):e75951.
[9]JOZWIAK K, ZEKANOWSKI C, FILIPEK S. Linear patterns of Alzheimer's disease mutations along alpha-helices of presenilins as a tool for PS-1 model construction[J].Journal of Neurochemistry,2006,98(5):1560-1572.
[10]SIVAPRAKASAM K. Towards a unifying hypothesis of Alzheimer's disease: cholinergic system linked to plaques, tangles and neuroinflammation[J].Current Medicinal Chemistry,2006,13(18):2179-2188.
Identifying risk pathways of Alzheimer’s disease based on the data of genome-wide association studies
ZHOU Xiaoyu
(QuanzhouNo.2MiddleSchool,Guilin540000,China)
Abstract:Alzheimer’s disease (AD), which is also called senile dementia, is a kind of complex central nervous system degenerative diseases. In this paper, we selected a genome-wide association study dataset of AD, and conducted a gene-based test using ProxyGeneLD and a pathway analysis using WebGestalt. We identified 320 significant AD genes (P<0.05), 8 significant KEGG pathways and 41 significant GO pathways (P<0.05).These results are helpful to elucidate the potential pathogenies of Alzheimer’s disease.
Keywords:Genome-wide association studies; Genetic pathways; Alzheimer’s disease
收稿日期:2016-03-31;修回日期:2016-05-25.
*通信作者:周小禹,男,中學(xué)教師,研究方向:生物技術(shù)及數(shù)據(jù)分析;E-mail:171393516@qq.com.
doi:10.3969/j.issn.1672-5565.2016.02.10
中圖分類號(hào):R541
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1672-5565(2016)02-123-04