李夢琪 黃嵐 翟光超 翟文豪 吳環(huán)
摘 要:DNA甲基化是一種常見的表觀遺傳過程,普遍存在于動植物等各種真核生物中,具有調(diào)控基因表達(dá)等功能,并影響遺傳物質(zhì)的穩(wěn)定性。非甲基化的CpG雙核苷酸在基因組中一般呈現(xiàn)局部聚集模式,被稱為CpG島(CpGIsland,簡稱CGI)。CGI的非正常甲基化常與癌癥、生長異常等現(xiàn)象關(guān)聯(lián)。因此,準(zhǔn)確識別CGI并預(yù)測其甲基化狀態(tài)具有重要意義。綜述了目前主流的CGI計算識別方法,分析其優(yōu)缺點,并討論了CGI識別算法研究的未來方向。
關(guān)鍵詞:CpG島識別;生物信息;表觀遺傳
DOI:10.11907/rjdk.173059
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)006-0005-03
Abstract:DNA methylation is a common epigenetic process that exists ubiquitously in eukaryotes. DNA methylation can regulate gene expression and destabilize genetic materials. While the majority of the CpGdinucleotides is methylated, the unmethylateddinucleotides tends to gather together and form dense groups locally, which are called CpG islands (i.e. CGIs). The abnormal methylation of CGIs were found related to cancer and growth abnormality. Therefore, accurate identification of CGIs and prediction of their methylation status bears great biological importance. This article reviewed the mainstream computational CGI detection algorithms, analyzed their strengths and limitations, and discussed future research directions of CGI detection algorithms.
Key Words:CpG island detection; bioinformatics; Epigenetics
0 引言
DNA甲基化是一種重要的表觀遺傳過程,且廣泛存在于動物、植物等各種真核生物中。在DNA甲基化轉(zhuǎn)移酶(DNA Methyltransferase,DNMT)的作用下,甲基基團(tuán)合成到5′-CpG-3′中胞嘧啶的第5位碳原子上,形成DNA甲基化。近年來,隨著全基因組甲基化測序技術(shù)的發(fā)展和普及,DNA甲基化的生物意義逐步揭示出來。研究表明,DNA甲基化現(xiàn)象廣泛存在于基因組各元件中,包括啟動子、基因本體、增強(qiáng)子、沉默子和轉(zhuǎn)座子,可影響遺傳物質(zhì)穩(wěn)定、基因表達(dá)、染色體活性、轉(zhuǎn)座子沉默、組蛋白修飾等生物過程。
在人類基因組中,70%~80%的CpG雙核苷酸都處于甲基化狀態(tài),且散布于基因組的各個位置。相反,非甲基化CpG則呈現(xiàn)出局部聚集的模式,稱為CpG島(CpGIsland,以下簡稱CGI)[1]。在正常生物過程中,CGI是不易被甲基化的,而其非正常的甲基化狀態(tài)往往影響基因表達(dá)[1],進(jìn)而與癌癥[2]、植物生長異常[3]等表觀遺傳學(xué)現(xiàn)象相關(guān)聯(lián)。因此,識別基因組中的CGI并預(yù)測其甲基化狀態(tài)有著重要的生物學(xué)意義。此外,由于CGI與啟動子區(qū)域的強(qiáng)關(guān)聯(lián),CGI也被認(rèn)為是能有效預(yù)測啟動子元件的基因組標(biāo)記[4]。
目前,用于識別CGI的方法主要分為實驗檢測法和計算識別法兩類。實驗檢測法主要包括亞硫酸氫鈉法(Sodium Bisulfite,BS-seq)和免疫沉淀反應(yīng)法(MeDIP-seq)[5]。這些方法利用不同的實驗手段將甲基化和非甲基化的胞嘧啶分離,再對分離后的DNA序列進(jìn)行高通量測序或芯片檢測。其優(yōu)點是準(zhǔn)確率高且無歧義,缺點是代價大。近年來,多種CGI計算識別法被陸續(xù)提出,這些方法通過建立CGI的計算模型進(jìn)而對給定DNA序列中的CGI進(jìn)行識別。CGI甲基化模式分析已成為生物信息分析中的重要組成部分。本文綜述目前主流的CGI計算識別方法,重點從計算模型、適用物種兩方面進(jìn)行分析和比較。
1 CGI計算識別方法分類
雖然CGI有著重要的生物學(xué)意義,然而目前仍缺乏嚴(yán)格定義。Gardiner-Garden和Frommer[6]在1989年首次以脊椎動物的測序數(shù)據(jù)為基礎(chǔ)開展了CGI的大規(guī)模計算分析,并提出CGI的3個量化條件:長度大于200bp、GC含量高于50%、觀測CpG與期望CpG的比率(Obs-CpG/Exp-CpG)不低于0.6(本文稱之為GGF定義)。這些條件對后續(xù)CpG島識別算法的研究產(chǎn)生了深遠(yuǎn)影響。實際上,目前主流CGI檢測算法大都融合了這3個因素中的1個或多個部分。
根據(jù)這些因素的組合方式,CGI檢測算法可分為兩類:基于規(guī)則的方法和基于統(tǒng)計特征的方法?;谝?guī)則的方法利用人為設(shè)定的閾值過濾并發(fā)現(xiàn)CGI區(qū)域,具有知識表示清晰且易于理解的優(yōu)點。不足之處是比較依賴于專家知識,泛化能力有限。比如,基于單一閾值的識別算法很難區(qū)分CGI和人類基因組中的Alus元件,因為Alus元件一般長度為280bp,其GC含量和Obs-CpG/Exp-CpG比率也較高,符合CGI的量化條件[6];基于統(tǒng)計特征的CGI識別方法大多應(yīng)用機(jī)器學(xué)習(xí)技術(shù)挖掘CGI片段區(qū)別于其它DNA序列片段的特征,進(jìn)而構(gòu)建CGI識別模型,再應(yīng)用模型對新序列中的CGI片段進(jìn)行預(yù)測和識別。該方法的特點是泛化能力較強(qiáng)。根據(jù)所采用的機(jī)器學(xué)習(xí)模型類型,CGI識別方法可進(jìn)一步分為基于監(jiān)督式學(xué)習(xí)和基于非監(jiān)督式學(xué)習(xí)兩類,下面依次進(jìn)行分析。
2 典型的基于規(guī)則的CGI識別方法
基于規(guī)則的CGI識別方法也稱為滑窗(Sliding Window)方法,即根據(jù)預(yù)先設(shè)定的閾值對DNA序列進(jìn)行滑窗式掃描和過濾,符合閾值的DNA片段即被認(rèn)為是CGI。此類算法的代表有GGF[6]、CpGIS[7-8]、CpGProD[9]等。其中,Takai和Jones[7]在分析人類第21和22號染色體后,在Gardiner-Garden和Frommer方法基礎(chǔ)上提出更嚴(yán)格的標(biāo)準(zhǔn):%GC≥55%,長度≥500bp并且Obs-CpG/Exp-CpG≥0.65。實驗結(jié)果表明,新閾值能有效過濾絕大多數(shù)Alus和未知序列,而基因5'端CGI的數(shù)量僅略有減少。
CpGProD仍采用基于閾值的滑窗方法,其特點是側(cè)重于識別哺乳動物基因組中與啟動子區(qū)域和轉(zhuǎn)錄起始位點(TSS)關(guān)聯(lián)的CGI。
滑窗方法的優(yōu)點是規(guī)則直觀、易于理解,不足之處是識別精度容易受閾值和滑窗大小影響,且對專家知識的依賴程度較高。因此,隨著測序技術(shù)發(fā)展和測序成本的降低,甲基化DNA序列數(shù)據(jù)日益增多,使基于統(tǒng)計分析和統(tǒng)計特征的預(yù)測方法逐漸成為CGI識別算法的主流。
3 典型的非監(jiān)督式CGI識別方法
非監(jiān)督式識別方法是指以非監(jiān)督式(Unsupervsied)機(jī)器學(xué)習(xí)模型為基礎(chǔ)構(gòu)建的CGI識別算法。該方法通常包含兩個步驟:①采用聚類算法將相鄰CpG位點聚集形成CpG聚簇(即CpGClusters);②依據(jù)GC含量、統(tǒng)計顯著性、分布差異等條件篩選CpG聚簇,符合條件的聚簇即被認(rèn)為是CpG島。
CpGCluster算法[10]是典型的無監(jiān)督式CGI識別算法?;贑GI中的CpG分布比在非CGI中分布更加緊湊的假設(shè),CpGCluster首先使用聚類算法將相鄰CpG位點聚集形成CpG簇(CpGClusters),再根據(jù)統(tǒng)計顯著性從中篩選出CGI。其聚類過程類似于基于密度的聚類:從5端到3端掃描基因組,若兩個連續(xù)CpG位點間距離小于閾值,則要么將其合并形成一個新的CpG聚簇,要么將其合并加入一個已有的CpG聚簇中。
CpGCluster算法有兩個主要參數(shù):相鄰CpG位點聚集形成CpG聚簇的最短距離,以及CpG聚簇的統(tǒng)計顯著值,只有超過該閾值的CpG聚簇才被認(rèn)定是CpG島。由于不再限定CGI的最短長度,CpGCluster往往能發(fā)現(xiàn)非常短的CGI。因此,CpG聚簇的最短距離閾值參數(shù)起著決定性作用。在人類基因組上的實驗表明,可以選擇基因組中所有相鄰CpG間距離的中位值作為閾值,這也是該算法推薦的缺省設(shè)置。
ClusterPSO[11]將CpGCluster算法與Gardiner-Garden和Frommer(GGF)定義相結(jié)合。首先應(yīng)用CpGCluster算法生成CpG聚簇,再對每個CpG聚簇向上游和下游分別擴(kuò)展200bp,形成符合GGF定義的候選CGI。同時,將GGF定義轉(zhuǎn)換為粒子群優(yōu)化(PSO)算法的目標(biāo)函數(shù),通過搜索找到能使目標(biāo)函數(shù)值最大化的CGI區(qū)域劃分。
此外,Kakumani等[12]基于CGI中核苷酸C后連接核苷酸G的概率往往大于其在非CGI中的概率,設(shè)計了基于最大化信噪比的CGI識別算法;GaussianCpG[13]在基于距離聚類形成CpG聚簇后,采用高斯模型和GC含量兩個參數(shù)篩選CpG聚簇中的CpG島。CpG_MI[14]則通過計算相鄰CpG距離的互信息發(fā)現(xiàn)CGI。
由此可見,基于非監(jiān)督式學(xué)習(xí)模型的CGI識別方法有兩個關(guān)鍵因素:一是CpG位點間的距離計算方法,其決定了CpG聚簇形態(tài);二是CpG聚簇篩選條件,其決定了CGI的最終構(gòu)成。在基于規(guī)則的識別方法基礎(chǔ)上,此類方法能融入更多描述CGI區(qū)域的統(tǒng)計特征,表達(dá)力更強(qiáng),也更加靈活。
4 典型的監(jiān)督式CGI識別方法
監(jiān)督式CGI識別方法是指利用監(jiān)督式(Supervised)機(jī)器學(xué)習(xí)算法構(gòu)建CGI識別模型。與非監(jiān)督式學(xué)習(xí)相比,監(jiān)督式學(xué)習(xí)需要有標(biāo)注數(shù)據(jù),即已知是CGI和不是CGI的DNA片段。學(xué)習(xí)算法根據(jù)標(biāo)注數(shù)據(jù)建立識別模型,確定模型參數(shù)。在CGI識別問題上,目前主要采用的監(jiān)督式學(xué)習(xí)算法有兩種:分類和序列預(yù)測。
CGI分類是指將DNA序列片段分為CGI和非CGI兩類。比如,Bock等[15]以人類21號和22號染色體中的CGI為訓(xùn)練數(shù)據(jù),應(yīng)用支持向量機(jī)模型(SVM)構(gòu)建了CGI分類器,同時對眾多CGI關(guān)聯(lián)特征進(jìn)行評估,涵蓋DNA序列模式、重復(fù)性分布模式、DNA螺旋結(jié)構(gòu)、轉(zhuǎn)錄因子結(jié)合點信息等6個方面,進(jìn)而使用這些屬性預(yù)測全基因組中CGI的表觀遺傳狀態(tài)。利用監(jiān)督式學(xué)習(xí)模型的優(yōu)勢之一是能夠進(jìn)行特征評估和選擇,比如與典型表觀遺傳功能和遺傳狀態(tài)相結(jié)合,往往比單純基于序列的預(yù)測模型更能揭示CGI的表觀遺傳學(xué)意義和基因表達(dá)調(diào)控機(jī)制。
近年來,隨著計算性能的提升和大數(shù)據(jù)的發(fā)展,深層神經(jīng)網(wǎng)絡(luò)模型被廣泛用于各類機(jī)器學(xué)習(xí)任務(wù)。在CGI識別問題上,Wang等[16]將染色體間交互作為特征之一,以堆疊去噪自編碼器為基礎(chǔ),設(shè)計了針對人類基因組CpG位點甲基化狀態(tài)的預(yù)測算法,并重點驗證了算法在非編碼長RNA(lncRNA)中CpG位點甲基化狀態(tài)預(yù)測的有效性。該算法從甲基化測序數(shù)據(jù)中生成訓(xùn)練數(shù)據(jù)集,采用留一交叉驗證法訓(xùn)練并驗證算法有效性。
基于序列學(xué)習(xí)的監(jiān)督式CGI識別方法主要運用隱馬爾可夫(HMM)、條件隨機(jī)場(CRF)等序列學(xué)習(xí)算法,對DNA序列進(jìn)行預(yù)測。Wu[17-18]、Spontaneo[19]先后提出基于隱馬爾可夫模型的CGI識別算法;Wu等以無脊椎動物基因組為基礎(chǔ)進(jìn)行測試,發(fā)現(xiàn)基于規(guī)則的方法并不適用于無脊椎動物基因組;Spontaneo等仍以人類基因組為基礎(chǔ)進(jìn)行測試,并通過提供圖形界面,簡化了人工查驗CGI的過程;劉維和陳崚[20]提出一種基于CRF的CGI識別算法。
與非監(jiān)督式學(xué)習(xí)模型相比,監(jiān)督式學(xué)習(xí)方法往往能更好地針對特定物種或組織,發(fā)現(xiàn)代表性更強(qiáng)的CGI特征,從而更好地揭示甲基化模式及其表觀遺傳學(xué)意義。此外,監(jiān)督式學(xué)習(xí)模型的擴(kuò)展性更好,比如可通過使用不同訓(xùn)練數(shù)據(jù)集將同一模型擴(kuò)展到不同物種的DNA序列。
5 結(jié)語
DNA甲基化是一種廣泛存在于各類真核生物中的重要的表觀遺傳過程。CpG島的準(zhǔn)確識別及其甲基化狀態(tài)預(yù)測有助于準(zhǔn)確定位啟動子、識別基因,揭示甲基化與癌癥、生長異常等表觀遺傳現(xiàn)象的關(guān)聯(lián)機(jī)制,有著重要的生物學(xué)意義。本文綜述了目前主流的CpG島計算識別方法,對其機(jī)制、適用物種進(jìn)行了分析和比較。分析發(fā)現(xiàn)目前CpG島的研究對象仍主要集中于脊椎動物,適用于其它物種的CpG島識別算法還有待研究。在3類方法中,監(jiān)督式CGI識別方法能更好地揭示CGI的表觀遺傳學(xué)意義,而隨著測序技術(shù)的普及應(yīng)用,產(chǎn)生了大量甲基化測序數(shù)據(jù),為監(jiān)督式CGI識別模型提供了數(shù)據(jù)基礎(chǔ),因此也可能是未來CGI研究的主要方向。
參考文獻(xiàn):
[1] DEATON A M, BIRD A.CpG islands and the regulation of transcription[J]. Genes & Development,25(10):1010-1022.
[2] ISSA, J-P.CpG island methylator phenotype in cancer[J].Nature Reviews Cancer,2004,4:988-993.
[3] FINNEGAN E J, PEACOCK W J, DENNIS E S. DNA methylation, a key regulator of plant development and other processes[J]. Current Opinion in Genetics & Development,2000,10(2):217-223.
[4] LARSEN F, GUNDERSEN G, LOPEZ R,et al.CpG islands as gene markers in the human genome[J]. Genomics,1992,13(4):1095-1107.
[5] WEBER M, DAVIES J, WITTIG D, et al. Chromosome-wide and promoter-specific analyses identify sites of differential DNA methylation in normal and transformed human cells[J]. Nature Genetics,2005,37:853-862.
[6] GARDINER-GARDEN M, FROMMER M. CpG islands in vertebrate genomes[J]. Journal of Molecular Biology,1989,196(2):261-282.
[7] TAKAI D, JONES P A. Comprehensive analysis of CpG islands in human chromosomes 21 and 22[J]. PNAS, 2002, 99(6): 3740-3745.
[8] TAKAI D, JONES P. The CpG island searcher: a new WWW resource[J]. Silico Biology,2003,3(3):235-240.
[9] PONGER L, MOUCHIROUD D.CpGProD: identifying CpG islands associated with transcription start sites in large genomic mammalian sequences[J]. Bioinformatics,2002, 18(4):631-633.
[10] HACKENBERG M, PREVITI C, LUQUE-ESCAMILLA P L, et al. CpGcluster: a distance-based algorithm for CpG-island detection[J]. BMC Bioinformatics,2006,7:446.
[11] YANG C H, LIN Y D, CHIANG Y C, et al. A hybrid approach for CpG island detection in the human genome[J].PLoS ONE,2016,11(1):e0144748.
[12] KAKUMANI R, AHMAD O, DEVABHAKTUNI V.Identification of CpG islands in DNA sequences using statistically optimal null filters[J]. EURASIP Journal on Bioinformatics and Systems Biology,2012(1):12.
[13] YU N, GUO X, ZELIKOVSKY A,et al.GaussianCpG: a Gaussian model for detection of CpGisland in human genome sequences[J]. BMC Genomics,2017,18(Suppl 4):392.
[14] SU J, ZHANG Y, LV J,et al.CpG_MI: a novel approach for identifying functional CpG islands in mammalian genomes[J]. Nucleic Acids Research,2010,38(1): e6.
[15] BOCK C, WALTER J, PAULSEN M,et al.CpGisland mapping by epigenome prediction[J]. PLoS Computational Biology,2007,3(6): e110.
[16] WANG Y, LIU T, SHI H, et al.Predicting DNA methylation state of CpGdinucleotide using genome topological features and deep networks [J]. Scientific Reports,2016,6:19598.
[17] IRIZARRY R A, WU H, FEINBERG A P. A species-generalized probabilistic model-based definition of CpG islands[J]. Mammalian Genome: Official Journal of the International Mammalian Genome Society,2009,20(9-10):674-680.
[18] WU H, CAFFO B, JAFFEE H A,et al.Redefining CpG islands using hidden Markov models[J]. Biostatistics (Oxford, England),2010,11(3):499-514.
[19] SPONTANEO L, CERCONE N.Correlating CpG islands, motifs, and sequence variants in human chromosome 21[J]. BMC Genomics,2011,12(Suppl 2):S10.
[20] 劉維,陳崚.一種新的CpG島的位置識別算法 [J].小型微型計算機(jī)系統(tǒng),2012(7):1557-1563.
(責(zé)任編輯:黃 ?。?/p>