張德楠 王亞東
摘 要:本文針對目前生物信息研究中常見的高通量測序技術Chip-seq數(shù)據(jù)的正規(guī)化問題進行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結構對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法更符合基因組生物學特征,可以根據(jù)基因組本身不同的生物學功能的差異,分區(qū)域分類別進行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學特征,也具有更高的可靠性。同時可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性的對該區(qū)域進行正規(guī)化,具有更高的特異性和靈活性以及更低的時間和空間復雜度。
關鍵字:高通量測序技術Chip-seq;數(shù)據(jù)的正規(guī)化;基因組功能注釋;LOWESS正規(guī)化方法
中圖分類號:TP391.2 文獻標識碼:A 文章編號:2095-2163(2014)05-
Abstract:This paper studies the normalization methods of high-throughput sequencing technology Chip-seq data in current bioinformatics research. Current normalization methods commonly based TMR or LOWESS did not take into account the impact of structural genomics for the distribution of biological data. Due to this analysis, the paper proposes a new LOWESS normalization method based on features of genome annotation. This approach considering the biological characteristics of the genome data can process sub-regional normalization according to the different biological functions of genome itself and has higher reliability. At the same time, the proposed new method could normalize corresponding regions according to the different functional annotation for different research purposes with higher specificity and flexibility, as well as lower time and space complexity.
Key words: High-throughput Sequencing Technology Chip-seq; Normalization of Data, LOWESS Normalization; Functional Annotation of Genomes
0引 言
充足準確的生物數(shù)據(jù)是進行生物信息研究的基礎與關鍵。之前對于轉(zhuǎn)錄層面相關的研究所涉及到的數(shù)據(jù)如基因表達量、轉(zhuǎn)錄因子結合情況等都來自于低通量的生物學實驗[1-2]。原有的產(chǎn)生高通量數(shù)據(jù)的實驗方法均是基于Chip-chip芯片測試并展開的,除了信號噪聲較大外,這種芯片數(shù)據(jù)最大的問題則在于數(shù)據(jù)本身無法覆蓋全基因組[3-5]。隨著新一代測序技術的發(fā)展普及,尤其是Chip-seq技術出現(xiàn)之后,即以其高精度、低噪聲、全基因組覆蓋等優(yōu)勢而迅速成為時新的標準實驗手段[6-7]。但基于Chip-seq實驗產(chǎn)生的高通量數(shù)據(jù)卻有其自身特點,在使用上不僅區(qū)別于低通量數(shù)據(jù),與較早的高通量測序技術Chip-chip也不盡相同。此外,在實際研究和仿真實驗中又常常需要不同細胞條件下多組實驗的相互對照,以便從中分析、且得到差異。因此,當今在進行生物信息學研究中,標準化的、使不同實驗間數(shù)據(jù)可資比較的新一代高通量測序數(shù)據(jù)正規(guī)化方法研究即已顯得尤為重要且必要。
對于Chip-seq實驗產(chǎn)生的數(shù)據(jù)目前常用的正規(guī)化方式主要包括TMR(total number of mapping reads)正規(guī)化方法[8]和LOWESS正規(guī)化方法[9]。具體來說,TMR正規(guī)化方法是一種通過將各樣本總體reads直接從數(shù)量上擴大或縮小的手段來對不同生物條件下樣本進行正規(guī)化的方法,只是這種直接比例擴增的正規(guī)化方法根本沒有考慮到樣本內(nèi)部reads的分布情況,為此常常造成較大的誤差。而LOWESS正規(guī)化方法則是曾經(jīng)廣泛用于Chip-chip數(shù)據(jù)正規(guī)化的方法,后被引入到對Chip-seq數(shù)據(jù)進行正規(guī)化處理。其實現(xiàn)過程是,LOWESS正規(guī)化方法是通過將實驗中對照組之間數(shù)據(jù)值的對數(shù)差異,以及對照組之間數(shù)據(jù)值的對數(shù)平均值進行局部加權平滑回歸而對數(shù)據(jù)完成了正規(guī)化處理。
但無論是TMR正規(guī)化方法還是LOWESS正規(guī)化方法都存在著一個重大缺陷:這些正規(guī)化方法根本沒有考慮到基因組的結構對于其生物功能的影響。通過研究知道不同的DNA序列從功能上可以劃分成基因區(qū)、基因間區(qū)、啟動子區(qū)、3'和5'非翻譯區(qū)等區(qū)域,這些區(qū)域有著截然不同的生物學功能,而且在不同的細胞環(huán)境下其生物數(shù)據(jù)也分別有著不同的分布特征。上述正規(guī)化方式進行的籠統(tǒng)而機械的正規(guī)化處理無疑破壞了這種生物學特征,還可能人為引進不必要的誤差。
為了克服現(xiàn)有新一代高通量測序技術正規(guī)化方法的這種不足,研究根據(jù)基因組序列的生物功能注釋提出了一種新的、基于序列上下文環(huán)境的正規(guī)化方法,這一新的正規(guī)化方法不僅能夠保留樣本數(shù)據(jù)中隱含的基因組結構信息,還避免了粗暴劃分正規(guī)化區(qū)間造成的人為干擾,為進一步數(shù)據(jù)分析提供分布良好、細節(jié)豐富的數(shù)據(jù)樣本。
1基于基因組功能注釋信息的LOWESS正規(guī)化方法
基于上述工程實踐的研討分析,本文根據(jù)基因組序列的生物功能提出了一種新的基于序列功能注釋的正規(guī)化方法。該方法通過利用來自UCSC的基因組注釋信息對基因組進行功能分組,再依次利用局部加權平滑LOWESS方法進行正規(guī)化。這種基于序列上下文環(huán)境的正規(guī)化方法具體過程可做如下展開:
首先,注意對照組之間總的reads數(shù)量上的相互差異,如果差異較大則需要進行一次總體上的數(shù)量調(diào)整,使其在總體上可以進行比較;
利用基因組注釋信息,根據(jù)基因的功能區(qū)分將全基因組劃割為一個個生物學功能相關的小區(qū)域bin,并分別得到每一個區(qū)域上reads數(shù)量的原始初值。特別需要指出的是,本文的方法還可以根據(jù)設定的不同研究目、針對不同區(qū)域進行正規(guī)化,同時不同區(qū)域分割的bin也可以采用不同的尺度,由此而達到精度和計算開銷的平衡。
由圖1可以看到,在未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)MA-plot圖中,其數(shù)據(jù)的分布向下方傾斜(由灰色實線表示);而在經(jīng)過TMR正規(guī)化處理之后Chip-seq數(shù)據(jù)在全基因組上的分布則向上方傾斜(由灰色實線表示)。這兩種分布都與理想情況下的分布曲線(0點處灰色虛線)存在差異,由此說明無論是未經(jīng)處理的原始全基因組Chip-seq數(shù)據(jù)還是經(jīng)過TMR正規(guī)化之后的Chip-seq數(shù)據(jù)都仍然存在不同程度的偏差。
在圖2中,繼而又對全基因組分別采用LOWESS正規(guī)化方式和本文基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結果進行了對比。由此可以發(fā)現(xiàn),從整體上看,兩種正規(guī)化方法在全基因組范圍上的正規(guī)化效果都比較好,體現(xiàn)樣本MA特征的灰色實線比較完美地契合灰色虛線表示的理想狀態(tài)下的MA特征曲線。但若仔細比較圖像上黑色圓點代表的數(shù)據(jù)分布即會發(fā)現(xiàn)本文提出的基于基因組功能注釋LOWESS正規(guī)化方法的正規(guī)化結果中,其數(shù)據(jù)的對稱性要好于普通LOWESS正規(guī)化方法的結果。這也形象展示了本文提出的新正規(guī)化方法的良好性能。
由于本文提出的基于基因組功能注釋LOWESS的正規(guī)化方法具有非常高的靈活性,可以根據(jù)研究者所關注的不同問題,依照不同的基因組功能注釋,對基因組的某些區(qū)域進行正規(guī)化處理而不必針對全基因組進行正規(guī)化。研究進一步根據(jù)UCSC提供的基因組注釋信息簡單地將基因組分成啟動子調(diào)控區(qū)間(每個基因TSS附近-600bp~+400bp)、基因體區(qū)間(每個基因TSS下游400bp~基因結束)和背景區(qū)間(其他基因區(qū)間),在每一個染色體上根據(jù)這些不同的功能分區(qū)對對應區(qū)間上Chip-seq數(shù)據(jù)進行正規(guī)化處理。實驗發(fā)現(xiàn),本文提出的基于基因組功能注釋的LOWESS正規(guī)化方法在三個功能區(qū)間上的正規(guī)化結果都很好,在圖3中,即是以16號染色體為例,對本文提出的新正規(guī)化方法結果進行了真實呈現(xiàn)。
3結束語
本文針對目前生物信息研究中常見的高通量測序技術Chip-seq數(shù)據(jù)的正規(guī)化問題進行了研究。分析了目前常用的TMR正規(guī)化方法和LOWESS正規(guī)化方法中沒有考慮到基因組的結構對于生物數(shù)據(jù)分布的影響這一不足,提出了一種新的基于基因組功能注釋的LOWESS正規(guī)化方法。該方法可以根據(jù)基因組本身不同的生物學功能的差異,分區(qū)域分類別進行數(shù)據(jù)正規(guī)化處理,更符合基因組的生物學特征,也具有更高的可靠性。同時還可以針對不同研究目的,依據(jù)不同的功能區(qū)域注釋信息有針對性地對該區(qū)域進行正規(guī)化,結果展示了更高的特異性、靈活性以及更低的時間和空間復雜度。經(jīng)過與傳統(tǒng)Chip-seq高通量數(shù)據(jù)正規(guī)化方法的比較,尤其是與傳統(tǒng)LOWESS方法的比較,驗證了本文提出的這種新的基于基因組功能注釋的LOWESS正規(guī)化方法具有更為良好的正規(guī)化效果。
參考文獻:
[1] BUSTIN S A. Why the need for qPCR publication guidelines?--The case for MIQE [J]. Methods, 2010, 50(4): 217-226.
[2] BUSTIN S A, BENES V, GARSON J A, et al. The MIQE guidelines: minimum information for publication of quantitative real-time PCR experiments [J]. Clinical chemistry, 2009, 55(4): 611-622.
[3] HO J W, BISHOP E, KARCHENKO P V, et al. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis [J]. BMC genomics, 2011, 12(134).
[4] KAUFMANN K, MUINO J M, OSTERAS M, et al. Chromatin immunoprecipitation (ChIP) of plant transcription factors followed by sequencing (ChIP-SEQ) or hybridization to whole genome arrays (ChIP-CHIP) [J]. Nature protocols, 2010, 5(3): 457-472.
[5] SCHULZ S, HAUSSLER S. Chromatin immunoprecipitation for ChIP-chip and ChIP-seq [J]. Methods in molecular biology, 2014, 1149:591-605.
[6] LANDT S G, MARINOV G K, KUNDAJE A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia [J]. Genome research, 2012, 22(9): 1813-1831.
[7] PARK P J. ChIP-seq: advantages and challenges of a maturing technology [J]. Nature reviews Genetics, 2009, 10(10): 669-680.
[8] ZHONG M, NIU W, LU Z J, et al. Genome-wide identification of binding sites defines distinct functions for Caenorhabditis elegans PHA-4/FOXA in development and environmental response [J]. PLoS genetics, 2010, 6(2): e1000848.
[9] CLEVELAND W S. LOWESS: A program for smoothing scatterplots by robust locally weighted regression [J]. American Statistician, 1981.