陳作舟張俊芳
(上海海洋大學(xué)水產(chǎn)與生命學(xué)院 上海 201306)
一個(gè)Chip-seq的生物信息分析流程
陳作舟*張俊芳
(上海海洋大學(xué)水產(chǎn)與生命學(xué)院 上海 201306)
本文簡單的介紹了一個(gè)Chip-seq 的生物信息分析流程的設(shè)計(jì)和實(shí)現(xiàn)。
生物信息 Chip-seq 基因組
隨著二代測序技術(shù)的持續(xù)優(yōu)化,測序成本大幅度降低,生命科學(xué)的各個(gè)領(lǐng)域發(fā)展了針對二代測序的各種應(yīng)用,其中有一類就是通過免疫沉淀富集基因組的片段,使研究者得以研究基因組的不同狀態(tài)之間的差異,例如不同組織基因表達(dá)的差異是如何實(shí)現(xiàn)的,癌癥和正常細(xì)胞的基因組狀態(tài)有何差別,細(xì)胞的基因組是如何適應(yīng)環(huán)境溫度變化的。Chip-seq是通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)富集目的蛋白結(jié)合的DNA片段,繼而對富集得到的DNA片段進(jìn)行高通量測序。目前已經(jīng)有很多工具能夠?qū)@類數(shù)據(jù)進(jìn)行分析,各有優(yōu)缺點(diǎn),并沒有形成統(tǒng)一的模式,例如有的僅僅提供在線分析,有的僅僅提供某些核心環(huán)節(jié)的分析,為此,我們建立了一個(gè)Chip-seq的分析流程,該流程整合了若干生物信息工具以及若干R語言包,現(xiàn)簡述如下,以供生命科學(xué)的研究人員參考。
2.1 測序數(shù)據(jù)與基因組比對
假定我們已經(jīng)得到斑馬魚的兩組轉(zhuǎn)錄組因子的Chip-seq測序數(shù)據(jù),A和B,以及它們的未進(jìn)行免疫沉淀測序的對照結(jié)果序列文件(control)inputAB。 A和B可以預(yù)先通過FastQC或FastX等工具來控制數(shù)據(jù)質(zhì)量。然后我們將A和B對斑馬魚的基因組進(jìn)行比對,比對工具有Bowtie/Bowtie2, BWA和STAR等。這里我們用Bowtie2舉例說明:
bowtie2 -p 4 -x dr.genome -U A.fatsq S A.sam
bowtie2 -p 4 -x dr.genome -U B.fatsq S B.sam
bowtie2 -p 4 -x dr.genome -U inputAB.fatsq S inputAB.sam
其中-p 代表使用的CPU核心數(shù)量, -x代表對應(yīng)的基因組, -U代表輸入的fastq序列文件, -S代表輸出的比對結(jié)果,該結(jié)果為SAM格式。SAM格式可通過Samtools和Bedtools等工具轉(zhuǎn)化成Bed格式。
2.2 得到免疫沉淀的峰文件(Peak Calling)
有多個(gè)工具可以執(zhí)行Peak Calling工作,比較常用的有MACS/MACS2、SICER等,在這里我們以MACS舉例說明。
macs14 -t A.bed -c inputAB.bed -f BED -g dr -n A --keep-dup=1
macs14 -t B.bed -c inputAB.bed -f BED -g dr -n A --keep-dup=1
其中-t 代表前一步得到的基因組比對(alignment)文件,-c代表免疫沉淀的control文件,-f BED表示輸入文件的格式為BED,-g代表基因組的類型,這里用的是斑馬魚,-n代表輸出文件名,--keep-dup代表重復(fù)的測序計(jì)算的次數(shù)。
2.3 合成峰(Peak Merging)
Bedtools merge -i AB_peaks >AB_peaks.merged
利用Bedtools軟件包中的merge功能,將A和B的兩組峰合成一組。以合成的峰組作為一個(gè)公共的可比較的對象(Reference)來進(jìn)行后續(xù)分析。
2.4 分析1:覆蓋情況分析及文氏圖
Bedtools coverage -a AB_peaks.merged -b A_peaks.bed>A_coverage
Bedtools coverage -a AB_peaks.merged -b B_peaks.bed>B_coverage
利用Bedtools軟件包中的coverage功能,計(jì)算A和B對Reference的覆蓋情況??梢詫⒌玫降慕Y(jié)果利用R語言自帶的或者第三方的文氏圖相關(guān)軟件包進(jìn)行作圖,例如“VennDiagram”,“Vennerable”等。
該分析適用于以下幾種情形:
(1)兩個(gè)或多個(gè)具有潛在相關(guān)性的DNA結(jié)合蛋白,例如轉(zhuǎn)錄因子,我們需要研究它們的相關(guān)性情況,為相互作用提供證據(jù)(此為Chip-seq分析)。(2)一個(gè)DNA結(jié)合蛋白在細(xì)胞不同狀態(tài)的結(jié)合情況(此為Chip-seq分析)(3)以上兩種情況的結(jié)合(此為Chip-seq分析)(4)以上的DNA結(jié)合蛋白更換為組蛋白修飾(此為Chip-seq分析)
2.5 分析2:差異分析
以上覆蓋情況分析的著重點(diǎn)在于不同庫(library)的峰在的基因組位置上的異同,從而為尋找出基因組的不同狀態(tài)之間的生物學(xué)差異提供線索,而差異分析目的是進(jìn)一步得到不同庫的公共的峰的相對表達(dá)量的差異。先利用第4步得到的合成峰作為參考區(qū)域,然后計(jì)算參考區(qū)域的Reads覆蓋情況,均一化(Normalize)以后進(jìn)行統(tǒng)計(jì)分析,一般如果沒有重復(fù)(Replica)的話,使用Fishers' Exact test或Chi-square test,如果有重復(fù),則使用專用的R語言軟件包如edgeR等。
2.6 分析3:差異分析后的Gene Ontology(GO)富集分析
我們利用GO.db這一R語言模塊檢索GO的上下級關(guān)系。富集檢測利用Fishers' Exact test。
2.7 分析4:通過多Peak的聯(lián)合分析發(fā)現(xiàn)整體上調(diào)或下調(diào)的通路
先將斑馬魚的基因注釋到KEGG通路上,然后利用Wilcoxin Rank test檢測出差異分布的通路。
2.8 分析5:峰的注釋及分析
利用UCSC的斑馬魚基因組對峰進(jìn)行注釋,一般根據(jù)峰和基因組元件(如啟動(dòng)子區(qū)域)的重疊情況進(jìn)行注釋。然后得到峰在不同基因組元件上的分布情況。
2.9 分析6:免疫沉淀峰(Chip-seq)與基因表達(dá)譜(RNA-seq)的聯(lián)合分析
免疫沉淀峰和基因表達(dá)譜的聯(lián)合分析有多種類型,我們主要對不同組織的峰的組合所對應(yīng)的基因表達(dá)情況進(jìn)行分析,例如兩種轉(zhuǎn)錄因子組合所在區(qū)域的基因表達(dá)是否提高。
[1]Park PJ. Chip-seq: advantages and challenges of a maturing technology. Nat Rev Genet.2009(10):669-680.
[2]Anders S, Huber W. Differential expression analysis for sequence count data. Genome Biol. 2010(10):106.
Q753
A
1674-2060(2016)03-0333-01
感謝:本文受上海市青年教師資助計(jì)劃(項(xiàng)目編號:ZZHY13001,陳作舟)、上海市人才發(fā)展資金(項(xiàng)目編號:201457,張俊芳)和上海市上海高校高峰高原學(xué)科建設(shè)計(jì)劃資助。
張俊芳,(1976—),女,山西太原人,博士,教授,基因組學(xué)與表觀遺傳學(xué)。
陳作舟(1979—),男,浙江杭州人,博士,高級工程師,主要從事生物信息分析工作。