国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Chia-Pet技術(shù)與應(yīng)用研究

2020-07-04 02:27許立
智能計算機與應(yīng)用 2020年3期

許立

摘要:特定DNA調(diào)控元件之間的長距離染色質(zhì)接觸在基因表達調(diào)控中起著關(guān)鍵作用,在理解信號網(wǎng)絡(luò)和細胞狀態(tài)時,必須對這些三維(3D)染色質(zhì)結(jié)構(gòu)中的相互作用進行全局表征。利用成對末端標記序列(Chia-Pet)進行染色質(zhì)相互作用分析是一種將功能染色質(zhì)結(jié)構(gòu)轉(zhuǎn)化為數(shù)百萬個短標記序列的方法。自2009年開發(fā)以來,在染色質(zhì)相互作用分析中具有獨特的優(yōu)勢,從而為轉(zhuǎn)錄調(diào)控的研究提供了新的視角。本文介紹了Chia-Pet的實驗方案和數(shù)據(jù)分析過程,分析了幾種常用工具各自的特點和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結(jié)果。

關(guān)鍵詞: 基因表達調(diào)控; 三維染色質(zhì)結(jié)構(gòu); Chia-Pet

【Abstract】 Long-distance chromatin contact between specific DNA regulatory elements plays a key role in gene expression regulation. Global characterization of the interactions in these three-dimensional (3D) chromatin structures is essential in understanding signal networks and cell states. Chromatin interaction analysis using Paired-End-Tag sequencing (Chia-Pet) is a method for transforming functional chromatin structures into millions of short labeling sequences. Since its development in 2009, it has unique advantages in chromatin interaction analysis, which provides a new perspective for the study of transcriptional regulation. This paper introduces the experimental scheme and data analysis process of Chia-Pet, analyses the characteristics and application scope of several commonly used tools, and helps researchers choose appropriate methods to obtain more reliable results.

【Key words】 ?gene expression regulation; three-dimensional chromatin structures; Chia-Pet

0 引 言

轉(zhuǎn)錄調(diào)控是真核生物中一個復(fù)雜而有序的過程,其中染色質(zhì)相互作用起著關(guān)鍵作用,從而調(diào)節(jié)基因表達,并進一步影響其他細胞的活動。許多研究轉(zhuǎn)錄因子(tf)與轉(zhuǎn)錄調(diào)控的結(jié)合的技術(shù)已經(jīng)被開發(fā)出來。例如染色質(zhì)免疫沉淀(chip)微陣列(chip chip)[1]、chip pet[2]和chip seq[3],但卻無法確定遠端tf結(jié)合位點的靶基因。另一個挑戰(zhàn)是確定這種遠端結(jié)合位點是否具有功能性,即通過染色體環(huán)在物理上接近靶基因啟動子,或吸引RNA聚合酶Ⅱ復(fù)合物進行基因轉(zhuǎn)錄。因此,鑒定全基因組遠端染色質(zhì)相互作用,將調(diào)控元件引導(dǎo)至目標基因,可能為轉(zhuǎn)錄調(diào)控的研究提供新的視角。染色體構(gòu)象捕獲(3c)[4]及其衍生物,4c[5-6]和5c[7]可以揭示參與轉(zhuǎn)錄調(diào)控的長程染色質(zhì)相互作用,但這些技術(shù)受到限制,或者是因為其整體性較低,如3c,或者是因其無法在整個基因組中繪制高分辨率的相互作用區(qū)域[8]。染色質(zhì)相互作用分析與配對末端標記測序(Chia-Pet)方法就能夠符合分析高吞吐量和高分辨率基因組水平上染色質(zhì)相互作用這些要求。與HI-C[9]相比,Chia-Pet在與功能研究相關(guān)的蛋白質(zhì)相關(guān)的更高分辨率上更好,確定TF結(jié)合位點和染色質(zhì)相互作用,為以三維(3D)方式研究長程染色質(zhì)相互作用奠定了堅實的基礎(chǔ),并提供了更可靠的方式。目前,Chia-Pet已成功應(yīng)用于人MCF7細胞[10]、人癌細胞[11]、人T細胞[12]、小鼠胚胎干細胞[13]、小鼠神經(jīng)祖細胞[14]和小鼠B細胞[15]以及其他細胞[16]。

為了系統(tǒng)評價Chia-Pet的方法,本文將詳細探討該方法的實驗方案,與此同時,為方便后續(xù)研究分析,很多分析Chia-Pet數(shù)據(jù)的計算方法被提出,本文對這些計算方法進行了較為全面的研究與論述。

1 Chia-Pet實驗方案介紹

對端測序的結(jié)果存儲在2個fastq文件中,可以使用Chia-Pet工具[17]或其他方法[18]進行處理。通常,Chia-Pet數(shù)據(jù)處理有7個步驟(見圖1),分別是:連接子過濾;Pet映射;冗余去除;自連和互連Pet分類;結(jié)合位點分析自連Pet;用互連Pet進行染色質(zhì)相互作用分析;染色質(zhì)相互作用數(shù)據(jù)的可視化。

在第一步中,連接體將與參考半連接體核苷酸序列對齊。除標簽序列外,有2種半連接體,分別命名為A和B,而且具有相同的核苷酸。因此,根據(jù)連接體的組成將PET分為2類:相同的連接體(AA或BB)和不同的連接體(AB或BA)。然后將連接體從原始測序片段中排除,并保留剩余的DNA片段以供進一步分析。在連接體過濾后,使用BWA[19]、Bowtie[20]、Batmis[21]或其他繪圖工具將短DNA序列與參考基因組對齊。使用samtools[22]和bedtols[23]過濾掉冗余和低質(zhì)量的映射序列。自連PET是指從兩端循環(huán)的單個DNA片段的測序片段,并在同一染色體上的短距離內(nèi)映射到基因組。互連PET是指來自不同DNA片段的測序片段,通常2個標簽位于不同染色體中或長距離位于同一染色體中。雖然使用自連PET來確定基因組上的蛋白質(zhì)結(jié)合位點,但是互連PET可以通過聚類來預(yù)測染色質(zhì)相互作用。在此基礎(chǔ)上還須確保2個結(jié)合位點之間的交互集群確實存在或者是偶然發(fā)生的。Li等人[17]使用基于超幾何分布的Fisher精確檢驗來量化相互作用頻率。Paulsen等人[18]提出了一種基于非中心超幾何分布的新統(tǒng)計模型,該模型將基因組距離依賴關(guān)系考慮在內(nèi)進行p值估計。最后,構(gòu)建Chia-Pet瀏覽器來報告數(shù)據(jù)并可視化結(jié)合位點以及交互集群。

通過數(shù)據(jù)處理獲得的相互作用需通過濕實驗室進行驗證。短基因組距離中DNA元件間的相互作用可以通過3C實驗驗證。對于遠距離相互作用中的DNA片段(位于不同染色體或同一染色體中的兩個錨點,距離超過100萬堿基對),可以使用顯微鏡技術(shù),如DNA熒光原位雜交(DNA-FISH)[24]直接觀察相互作用錨的位置和核中的相對空間距離。

2 Chia-Pet數(shù)據(jù)分析方法

2.1 Chia-Pet Tool介紹

正如預(yù)期的那樣,這種方法識別的交互要比CPT少得多。雖然這種方法能夠產(chǎn)生準確的交互,但是軟件只執(zhí)行Chia-Pet數(shù)據(jù)分析、交互評分中的最后一步。因此,用戶必須編寫自己的軟件來查找和刪除鏈接器序列、對齊寵物、刪除重復(fù)項、調(diào)用峰值、將寵物分組到交互中并確定寵物距離的下限。因此,該軟件僅對具有重要編程技能的研究人員有用。已經(jīng)描述了其他軟件包,但這些軟件包或者不公開,或者與CPT和Chiasig有類似的限制。

2.3 Mango介紹

Mango[25]將基因組位點間相互作用的可能性作為距離和峰深的函數(shù)進行建模,并使用該模型為相互作用分配統(tǒng)計置信度。值得注意的是,Mango用一種簡單而健壯的貝葉斯方法取代了計算上昂貴的距離匹配重布線方法。

由于使用方便和準確性的提高,Mango將通過對Chia-Pet數(shù)據(jù)集的分析,大幅提升揭示三維染色質(zhì)結(jié)構(gòu)特征和功能的能力。同時也糾正了非特定的相互作用,可以作為一個基因組接近和峰深的函數(shù)。本次研究證明,與CPT(現(xiàn)有的Chia-Pet分析管道)和Chiasig(為Chia-Pet交互提供統(tǒng)計置信度估計的軟件包)相比,Mango表現(xiàn)出更高的準確性。將Mango應(yīng)用于多個Chia-Pet數(shù)據(jù)集,可以獨立復(fù)制與NAT相關(guān)的發(fā)現(xiàn)。三維染色質(zhì)環(huán)的結(jié)構(gòu),包括對具有內(nèi)向基序的CTCF結(jié)合位點的強富集。

除了提高準確性之外,Mango的可用性也頗受青睞。Mango被設(shè)計成所有的研究人員都可以使用。Mango很容易安裝,只需一個命令就可以完成從fastq到交互的所有步驟。

2.4 MICC介紹

MICC[26],一種易于使用的R包,用于處理Chia-Pet數(shù)據(jù)。MICC旨在以高靈敏度檢測染色質(zhì)相互作用,同時將錯誤發(fā)現(xiàn)率(FDR)控制在合理水平。 MICC的輸入是源自Chia-Pet數(shù)據(jù)的原始PET簇。 MICC的最終輸出包括:將PET簇描述為真實相互作用簇的后驗概率列表和相應(yīng)的FDR。在不同數(shù)據(jù)集的相同F(xiàn)DR上,MICC總能檢測到比Chia-Pet工具和ChiaSig更多的相互作用。此外,MICC檢測到的相互作用在生物學(xué)重復(fù)之間也更加一致。

2.5 各種工具之間的性能比較

Mango僅依賴4個廣泛使用且易于安裝的軟件包。相比之下,CPT需要具體的操作系統(tǒng)配置,主要有復(fù)雜的編程語言和環(huán)境陣列,包括C、Perl、Python、R、 Mysql、Apache Web Server和Php,并附帶7頁的安裝指南。Chiasig可以輕松安裝,但只執(zhí)行分析Chia PET數(shù)據(jù)所需的單個步驟。因此,用戶要編寫自己的代碼來執(zhí)行大多數(shù)處理步驟,包括連接解析、PET映射、冗余去除、峰值調(diào)用和距離過濾,詳見表1。

MICC,從Chia-Pet的數(shù)據(jù)中檢測顯著染色質(zhì)相互作用。與Chia-Pet工具相比,MICC使用較低深度的測序庫恢復(fù)了較高深度測序庫中檢測到的交互作用的顯著比例。同時,還為寵物集群提供了更一致的排序,從而可以提高實驗復(fù)制之間的再現(xiàn)性。通過與5C數(shù)據(jù)的比較,分析后發(fā)現(xiàn)MICC能比Chiasig更有效地檢測相互作用。此外,MICC檢測到的低PET計數(shù)的相互作用與5C數(shù)據(jù)有很大的重疊,這表明MICC尋找弱相互作用是可行的。這些特性使MICC優(yōu)于其他現(xiàn)有的工具,特別是在以較少的排序深度處理ChiaPET數(shù)據(jù)時。

3 Chia-Pet技術(shù)應(yīng)用

3.1 研究DNA片段之間的相互作用

Chip Seq用于分析DNA和蛋白質(zhì)之間的相互作用,而Chia-Pet則從根本上研究DNA片段之間的相互作用。Fullwood等人[27]使用Chia-Pet技術(shù)構(gòu)建了由人乳腺癌細胞系MCF7的雌激素受體α(ER-a)結(jié)合的染色質(zhì)相互作用網(wǎng)絡(luò),發(fā)現(xiàn)長程ER-α結(jié)合位點主要位于啟動子區(qū)域。Handoko等人[28]發(fā)現(xiàn)CTCF介導(dǎo)的小鼠胚胎多能干細胞相互作用。Chia-Pet揭示的5個不同的染色質(zhì)結(jié)構(gòu)域為染色體結(jié)構(gòu)組織提供了新的CTCF功能模型,并將增強子與基因轉(zhuǎn)錄調(diào)控的啟動子連接起來。

在描述人類T細胞中增強子-啟動子相互作用后,Chepelev等人[29]提出增強子以細胞特異性的方式增加其靶基因的表達,相互作用的啟動子是共存的。此外,細胞核中的染色體在多個層次上被組織起來發(fā)揮作用,除CTCF外,還有許多因素可能參與T細胞的這一過程。在未來的研究中,需要對詳細的機制進行探討。

He等人[30]根據(jù)Chip Seq獲得的ER-α結(jié)合峰計算DNA環(huán)化的可能性,繼而預(yù)測ER-α介導(dǎo)的染色質(zhì)相互作用。這是第一個使用Chip Seq預(yù)測染色質(zhì)相互作用的工作,為Chia-Pet提供了補充。

3.2 構(gòu)建染色質(zhì)相互作用網(wǎng)絡(luò)

與許多細胞網(wǎng)絡(luò)一樣,染色質(zhì)交互網(wǎng)絡(luò)[31]具有無標度和模塊化拓撲結(jié)構(gòu),多數(shù)節(jié)點僅參與一個或兩個交互,而一些節(jié)點與不成比例的大量節(jié)點連接。染色質(zhì)相互作用網(wǎng)絡(luò)被組織成“社區(qū)”,社區(qū)內(nèi)的基因以協(xié)調(diào)方式執(zhí)行相關(guān)功能并對外部刺激做出反應(yīng),意味著這些社區(qū)可能在數(shù)百萬年進化過程中被塑造。

在未來的研究中,不僅可以將該方法應(yīng)用于其他特定類型的基因,還可以將相互依賴的網(wǎng)絡(luò)結(jié)合起來,因為細胞活動一起發(fā)生并且相互聯(lián)系。 此外,染色質(zhì)相互作用網(wǎng)絡(luò)可能奠定3D或甚至4D基因組波的基礎(chǔ),從靜態(tài)轉(zhuǎn)變?yōu)閯討B(tài)[31]。

3.3 染色質(zhì)相互作用的功能研究

目前,已有多種方法用于研究Chia-Pet鑒定的染色質(zhì)相互作用的功能,即:熒光素酶報告基因測定[11]、目的蛋白的表達水平敲定實驗[11]、來自轉(zhuǎn)基因?qū)嶒灥脑鰪娮訙y定法鑒定的調(diào)控元件[15]、基因組編輯方法(如鋅指核酸酶基因組編輯,TALENs和CRISPR / Cas9)干擾染色質(zhì)相互作用[16]。

3.4 染色質(zhì)三維結(jié)構(gòu)的重建

染色質(zhì)的精確三維結(jié)構(gòu)提供了更好的生物學(xué)功能景觀。到目前為止,遠距離相互作用的數(shù)據(jù)適合于重建三維基因組結(jié)構(gòu)。2個3c衍生物,即hi-c[10]和Chia-Pet[9],實際上反映了整個基因組的結(jié)構(gòu)。Hi-C技術(shù)可以捕獲所有的交互,但是分辨率很低。Chia-Pet技術(shù)大大提高了分辨率,但只能識別已知蛋白質(zhì)介導(dǎo)的相互作用。因此,Chia-Pet數(shù)據(jù)可用于進行更為密集的建模。

對染色質(zhì)的三維結(jié)構(gòu)進行建模主要有2種方法[32]。一種是物理模型,如用于解釋實驗結(jié)果的珠子串模型;另一種是用于重建結(jié)構(gòu)的非線性優(yōu)化模型。其中,物理模型方法中必須考慮許多物理性質(zhì)。重建結(jié)構(gòu)的非線性優(yōu)化模型的第一步是將染色質(zhì)相互作用頻率轉(zhuǎn)換為空間距離,基于此將空間距離轉(zhuǎn)換為三維結(jié)構(gòu)。由于缺乏直接參數(shù)來評估在全基因組范圍內(nèi)建立的三維結(jié)構(gòu),電子顯微鏡的發(fā)展將在促進染色質(zhì)三維結(jié)構(gòu)的研究中發(fā)揮重要作用。染色質(zhì)相互作用的可視化與功能測定結(jié)合是一種重要的方式,可以讓人們對基因組結(jié)構(gòu)有更直觀的印象,并全面了解基因組的功能。

4 結(jié)束語

本文介紹了Chia-Pet的實驗方案和數(shù)據(jù)分析過程,分析了幾種常用工具的特點和適用范圍,有助于研究中選用合適的方法以獲得更可靠的結(jié)果。現(xiàn)已成功地應(yīng)用于轉(zhuǎn)錄調(diào)控分析的許多研究中,并已鑒定出不同的染色質(zhì)相互作用模型。盡管如此,在Chia-Pet協(xié)議和分析管道方面仍有亟待改進之處,使協(xié)議更加簡潔和易于執(zhí)行,數(shù)據(jù)分析過程更加自動化和可定制。

參考文獻

[1] REN B, ROBERT F, WYRICK J J, et al. Genome-wide location and function of DNA binding proteins[J]. Science, 2000, 290(5500): 2306.

[2]WEI C L, WU Q, VEGA V B, et al. A global map of p53 transcription-factor binding sites in the human genome[J]. Cell, 2006, 124(1): 207.

[3]JOHNSON D S, MORTAZAVI A, MYERS R M, et al. Genome-wide mapping of in vivo protein-DNA interactions[J]. Science, 2007, 316(5830): 1497.

[4]DEKKER J, RIPPE K, DEKKER M, et al. Capturing chromosome conformation[J]. science, 2002, 295(5558): 1306.

[5]ZHAO Z, TAVOOSIDANA G, SJLINDER M, et al. Circular chromosome conformation capture (4C) uncovers extensive networks of epigenetically regulated intra-and interchromosomal interactions[J]. Nature genetics, 2006, 38(11): 1341.

[6]SIMONIS M, KLOUS P, SPLINTER E, et al. Nuclear organization of active and inactive chromatin domains uncovered by chromosome conformation capture-on-chip (4C)[J]. Nature genetics, 2006, 38(11): 1348.

[7]DOSTIE J, RICHMOND T A, ARNAOUT R A, et al. Chromosome conformation capture carbon copy (5C): A massively parallel solution for mapping interactions between genomic elements[J]. Genome research, 2006, 16(10): 1299.

[8]de WIT E, De LAAT W. A decade of 3C technologies: Insights into nuclear organization[J]. Genes & development, 2012, 26(1): 11.

[9]LIEBERMAN-AIDEN E, Van BERKUM N L, WILLIAMS L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. Science, 2009, 326(5950): 289.

[10]LI G, RUAN X, AUERBACH R K, et al. Extensive promoter-centered chromatin interactions provide a topological basis for transcription regulation[J]. Cell, 2012, 148(1-2): 84.

[11]CHEPELEV I, WEI G, WANGSA D, et al. Characterization of genome-wide enhancer-promoter interactions reveals co-expression of interacting genes and modes of higher order chromatin organization[J]. Cell research, 2012, 22(3): 490.

[12]HANDOKO L, XU H, LI G, et al. CTCF-mediated functional chromatin interactome in pluripotent cells[J]. Nature genetics, 2011, 43(7): 630.

[13]DOWEN J M, FAN Z P, HNISZ D, et al. Control of cell identity genes occurs in insulated neighborhoods in mammalian chromosomes[J]. Cell, 2014, 159(2): 374.

[14]KIEFFER-KWON K R, TANG Z, MATHE E, et al. Interactome maps of mouse gene regulatory domains reveal basic principles of transcriptional regulation[J]. Cell, 2013, 155(7): 1507.

[15]PAPANTONIS A, KOHRO T, BABOO S, et al. TNF[WT6BZ]α[WT6BZ]signals through specialized factories where responsive coding and miRNA genes are transcribed[J]. The EMBO Journal, 2012, 31(23): 4404.

[16]DEMARE L E, LENG J, COTNEY J, et al. The genomic landscape of cohesin-associated chromatin interactions[J]. Genome research, 2013, 23(8): 1224.

[17]LI G, FULLWOOD M J, XU H, et al. ChIA-PET tool for comprehensive chromatin interaction analysis with paired-end tag sequencing[J]. Genome biology, 2010, 11(2): R22.

[18]PAULSEN J, RDLAND E A, HOLDEN L, et al. A statistical model of ChIA-PET data for accurate detection of chromatin 3D interactions[J]. Nucleic acids research, 2014, 42(18): e143.

[19]LI H, DURBIN R. Fast and accurate short read alignment with Burrows–Wheeler transform[J]. Bioinformatics, 2009, 25(14): 1754.

[20]LANGMEAD B, TRAPNELL C, POP M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome biology, 2009, 10(3): R25.

[21]TENNAKOON C, PURBOJATI R W, SUNG W K. BatMis: A fast algorithm for k-mismatch mapping[J]. Bioinformatics, 2012, 28(16): 2122.

[22]LI H, HANDSAKER B, WYSOKER A, et al. The sequence alignment/map format and SAMtools[J]. Bioinformatics, 2009, 25(16): 2078.

[23]QUINLAN A R, HALL I M. BEDTools: A flexible suite of utilities for comparing genomic features[J]. Bioinformatics, 2010, 26(6): 841.

[24]LANGER-SAFER P R, LEVINE M, WARD D C. Immunological method for mapping genes on Drosophila polytene chromosomes[J]. Proceedings of the National Academy of Sciences of the United States of America , 1982,79:4381.

[25]PHANSTIEL D H, BOLE A P, HEI DARI N, et al. Mango: A bias-correcting Chia-Pet analysis pipeline[J]. Bioinformatics, 2015, 31(19):3092.

[26]HE C, ZHANG M Q, WANG X. MICC: An R package for identifying chromatin interactions from ChIA-PET data[J]. Bioinformatics, 2015, 31(23): 3832.

[27]FULLWOOD M J, LIU M H, PAN Y F, et al. An oestrogen-receptor-α-bound human chromatin interactome[J]. Nature, 2009, 462(7269): 58.

[28]HANDOKO L, XU H, LI G, et al. CTCF-mediated functional chromatin interactome in pluripotent cells[J]. Nature genetics, 2011, 43(7): 630.

[29]CHEPELEV I, WEI G, WANGSA D, et al. Characterization of genome-wide enhancer-promoter interactions reveals co-expression of interacting genes and modes of higher order chromatin organization[J]. Cell research, 2012, 22(3): 490.

[30]HE C, WANG X, ZHANG M Q. Nucleosome eviction and multiple co-factor binding predict estrogen-receptor-alpha-associated long-range interactions[J]. Nucleic acids research, 2014, 42(11): 6935.

[31]SANDHU K S, LI G, POH H M, et al. Large-scale functional organization of long-range chromatin interaction networks[J]. Cell reports, 2012, 2(5): 1207.

[32]PENG C, LI G L, ZHANG H Y, et al. Reconstruction of three-dimensional structures of chromatin and its biological implications[J]. Scientia Sinica Vitae, 2014, 44(8): 794.