章天驕 王亞東
摘要:對于多細(xì)胞真核生物來說,細(xì)胞的特異性功能是十分重要的。這就要求在相同遺傳物質(zhì)的基礎(chǔ)上,細(xì)胞能夠通過不同的基因表達(dá)模式來適應(yīng)環(huán)境的變化?;虮磉_(dá)調(diào)控的因素有很多,近年來隨著對基因組非編碼區(qū)的研究,發(fā)現(xiàn)了一些非編碼的DNA序列對于基因表達(dá)調(diào)控具有重要意義。增強(qiáng)子是對基因表達(dá)調(diào)控具有重要作用的非編碼序列元件之一。一些增強(qiáng)子能夠通過轉(zhuǎn)錄產(chǎn)生具有調(diào)控功能的RNA,也被稱為增強(qiáng)子RNA(enhancer RNA,eRNA)。因此對于增強(qiáng)子的序列特征、作用位點(diǎn)以及在特定時間和特定組織中表達(dá)模式的研究成為了基因表達(dá)調(diào)控領(lǐng)域的一個重要問題。
關(guān)鍵詞: 增強(qiáng)子; eRNA; 基因表達(dá)調(diào)控
【Abstract】 Specific function of cells is very important for multicellular eukaryotes. Despite the same genetic material, cells can adapt to environment changes through different gene expression patterns. There are many factors in gene expression regulation. In recent years, with the study of genomic non-coding region, it has been found that some non-coding DNA sequences are important for gene expression regulation. Enhancers are one of the non-coding sequence components that play an important role in gene expression regulation. Some enhancers can be transcribed into RNA with regulatory function, also known as enhancer RNA (eRNA). Therefore, the study on enhancer sequence features, target genes, and expression patterns in specific time and specific tissues has become an important issue in the field of gene expression regulation.
【Key words】 ?enhancer; eRNA; gene expression regulation
0引言
增強(qiáng)子是DNA序列上增強(qiáng)基因表達(dá)的順式調(diào)控元件,通常位于轉(zhuǎn)錄起始位點(diǎn)較遠(yuǎn)的位置。與啟動子不同,增強(qiáng)子對基因表達(dá)的調(diào)控作用具有高度明顯的組織特異性。增強(qiáng)子對基因表達(dá)的調(diào)控不是“開關(guān)”模式,而是一種可變調(diào)控,即影響基因表達(dá)量的高低,而不是直接關(guān)閉或開啟表達(dá)的調(diào)控方式[1]。
增強(qiáng)子最初于1981年由Banerji和Moreau等人在猿猴空泡病毒40(SV40)的基因組中被發(fā)現(xiàn)[2]。1983年在小鼠免疫重鏈基因中發(fā)現(xiàn)了第一個非病毒的增強(qiáng)子[3]。哺乳動物中增強(qiáng)子的數(shù)目為50 000到100 000個。大部分增強(qiáng)子位于內(nèi)含子區(qū)和基因間區(qū),少部分位于外顯子區(qū)[4]。在相近的基因組區(qū)域內(nèi)多個增強(qiáng)子聚集成簇的現(xiàn)象被稱為超級增強(qiáng)子或增強(qiáng)子簇。研究發(fā)現(xiàn)其橫跨很大的基因組區(qū)同時富集了大量的轉(zhuǎn)錄因子及轉(zhuǎn)錄中介復(fù)合物[5]。超級增強(qiáng)子經(jīng)常位于細(xì)胞特異性功能基因的附近,并且富含細(xì)胞特異性轉(zhuǎn)錄因子結(jié)合序列模體。雖然超級增強(qiáng)子被廣泛應(yīng)用于多個研究中,但是卻沒有一個清晰的定義[6]。
[BT4]1增強(qiáng)子概述
增強(qiáng)子通過與其目標(biāo)基因啟動子相互作用實(shí)現(xiàn)對基因的表達(dá)調(diào)控。這種相互作用,可能是順式(in cis)作用,也可能是反式(in trans)作用。順式作用是指增強(qiáng)子及其作用位點(diǎn)基因在同一條染色體上,反式作用則指增強(qiáng)子及其作用位點(diǎn)基因在不同的染色體上[7]。目前對增強(qiáng)子調(diào)控基因表達(dá)有2種模型,如圖1所示[8]。第一種是軌道調(diào)控模型,即RNA聚合酶II及其轉(zhuǎn)錄復(fù)合物沿著DNA軌道從增強(qiáng)子到啟動子滑動。雖然這種模型在一些例子中被證實(shí)是存在的[9],但過去二三十年的研究更加支持另一種模型。第二種模型是環(huán)狀調(diào)控模型,增強(qiáng)子通過染色質(zhì)成環(huán)現(xiàn)象與其調(diào)控基因的啟動子區(qū)域相互臨近[10]。圖2顯示了增強(qiáng)子通過染色質(zhì)成環(huán)與啟動子臨近調(diào)控基因表達(dá)的現(xiàn)象[11]。
增強(qiáng)子內(nèi)部包含多種遺傳標(biāo)記位點(diǎn),最常見的是轉(zhuǎn)錄因子結(jié)合位點(diǎn)。轉(zhuǎn)錄因子與轉(zhuǎn)錄復(fù)合物的輔助激活因子p300/CBP通過相互作用富集在增強(qiáng)子區(qū)域內(nèi)。這些與轉(zhuǎn)錄因子結(jié)合的區(qū)域內(nèi)核小體的結(jié)合度顯著下降,導(dǎo)致容易被脫氧核糖核酸酶I(Deoxyribonuclease I,簡稱DNase I)剪切。這些核小體缺失區(qū)域(Nucleosome-depleted Regions,NDRs)兩側(cè)被特殊的組蛋白修飾所標(biāo)記,例如H3K4me1和H3K27ac。H3K4me1與不活躍和活躍的增強(qiáng)子均相關(guān)聯(lián),H3K27ac只與活躍的增強(qiáng)子相關(guān)聯(lián)。圖3顯示了增強(qiáng)子內(nèi)部常見的遺傳標(biāo)記[1]。
第一次發(fā)現(xiàn)增強(qiáng)子的轉(zhuǎn)錄現(xiàn)象是在β-珠蛋白的基因座控制區(qū)(Locus Control Region,LCR),隨著高通量測序技術(shù)的廣泛應(yīng)用,增強(qiáng)子的轉(zhuǎn)錄被發(fā)現(xiàn)是一種普遍現(xiàn)象。2010年,Kim等人[12]對小鼠的中樞神經(jīng)細(xì)胞中剔除rRNA后的其它RNA測序時,發(fā)現(xiàn)了增強(qiáng)子RNA的雙向轉(zhuǎn)錄現(xiàn)象。這種由增強(qiáng)子經(jīng)過轉(zhuǎn)錄過程表達(dá)出的RNA為eRNA。這個發(fā)現(xiàn)使得人們認(rèn)識到增強(qiáng)子區(qū)域不僅富集轉(zhuǎn)錄因子,更是一個轉(zhuǎn)錄激活區(qū)。與之前的研究一致,增強(qiáng)子區(qū)域同樣富集轉(zhuǎn)錄起始復(fù)合物,例如RNA聚合酶II[13]。
eRNA的長度通常較長,因此eRNA經(jīng)常被認(rèn)為是長非編碼RNA(Long Noncoding RNA,lncRNA)的子集。然而,一部分eRNA卻不在lncRNA的數(shù)據(jù)庫中[14]。造成這種現(xiàn)象有2層原因,其一是eRNA通常是通過其轉(zhuǎn)錄區(qū)域具有增強(qiáng)子遺傳標(biāo)記所發(fā)現(xiàn)的[14],而lncRNA則是根據(jù)其長度大于200 bp所定義的[14];其二是eRNA由于其不穩(wěn)定性或者表達(dá)量較低沒能被構(gòu)建lncRNA數(shù)據(jù)庫的方法所識別[14]。由于這種現(xiàn)象導(dǎo)致eRNA和lncRNA存在交集,故而將交集部分定義為lnc-eRNA。
eRNA作為一種新的轉(zhuǎn)錄單元,與其它的轉(zhuǎn)錄單元既有相似性也有不同之處。圖4列出了4種常見的轉(zhuǎn)錄單元[8]。其中,啟動子上游轉(zhuǎn)錄區(qū)(Promoter Upstream Transcripts,PROMPTs)由于與eRNA具有相似的性質(zhì)而被單獨(dú)列出來。這四種常見轉(zhuǎn)錄單元的部分性質(zhì)及特征對比見表1[8]。
2增強(qiáng)子預(yù)測
對于增強(qiáng)子預(yù)測的研究是所有相關(guān)增強(qiáng)子研究的基礎(chǔ)問題。只有在基因組上識別出增強(qiáng)子所在的位置后,才能對增強(qiáng)子的其它性質(zhì)及功能進(jìn)行研究。大量的研究使用了不同的生物數(shù)據(jù)來預(yù)測增強(qiáng)子的位置。這些生物數(shù)據(jù)主要分為5種類別,詳述如下。
(1)使用了序列保守性數(shù)據(jù)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)數(shù)據(jù)進(jìn)行計算學(xué)分析。Woolfe等人[15]、Pennacchio等人[16]和Visel等人[17]對不同物種間非編碼元件進(jìn)行保守性分析來預(yù)測增強(qiáng)子。其中,Pennacchio等人[16]對人類和紅鰭東方鲀的基因組進(jìn)行了序列比對,找到保守的非編碼區(qū)域。然后對這些區(qū)域進(jìn)行模式序列的搜索,找到2個物種共有的具有增強(qiáng)基因表達(dá)程度的模式序列。然后,對于所有未知功能的保守非編碼區(qū)域進(jìn)行打分,對應(yīng)數(shù)學(xué)公式可寫為:
Wasserman等人[18]將轉(zhuǎn)錄因子結(jié)合位點(diǎn)和保守性分析相結(jié)合,對不同物種的非編碼區(qū)域進(jìn)行分析來預(yù)測增強(qiáng)子。這對于已知結(jié)合序列模式信息的轉(zhuǎn)錄因子能夠很好地預(yù)測其結(jié)合的基因組位置,但同時也包含了其它非增強(qiáng)子的與轉(zhuǎn)錄因子結(jié)合的調(diào)控元件序列,因此結(jié)果具有很高的假陽性。
(2)使用了調(diào)控因子的結(jié)合數(shù)據(jù),包括轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù)和轉(zhuǎn)錄輔激活物p300的ChIP-seq數(shù)據(jù)。Chen等人[19]和Zinzen等人[20]使用了轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù)來預(yù)測增強(qiáng)子。Chen等人[19]使用了13種轉(zhuǎn)錄因子(Nanog,Oct4,STAT3,Smad1,Sox2,Zfx,c-Myc,n-Myc,Klf4,Esrrb,Tcfcp2l1,E2f1和CTCF)和2種轉(zhuǎn)錄調(diào)控元件(p300和Suz12)對胚胎干(Embryonic Stem,ES)細(xì)胞的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)進(jìn)行構(gòu)建。這種方法能夠識別那些與已知轉(zhuǎn)錄因子結(jié)合的增強(qiáng)子。但是這種方法需要知道具體的轉(zhuǎn)錄因子來進(jìn)行實(shí)驗(yàn)設(shè)計。同時也不能區(qū)分增強(qiáng)子和啟動子區(qū)域,因?yàn)檫@些區(qū)域都會結(jié)合轉(zhuǎn)錄因子。另一方面也不是所有的增強(qiáng)子都與轉(zhuǎn)錄因子相結(jié)合。
Visel等人[21]和May等人[22]使用了轉(zhuǎn)錄輔激活物p300的ChIP-seq數(shù)據(jù)來預(yù)測增強(qiáng)子。Visel等人[21]對全基因組p300的ChIP-seq數(shù)據(jù)進(jìn)行分析得到了p300的富集位置。然后針對這些p300富集的位置是否具有增強(qiáng)子活性進(jìn)行檢測,發(fā)現(xiàn)約88%的位置具有增強(qiáng)子的活性。并且發(fā)現(xiàn)這些p300富集的位置大多是保守的。這種方法被廣泛地應(yīng)用于增強(qiáng)子位置的預(yù)測,但對于活躍的增強(qiáng)子和不活躍的增強(qiáng)子的區(qū)分效果不好。
(3)是與染色質(zhì)的可及性(Chromatin Accessibility)相關(guān)的數(shù)據(jù)。染色質(zhì)的可及性是指染色質(zhì)纏繞的核小體從致密變?yōu)樗缮ⅲ瑢?dǎo)致轉(zhuǎn)錄調(diào)控元件可以順利結(jié)合到其上面起調(diào)控作用的性質(zhì)。應(yīng)用染色質(zhì)的可及性來識別增強(qiáng)子主要有以下3種技術(shù)。Dorschner等人[23]使用了脫氧核糖核酸酶I超敏感位點(diǎn)測序(DNase I Hypersensitive Sites Sequencing,DNase-seq)數(shù)據(jù)。Giresi等人[24]使用了甲醛輔助分離調(diào)控元件測序(Formaldehyde-assisted Isolation of Regulatory Elements Sequencing,F(xiàn)AIRE-seq)數(shù)據(jù)。Buenrostro等人[25]使用了轉(zhuǎn)座酶可及染色質(zhì)測序(Assay for Transposase-accessible Chromatin Sequencing,ATAC-seq)數(shù)據(jù)。DNase-seq需要使用大量的細(xì)胞用于實(shí)驗(yàn),而ATAC-seq需求的細(xì)胞量則很少,同時實(shí)驗(yàn)周期也相對較短。但是應(yīng)用染色質(zhì)可及性數(shù)據(jù)進(jìn)行預(yù)測同樣也會使結(jié)果存在假陽性,即會有其他轉(zhuǎn)錄調(diào)控單位,例如啟動子、隔離子和沉默子等被包含進(jìn)結(jié)果中。
(4)是組蛋白修飾數(shù)據(jù)。Heintzman等人[26]應(yīng)用了H3K4me1和H3K27ac來預(yù)測增強(qiáng)子的位置,這兩種組蛋白修飾前者是與增強(qiáng)子特定相關(guān),后者則是與激活的調(diào)控區(qū)相關(guān),同時應(yīng)用這兩種組蛋白修飾預(yù)測得到的基因組調(diào)控區(qū)域便是激活的增強(qiáng)子區(qū)域。此外還有多種組蛋白修飾與DNA序列調(diào)控元件的關(guān)聯(lián)關(guān)系:H3K4me3與啟動子相關(guān)聯(lián),H3K4me2與啟動子和增強(qiáng)子都相關(guān),H3K9ac也與激活的調(diào)控區(qū)相關(guān),H3K36me3和H4K20me1與轉(zhuǎn)錄區(qū)相關(guān),H3K27me3與多梳抑制區(qū)域相關(guān)等。這種預(yù)測方法的優(yōu)點(diǎn)是不同物種間組蛋白修飾數(shù)據(jù)來源廣泛,能夠有效地輔助不同需求的研究,缺點(diǎn)是全基因組范圍內(nèi)組蛋白修飾信號十分廣泛,不利于高精度預(yù)測增強(qiáng)子位置。
(5)是基于eRNA數(shù)據(jù)進(jìn)行預(yù)測。上文中已經(jīng)提到,增強(qiáng)子會轉(zhuǎn)錄出eRNA,這部分eRNA通過測序技術(shù)被檢測到再映射回原基因組就能得到增強(qiáng)子的位置信息。Kim等人[12]使用了RNA-seq技術(shù),這種技術(shù)的優(yōu)點(diǎn)是eRNA和其附近的基因表達(dá)水平可以同時被量化,缺點(diǎn)是低表達(dá)水平的eRNA不會被檢測到。Lai等人[27],Melgar等人[28],Mayer等人[29]分別使用了染色質(zhì)關(guān)聯(lián)RNA測序(Chromatin-associated RNA-seq,ChAR-seq)、GRO-seq和NET-seq技術(shù)來檢測eRNA,這三種技術(shù)的優(yōu)勢是都可以檢測不穩(wěn)定的eRNA。Andersson等人[30]使用了CAGE技術(shù)來檢測eRNA。這種技術(shù)的優(yōu)點(diǎn)在于可以高精度地確定eRNA的轉(zhuǎn)錄起始位點(diǎn),缺點(diǎn)是對于檢測表達(dá)量較低的eRNA需要的樣本量較大。同時所有基于eRNA數(shù)據(jù)確定增強(qiáng)子位置的方法都不能用于預(yù)測未表達(dá)的增強(qiáng)子。
綜上,不同的增強(qiáng)子預(yù)測方法在本質(zhì)上是使用了增強(qiáng)子附近不同的生物信號數(shù)據(jù)。圖5比較了不同增強(qiáng)子識別方法的差異[31]。
3增強(qiáng)子作用位點(diǎn)預(yù)測
增強(qiáng)子的作用位點(diǎn)指的是增強(qiáng)子對基因表達(dá)起增強(qiáng)作用。這種作用體現(xiàn)在增強(qiáng)子與基因的啟動子區(qū)域相互作用,從而調(diào)控基因的表達(dá)。通常認(rèn)為增強(qiáng)子與啟動子的相互作用是通過物理上的成環(huán)結(jié)構(gòu)實(shí)現(xiàn)的。這種物理上的近鄰會募集多種轉(zhuǎn)錄因子和轉(zhuǎn)錄輔助因子結(jié)合到增強(qiáng)子和啟動子區(qū)域。而這些轉(zhuǎn)錄因子等則會吸引RNA聚合酶從而引起轉(zhuǎn)錄的發(fā)生。因此要研究一個增強(qiáng)子的生物學(xué)功能,確定其作用位點(diǎn)是至關(guān)重要的。目前對于增強(qiáng)子作用位點(diǎn)的研究主要分為2類方法:基于生物學(xué)實(shí)驗(yàn)的方法和基于計算學(xué)的方法。隨著生物實(shí)驗(yàn)技術(shù)的進(jìn)步,從生物學(xué)實(shí)驗(yàn)的角度來研究增強(qiáng)子的作用位點(diǎn)變得準(zhǔn)確可靠,但實(shí)驗(yàn)成本也隨之增高?;谟嬎銓W(xué)的方法雖然不如實(shí)驗(yàn)方法準(zhǔn)確,但其高通量的特性和較低的實(shí)驗(yàn)成本能夠很好地輔助生物學(xué)實(shí)驗(yàn)的進(jìn)行。
由于基于生物實(shí)驗(yàn)的方法預(yù)測增強(qiáng)子作用位點(diǎn)的成本較高,因此需要計算學(xué)方法的輔助。近年來由于生物信息學(xué)的發(fā)展,一系列基于不同增強(qiáng)子特征的計算學(xué)預(yù)測方法被開發(fā)出來。這些計算學(xué)方法都需要比較不同細(xì)胞類型下增強(qiáng)子附近調(diào)控信號的分布模式來預(yù)測增強(qiáng)子與基因的關(guān)系。
最早被應(yīng)用于預(yù)測增強(qiáng)子與基因調(diào)控關(guān)系的特征就是基因與增強(qiáng)子間的基因組距離。在定位一個增強(qiáng)子位置后,在基因組上距離其最近的基因被認(rèn)為是該增強(qiáng)子的調(diào)控基因。由于增強(qiáng)子本身具有超遠(yuǎn)距離調(diào)控的性質(zhì),這種預(yù)測方法的準(zhǔn)確率通常不高且變化幅度很大,錯誤發(fā)現(xiàn)率(False Discovery Rate,F(xiàn)DR)約為40%~73%。由于增強(qiáng)子是對基因表達(dá)起增強(qiáng)調(diào)控作用,為了提高預(yù)測的準(zhǔn)確性,研究人員將增強(qiáng)子的調(diào)控基因定位為距離其最近的表達(dá)基因。這種方案需要用到基因表達(dá)數(shù)據(jù),其準(zhǔn)確性仍然較低,F(xiàn)DR值約為53%~77%。
Ernst等人[32]考察了人類9種細(xì)胞系中增強(qiáng)子附近的組蛋白修飾數(shù)據(jù)H3K4me1,H3K4me2和H3K27ac。通過對125 kb距離內(nèi)基因的RNA-seq表達(dá)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,尋找具有共同變化模式的“增強(qiáng)子-基因”對,來預(yù)測增強(qiáng)子的作用位點(diǎn)。這種預(yù)測方法使用了增強(qiáng)子的組蛋白修飾數(shù)據(jù)作為特征與基因表達(dá)數(shù)據(jù)關(guān)聯(lián),能夠一定程度提高預(yù)測的準(zhǔn)確度。但由于距離的限制只能預(yù)測增強(qiáng)子附近125 kb范圍內(nèi)的作用位點(diǎn)。
這種預(yù)測方法使用了RNA pol II作為基因啟動子區(qū)域的標(biāo)志,使用H3K4me1作為增強(qiáng)子區(qū)域的標(biāo)志,同時使用H3K27ac作為轉(zhuǎn)錄活躍區(qū)的標(biāo)志,通過關(guān)聯(lián)分析,得到增強(qiáng)子與啟動子共有的組蛋白修飾變化模式,以此說明二者存在關(guān)聯(lián)關(guān)系。使用組蛋白修飾數(shù)據(jù)能夠避免上述依賴表達(dá)量方法只能預(yù)測處于活躍狀態(tài)基因的問題。但是由于組蛋白修飾數(shù)據(jù)本身在基因組中十分廣泛,因此預(yù)測精度也會受到一定限制。
Andersson等人[30]使用了CAGE數(shù)據(jù)來預(yù)測增強(qiáng)子的作用位點(diǎn)。通過CAGE可以測得增強(qiáng)子和基因TSS的表達(dá)量,選取距離在500 kb范圍內(nèi)表達(dá)量在1 TPM以上的增強(qiáng)子和啟動子,計算二者的皮爾森相關(guān)系數(shù)并進(jìn)行假設(shè)檢驗(yàn)。由于上文已經(jīng)闡述了增強(qiáng)子能夠通過轉(zhuǎn)錄產(chǎn)生eRNA對目標(biāo)基因起調(diào)控作用,因此可以用二者表達(dá)量的相關(guān)性來預(yù)測關(guān)聯(lián)關(guān)系。這種基于表達(dá)量的方法預(yù)測增強(qiáng)子作用位點(diǎn)的優(yōu)點(diǎn)是能夠反映活躍增強(qiáng)子與其調(diào)控基因的相關(guān)性,但同時有很多增強(qiáng)子的表達(dá)量較低、甚至沒有表達(dá),這些增強(qiáng)子的作用位點(diǎn)就難以用基于表達(dá)量的方法預(yù)測,同時500 kb的距離也限制了預(yù)測的準(zhǔn)確度。
Corradin等人[36]和Factor等人[37]分別開發(fā)了PreSTIGE和PreSTIGEouse來預(yù)測人類和小鼠中增強(qiáng)子的作用位點(diǎn)。這兩種方法都使用了組蛋白修飾數(shù)據(jù)H3K4me1來標(biāo)識增強(qiáng)子的位置。通過分析與附近基因的表達(dá)量相關(guān)性確定關(guān)聯(lián)關(guān)系。與以往固定距離方法不同,Corradin等人[36]使用了轉(zhuǎn)錄因子CTCF的位置數(shù)據(jù)作為確定增強(qiáng)子與基因間距離的參考。CTCF是與隔離子活性相關(guān)的轉(zhuǎn)錄因子,在基因組中起分割作用。增強(qiáng)子只能在隔離子分割的區(qū)域內(nèi)對基因的表達(dá)起增強(qiáng)作用。與將最近基因作為增強(qiáng)子作用位點(diǎn)的方法相比,使用CTCF數(shù)據(jù)可以有效降低FDR,其值為13%~23%。這種方法能夠一定程度避免由于距離的不確定性導(dǎo)致預(yù)測性能較低的現(xiàn)象。缺點(diǎn)是由于只使用了一種組蛋白修飾數(shù)據(jù)作為增強(qiáng)子的標(biāo)識,導(dǎo)致預(yù)測結(jié)果的準(zhǔn)確性仍有一定的不足。
He等人[38]開發(fā)了IM-PET,應(yīng)用多種遺傳特征的組合來預(yù)測增強(qiáng)子的作用位點(diǎn)。研究中根據(jù)增強(qiáng)子附近不同遺傳特征的類型將所有特征分為4個類別,對此可做闡釋分述如下。
(1)是反映增強(qiáng)子與啟動子表達(dá)活躍度的相關(guān)性特征。首先通過組蛋白修飾數(shù)據(jù)H3K4me1、H3K27ac和H3K4me3估計增強(qiáng)子的表達(dá)活性,然后與啟動子的RNA-seq數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,計算皮爾森相關(guān)系數(shù)作為第一類特征,簡稱EPC。
(2)是反映轉(zhuǎn)錄因子與目標(biāo)啟動子關(guān)聯(lián)關(guān)系的特征。由于第一類特征只能反映在DNA序列層次上的調(diào)控,沒有反映在轉(zhuǎn)錄因子層次上的調(diào)控關(guān)系,因此需要構(gòu)建轉(zhuǎn)錄因子在增強(qiáng)子區(qū)域的結(jié)合度與基因表達(dá)的關(guān)聯(lián)關(guān)系。通過計算二者的皮爾森相關(guān)系數(shù)作為第二類特征,簡稱TPC。
(3)是反映啟動子和增強(qiáng)子的保守性的特征。由于啟動子和增強(qiáng)子作為調(diào)控區(qū)域的保守性在序列層次上可能不強(qiáng),但在同線性的層次上卻有著較高的保守性,因此可以分別計算一定距離內(nèi)啟動子和增強(qiáng)子區(qū)域在多物種中的保守性得分,將得分標(biāo)準(zhǔn)化后的乘積作為第三類特征,簡稱COEV。
(4)是反映啟動子和增強(qiáng)子間距離遠(yuǎn)近的特征。即轉(zhuǎn)錄起始位點(diǎn)到增強(qiáng)子中心的距離作為第四類特征,簡稱DIS。
在完成特征集合的構(gòu)建后,根據(jù)已有的訓(xùn)練樣本集訓(xùn)練隨機(jī)森林分類器。然后將此分類器應(yīng)用到測試樣本集上檢測性能調(diào)整分類器參數(shù)。最后對給定的增強(qiáng)子-啟動子對數(shù)據(jù),應(yīng)用分類器來預(yù)測二者的關(guān)聯(lián)性。圖6顯示了應(yīng)用IM-PET預(yù)測增強(qiáng)子與啟動子關(guān)聯(lián)關(guān)系的流程圖。
IM-PET綜合使用了多種特征來分析和預(yù)測增強(qiáng)子與啟動子間的關(guān)聯(lián)關(guān)系。比起前人單純使用一種或幾種特征能夠從生物學(xué)角度更加全面地描述強(qiáng)子與啟動子間的關(guān)系。同時由于使用了機(jī)器學(xué)習(xí)的方法對分類器進(jìn)行訓(xùn)練,使得FDR大大降低(約1%),并且可分析的基因組距離大大增加(2 Mb),有效提高了預(yù)測精度。但是由于預(yù)測方法中對于特征集合的構(gòu)建使用了較多的特征,并且缺少對這些特征重要程度的描述,使得一些與預(yù)測關(guān)聯(lián)性不強(qiáng)的特征也納入進(jìn)來,預(yù)測結(jié)果也會受到一定影響。
以上從計算學(xué)的角度總結(jié)了預(yù)測增強(qiáng)子作用位點(diǎn)的方法。這些方法大多圍繞著提取增強(qiáng)子與啟動子附近的相關(guān)特征,構(gòu)建特征值間的關(guān)聯(lián)關(guān)系來預(yù)測增強(qiáng)子的作用位點(diǎn)?;谟嬎銓W(xué)的方法能夠高效經(jīng)濟(jì)地識別潛在的增強(qiáng)子與基因的相互作用關(guān)系,但是對于增強(qiáng)子與啟動子的反式作用則顯得乏力。這些應(yīng)用特定細(xì)胞條件下特征一致性變化的預(yù)測方法難以實(shí)現(xiàn)對所有類型細(xì)胞中均表達(dá)的管家基因的預(yù)測。因此,這些計算學(xué)的方法都給出了生物實(shí)驗(yàn)驗(yàn)證增強(qiáng)子與啟動子的關(guān)聯(lián)關(guān)系。
4結(jié)束語
增強(qiáng)子是基因表達(dá)調(diào)控的重要元件之一。對于增強(qiáng)子本身的識別及其作用位點(diǎn)的預(yù)測一直是相關(guān)領(lǐng)域的研究熱點(diǎn)問題。近年來生物數(shù)據(jù)監(jiān)測技術(shù)的不斷進(jìn)步帶來了海量的生物數(shù)據(jù),同時生物信息技術(shù)的發(fā)展為研究增強(qiáng)子的生物學(xué)功能提供了強(qiáng)大的技術(shù)手段。本文總結(jié)了目前生物信息領(lǐng)域?qū)υ鰪?qiáng)子相關(guān)問題的研究熱點(diǎn),著重總結(jié)了增強(qiáng)子及其作用位點(diǎn)預(yù)測的研究方法。
參考文獻(xiàn)
[1] CORRADIN O, SCACHERI P C. Enhancer variants: Evaluating functions in common disease[J]. Genome Medicine, 2014, 6(10): 85.
[2] BANERJI J, RUSCONI S, SCHAFFNER W. Expression of a beta-globin gene is enhanced by remote SV40 DNA sequences[J]. Cell, 1981, 27(2 Pt 1): 299.
[3] BANERJI J, OLSON L, SCHAFFNER W. A lymphocyte-specific cellular enhancer is located downstream of the joining region in immunoglobulin heavy chain genes[J]. Cell, 1983, 33(3): 729.
[4] BIRNBAUM R Y, CLOWNEY E J, AGAMY O, et al. Coding exons function as tissue-specific enhancers of nearby genes[J]. Genome Research, 2012, 22(6): 1059.
[5] HNISZ D, ABRAHAM B J, LEE T I, et al. Super-enhancers in the control of cell identity and disease[J]. Cell, 2013, 155(4): 934.
[6] POTT S, LIEB J D. What are super-enhancers?[J]. Nature Genetics, 2015, 47(1): 8.
[7] SASAKI-IWAOKA H, MARUYAMA K, ENDOH H, et al. A trans-acting enhancer modulates estrogen-mediated transcription of reporter genes in osteoblasts[J]. Journal of Bone and Mineral Research: The Official Journal of the American Society for Bone and Mineral Research, 1999, 14(2): 248.
[8] LI W, NOTANI D, ROSENFELD M G. Enhancers as non-coding RNA transcription units: Recent insights and future perspectives[J]. Nature Reviews. Genetics, 2016, 17(4): 207.
[9] HATZIS P, TALIANIDIS I. Dynamics of enhancer-promoter communication during differentiation-induced gene activation[J]. Molecular Cell, 2002, 10(6): 1467.
[10]WANG Qianben, CARROLL J S, BROWN M. Spatial and temporal recruitment of androgen receptor and its coactivators involves chromosomal looping and polymerase tracking[J]. Molecular Cell, 2005, 19(5): 631.
[11]LAM M T Y, LI Wenbo, ROSENFELD M G, et al. Enhancer RNAs and regulated transcriptional programs[J]. Trends in Biochemical Sciences, 2014, 39(4): 170.
[12]KIM T K, HEMBERG M, GRAY J M, et al. Widespread transcription at neuronal activity-regulated enhancers[J]. Nature, 2010, 465(7295): 182.
[13]KOCH F, FENOUIL R, GUT M, et al. Transcription initiation platforms and GTF recruitment at tissue-specific enhancers and promoters[J]. Nature Structural & Molecular Biology, 2011, 18(8): 956.
[14]DERRIEN T, JOHNSON R, BUSSOTTI G, et al. The GENCODE v7 catalog of human long noncoding RNAs: Analysis of their gene structure, evolution, and expression[J]. Genome Research, 2012, 22(9): 1775.
[15]WOOLFE A, GOODSON M, GOODE D K, et al. Highly conserved non-coding sequences are associated with vertebrate development[J]. PLoS biology, 2005, 3(1): 116.
[16]PENNACCHIO L A, AHITUV N, MOSES A M, et al. In vivo enhancer analysis of human conserved non-coding sequences[J]. Nature, 2006, 444(7118): 499.
[17]VISEL A, PRABHAKAR S, AKIYAMA J A, et al. Ultraconservation identifies a small subset of extremely constrained developmental enhancers[J]. Nature Genetics, 2008, 40(2): 158.
[18]WASSERMAN W W, FICKETT J W. Identification of regulatory regions which confer muscle-specific gene expression[J]. Journal of Molecular Biology, 1998, 278(1): 167.
[19]CHEN Xi, XU Han, YUAN Ping, et al. Integration of external signaling pathways with the core transcriptional network in embryonic stem cells[J]. Cell, 2008, 133(6): 1106.
[20]ZINZEN R P, GIRARDOT C, GAGNEUR J, et al. Combinatorial binding predicts spatio-temporal cis-regulatory activity[J]. Nature, 2009, 462(7269): 65.
[21]VISEL A, BLOW M J, LI Zirong, et al. ChIP-seq accurately predicts tissue-specific activity of enhancers[J]. Nature, 2009, 457(7231): 854.
[22]MAY D, BLOW M J, KAPLAN T, et al. Large-scale discovery of enhancers from human heart tissue[J]. Nature Genetics, 2011, 44(1): 89.
[23]DORSCHNER M O, HAWRYLYCZ M, HUMBERT R, et al. High-throughput localization of functional elements by quantitative chromatin profiling[J]. Nature Methods, 2004, 1(3): 219.
[24]GIRESI P G, KIM J, MCDANIELL R M, et al. FAIRE (Formaldehyde-Assisted Isolation of Regulatory Elements) isolates active regulatory elements from human chromatin[J]. Genome Research, 2007, 17(6): 877.
[25]BUENROSTRO J D, GIRESI P G, ZABA L C, et al. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position[J]. Nature Methods, 2013, 10(12): 1213.
[26]HEINTZMAN N D, STUART R K, HON G, et al. Distinct and predictive chromatin signatures of transcriptional promoters and enhancers in the human genome[J]. Nature Genetics, 2007, 39(3): 311.
[27]LAI F, GARDINI A, ZHANG A, et al. Integrator mediates the biogenesis of enhancer RNAs[J]. Nature, 2015, 525(7569): 399.
[28]MELGAR M F, COLLINS F S, SETHUPATHY P. Discovery of active enhancers through bidirectional expression of short transcripts[J]. Genome Biology, 2011, 12(11): R113.
[29]MAYER A, DI IULIO J, MALERI S, et al. Native elongating transcript sequencing reveals human transcriptional activity at nucleotide resolution[J]. Cell, 2015, 161(3): 541.
[30]ANDERSSON R, GEBHARD C, MIGUEL-ESCALADA I, et al. An atlas of active enhancers across human cell types and tissues[J]. Nature, 2014, 507(7493): 455.
[31]MURAKAWA Y, YOSHIHARA M, KAWAJI H, et al. Enhanced identification of transcriptional enhancers provides mechanistic insights into diseases[J]. Trends in genetics: TIG, 2016, 32(2): 76.
[32]ERNST J, KHERADPOUR P, MIKKELSEN T S, et al. Mapping and analysis of chromatin state dynamics in nine human cell types[J]. Nature, 2011, 473(7345): 43.
[33]THURMAN R E, RYNES E, HUMBERT R, et al. The accessible chromatin landscape of the human genome[J]. Nature, 2012, 489(7414): 75.
[34]SHEFFIELD N C, THURMAN R E, SONG Lingyun, et al. Patterns of regulatory activity across diverse human cell types predict tissue identity, transcription factor binding, and long-range interactions[J]. Genome Research, 2013, 23(5): 777.
[35]SHEN Yin, YUE Feng, MCCLEARY D F, et al. A map of the cis-regulatory sequences in the mouse genome[J]. Nature, 2012, 488(7409): 116.
[36]CORRADIN O, SAIAKHOVA A, AKHTAR-ZAIDI B, et al. Combinatorial effects of multiple enhancer variants in linkage disequilibrium dictate levels of gene expression to confer susceptibility to common traits[J]. Genome Research, 2014, 24(1): 5.
[37]FACTOR D C, CORRADIN O, ZENTNER G E, et al. Epigenomic comparison reveals activation of “seed” enhancers during transition from naive to primed pluripotency[J]. Cell Stem Cell, 2014, 14(6): 854.
[38]HE Bing, CHEN Changya, TENG Li, et al. Global view of enhancer-promoter interactome in human cells[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(21): E2191.