国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

哺乳動物RNA編輯及其檢測方法

2018-11-30 07:05張躍博王立剛趙福平侯欣華高紅梅張龍超王立賢
畜牧獸醫(yī)學(xué)報 2018年11期
關(guān)鍵詞:堿基基因組位點

張躍博,顏 華,王立剛,趙福平,侯欣華,劉 欣,高紅梅,張龍超,王立賢

(中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)

傳統(tǒng)觀念認(rèn)為RNA僅忠實轉(zhuǎn)錄DNA,但隨著試驗技術(shù)的不斷進(jìn)步和研究的持續(xù)深入,一系列復(fù)雜的轉(zhuǎn)錄后加工修飾過程逐漸被證實。生物體通過對這些過程的調(diào)控來維持其體內(nèi)轉(zhuǎn)錄本的穩(wěn)定,并對相應(yīng)的細(xì)胞內(nèi)外刺激做出響應(yīng)[1-2]。目前,已發(fā)現(xiàn)的RNA修飾方式有160多種[3]。

RNA編輯最早發(fā)現(xiàn)于1986年,Benne等[4]在錐體蟲線粒體中發(fā)現(xiàn)細(xì)胞色素基因(CoxⅡ)的成熟mRNA上存在4個非線粒體基因組編碼的堿基U,可抵消3′與5′編碼區(qū)的讀碼框不融合現(xiàn)象,從而恢復(fù)CoxⅡ基因的原有功能,順利翻譯出具有活性的蛋白。起初,科學(xué)家認(rèn)為此現(xiàn)象僅存在于這些稀有的原生動物中,但僅1年后,Powell等[5]和Chen等[6]發(fā)現(xiàn),在哺乳動物載脂蛋白ApoB的轉(zhuǎn)錄產(chǎn)物中存在一個堿基U替換了原來的堿基C的現(xiàn)象?,F(xiàn)在已知RNA編輯廣泛分布于哺乳動物、原生動物、昆蟲、植物、真菌、病毒等生物。mRNA測序計劃表明,RNA編輯位點幾乎存在于所有的轉(zhuǎn)錄本中,并可進(jìn)行動態(tài)調(diào)控[7-8]。對RNA編輯檢測和了解將有利于深入揭示生命過程的分子機理。截止到2018年1月22日,中國知網(wǎng)數(shù)據(jù)庫中有關(guān)RNA編輯的綜述僅33篇,主要介紹了RNA編輯的研究進(jìn)展,涉及檢測方法的內(nèi)容極少。

本文將圍繞RNA編輯的定義、功能以及RNA編輯位點檢測方法等進(jìn)行論述,并著重介紹目前廣泛使用及最新開發(fā)的RNA編輯位點檢測工具。

1 RNA編輯的定義

1986年,Benne等[4]發(fā)現(xiàn),錐體蟲線粒體CoxⅡ基因的mRNA上存在4個堿基插入現(xiàn)象,從而引入了RNA編輯這一概念。如今,RNA編輯被歸納為初級轉(zhuǎn)錄本上堿基的插入、缺失或者替換,是轉(zhuǎn)錄后發(fā)生的一種重要修飾,可改變RNA所攜帶的遺傳信息,導(dǎo)致成熟RNA序列不同于其模板DNA[9]。RNA編輯增加了轉(zhuǎn)錄本及蛋白質(zhì)的多樣性,有利于生物體更好地適應(yīng)生存環(huán)境,同時也對中心法則進(jìn)行了補充和擴展,增進(jìn)了人們對生物遺傳規(guī)律的認(rèn)知。

根據(jù)性質(zhì)不同,RNA編輯可以劃分為兩類:堿基替換和堿基的插入或缺失。堿基插入或缺失型RNA編輯常見于單細(xì)胞真核生物,目前,哺乳動物中尚未見相關(guān)報道。哺乳動物中主要存在兩種堿基替換型RNA編輯事件——A-to-I和C-to-U,前者在數(shù)量上具有絕對優(yōu)勢。A-to-I編輯是指腺苷A在作用于雙鏈RNA的腺苷脫氨酶(adenosine deaminases acting on RNA, ADARs)的催化下,C6位氨基水解脫氨形成次黃苷I,而次黃苷在逆轉(zhuǎn)錄和翻譯過程中被識別為鳥苷G,所以此過程又被稱為A-to-G編輯(圖1)[10]。C-to-U是指在胞苷脫氨酶家族APOBECs的作用下,胞苷水解脫氨形成尿苷,主要發(fā)生于3′UTR[11-13]。ApoB mRNA編輯是哺乳動物中發(fā)現(xiàn)的首個C-to-U編輯,其編輯機制被解析得也相對清楚,詳細(xì)描述請見參考文獻(xiàn)[14]。其它堿基替換型RNA編輯事件如U-to-C、G-to-A也均有報道[15],但它們是否真實存在還具有爭議。哺乳動物中,RNA編輯主要具有如下特征:廣泛存在于轉(zhuǎn)錄組,內(nèi)含子和基因間隔區(qū)最為豐富[16];具有堿基偏好性,A-to-I編輯的5′端傾向于尿苷,3′端傾向于鳥苷[17];可成簇發(fā)生[18];具有時空特性,編輯水平具有隨個體發(fā)育而升高的趨勢[19];A-to-I編輯位點最多,占全部編輯位點的50%以上[15];位點特異性A-to-I編輯主要位于編碼區(qū)或者保守區(qū)域[20];多發(fā)生于重復(fù)序列,在靈長動物中主要集中于Alu序列[21]。

2 RNA編輯酶

目前,哺乳動物中已知的RNA編輯酶主要有兩類,即ADARs和APOBECs。ADARs起源于作用于tRNA的腺苷脫氨酶(adenosine deaminases acting on tRNA,ADAT),在脊椎動物中高度保守。APOBEC1是首個被克隆出的胞苷脫氨酶,與多個輔因子結(jié)合形成復(fù)合體催化胞苷脫氨反應(yīng)。

2.1 ADARs

哺乳動物中主要存在3種ADAR蛋白,即ADAR1、ADAR2和ADAR3。三者均具有2~3個雙鏈RNA結(jié)合功能域和1個腺苷脫氨催化功能域,但僅ADAR1和ADAR2具有催化活性。通過對具有催化活性的ADARs靶標(biāo)偏好性研究發(fā)現(xiàn),不同蛋白的RNA靶標(biāo)存在明顯差異[22],如ADAR1 主要催化重復(fù)區(qū)域位點,ADAR2主要編輯非重復(fù)編碼區(qū)位點[23]。ADAR1具有兩種亞型:ADAR1 p150和ADAR1 p110;兩者均于生物體的各組織中廣泛表達(dá)。ADAR1 p150由干擾素誘導(dǎo)表達(dá),存在于細(xì)胞核和細(xì)胞質(zhì)中;ADAR1 p110呈現(xiàn)連續(xù)表達(dá),只存在于細(xì)胞核中[24]。敲除ADAR1基因的小鼠會因造血障礙和細(xì)胞的非正常凋亡而導(dǎo)致胚胎早期致死[25-26]。ADAR2主要位于細(xì)胞核中,以大腦中的分布最為豐富[27],其催化的腺苷脫氨反應(yīng)通常具有位點特異性,如谷氨酸AMPA受體亞基GluR2上導(dǎo)致谷氨酰胺轉(zhuǎn)變?yōu)榫彼岬腁-to-I編輯[28-29],且可以通過編輯其轉(zhuǎn)錄本實現(xiàn)對自身活性的負(fù)調(diào)控[30]。

圖1 A-to-I編輯的機制
Fig.1 The mechanism of A-to-I RNA editing

敲除ADAR2基因的小鼠在出生3周內(nèi)會因癲癇發(fā)作而死[31]。ADAR3僅存在于大腦中,尚未有研究證明ADAR3直接參與RNA編輯,但其可以通過競爭性結(jié)合dsRNA抑制ADARs家族其他成員催化活性[32],具體作用機制有待進(jìn)一步研究。

2.2 APOBECs

人的APOBECs家族具有11個成員,目前僅檢測到APOBEC1、APOBEC3A和APOBEC3G具有催化C-to-U RNA編輯的脫氨酶活性[33-35]。APOBEC1定位于人1號染色體上,在小腸和肝中表達(dá)量最高,該基因敲除后小鼠的脂質(zhì)代謝水平降低[36-37]。APOBEC3亞家族為哺乳動物特有,鼠只有一種APOBEC3基因,而豬、牛、羊、馬和靈長類動物具有多種[38]。人的APOBEC3基因都位于22號染色體上,具有多種脫氨酶活性,在人進(jìn)化過程中發(fā)揮重要作用[39-40]。APOBEC3A主要在骨髓細(xì)胞中表達(dá)[41]。APOBEC3G在多種組織中均表達(dá)[42],且具有2個脫氨酶功能域,而APOBEC1和APOBEC3A僅有1個脫氨酶功能域[34]。研究表明,APOBEC3A和APOBEC3G傾向作用于具有莖環(huán)結(jié)構(gòu)(stem-loop structures)的RNA[43]。不同于ADARs,APOBECs需要與特定的輔因子結(jié)合才具有脫氨酶活性,APOBEC1的輔因子為RMB-47,而APOBEC3A和APOBEC3G的輔因子尚不清楚[44]。

盡管RNA編輯酶在RNA編輯中扮演至關(guān)重要的角色,但ADARs和APOBECs的表達(dá)量無法完美詮釋編輯水平變異[45-47]。研究發(fā)現(xiàn),編輯底物的序列特征在RNA編輯的發(fā)生及RNA編輯水平的調(diào)控中也發(fā)揮重要作用[41, 48]。因此,RNA編輯酶與RNA編輯位點周圍的序列特征共同調(diào)控RNA編輯。

3 RNA編輯的功能

3.1 位于編碼區(qū)的RNA編輯

RNA編輯廣泛存在于轉(zhuǎn)錄組中,但發(fā)生在基因編碼區(qū)的很少。編碼區(qū)的RNA編輯事件可以導(dǎo)致蛋白重編碼,產(chǎn)生非基因組編碼的蛋白,在蛋白多樣性的形成中發(fā)揮重要作用。目前,已明確生物學(xué)意義的RNA編輯位點多位于基因編碼區(qū)。GluR-B上的Q/R位點在正常生理狀態(tài)下幾乎完全發(fā)生RNA編輯,使得原編碼的谷氨酰胺轉(zhuǎn)變?yōu)榫彼?,?dǎo)致AMAP受體鈣離子通透性顯著下降,從而實現(xiàn)對細(xì)胞的鈣平衡調(diào)節(jié)[49]。該Q/R位點的異常編輯可導(dǎo)致小鼠癲癇發(fā)作及死亡[31]。5-羥色胺受體基因HTR2C上的5個A-to-I編輯位點會影響HTR2C亞型的轉(zhuǎn)運及其與G蛋白的偶聯(lián)互作[50]。Kv1.1 I/V位點的編輯則明顯降低該電壓門控通道的失活率[51]。隨著研究的深入,人們發(fā)現(xiàn)編碼區(qū)的RNA編輯并非僅局限于神經(jīng)受體和離子通道。例如,NEIL1上的編輯導(dǎo)致精氨酸轉(zhuǎn)變成賴氨酸,影響了DNA修復(fù)酶NEIL1的特異性[52]。又如,GLI1第2179位核苷酸的編輯改變了該基因的轉(zhuǎn)錄效率,進(jìn)而影響細(xì)胞增殖[53]。

3.2 位于非編碼區(qū)的RNA編輯

近年來,諸多非編碼區(qū)RNA編輯在生命調(diào)控中發(fā)揮的作用也逐漸得到揭示。A-to-I RNA編輯發(fā)生在轉(zhuǎn)錄后剪接前,而次黃苷I在剪接過程中被識別為鳥苷酸G,因此,A-to-I編輯可以創(chuàng)建新的剪接供體和受體,導(dǎo)致外顯子滯留。ADAR2 mRNA前體內(nèi)含子上的A-to-I編輯使得AA轉(zhuǎn)換成AI,導(dǎo)致47 bp內(nèi)含子序列滯留[30]。位于UTRs中的RNA編輯可以改變RNA的穩(wěn)定性、亞細(xì)胞定位、翻譯效率等[23]。發(fā)生在剪接增強子或沉默子等剪接調(diào)控元件上的RNA編輯可以影響剪接效率[54]。RNA編輯還可以調(diào)節(jié)miRNA的生成和靶向結(jié)合,如miRNA let-7g前體和miR-376a上的RNA編輯。miRNA let-7g的前體pri-let-7g上存在一個A-to-I編輯位點,敲除ADARB1后,鼠體內(nèi)成熟的let-7g減少,導(dǎo)致其靶標(biāo)基因Cry2的過表達(dá),間接引起此老鼠的運動節(jié)律縮短[55]。miR-376a存在2個編輯位點,分別位于第4和44位堿基,只有第4位 堿基被編輯后,miR-376a才能靶向結(jié)合于PRPS1[56]。發(fā)生在lncRNA上的RNA編輯可以改變lncRNA的二級結(jié)構(gòu),并影響miRNA與lncRNA間的互作[57]。Yang等[58]研究發(fā)現(xiàn),RNA編輯可在piRNA的生成中發(fā)揮調(diào)控作用。RNA編輯還可以修復(fù)基因功能,使在突變過程中出現(xiàn)遺傳信息丟失的基因通過RNA編輯得以恢復(fù)。

此外,A-to-I編輯引入的肌苷還可以與肌苷特異性結(jié)合蛋白作用,發(fā)揮不同功能特性。例如,人核酸內(nèi)切酶V能夠特異性地作用于含有肌苷的RNA,促進(jìn)被編輯轉(zhuǎn)錄本的降解[59]。

4 RNA編輯位點的檢測方法

理論上,RNA編輯位點的檢測并不復(fù)雜,通過比較RNA序列及其模板DNA序列,尋找二者間的差異位點,進(jìn)而確定編輯位點。RNA編輯位點的檢測依賴于測序技術(shù),在剛出現(xiàn)DNA測序技術(shù)時,RNA編輯位點只是偶然得之,其鑒定工作進(jìn)展緩慢。隨著測序技術(shù)的進(jìn)步以及測序結(jié)果的積累,越來越多的RNA編輯位點得以揭示,尤其是高通量測序技術(shù)的誕生,使得RNA編輯位點檢出數(shù)量有了質(zhì)的飛躍。RNA編輯具有多種檢測方法,但延伸終止法、比較基因組法、基于EST序列的基因組序列比對法等均由于自身的局限性,現(xiàn)已很少使用。本文將著重介紹目前在RNA編輯研究中較常使用的幾種檢測方法。

4.1 Sanger測序圖譜法

利用測序圖譜來鑒別RNA編輯位點是最簡便的方法,最早報道的RNA編輯現(xiàn)象由Benne等[4]利用Sanger測序研究錐體蟲線粒體中的細(xì)胞色素基因時發(fā)現(xiàn)的。利用該方法識別RNA編輯時,先將RNA反轉(zhuǎn)錄為cDNA,再對待檢測RNA區(qū)域cDNA及DNA進(jìn)行PCR擴增并測序,如果DNA測序圖譜中某位點為單一峰而在cDNA測序圖譜中卻是混合雙峰,那么此位點就是一個RNA編輯位點[60]。根據(jù)雜合雙峰的高度比可以直接估計該位點的編輯水平,與通過大量克隆測序獲得的編輯水平基本相等[61]。目前,Sanger測序法仍廣泛用于驗證利用高通量測序鑒定出的RNA編輯位點[17, 23, 62-63]。盡管Sanger測序法準(zhǔn)確性高,但通量低,難以實現(xiàn)在轉(zhuǎn)錄組水平上進(jìn)行RNA編輯位點的檢測,更適合于單序列的測序。

4.2 限制性內(nèi)切酶酶切法

利用限制性內(nèi)切酶的酶切反應(yīng)也可以鑒定RNA編輯位點。該方法雖不宜鑒定新的RNA編輯位點,但對于已知的并且能夠在編輯后產(chǎn)生新的或者是破壞原有酶切位點的RNA編輯位點的檢測十分方便。例如,小鼠Serinc1基因chr10:57235791位點和Lars2基因chr9:123370996位點的編輯分別產(chǎn)生了限制性內(nèi)切酶BspDI和RsaI的酶切位點[64]。該方法主要包括反轉(zhuǎn)錄、PCR擴增、酶切及凝膠電泳4步,其原理是限制性內(nèi)切酶只能特異性地切開編輯后的PCR產(chǎn)物或者編輯前的PCR產(chǎn)物。利用灰度分析軟件對電泳條帶的寬窄強弱進(jìn)行定量分析,還可得到特定編輯位點上編輯與未編輯產(chǎn)物的比例,進(jìn)而計算出編輯水平[65]。該方法具有操作簡單、易實現(xiàn)、耗時少、成本低的優(yōu)點,適用于評估RNA編輯檢測工具的可靠性,但不能用于檢測未知RNA編輯位點。

4.3 化學(xué)試劑處理法

A-to-I編輯的特異之處在于腺苷A被編輯后形成次黃苷I,而I并不是RNA中常見的核苷。因此,可利用這一特性對RNA進(jìn)行特定處理,從而檢測I。自然狀態(tài)下,RNase T1無法區(qū)分出I和G。1997年,Morse和Bass[66]先用乙二醛處理RNA,然后在高濃度硼酸環(huán)境下實現(xiàn)了RNase T1對I的特異性剪切。乙二醛與鳥苷G的N1和N2反應(yīng)生成加合物,致使RNase T1無法識別,而高濃度硼酸使加合物更加穩(wěn)定,但次黃苷I無法與乙二醛反應(yīng)形成穩(wěn)定的加合物。因此,經(jīng)乙二醛處理后,RNase T1可對RNA上的I進(jìn)行特異性剪切。Morse等[66-67]利用該方法在線蟲中先后共發(fā)現(xiàn)了10個新編輯位點,在人腦中檢測到了19個新編輯位點,并發(fā)現(xiàn)大多數(shù)位點位于重復(fù)元件中。2010年,Sakurai等[68]提出了另一種檢測I的化學(xué)方法——肌苷化學(xué)消除法(inosine chemical erasing,ICE)。該方法使用丙烯腈處理RNA,使次黃苷氰通過邁克爾加成反應(yīng)氰乙基化,導(dǎo)致次黃苷無法與胞苷配對,從而阻止次黃苷處的反轉(zhuǎn)錄,然后對處理和未處理的cDNA進(jìn)行擴增測序,通過比較測序圖譜,即可鑒定出RNA編輯位點。

4.4 高通量測序法

高通量測序技術(shù)的出現(xiàn)和發(fā)展,為研究RNA編輯事件提供了新的技術(shù)平臺,其價格的大幅下降也為大規(guī)模研究RNA編輯事件提供了可能。自2009年起,人們開始利用新一代高通量測序技術(shù)在全轉(zhuǎn)錄組范圍內(nèi)鑒定RNA編輯位點[69]。目前,根據(jù)使用的測序數(shù)據(jù)不同,利用高通量測序技術(shù)研究RNA編輯事件的方法可以分成兩種:一種是對來自于同一樣品的全基因組(DNA-seq)和全轉(zhuǎn)錄組(RNA-seq)同時測序,通過比較兩者間的差異,找到RNA-DNA差異位點;一種只需樣本的轉(zhuǎn)錄本數(shù)據(jù)就可以識別該樣本上的編輯位點。前者可以很好地區(qū)分發(fā)生在轉(zhuǎn)錄組水平上的RNA編輯位點和發(fā)生在基因組水平上的SNP,特別是已有數(shù)據(jù)庫中未注釋的SNP位點,但是需要對同一樣品基因組和轉(zhuǎn)錄組同時測序,成本較高;后者的優(yōu)點是成本相對較低,并且隨著越來越多的測序數(shù)據(jù)被公開,科研工作者可以利用公共數(shù)據(jù)開展大規(guī)模多層次編輯事件研究,但存在難以徹底排除SNP干擾的缺點,鑒定結(jié)果假陽性率較高。

5 基于高通量測序的RNA編輯檢測工具

基于高通量測序識別RNA編輯事件的方法流程復(fù)雜,需綜合考慮多種影響因素對分析結(jié)果進(jìn)行層層過濾,這對科研人員提出更高要求的同時也對非生物信息學(xué)專業(yè)科研從業(yè)者形成了技術(shù)壁壘。目前,已有多個專業(yè)分析工具被研發(fā)(表1),為科研人員進(jìn)行RNA編輯研究提供了極大便利。

5.1 REDItools

REDItools主要包括REDItoolDnaRna.py、REDItoolDenovo.py和REDItoolKnown.py 3個腳本,均以預(yù)先比對好的BAM格式文件為輸入文件[70]。REDItoolDnaRna.py要求同時具有RNA和DNA測序數(shù)據(jù),通過檢測二者序列間的差異鑒定RNA編輯位點,并通過推測位點所在鏈進(jìn)而消除反義轉(zhuǎn)錄本及比對錯誤的影響,提高檢測可靠性。REDItoolDenovo.py僅利用RNA測序數(shù)據(jù)檢測編輯位點,并會根據(jù)堿基替換的經(jīng)驗分布對檢測出的編輯位點進(jìn)行Fisher精確檢驗。REDItoolKnown.py適用于檢測已知RNA編輯位點在給定RNA測序數(shù)據(jù)中的編輯情況。該軟件包提供了適用于不同情況下檢測RNA編輯位點的工具及一系列用于位點過濾、注釋等后續(xù)分析的工具,極大地方便了使用者,但在實際使用中運行較慢,尤其是在調(diào)用REDItoolBlatCorrection.py對比對結(jié)果進(jìn)行校正時。

5.2 GIREMI

GIREMI(genome-independent identification of RNA editing by mutual information)是2015年發(fā)布的一款以BAM格式文件作為輸入文件,只利用RNA測序數(shù)據(jù)進(jìn)行RNA編輯檢測的工具[71-72]。在RNA測序數(shù)據(jù)中,很多讀長(reads)包含多個單核苷酸變異(single-nucleotide variants,SNVs),它們可能是基因組SNPs、RNA編輯位點或者測序比對錯誤。同一RNA測序讀長或者讀長對上的一對SNPs的單體型應(yīng)與參考基因組DNA一致,但SNP和RNA編輯位點間則會隨機組合。GIREMI通過計算SNVs間互信息(mutual information,MI)獲得等位基因連鎖水平,進(jìn)而區(qū)分RNA編輯位點與SNPs,并利用廣義線性模型提高檢測效力。由于MI模型是專門針對二倍體生物構(gòu)建且需要使用者提供已知SNPs數(shù)據(jù)以計算MI參考分布[73],GIREMI只適用于具有SNPs數(shù)據(jù)庫的二倍體生物。

5.3 RED

RED(RNA editing sites detector)是第一款具有圖形用戶界面的RNA編輯位點檢測工具[74]。該軟件使用MySQL關(guān)系型數(shù)據(jù)庫管理系統(tǒng)存儲和查詢大量數(shù)據(jù),以提升軟件性能。在DNA測序數(shù)據(jù)存在與否的情況下,均可使用RED對RNA測序數(shù)據(jù)進(jìn)行分析并檢測RNA編輯位點。該軟件以BAM和VCF格式文件為輸入文件,其中,BAM文件用于位點可視化,VCF文件用于檢測RNA編輯位點,并且在無BAM文件情況下也可使用。此外,RED還需要使用者提供重復(fù)序列文件、gtf格式的注釋文件、包含所有已知SNPs的VCF文件以及已知RNA編輯位點文件,用于數(shù)據(jù)過濾。RED靈敏度較低,與REDItools相差10%以上。

5.4 RES-Scanner

RES-Scanner將讀長比對和位點檢測整合,是一款簡單高效的RNA編輯檢測軟件包[75]。使用者只需輸入RNA和DNA測序產(chǎn)生的fastq原始文件,RES-Scanner便可自動調(diào)用BWA進(jìn)行比對,并展開后續(xù)RNA編輯位點檢測。該工具的最大特點在于引入了統(tǒng)計模型來推斷DNA位點的基因型,而之前的工具或者分析流程均通過設(shè)定等位基因頻率閾值判定DNA位點的基因型。對于初步獲得的候選編輯位點,RES-Scanner通過調(diào)用BLAT對覆蓋編輯位點的錯配讀長進(jìn)行重新比對,以剔除因比對錯誤產(chǎn)生的假陽性位點,隨后進(jìn)行二項分布檢驗,并給出校正后的P值,以進(jìn)一步降低因測序錯誤造成的假陽性。目前,RES-Scanner僅支持采用dUTP方法構(gòu)建的鏈特異性文庫,并且只能用于DNA和RNA測序數(shù)據(jù)同時存在的情況。

5.5 RNAEditor

RNAEditor是一款簡單易用的RNA編輯位點檢測軟件,其既有命令行操作方式也有圖形界面,并創(chuàng)新性地集成了能夠檢測編輯島的聚類算法[76]。編輯島(editing islands)即編輯位點富集區(qū)域,與單一編輯位點相比,其包含的RNA編輯位點可信度更高,且具有生物學(xué)意義的可能性更大。RNAEditor分析流程主要包括3部分,即比對、過濾和注釋,其分析過程中依次調(diào)用BWA和GATK,分別用于讀長比對和變異位點檢測。雖然RNAEditor操作簡單,用戶只需提供RNA測序數(shù)據(jù)及參考基因組等必要文件,后續(xù)分析便可自動完成,但其不適用于無SNP數(shù)據(jù)的物種。

5.6 JACUSA

JACUSA(the JAVA framework for accurate SNV assessment)是通過比較DNA-RNA或RNA-RNA從而快速準(zhǔn)確地鑒定RNA編輯位點的一款軟件,可充分利用生物學(xué)重復(fù)測序數(shù)據(jù)[77]。該工具提供了參數(shù)M,用于設(shè)定變異位點上最大等位基因數(shù)。JACUSA于2017年更新到v1.2.0版本,開始支持鏈特異性雙端測序數(shù)據(jù)。與REDItools相比,JACUSA雖然具有更高的可重復(fù)性,但也無法提供一站式服務(wù),需要使用者預(yù)先完成讀長比對。

5.7 RED-ML

RED-ML(RNA editing detection based on machine learning)是一款使用機器學(xué)習(xí)算法的能夠充分利用各種來源信息優(yōu)化過濾參數(shù)的RNA編輯位點檢測工具[78]。該軟件使用的信息主要分為3類:1)讀 長信息,包括候選編輯位點的編輯水平和支持候選編輯位點的讀長數(shù);2)與測序錯誤和比對錯誤相關(guān)的信息,如堿基比對質(zhì)量、候選編輯位點在讀長中的位置、候選編輯位點是否位于簡單重復(fù)序列等;3)已知的RNA編輯特征,如編輯類型、候選位點是否位于Alu區(qū)域及上下游堿基的傾向性等。RED-ML以BAM格式文件為輸入文件,可以僅使用RNA測序數(shù)據(jù)檢測RNA編輯位點,也可以結(jié)合DNA測序數(shù)據(jù)使用。因ML模型是使用在人淋巴母細(xì)胞中鑒定出RNA編輯位點及人RNA編輯所特有的各種特征訓(xùn)練而成[78],所以RED-ML目前只能用于檢測人RNA編輯位點。此外,RED-ML無法檢測編輯水平低于0.1的位點。

5.8 SPRINT

SPRINT(SNP-free toolkit for identifying RNA editing sites)是一款通過聚類單核苷酸變異對(SNV duplets)進(jìn)行RNA編輯位點檢測的工具[79]。單核苷酸變異對是指2個相鄰的具有相同變異的單核苷酸變異位點。SPRINT利用編輯位點單核苷酸變異對與SNP單核苷酸變異對間的差異分布來區(qū)分RNA編輯位點和SNPs,從而擺脫了對已知SNPs的依賴。對于未成功比對的讀長,SPRINT會將其與參考基因組上的A全部替換為G后重新比對,從而鑒定超RNA編輯位點(hyper RNA editing sites)。由于SPRINT是專門針對RNA測序數(shù)據(jù)設(shè)計的,DNA測序數(shù)據(jù)即使存在也無法使用。

此外還有一些網(wǎng)頁版工具iRNA-AI[80]、PAI[81]、RCARE[82]、RASER[83]以及ExpEdit[84]等。Diroma等[73]利用模擬數(shù)據(jù)結(jié)合多種比對軟件對REDItools、GIREMI、RES-Scanner、JACUSA和RNAEditor進(jìn)行測評,發(fā)現(xiàn)REDItools和JACUSA軟件在Alu區(qū)域檢測到的編輯位點最多,而JACUSA和RES-Scanner軟件對非Alu區(qū)的編輯位點的檢測效果更好。

6 問題及展望

高通量測序技術(shù)的誕生幫助人們鑒定出大量的RNA編輯位點,也加深了人們對RNA編輯產(chǎn)生機理、調(diào)控機制及分布特征等的認(rèn)識,但利用該方法鑒定RNA編輯位點仍存在一些技術(shù)問題:1)文庫構(gòu)建中的PCR擴增及測序過程存在一定錯誤率,導(dǎo)致鑒定出的RNA編輯位點假陽性升高[85];2)二代測序讀長較短,加之重復(fù)序列的普遍存在及RNA的可變剪接等,導(dǎo)致讀長定位不準(zhǔn)確[86],產(chǎn)生假陽性RNA編輯事件;3)測序深度和均一性、建庫方法、測序方法等都會影響結(jié)果準(zhǔn)確性,非鏈特異性測序難以準(zhǔn)確判定RNA編輯類型;4)參考基因組中仍存在許多gaps和錯誤,可導(dǎo)致讀長回貼時出錯;5)RNA 編輯水平通常較低,一般不超過20%,測序深度不足將會遺漏大量編輯事件;6)不同的工具或者同一工具的不同參數(shù)可能給出大相徑庭的結(jié)果,導(dǎo)致研究人員無從選擇。

表1RNA編輯位點檢測工具的主要特征

Table1MainfeaturesofRNAeditingdetectiontools

項目Item工具 ToolREDItoolsGIREMIREDRES-ScannerRNAEditorJACUSARED-MLSPRINT發(fā)布日期 Release date20132015201620162016201720172017編程語言Programming languagepythonR, perl, Cjavaperlpythonjavaperlpython圖形界面Graphical user interface無無有無有無無無輸入文件格式 InputBAMBAMBAM,VCFFastq/BAMFastqBAMBAMBAMDNA測序數(shù)據(jù) DNA-seq非必需不需要非必需必需不需要非必需非必需不需要位點注釋 Annotation有無有有有無無有編輯簇檢測Editing cluster無無否無有無無無需提供已知SNPKnown SNP是是是是是是是否檢測多種編輯類型Multiple editing types是是是是是是是是

為了解決這些問題,研究人員從不同角度出發(fā)綜合考慮各種因素,設(shè)計了更加嚴(yán)格的分析流程:在試驗設(shè)計中,采用具有更長讀長和鏈特異性的雙末端深度測序技術(shù),設(shè)置生物學(xué)和技術(shù)重復(fù);在讀長比對時,選用可識別剪接的比對軟件或同時將參考基因組和轉(zhuǎn)錄組作為回貼模板,提高回貼率;在RNA編輯事件鑒定時,采用多重過濾條件及復(fù)雜統(tǒng)計算法確保RNA編輯位點鑒定的特異性和靈敏度[73]。此外,能夠提高鑒定準(zhǔn)確性的策略也在不斷涌現(xiàn)。在缺少基因組數(shù)據(jù)的背景下,研究人員利用RNA編輯的保守性、稀有SNP的低頻性[87]和SNP間的連鎖關(guān)系[71]鑒別RNA編輯事件與SNP。為克服高通量測序及后續(xù)分析中的弊端,科研人員開發(fā)了一些轉(zhuǎn)錄組預(yù)處理方法:利用肌苷特殊性,分別將肌苷特異性剪切和肌苷消除法與高通量測序結(jié)合,用以檢測A-to-I RNA編輯位點,從而進(jìn)一步排除因比對錯誤、測序錯誤、PCR錯誤等形成的G對鑒定造成的干擾;Zhang等[88]將顯微射流復(fù)合PCR與深度測序結(jié)合,用于檢測已知位點的編輯事件,克服了RNA-seq難以準(zhǔn)確定量中低表達(dá)水平基因編輯的難題。三代測序技術(shù)的發(fā)展為更加準(zhǔn)確鑒定重復(fù)區(qū)域內(nèi)的RNA編輯事件帶來了曙光,但目前三代測序錯誤率比較高[89],暫不適用于單堿基變異的檢測。迅猛發(fā)展的生物信息學(xué)為人們提供了諸多簡單易用的檢測工具,但到底使用哪一款,還需要研究人員根據(jù)自身經(jīng)費預(yù)算、試驗設(shè)計和試驗條件進(jìn)行選擇。

改革開放以來,我國畜禽育種取得了重大進(jìn)展。在數(shù)量遺傳學(xué)及群體遺傳學(xué)理論指導(dǎo)下,綜合應(yīng)用分子生物學(xué)技術(shù),多個符合國人消費需求的優(yōu)質(zhì)品種培育成功。全基因組選擇技術(shù)的應(yīng)用也將加快畜禽遺傳進(jìn)展。然而現(xiàn)有育種技術(shù)主要使用DNA分子標(biāo)記,RNA編輯或許可為畜禽育種開啟新篇章。目前,在人的RNA編輯研究較為豐富并取得一定的成果,且針對中樞神經(jīng)系統(tǒng)及癌癥等疾病的RNA編輯研究表明,其在中樞神經(jīng)系統(tǒng)發(fā)育及癌癥發(fā)生發(fā)展中發(fā)揮重要作用,但在畜禽中關(guān)于RNA編輯的研究較為罕見,僅搜索到幾篇基于高通量測序技術(shù)進(jìn)行RNA編輯研究的報道[15, 90-91],尚未揭示RNA編輯對畜禽經(jīng)濟(jì)性狀的影響。RNA現(xiàn)已成為研究熱點,轉(zhuǎn)錄組測序相關(guān)報道呈現(xiàn)井噴之勢,大量測序數(shù)據(jù)等待深入挖掘。同時,得益于生物信息學(xué)的快速發(fā)展,在全基因組范圍內(nèi)準(zhǔn)確鑒定RNA編輯事件已成為現(xiàn)實。以期RNA編輯將作為新型標(biāo)記用于疾病診斷及藥物研發(fā);對于與經(jīng)濟(jì)性狀相關(guān)的RNA編輯位點,可以利用編輯技術(shù)在DNA和RNA水平上進(jìn)行定點定向定時編輯;還可以聯(lián)合SNP和RNA編輯開展全基因組選擇,進(jìn)一步提高選擇準(zhǔn)確性。由此可見,RNA編輯在畜禽育種方面具有廣闊的應(yīng)用前景,但同時也面臨著諸多挑戰(zhàn),如研究不充分、檢測費用高、已知功能的編輯位點數(shù)量少、具有時空特異性等。如何將RNA編輯信息更好地應(yīng)用于畜禽育種還需進(jìn)一步研究探討。隨著現(xiàn)代生物技術(shù)和研究方法的不斷發(fā)展以及科學(xué)研究的持續(xù)深入,RNA編輯檢測將會如SNP分析般常規(guī),越來越多RNA編輯位點的功能也將得到揭示,以期鑒別更多與畜禽經(jīng)濟(jì)性狀相關(guān)的基因位點,為畜禽育種提供更多的分子標(biāo)記,促進(jìn)相關(guān)產(chǎn)業(yè)的發(fā)展。

猜你喜歡
堿基基因組位點
鎳基單晶高溫合金多組元置換的第一性原理研究
牛參考基因組中發(fā)現(xiàn)被忽視基因
CLOCK基因rs4580704多態(tài)性位點與2型糖尿病和睡眠質(zhì)量的相關(guān)性
基于網(wǎng)絡(luò)公開測序數(shù)據(jù)的K326煙草線粒體基因組RNA編輯位點的鑒定與分析
科學(xué)家找到母愛改變基因組的證據(jù)
應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
血清HBV前基因組RNA的研究進(jìn)展
中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
生命“字母表”迎來新成員
生命“字母表”迎來4名新成員
大关县| 稻城县| 介休市| 湟中县| 百色市| 丹阳市| 酒泉市| 麻城市| 锡林浩特市| 敦化市| 嘉黎县| 丰镇市| 彭泽县| 平南县| 梧州市| 南雄市| 贵州省| 三亚市| 鹤峰县| 霍山县| 巴林右旗| 兴海县| 宣汉县| 宜兴市| 阿合奇县| 万全县| 嵩明县| 高邑县| 宁海县| 双桥区| 沙河市| 霍邱县| 中江县| 化隆| 肇庆市| 金塔县| 阳原县| 津南区| 雷波县| 靖江市| 门源|