周晞雯 成柯 朱鴻亮
(中國(guó)農(nóng)業(yè)大學(xué)食品科學(xué)與營(yíng)養(yǎng)工程學(xué)院,北京 100083)
生物體內(nèi)的RNA 是攜帶遺傳信息的遺傳物質(zhì),具有催化及調(diào)控基本生物過(guò)程的功能。與DNA 不同,ssRNA(single-strand RNA)和dsRNA(double-strand RNA)能夠自發(fā)地進(jìn)行堿基互補(bǔ)配對(duì),在結(jié)合或不結(jié)合蛋白質(zhì)的情況下形成結(jié)構(gòu)。生物體內(nèi)的RNA 也因環(huán)境差異而展示出與體外RNA 結(jié)構(gòu)上的差異,因此,RNA 的體內(nèi)結(jié)構(gòu)解析是對(duì)有RNA 結(jié)構(gòu)參與的生命活動(dòng)進(jìn)行探究的必經(jīng)之路。解析RNA 二級(jí)結(jié)構(gòu)(RNA secondary structure, RSS)面臨兩個(gè)重要問(wèn)題:其一是體內(nèi)、外RNA 結(jié)構(gòu)需要不同的探測(cè)方法;其二是RNA 結(jié)構(gòu)在體內(nèi)參與的生物過(guò)程中產(chǎn)生的動(dòng)態(tài)變化。RNA 結(jié)構(gòu)的研究方法經(jīng)過(guò)數(shù)十年的研究,從早期的X 光和核磁共振技術(shù)發(fā)展至冷凍電鏡,到酶切標(biāo)記與化學(xué)探針標(biāo)記后利用反轉(zhuǎn)錄中引入的截?cái)嗪湾e(cuò)配搭配測(cè)序技術(shù)獲得結(jié)構(gòu),以及利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)根據(jù)堿基等進(jìn)行預(yù)測(cè),逐漸趨向于安全化和精確化。現(xiàn)有的技術(shù)已經(jīng)能夠探知生物體內(nèi)的RNA 二級(jí)結(jié)構(gòu)以及三級(jí)結(jié)構(gòu),但是對(duì)于體內(nèi)動(dòng)態(tài)變化著的RNA 僅能夠提供較為穩(wěn)定的構(gòu)象,如何更加精確地展示體內(nèi)RNA 結(jié)構(gòu)的全貌以及關(guān)鍵性的生理調(diào)控中RNA 的精確結(jié)構(gòu)是接下來(lái)的研究重難點(diǎn)。
RNA 的二級(jí)結(jié)構(gòu)是以核酸序列為根據(jù),通過(guò)堿基互補(bǔ)配對(duì)以及分子間氫鍵形成的。生物體內(nèi)的RNA 存在形式包括雙鏈(dsRNA)和單鏈(ssRNA),目前已廣泛了解的結(jié)構(gòu)包括發(fā)夾(hair-pins)、莖環(huán)(stem-loop)、 假 結(jié)(pseudoknot)、 三 鏈(triplex)、G-四聯(lián)體(G-quadruplexes)等多種結(jié)構(gòu)基序。這些結(jié)構(gòu)是由不相鄰的核苷酸相互作用形成,包括在同一RNA 分子內(nèi)的順式相互作用和需要其他生物分子(如RNA、DNA 和蛋白質(zhì))參與的分子間相互作用[1]。
RNA 的類型和功能多樣,包括承擔(dān)生命遺傳密碼的mRNA,編碼轉(zhuǎn)錄組成部分的tRNA 和rRNA、snoRNA、siRNA、miRNA 以 及l(fā)ncRNA 等。 其中rRNA 因參與翻譯過(guò)程,在蛋白質(zhì)相互作用和生化功能區(qū)域是高度保守的,但在其他區(qū)域是十分多變和快速進(jìn)化的。tRNA 更是最早被闡明其保持“三葉草結(jié)構(gòu)”是為了促進(jìn)密碼子-反密碼子相互作用而相對(duì)穩(wěn)定[2]。snoRNA 長(zhǎng)度較短,是高度結(jié)構(gòu)化的非編碼RNA,這種RNA 自身形成較為穩(wěn)定的二級(jí)結(jié)構(gòu),還會(huì)與其目標(biāo)RNA 配對(duì)形成分子間結(jié)構(gòu)。siRNA 和miRNA 都是真核RNA 沉默機(jī)制的組成部分,這些小RNA 可以被用來(lái)直接沉默轉(zhuǎn)錄本和抑制翻譯[3]。在植物中,這些小RNA 同樣通過(guò)RNA 定向的DNA甲基化調(diào)節(jié)表觀遺傳標(biāo)記[4-5]。各種RNA 獨(dú)特的長(zhǎng)度和核苷酸序列決定了不同的RNA 具有各自的結(jié)構(gòu)特征,而且相同種類的RNA 在結(jié)構(gòu)上具有一定的相似性,因此在結(jié)構(gòu)解析時(shí)就需要分別進(jìn)行討論。
RNA 二級(jí)結(jié)構(gòu)參與調(diào)控多種體內(nèi)RNA 相關(guān)過(guò)程,但是RNA 的結(jié)構(gòu)對(duì)環(huán)境因素的變化十分敏感。RNA 的序列決定了RNA 形成的結(jié)構(gòu)范圍,將已經(jīng)具有結(jié)構(gòu)的RNA 加以變性條件后再將其復(fù)性,在沒(méi)有其他因素的情況下能夠恢復(fù)最初的結(jié)構(gòu)。但是生物體內(nèi)的RNA 結(jié)構(gòu)往往是多重因素共同作用的結(jié)果。導(dǎo)致RNA 結(jié)構(gòu)變化的因素可以歸納為生物的體內(nèi)因素和外界因素,其中體內(nèi)因素包含轉(zhuǎn)錄、空間位阻、RNA 結(jié)合蛋白(RNA binding protein, RBP)和相互作用離子,外界因素包括溫度、滲透壓等[6-7]。
1.1.1 影響RSS 的體內(nèi)因素 RNA 的二級(jí)結(jié)構(gòu)在生物體內(nèi)受到轉(zhuǎn)錄反應(yīng)、空間位阻、RBP 和相互作用離子的限制。RNA 在折疊之初受到具有RNA 伴侶活性的蛋白質(zhì)的引導(dǎo),避免僅僅在局部形成自由能最低的構(gòu)象,這種只關(guān)注局部的折疊就可能導(dǎo)致整體RNA 形成的構(gòu)象不符合能量最低條件,難以產(chǎn)生穩(wěn)定結(jié)構(gòu)。當(dāng)我們利用RNA 序列預(yù)測(cè)結(jié)構(gòu)時(shí)難以將所有導(dǎo)致結(jié)構(gòu)變化的因素全部考慮以修正結(jié)構(gòu),因此,RNA 真實(shí)的體內(nèi)結(jié)構(gòu)可能與體外自發(fā)形成的結(jié)構(gòu)或計(jì)算機(jī)預(yù)測(cè)的最低自由能結(jié)構(gòu)存在較大差異[8]。
RBP 與RNA 相互作用可以影響RNA 結(jié)構(gòu)。許多RBP 具有RNA 結(jié)合功能域,RNA 序列和結(jié)構(gòu)特征使它們被RBP 識(shí)別并定向結(jié)合。RNA 折疊形成三級(jí)結(jié)構(gòu)過(guò)程中需要RBP 參與,更為復(fù)雜的三級(jí)結(jié)構(gòu)使其更好地行使生物體內(nèi)的功能。如tRNA 具有的三葉草二級(jí)結(jié)構(gòu)需要經(jīng)過(guò)共軸堆疊形成倒L 形的三維結(jié)構(gòu),才能攜帶氨基酸進(jìn)入核糖體參與蛋白質(zhì)合成。對(duì)一組人類MRPS21 核糖核酸等位基因DMSMaPseq 數(shù)據(jù)進(jìn)行共同和單獨(dú)分析時(shí)發(fā)現(xiàn),在RBP引起局部RNA 結(jié)構(gòu)重排,即部分區(qū)域產(chǎn)生核糖核酸結(jié)構(gòu)異質(zhì)性時(shí),RNA 折疊狀態(tài)具有顯著差異[9]。
化學(xué)修飾同樣可以改變RNA 結(jié)構(gòu)。RNA 修飾包括甲基化、羥甲基化、乙酰化等[10]。RNA 分子上的修飾影響RNA 與RBP 結(jié)合和結(jié)構(gòu)形成,常見(jiàn)的 RNA 修飾位點(diǎn)包括5-甲基胞嘧啶(5-methylcytosine, m5C)、肌苷、2′-氧甲基化(2′-O-methylation)、假尿嘧啶(pseudouridine, ψ)和N6·甲基腺嘌呤(N6·methyladenine,m6A)等[11]。目前關(guān)于mRNA的甲基化修飾研究已有廣泛報(bào)道,其中m6A 修飾是研究最為廣泛的一種修飾,m6A 由甲基轉(zhuǎn)移酶催化,去甲基化酶去除,并與 m6A 結(jié)合蛋白相互作用[12],這種修飾方式在許多疾病中起重要作用,特別是腫瘤的形成。m6A 也被證明與干細(xì)胞分化和生物鐘控制有關(guān),修飾后的RNA 響應(yīng)紫外線照射與熱休克脅迫產(chǎn)生動(dòng)態(tài)變化[13]。許多試劑能夠定向地修飾RNA 骨架或者堿基,為RNA 的結(jié)構(gòu)解析提供支持。
要解析RNA 結(jié)構(gòu)的生理功能,就需要討論RBP和化學(xué)修飾的影響。Tomezsko 等[14]基于DMS-seq發(fā)現(xiàn)酵母體內(nèi)的結(jié)構(gòu)化mRNA 區(qū)域比體外的要少得多,并且RNA 結(jié)構(gòu)變化與ATP 含量相關(guān),當(dāng)ATP濃度變化時(shí)RSS 也會(huì)相應(yīng)產(chǎn)生變化,這說(shuō)明RNA 的結(jié)構(gòu)是處于動(dòng)態(tài)變化的。RNA 在體外難以獲得與體內(nèi)環(huán)境相同的RBP 和離子條件,且體外實(shí)驗(yàn)難以達(dá)到與胞內(nèi)相同的活性氧濃度,所以體外進(jìn)行的RNA結(jié)構(gòu)探測(cè)難以復(fù)原RNA 在生物體內(nèi)的真實(shí)構(gòu)象。
1.1.2 影響RSS 的外界因素 溫度和離子滲透壓都是影響RNA 二級(jí)結(jié)構(gòu)的外界因素。即使是耐熱的RNA 結(jié)構(gòu)也經(jīng)常在細(xì)胞中發(fā)生變性,細(xì)胞環(huán)境改變對(duì)RNA 結(jié)構(gòu)產(chǎn)生重要影響[15]。原核生物中存在一種典型的RNA 溫度計(jì)(RNA thermometers),這種RNA 對(duì)溫度變化敏感,其結(jié)構(gòu)隨溫度變化而發(fā)生改變。低溫時(shí)其結(jié)構(gòu)能抑制轉(zhuǎn)錄過(guò)程,溫度升高后結(jié)構(gòu)變化不再具有抑制功能,溫度降低后則結(jié)構(gòu)恢復(fù),由此使RNA 結(jié)構(gòu)與轉(zhuǎn)錄產(chǎn)生聯(lián)系[16]。此外,在不同的溫度下RNA 采用不同的結(jié)構(gòu)(RNA switch)在翻譯調(diào)節(jié)中發(fā)揮作用。在植物中,對(duì)黃化的擬南芥幼苗體內(nèi)的RNA 結(jié)構(gòu)進(jìn)行采樣的研究表明,與脅迫反應(yīng)相關(guān)基因的mRNA 在每個(gè)核苷酸中顯示出較高的自由能或更長(zhǎng)的最大環(huán)長(zhǎng)度,這兩者都為構(gòu)象變化提供了靈活性[17]。熱脅迫也被證實(shí)能夠使tRNA的結(jié)構(gòu)部分展開(kāi)[18]。
擬南芥中一類非編碼轉(zhuǎn)錄本COOLAIR通過(guò)smStructure-seq 被證實(shí)在溫暖環(huán)境和冷處理環(huán)境中,具有不同的RNA 構(gòu)象。COOLAIR參與FLC(FLOWERING LOCUS C)的轉(zhuǎn)錄調(diào)控,以決定喜溫植物冬季年度或快速循環(huán)的繁殖策略,也參與促進(jìn)低溫誘導(dǎo)的轉(zhuǎn)錄關(guān)閉[19]。冷處理及冷處理后恢復(fù)的植物樣本RNA 結(jié)構(gòu)經(jīng)過(guò)可視化都闡明了RNA 結(jié)構(gòu)的差異,但是植物中具體與溫度相關(guān)的RNA 結(jié)構(gòu)變化機(jī)制還未得到完全解釋,那么系統(tǒng)地分析植物中RNA 特征結(jié)構(gòu)就可能為植物的環(huán)境脅迫傳感器提供其機(jī)理的解釋。
滲透壓對(duì)RNA 二級(jí)結(jié)構(gòu)造成的影響同樣在植物生物學(xué)中具有重要意義。植株受到如洪水、干旱、過(guò)高的土壤鹽分等滲透脅迫時(shí),細(xì)胞內(nèi)滲透濃度就產(chǎn)生大規(guī)模變化。鹽脅迫時(shí)擬南芥轉(zhuǎn)錄本豐度的變化與脅迫誘導(dǎo)的相對(duì)過(guò)飽和度的變化呈負(fù)相關(guān),在這項(xiàng)研究中,鹽脅迫誘導(dǎo)了RNA 的重折疊,尤其是與應(yīng)激相關(guān)的mRNA,而RNA 的重折疊增加了轉(zhuǎn)錄本豐度[20-21]。
植物中的mRNA 不僅作為遺傳信息的載體,還參與轉(zhuǎn)錄調(diào)控過(guò)程。植物體內(nèi)的lncRNA 和miRNA等與蛋白結(jié)合形成復(fù)雜的聚合體,對(duì)植株的組織、器官甚至整個(gè)植株的生理功能產(chǎn)生重要的影響。核糖體rRNA 被包裹在復(fù)雜的三級(jí)結(jié)構(gòu)中,只有形成合適的結(jié)構(gòu)才能夠在翻譯過(guò)程中催化蛋白質(zhì)合成,lncRNA 和小RNA 也被證明參與相變、影響蛋白-蛋白互作等[22]。隨著探測(cè)技術(shù)的進(jìn)步,植物體內(nèi)RSS 具有的功能也被更加深入地研究,下文對(duì)植物中RSS 具有的功能進(jìn)行介紹。
1.2.1 植物中RSS 影響轉(zhuǎn)錄和翻譯 植物中RNA二級(jí)結(jié)構(gòu)與mRNA 的轉(zhuǎn)錄加工過(guò)程緊密相關(guān)。多聚腺苷酸化(Polyadenylation)是mRNA 加工的一個(gè)關(guān)鍵步驟,這一過(guò)程切割mRNA 的前體,并在mRNA的3′端添加poly(A)尾[23]。在擬南芥中,約60%的mRNA 具有多聚腺苷酸位點(diǎn)。一種廣泛的認(rèn)知是pre-mRNA 的裂解和聚腺苷酸化依賴于poly(A)序列,典型序列如AAUAAA 或AUUAAA。擬南芥的核RNA 上poly(A)結(jié)構(gòu)位點(diǎn)和備選位點(diǎn)上有兩個(gè)單鏈區(qū)域,分別位于-28 nt 到-17 nt 之間和-4 nt 到+1 nt 之間。而-28 nt 到-17 nt 的上游區(qū)域是傳統(tǒng)poly(A)信號(hào)的富集區(qū)域,這表明多聚(A)信號(hào)和多聚(A)位點(diǎn)都傾向于單鏈[20]。哺乳動(dòng)物mRNA 的3′端區(qū)域相較于其他區(qū)域更容易折疊。研究認(rèn)為,mRNA 3′區(qū)域的折疊將poly(A)信號(hào)和裂解位點(diǎn)固定在最佳距離,促進(jìn)了mRNA 的多聚腺苷酸化[24]。Liu 等[20]在擬南芥中利用SHAPE 標(biāo)記并分析mRNA 3′端和5′端RNA 結(jié)構(gòu)特征發(fā)現(xiàn),核mRNA 和胞質(zhì)mRNA 在翻譯起始和停止位點(diǎn)上的折疊方式不同,說(shuō)明序列相同的核mRNA 和胞質(zhì)mRNA 可能折疊形成不同的結(jié)構(gòu)來(lái)執(zhí)行各自的生物學(xué)功能。
RNA 二級(jí)結(jié)構(gòu)可以調(diào)節(jié)翻譯效率,并且成熟的mRNA 具有能夠影響翻譯的RNA 結(jié)構(gòu)[25]。在擬南芥和水稻上的研究表明,mRNA 不具有復(fù)雜結(jié)構(gòu)時(shí)往往具有高翻譯能力,這說(shuō)明 mRNA 的結(jié)構(gòu)可能在植物中具有翻譯調(diào)節(jié)功能[26]。在體外條件下,翻譯起始位點(diǎn)和核糖體暫停位點(diǎn)的結(jié)構(gòu)特征是保守的。在哺乳動(dòng)物和植物中,mRNA 起始密碼子上游5 nt位置被證明是不具有復(fù)雜結(jié)構(gòu)且易于靠近的,這種簡(jiǎn)單的結(jié)構(gòu)便于核糖體的靠近和翻譯的起始[27]。實(shí)際上,RNA 的結(jié)構(gòu)以及修飾也被認(rèn)為是一種具有普遍性的轉(zhuǎn)錄后調(diào)控的控制模式[28]。
1.2.2 植物中RSS 影響可變剪接 研究認(rèn)為RNA 結(jié)構(gòu)變化影響mRNA 的可變剪接。剪接是mRNA 加工的關(guān)鍵步驟,可變剪接位點(diǎn)的識(shí)別需要RNA 結(jié)構(gòu)開(kāi)關(guān)參與。真核生物的基因是由外顯子和內(nèi)含子構(gòu)成的,pre-mRNA 成為成熟mRNA 的過(guò)程需要經(jīng)過(guò)剪接去除內(nèi)含子,將外顯子拼接成鏈。RNA 的剪接過(guò)程依賴剪接體、RBPs 及mRNA 順式作用元件的共同作用[29]。其中,RNA 結(jié)構(gòu)作為順式調(diào)控元件招募蛋白質(zhì)影響RNA 剪接,是轉(zhuǎn)錄后調(diào)控中不可缺少的部分。Ding 等[30]利用DMS-MaPseq 觀察擬南芥發(fā)現(xiàn)在5′剪接位點(diǎn)上游約40 nt 區(qū)域,剪接轉(zhuǎn)錄本的結(jié)構(gòu)明顯比未剪接轉(zhuǎn)錄本的結(jié)構(gòu)更加靈活,這說(shuō)明在5′剪接位點(diǎn),較強(qiáng)的RSS 阻礙了拼接的第一步。
1.2.3 植物中RSS 影響RBP 的結(jié)合 RNA 二級(jí)結(jié)構(gòu)影響RNA-RBP 結(jié)合。如上所述,RBPs 參與RNA結(jié)構(gòu)形成,同時(shí)也受到RNA 結(jié)構(gòu)的調(diào)控。RNA 二級(jí)結(jié)構(gòu)在體外和體內(nèi)都能夠影響RBP 的結(jié)合。目前對(duì)于RNA 二級(jí)結(jié)構(gòu)影響RNA-RBP 最充分的證據(jù)是哺乳動(dòng)物中的lncRNA,Xist,它在雌性發(fā)育過(guò)程中表達(dá)后,與關(guān)鍵的成核位點(diǎn)結(jié)合并擴(kuò)散,通過(guò)與大量蛋白質(zhì)的逐步相互作用引起全染色體沉默。而植物中RBP-RNA 的研究也已經(jīng)十分充分,同一mRNA形成不同的二級(jí)結(jié)構(gòu)后,盡管能夠結(jié)合相同的蛋白質(zhì),但功能不同[31]。更為廣泛的表現(xiàn)是RNA 結(jié)構(gòu)因?yàn)樯矬w內(nèi)的“開(kāi)關(guān)”產(chǎn)生變化后,與RBP 結(jié)合的結(jié)構(gòu)發(fā)生改變,從而調(diào)控與RBP 的結(jié)合[13]。編碼蛋白質(zhì)結(jié)構(gòu)域連接或無(wú)序區(qū)域的RNA 結(jié)構(gòu)會(huì)減弱蛋白質(zhì)的延伸,從而促進(jìn)蛋白質(zhì)的自然折疊[6]。
高溫、冷脅迫和鹽脅迫等生物脅迫引起植物的應(yīng)答反應(yīng)被證實(shí)與RBP 緊密相關(guān),而RNA 結(jié)構(gòu)通過(guò)結(jié)合或不結(jié)合RBP 同樣參與植物的抗逆和病原反應(yīng)。鹽脅迫等多種脅迫能夠誘導(dǎo)擬南芥中RNA,特別是與脅迫相關(guān)的mRNA 的再折疊,RNA 的再折疊改變了轉(zhuǎn)錄本的豐度,從而調(diào)節(jié)植物的應(yīng)激能力。不同于哺乳動(dòng)物,在擬南芥和水稻RNA 結(jié)構(gòu)研究中發(fā)現(xiàn)UTR 區(qū)相較CDS 區(qū)具有更少的結(jié)構(gòu),表明RNA 結(jié)構(gòu)與翻譯效率相關(guān)[30]。在植物已有的研究中,或許是由于調(diào)控結(jié)構(gòu)元件的存在,病原體反應(yīng)性轉(zhuǎn)錄本往往是具有最高度折疊的。擬南芥中許多高度結(jié)構(gòu)化的mRNA 編碼的DEFENSIN-LIKE(DEFL)蛋白、低分子量富含半胱氨酸蛋白、病程相關(guān)蛋白都在植物病原應(yīng)答中發(fā)揮作用[22]
RNA 憑借其復(fù)雜的結(jié)構(gòu)在生物體內(nèi)發(fā)揮多種功能,然而RNA 結(jié)構(gòu)在體內(nèi)的動(dòng)態(tài)變化給探測(cè)帶來(lái)很大難度。近年來(lái)由于新一代測(cè)序技術(shù)的廣泛應(yīng)用,RNA 結(jié)構(gòu)的探測(cè)方法也不斷更新。高通量測(cè)序?yàn)榇罅康姆椒ㄌ峁┝思夹g(shù)支持,它可以實(shí)現(xiàn)大規(guī)模的平行DNA 測(cè)序,同時(shí)檢索數(shù)以千萬(wàn)計(jì)的DNA 序列的信息。高通量測(cè)序足以在一個(gè)實(shí)驗(yàn)中覆蓋全基因組 RNA 結(jié)構(gòu)并表征數(shù)千種 RNA 的二級(jí)結(jié)構(gòu)特征,為RNA 結(jié)構(gòu)在體內(nèi)外的功能及結(jié)合位點(diǎn)探究提供支持。通過(guò)實(shí)驗(yàn)直接或間接地獲取RNA 的結(jié)構(gòu)是解析RNA 的可信方法,由于RNA 的結(jié)構(gòu)在體內(nèi)體外具有差異,因此通過(guò)實(shí)驗(yàn)等方式描述RNA 的實(shí)際結(jié)構(gòu)就是研究RNA 及RNA-RBP 復(fù)合體功能的必經(jīng)之路,而辨析RNA 體內(nèi)結(jié)構(gòu)的方法研究也成為了研究RNA 結(jié)構(gòu)的熱點(diǎn)之一。
2.1.1 物理法 最早使用在RNA 結(jié)構(gòu)探索上的技術(shù)是X-射線(X-ray)。Chao 等[32]利用X-射線衍射初步確定了tRNA 的結(jié)構(gòu)。tRNA 三葉草結(jié)構(gòu)的發(fā)現(xiàn)為RNA 結(jié)構(gòu)相關(guān)研究奠定了理論基礎(chǔ),即RNA 可能會(huì)形成特定的結(jié)構(gòu)來(lái)執(zhí)行生物學(xué)功能。此后較長(zhǎng)的一段時(shí)間內(nèi),檢測(cè) RNA 結(jié)構(gòu)的實(shí)驗(yàn)方法主要為核磁共振技術(shù)(nuclear magnetic resonance, NMR)和X-射線晶體衍射技術(shù)。X-射線和NMR 最早應(yīng)用于蛋白結(jié)構(gòu)探測(cè),有趣的是盡管兩者在RNA 結(jié)構(gòu)領(lǐng)域應(yīng)用時(shí)間前后差別,X-射線能夠通過(guò)大量的圖片分析補(bǔ)充核磁共振實(shí)驗(yàn)數(shù)據(jù)集不完整結(jié)構(gòu)信息,核磁共振獲取的RNA 結(jié)構(gòu)比X-射線模型表現(xiàn)出更多的空間沖突和構(gòu)象歧義[33],兩者在實(shí)驗(yàn)中相輔相成[34]。這兩種技術(shù)涉及放射性標(biāo)記,對(duì)實(shí)驗(yàn)人員和RNA 狀態(tài)要求較高,且分析單一RNA 結(jié)構(gòu)所需X 光片和結(jié)構(gòu)數(shù)量大所需成本高。近年來(lái),冷凍電鏡為探測(cè)RNA-蛋白復(fù)合體的結(jié)構(gòu)提供有力途徑,然而單一的無(wú)蛋白結(jié)合的RNA 因其分子量小且結(jié)構(gòu)不單一而難以僅利用冷凍電鏡進(jìn)行分析。即使有體外實(shí)驗(yàn)工作量大、難以展示RNA 在生物體內(nèi)的真實(shí)結(jié)構(gòu)等限制,采用物理方法能夠直觀地展示RNA 的可視三維結(jié)構(gòu),目前仍然是RNA 結(jié)構(gòu)的重要獲得途徑。
2.1.2 酶切探針標(biāo)記法 酶法和化學(xué)法解構(gòu)RNA現(xiàn)在十分依賴高通量測(cè)序技術(shù)(next generation sequencing, NGS),而NGS 還未出現(xiàn)時(shí),廣泛采用凝膠電泳的方式對(duì)探針位點(diǎn)進(jìn)行解析[35]。染料終止序列測(cè)序通常被稱為Sanger 測(cè)序,它使用凝膠或毛細(xì)管電泳展示RNA 探針位點(diǎn),一次只能提供有限數(shù)量的序列信息,這決定了該方法只能用于較短的RNA 序列。聚丙烯酰胺凝膠電泳(polyacrylamide gel electrophoresis, PAGE)讀取修飾的方法逐漸被逆轉(zhuǎn)錄(reverse transcription, RT)并進(jìn)行測(cè)序替代,直接對(duì)RNA 的結(jié)構(gòu)特征進(jìn)行解讀。結(jié)構(gòu)特異性核糖核酸酶常作為酶探針探測(cè)單鏈和雙鏈區(qū),用于標(biāo)記的酶探針包括RNase V1,RNase S1,RNase T1 和RNase T。其中RNase S1 和P1 對(duì)ssRNA 切割有特異性,而RNase V1 針對(duì)dsRNA[36]。常見(jiàn)的兩種酶探針?lè)謩e切割RNA 鏈產(chǎn)生5′磷酸和產(chǎn)生3′磷酸接口,酶切之后引入末端標(biāo)記,再進(jìn)行測(cè)序就可以找到cDNA 序列上的反轉(zhuǎn)錄斷裂位點(diǎn)。對(duì)于成分較為復(fù)雜的目標(biāo)RNA,單一的酶探針難以達(dá)到研究目的,通常選用多種位點(diǎn)不同的酶共同切割RNA,再對(duì)RNA 進(jìn)行末端標(biāo)記。然而,核酸酶受空間位阻影響較大,且難以透過(guò)細(xì)胞膜,實(shí)驗(yàn)過(guò)程中使用的Mg2+也可能影響RNA 折疊,因此體內(nèi)真實(shí)的RNA 結(jié)構(gòu)就難以用酶法探究。
2.1.3 化學(xué)探針標(biāo)記法 同樣應(yīng)用探針標(biāo)記的化學(xué)探測(cè)方法因?yàn)樵噭┓肿虞^小,不受酶法局限性的拘束而被廣泛應(yīng)用。目前,已經(jīng)應(yīng)用于RNA 標(biāo)記的試劑包括烷基化試劑如乙基亞硝基脲(ENU)、硫酸二甲酯(DMS)、碳化二亞胺(CMTC)、1-(3-二甲氨基丙基)-3-乙基碳二亞胺(EDC)、疊氮煙酸甲酰(NAz)和重亞硫酸鹽等[51]?;瘜W(xué)探針又可以分為堿基特異性探針和非堿基特異性探針,即利用試劑修飾堿基或核苷酸骨架。SHAPE 試劑2-甲基煙酸咪唑(NAI)或1-甲基-7-硝基異酸酸酐(1M7)將所有4 個(gè)核苷酸共同的2′-羥基(2′-OH)?;蛩岫柞ィ―MS)將腺嘌呤(N1-A)的無(wú)保護(hù)和非堿基配對(duì)N1位置、胞嘧啶的N3位置(N3-C)和鳥(niǎo)嘌呤(N7-G)的N7 位置烷基化(表1)。由于這些修飾阻礙了傳統(tǒng)的逆轉(zhuǎn)錄酶通過(guò)核苷酸,單鏈區(qū)域的修飾核苷酸可以通過(guò)PAGE 或高通量測(cè)序檢測(cè)到標(biāo)記為逆轉(zhuǎn)錄停止。而這些探針往往難以結(jié)合已被RBP 結(jié)合的RNA,因此可以通過(guò)修飾的讀取判斷RNA 結(jié)合RBP 的區(qū)域,作為RNA 與RBP 結(jié)合基序的預(yù)測(cè)驗(yàn)證手段(圖1)。由于生物膜通透性差,CMCT 等難以進(jìn)入細(xì)胞中,一般應(yīng)用于體外研究RNA 結(jié)構(gòu)。
圖1 RBP 影響體內(nèi)探針修飾位點(diǎn)Fig. 1 RBP affects modification sites in vivo
表1 用于RNA 標(biāo)記實(shí)驗(yàn)的酶和探針Table 1 Probes and enzymes for RNA labeling
2.2.1 化學(xué)探針標(biāo)記RNA 方法 有一類小分子標(biāo)記試劑能夠進(jìn)入生物膜在生物體內(nèi)標(biāo)記RNA,由此獲得生物體內(nèi)的RNA 結(jié)構(gòu)信息,構(gòu)建更貼近RNA 在生物體內(nèi)實(shí)際結(jié)構(gòu)的模型。目前已被使用的標(biāo)記探針包括SHAPE、DMS 和EDC 等。近年來(lái),一種被稱為突變譜分析改進(jìn)的方法被開(kāi)發(fā),該方法通過(guò)在逆轉(zhuǎn)錄反應(yīng)過(guò)程中在修飾位點(diǎn)引入錯(cuò)配而非停止逆轉(zhuǎn)錄來(lái)確定化學(xué)修飾的核苷酸,從而高效率地利用測(cè)序來(lái)獲得修飾位點(diǎn)信息[52]。
利用SHAPE 試劑標(biāo)記并分析的方法:SHAPEseq(selective 2′-hydroxyl acylation followed by primer extension),icSHAPE(in vivoclick selective 2-hydroxyl acylation and profiling experiment),SHAPE-MaPseq等(表1)。SHAPE 試劑能夠?qū)NA 上的2′-OH 進(jìn)行標(biāo)記,利用SHAPE 方法就可以同時(shí)獲得4 種核苷酸的結(jié)構(gòu)信息。在icSHAPE 中,細(xì)胞內(nèi)的RNA 被NAI-N3修飾,使其包含生物素,用鏈霉親和素結(jié)合珠純化。SHAPE 試劑加合物阻斷NAI 修飾堿基上的逆轉(zhuǎn)錄延伸,生成一個(gè)具有相應(yīng)cDNA 截?cái)嗟奈膸?kù)。對(duì)于SHAPE-MaPseq,通過(guò)深度測(cè)序在逆轉(zhuǎn)錄過(guò)程中將修改后的核苷酸讀取為不匹配,通過(guò)SHAPE 反應(yīng)性計(jì)算得到修改后的核苷酸。
利用DMS 試劑標(biāo)記并進(jìn)行分析的方法包括:DMS-seq,Structure-seq,DMS-MaPseq 和Dance MaP等。DMS 的缺點(diǎn)是它只能提供腺嘌呤和胞嘧啶上的堿基配對(duì)數(shù)據(jù),缺少可靠的鳥(niǎo)嘌呤和尿嘧啶堿基配對(duì)探針,預(yù)測(cè)獲得的RNA 結(jié)構(gòu)不全面且可靠性較差。DMS 早期僅作為體外標(biāo)記探針使用,直到基于DMS 在擬南芥、哺乳動(dòng)物和酵母中體內(nèi)的全基因組RNA 結(jié)構(gòu)分析的方法發(fā)表,而DMS 在植物中應(yīng)用條件的優(yōu)化和方法的完善也為全局分析RNA 結(jié)構(gòu)提供幫助[15]。在利用探針截?cái)喾崔D(zhuǎn)錄的方法中,每個(gè)RNA 分子只能觀察到一個(gè)化學(xué)修飾的單一位點(diǎn),因此低豐度的RNA 不適用基于截?cái)嗟腞NA 結(jié)構(gòu)探測(cè)。
讀取截?cái)嗷蛘咄蛔兊姆椒ㄊ菍NA 反轉(zhuǎn)錄后進(jìn)行測(cè)序。解讀標(biāo)記的酶包括Superscript III、SSIIMn2+和TGIRT(thermostable group II intron reverse transcriptases)等[52]。SSII-Mn2+在 使 用Superscript II 時(shí)引入二價(jià)金屬離子Mn2+,以促進(jìn)逆轉(zhuǎn)錄酶通讀標(biāo)記后的RNA[53]。MaPseq 是近年發(fā)展起來(lái)的一種替代RT-stop 分析方法的方法,該方法使用的反轉(zhuǎn)錄酶工作時(shí)連續(xù)地反轉(zhuǎn)錄修飾后的RNA 堿基,并在修飾處插入突變,由此可以對(duì)較長(zhǎng)的序列進(jìn)行測(cè)序。與Structure-seq 一樣,MaPseq 可以用于特定基因或全基因組的方式,檢測(cè)到的突變相當(dāng)于未配對(duì)的核苷酸。TGIRT 可以讀取單個(gè)分子上的多個(gè)DMS 修飾,增加給定修飾堿基上的測(cè)序深度。因其讀取長(zhǎng)度長(zhǎng)、可靠性好,TGIRT 取代了更多傳統(tǒng)的逆轉(zhuǎn)錄酶,如在Structure-seq 和類似技術(shù)中使用的Superscript III。DMS-MaPseq 即應(yīng)用耐熱逆轉(zhuǎn)錄酶通過(guò)在DMS 修飾位點(diǎn)引入錯(cuò)配來(lái)分析修飾率。Zubradt 等[54-55]在酵母中利用DMS-MaPseq 分析特定位點(diǎn)結(jié)構(gòu),并首次在動(dòng)物體內(nèi)運(yùn)用該方法進(jìn)行全基因組探測(cè)和特定基因結(jié)構(gòu)分析,Wang 等[56]將DMS-MaPseq 應(yīng)用在擬南芥體內(nèi)RNA 結(jié)構(gòu)全局分析和特定位點(diǎn)結(jié)構(gòu)分析。
由于單獨(dú)應(yīng)用DMS 不能提供4 種堿基的信息,一系列化學(xué)修飾試劑也被開(kāi)發(fā)用于彌補(bǔ)結(jié)構(gòu)預(yù)測(cè)中的信息差距。水溶性碳二亞胺1-乙基-3-(3-二甲氨基丙基)碳二亞胺(EDC)已成為一種有效的體內(nèi)探針[57]。EDC 與EMCT 相似,更傾向于修飾U 和G,EDC 容易穿透細(xì)胞壁和細(xì)胞膜,并已被用于探測(cè)多個(gè)生命領(lǐng)域的RNA,包括枯草芽孢桿菌、水稻和培養(yǎng)的MEF 細(xì)胞。Mitchell 等[58]開(kāi)發(fā)的Structure seq 就是綜合EDC 和DMS 兩種試劑進(jìn)行讀取。EDC易于穿透細(xì)胞壁和細(xì)胞膜,已被用于包括枯草芽孢桿菌、水稻和MEF 培養(yǎng)細(xì)胞在內(nèi)的多種生物體內(nèi)RNA 標(biāo)記,可在體內(nèi)探測(cè)4 種不同的RNA 堿基。
LASER-seq(light activated structural examination of RNA, LASER)能夠修飾成對(duì)的核苷酸,使識(shí)別具有高級(jí)結(jié)構(gòu)RNA 的構(gòu)象變化成為可能。煙酰疊氮化物(NAz)不標(biāo)記堿基對(duì),而是在激光照射下產(chǎn)生離子與胞嘧啶C8和腺嘌呤C8位置結(jié)合[59]。但是該方法不能準(zhǔn)確標(biāo)記被蛋白結(jié)合或正在翻譯的堿基,無(wú)法在RNA -蛋白質(zhì)相互作用方面提供幫助。此外乙二醛試劑也可作為修飾腺嘌呤、鳥(niǎo)嘌呤和胞嘧啶的探針,目前乙二醛體系已經(jīng)在水稻、大腸桿菌、枯草芽孢桿菌和小鼠胚胎成纖維細(xì)胞(MEF)的體內(nèi)RNA 結(jié)構(gòu)探測(cè)中得到廣泛應(yīng)用[60]。
化學(xué)探針因其分子量小、易于結(jié)合RNA 分子而廣泛應(yīng)用,目前還處于各具優(yōu)缺點(diǎn)的狀態(tài)?;瘜W(xué)探針可以進(jìn)入生物體內(nèi)標(biāo)記RNA,而且可以同時(shí)運(yùn)用多種探針在體內(nèi)探測(cè)4 種堿基的結(jié)構(gòu)信息。然而不同探針?biāo)璧木彌_液和離子濃度不同,且難以解讀有RBP 結(jié)合或高級(jí)結(jié)構(gòu)的RNA,更加方便的標(biāo)記探針還有待開(kāi)發(fā)。
2.2.2 基于RNA 交聯(lián)的方法 小分子探針修飾方法能夠在讀取堿基信息后解析RNA 結(jié)構(gòu),但不能明確RNA 中堿基互補(bǔ)配對(duì)的情況和RNA 分子之間的互作?;诮宦?lián)的方法可以直接捕獲分子內(nèi)和分子間的RNA-RNA 相互作用[40]。在細(xì)胞內(nèi)提供交聯(lián)所需條件后,提取RNA 后酶切消化,其中相互作用的片段仍連接在一起。由于連接產(chǎn)物產(chǎn)生的嵌合體結(jié)構(gòu),測(cè)序時(shí)不能進(jìn)行讀取,從而獲得RNA 相互作用的位點(diǎn)信息。許多基于交聯(lián)和接近連接的技術(shù)已經(jīng)被開(kāi)發(fā),在酵母、人類、小鼠和病毒等材料中均可獲取RNA-RNA 相互作用信息。
交聯(lián)可以在體內(nèi)和體外進(jìn)行。PIP-seq(protein interaction profile sequencing)是一項(xiàng)最近發(fā)展起來(lái)的技術(shù),用于識(shí)別RNA 在其原生狀態(tài)下的二級(jí)結(jié)構(gòu)。該技術(shù)可以應(yīng)用于生物的組織或細(xì)胞中,首先使用甲醛或紫外光交聯(lián),隨后進(jìn)行的ssRNA-seq和dsRNA-seq 同時(shí)對(duì)RNA 二級(jí)結(jié)構(gòu)和RNA 蛋白相互作用進(jìn)行全基因組識(shí)別,就可以得到RNA-蛋白質(zhì)相互作用信息。CLASH(crosslinking ligation and sequencing of hybrids)是一種基于紫外交聯(lián)的方式,能捕捉與已知蛋白相關(guān)的RNA-RNA 互作[61]。補(bǔ)骨脂素交聯(lián)可以識(shí)別直接的RNA-RNA 相互作用,甲醛交聯(lián)也被利用在識(shí)別有RBP 參與的RNA 互作中[62]。MARIO(mapping RNA interactomein vivo)方法被應(yīng)用在小鼠體內(nèi)進(jìn)行RNA-RNA 互作的識(shí)別驗(yàn)證,同時(shí)能夠?qū)NA 的二級(jí)及三級(jí)結(jié)構(gòu)進(jìn)行解析[63]。該方法通過(guò)RNase I 消化位點(diǎn)的密度來(lái)確定RNA 單鏈區(qū)域,通過(guò)鄰位連接技術(shù)捕獲每個(gè)RNA的空間近端位點(diǎn)。盡管RNA 交聯(lián)的方法能夠很好地在體內(nèi)進(jìn)行,但它仍然未解決交聯(lián)位點(diǎn)覆蓋面窄和實(shí)驗(yàn)中可能產(chǎn)生假陽(yáng)性的問(wèn)題。
相較于實(shí)驗(yàn)方法需要花費(fèi)大量時(shí)間和金錢(qián),利用計(jì)算機(jī)和數(shù)學(xué)模型預(yù)測(cè)RNA 二級(jí)結(jié)構(gòu)以其經(jīng)濟(jì)、快速和安全的優(yōu)勢(shì)成為生物信息學(xué)領(lǐng)域的研究目標(biāo)。RNA 二級(jí)結(jié)構(gòu)預(yù)測(cè)常用方法為最小自由能法(minimum free energy, MFE)和序列比較分析法。即基于RNA 堿基序列,參考或不參考試驗(yàn)獲得的RNA 結(jié)構(gòu)數(shù)據(jù),通過(guò)計(jì)算自由能和熱力學(xué)分析獲得結(jié)構(gòu)。但是該方法不能保證在體內(nèi)的準(zhǔn)確性和真實(shí)性,很多現(xiàn)有的分析方法需要結(jié)合RNA 探針標(biāo)記獲得的序列特征。現(xiàn)有RNA 二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)中包含大量基于NMR、X-ray 以及共變模型獲得的RNA 結(jié)構(gòu),且數(shù)據(jù)庫(kù)中多為結(jié)構(gòu)較為保守的非編碼 RNA,如rRNA、tRNA、Group I intron、Group II intron 以及核糖體開(kāi)關(guān)等?;谝阎猂NA 結(jié)構(gòu),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在RNA 結(jié)構(gòu)預(yù)測(cè)方面也展示出優(yōu)越性。
近年來(lái),解析RNA 二級(jí)結(jié)構(gòu)有兩種常用的方法,其一是通過(guò)測(cè)序獲得RNA 的斷裂或修飾信息,其二是通過(guò)堿基序列信息構(gòu)建概率模型。RNA 序列信息的完整性對(duì)結(jié)構(gòu)的預(yù)測(cè)具有很大影響,RNA 的堿基配對(duì)信息和單鏈部分的信息都有助于搭建更高分辨率的結(jié)構(gòu)模型。因此將雙鏈RNA 測(cè)序和單鏈RNA測(cè)序數(shù)據(jù)結(jié)合,就可全面分析堿基配對(duì)情況并構(gòu)造RNA 結(jié)構(gòu)模型[22,64]。依據(jù)堿基序列構(gòu)建的模型和實(shí)驗(yàn)探測(cè)獲得的結(jié)構(gòu)信息指向的模型之間存在的交集就很可能是該RNA 真實(shí)存在的結(jié)構(gòu)之一。
依據(jù)核苷酸序列預(yù)測(cè)二級(jí)結(jié)構(gòu)的方法始于20 世紀(jì)60年代,將實(shí)驗(yàn)獲得的堿基配對(duì)狀態(tài)作為計(jì)算預(yù)測(cè)的限制條件,計(jì)算獲得能量最低、被視作穩(wěn)定狀態(tài)的結(jié)構(gòu)。此時(shí)如果實(shí)驗(yàn)數(shù)據(jù)不能完全展示堿基配對(duì)情況,或者同一序列同時(shí)存在多種結(jié)構(gòu),那么根據(jù)這種條件計(jì)算得到的結(jié)果就是不可信的。
在利用高通量測(cè)序獲得RNA 序列后,對(duì)RNA序列數(shù)據(jù)進(jìn)行條件限制,讀取信息并作結(jié)構(gòu)預(yù)測(cè)的算法現(xiàn)在已有多種。最小自由能就是將實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)化為自由能項(xiàng)疊加到特定結(jié)構(gòu)單元的自由能計(jì)算中,這種自由能項(xiàng)也被稱為偽自由能(pseudo-energies)。這種計(jì)算的前提是RNA 堿基配對(duì)后自然形成自由能低的結(jié)構(gòu)。在已知RNA 序列的情況下,基于最小自由能可以對(duì)結(jié)構(gòu)進(jìn)行預(yù)測(cè),但其并不能展示RNA在體內(nèi)的真實(shí)構(gòu)象,只能準(zhǔn)確預(yù)測(cè)最低自由能結(jié)構(gòu)中大約70%的已知堿基對(duì)狀態(tài)[65]。熱力學(xué)模型中,Schroeder 等[66]的最近鄰模型將一個(gè)二級(jí)結(jié)構(gòu)分解成幾個(gè)特征子結(jié)構(gòu),標(biāo)記為最近鄰環(huán),如發(fā)夾環(huán)、內(nèi)環(huán)、凸起環(huán)、堿基對(duì)疊加,多分支回路和外部回路。每個(gè)最近鄰回路的自由能可以通過(guò)把代表該回路的自由能參數(shù)相加計(jì)算。通過(guò)對(duì)分解的最近鄰環(huán)自由能求和來(lái)計(jì)算整個(gè)RNA 二級(jí)結(jié)構(gòu)的自由能。利用Zuker 算法可以有效地計(jì)算出具有最小自由能的最優(yōu)二級(jí)結(jié)構(gòu)[67]。基于以上理論的方法包括M-fold、UNAfold、RNAfold 和RNA structure 等[68]。 隨 著RNA 長(zhǎng)度增加,預(yù)測(cè)所獲得的可能二級(jí)結(jié)構(gòu)數(shù)量呈指數(shù)增長(zhǎng),要在如此大量的預(yù)測(cè)結(jié)構(gòu)中找到RNA 的真實(shí)結(jié)構(gòu)是自由能最小化法面臨的巨大挑戰(zhàn)。而序列比較法利用NMR 和X-射線等方法獲得結(jié)構(gòu)數(shù)據(jù)包,假定序列相似的RNA 即使在不同物種中也具有相同或高度相似的結(jié)構(gòu),對(duì)已知序列和已知結(jié)構(gòu)的序列進(jìn)行比對(duì),從而獲得該序列預(yù)測(cè)結(jié)構(gòu)的方式,現(xiàn)在更多地用于RNA 三級(jí)結(jié)構(gòu)的預(yù)測(cè)中。
機(jī)器學(xué)習(xí)的核心難點(diǎn)是準(zhǔn)確識(shí)別一組代表性特征,特征選擇(feature selection)極大地影響模型質(zhì)量。Kengo 等[69]利用MXfold2 算法發(fā)現(xiàn),當(dāng)使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的RNA 折疊得分與Turner 的最近鄰自由能參數(shù)集成在一起時(shí)可使過(guò)擬合最小化。整合熱力學(xué)信息有助于提高基于深度學(xué)習(xí)的RNA 二級(jí)結(jié)構(gòu)預(yù)測(cè)的可靠性,結(jié)合熱力學(xué)模型和機(jī)器學(xué)習(xí)的混合方法能彌補(bǔ)彼此的缺點(diǎn),如SimFold 能夠更準(zhǔn)確地從訓(xùn)練數(shù)據(jù)中估算熱力學(xué)參數(shù),包括RNA 序列、已知的部分二級(jí)結(jié)構(gòu)和已知二級(jí)結(jié)構(gòu)的自由能[70]。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,在生物信息學(xué)、生命科學(xué)等廣泛領(lǐng)域均有應(yīng)用,近年已經(jīng)在蛋白結(jié)構(gòu)預(yù)測(cè)和DNA 結(jié)構(gòu)預(yù)測(cè)方面有所報(bào)道。利用深度學(xué)習(xí)預(yù)測(cè)RNA 結(jié)構(gòu)面臨的主要問(wèn)題是已知結(jié)構(gòu)的RNA 的可用于訓(xùn)練的數(shù)據(jù)非常有限,尤其缺乏復(fù)雜的高級(jí)RNA 結(jié)構(gòu)。由于只有少量高分辨率的RNA 結(jié)構(gòu)可用,深度學(xué)習(xí)模型只能先通過(guò)比較分析注釋的大型RNA 二級(jí)結(jié)構(gòu)數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,然后再將學(xué)習(xí)轉(zhuǎn)移到從3D 結(jié)構(gòu)衍生出來(lái)的精確二級(jí)結(jié)構(gòu)上。除了預(yù)測(cè)單條序列的 RNA 二級(jí)結(jié)構(gòu)外,概率模型還可應(yīng)用于預(yù)測(cè)一組結(jié)構(gòu)相似的 RNA 序列的共同結(jié)構(gòu)。目前深度學(xué)習(xí)方法已經(jīng)被應(yīng)用于探查人體內(nèi)RBP-RNA 結(jié)合位點(diǎn)。有報(bào)道對(duì)riboSNitches 利用CLIP-seq 等數(shù)據(jù)庫(kù)進(jìn)行解析發(fā)現(xiàn)riboSNitches 引導(dǎo)的RBP-RNA 結(jié)合后結(jié)構(gòu)改變可能導(dǎo)致等位基因特異性結(jié)合的增加[71]。
近年來(lái)不斷有對(duì)RNA 測(cè)序數(shù)據(jù)進(jìn)行分析獲得結(jié)構(gòu)信息的軟件被開(kāi)發(fā),目前應(yīng)用較廣的包括MC-Fold/MC-Sym[72]、RNA structure[73]、ViennaRNA package[74]、StructureFold[26]等。智能地篩選有效限制條件對(duì)于RNA 分析技術(shù)的發(fā)展而言是很有必要的。其中StructureFold 可以將實(shí)驗(yàn)獲取的高通量RNA 結(jié)構(gòu)分析數(shù)據(jù)輸入后作為限制條件進(jìn)行結(jié)構(gòu)預(yù)測(cè)。通過(guò)依次使用迭代映射、獲取RT 信號(hào)和反應(yīng)模塊,該方法可以得出每個(gè)核苷酸的FSR(final structural reactivities),這提供了RNA 以單鏈存在的可能性。同樣,對(duì)于植物體內(nèi)RNA 結(jié)構(gòu)的預(yù)測(cè),機(jī)器學(xué)習(xí)方法也有著廣闊的發(fā)展空間與應(yīng)用場(chǎng)景。然而,不論是傳統(tǒng)機(jī)器學(xué)習(xí)方法還是結(jié)合神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,對(duì)RNA 結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)集都有著較強(qiáng)的依賴性,當(dāng)植物體內(nèi)RNA 結(jié)構(gòu)特征越能被準(zhǔn)確的識(shí)別和探測(cè),建立質(zhì)量可靠的高分辨率RNA 結(jié)構(gòu)數(shù)據(jù)庫(kù)的可行性也將不斷提高。只有基于準(zhǔn)確可靠的探測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練和檢驗(yàn),機(jī)器學(xué)習(xí)方法才能在植物RNA 結(jié)構(gòu)預(yù)測(cè)中更好的延伸和應(yīng)用。
RNA 不僅是遺傳中DNA 和蛋白之間用于信息傳遞的橋梁,其豐富的結(jié)構(gòu)信息足以成為生物遺傳和生理調(diào)控中極為重要的研究方向。數(shù)十年以來(lái),對(duì)于RNA 結(jié)構(gòu)的研究從未停止,RNA 結(jié)構(gòu)分析仍面臨問(wèn)題與挑戰(zhàn),最關(guān)鍵的一點(diǎn)就是RNA 體內(nèi)狀態(tài)的改變。盡管現(xiàn)有的高通量測(cè)序和分析方法能對(duì)特定條件如蛋白結(jié)合下的RNA 結(jié)構(gòu)進(jìn)行解析,并且評(píng)價(jià)RNA 結(jié)構(gòu)的打分系統(tǒng)也在不斷進(jìn)化,但評(píng)分的標(biāo)準(zhǔn)仍然在不斷變化,如何制定出使RNA 結(jié)構(gòu)最貼近體內(nèi)廣泛存在的結(jié)構(gòu)的評(píng)分標(biāo)準(zhǔn)仍有待解決。
現(xiàn)有分析RNA 結(jié)構(gòu)的測(cè)算方法大多需要實(shí)驗(yàn)數(shù)據(jù)的支撐,真實(shí)可靠的數(shù)據(jù)和測(cè)算出可信的RNA結(jié)構(gòu)是同源序列分析和比對(duì)的基石。應(yīng)用廣泛的化學(xué)標(biāo)記法的多種標(biāo)記試劑在植物中已有報(bào)道,但仍存在植株大小和部位的限制,而標(biāo)記試劑成分對(duì)植物生理或RNA 結(jié)構(gòu)的影響還不能完全排除,隨著RNA 結(jié)構(gòu)研究的不斷深入,效率更高、更易進(jìn)入植物且無(wú)負(fù)面影響的標(biāo)記探針亟待開(kāi)發(fā)。利用標(biāo)記RNA 的方式不僅能夠?qū)NA 的二級(jí)結(jié)構(gòu)進(jìn)行測(cè)算,還能夠進(jìn)一步推算RNA 的三級(jí)結(jié)構(gòu)。盡管RNA 二級(jí)結(jié)構(gòu)還未完全闡明,但是生物體內(nèi)的生理活動(dòng)也依賴于RNA 的三維結(jié)構(gòu),探究RNA 三級(jí)結(jié)構(gòu)行之有效的方法還在探索中。利用計(jì)算機(jī)基于RNA 結(jié)構(gòu)數(shù)據(jù)庫(kù)預(yù)測(cè)RNA 三維結(jié)構(gòu)的方法層出不窮,Vfold3D、3DRNA、FARFAR 以及基于物理模型的iFold、NAST 和SimRNA 等均展示出當(dāng)下研究的趨勢(shì)[75]。
以往基于來(lái)源于PDB 數(shù)據(jù)庫(kù)中存儲(chǔ)的結(jié)構(gòu)所進(jìn)行的計(jì)算已有成效,最近發(fā)展起來(lái)的基于神經(jīng)網(wǎng)絡(luò)的模型如AlphaFold 和RoseTTAFold 也已經(jīng)被證明是高效且有力的預(yù)測(cè)及評(píng)估蛋白質(zhì)3D 結(jié)構(gòu)的方法。而蛋白的結(jié)構(gòu)研究和RNA 的結(jié)構(gòu)研究往往是相互促進(jìn),互相學(xué)習(xí)的,我們完全有理由相信Alpha Fold及更多的后續(xù)研究方法將會(huì)為植物體內(nèi)的RNA 結(jié)構(gòu)研究增加新的方向。