蔡 媛, 鐘 燦, 劉 浩, 金 劍, 王勇慶, 張水寒
(湖南省中醫(yī)藥研究院 中藥研究所, 長(zhǎng)沙 410013)
多年來(lái),研究人員對(duì)基因組的研究主要聚焦在蛋白質(zhì)編碼基因,其研究思維也一直遵從經(jīng)典中心法則“DNA-mRNA-蛋白質(zhì)”。隨著人類基因組及其他物種海量基因組的不斷解析和深入研究,以及蛋白組學(xué)和轉(zhuǎn)錄組學(xué)的蓬勃發(fā)展,促進(jìn)了RNA組學(xué)研究的日趨成熟,揭示高等真核生物的遺傳物質(zhì)只有極小一部分編碼蛋白質(zhì),絕大部分都不編碼蛋白質(zhì)和多肽,這部分非編碼蛋白基因一直被當(dāng)做“噪音”或者是“垃圾”(Junk)分子[1]。能夠編碼蛋白的mRNA已經(jīng)不再獨(dú)占轉(zhuǎn)錄組鰲頭,許多不同類型的非編碼調(diào)控RNA逐一進(jìn)入研究者的視線,并陸續(xù)被證明具有重要的生物學(xué)意義。
長(zhǎng)鏈非編碼RNA(long non-coding RNA,lncRNA)是在真核生物中新發(fā)現(xiàn)的一類長(zhǎng)度大于200個(gè)核苷酸、沒(méi)有閱讀框架,但往往具有mRNA結(jié)構(gòu)特征(帽式結(jié)構(gòu)和polyA尾巴)的RNA[2-3]。大多數(shù)lncRNA由RNA聚合酶Ⅱ轉(zhuǎn)錄翻譯而來(lái),少數(shù)由RNA聚合酶Ⅲ轉(zhuǎn)錄而來(lái),以RNA的形式在多種層面上調(diào)控基因的表達(dá)。lncRNA在基因組中普遍存在轉(zhuǎn)錄現(xiàn)象,但較之mRNA往往表達(dá)水平比較低,其自身的表達(dá)水平也受到轉(zhuǎn)錄及轉(zhuǎn)錄后調(diào)控機(jī)制的嚴(yán)密調(diào)節(jié)。相對(duì)于長(zhǎng)鏈非編碼RNA在哺乳動(dòng)物上的研究,植物長(zhǎng)鏈非編碼RNA的研究才剛剛開始[4-6]。生物信息學(xué)的迅猛發(fā)展,改變了傳統(tǒng)lncRNA的研究方式,極大地促進(jìn)了植物lncRNA的研究發(fā)展。長(zhǎng)鏈非編碼RNA在植物生命活動(dòng)中發(fā)揮著重要的作用,不同類的長(zhǎng)鏈非編碼RNA在植物中發(fā)揮的功能也不盡相同,主要包括調(diào)節(jié)生長(zhǎng)發(fā)育、影響轉(zhuǎn)錄調(diào)控、染色體結(jié)構(gòu)、mRNA的穩(wěn)定性與翻譯、RNA加工與修飾等[[7-9]。最近獲得的基因組序列呈爆炸性地增加,從而激發(fā)了用快速、有效和精確的方法組織和獲取重要序列以及結(jié)構(gòu)元件的能力需求。新獲得的數(shù)據(jù)顯示,迄今為止,一類潛在的重要基因類型我們還沒(méi)有檢測(cè)到,有一大類功能RNA分子或隱藏在蛋白質(zhì)編碼之間或位于編碼蛋白質(zhì)區(qū)內(nèi)(內(nèi)含子中),至今未被注釋。然而,任何功能分析中,都不應(yīng)該遺漏在基因組范圍尋找非編碼RNA(non-coding RNA)。如何能像發(fā)現(xiàn)讀碼框一樣發(fā)現(xiàn)沒(méi)有強(qiáng)烈結(jié)構(gòu)特征的調(diào)控RNA,本文就近年來(lái)植物中已發(fā)現(xiàn)的lncRNA的種類、參與的生物學(xué)過(guò)程、發(fā)揮功能的分子機(jī)制及其生物信息學(xué)預(yù)測(cè)與分析進(jìn)行綜述和展望,以期為更深入認(rèn)識(shí)植物lncRNA提供借鑒。
1.1.1 按其與編碼蛋白基因的相對(duì)位置分類
長(zhǎng)鏈非編碼RNA根據(jù)其在基因組中與蛋白質(zhì)編碼基因的相對(duì)位置,一般將其分為正義lncRNA(Sense long non-coding RNA)、反義lncRNA(Antisense long non-coding RNA)、雙向lncRNA(Bidirectional long non-coding RNA)、基因內(nèi)lncRNA(Intronic long non-coding RNA)和基因間lncRNA(Intergenic long non-coding RNA)五類[10]。其中,基因間lncRNA也被稱為大型介入性非編碼RNA,即lincRNA(Large intervening noncoding RNA),位置關(guān)系對(duì)于推測(cè)其功能具有重要的作用。
1.1.2 按其作用機(jī)制分類
按照l(shuí)ncRNA發(fā)揮作用的分子機(jī)制,Wang等將lncRNA分為了以下四類,即信號(hào)分子(Signals)、誘餌分子(Decoys)、引導(dǎo)分子(Guides)、骨架分子(Scaffolds)[11]。Wilusz等[12]總結(jié)了生物體內(nèi)lncRNA的具體機(jī)制,包括:(1)在編碼蛋白基因的上游啟動(dòng)子區(qū)轉(zhuǎn)錄,從而干擾鄰近蛋白編碼基因的表達(dá)(如酵母SER3基因)[13];(2)抑制 RNA 聚合酶Ⅱ,或介導(dǎo)染色質(zhì)重構(gòu)和組蛋白修飾,而影響基因表達(dá)[14];(3)LncRNA與編碼蛋白基因的轉(zhuǎn)錄本形成互補(bǔ)雙鏈,干擾mRNA的剪切,進(jìn)而產(chǎn)生不同的剪切形式[15];(4)LncRNA與編碼蛋白基因的轉(zhuǎn)錄本形成互補(bǔ)雙鏈,在Dicer 酶作用下產(chǎn)生內(nèi)源性的siRNA,調(diào)控基因的表達(dá)水平[16];(5)LncRNA結(jié)合在特定蛋白質(zhì)上調(diào)節(jié)相應(yīng)蛋白的活性[17];(6)作為結(jié)構(gòu)組分與蛋白質(zhì)形成核酸蛋白質(zhì)復(fù)合體[18];(7)結(jié)合在特定蛋白上從而改變?cè)摰鞍椎陌|(zhì)定位[19],研究者發(fā)現(xiàn),MtEnod40能夠與MtRBP1蛋白結(jié)合,引導(dǎo)MtRBP1從細(xì)胞核的核小點(diǎn)到細(xì)胞質(zhì)顆粒的重定位[20];(8)可作為小分子 RNA(如 miRNA)的前體分子[21]。在植物中,有研究表明lncRNA作為小RNA生物合成前體。研究發(fā)現(xiàn)水稻光敏雄性不育關(guān)鍵調(diào)控基因LDMAR最終被發(fā)現(xiàn)通過(guò)剪切加工形成了長(zhǎng)21 nt的小RNA osa-smR5846w/m。Ding和Zhu等研究顯示,1 236 nt長(zhǎng)的LDMAR可能是初級(jí)轉(zhuǎn)錄本,該初級(jí)轉(zhuǎn)錄本會(huì)被加工為一條長(zhǎng)136 nt的中間轉(zhuǎn)錄本,最終才形成21 nt的小RNA[22-24]。
長(zhǎng)鏈非編碼RNA的基因不像編碼基因那樣編碼蛋白質(zhì),但是它們具有豐富強(qiáng)大的生物學(xué)功能。大量數(shù)據(jù)表明,這些lncRNA可能在從蛋白質(zhì)分泌到廣泛的基因調(diào)節(jié)細(xì)胞過(guò)程中起重要作用。它們?cè)谥T如劑量補(bǔ)償、基因印跡、轉(zhuǎn)錄調(diào)控、前mRNA剪接和mRNA翻譯控制等不同的途徑中發(fā)揮功能[25]。LncRNA在植物生長(zhǎng)發(fā)育過(guò)程中扮演著重要角色,處于基因調(diào)控網(wǎng)絡(luò)的核心位置,調(diào)控各種重要生物途徑,包括發(fā)育、代謝、抗病、脅迫、應(yīng)激反應(yīng)、激素信號(hào)和維護(hù)基因組的完整性等[26-30]。目前,在擬南芥、小麥、水稻、玉米、黃瓜等植物中發(fā)現(xiàn)了大量lncRNAs,但是明確其功能機(jī)制的不到1%。研究比較透徹的主要集中在生長(zhǎng)發(fā)育、逆境脅迫、生殖發(fā)育等方面。
1.2.1 lncRNA參與植物成花過(guò)程
長(zhǎng)鏈非編碼RNA引起植物研究人員的興趣始于lncRNA能夠調(diào)控春化作用的關(guān)鍵蛋白FLC來(lái)實(shí)現(xiàn)開花的轉(zhuǎn)變。并且,研究者發(fā)現(xiàn)有兩種lncRNA參與調(diào)節(jié)FLC基因,從而參與調(diào)節(jié)植物的開花過(guò)程[28, 31]。在擬南芥中,COOLAIR通過(guò)吸引相關(guān)蛋白清除FLC上激活型組蛋白甲基標(biāo)記,引起FLC正向轉(zhuǎn)錄本的沉默。COLDAIR則通過(guò)結(jié)合PcG蛋白復(fù)合體使FLC染色質(zhì)組蛋白抑制型甲基化,引起FLC沉默。這兩種長(zhǎng)鏈非編碼RNA都通過(guò)沉默F(xiàn)LC而參與調(diào)節(jié)春化過(guò)程,影響植物開花的時(shí)間。
1.2.2 LncRNA參與植物的脅迫響應(yīng)
在植物的生長(zhǎng)發(fā)育過(guò)程中,不可避免地受到病害、干旱、磷、鹽等脅迫。研究者發(fā)現(xiàn),在逆境脅迫中,lncRNA扮演重要角色。研究者發(fā)現(xiàn)Npc536在擬南芥根和葉中調(diào)控響應(yīng)鹽脅迫。在鹽脅迫下,Npc536的T-DNA插入突變體無(wú)明顯表型,過(guò)表達(dá)可以促進(jìn)在鹽脅迫條件下的根系生長(zhǎng),提高初生根的生長(zhǎng)和次生根的伸長(zhǎng)[32]。另外,在擬南芥中,IPS1和At4是由磷饑餓誘導(dǎo)產(chǎn)生,其可以阻止miR399對(duì)靶基因PHO2的抑制作用而調(diào)節(jié)磷含量的動(dòng)態(tài)平衡[33-35]。
1.2.3 LncRNA參與植物的生殖發(fā)育
研究者在水稻中篩選到調(diào)控水稻光敏性雄性不育的lncRNA-LD MA,該基因是長(zhǎng)日照植物特有的雄性生殖相關(guān)的lincRNA,在長(zhǎng)日照條件下轉(zhuǎn)錄表達(dá),是水稻花粉正常發(fā)育所需。自發(fā)突變系水稻植株改變LDMAR的二級(jí)結(jié)構(gòu),提高LDMAR啟動(dòng)子區(qū)域的甲基化程度,從而降低LDMAR轉(zhuǎn)錄,尤其是在長(zhǎng)日照調(diào)節(jié)下,導(dǎo)致發(fā)育中花藥過(guò)早的程序性死亡,從而導(dǎo)致PSMS,闡明lncRNA在水稻生殖進(jìn)程中的重要調(diào)控作用[22-24]。
目前,植物長(zhǎng)鏈非編碼RNA的預(yù)測(cè)方法主要分為生物信息學(xué)方法和實(shí)驗(yàn)RNA組學(xué)方法。實(shí)驗(yàn)RNA組學(xué)方法是通過(guò)RNA-Seq、構(gòu)建cDNA數(shù)據(jù)庫(kù)、微陣列分析和基因組SELEX等發(fā)現(xiàn)lncRNA[36]。高通量測(cè)序技術(shù)是發(fā)現(xiàn)lncRNA的有效方法,可以直接、快速地發(fā)現(xiàn)低豐度、新的lncRNA。目前研究中一般首先采用生物信息獲得目標(biāo)序列,然后再進(jìn)行下一步的功能驗(yàn)證及其機(jī)制研究。
生物信息學(xué)方法主要是利用某種算法,通過(guò)設(shè)計(jì)篩選標(biāo)準(zhǔn),建立評(píng)分系統(tǒng),對(duì)候選序列進(jìn)行選擇。伴隨著物種測(cè)序工作的逐步開展和序列信息的日益豐富,利用生物信息學(xué)發(fā)現(xiàn)和預(yù)測(cè)lncRNA序列的方法已經(jīng)成為簡(jiǎn)單、高效的策略之一。但是大部分策略僅能預(yù)測(cè)得到保守的lncRNA序列。同時(shí)也會(huì)出現(xiàn)假陽(yáng)性序列,需要通過(guò)進(jìn)一步的實(shí)驗(yàn)驗(yàn)證,來(lái)完善預(yù)測(cè)和研究。
在眾多發(fā)現(xiàn)和研究lncRNA的方法中,生物信息學(xué)方法以其方便、快速和經(jīng)濟(jì)的優(yōu)勢(shì)受到許多研究者的青睞[37]。事實(shí)證明,生物信息學(xué)方法是預(yù)測(cè)和發(fā)現(xiàn)新lncRNA的有效方法,是以基因組序列和計(jì)算機(jī)程序鑒定為基礎(chǔ)[38]。目前,通過(guò)各種計(jì)算機(jī)軟件以及其他計(jì)算工具已經(jīng)成功地預(yù)測(cè)和鑒定了動(dòng)植物中大多數(shù)lncRNA[39- 40]。
在過(guò)去十幾年中,人們通過(guò)生物信息學(xué)手段和分子克隆方法從擬南芥(ArabidopsisthalianaL.)[21, 28, 31-34, 41-53]、水稻(OryzasativaL.)[22-24, 54-57]、玉米(ZeamaysL.)[58-61]、小麥(TriticumaestivumL.)[30]、黃瓜(CucumissativusL.)[62]、苜蓿(Medicagotruncatula)[63-66]、番茄(Solanumlycopersicum)[67]、大豆(Giycinemax)[68]、油菜(BrassicacampestrisL.)[69-71]等植物中發(fā)現(xiàn)了大量的多種類型的lncRNA(見表1)。
LncRNA具有多種重要功能,尋找lncRNA靶基因并挖掘它對(duì)基因表達(dá)、蛋白合成各方面的調(diào)控作用成了lncRNA研究的關(guān)鍵。LncRNA靶基因的預(yù)測(cè),大致可分為兩種情況:已知gene symbol的lncRNA和新發(fā)現(xiàn)的lncRNA。對(duì)已知gene symbol的lncRNA,可以直接通過(guò)軟件數(shù)據(jù)庫(kù)例如starBase、CHIPBase、NONCODE等,利用gene symbol搜索其相關(guān)信息。對(duì)于新發(fā)現(xiàn)的lncRNA來(lái)說(shuō),目前現(xiàn)有的數(shù)據(jù)庫(kù)物種信息十分有限,數(shù)據(jù)信息也必將少,所以對(duì)于轉(zhuǎn)錄本預(yù)測(cè)出的沒(méi)有symbol號(hào)的新lncRNA,由于lncRNA對(duì)靶基因沒(méi)有固定的作用模式,基因調(diào)控可能以順式(Cis)或反式(Trans)作用發(fā)生。所以,可根據(jù)不同作用方式分別進(jìn)行預(yù)測(cè),包括順式作用靶基因預(yù)測(cè)及反式作用靶基因預(yù)測(cè)。
順式作用靶基因預(yù)測(cè),認(rèn)為lncRNA的功能與其坐標(biāo)臨近的蛋白編碼基因相關(guān),位于編碼蛋白上下游的lncRNA可能與啟動(dòng)子或者共表達(dá)基因的其他順式作用元件有交集,從而在轉(zhuǎn)錄或者轉(zhuǎn)錄后水平對(duì)基因的表達(dá)進(jìn)行調(diào)控。判斷一個(gè)lncRNA具有順式調(diào)控作用通常要同時(shí)滿足以下幾個(gè)條件:(1)附近的基因表達(dá)情況與其保持一致;(2)該基因失活后會(huì)影響周圍基因的表達(dá);(3)會(huì)影響附近同一位點(diǎn)的基因表達(dá)。對(duì)于滿足以上條件的lncRNA,首先找出位于其上游或者下游附近(10 k)的編碼蛋白基因,通過(guò)對(duì)編碼蛋白的功能富集分析,從而預(yù)測(cè)lncRNA的主要功能,為后續(xù)順式作用分析打下基礎(chǔ)。
表1 植物中已報(bào)道的lncRNATable1 The reported lncRNAs in plants
反式作用靶基因預(yù)測(cè)基本原理認(rèn)為lncRNA的功能與編碼基因的位置關(guān)系沒(méi)有關(guān)系,而與其共表達(dá)的蛋白編碼基因相關(guān)。當(dāng)lncRNA與一些距離較遠(yuǎn)的基因在表達(dá)量上存在正相關(guān)或者負(fù)相關(guān)的情況時(shí),可以通過(guò)樣本間lncRNA與蛋白編碼基因的表達(dá)量相關(guān)性分析或共表達(dá)分析方法來(lái)預(yù)測(cè)其靶基因。當(dāng)樣本數(shù)≥6時(shí),使用Pearson相關(guān)系數(shù)法分析樣本間lncRNA與蛋白編碼基因的相關(guān)性,對(duì)相關(guān)性最高的編碼基因蛋白進(jìn)行功能富集分析進(jìn)而預(yù)測(cè)lncRNA功能;當(dāng)樣本數(shù)≥24時(shí),使用WGCNA方法將表達(dá)模式相似的基因聚類得到不同的共表達(dá)模塊,根據(jù)模塊內(nèi)的已知的編碼基因功能預(yù)測(cè)lncRNA的功能。
除了順式作用和反式作用調(diào)控,lncRNA參與調(diào)控許多轉(zhuǎn)錄后進(jìn)程時(shí),與miRNA和snoRNA等小RNA類似,這些調(diào)控往往與堿基的互補(bǔ)配對(duì)有關(guān)。一部分反義lncRNA可能因?yàn)榕c正義鏈的mRNA結(jié)合而調(diào)控基因沉默、轉(zhuǎn)錄及mRNA的穩(wěn)定性。所以,lncRNA的反義分析,可以利用軟件(如RNAplex)預(yù)測(cè)反義lncRNA與mRNA之間的互補(bǔ)配對(duì)關(guān)系,根據(jù)熱力學(xué)結(jié)構(gòu)計(jì)算最小自由能來(lái)預(yù)測(cè)最佳堿基配對(duì)關(guān)系。
生物信息學(xué)預(yù)測(cè)還可以通過(guò)比較基因組學(xué)策略。盡管lncRNA一級(jí)和二級(jí)結(jié)構(gòu)不完整,但小部分具有保守性,可根據(jù)其保守性推測(cè)功能。通過(guò)與miRNA 或蛋白相互作用預(yù)測(cè),如通過(guò)miRcode算法通過(guò)miRNA推測(cè) lncRNA,也可通過(guò)評(píng)估其潛在互作蛋白推測(cè)其功能如catRAPID算法。
隨著高通量測(cè)序技術(shù)的發(fā)展,植物lncRNA的研究已經(jīng)取得顯著進(jìn)展。隨著與植物相關(guān)的新lncRNA出現(xiàn),收集歸類植物非編碼RNA基因相關(guān)信息的數(shù)據(jù)庫(kù)也開始出現(xiàn),建立了系列針對(duì)植物的lncRNA數(shù)據(jù)庫(kù),如TAIR10、PlantNATsDB, PLncdb等(見表2)。這些數(shù)據(jù)庫(kù)信息的來(lái)源主要是通過(guò)匯總ChIP-seq、RNA-seq、Tilling array、文獻(xiàn),等其他數(shù)據(jù)庫(kù)信息。LncRNAdb(lncRNAs Database)數(shù)據(jù)庫(kù)收錄了289條真核生物的lncRNA相關(guān)信息,包含lncRNA特征、進(jìn)化保守性、表達(dá)、功能、種類、相關(guān)組件、序列及對(duì)應(yīng)的文獻(xiàn)。與植物相關(guān)的包括At4、COOLAIR、COLDAIR、AtIPS1、Npc48、Npc536、TERRA、OsPI1、OsENOD40、MtENOD40、TPSI1,GmENOD40等16個(gè)lncRNA表達(dá)情況及相關(guān)信息[74]。TAIR10(TheArabidopsisInformation Resource)是擬南芥專屬數(shù)據(jù)庫(kù)[75-76],匯總了擬南芥基因組序列及其基因圖譜、序列、表達(dá)、功能等,共收錄478條lncRNA信息。PlantNATsDB(Plant Natural Antisense Transcripts DataBase)數(shù)據(jù)庫(kù)包括2 138 498條反義轉(zhuǎn)錄對(duì),其主要用于預(yù)測(cè)和查詢植物天然反轉(zhuǎn)錄及其調(diào)控功能的數(shù)據(jù)庫(kù)[77]。PLncDB(Plant long non-coding RNA database)是目前收錄植物lncRNA最齊全的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)通過(guò)收集Tilling array、RNA-seq,文獻(xiàn)過(guò)濾等信息,獲得16 227條lncRNA數(shù)據(jù),能夠提供不同組織、發(fā)育階段、突變體和脅迫處理等應(yīng)激條件下lncRNA的表達(dá)特征,編碼位點(diǎn)及其側(cè)翼基因組區(qū)域表觀遺傳變化和功能[78]。NONCODE數(shù)據(jù)庫(kù)是專注于分析非編碼RNA基因的綜合知識(shí)平臺(tái),所有收入的非編碼RNA基因都是采取計(jì)算機(jī)自動(dòng)過(guò)濾GenBank數(shù)據(jù)和文獻(xiàn)報(bào)道中的信息,且經(jīng)過(guò)人工檢查確認(rèn),共收錄423 976條lncRNA信息??刹殚唋ncRNA的長(zhǎng)度、序列信息、生物功能及其表達(dá)模式、基因組上下游序列調(diào)控元件等[79]。PNRD數(shù)據(jù)庫(kù)目前數(shù)量約28 214,來(lái)自166種物種。包括lncRNA,tRNA,rRNA,tasiRNA,snRNA和snoRNA等。PNRD是一個(gè)植物ncRNA綜合分析平臺(tái),能夠提供許多功能搜索和分析工具,涉及ncRNA關(guān)鍵詞搜索,基于文獻(xiàn)的功能搜索,miRNA-target搜索和在線分析,包括新的miRNA預(yù)測(cè)工具包,編碼潛在計(jì)算器工具包,Blast工具和定制的UCSC基因組瀏覽器[80]。GREENC數(shù)據(jù)庫(kù)是基于Wiki數(shù)據(jù)建立的,可作為植物lncRNA的注釋和存檔。該數(shù)據(jù)庫(kù)于2015年開始提供有關(guān)lncRNA的序列,基因組坐標(biāo),編碼潛力和折疊能量的信息。其中包含來(lái)自37種植物和6種藻類的超過(guò)19萬(wàn)份轉(zhuǎn)錄本的信息[81]。CANTATAdb數(shù)據(jù)庫(kù)目前有45 117條lncRNA數(shù)據(jù),來(lái)源于10個(gè)物種。提供序列、RNA-Seq文庫(kù)中的表達(dá)值,基因組位置等信息[82]。而PLNlncRbase數(shù)據(jù)庫(kù)是基于系列實(shí)驗(yàn)得到的lncRNA形成的數(shù)據(jù)庫(kù)[83]。除了不斷完善的數(shù)據(jù)庫(kù)外,研究者們還開發(fā)了系列l(wèi)ncRNA的分析與預(yù)測(cè)工具,比如PhlyoCSF能夠使用CSF評(píng)分來(lái)計(jì)算lncRNA編碼潛力[84];CPS使用序列特征和SVM計(jì)算lncRNA的蛋白編碼潛力[85];CNCI通過(guò)分析相鄰核苷酸計(jì)算lncRNA的編碼潛力[86];CPAT使用邏輯回歸模型計(jì)算lncRNA的蛋白編碼潛力,DeepLNC利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)lncRNAs[87];iSeeRNA使用SVM算法預(yù)測(cè)lncRNAs[88]。LncRNATargets能夠基于核酸熱力學(xué)預(yù)測(cè)lncRNAs靶標(biāo)[89]。
近年來(lái)調(diào)節(jié)轉(zhuǎn)錄和翻譯的長(zhǎng)鏈非編碼RNA的不斷發(fā)現(xiàn),使基因組調(diào)節(jié)的全貌已發(fā)生了徹底改變。隨著研究的不斷深入以及相關(guān)理論技術(shù)的完善,發(fā)現(xiàn)植物中存在一系列特異lncRNA,其數(shù)量也在以驚人的速度增加。雖然目前已確定的lncRNAs很多,但對(duì)絕大部分lncRNA在生命活動(dòng)過(guò)程中的具體調(diào)控機(jī)制及功能模式仍不清除。與哺乳動(dòng)物lncRNA的研究報(bào)道相比,有關(guān)植物lncRNA的研究還比較落后,目前僅在擬南芥、水稻、小麥、玉米、黃瓜等中對(duì)lncRNA進(jìn)行了初步的系統(tǒng)識(shí)別和功能研究,距離完全解釋lncRNA的作用機(jī)制和生物學(xué)功能仍有較大距離。
生物信息學(xué)分析作為一種強(qiáng)有力的技術(shù)手段,在從實(shí)驗(yàn)設(shè)計(jì)到結(jié)果分析等各個(gè)層面發(fā)揮著不可替代的作用,既能夠啟迪研究人員設(shè)計(jì)階段的預(yù)判以少走彎路,也可以從結(jié)果分析中挖掘大量的有用信息,起到事半功倍的作用。
總體上來(lái)說(shuō),目前植物lncRNA的研究還處于初級(jí)探索階段,主要存在以下問(wèn)題:(1)lncRNA數(shù)據(jù)庫(kù)不夠完善。與植物lncRNA相關(guān)的基因組和蛋白質(zhì)組數(shù)據(jù)庫(kù)寥寥無(wú)幾;(2)lncRNA功能預(yù)測(cè)工具不多,針對(duì) lncRNA的生物信息學(xué)工具少,難以對(duì)lncRNA二級(jí)結(jié)構(gòu)等進(jìn)行有效地預(yù)測(cè), lncRNA作用機(jī)理還不清楚,應(yīng)用研究領(lǐng)域有限;(3)整體上有關(guān)植物lncRNA的新研究方法和預(yù)測(cè)功能的工具不夠,其功能研究的思路和技術(shù)不成熟,不能很好地注釋lncRNA的調(diào)節(jié)機(jī)制和生物學(xué)功能,也不能系統(tǒng)深入地研究lncRNA。在未來(lái)的幾年里,lncRNA表型的分析和解釋將是生物信息學(xué)工作者的主要挑戰(zhàn)。
表2 植物lncRNA數(shù)據(jù)庫(kù)及預(yù)測(cè)工具Table 2 Databases and prediction tools of plant lncRNAs
針對(duì)以上問(wèn)題,未來(lái)在植物中開展lncRNA的相關(guān)研究,首先需要不斷完善和逐步建立有共同特征的長(zhǎng)鏈非編碼 RNA文庫(kù),它將有助于確認(rèn)和預(yù)測(cè)非編碼RNA的功能特征;其次需要通過(guò)生物信息學(xué)結(jié)合實(shí)驗(yàn)組學(xué)的方法深入闡明lncRNAs基因調(diào)控機(jī)制,挖掘新的植物lncRNAs,并探索其在植物生長(zhǎng)發(fā)育、逆境脅迫、系統(tǒng)發(fā)育、品種改良等方面的功能及機(jī)制,這將對(duì)成功破解基因組的各種遺傳信息,深入了解植物的生命代謝、系統(tǒng)發(fā)育等具有十分積極的意義。