白晶,李力恒,孫堯,扈韻綺,付博
(1.黑龍江中醫(yī)藥大學(xué),黑龍江 哈爾濱 150040;2.黑龍江省農(nóng)業(yè)科學(xué)院博士后科研工作站,東北林業(yè)大學(xué)博士后科研流動(dòng)站,黑龍江 哈爾濱 150086;3.黑龍江省農(nóng)業(yè)科學(xué)院畜牧研究所,黑龍江 哈爾濱 150086)
中藥成分的藥理學(xué)及化學(xué)研究已很成熟,但其天然活性成分的調(diào)控機(jī)理、生物合成途徑的研究才剛起步。未來(lái)中醫(yī)藥發(fā)展的主要方向,是運(yùn)用次生代謝工程手段研發(fā)生產(chǎn)中藥,對(duì)于中草藥次生代謝產(chǎn)物合成途徑及其調(diào)控機(jī)制的闡明尤為重要。
然而,由于大多數(shù)中草藥為非模式生物,很多中草藥的生長(zhǎng)、發(fā)育、次生代謝等生物學(xué)過(guò)程中的分子機(jī)制尚未得到詳細(xì)闡述,大多數(shù)藥用植物基因組信息缺乏,遺傳信息和功能基因的研究滯后,尤其是對(duì)以上過(guò)程中的功能基因挖掘明顯滯后于模式植物,這嚴(yán)重阻礙了傳統(tǒng)中醫(yī)向現(xiàn)代中醫(yī)的發(fā)展。因此,對(duì)傳統(tǒng)中草藥重要功能基因的挖掘成為當(dāng)務(wù)之急。
轉(zhuǎn)錄組代表細(xì)胞或組織內(nèi)全部RNA轉(zhuǎn)錄本,包括編碼蛋白質(zhì)的mRNA和各種非編碼RNA(microRNA、lncRNA等)。后基因組時(shí)代,轉(zhuǎn)錄組研究能夠從整體水平研究基因功能以及基因結(jié)構(gòu),對(duì)解決生物學(xué)功能研究、基因進(jìn)化、遺傳育種以及生態(tài)多樣性等諸多方面的問(wèn)題具有重要意義,現(xiàn)已廣泛應(yīng)用于臨床診斷和藥物研發(fā)[1]。藥用植物次生代謝產(chǎn)物生物合成關(guān)鍵酶基因的發(fā)現(xiàn),次生代謝途徑的闡明,轉(zhuǎn)錄組學(xué)研究顯示了重要的應(yīng)用價(jià)值。RNA-seq作為新興的高通量測(cè)序技術(shù)以其成本低,速度快,精確度高等優(yōu)勢(shì)逐漸應(yīng)用到轉(zhuǎn)錄組的研究中[2-3]。近期,作為非編碼RNA的lncRNA逐漸得到了研究人員的重視,并認(rèn)為lncRNA在基因表達(dá)調(diào)控中發(fā)揮重要作用,廣泛參與生理活動(dòng)和疾病過(guò)程[4]。
應(yīng)用RNA-seq技術(shù)挖掘傳統(tǒng)中草藥中若干重要長(zhǎng)非編碼RNA(lncRNA)可為闡明中草藥的生長(zhǎng)、發(fā)育、次生代謝等生物學(xué)過(guò)程中的分子調(diào)控機(jī)制奠定理論基礎(chǔ)。本文將對(duì)中草藥RNA-seq技術(shù)研究策略及l(fā)ncRNA挖掘方法做簡(jiǎn)要綜述。
通過(guò)單基因研究策略不能很快揭示中草藥天然活性成分生物合成途徑,亟需采用高通量方式在整體水平上全面分析基因組和功能表達(dá)之間的聯(lián)系。因此,從RNA水平研究中草藥在特定生長(zhǎng)時(shí)期和培養(yǎng)條件下全基因組轉(zhuǎn)錄情況可揭示基因編碼RNA(mRNA)和非編碼RNA(Non-codingRNA,ncRNA)的表達(dá)水平及其調(diào)控規(guī)律,進(jìn)一步推動(dòng)中草藥基因功能和ncRNA調(diào)控機(jī)制的研究。上一代轉(zhuǎn)錄組研究方法主要通過(guò)基因芯片技術(shù)、基于傳統(tǒng)sanger測(cè)序法的SAGE技術(shù)(serial analysis of gene expression)、LongSAGE技術(shù)、MPSS(massively parallel signature sequencing)等。其中,基因芯片技術(shù)應(yīng)用較廣。但與RNA-seq研究方法相比,基因芯片技術(shù)存在以下缺陷:
1)基因芯片的精確度依賴于探針的數(shù)量和重疊度,使得基因芯片的成本大大增加。
2)由于基因芯片是通過(guò)判斷雜交信號(hào)的強(qiáng)弱來(lái)間接反映轉(zhuǎn)錄本表達(dá)水平,因此容易受到背景信號(hào)和交錯(cuò)雜交的干擾,也不能用于低豐度轉(zhuǎn)錄本的檢測(cè)(細(xì)胞內(nèi)低豐度的ncRNA往往具有重要的調(diào)控作用并發(fā)揮重要生物學(xué)功能)。
3)基因芯片法必須有相應(yīng)物種的基因組序列作參照[5]。
因此該方法只能用于基因組序列已知的物種的轉(zhuǎn)錄組分析,使得缺乏基因組序列參照的傳統(tǒng)中草藥轉(zhuǎn)錄組研究舉步維艱。
RNA-seq測(cè)序剛剛發(fā)展起來(lái),它利用深度測(cè)序方法進(jìn)行轉(zhuǎn)錄組分析,該技術(shù)正在改變著轉(zhuǎn)錄組研究的方式,它具有以下優(yōu)勢(shì):
1)在轉(zhuǎn)錄組水平上發(fā)現(xiàn)SNP。識(shí)別一個(gè)基因不同的轉(zhuǎn)錄本和可變剪切位點(diǎn)。
2)無(wú)需設(shè)計(jì)特異性的探針。可以無(wú)研究物種基因信息,直接對(duì)任何物種的轉(zhuǎn)錄組進(jìn)行分析。
3)以更高的分辨率和覆蓋度對(duì)細(xì)胞內(nèi)所有轉(zhuǎn)錄本進(jìn)行直接檢測(cè)。
4)能夠檢測(cè)未知基因和發(fā)現(xiàn)新的轉(zhuǎn)錄本。
5)測(cè)序成本大大降低。
目前,有Illumina公司(Genome Analyzer II)、ABI公司(ABSOLiD)、Roche公司(454 GS-FLX)三大公司是比較大規(guī)模平行測(cè)序(Massive parallel sequencing,MPS)的技術(shù)平臺(tái)。這三個(gè)平臺(tái)各有優(yōu)勢(shì),其中,Illumina公司的Genome Analyzer II平臺(tái)通過(guò)文庫(kù)構(gòu)建、錨定橋接、PCR擴(kuò)增、單堿基延伸測(cè)序等步驟實(shí)現(xiàn)高通量測(cè)序過(guò)程,該平臺(tái)具有高準(zhǔn)確性、高通量、高靈敏度和低運(yùn)行成本等突出優(yōu)勢(shì),是目前使用最廣泛的新一代測(cè)序平臺(tái)。ABI公司的ABSOLiD平臺(tái)具有讀取精確度高和數(shù)據(jù)輸出量大和低成本等優(yōu)勢(shì),但序列讀長(zhǎng)較短,測(cè)序后數(shù)據(jù)的裝配需要強(qiáng)大生物信息學(xué)分析技術(shù)的支持。Roche公司的454 GS-FLX平臺(tái)雖準(zhǔn)確率較低,成本高,但讀長(zhǎng)可達(dá)400bp,尤其適用于缺乏基因組參考而需要從頭拼接的中草藥等轉(zhuǎn)錄組研究。
筆者認(rèn)為,在中草藥大多缺乏可參考的基因組信息的情況下,Roche公司的454 GS-FLX平臺(tái)比較適合中草藥的RNA-seq研究。因?yàn)椋瑴y(cè)序讀長(zhǎng)越長(zhǎng),越有利于序列的組裝和生物信息學(xué)分析,Roche公司的454 GS-FLX平臺(tái)可達(dá)400bp左右。
目前,應(yīng)用RNA-seq技術(shù),可以對(duì)中草藥進(jìn)行轉(zhuǎn)錄本結(jié)構(gòu)及變異、基因表達(dá)水平差異、非編碼區(qū)域功能、低豐度全新轉(zhuǎn)錄本發(fā)現(xiàn)等研究。RNA-seq已經(jīng)成功用于水稻、玉米等的大規(guī)模EST測(cè)序研究,并發(fā)現(xiàn)了這些物種更多 EST[6-8]。例如,Logacheva等通過(guò)比較甜蕎(F.esculentum)和苦蕎(F.tataricum)的轉(zhuǎn)錄組測(cè)序結(jié)果,分析了兩者的差異表達(dá)基因,這些差異基因包括逆轉(zhuǎn)座子基因以及糖類合成與代謝相關(guān)基因[9]。
最近,我國(guó)學(xué)者對(duì)少數(shù)中草藥的轉(zhuǎn)錄組研究上也取得了可喜進(jìn)展[10-12]。
盡管RNA-seq技術(shù)的應(yīng)用前景廣闊,但該技術(shù)也面臨一系列挑戰(zhàn),在海量的序列數(shù)據(jù)中,如何詮釋和鑒定同源基因,如何確定最佳測(cè)序深度,如何針對(duì)更復(fù)雜的轉(zhuǎn)錄組來(lái)識(shí)別RNA亞型的表達(dá)變化,如何降低樣本起始量以滿足某些珍貴中草藥轉(zhuǎn)錄組測(cè)序要求,如何提供序列轉(zhuǎn)錄的方向信息,以及在缺乏基因組信息的情況下,如何對(duì)中草藥等非模式生物測(cè)序序列進(jìn)行基因組定位和注釋(目前,只能進(jìn)行從頭拼裝,并通過(guò)同源比對(duì)進(jìn)行測(cè)序序列的注釋和分析,因此對(duì)后期生物信息學(xué)分析方法及軟件有極高的要求)。相信隨著測(cè)序方法的不斷進(jìn)步,使用更長(zhǎng)的讀段技術(shù)或單分子測(cè)序技術(shù)有望回答以上問(wèn)題。
非編碼RNA是一類不編碼蛋白質(zhì)但具有多種重要生物學(xué)調(diào)控功能的RNA分子,可以通過(guò)調(diào)節(jié)mRNA的穩(wěn)定性及參與RNA的加工和修飾、參與蛋白質(zhì)的運(yùn)輸、調(diào)控染色體的結(jié)構(gòu)等機(jī)制,發(fā)揮在胚胎發(fā)育、組織分化、器官形成等生物學(xué)過(guò)程中的調(diào)控作用。
近期,非編碼 RNA中的長(zhǎng)非編碼 RNA(long non-protein coding RNA,lncRNA)得到了研究人員的廣泛關(guān)注。長(zhǎng)非編碼RNA是在真核生物中新發(fā)現(xiàn)的一類核苷酸,它具有低豐度、類似mRNA結(jié)構(gòu)特征,無(wú)長(zhǎng)閱讀框架,且長(zhǎng)度大于200 bp?;虮磉_(dá)、基因組印記、表觀遺傳調(diào)控、X染色體失活、蛋白質(zhì)折疊等生物學(xué)過(guò)程,都有其廣泛參與。
lncRNA還可以作為分子伴侶調(diào)控蛋白質(zhì)的構(gòu)象和作為結(jié)構(gòu)分子錨定蛋白質(zhì)在細(xì)胞內(nèi)的位置。不僅可以通過(guò)結(jié)合轉(zhuǎn)錄因子來(lái)激活或抑制靶基因的表達(dá),還能參與組蛋白修飾、mRNA拼接等過(guò)程。
雖然lncRNA在各種生物學(xué)過(guò)程中發(fā)揮極其重要的調(diào)控作用,而且目前部分lncRNA已得到確定,但對(duì)絕大部分lncRNA在生命活動(dòng)過(guò)程中的具體調(diào)控機(jī)制及功能模式仍不清楚,中草藥轉(zhuǎn)錄組中l(wèi)ncRNA資源更是急待挖掘。
現(xiàn)階段lncRNA的預(yù)測(cè)仍依賴生物信息學(xué)技術(shù),以挖掘其中l(wèi)ncRNA的序列、結(jié)構(gòu)、表達(dá)及功能等信息。使用生物信息學(xué)方法對(duì)RNA-seq測(cè)序結(jié)果進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果進(jìn)行RNAi和RIP等lncRNA功能驗(yàn)證實(shí)驗(yàn),可以避免功能研究實(shí)驗(yàn)的盲目性,從而節(jié)約大量實(shí)驗(yàn)成本。
將測(cè)序讀段集合并恢復(fù)轉(zhuǎn)錄組結(jié)構(gòu)的過(guò)程被稱作轉(zhuǎn)錄組重建,轉(zhuǎn)錄組重建主要分為參考基因組法和基因組獨(dú)立法,基因組獨(dú)立法更適用于中草藥轉(zhuǎn)錄組重建,同時(shí)需要較高的測(cè)序深度。轉(zhuǎn)錄組重建后通過(guò)Cuffcompare等軟件將重建轉(zhuǎn)錄組與現(xiàn)有基因注釋進(jìn)行比較,以獲取重建轉(zhuǎn)錄組的分類,進(jìn)而利于lncRNA的識(shí)別過(guò)程。lncRNA識(shí)別過(guò)程簡(jiǎn)要概述如圖1。
圖1 IncRNA識(shí)別過(guò)程
提取外顯子總長(zhǎng)度大于200堿基的轉(zhuǎn)錄本,此閾值是由lncRNA的定義所決定,本質(zhì)上是用來(lái)區(qū)分lncRNA與小ncRNA(如miRNA等),但從轉(zhuǎn)錄本中區(qū)分mRNA與ncRNA確實(shí)是一個(gè)繁瑣復(fù)雜的過(guò)程。對(duì)于編碼蛋白質(zhì)的mRNA來(lái)說(shuō),其開(kāi)放閱讀框(ORF)長(zhǎng)度一般大于300堿基,若RNA序列的假定ORF長(zhǎng)度小于300堿基,則會(huì)被判定為ncRNA,但這顯然會(huì)導(dǎo)致H19、Xist等假定ORF長(zhǎng)度大于300堿基的ncRNA的誤判。應(yīng)用CPC、CONC、lncRNA等監(jiān)督機(jī)器學(xué)習(xí)(supervised machine learning)方法,可通過(guò)學(xué)習(xí)肽鏈長(zhǎng)度、氨基酸構(gòu)成、蛋白質(zhì)同源性、二級(jí)結(jié)構(gòu)、蛋白質(zhì)比對(duì)或表達(dá)等多種特征,建立分類模型,因而可以減少此類誤判的發(fā)生。
近年來(lái),研究人員開(kāi)發(fā)了多種用于lncRNA差異表達(dá)分析的軟件。其中,EdgeR、Cuffdiff、DESeq和DEXSeq等方法引入負(fù)二項(xiàng)分布(negative bionormial distribution)模型,相比泊松分布能更好地適應(yīng)生物學(xué)偏差。隨著生物信息學(xué)的迅猛發(fā)展,研究人員也開(kāi)發(fā)了包括catRAPID(Fast predictions of RNA and protein interactions and domains)在內(nèi)的若干在線分析lncRNA的生物信息學(xué)平臺(tái)。但是,比較綜合且較完善的涵蓋各物種lncRNA的強(qiáng)大數(shù)據(jù)庫(kù)尚未建立,由于lncRNA屬于低豐度mRNA,需要RNA-seq的測(cè)序深度更深,中草藥重要功能lncRNA的挖掘面對(duì)極大的挑戰(zhàn)。
當(dāng)前,lncRNA研究正處于起步階段,面臨著諸多問(wèn)題亟待解決:
1)lncRNA的定義尚存爭(zhēng)議。一般認(rèn)為,lncRNA是長(zhǎng)度大于200個(gè)核苷酸的非編碼RNA。但是,有研究者認(rèn)為,以200個(gè)核苷酸作為界定lncRNA過(guò)于武斷,因?yàn)楹芏嘈∮?00個(gè)核苷酸的非編碼RNA既不屬于小RNA(Small RNA)也不屬于結(jié)構(gòu)RNA(Structural RNA)。
2)如何區(qū)分功能性和非功能性非編碼轉(zhuǎn)錄物依然存在困難。
3)由于lncRNA種類和功能的多樣性,致使不同lncRNA研究結(jié)果之間的借鑒意義不高。
4)已有l(wèi)ncRNA數(shù)據(jù)較少,對(duì)lncRNA的注釋不夠豐富。
盡管RNA-Seq技術(shù)還面臨著種種困難,而且,目前對(duì)lncRNA的生物學(xué)功能和結(jié)構(gòu)特征知之甚少,但是它的發(fā)現(xiàn)能力和尋找新的轉(zhuǎn)錄本的能力從本質(zhì)上高于芯片技術(shù),相信隨著生物物理技術(shù)的不斷進(jìn)步和測(cè)序成本的進(jìn)一步降低,通過(guò)RNA-Seq高通量測(cè)序技術(shù)對(duì)傳統(tǒng)中草藥中l(wèi)ncRNA的序列、結(jié)構(gòu)、表達(dá)及功能等信息的挖掘,定會(huì)為中草藥的生長(zhǎng)、發(fā)育、代謝等生物學(xué)過(guò)程中的分子機(jī)制的闡明奠定理論基礎(chǔ)。
[1] Swarbreck SM,Lindquist EA,Ackerly DD,et al.Analysis of leaf and root transcriptomes of soil-grown Avena barbata plants[J].Plant Cell Physiol,2011,52(2):317-332.
[2] 夏天,肖丙秀,郭俊明.長(zhǎng)鏈非編碼RNA的作用機(jī)制及其研究方法[J].遺傳,2013,35(3):269-280.
[3] Marioni JC,Mason CE,Mane SM,et al.RNA-seq:an assessment of technical reproducibility and comparison with gene expression arrays[J].Genome Res,2008,18(9):1509-1517.
[4] 祁云霞,劉永斌,榮威恒.轉(zhuǎn)錄組研究新技術(shù):RNASeq及其應(yīng)用[J].遺傳,2011,33(11):1191-1202.
[5] 李湘龍,柏斌,吳俊,等.第二代測(cè)序技術(shù)用于水稻和稻瘟菌互作早期轉(zhuǎn)錄組的分析[J].遺傳,2012,34(1):102-112.
[6] Weber APM,Weber KL,Carr K,et al.Sampling the arabidopsis transcriptome with massively parallel pyrosequencing[J].Plant Physiol,2007,144(1):32-42.
[7] Logacheva MD,Kasianov AS,Vinogradov DV,et al.De novo sequencing and characterization of floral transcriptome in two species of buckwheat(Fagopyrum)[J].BMC Genomics,2011,12(1):30.
[8] Li Y,Sun C,Luo HM,et al.Transcriptome characterization for Salvia miltiorrhiza using 454GS FLX[J].Acta Pharmaceutica Sin,2010,45(4):524-529.
[9] Wu Q,Sun C,Luo HM,et al.Transcriptome analysis of Taxus cuspidate needles based on 454 pyrosequencing[J].Planta Med,2011,77(4):394-400.
[10] Zhou YJ,Gao F,Liu R,et al.De novo sequencing and analysis of root transcriptome using 454 pyrosequencing to discover putative genes associated with drought tolerance in Ammopiptanthus mongolicus[J].BMC Genomics,2012,13(1):266.
[11] Hao DC,Ma P,Mu J,et al.De novo characterization of the root transcriptome of a traditional Chinese medicinal plant Polygonum cuspidatum[J].Sci China Life Sci,2012,55(5):452-466.
[12] Lu ZJ,Yip KY,Wang G,et al.Prediction and characterization of noncoding RNAs in C.elegans by integrating conservation,secondary structure,and high-throughput sequencing and array data[J].Genome Res,2011,21(2):276-285.