陶仕珍,田 斌,孫正海,張 睿
(1.云南林業(yè)職業(yè)技術(shù)學(xué)院,云南昆明650224;2.西南林業(yè)大學(xué),云南昆明650224)
轉(zhuǎn)錄組是指特定生物體在某種狀態(tài)下所有基因轉(zhuǎn)錄產(chǎn)物的總和。目前,以Illumina、454和ABI為代表的第2代測序技術(shù)的迅速發(fā)展及隨之產(chǎn)生的諸如SOAP-denov等新的分析方法使人們能更全面快速地了解真核生物復(fù)雜的轉(zhuǎn)錄組[1-2],更為全基因組測序尚未完成(無參考基因組)的生物提供了組學(xué)研究的新途徑[3]。
通過轉(zhuǎn)錄組測序分析能有效挖掘植物不同組織、不同生長發(fā)育時(shí)期及在不同環(huán)境下的基因表達(dá)差異[4]。另外,轉(zhuǎn)錄組測序?qū)π禄虻纳疃劝l(fā)掘、基因家族鑒定、代謝途徑確定等科學(xué)問題提供了新的解決途徑[5]。近年來,由于轉(zhuǎn)錄組測序成本的降低,通過轉(zhuǎn)錄組數(shù)據(jù)開發(fā)適用于動(dòng)植物育種、瀕危物種保護(hù)、群體遺傳學(xué)等領(lǐng)域的分子標(biāo)記也已獲得了很好的效果[6]。
鐵線蓮屬(Clematis)是毛茛科(Ranunculaceae Jussieu)的一個(gè)世界性分布的大屬,共約有350余種[7]。我國是鐵線蓮屬物種多樣性最高的國家之一,約有147種,其中93種為我國特有[8]。這個(gè)屬的植物多為大型攀援草本,并且有很多物種如轉(zhuǎn)子蓮(C.patens)、毛茛鐵線蓮(C.ranunculoides)、長瓣鐵線蓮(C.macropetala)等花大而艷麗,具有很高的園藝價(jià)值。此外這個(gè)屬的部分植物如繡球藤(C.montana)、威靈仙(C.chinensis)、小木通(C.armandii)等還有很高的藥用價(jià)值。本研究所涉及的物種繡球藤是鐵線蓮屬繡球藤組分布較廣泛的一個(gè)物種,自然分布于我國西南以及喜馬拉雅地區(qū),具有良好的藥用價(jià)值和觀賞價(jià)值[9]。
本研究擬利用Illumina測序平臺(tái)對(duì)繡球藤葉片的轉(zhuǎn)錄組進(jìn)行測序,對(duì)其測序組裝得到的unigene進(jìn)行分類統(tǒng)計(jì)、功能注釋以及代謝通路分析,并得到一批簡單重復(fù)序列(simple sequence repeat,簡稱SSR)位點(diǎn),為今后對(duì)鐵線蓮屬植物資源的深入研究和有效利用奠定基礎(chǔ)。
用十六烷基三甲基溴化銨(hexadecyltrimethylammonium bromide,簡稱CTAB)法[10]提取采自云南省昆明市的繡球藤新鮮葉片的總RNA。RNA的質(zhì)量和濃度用瓊脂糖凝膠電泳及Nanodrop 2000進(jìn)行檢測和測定。隨后,分別采用OligodT磁珠試劑盒從質(zhì)量、濃度合格的總RNA中分離純化出mRNA。加入緩沖液將純化的mRNA打斷成短片段,并以mRNA為模板,用六堿基隨機(jī)引物合成單鏈cDNA。合成單鏈cDNA后,加入緩沖液、dNTPs和DNA聚合酶Ⅰ合成雙鏈cDNA,并利用AMPure XP beads純化。純化的雙鏈cDNA經(jīng)過末端修復(fù)、加多聚腺嘌呤尾(ploy A),連接測序接頭,選擇片段大小以及PCR富集后成為最終的cDNA文庫。最后將獲得的cDNA文庫采用高通量測序平臺(tái)Illumina HiSeqTM2500進(jìn)行轉(zhuǎn)錄組測序。
獲得轉(zhuǎn)錄組原始測序數(shù)據(jù)后,采用自行開發(fā)的perl編程腳本對(duì)原始測序數(shù)據(jù)進(jìn)行質(zhì)量控制和數(shù)據(jù)過濾。質(zhì)量控制及數(shù)據(jù)過濾過程包括4個(gè)步驟:(1)去除包含測序接頭的序列;(2)去除N(N表示無法確定的堿基信息)的比例大于10%的序列;(3)去除低質(zhì)量序列(質(zhì)量值小于10的堿基數(shù)占整個(gè)序列的50%以上的序列,其中質(zhì)量值按照公式Q=-10lg e計(jì)算,式中:Q為質(zhì)量值;e為測序錯(cuò)誤率(不正確的堿基識(shí)別率);(4)去除冗余序列。數(shù)據(jù)過濾后,將所有過濾序列混合在一起,采用Trinity軟件[2]進(jìn)行拼接。該軟件拼接過程包括3個(gè)步驟:蟲、蛹和蝴蝶,經(jīng)過這3個(gè)拼接步驟后,得到包含大量簡并轉(zhuǎn)錄本和可變剪接形式的完整序列信息。最后,用CD -HIT軟件[3](http://www.bioinformatics.org/cd -h(huán)it/)對(duì)拼接后的序列進(jìn)行聚類以及冗余序列的去除,聚類后得到的轉(zhuǎn)錄本為unigene。
采用NCBI的本地Blast對(duì)聚類后得到的轉(zhuǎn)錄本進(jìn)行數(shù)據(jù)庫同源搜索,進(jìn)行相關(guān)功能注釋,搜索的期望值(E值)設(shè)定為 10-5。用于搜索的數(shù)據(jù)庫有 NR(the NCBI nonredundant)數(shù)據(jù)庫,Swiss-Prot(swissprot protein database)數(shù)據(jù)庫和KOG(eukaryotic ortholog groups)數(shù)據(jù)庫。此外,采用Blast2go 軟件[11]對(duì) unigene進(jìn)行基因本體論(gene ontology,簡稱 GO)注釋,并采用 WEGO 網(wǎng)站[12](http://wego.genomics.org.cn/cgi-bin/wego/index.pl)作 GO 功能分類統(tǒng)計(jì),從宏觀上認(rèn)識(shí)繡球藤的基因功能分布特征。
采用 MISA(MIcroSAtellite identification tool,http://pgrc.ipk-gatersleben.de/misa/)對(duì) unigene進(jìn)行 SSR位點(diǎn)查找。查找的原則為所有SSR位點(diǎn)為一至六核苷酸的堿基重復(fù)類型,其中單核苷酸重復(fù)次數(shù)最少為10次,二核苷酸重復(fù)次數(shù)至少為6次,三核苷酸、四核苷酸、五核苷酸和六核苷酸重復(fù)次數(shù)至少為5次。
采用Illumina HiSeqTM2500高通量測序平臺(tái)對(duì)繡球藤葉片轉(zhuǎn)錄組進(jìn)行測序,共得到原始reads 92 042 086個(gè),經(jīng)過濾后的reads數(shù)為80 406 986個(gè),過濾后用于組裝的數(shù)據(jù)量約為8 GB。隨后,通過Trinity軟件進(jìn)行無參拼接并用CD-HIT軟件進(jìn)行聚類以及冗余序列的去除。經(jīng)過拼接及聚類,最終得到的繡球藤轉(zhuǎn)錄組unigene的長度分布情況(圖1)??偣搏@得202 340個(gè)unigene,長度分布于201~19 415 bp之間,平均長度為642 bp,N50(按照長度將拼接轉(zhuǎn)錄本從大到小排序,累加轉(zhuǎn)錄本的長度為總長50%的拼接轉(zhuǎn)錄本長度)為646 bp。
2.2.1 數(shù)據(jù)庫同源比對(duì)及注釋 對(duì)聚類后得到的轉(zhuǎn)錄本進(jìn)行NR數(shù)據(jù)庫、Swiss-Prot數(shù)據(jù)庫和KOG數(shù)據(jù)庫同源比對(duì)及注釋。在E值為10-5的條件下,共95 586個(gè)unigene與3個(gè)數(shù)據(jù)庫序列具有同源性,占總數(shù)量的47.24%。與NR數(shù)據(jù)庫序列有同源性的 unigene最多,共 94 904個(gè),占總數(shù)的46.90%,其中64 655個(gè)(31.95%)的 unigene與 NR 數(shù)據(jù)庫有較高同源性(E≤ e-50)。其次是KOG數(shù)據(jù)庫,共24 774個(gè)unigene分類至24個(gè)功能,占總數(shù)的12.24%。在這些功能分類中,只能大致預(yù)測功能的 unigene數(shù)量最多,3 957個(gè)unigene,占15.97%,其次是翻譯后修飾、蛋白質(zhì)轉(zhuǎn)運(yùn)和分子伴侶功能,2 042 個(gè) unigene,占 8.24%;1 765(7.12%)個(gè)unigene具有翻譯,核糖體結(jié)構(gòu)的功能;1 388個(gè) unigene(5.61%)具有糖類運(yùn)輸及代謝功能;1 025個(gè) unigene(4.14%)具有氨基酸轉(zhuǎn)運(yùn)及代謝功能,最少的功能分類為細(xì)胞運(yùn)動(dòng)性功能,僅0.1%unigene具有該功能。3個(gè)數(shù)據(jù)庫中,比對(duì)后同源性最低的為Swiss-Prot數(shù)據(jù)庫,僅65 288個(gè)unigene與該數(shù)據(jù)庫具有同源性,E值大多分布在e-150~e-5之間。
2.2.2 GO功能分類 GO是一套國際標(biāo)準(zhǔn)化的基因功能描述的分類系統(tǒng)。根據(jù)功能,GO可分為三大類:細(xì)胞組分(cellular component)、分子功能(molecular function)和生物過程(biological process),分別用來描述基因編碼的產(chǎn)物所處的細(xì)胞環(huán)境、所具有的分子功能及所參與的生物過程。采用Blast2go軟件對(duì)unigene進(jìn)行GO注釋,并采用WEGO網(wǎng)站作GO功能分類統(tǒng)計(jì),可得到圖2結(jié)果。所有unigene中,可將64 542個(gè)unigene劃分至三大類38個(gè)功能亞類,其中22 166個(gè)unigene具有細(xì)胞組分功能,27 092個(gè)unigene具有分子功能,15 288個(gè)unigene具有生物過程功能(單個(gè)unigene可同時(shí)具有多個(gè)功能)。從三大類來看,細(xì)胞組分大類中,具有細(xì)胞和細(xì)胞組成功能的unigene最多;分子功能大類中,具有綁定、催化活性功能的unigene最多;而生物過程大類下,具有細(xì)胞過程和代謝過程的unigene數(shù)量最多。通過基因功能注釋過程,可從宏觀上認(rèn)識(shí)繡球藤的基因功能分布特征,為后期的研究奠定基礎(chǔ)。
2.2.3 unigene的COG功能分類 對(duì)繡球藤unigene的蛋白質(zhì)直系同源數(shù)據(jù)庫(cluster of orthologous groups,簡稱COG)功能分類結(jié)果表明,繡球藤注釋到COG的unigene根據(jù)功能大致可分為26類,并對(duì)每類的unigene數(shù)量進(jìn)行統(tǒng)計(jì)分析,結(jié)果見圖3。其中,一般功能預(yù)測類基因最多(7 978個(gè));其次是翻譯后修飾、蛋白質(zhì)折疊和分子伴侶類基因(1 986個(gè))及信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(1 800個(gè));而細(xì)胞活性(8個(gè))和未知功能(1個(gè))的基因較少。
2.2.4 unigene的KEGG分析 筆者所在實(shí)驗(yàn)室對(duì)KEGG注釋結(jié)果作了分類統(tǒng)計(jì),根據(jù)參與的KEGG代謝通路,將基因分為5個(gè)分支。其中,細(xì)胞過程552個(gè),環(huán)境信息處理449個(gè),遺傳信息處理1 330個(gè),代謝2 282個(gè),有機(jī)系統(tǒng)772個(gè)。由圖4可知,在所有的注釋中數(shù)量最多的3個(gè)分類為翻譯550個(gè),碳水化合物代謝(carbohydrate metabolism)515個(gè),信號(hào)轉(zhuǎn)導(dǎo)(signal transduction)360個(gè)(圖4)。這些注釋為后續(xù)次生代謝物的合成和代謝提供了很多有價(jià)值的信息。
2.2.5 SSR分析 對(duì)組裝后的繡球藤202 340個(gè)unigene進(jìn)行SSR位點(diǎn)搜索,共檢測到10 255個(gè)SSR位點(diǎn)。通過位點(diǎn)搜索,沒有發(fā)現(xiàn)六核苷酸重復(fù)類型。其中,單核苷酸重復(fù)為5 224個(gè),占50.94%;二核苷酸重復(fù)為2 590個(gè),占25.26%;三核苷酸重復(fù)為1 952個(gè),占19.03%;四核苷酸、五核苷酸重復(fù)所占比例較低,分別僅有58、13個(gè)。另外在檢測到的SSR位點(diǎn)中,復(fù)合SSR出現(xiàn)了418個(gè)。由于單核苷酸SSR位點(diǎn)在實(shí)際運(yùn)用中較難統(tǒng)計(jì),因此在基序統(tǒng)計(jì)中去除了單核苷酸重復(fù)的位點(diǎn),結(jié)果顯示,二堿基重復(fù)出現(xiàn)頻率最高的3類基序?yàn)镚A(540個(gè))、AG(485個(gè))、TC(396個(gè));三堿基重復(fù)出現(xiàn)頻率最高的3類基序?yàn)镚AA(115個(gè))、AGA(111個(gè))、AAG(110個(gè))。上述SSR特征分析有助于開展繡球藤及其鐵線蓮屬植物的微衛(wèi)星序列差異分析、分子標(biāo)記開發(fā)和高密度遺傳圖譜構(gòu)建的研究。
利用Illumina測序平臺(tái)對(duì)繡球藤葉片的轉(zhuǎn)錄組進(jìn)行測序和分析,首次揭示了繡球藤轉(zhuǎn)錄組的基本表達(dá)模式,初步獲得了一批在繡球藤葉片中表達(dá)的基因序列信息,共獲得202 340條質(zhì)量較高的unigene,其中得到注釋的有95 586條,表明鐵線蓮屬植物存在大量的未知功能基因,為深入開展藥用植物生物活性成分的合成和鑒定提供了豐富的數(shù)據(jù)資料。在利用現(xiàn)代分子生物學(xué)技術(shù)提高天然藥用植物有效成分產(chǎn)量以及相關(guān)藥物研發(fā)和生產(chǎn)方面,具有重要的理論和應(yīng)用價(jià)值。另外,筆者所在實(shí)驗(yàn)室發(fā)現(xiàn)的繡球藤SSR位點(diǎn)能開發(fā)出大量適用于繡球藤的分子標(biāo)記,為今后分子標(biāo)記輔助育種及群體遺傳學(xué)研究提供了第一手研究資料,并且結(jié)合這些unigene基因信息和SSR位點(diǎn)能對(duì)鐵線蓮屬植物的系統(tǒng)進(jìn)化研究提供幫助。