李祥翔,夏茂華,普天春,盧 巖,張成林,.
(1.北京動(dòng)物園,北京 100044;2.圈養(yǎng)野生動(dòng)物技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044)
轉(zhuǎn)錄組是細(xì)胞在特定發(fā)展階段或生理狀態(tài)下所能轉(zhuǎn)錄出來(lái)的所有轉(zhuǎn)錄本的總和。轉(zhuǎn)錄組研究有助于人們進(jìn)一步解讀基因組的功能元件,揭示細(xì)胞及組織的分子組成,理解發(fā)育及疾病的生理進(jìn)程。轉(zhuǎn)錄組研究最主要的目標(biāo)是:檢測(cè)所有種類的轉(zhuǎn)錄本,包括mRNA,非編碼RNA(non-coding-RNA)以及小RNA等;確定基因的轉(zhuǎn)錄結(jié)構(gòu),以及各種轉(zhuǎn)錄后修飾;研究基因在不同生長(zhǎng)階段及生理狀態(tài)下的表達(dá)量變化。
隨著新一代測(cè)序技術(shù)的飛速發(fā)展,高通量測(cè)序技術(shù)越來(lái)越多的被應(yīng)用于解決生物學(xué)問(wèn)題。RNA-Seq應(yīng)用高通量測(cè)序技術(shù)對(duì)cDNA進(jìn)行直接測(cè)序,之后將測(cè)序讀段與基因組進(jìn)行比對(duì),轉(zhuǎn)錄組測(cè)序技術(shù)在分析轉(zhuǎn)錄本的結(jié)構(gòu)和表達(dá)水平的同時(shí),還可以獲得新轉(zhuǎn)錄本、可變剪、SNP等重要信息。相較于基因芯片技術(shù),轉(zhuǎn)錄組測(cè)序技術(shù)不受物種的基因組數(shù)據(jù)是否完整的限制,具有更高的分辨率(精確到單堿基),背景噪音低,重復(fù)性高,成本較低。
RNA-Seq應(yīng)用深度測(cè)序技術(shù),原理為將總RNA轉(zhuǎn)化為cDNA片段文庫(kù)并將測(cè)序接頭連接到片段末端,利用高通量方式進(jìn)行單末端(single-end sequencing)或雙末端(pair-end sequencing)測(cè)序獲得短序列(reads),依據(jù)所使用的測(cè)序技術(shù),reads長(zhǎng)度一般在30~400bp。原則上任何高通量測(cè)序技術(shù)都可以用于轉(zhuǎn)錄組測(cè)序,例如Roche 454測(cè)序平臺(tái)的焦磷酸測(cè)序法,Illumina Solexa測(cè)序平臺(tái)使用合成測(cè)序法,Apply Biosystems SOLiD測(cè)序平臺(tái)則是基于磁珠的大規(guī)模并行克隆連接DNA測(cè)序法。
以目前較為常用的Illumina測(cè)序平臺(tái)為例,RNA-Seq的技術(shù)流程為:首先對(duì)樣品RNA進(jìn)行質(zhì)檢,檢測(cè)合格后對(duì)真核生物用Oligo(dT)磁珠富集mRNA;對(duì)原核生物通過(guò)試劑盒去除rRNA來(lái)富集mRNA。之后將mRNA打斷成段片斷,加入六堿基隨機(jī)引物以mRNA為模板合成第一鏈cDNA,加入緩沖 液、dNTPs和DNA polymerase I,RNA鏈 從DNA-RNA雜交鏈中脫離,置換鏈被合成從而產(chǎn)生雙鏈cDNA。對(duì)雙鏈cDNA進(jìn)行純化、末端修復(fù)、poly(A)加尾,連接測(cè)序接頭。對(duì)處理后的cDNA進(jìn)行PCR擴(kuò)增,對(duì)PCR進(jìn)行片段大小的選擇形成最終的cDNA文庫(kù),之后上機(jī)測(cè)序。
在測(cè)序后的生物信息學(xué)分析過(guò)程中,對(duì)有參考基因組的物種,所產(chǎn)生的reads可與參考基因組進(jìn)行比對(duì);對(duì)無(wú)參考基因組或參考基因組不完全的物種,也可以不依賴基因組序列對(duì)reads進(jìn)行組裝。相較于基因雜交技術(shù)的測(cè)序方法,RNA-Seq技術(shù)不受物種的基因組數(shù)據(jù)是否完整的限制,對(duì)某些基因組序列未知的非模式生物RNA-Seq技術(shù)提供了一個(gè)新的研究方式。RNA-Seq具有更高的分辨率能夠精確到單堿基,可以揭示轉(zhuǎn)錄邊界的精確位置。此外,它可以依據(jù)30bp長(zhǎng)度的短reads來(lái)定位兩個(gè)外顯子的邊界,對(duì)較長(zhǎng)的reads則可以顯示多個(gè)外顯子之間的連接。同時(shí)RNA-Seq還可以鑒定轉(zhuǎn)錄區(qū)的序列變異,例如SNPs。這些特性使得RNA-Seq非常適合用于研究復(fù)雜的轉(zhuǎn)錄組。與芯片技術(shù)相比,RNA-Seq的背景噪音很低,這是由于測(cè)序序列可以明確映射到基因組的特定區(qū)域。RNA-Seq對(duì)基因表達(dá)水平定量的動(dòng)態(tài)范圍更大,也更容易檢測(cè)到表達(dá)量較低的基因且精確度高,與qPCR定量結(jié)果的相關(guān)性好。RNA-Seq的測(cè)序結(jié)果在技術(shù)重復(fù)及生物重復(fù)上都顯示出高水平的重復(fù)性。
RNA-seq不僅可以研究差異表達(dá)基因轉(zhuǎn)錄水平和功能注釋,而且還能獲取新轉(zhuǎn)錄本(transcripts)、非編碼RNA、結(jié)構(gòu)變異、分子標(biāo)記開(kāi)發(fā)等。目前該技術(shù)在生物醫(yī)藥等領(lǐng)域發(fā)揮重要作用。其中差異基因表達(dá)譜是目前RNA-seq研究的主要方面。
病原菌的致病機(jī)制和宿主的免疫應(yīng)答反應(yīng)是動(dòng)物病原與宿主互作研究的熱點(diǎn)方向。采用RNA-seq技術(shù)分析病原菌感染宿主細(xì)胞后宿主細(xì)胞的基因表達(dá)水平有助于研究病原菌致病機(jī)制和宿主免疫反應(yīng),并發(fā)現(xiàn)一些新的致病相關(guān)的基因。
3.1 RNA-seq在動(dòng)物病毒病相關(guān)基因篩選中的應(yīng)用RNA-seq技術(shù)克服了基于探針雜交的組學(xué)研究技術(shù)的諸多缺陷,因而在疾病等復(fù)雜性狀的研究中正發(fā)揮越來(lái)越重要的作用。周懷軍等在研究禽類抗禽流感機(jī)制的研究中發(fā)現(xiàn),血紅蛋白基因家族、氧轉(zhuǎn)運(yùn)和循環(huán)、細(xì)胞粘附分子等信號(hào)通路可能在雞抗禽流感中發(fā)揮重要作用。Cong等以感染支氣管炎病毒和未感染支氣管炎病毒的腎臟組織為試驗(yàn)材料,利用RNA-seq,共鑒定差異基因1777個(gè),其中103個(gè)基因與免疫和炎性反應(yīng)有關(guān),并確定IL-6、STATl、MYD88、IRFl和NF-kB2為調(diào)控支氣管炎病毒感染的關(guān)鍵基因,為宿主對(duì)支氣管炎病毒的應(yīng)答提供了一個(gè)全面提示。張清瑞等從DHAV-1感染的鴨肝臟和脾臟中鑒定出了7599個(gè)差異基因,其中包括TNF-Q和IL-1B等炎癥因子,為鴨病毒性肝炎的研究提供了理論基礎(chǔ)。
3.2 RNA-seq在動(dòng)物細(xì)菌病相關(guān)基因篩選中的應(yīng)用RNA-seq技術(shù)在細(xì)菌性疾病的研究中同樣也得到了應(yīng)用,Matulova等以腸炎沙門氏菌感染1日齡雛雞為樣本,用RNA-seq技術(shù)在盲腸中檢測(cè)到了48個(gè)下調(diào)的和56個(gè)上調(diào)的基因,其中包括IL-22、IL-1B等炎癥相關(guān)基因。同時(shí)在另一項(xiàng)研究觀察到沙門氏菌感染導(dǎo)致46日齡雞脾臟中40個(gè)基因的表達(dá)上調(diào),其中包括TRAP6(trappin-6-like protein)等免疫相關(guān)基因。Wang等將體內(nèi)感染副豬嗜血桿菌6d后豬的原代豬肺泡巨噬細(xì)胞分離并進(jìn)行基因芯片分析,共鑒定到428個(gè)差異表達(dá)基因,這些基因與炎癥反應(yīng),免疫反應(yīng),微管聚合,轉(zhuǎn)錄調(diào)節(jié)和信號(hào)轉(zhuǎn)導(dǎo)等有關(guān),并鑒定了SIOOA4和SIOOA6是兩個(gè)新的與副豬嗜血桿菌感染相關(guān)基因。陳洪波等通過(guò)對(duì)感染副嗜血桿菌的豬脾臟進(jìn)行芯片分析,得到92個(gè)差異表達(dá)基因,主要與粘附分子,炎癥反應(yīng),轉(zhuǎn)錄因子,急性期蛋白和補(bǔ)體,抗原加工呈遞等功能相關(guān)。
3.3 RNA-seq在動(dòng)物寄生蟲(chóng)病相關(guān)基因篩選中的應(yīng)用當(dāng)熊貓被第一個(gè)應(yīng)用高通量技術(shù)完成全基因組測(cè)序后,多種寄生蟲(chóng)轉(zhuǎn)錄組也被測(cè)定完成,如瘧原蟲(chóng)、豬鞭蟲(chóng)腳、秀麗隱桿線蟲(chóng)、曼氏血吸蟲(chóng)心和細(xì)粒棘球絳蟲(chóng)等。隨著RNA-seq技術(shù)在寄生蟲(chóng)研究中大量使用,對(duì)測(cè)序結(jié)果的分析研究越來(lái)越多樣化。除了獲取寄生蟲(chóng)蟲(chóng)種的基因序列外,進(jìn)一步比對(duì)分析挖掘出新的基因,進(jìn)行功能和蛋白的預(yù)測(cè),并構(gòu)建寄生蟲(chóng)的基因藍(lán)圖(genetic blue-print)。通過(guò)試驗(yàn)設(shè)計(jì)的多樣化,應(yīng)用高通量測(cè)序技術(shù)對(duì)寄生蟲(chóng)與宿主之間相互作用關(guān)系的研究成為關(guān)注的熱點(diǎn)。另外寄生蟲(chóng)亞種之間的對(duì)比研究,可變剪切的發(fā)現(xiàn),基因差異表達(dá)分析和單細(xì)胞轉(zhuǎn)錄組研究均可通過(guò)該技術(shù)實(shí)現(xiàn)。
Almeida等成功應(yīng)用RNA-seq技術(shù)獲得了雄性曼氏血吸蟲(chóng)成蟲(chóng)的轉(zhuǎn)錄組序列。Zhu等應(yīng)用高通量測(cè)序技術(shù)獲得了人畜共患寄生蟲(chóng)病病原犬弓首蛔蟲(chóng)的基因組和轉(zhuǎn)錄組草圖。該研究通過(guò)Illumina平臺(tái)進(jìn)行測(cè)序,獲得基因組大小為317 Mb,包含了至少18 596種蛋白編碼基因。其中有14583(78.4%)個(gè)基因被注釋同時(shí)某些蛋白還被推斷有多種功能。預(yù)測(cè)了715個(gè)必不可少的同源基因,識(shí)別出8個(gè)通路或轉(zhuǎn)運(yùn)體,并確認(rèn)了多種驅(qū)蟲(chóng)藥的藥物靶標(biāo)。通過(guò)數(shù)據(jù)的整合發(fā)現(xiàn)了犬弓首蛔蟲(chóng)成蟲(chóng)與第3期幼蟲(chóng)之間及兩性蟲(chóng)體之間的差異表達(dá)基因,證實(shí)許多肽酶和它們各自的肽酶抑制物在蠕蟲(chóng)進(jìn)行組織屏障滲透和攝食中扮演重要角色。預(yù)測(cè)了參與病原宿主相互作用和與調(diào)節(jié)宿主的免疫反應(yīng)相關(guān)的33種蛋白。He等利用RNA-seq分析弓形蟲(chóng)感染的小鼠脾臟,共發(fā)現(xiàn)2310個(gè)差異表達(dá)轉(zhuǎn)錄本。其中免疫相關(guān)轉(zhuǎn)錄本表達(dá)量上調(diào),尤其是大多數(shù)細(xì)胞因子和所有的趨化因子表達(dá)量上調(diào),說(shuō)明在脾臟對(duì)抗弓形蟲(chóng)感染過(guò)程中發(fā)揮重要作用。
北京動(dòng)物園圈養(yǎng)野生動(dòng)物四百余種,動(dòng)物種類多,飼養(yǎng)密度大,各種野生動(dòng)物疾病時(shí)有發(fā)生,同時(shí)由于野生動(dòng)物自身的特點(diǎn)導(dǎo)致了野生動(dòng)物疾病診斷存在很多難題,其中未治療死亡的病例占死亡動(dòng)物的絕大部分,主要是臨床表現(xiàn)不明顯,死亡原因不明確。近年來(lái)北京動(dòng)物園將野生動(dòng)物的“健康體檢-病前診斷”工作逐步放在了首要位置,即在對(duì)圈養(yǎng)野生動(dòng)物進(jìn)行日常體檢工作中盡可能的發(fā)現(xiàn)受檢動(dòng)物潛在的患病風(fēng)險(xiǎn),將這類風(fēng)險(xiǎn)降到最低;同時(shí)將已經(jīng)患病、但未出現(xiàn)臨床癥狀的動(dòng)物進(jìn)行盡快治療,將損失降到最低。而要達(dá)到上述效果,現(xiàn)階段采用的常規(guī)檢測(cè)方法很難做到對(duì)病原體的精準(zhǔn)判斷。
RNA-Seq技術(shù)是在第二代測(cè)序技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的,目前主要用于sRNA(主要包括miRNA、siRNA、piRNA)、mRNA以 及LncRNA測(cè) 序 工作。與傳統(tǒng)成熟的微陣列技術(shù)相比,RNA-Seq能夠直接測(cè)得全部轉(zhuǎn)錄本的序列信息,提供完整的轉(zhuǎn)錄本信息,包括轉(zhuǎn)錄本的表達(dá)定量、SNP分析、發(fā)現(xiàn)新的轉(zhuǎn)錄本以及未知的可變剪接等;微陣列技術(shù)只能檢測(cè)已經(jīng)獲得注釋的基因組的轉(zhuǎn)錄信息,而RNA-Seq能夠得到無(wú)參考基因組物種的轉(zhuǎn)錄信息;另外RNA-Seq技術(shù)具有非常高的靈敏度,能夠檢測(cè)出相差5個(gè)數(shù)量級(jí)的基因表達(dá)量。
由于這些優(yōu)點(diǎn),現(xiàn)階段這項(xiàng)技術(shù)可以在野生動(dòng)物“健康體檢-病前診斷”中廣泛應(yīng)用,同時(shí)現(xiàn)階段對(duì)野生動(dòng)物患病后病原體對(duì)宿主致病機(jī)制尚不明確,而大量RNA-Seq應(yīng)用到宿主抵抗病原體的免疫研究中的文獻(xiàn)表明:當(dāng)病原微生物入侵時(shí),宿主的基因表達(dá)模式會(huì)有十分顯著的改變,另外侵染的病原體自身基因表達(dá)也具有一定特征,這些變化與特征對(duì)了解宿主抵抗病原體感染機(jī)制非常重要。北京動(dòng)物園擁有獨(dú)一無(wú)二的野生動(dòng)物樣本,完全可以通過(guò)RNA-Seq技術(shù)得到病原體感染前后“宿主-病原體”中表達(dá)模式顯著改變的基因以及對(duì)其進(jìn)行功能分析來(lái)揭示野生動(dòng)物病原體與宿主間相互作用的機(jī)理,從而為野生動(dòng)物預(yù)防與抵抗病原體感染提供解決策略。
盡管RNA-Seq技術(shù)已經(jīng)發(fā)展的較為成熟,但目前仍存在著一些問(wèn)題。雖然RNA-Seq測(cè)序的步驟并不繁雜,但在cDNA文庫(kù)構(gòu)建的過(guò)程中仍需涉及多個(gè)操作步驟。雖然cDNA文庫(kù)在構(gòu)建過(guò)程中力求reads均勻分布于所有表達(dá)轉(zhuǎn)錄本上,但事實(shí)上測(cè)序所得的數(shù)據(jù)并不能完全達(dá)到隨機(jī)分布。此外,轉(zhuǎn)錄組測(cè)序獲得的數(shù)據(jù)量十分龐大,如何有效快速的存儲(chǔ)、檢索和處理大量數(shù)據(jù),減少圖像處理中的錯(cuò)誤率成為首先要解決的問(wèn)題。雖然存在一些問(wèn)題,但目前轉(zhuǎn)錄組測(cè)序技術(shù)仍是進(jìn)行表達(dá)分析的主流方法之一。