黃永震,張桂民,賀 花,逯倩倩,雷初朝,陳 宏*
(1. 西北農(nóng)林科技大學(xué)動(dòng)物科技學(xué)院,陜西省農(nóng)業(yè)分子生物學(xué)重點(diǎn)實(shí)驗(yàn)室,陜西 楊凌 712100;2. 西北農(nóng)林科技大學(xué)動(dòng)物醫(yī)學(xué)學(xué)院,陜西 楊凌 712100)
2003年,人類基因組計(jì)劃測序工作完成;隨后,各種動(dòng)植物的遺傳信息又相繼被揭示,伴隨著對遺傳信息研究的不斷深入,許多問題也逐漸出現(xiàn),需要在基因組、轉(zhuǎn)錄組乃至蛋白質(zhì)組等方面進(jìn)行更深入的研究。生物的許多功能并不是都是由單一的基因所控制的,有很多性狀,尤其是經(jīng)濟(jì)性狀是由許多基因共同調(diào)控的。由此,使得對單一基因或蛋白質(zhì)的研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究,進(jìn)入了功能基因組學(xué)研究時(shí)代(也稱為后基因組時(shí)代)。功能基因組學(xué),就是利用結(jié)構(gòu)基因組學(xué)提供的信息來進(jìn)行基因功能的研究,主要內(nèi)容包括:全長cDNA克隆與測序、獲得DNA芯片等基因轉(zhuǎn)錄圖譜、突變數(shù)據(jù)體庫的構(gòu)建、高通量的遺傳轉(zhuǎn)化鑒定系統(tǒng)、生物信息技術(shù)平臺(tái)與相應(yīng)數(shù)據(jù)庫的構(gòu)建、研究基因組表達(dá)的全部蛋白質(zhì)及其相互作用為主要內(nèi)容的蛋白質(zhì)組學(xué)(Proteomlcs)等[1]。由于遺傳信息從DNA傳遞到蛋白質(zhì)是一個(gè)十分復(fù)雜的過程,在這一過程中DNA首先轉(zhuǎn)錄成為RNA,RNA再經(jīng)過翻譯形成蛋白質(zhì),RNA在這個(gè)過程中起到承上啟下的“橋梁”作用。所以,轉(zhuǎn)錄組學(xué)是功能基因組學(xué)的一個(gè)非常重要的研究領(lǐng)域,
所謂的轉(zhuǎn)錄組,是指在某一特定的階段,由細(xì)胞轉(zhuǎn)錄出的所有RNA,包括有mRNA、rRNA、tRNA和其他一些非編碼RNA(包括lncRNA、microRNA等)[2]。轉(zhuǎn)錄組是連接基因組遺傳信息與功能蛋白質(zhì)組的紐帶,基因表達(dá)在轉(zhuǎn)錄水平的調(diào)控是生物體重要的調(diào)控方式之一,主要受到內(nèi)源或外源因子的影響。因?yàn)椴煌?xì)胞或者同一細(xì)胞在不同的時(shí)間或空間下所轉(zhuǎn)錄的RNA是不完全相同的,所以轉(zhuǎn)錄組反映的是某一特定的發(fā)育或生理階段特定的細(xì)胞或組織基因的表達(dá)情況。
目前,研究轉(zhuǎn)錄組的方法有很多種,主要可分為三類:(1)基于雜交的技術(shù),如基因芯片(Gene chip)等;(2)基于測序的技術(shù),如表達(dá)序列標(biāo)簽(ExpressedSequence Tag, EST)、基因表達(dá)序列分析(Serrial Analysis of Gene Expression, SAGE)等;(3)基于新一代高通量測序技術(shù)的轉(zhuǎn)錄組測序(RNA sequencing, RNA-Seq)技術(shù)。此外,還有生物信息學(xué)等諸多數(shù)據(jù)處理和分析的研究方法。
基因芯片(Gene chip)又稱為DNA芯片(DNA chip),生物芯片(biological chip),由Stephen Fodor博士于1991年首次提出[3]。基因芯片就是指將大量探針分子固定于支持物上后與標(biāo)記的樣品分子進(jìn)行雜交,通過檢測每個(gè)探針分子的雜交信號(hào)強(qiáng)度進(jìn)而獲取成千上萬樣品分子的數(shù)量和序列信息的技術(shù)。在生命科學(xué)領(lǐng)域可用于基因測序、基因表達(dá)譜分析、新基因發(fā)現(xiàn)、基因突變及多態(tài)性分析、基因組文庫作圖、疾病診斷和預(yù)測等諸多領(lǐng)域。其基本原理是將待測DNA或cDNA用熒光或其它方法標(biāo)記后,與固定在芯片上的探針列陣進(jìn)行雜交。由于固定在基因芯片上每個(gè)位置的核苷酸信息是已知的,雜交之后對芯片上每一位點(diǎn)的熒光強(qiáng)度進(jìn)行檢測,就可以同過芯片上的信息來得到樣品的遺傳信息[4]。與傳統(tǒng)技術(shù)相比基因芯片技術(shù)具有高通量、效率高、自動(dòng)化等優(yōu)點(diǎn)。但是也存在一些缺陷,如成本太高;芯片上探針合成時(shí)有時(shí)會(huì)有錯(cuò)誤核苷酸摻入及混入雜質(zhì), 使得降低特異性;另外在檢測低拷貝數(shù)基因時(shí)靈敏性較低等,使其使用范圍受到極大的限制。
隨著人類基因組計(jì)劃的發(fā)展,由美國科學(xué)家Venter等于1991年提出表達(dá)序列標(biāo)簽(ExpressedSequence Tag, EST)這一技術(shù)[5],該技術(shù)最初是用于尋找人類新基因、繪制人類基因組圖譜、識(shí)別基因組序列編碼區(qū)[6]等領(lǐng)域的研究。之后,逐漸在動(dòng)植物基因組的研究中也廣泛運(yùn)用。眾所周知,很多真核生物成熟的mRNA都是由3部分組成的,包括:5’端非翻譯區(qū)(5’ Untranslated Regions, 5’UTR)、開放閱讀框(Open reading, frame, ORF)和3’端非翻譯區(qū)(3’ Untranslated Regions, 3’UTR),由mRNA反轉(zhuǎn)錄而得到的cDNA序列相應(yīng)地也具有這3部分結(jié)構(gòu)。而對于一個(gè)基因而言,其5’UTR和3’UTR是特定的,即cDNA的兩端具有一段序列(一般長度為300~500bp),可以代表一定條件下生物體某組織或細(xì)胞的基因表達(dá),即“表達(dá)序列標(biāo)簽”,用它可以顯示某一特定狀態(tài)下基因表達(dá)的情況[7]。
EST方法的基本過程大致為:(1)RNA的提??;(2)mRNA的富集純化;(3)將mRNA反轉(zhuǎn)錄成cDNA并克隆到載體構(gòu)建cDNA文庫(4)大規(guī)模隨機(jī)挑選cDNA克隆,對其5’或3’端進(jìn)行單向測序[8]。通過EST序列分析可以獲得家養(yǎng)動(dòng)物特定組織或細(xì)胞在特定的發(fā)育時(shí)期的基因表達(dá)種類,其數(shù)量還可反映基因的表達(dá)量,EST的數(shù)目越多說明基因表達(dá)量也高。通過建立ESTs數(shù)據(jù)庫,然后將ESTs數(shù)據(jù)庫與基因數(shù)據(jù)庫已知序列進(jìn)行比較,就可以獲得大量的關(guān)于生物生長發(fā)育、遺傳變異、衰老死亡等與生命活動(dòng)相關(guān)的生物信息[9]。ESTs直接反映了基因表達(dá)的生物信息,可用來研究遺傳背景還不太清楚的實(shí)驗(yàn)材料,還可以用來分離與鑒定新基因、構(gòu)建遺傳學(xué)圖譜、基因定位和表達(dá)譜的研究、還有可以研究比較基因組學(xué)和生物信息學(xué)等[10,11]。但是由于EST分析過程復(fù)雜,結(jié)果也受到cDNA文庫構(gòu)建過程中反轉(zhuǎn)錄、酶切效率以及文庫的代表性等因素的影響[12],這些問題還有待進(jìn)一步的改進(jìn)。
基因表達(dá)序列分析(Serrial analysis of gene expression,SAGE)是由Velculescu等于1995年建立的一種研究基因表達(dá)模式的技術(shù),可以在整體水平上對細(xì)胞或組織中的已知或未知的轉(zhuǎn)錄本同時(shí)進(jìn)行大規(guī)模的定量分析[13]。其主要的原理是:(1)一個(gè)9~10bp的短核苷酸序列標(biāo)簽就能夠包含足夠的信息,如10bp的核苷酸序列能夠分辨也就是1048576個(gè)不同的轉(zhuǎn)錄產(chǎn)物;(2)如果能將10bp的標(biāo)簽集中于一個(gè)克隆中進(jìn)行測序,并將得到的短序列核苷酸順序以連續(xù)的數(shù)據(jù)形式輸入計(jì)算機(jī)中進(jìn)行處理,就能對數(shù)以萬計(jì)的轉(zhuǎn)錄物進(jìn)行分析。SAGE技術(shù)具有高通量、高靈敏性等優(yōu)點(diǎn),但是也存在一些不足之處,一方面進(jìn)行基因表達(dá)序列分析需要大量的RNA;另一方面SAGE文庫構(gòu)建流程長,技術(shù)要求高還有單條序列標(biāo)簽所含有的基因信息少[12]。因此,它也不是進(jìn)行轉(zhuǎn)錄組分析的最好途徑。
RNA-Seq(RNA sequencing)即RNA測序,又稱為轉(zhuǎn)錄組測序(Transcriptome Sequencing),新一代測序技術(shù)(next-generation sequencing ,NGS)是一種把全部RNA(包括mRNA、smallRNA、non-codingRNA等)或者其中的一部分用高通量測序技術(shù)進(jìn)行測序分析的技術(shù)。主要原理及流程為:(1)獲得細(xì)胞總RNA;(2)根據(jù)實(shí)驗(yàn)需要對RNA樣品進(jìn)行處理,如用帶有Oligo(dT)的磁珠富集mRNA等;(3)對處理好的RNA樣品進(jìn)行片段化處理;(4)將處理后的RNA反轉(zhuǎn)錄成cDNA,獲得cDNA文庫;(5)接著在cDNA片段兩端連接接頭;(6)用新一代高通量測序技術(shù)進(jìn)行測序,獲得轉(zhuǎn)錄組的遺傳信息。RNA-Seq技術(shù)是一種非常有用的搜集遺傳信息的工具,同時(shí)也是對轉(zhuǎn)錄組進(jìn)行綜合分析的好方法,可以用來鑒別、定位以及定量分析轉(zhuǎn)錄組信息。因RNA-Seq技術(shù)具有諸多優(yōu)點(diǎn),其出現(xiàn)以后被廣泛運(yùn)用到轉(zhuǎn)錄組的研究之中。
相對于其他幾種方法RNA-Seq技術(shù)具有以下優(yōu)勢:(1)信號(hào)數(shù)字化,便于管理分析,可直接測定每個(gè)轉(zhuǎn)錄本的片段序列,不僅對單核苷酸有很高的分辨率,而且也不存在微陣列雜交的熒光模擬信號(hào)帶來的交叉反應(yīng)和背景噪音等問題;(2)靈敏度高,能夠檢測到表達(dá)量很低的稀有轉(zhuǎn)錄本,可以用來檢測新的轉(zhuǎn)錄本;(3)不需要設(shè)計(jì)特異性探針,因此,即使在不了解物種基因信息的情況下,也可以對其轉(zhuǎn)錄組進(jìn)行分析,并且能夠檢測未知基因、發(fā)現(xiàn)新的轉(zhuǎn)錄本。另外還可識(shí)別可變剪接、單核苷酸多態(tài)性(Single nucleotide polymorphisms, SNPs)、簡單重復(fù)序列((Simple sequence repeat, SSRs)、插入缺失((Insertion-deletion Indel)、等位基因差異性表達(dá)等[14]。
在20世紀(jì)70年代,Sanger等發(fā)明了雙脫氧測序法,在過去的多年中一直被廣泛應(yīng)用,為揭示動(dòng)植物遺傳信息做了極大的貢獻(xiàn),但是這種方法也存在著價(jià)格昂貴、通量小、速度慢、獲取信息量小等缺點(diǎn),使得需要進(jìn)行大規(guī)模測的研究難以開展。為了能夠在短時(shí)間內(nèi)進(jìn)行廉價(jià)的大規(guī)模測序,許多科研工作者對Sanger測序法做了很多改進(jìn),并相繼產(chǎn)生了二代以及三代測序法。這些技術(shù)都能進(jìn)行轉(zhuǎn)錄組的測序,為轉(zhuǎn)錄組的研究提供了有效手段。這些技術(shù)主要包括Roche公司的454技術(shù)、Illumina公司的Solexa技術(shù)和ABI公司的SOLiD技術(shù),之后Helicos Biosciences公司又推出了單分子測序(Single molecule sequencing, SMS)技術(shù)[15]。這些方法極大地提升了測序效率,但是,不同的測序方法也有著自己各自不同的原理和優(yōu)缺點(diǎn),表1列舉了近年來發(fā)展起來的幾種主要測序平臺(tái)并對其進(jìn)行了比較分析。
表1 幾種測序平臺(tái)的比較[15]
轉(zhuǎn)錄組文庫的構(gòu)建過程,主要包括:(1)總RNA的提?。阂话阌肨RIzol法進(jìn)行提取,所有過程應(yīng)當(dāng)在低溫?zé)oRNA酶的條件下進(jìn)行,以防止RNA的降解;(2)RNA的質(zhì)量鑒定:用分光光度計(jì)以及凝膠電泳等方式來檢測RNA的質(zhì)量,在電泳時(shí)要用RNA滅火處理過的電泳設(shè)備和電泳緩沖液;(3)將RNA反轉(zhuǎn)錄形成cDNA:用試劑盒或者其他方法將單鏈的RNA反轉(zhuǎn)錄形成cDNA;(4)全長cDNA的克?。翰捎肞CR擴(kuò)增的方法獲得大量的cDNA并對其進(jìn)行連接;(5)通過藍(lán)白斑篩選等方式選出連接好的載體。之后便可送交公司進(jìn)行測序。
目前,已經(jīng)發(fā)表RNA-Seq數(shù)據(jù)分析相關(guān)研究成果的主要有Wang[16]、Trapnell[17]及van Verk[18]等。對有參考基因組的物種的RNA-Seq測序數(shù)據(jù)分析主要內(nèi)容有:(1)測序數(shù)據(jù)的輸出;先對通過高通量測序產(chǎn)生的大量文件進(jìn)行篩選,保留Reads序列數(shù)據(jù)和對應(yīng)的堿基質(zhì)量得分,然后將其輸出保留;(2)原始數(shù)據(jù)過濾,獲得高質(zhì)量數(shù)據(jù);剛開始輸出原始的數(shù)據(jù)比較多且復(fù)雜,需要對其進(jìn)行一定的過濾處理,去掉接頭、污染等序列最后保留Clean Reads數(shù)據(jù);(3)基因組比對;用比對軟件對獲得的Clean Reads數(shù)據(jù)與參考基因及基因組序列進(jìn)行比對分析;(4)估計(jì)基因的表達(dá)量或表達(dá)水平;由于測序過程對打斷的轉(zhuǎn)錄本進(jìn)行了隨機(jī)選擇,因此測序結(jié)果得到的基因表達(dá)水平受到了基因長度、測序深度以及基因表達(dá)高低等的影響所以,需要利用讀段數(shù)Reads來歸一化基因表達(dá)水平?,F(xiàn)在有很多軟件可以對基因表達(dá)水平進(jìn)行估計(jì),如rSeq、DEGseq 軟件包和Cufflinks等;(5)差異表達(dá)基因的篩選。通過差異倍數(shù)法(fold change)結(jié)合錯(cuò)誤發(fā)生率(false discovery rate, FDR)控制法等方法對不同樣本間的差異基因進(jìn)行篩選;(6)基因注釋?;诩僭O(shè)“同源等于功能相似”,通過將未知基因序列與公共數(shù)據(jù)庫中的已注釋基因進(jìn)行比對,推測出未知基因的功能[19]。
RNA-Seq在解析轉(zhuǎn)錄本的結(jié)構(gòu)和生物學(xué)功能方面,如發(fā)現(xiàn)可變剪切、融合基因以及非編碼轉(zhuǎn)錄本等有重大的作用。由于測序產(chǎn)出的短reads數(shù)據(jù)數(shù)量十分巨大,要對這些數(shù)據(jù)進(jìn)行分析十分困難,在基因組測序研究方面,隨著計(jì)算生物學(xué)的發(fā)展,生物信息學(xué)家針對基因組測序產(chǎn)出的短reads開發(fā)出了SOAP denovo、ABYSS等分析軟件,這些軟件可以對基因組測序短reads進(jìn)行組裝。但是轉(zhuǎn)錄組測序的結(jié)果分析遠(yuǎn)比基因組復(fù)雜,包括了轉(zhuǎn)錄本表達(dá)水平定量、可變剪切鑒定、鏈方向特異性測序等,因此基因組組裝算法不能夠直接用于轉(zhuǎn)錄組測序的數(shù)據(jù)分析。近年來,生物信息學(xué)家又開發(fā)了一些新的專門用于轉(zhuǎn)錄組組裝的軟件,這些軟件主要有基于參考基因組的組裝方法和de novo組裝方法。 關(guān)于有參考基因組的轉(zhuǎn)錄組組裝的軟件有Scripture、Cufflinks等,對于有完整參考基因組的轉(zhuǎn)錄組裝,其組裝一般包括三步:①Tophat等工具將短reads定位到基因組上②根據(jù)短reads在基因組位置上的重疊關(guān)系,將短reads連接形成cluster片段,進(jìn)一步構(gòu)建出所有可能的剪接異構(gòu)體結(jié)構(gòu)圖。③用Scripture或Cufflinks鑒定可變剪接。 (2)de novo組裝方法:de novo組裝不依賴參考基因組,直接利用 reads 間的重疊信息進(jìn)行組裝。常用的方法有兩種,一種是基于overlap的組裝,另一種用De Bruijn結(jié)構(gòu)圖進(jìn)行組裝。而后者更適用于數(shù)據(jù)產(chǎn)量較大的真核轉(zhuǎn)錄組的組裝,組裝軟件有Trans ABy SS、Trinity等。由于目前大多數(shù)物種仍沒有參考基因組,因此de novo組裝方法也有著更廣泛的應(yīng)用范圍。這種方法也避免了一條reads比對到多個(gè)位置、內(nèi)含子過長等組裝難題。但這種方法的缺陷也是非常明顯的,對計(jì)算性能和測序深度都要求較高,也容易丟失低豐度的轉(zhuǎn)錄本[20]。
RNA-Seq技術(shù)可用于多方面的研究,主要包括:(1)基因表達(dá)水平研究,RNA-Seq技術(shù)是定量的,使得它可以很準(zhǔn)確地確定RNA的表達(dá)水平。從原則上來看,它甚至可以確定一個(gè)細(xì)胞群中的每一個(gè)分子的絕對數(shù)量,得到的實(shí)驗(yàn)結(jié)果可以進(jìn)行直接比較;(2)發(fā)現(xiàn)低豐度的全新轉(zhuǎn)錄本,RNA-Seq不像基于雜交的芯片等技術(shù)具有很大的不確定性,它不收背景噪音的干擾,具有更高的靈敏性,許多實(shí)驗(yàn)證明RNA-Seq技術(shù)能比芯片技術(shù)檢測出更多的轉(zhuǎn)錄本;(3)轉(zhuǎn)錄本結(jié)構(gòu)研究,通過測序結(jié)果與基因組序列對比就可對可變剪接等作出判斷;另外還可以做轉(zhuǎn)錄本結(jié)構(gòu)變異研究、非編碼區(qū)域功能研究、基因表達(dá)水平研究、長鏈非編碼功能研究、轉(zhuǎn)錄本結(jié)構(gòu)研究等。
RNA-Seq技術(shù)在牛上應(yīng)用十分廣泛,Driver AM et al.[21]用RNA-Seq技術(shù)以體內(nèi)和體外培養(yǎng)的牛囊胚為試驗(yàn)材料,探索了影響牛體外受精率的主要候選基因和信號(hào)通路,通過分別對體外26906451和體內(nèi)38184547條片段進(jìn)行測序,發(fā)現(xiàn)有17634個(gè)基因發(fā)生表達(dá),其中793個(gè)基因在兩種組織中有顯著的差異表達(dá),并且發(fā)現(xiàn)了395個(gè)新的轉(zhuǎn)錄本,有4800個(gè)基因發(fā)生了可變剪接,有873個(gè)基因發(fā)生了不同的可變剪接。Wickramasinghe[22]對不同泌乳階段一泌乳15 d、90 d和250 d奶樣中體細(xì)胞利用RNA-Seq技術(shù)進(jìn)行差異表達(dá)基因分析,結(jié)果顯示在泌乳15 d、90 d和250 d的體細(xì)胞中分別有16892、19094和18070個(gè)基因進(jìn)行表達(dá),其中有大約9000個(gè)基因是在整個(gè)泌乳期都進(jìn)行表達(dá)的;Huang et al[23]利用Solexa sequencing 和生物信息學(xué)工具通過對荷斯坦奶牛的睪丸和卵巢組織的miRNA組織進(jìn)行研究,分別在睪丸和卵巢組織中檢測到100和104個(gè)新的pre-miRNAs,他們各自編碼122、136個(gè)成熟的miRNAs,并且其中的6個(gè)miRNAs為牛所特有。有246個(gè)已知的miRNs在兩種組織中共同表達(dá)。賀花[19]通過分析秦川牛成年牛和胎牛肌肉組織的差異表達(dá)譜,發(fā)現(xiàn)成年牛中有5304個(gè)基因上調(diào)表達(dá),10870個(gè)基因下調(diào)表達(dá),其中有1893個(gè)基因表達(dá)量顯著上調(diào),4904個(gè)顯著下調(diào)。
Lan D L等[24]用RNA-Seq技術(shù)對牦牛卵巢組織進(jìn)行高通量測序分析,得到一個(gè)包含 26826516條過濾后測序讀數(shù), 4828772880 bp 的卵巢測序文庫, 隨后將測序序列用SOAPaligner/SOAP2 軟件與基因組比對,結(jié)果發(fā)現(xiàn)有16992條基因發(fā)生表達(dá),其中有3734條存在有不同類型的可變剪接。對轉(zhuǎn)錄組數(shù)據(jù)的進(jìn)一步分析發(fā)現(xiàn)共有7340個(gè)基因的 5′或 3′端在原有基因組的位置基礎(chǔ)上發(fā)生了延伸,并且有6321個(gè)詞的轉(zhuǎn)錄本被發(fā)現(xiàn),與基因組序列比對定位發(fā)現(xiàn)外顯子數(shù)有1~84個(gè),新發(fā)現(xiàn)的轉(zhuǎn)錄本中預(yù)測有2267個(gè)具有編碼蛋白的能力。另外Finucane KA et al.[25]利用Affymetrix芯片技術(shù)對干奶期和泌乳期牛乳腺組織進(jìn)行了差異基因表達(dá)研究。在其他方面關(guān)于轉(zhuǎn)錄組測序的研究還包括一些對牛肝、腦垂體以及副結(jié)核病的研究。
孟憲然等[26]利用RNA-Seq技術(shù)對4個(gè)絨山羊背最長肌的轉(zhuǎn)錄組進(jìn)行高通量測序,然后通過CLC Genmics Workbench6.0等軟件進(jìn)行基因篩選,共找到263個(gè)候選基因,分別為123個(gè)高表達(dá)有利基因和140個(gè)高表達(dá)有害基因。然后進(jìn)一步用GO功能注釋進(jìn)行分析,結(jié)果顯示,高表達(dá)有利基因主要與骨骼肌的生長發(fā)育、細(xì)胞器的形成和蛋白結(jié)合功能有關(guān);高表達(dá)有害基因主要與脂質(zhì)代謝、細(xì)胞骨架以及結(jié)合功能有關(guān)。利用KEGG數(shù)據(jù)庫作為參考,發(fā)現(xiàn)這些基因主要參與的通路有糖酵解或糖異生、絲裂原活化蛋白激酶、凝血-補(bǔ)體級(jí)聯(lián)反應(yīng)和色氨酸代謝等。Dong等[27]通過對云南黑山羊的基因組和轉(zhuǎn)錄組分析獲得22175個(gè)編碼蛋白的基因,分析比較初級(jí)毛囊和次級(jí)毛囊的轉(zhuǎn)錄組獲得了51個(gè)差異表達(dá)基因,為進(jìn)一步研究重要的經(jīng)濟(jì)性狀的候選基因奠定了基礎(chǔ)。Fan等[28]以蘇尼特羊的不同被毛顏色特征為研究點(diǎn),分別從白皮和黑皮綿羊中得到90006和74533個(gè)組裝序列,并且發(fā)現(xiàn)編碼核糖體蛋白和角蛋白相關(guān)的蛋白質(zhì)的基因被最高度表達(dá),總共有2235個(gè)已知基因在黑與白綿羊皮的差異表達(dá),包括有479個(gè)上調(diào)基因和1756個(gè)下調(diào)基因等。Geng等[29]用RNA-Seq技術(shù)分析克什米爾細(xì)毛山羊毛囊生長期、生長中期、和靜止期三個(gè)發(fā)育階段分別生成的8487344、8142514和7345335條clean reads,共發(fā)現(xiàn)有1332個(gè)基因表達(dá)差異顯著。其中683個(gè)基因在囊生長期和生長中期表達(dá)差異顯著,530 個(gè)DEGs生長期和靜止期中被鑒定出來。在差異表達(dá)的基因中大多數(shù)與毛囊發(fā)育不同階段生物調(diào)節(jié)和代謝過程有關(guān)。
冉茂良等[30]運(yùn)用Illumina Hiseq 2500 測序平臺(tái)對60胚齡、90胚齡、30日齡和180日齡4個(gè)發(fā)育時(shí)期的豬的睪丸組織進(jìn)行轉(zhuǎn)錄組測序,獲得轉(zhuǎn)錄組數(shù)據(jù)后與豬基因組數(shù)據(jù)比對,對豬基因組的可變性剪接事件進(jìn)行了鑒定和分析。結(jié)果從豬的基因組中鑒定出20398 個(gè)基因發(fā)生了92738 種不同的可變剪接。并且發(fā)現(xiàn)在不同的可變剪接類型中, 以第一個(gè)外顯子可變剪切(Alternative 5′first exon, TSS)、最后一個(gè)外顯子可變剪切(Alternative 3′ last exon, TTS)、單外顯子跳躍(Skipped exon, SKIP)和可變5′或3′端剪切(Alternative exon ends, AE) 4種類型為主。隨后進(jìn)行GO功能富集分析,結(jié)果顯示發(fā)生可變剪接的基因主要富集于物質(zhì)合成、物質(zhì)結(jié)合及酶活性相關(guān)的GO項(xiàng)中,而各發(fā)育時(shí)期特異的可變剪接基因與發(fā)育時(shí)期的生理狀態(tài)密切相關(guān),60胚齡時(shí)主要與酶活性和組織形成相關(guān),30日齡時(shí)主要與抗環(huán)境應(yīng)激和離子通道活性相關(guān), 180日齡時(shí)則主要與循環(huán)系統(tǒng)相關(guān)。此外,在篩選出的與睪丸素代謝相關(guān)的基因64個(gè)中, 63 個(gè)基因發(fā)生可變剪接,且以TSS和TTS為主,表明這兩種可變剪接類型與睪丸素合成和分泌密切相關(guān)。通過對豬基因組可變剪接的分析,為深入研究可變剪接生物學(xué)功能及進(jìn)一步開展分子育種工作提供理論依據(jù)。
莫德林等對不同時(shí)期瘦肉型長白豬和脂肪型藍(lán)塘豬的背最長肌進(jìn)行RNA-Seq,通過對測序數(shù)據(jù)的分析發(fā)現(xiàn)不同的發(fā)育時(shí)期有595個(gè)基因表達(dá)差異顯著;Samborski et al.利用RNA-Seq技術(shù)對未懷孕和開始著床的豬的子宮內(nèi)膜進(jìn)行對比分析,發(fā)現(xiàn)1993個(gè)差異表達(dá)基因[31]。
鐘邦勝[32]對榮昌豬和亞洲野豬轉(zhuǎn)錄組進(jìn)行研究發(fā)現(xiàn),在脂肪組織中,兩個(gè)物種具有17084個(gè)共有的轉(zhuǎn)錄本,特有的分別有878和649個(gè),具有差異轉(zhuǎn)錄本有1235個(gè);同樣的,在肌肉組織中,榮昌豬和亞洲野豬共有的轉(zhuǎn)錄本有16187個(gè),特有的轉(zhuǎn)錄本分別有718個(gè)和750個(gè),差異轉(zhuǎn)錄本有361個(gè)。本研究的結(jié)果表明榮昌豬和亞洲野豬的轉(zhuǎn)錄本的總體差異,側(cè)面反映了家豬和野豬的差異。
轉(zhuǎn)錄組研究在雞上的報(bào)道相對較少。雞的采食量是營養(yǎng)上面的一個(gè)非常重要的指標(biāo),對于雞的產(chǎn)蛋量以及日增重有著很重要的影響。易國強(qiáng)[33]利用了RNA-Seq技術(shù)對雞剩余采食量性狀在轉(zhuǎn)錄組水平上進(jìn)行了差異表達(dá)分析,發(fā)現(xiàn)了41個(gè)與剩余采食量有關(guān)的差異表達(dá)基因,發(fā)現(xiàn)這些基因主要涉及到消化吸收,代謝能力,氧化應(yīng)激和機(jī)體能量穩(wěn)態(tài)等過程。彌補(bǔ)了目前研究的不足。同時(shí),究鑒定了253個(gè)基因間具有編碼功能的新轉(zhuǎn)錄本,有利于改善雞基因組中未注釋基因的結(jié)構(gòu)和功能,有助于優(yōu)化現(xiàn)有的基因模型。
不同的環(huán)境也會(huì)給動(dòng)物的生長發(fā)育帶來不同的影響。施壽榮[34]通過選擇肉雞分為不同的兩組-對照組和低溫誘導(dǎo)組,RNA-Seq分析結(jié)果顯示兩組雞在21日齡時(shí)有287個(gè)基因表達(dá)差異顯著,包括90個(gè)上調(diào)基因和197個(gè)下調(diào)基因;35日齡有390個(gè)基因發(fā)生了差異表達(dá),上調(diào)和下調(diào)基因分別有212和178個(gè),主要參與了只代謝、細(xì)胞分化等信號(hào)通路。Hick[35]等通過高通量測序技術(shù)對11日齡的雞胚進(jìn)行研究,發(fā)現(xiàn)了4個(gè)新的microRNA。
隨著高通量測序技術(shù)的發(fā)展,以基因組學(xué)為代表的生命科學(xué)得到了前所未有的繁榮和飛速發(fā)展。轉(zhuǎn)錄組學(xué)研究也有了很大的進(jìn)展,RNA-Seq技術(shù)以其高通量、高靈敏度、數(shù)字化信號(hào)等優(yōu)點(diǎn)被廣泛運(yùn)用到各個(gè)領(lǐng)域的研究中,RNA-Seq技術(shù)在動(dòng)物轉(zhuǎn)錄組學(xué)方面的研究,已經(jīng)取得了豐碩的成果,發(fā)現(xiàn)了在基因組研究中沒有發(fā)現(xiàn)以及沒有解決的很多問題,尤其是在可變剪接以及發(fā)現(xiàn)低豐度的全新轉(zhuǎn)錄本方面具有十分強(qiáng)大的作用。RNA-Seq技術(shù)除了在家養(yǎng)動(dòng)物中廣泛應(yīng)用外,也逐漸在其他物種中開始運(yùn)用,這項(xiàng)技術(shù)對于遺傳背景相對薄弱的物種研究具有更大的意義。相對于一代測序技術(shù)有了很大的發(fā)展,但是任何技術(shù)都尤其自身的缺陷,RNA-Seq技術(shù)也存在一定的局限性:(1)測序成本太高;相對于傳統(tǒng)的Sanger測序法,二代測序成本大大下降,但是要進(jìn)行大規(guī)模的測序所需要的費(fèi)用依然很龐大;(2)測序結(jié)果中存在有有錯(cuò)配等問題,使得開發(fā)出來的SNP、SSR和可變剪切的假陽性率較高,還有待進(jìn)一步改進(jìn);(3)測序長度、時(shí)間等方面還有待進(jìn)一步提升,讀長越長,拼接形成一個(gè)基因所需要的reads更少,因而錯(cuò)誤率越低。而且讀長越長意味著一次測序可以測定更多的基因。另外,因RNA-Seq技術(shù)獲得的信息量十分巨大,對其進(jìn)行分析十分重要,所以與其相關(guān)的計(jì)算機(jī)科學(xué)以及生物信息學(xué)也要為轉(zhuǎn)錄組數(shù)據(jù)分析提供強(qiáng)大的分析工具。綜上所述,雖然目前RNA-Seq技術(shù)還存在一些問題,但隨著科學(xué)技術(shù)的發(fā)展,相信它將會(huì)成為研究轉(zhuǎn)錄組學(xué)的重要工具,能夠發(fā)現(xiàn)更多、更可靠的新轉(zhuǎn)錄本。
參考文獻(xiàn):
[1] 陶彥彬,蔣建雄,易自力,李駿智. 功能基因組學(xué)及其研究方法[J]. 生物技術(shù)通報(bào),2007,05:61-64.
[2] Costa V, Angelini C, De F I, et al. Uncovering the complexity of transcriptomes with RNA-Seq. J Biomed Biotechnol, 2010 (2010): 853916.
[3] Fodor S P A ,Read J L , Pirrun GM C. Light directed, spatially addressable parallel chemical synthesis[J]. Sience, 1991, 251: 767-773.
[4] 熊偉. 基因芯片技術(shù)在生命科學(xué)研究中的應(yīng)用進(jìn)展及前景分析[J]. 生命科學(xué)儀器,2010,02:32-36.
[5] Adams M D, Kelley J M, Gocayne J D, et al. Comple-mentary DNA sequencing: expressed sequence tags andhuman genome project [J]. Science, 1991, 252 (5013):1651-1656.
[6] Boguski M S. The turning point in genome research [J].Trends Biochem Sci, 1995, 20(8): 250-296.
[7] 吳春穎,宋經(jīng)元,陳士林. 表達(dá)序列標(biāo)簽在藥用植物研究中的應(yīng)用[J]. 中草藥,2008,05:778-782.
[8] 王曉娜,盧欣石. 表達(dá)序列標(biāo)簽的應(yīng)用現(xiàn)狀及分析方法研究[J]. 草業(yè)科學(xué),2010,05:76-84.
[9] 吳春穎,宋經(jīng)元,陳士林. 表達(dá)序列標(biāo)簽在藥用植物研究中的應(yīng)用[J]. 中草藥,2008,05:778-782.
[10] Collins F S, Patrinos A, Jordan E, et al. New goals for theU. S. human genome project: 1998-2003 [J]. Science,1998, 282(5389): 682-690.
[11] Hattori M, Tsukahara F, Furuhata Y, et al. Anovel methodfor making nested deletions and its application for sequencingof a 300 kb region of human APP locus [J]. Nucleic AcidsRes, 1997, 25(9): 1802-1808.
[12] 吳瓊,孫超,陳士林,羅紅梅,李瀅,孫永珍,牛云云. 轉(zhuǎn)錄組學(xué)在藥用植物研究中的應(yīng)用[J]. 世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化),2010,03:457-462.
[13] VelculescuVE,ZhangL,VogelsteinB,etal.serialanalysisofgeneexpression[J].Science,1995,270:484~487.
[14] 李江域,陳勝,王小磊,趙東升,王玉民. RNA-Seq本地分析平臺(tái)的構(gòu)建[J]. 生物技術(shù)通訊,2015,02:211-214.
[15] 祁云霞,劉永斌,榮威恒. 轉(zhuǎn)錄組研究新技術(shù):RNA-Seq及其應(yīng)用[J]. 遺傳,2011,11:1191-1202.
[16] Wang E T, Sandberg R, Luo Shujun, et al. Alternative iso?form regulation in human tissue transcriptomes[J]. Nature,2008,456(27):470-476.
[17] Trapnell C, Roberts A, Goff L, et al. Differential gene andtranscript expression analysis of RNA- Seq experiments withTop Hat and Cufflinks[J]. Nat Protocols, 2012,7(3):562-578.
[18] van Verk M C, Hickman R, Pieterse C M J, et al. RNA-Seq: revelation of the messengers[J]. Curr Opin Chem Biol,2013,17:4-11.
[19] 賀花. 秦川牛肌肉生長發(fā)育相關(guān)基因和蛋白質(zhì)的篩選及其初步鑒定[D].西北農(nóng)林科技大學(xué),2014.
[20] 凡文磊. 利用RNA-seq技術(shù)挖掘雞腸炎沙門氏菌抗性相關(guān)功能基因[D].中國農(nóng)業(yè)科學(xué)院,2015.
[21] Driver AM, Penagaricano F, Huang W et al. RNA-Seq analysis uncovers transcriptomic variations between morphologically similar in vivo-and in vitro-derived bovine blastocysts. BMC Genomics. 2012.13:118.
[22] Wickramasinghe S,RinconG, Islas-Trejo A et al.Transcriptionalprofiling of bovine milk using RNA sequencing.BMC Genomics.2012.13:45.
[23] Huang J, Ju Z,Li Q et al.Solexa sequencing of novel and sifferentially expressed microRNAs in testicular and ovarian tissues in Holstein cattle.Int J Biol Sci.2011.7(7):1016-26.
[24] Lan D L, Xiong X R, Wei Y L, et al. RNA-Seq analysis of yak ovary: improving yak gene structure information and mining reproduction-related genes. Sci China Life Sci, 2014, 57, in press.
[25] Finucane KA,McFadden TB,Bond JP et al. Onset of lactation in the mammary gland: gene expression profiling indicates a strong inhibition of gene expression in cell proliferation. Funct Integer Genomics.2008.8(3):251-64.
[26] 孟憲然,杜琛,王靜,付紹印,鄭竹清,張文廣,李金泉. 基于RNA-Seq識(shí)別山羊肉品質(zhì)候選基因[J]. 畜牧獸醫(yī)學(xué)報(bào),2015,08:1300-1307.
[27] Dong J, Xie M, Jiang Y, et al. Sequencing and automa-ted whole-genome optical mapping of the enome of adomestic goat (Capra hircus) [J]. Nature Biotech-nology,2013,31(2):135-141.
[28] Fan R, Xie J, Bai J, et al. Skin transcriptom profiles associated with coat color in sheep[J]. BMC Genom-ics, 2013,14(1):389.
[29] Geng R,Yuan C, Chen Y. Exploring differentially ex-pressed genes by RNA-Seq in cashmere goat (Capra hircus) skin during hair follicle development and cycling[J]. PLoS One,2013,8(4):e62704.
[30] 冉茂良,陳斌,李智,董蓮花,賀長青,柳小春. 基于RNA-seq測序數(shù)據(jù)鑒定和分析豬基因組可變剪接事件[J]. 中國科學(xué):生命科學(xué),2016,03:274-284.
[31] 崔曉鋼. 基于RNA-seq與small RNA-seq進(jìn)行奶牛產(chǎn)奶性狀功能基因挖掘及生物信息學(xué)預(yù)測牛新miRNA[D].中國農(nóng)業(yè)大學(xué),2015.
[32] 鐘邦勝. 野豬和家豬脂肪和肌肉組織的比較轉(zhuǎn)錄組研究[D].四川農(nóng)業(yè)大學(xué),2015.
[33] 易國強(qiáng). 利用二代測序挖掘雞拷貝數(shù)變異及影響飼料效率的候選基因[D].中國農(nóng)業(yè)大學(xué),2015.
[34] 施壽榮. 肉雞腹水綜合征的代謝組學(xué)和轉(zhuǎn)錄組學(xué)研究[D].中國農(nóng)業(yè)大學(xué),2014.
[35] Hicks J A,Tembhurne P,Liu H C.MicroRNA expression in chicken embryos[J].Poult Sci,2008,87(11):2335-2343.