紀(jì)兆華+王立東+徐行健+劉芳
摘 要:隨著二代測序技術(shù)的不斷發(fā)展,轉(zhuǎn)錄組學(xué)的研究有了新的工具RNA-seq。RNA-seq可以使用高通量測序技術(shù)快速對細(xì)胞某一個(gè)狀態(tài)下完整的轉(zhuǎn)錄組進(jìn)行測序,獲得該轉(zhuǎn)錄組中所有的RNA序列。相比與以往利用芯片和PCR等技術(shù)來研究轉(zhuǎn)錄組,RNA-seq有著許多明顯的優(yōu)勢,所以其應(yīng)用的規(guī)模不斷增加。但是RNA-seq測序結(jié)構(gòu)文件非常大,每一個(gè)轉(zhuǎn)錄組樣品都會產(chǎn)生幾Gb到幾十Gb的序列文件,傳統(tǒng)的RNA-seq數(shù)據(jù)分析軟件需要耗費(fèi)大量的時(shí)間和系統(tǒng)資源來完成分析任務(wù)。采用云計(jì)算的方法和框架,開發(fā)一套完整的RNA-seq轉(zhuǎn)錄組大數(shù)據(jù)分析軟件,用戶只需輸入RNA-seq測序的原始序列文件,即可得到最終的結(jié)果。
關(guān)鍵詞:云計(jì)算 轉(zhuǎn)錄組 數(shù)據(jù)分析 流程
中圖分類號:Q78 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)07(a)-0159-02
生物信息學(xué)是用數(shù)理和信息科學(xué)的觀點(diǎn)、理論和方法研究復(fù)雜的生命現(xiàn)象,組織和分析呈現(xiàn)指數(shù)增長的生物學(xué)數(shù)據(jù)所蘊(yùn)含的知識和規(guī)律,運(yùn)用計(jì)算機(jī)科學(xué)與人工智能的手段進(jìn)行大量生物信息數(shù)據(jù)的收集、加工、存儲、分析與解析的科學(xué)。生物信息學(xué)的一項(xiàng)主要任務(wù)就是研究如何利用應(yīng)用數(shù)學(xué)和計(jì)算機(jī)等學(xué)科中的方法來分析這些數(shù)據(jù),探明數(shù)據(jù)中所包含的生物學(xué)意義。在生命科學(xué)的各個(gè)領(lǐng)域(基因組學(xué)、轉(zhuǎn)錄組學(xué)等),不論是基礎(chǔ)研究還是應(yīng)用研究,生物信息學(xué)都起著重要作用[1]。
1 轉(zhuǎn)錄組研究中RNA-seq被廣泛使用
近年來,在轉(zhuǎn)錄組研究中,RNA-seq憑借著諸多優(yōu)勢被廣泛使用,比如無需設(shè)計(jì)寡聚核苷酸探針、可以觀測到低表達(dá)豐度的調(diào)控基因、可以檢測到非編碼RNA的情況等。然而對RNA轉(zhuǎn)錄組的高通量全測序(whole transcriptome sequencing)會得到非常大的結(jié)果序列文件,其中包含了單端或者雙端的reads序列。這些序列首先需要進(jìn)行清洗(去接頭等)之后才能繼續(xù)用于之后的分析工作。分析軟件的性能在這一過程中就顯得非常重要,好的軟件不僅需要分析結(jié)果真實(shí)可靠,對其運(yùn)行時(shí)性能也有著需求,運(yùn)行速度過慢或者需求過多的系統(tǒng)資源(如CPU時(shí)間、內(nèi)存等),都會極大地降低科研人員的工作效率[2]。
2 生物信息云有助于應(yīng)對生物信息大數(shù)據(jù)的挑戰(zhàn)
生物數(shù)據(jù)規(guī)模通常很大,近年來,這些數(shù)據(jù)隨著生物技術(shù)的發(fā)展不斷地增加。高通量測序技術(shù)迅猛發(fā)展,使生物信息學(xué)進(jìn)入了大數(shù)據(jù)時(shí)代,由此所引發(fā)的多組學(xué)海量生物數(shù)據(jù)更需要利用云的方式來解決存儲和分析等問題。把云計(jì)算技術(shù)應(yīng)用到生物信息學(xué)的大數(shù)據(jù)中,闡明的面向大數(shù)據(jù)的生物信息云有助于更好地應(yīng)對生物信息大數(shù)據(jù)帶來的新挑戰(zhàn),挖掘生物數(shù)據(jù)中蘊(yùn)含的大量“寶藏”。隨著以高通量測序技術(shù)為代表的相關(guān)實(shí)驗(yàn)技術(shù)的不斷發(fā)展和普及,科研人員可以更加容易和高效地獲得到大量的生物數(shù)據(jù),其中顯然蘊(yùn)含著大量的“寶藏”等待人們探索。云計(jì)算正是一種通過Internet以服務(wù)的方式,提供動態(tài)可伸縮、虛擬化的資源計(jì)算模式。但傳統(tǒng)的分析方法并沒有緊緊跟上,如何應(yīng)對生物信息大數(shù)據(jù)帶來的新挑戰(zhàn),成為了生物信息學(xué)當(dāng)前的一個(gè)重要命題[3]。
3 生物信息學(xué)中的研究熱點(diǎn)之一RNA-seq數(shù)據(jù)分析軟件
對RNA-seq數(shù)據(jù)分析軟件的研究與開發(fā)一直是生物信息學(xué)中的研究熱點(diǎn)。對于各個(gè)分析任務(wù),也都有傳統(tǒng)的分析軟件可以完成各個(gè)工作,如Bowtie、Tophat和Cufflinks[4]等等。也有一些研究人員將這些軟件通過腳本程序組裝成分析流程,如PRADA[5]、wapRNA[6]等等。然而由于使用OpenMP或者Pthread這樣傳統(tǒng)的并行模型,他們無法運(yùn)行于云計(jì)算平臺之上。云計(jì)算理念的出現(xiàn),使得分布式并行計(jì)算在解決大數(shù)據(jù)問題時(shí)的可用性和易用性得到了極大的提升和擴(kuò)展。終端用戶不必再關(guān)心計(jì)算的內(nèi)部細(xì)節(jié),只需要將數(shù)據(jù)提交,制定出最終目標(biāo),云計(jì)算平臺就可以將數(shù)據(jù)分析的結(jié)果返回給用戶,減少了用戶花在數(shù)據(jù)處理中瑣碎細(xì)節(jié)上的時(shí)間,大大提高了科研和工作效率。對于那些無法容易獲得分布式計(jì)算集群使用權(quán)的用戶,云計(jì)算中“數(shù)據(jù)即服務(wù)”(DaaS)、“平臺即服務(wù)”(PaaS)、“軟件即服務(wù)”(SaaS)、“基礎(chǔ)設(shè)施即服務(wù)”(IaaS)的理念,也使得他們可以利用云計(jì)算中公開的非本地資源來進(jìn)行科研工作。生物信息學(xué)科研工作者近年來也意識到大數(shù)據(jù)帶來的挑戰(zhàn),開發(fā)了一些基于云計(jì)算的分析軟件,其中涉及到RNA-seq數(shù)據(jù)分析的主要有MyRNA、Crossbow等。
云計(jì)算正是專門對這類大數(shù)據(jù)問題提出的解決方案。采用HADOOP云計(jì)算框架設(shè)計(jì)實(shí)現(xiàn)RNA-seq大數(shù)據(jù)分析流程[15]。通過優(yōu)化文件存儲與訪問、作業(yè)拆分管理等不同方面,HADOOP框架可以很好地完成生物信息學(xué)大數(shù)據(jù)分析作業(yè)。然而使用傳統(tǒng)并行模型開發(fā)的軟件無法直接運(yùn)行在HADOOP框架之上,需要對其算法重構(gòu)或改寫成MapReduce模式[16],經(jīng)過調(diào)試后才能使用。對RNA-seq大數(shù)據(jù)分析流程中常見的任務(wù)模塊,開發(fā)對應(yīng)的在MapReduce模式下的算法,并將其組合成從數(shù)據(jù)輸入到數(shù)據(jù)輸出的一站式分析流程(analysis pipeline),用戶只需提供RNA-seq原始數(shù)據(jù)集,即可得到最終需要的分析結(jié)果。
參考文獻(xiàn)
[1] Mortazavi A, Williams B A, McCue K, Schaeffer L and Wold B 2008 Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods5 621.
[2] Armbrust M, Stoica I, Zaharia M, Fox A, Griffith R, Joseph A D, Katz R, Konwinski A, Lee G, Patterson D and Rabkin A 2010 A view of cloud computing Commun. ACM53 50.
[3] Dai L, Gao X, Guo Y, Xiao J and Zhang Z 2012 Bioinformatics clouds for big data manipulation. Biol. Direct7 43; discussion 43.
[4] Langmead B and Salzberg S L 2012 Fast gapped-read alignment with Bowtie 2. Nat. Methods9 357.
[5] Torres-García W, and Verhaak R G W 2014 PRADA: pipeline for RNA sequencing data analysis. Bioinformatics30 2224.
[6] Zhao W, and Hu S 2011 wapRNA: a web-based application for the processing of RNA sequences. Bioinformatics27 3076.endprint