唐勇劉旭
(1. 樂山職業(yè)技術(shù)學(xué)院,樂山 614000;2. 樂山豐野農(nóng)業(yè)科技有限責(zé)任公司,樂山 614000;3. 樂山市農(nóng)業(yè)局,樂山 614000)
基于SMRT測(cè)序技術(shù)的16S rRNA基因全長(zhǎng)測(cè)序及其分析方法
唐勇1,2劉旭3
(1. 樂山職業(yè)技術(shù)學(xué)院,樂山 614000;2. 樂山豐野農(nóng)業(yè)科技有限責(zé)任公司,樂山 614000;3. 樂山市農(nóng)業(yè)局,樂山 614000)
被稱為第三代測(cè)序技術(shù)的單分子測(cè)序是最近幾年發(fā)展起來的高通量測(cè)序技術(shù)。其中,由Pacbio BioSciences公司開發(fā)的單分子實(shí)時(shí)測(cè)序技術(shù)(SMRT)是最先商用的技術(shù)。SMRT測(cè)序技術(shù)通過對(duì)模板序列循環(huán)測(cè)序產(chǎn)生環(huán)形一致序列(CCS),成功克服第三代測(cè)序技術(shù)準(zhǔn)確率低的弊病。通過SMRT測(cè)序技術(shù),科學(xué)家可以更深入準(zhǔn)確地探究復(fù)雜環(huán)境微生物的結(jié)構(gòu)和功能。介紹SMRT測(cè)序技術(shù)在微生物16S rRNA基因測(cè)序中的優(yōu)勢(shì)和劣勢(shì),并就基于SMRT測(cè)序技術(shù)所得的全長(zhǎng)16S rRNA基因序列的質(zhì)量控制、錯(cuò)誤序列排除、聚類和注釋分析等重要分析環(huán)節(jié)進(jìn)行概述,同時(shí),提出利用SMRT測(cè)序技術(shù)研究復(fù)雜環(huán)境微生物可能存在的問題及其解決方法,期望能為研究人員提供參考。
單分子實(shí)時(shí)測(cè)序技術(shù);PacBio RS Ⅱ;第三代測(cè)序技術(shù);環(huán)形一致序列
16S rRNA基因是原核生物所特有的基因,并且在原核生物中具有極高的拷貝數(shù)[1]。全長(zhǎng)1 542 nt的DNA序列包含9個(gè)間隔的高變區(qū),兼具特異性和保守性的16S rRNA基因序列作為微生物標(biāo)記被廣泛應(yīng)用于研究中[2]。相比DNA探針、變性梯度凝膠電泳和Sanger測(cè)序等方法,高通量測(cè)序技術(shù)在16S rRNA基因序列研究中體現(xiàn)出極大的優(yōu)勢(shì)[3]。以Roche[4],Illumina[5]等為代表的第二代測(cè)序技術(shù)將16S rRNA基因測(cè)序的通量大幅提高,為研究者提供對(duì)特定環(huán)境微生物進(jìn)行全面分析的可能。目前,第二代測(cè)序技術(shù)已經(jīng)成為環(huán)境微生物研究的主流手段。但是,第二代測(cè)序技術(shù)在16S rRNA基因測(cè)序中存在的缺陷也不可忽視——測(cè)序片段短。第二代測(cè)序平臺(tái)中,測(cè)序片段最長(zhǎng)的是Roche公司開發(fā)的454 GS FLX+測(cè)序儀,其測(cè)序片段長(zhǎng)度僅為700 bp。過短的測(cè)序片段使得研究人員在微生物16S rRNA基因測(cè)序中,只能選擇部分高變區(qū)進(jìn)行研究,這對(duì)研究結(jié)果的準(zhǔn)確性有較大影響。
單分子測(cè)序技術(shù)的出現(xiàn)為解決第二代測(cè)序技術(shù)中測(cè)序讀長(zhǎng)短的問題提供了可能。單分子測(cè)序技術(shù)也被稱為第三代測(cè)序技術(shù)(Thrid-generation sequencing,TGS),包括Oxford Nanopore的納米孔測(cè)序技術(shù)[6]和單分子實(shí)時(shí)測(cè)序技術(shù)(SMRT)[7]等,其中,納米孔測(cè)序技術(shù)受限于其測(cè)序錯(cuò)誤過高的問題,在微生物16S rRNA基因測(cè)序等領(lǐng)域應(yīng)用較少[8]。目前,只有PacBio的RS系列測(cè)序平臺(tái)被大量商用。PacBio RSⅡ測(cè)序儀的測(cè)序長(zhǎng)度可達(dá)到20 000 bp,這為基于16S rRNA基因測(cè)序的微生物研究提供更好的選擇。本文將就PacBio的SMRT測(cè)序技術(shù)在16S rRNA基因測(cè)序中的優(yōu)勢(shì)綜述,然后介紹PacBio RS系列測(cè)序儀測(cè)得的全長(zhǎng)16S rRNA序列分析方法及其應(yīng)用,最后提出目前存在的問題和可能的解決方案,以期為研究人員采用SMRT測(cè)序技術(shù)研究微生物16S rRNA基因提供參考。
1.1 讀長(zhǎng)覆蓋全長(zhǎng)16S rRNA基因
基于16S rRNA基因的微生物多樣性的研究中,測(cè)序部分高變區(qū)是目前最常用的方法。研究表明不同的高變區(qū)(V1-V9)對(duì)不同分類下的微生物分辨率不同[9]。研究表明,V1-V3區(qū)域所包含的信息量最接近全長(zhǎng)16S rRNA基因的信息量,但是,兩者依然存在較大的差別[10]。因此,測(cè)序全長(zhǎng)16S rRNA基因序列是最理想的方法。基于SMRT測(cè)序技術(shù)的PacBio RSⅡ測(cè)序儀在使用P6/C4試劑的情況下平均reads長(zhǎng)度超過10 kb,N50(序列長(zhǎng)度中位數(shù))超過20 kb,最長(zhǎng)達(dá)到60 kb[11,12]。因此,該測(cè)序技術(shù)可以輕易完成16S rRNA基因全長(zhǎng)序列的測(cè)序。Mosher等[13]使用PacBio RSⅡ及P4/C2試劑測(cè)得沉淀物樣本微生物16S rRNA基因片段平均長(zhǎng)度為1 419-1 431 bp。在Benitez-Paez等和Schloss等[14,15]的研究中,使用全長(zhǎng)16S rRNA基因序列對(duì)物種多樣性、微生物組成和微生物進(jìn)化開展研究,對(duì)實(shí)驗(yàn)的準(zhǔn)確性和分辨率能夠帶來顯著的提升。同時(shí),將研究深入到種水平,而不是局限在屬水平上[16]。
1.2 相對(duì)可靠度的16S rRNA基因序列
第三代測(cè)序技術(shù)最初無法運(yùn)用于16S rRNA基因序列測(cè)序的原因是高測(cè)序錯(cuò)誤率?;诩{米孔測(cè)序技術(shù)的MinION測(cè)序儀reads錯(cuò)誤率高達(dá)40%[17],PacBio的reads測(cè)序錯(cuò)誤達(dá)到15%,單堿基錯(cuò)誤率1%[18]。顯然,如此高的錯(cuò)誤率無法滿足16S rRNA基因用于微生物種屬的鑒定。
SMRT測(cè)序技術(shù)中的測(cè)序錯(cuò)誤以單堿基的插入和缺失為主[18],而且呈現(xiàn)隨機(jī)分布的模型[19]。因此,采用循環(huán)測(cè)序的方法對(duì)同一條16S rRNA基因模板多次測(cè)序,再通過多重比對(duì)方法獲取環(huán)形一致序列(Circular consensus sequence,CCS),這樣可以大幅減少測(cè)序引起的堿基錯(cuò)誤。據(jù)Eid等[20]2009年報(bào)道,堿基測(cè)序深度達(dá)到15X即可有效提高正確率至99.3%。Schloss等[15]在分析中進(jìn)一步采用質(zhì)控、過濾和預(yù)聚類等生物信息分析步驟,將堿基錯(cuò)誤率降低至0.03%。盡管,此方法的堿基錯(cuò)誤率仍然高于Miseq、454等第二代測(cè)序平臺(tái),但是其錯(cuò)誤率已經(jīng)在可接受的范圍之內(nèi)。
1.3 測(cè)序速度更快
SMRT測(cè)序技術(shù)測(cè)序速度快,可以達(dá)到10 bp/s,能夠縮短測(cè)序工作的周期。相比第二代測(cè)序技術(shù)數(shù)天的測(cè)序時(shí)間,SMRT測(cè)序技術(shù)每個(gè)run的測(cè)序時(shí)間僅為0.5-4 h之間[11,21]。雖然科研中大多數(shù)情況對(duì)測(cè)序時(shí)間不敏感,但是對(duì)于臨床上需要快速對(duì)微生物進(jìn)行鑒定診斷的情況下,SMRT測(cè)序技術(shù)更具備應(yīng)用的優(yōu)勢(shì)。
2.1 質(zhì)量控制
最新的PacBio RSⅡ測(cè)序儀的下機(jī)數(shù)據(jù)為bam格式(老版本軟件的輸出格式為h5,可以使用bax2bam將h5格式數(shù)據(jù)文件轉(zhuǎn)換為BAM格式)。PBCSS(https://github.com/PacificBiosciences/unanimity)是PacBio公司開發(fā)的PacBio raw reads分析工具,用于獲取CSS reads并同時(shí)進(jìn)行質(zhì)量控制的軟件。該軟件以SAM格式為輸入和輸出文件,可以完成預(yù)測(cè)質(zhì)量值過濾、序列長(zhǎng)度過濾、測(cè)序深度(PASS)過濾、CSS reads預(yù)測(cè)準(zhǔn)確度過濾以及識(shí)別正負(fù)鏈。除此之外,還可以結(jié)合NGS QC Toolkit[22]、FASTQC[23]等軟件進(jìn)行質(zhì)量控制。
通常CCS reads質(zhì)量可以從以下幾個(gè)方面控制:(1)測(cè)序所得的16S rRNA CCS reads的長(zhǎng)度應(yīng)該為全長(zhǎng)或者接近全長(zhǎng),遠(yuǎn)遠(yuǎn)低于或者超過預(yù)期長(zhǎng)度的片段應(yīng)該過濾;(2)CCS reads預(yù)測(cè)準(zhǔn)確度大于99%[13,24];(3)CCS的測(cè)序深度(PASS)至少為3,在測(cè)序數(shù)據(jù)充足的情況下,推薦值為10[15];(4)堿基質(zhì)量至范圍在2-93之間,考慮堿基錯(cuò)誤為隨機(jī)分布,因此,通常采用CCS reads所有堿基平均質(zhì)量值作為過濾條件,推薦值為30;(5)包含模糊堿基(N)的序列同樣考慮進(jìn)行過濾。
2.2 鑒定并過濾嵌合體
16S rRNA基因序列擴(kuò)增和SMRT測(cè)序過程中,依然不可避免地會(huì)產(chǎn)生嵌合體序列(Chimera),嵌合體過濾仍然是不可缺少的分析步驟。考慮16S rRNA基因序列測(cè)序片段顯著增加,嵌合體序列的識(shí)別率也將得到提升。UCHIME[25]仍然是嵌合體檢測(cè)使用最普遍的軟件[26],結(jié)合SILVA[27]、RDP[28]和greengenes[29]等數(shù)據(jù)庫(kù)可以完成有參的嵌合體檢測(cè)分析。同時(shí),考慮數(shù)據(jù)庫(kù)完整性問題,也可以使用UCHIME基于reads豐度的de novo檢測(cè)方法識(shí)別嵌合體序列。
2.3 CCS reads預(yù)聚類與低豐度序列過濾
預(yù)聚類的目的是通過將遺傳距離極小的CCS reads聚類在一起,以避免CCS reads中少量的堿基錯(cuò)誤對(duì)后續(xù)的分析造成影響。在微生物16S rRNA基因序列聚類中,將相似度大于97%的序列劃分為同一種,來自同一種的16S rRNA基因序列差異可能由種內(nèi)遺傳變異或者測(cè)序錯(cuò)誤引起。因此,選擇更高相似度作為預(yù)聚類閾值可以將這部分序列差異過濾掉[30]。在SMRT技術(shù)測(cè)序中,經(jīng)過序列矯正之后,序列的正確率可以達(dá)到99.3%[20]。因此,理論上選擇99%的相似度作為預(yù)聚類閾值可以排除錯(cuò)誤堿基的影響。
低豐度序列往往更傾向于來自人工序列[31],當(dāng)然,也不否認(rèn)在低豐度序列中包含少數(shù)來自于稀有微生物的16S rRNA序列[32]。但是從環(huán)境微生物的研究角度考慮,過濾低豐度序列的利大于弊,而且這一方案在基于第二代測(cè)序技術(shù)的研究中取得較好的結(jié)果[33,34]?;赟MRT測(cè)序技術(shù)的CCS reads的錯(cuò)誤序列隨機(jī)性更強(qiáng),因此,可以推測(cè)隨機(jī)錯(cuò)誤引起的錯(cuò)誤序列更傾向于表現(xiàn)為低豐度。雖然,目前沒有實(shí)驗(yàn)報(bào)道這一假設(shè),但是為了獲得更為保守的微生物多樣性結(jié)果,使用過濾低豐度CCS reads的策略更為妥當(dāng)[13]。
對(duì)CCS reads預(yù)聚類和低豐度序列過濾能夠大幅度減少錯(cuò)誤序列對(duì)OTUs聚類的干擾。但是,應(yīng)該謹(jǐn)慎選擇預(yù)聚類閾值和過濾的豐度值,避免造成微生物多樣性結(jié)果低估。以上兩個(gè)步驟能夠在UPARSE[35]、MOTHUR[36]等軟件中完成。
2.4 OTUs聚類與注釋
獲得預(yù)處理的CCS reads之后,按97%相似度進(jìn)行OTUs聚類分析,可以選擇MOTHUR[36]、UPARSE[35]或者QIMME等任意軟件完成。其中,選擇OTUs代表序列有兩種方法可選,分別是使用高豐度序列和OTUs內(nèi)一致性序列[15]。目前,在已有的基于SMRT測(cè)序技術(shù)的16S rRNA基因序列研究中,兩種方法都有采用。
對(duì)全長(zhǎng)16S rRNA基因進(jìn)行注釋時(shí),基于樸素貝葉斯分類器的RDP-Classifier[37]依然是最有效的工具[38]。而在數(shù)據(jù)庫(kù)的選擇上,RDP是更新最快,使用最廣泛的軟件,在屬及以上水平注釋的準(zhǔn)確性最高。而greengene雖然更新速度慢,而且包含的參考序列少,但是卻有11%的序列具有種水平的注釋信息,這是其他數(shù)據(jù)庫(kù)無法比擬的優(yōu)勢(shì)[15]。此外,grengene的16S rRNA序列選自NCBI數(shù)據(jù)庫(kù)中長(zhǎng)度大于1 200 bp的序列,長(zhǎng)度更接近全長(zhǎng)序列;相比之下,RDP只有不超過44%的細(xì)菌和15.3%的真菌16S rRNA基因序列長(zhǎng)度超過1 200 bp[10]。因此,考慮測(cè)序長(zhǎng)度為全長(zhǎng)序列,參考序列應(yīng)該選擇更長(zhǎng)的16S rRNA基因序列,或者綜合多個(gè)數(shù)據(jù)庫(kù)進(jìn)注釋(表1)。
表1 主要16S rRNA數(shù)據(jù)庫(kù)
3.1 測(cè)序錯(cuò)誤
SMRT測(cè)序技術(shù)的優(yōu)勢(shì)在于同時(shí)兼顧測(cè)序長(zhǎng)度長(zhǎng)和測(cè)序錯(cuò)誤相對(duì)較低的優(yōu)點(diǎn)[39]。但是,單從測(cè)序錯(cuò)誤率方面討論,其測(cè)序錯(cuò)誤問題還需要進(jìn)一步改善?;赟MRT測(cè)序技術(shù)中的堿基錯(cuò)誤為隨機(jī)分布的假設(shè),通過提高循環(huán)測(cè)序深度(PASS)可以減少堿基錯(cuò)誤。但是,Schloss等[15]的實(shí)驗(yàn)發(fā)現(xiàn),SMRT測(cè)序技術(shù)也可能存在系統(tǒng)錯(cuò)誤,從而導(dǎo)致錯(cuò)誤堿基無法通過提高循環(huán)測(cè)序深度排除這部分堿基錯(cuò)誤。除此之外,嵌合體序列也是不可避免的問題,目前暫時(shí)沒有辦法完全排除嵌合體的干擾。
3.2 數(shù)據(jù)庫(kù)完整性
目前,16S rRNA基因注釋數(shù)據(jù)庫(kù)的完整性普遍較差,而且數(shù)據(jù)庫(kù)中的參考序列長(zhǎng)度較短。這直接造成兩個(gè)問題:(1)OTUs的注釋率偏低,而能夠注釋到種水平上的序列更少;(2)盡管可以獲得全長(zhǎng)的16S rRNA基因序列,但參考序列長(zhǎng)度不足導(dǎo)致注釋的準(zhǔn)確性大打折扣。隨著SMRT測(cè)序技術(shù)的發(fā)展,越來越多的全長(zhǎng)16S rRNA基因序列被準(zhǔn)確測(cè)序,這也許能夠?yàn)樘岣?6S rRNA基因數(shù)據(jù)庫(kù)的完整性提供新的契機(jī)。
3.3 測(cè)序成本偏高
PacBio SR Ⅱ測(cè)序平臺(tái)單個(gè)cell的測(cè)序價(jià)格低,但是單個(gè)cell的數(shù)據(jù)輸出量少,因此,單個(gè)堿基的價(jià)格要遠(yuǎn)高于Illumina等第二代測(cè)序平臺(tái)[11]。滿足研究需求的測(cè)序量所付出的測(cè)序成本依然偏高,這是阻礙SMRT測(cè)序技術(shù)在16S rRNA基因測(cè)序中推廣應(yīng)用的主要因素。隨著PacBio SR測(cè)序平臺(tái)的升級(jí),測(cè)序量和測(cè)序質(zhì)量不斷提升,測(cè)序成本逐漸降低,相信基于SMRT測(cè)序技術(shù)的全長(zhǎng)16S rRNA基因測(cè)序會(huì)越來越多地運(yùn)用于臨床和研究當(dāng)中。
從2005年,454推出第一臺(tái)商用高通量測(cè)序儀開始,測(cè)序技術(shù)飛速發(fā)展,目前sanger測(cè)序技術(shù)、第二代測(cè)序技術(shù)和第三代測(cè)序技術(shù)憑借各自優(yōu)勢(shì)在研究中扮演著不同的角色?;?6S rRNA基因測(cè)序的微生物研究中,第二代測(cè)序技術(shù)仍然是主力。以SMRT技術(shù)為代表的第三代測(cè)序技術(shù)兼具測(cè)序長(zhǎng)度和測(cè)序通量?jī)?yōu)勢(shì),為16S rRNA基因全長(zhǎng)測(cè)序打開一扇新的窗戶?;赟MRT測(cè)序技術(shù)的微生物16S rRNA基因測(cè)序可以有效提高環(huán)境微生物研究的分辨率[15],將更多微生物注釋到種水平,并且提高物種豐度預(yù)測(cè)的準(zhǔn)確性。基于此,結(jié)合微生物物種參考基因組,有望直接使用16S rRNA測(cè)序替代環(huán)境微生物宏基因組測(cè)序,即直接使用16S rRNA基因數(shù)據(jù)研究微生物基因水平和代謝通路水平差異[40]。
目前,SMRT測(cè)序技術(shù)自身仍然具有改進(jìn)的空間,例如:減少測(cè)序錯(cuò)誤、增加每個(gè)cell測(cè)序量等。而對(duì)于測(cè)序之后的進(jìn)一步分析,也存在較多問題需要解決。首先,針對(duì)PacBio測(cè)序所得的CCS reads沒有專門的分析軟件。雖然,絕大部分分析環(huán)節(jié)可以使用mothur[36]等軟件處理,但是,其中分析環(huán)節(jié)的細(xì)節(jié)還需要進(jìn)一步研究。例如,由于全長(zhǎng)16S rRNA基因序列之間存在大量非高邊區(qū),使用97%作為OTU聚類分析閾值可能導(dǎo)致物種數(shù)量被低估。其次,數(shù)據(jù)庫(kù)完整性不足可能導(dǎo)致全長(zhǎng)16S rRNA基因序列效果大打折扣,其中包括兩個(gè)方面:其一,數(shù)據(jù)庫(kù)注釋物種總量不,導(dǎo)致可注釋物種減少;其二,數(shù)據(jù)庫(kù)內(nèi)的參考序列長(zhǎng)度不足,引起序列注釋偏差。
[1]Klappenbach JA, Saxman PR, Cole JR, et al. rrndb:the ribosomal RNA operon copy number database[J]. Nucleic Acids Research, 2001, 29(1):181-184.
[2]Sogin ML, Morrison HG, Huber JA, et al. Microbial diversity in the deep sea and the underexplored “rare biosphere”[J]. Proceedings of the National Academy of Sciences, 2006, 103(32):12115-12120.
[3]Roh SW, Abell GC, Kim K-H, et al. Comparing microarrays and next-generation sequencing technologies for microbial ecology research[J]. Trends in Biotechnology, 2010, 28(6):291-299.
[4]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2005, 437(7057):376-380.
[5]Bentley DR. Whole-genome re-sequencing[J]. Current Opinion in Genetics & Development, 2006, 16(6):545-552.
[6]Clarke J, Wu H-C, Jayasinghe L, et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology, 2009, 4(4):265-270.
[7]McCarthy A. Third generation DNA sequencing:pacific biosciences’ single molecule real time technology[J]. Chemistry & Biology, 2010, 17(7):675-676.
[8]Mikheyev AS, Tin MM. A first look at the Oxford Nanopore MinION sequencer[J]. Molecular Ecology Resources, 2014, 14(6):1097-1102.
[9]Chakravorty S, Helb D, Burday M, et al. A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria[J]. Journal of Microbiological Methods, 2007, 69(2):330-339.
[10]Kim M, Morrison M, Yu Z. Evaluation of different partial 16S rRNA gene sequence regions for phylogenetic analysis of microbiomes[J]. J Microbiol Methods, 2011, 84(1):81-87.
[11]Rhoads A, Au KF. PacBio sequencing and its applications[J]. Genomics, Proteomics & Bioinformatics, 2015, 13(5):278-289.
[12]Roberts RJ, Carneiro MO, Schatz MC. The advantages of SMRT sequencing[J]. Genome Biology, 2013, 14(7):405.
[13]Mosher JJ, Bowman B, Bernberg EL, et al. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing[J]. Journal of Microbiological Methods, 2014, 104:59-60.
[14]Benitez-Paez A, Portune KJ, Sanz Y. Species-level resolution of 16S rRNA gene amplicons sequenced through the MinIONTMportable nanopore sequencer[J]. Gigascience, 2016, 5(1):1-9.
[15]Schloss PD, Jenior ML, Koumpouras CC, et al. Sequencing 16S rRNA gene fragments using the PacBio SMRT DNA sequencing system[J]. PeerJ, 2016, 4:e1869.
[16]Lee CH, Bowman B, Hall R, et al. Developments in PacBio? metagenome sequencing:Shotgun whole genomes and full-length 16S[C]. International Plant and Animal Genome Conference Asia, 2014.
[17]Laver T, Harrison J, O’Neill P, et al. Assessing the performance of the Oxford Nanopore Technologies MinION[J]. Biomolecular Detection and Quantification, 2015, 3:1-8.
[18]Koren S, Schatz MC, Walenz BP, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
[19]Ross MG, Russ C, Costello M, et al. Characterizing and measuring bias in sequence data[J]. Genome Biology, 2013, 14(5):1.
[20]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910):133-138.
[21]Quail MA, Smith M, Coupland P, et al. A tale of three next generation sequencing platforms:comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers[J]. BMC Genomics, 2012, 13(1):341.
[22]Patel RK, Jain M. NGS QC Toolkit:a toolkit for quality control of next generation sequencing data[J]. PLoS One, 2012, 7(2):e30619.
[23]Andrews, S. FastQC:a quality control tool for high throughput sequence data[EB]. http://www.bioinformatics.babraham.ac.uk/ projects/fastqc/.
[24]Bowman B, Shin MY, Lee JE, et al. Analysis of full-length metagenomic 16S genes by SMRT?sequencing[J]. Chemistry, 2013, 4:C2.
[25]Edgar RC, Haas BJ, Clemente JC, et al. UCHIME improves sensitivity and speed of chimera detection[J]. Bioinformatics, 2011, 27(16):2194-2200.
[26]Haas BJ, Gevers D, Earl AM, et al. Chimeric 16S rRNA sequence formation and detection in Sanger and 454-pyrosequenced PCR amplicons[J]. Genome Research, 2011, 21(3):494-504.
[27]Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNAgene database project:improved data processing and webbased tools[J]. Nucleic Acids Research, 2013, 41(D1):D590-D596.
[28]Maidak BL, Cole JR, Lilburn TG, et al. The RDP-II(ribosomal database project)[J]. Nucleic Acids Research, 2001, 29(1):173-174.
[29]DeSantis TZ, Hugenholtz P, Larsen N, et al. Greengenes, a chimerachecked 16S rRNA gene database and workbench compatible with ARB[J]. Applied and Environmental Microbiology, 2006, 72(7):5069-5072.
[30]Bowman JS, Rasmussen S, Blom N, et al. Microbial community structure of Arctic multiyear sea ice and surface seawater by 454 sequencing of the 16S RNA gene[J]. The ISME Journal, 2012, 6(1):11-20.
[31]Tedersoo L, Nilsson RH, Abarenkov K, et al. 454 Pyrosequencing and Sanger sequencing of tropical mycorrhizal fungi provide similar results but reveal substantial methodological biases[J]. New Phytologist, 2010, 188(1):291-301.
[32]Lücking R, Lawrey JD, Gillevet PM, et al. Multiple ITS haplotypes in the genome of the lichenized basidiomycete Cora inversa(Hygrophoraceae):fact or artifact?[J]. Journal of Molecular Evolution, 2014, 78(2):148-162.
[33]Unterseher M, Jumpponen A, ?pik M, et al. Species abundance distributions and richness estimations in fungal metagenomicslessons learned from community ecology[J]. Molecular Ecology, 2011, 20(2):275-285.
[34]Kunin V, Engelbrektson A, Ochman H, et al. Wrinkles in the rare biosphere:pyrosequencing errors can lead to artificial inflation of diversity estimates[J]. Environmental Microbiology, 2010, 12(1):118-123.
[35]Edgar RC. UPARSE:highly accurate OTU sequences from microbial amplicon reads[J]. Nature Methods, 2013, 10(10):996-998.
[36]Schloss PD, Westcott SL, Ryabin T, et al. Introducing mothur:open-source, platform-independent, community-supported software for describing and comparing microbial communities[J]. Applied and Environmental Microbiology, 2009, 75(23):7537-7541.
[37]Wang Q, Garrity GM, Tiedje JM, et al. Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy[J]. Applied and Environmental Microbiology, 2007, 73(16):5261-5267.
[38]Liu Z, DeSantis TZ, Andersen GL, et al. Accurate taxonomy assignments from 16S rRNA sequences produced by highly parallel pyrosequencers[J]. Nucleic Acids Research, 2008, 36(18):e120.
[39]Burke CM, Darling AE. A method for high precision sequencing of near full-length 16S rRNA genes on an Illumina MiSeq[J]. Peer J, 2016, 4:e2492.
[40]Langille MG, Zaneveld J, Caporaso JG, et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences[J]. Nature Biotechnology, 2013, 31(9):814-821.
(責(zé)任編輯 李楠)
Full-length Sequencing of 16S rRNA Gene and Its Analysis Based on the SMRT Sequencing Technology
TANG Yong1,2LIU Xu3
(1. Leshan Vocational & Technical College,Leshan 614000;2. Leshan Fengye Agricultural Technology CO.,Ltd,Leshan 614000;3. Agricultural Bureau of Leshan,Leshan 614000)
Single-molecule sequencing,called as third-generation sequencing technology,is a high-throughput technique developed in last few years. Of them,single-molecule real-time(SMRT)sequencing technology,developed by Pacific BioSciences(PacBio),is the first commercial technology. SMRT sequencing technology could successfully overcome the disadvantage of low accuracy in the third-generation sequencing technology,by generating circular consensus sequence(CCS)through cycle sequencing the template sequence. Therefore,SMRT sequencing technology will allow scientists to profoundly and accurately study the structures and functions of microbial communities in complex environment. Here,we introduced the advantages and disadvantages of SMRT sequencing technology in 16S rRNA gene sequence of microorganism,and summarized the important steps,such as quality control,filtering of error tags,clustering analysis,annotation analysis,etc. of full-length 16S rRNA gene sequence acquired by SMRT sequencing technology. In addition,we pointed out the problems and the feasible solutions while applying SMRT sequencing technology in the study of microbial in complex environment,aiming at providing references for researchers in this field.
single-molecule real-time sequencing technology;PacBio RS II;third-generation sequencing technology;circular consensus sequence
10.13560/j.cnki.biotech.bull.1985.2017-0036
2017-01-20
樂山市科技局重點(diǎn)研究項(xiàng)目(16JSC128)
劉旭,女,碩士,研究方向:特種經(jīng)濟(jì)動(dòng)物養(yǎng)殖;E-mail:331424471@qq.com
唐勇,男,博士,研究方向:營(yíng)養(yǎng)生理;E-mail:ty20042028@163.com