魯 松
(四川省自然資源科學(xué)研究院,四川 成都 610015)
DNA條形碼技術(shù)(DNA barcoding)是利用標(biāo)準(zhǔn)的、有足夠變異的、易擴(kuò)增且相對較短的DNA片段(DNA barcode)自身在物種種內(nèi)的特異性和種間的多樣性而創(chuàng)建的一種新的生物身份識別系統(tǒng),它可以對物種進(jìn)行快速的自動鑒定(Hebert,2003;任保青、陳之端,2010)。其思想產(chǎn)生于現(xiàn)代商品零售業(yè)的條形編碼系統(tǒng),由于DNA序列堿基排列方式的差異性,只需一段長度為幾百堿基的序列就可以理論上獲得完全包括所有物種的基因序列信息(肖金花,2004)。DNA條形碼技術(shù)是近年來的研究熱點(diǎn),在動物中利用線粒體基因片段CO1為標(biāo)記,在一些類群中已部分實(shí)現(xiàn)了條形碼鑒定,但在植物領(lǐng)域還存在較大問題。本文就植物DNA條形碼技術(shù)的研究現(xiàn)狀、應(yīng)用及存在的問題等作簡要綜述。
生物條形碼聯(lián)盟(Consortium for the Barcode of Life,CBOL)在題為 Barcoding Life:Ten Reasons的小冊子中清楚地闡述了DNA條形碼包括植物DNA條形碼的優(yōu)點(diǎn)(http://phe.rockefeller.edu/barcode/),概括起來有:(1)以DNA序列為檢測對象,不受個體形態(tài)特征限制。采用一小塊或一小片材料識別一個物種,即使樣本受損也不會影響識別結(jié)果。(2)不受個體發(fā)育階段影響。有些物種在不同發(fā)育時期有明顯差異,不容易識別,但其DNA條形碼信息不會發(fā)生變化,因而較之傳統(tǒng)方法,擴(kuò)大了檢測樣本的范圍。(3)對于分類學(xué)中難以區(qū)分的類群,采用DNA條形碼可以拋開形態(tài)相似的假象,從基因水平上提供一種分類依據(jù)。(4)核苷酸序列組成的數(shù)據(jù)庫可以被視為數(shù)字化的數(shù)據(jù)庫,提供明確的信息,不僅彌補(bǔ)了形態(tài)描述的不足,而且可以加快已知物種的識別速度,同時便于新物種的發(fā)現(xiàn),將會使分類學(xué)科的發(fā)展更加快速和深入。(5)如果設(shè)想的條形碼掃描儀可以實(shí)現(xiàn),將會減少對傳統(tǒng)分類學(xué)人力和物力的需求,會更有益于分類學(xué)家缺乏的國家,尤其是發(fā)展中國家。
理想的DNA條形碼應(yīng)該符合以下幾個標(biāo)準(zhǔn):(1)在種間有明顯的遺傳變異和分化,同時種內(nèi)變異足夠小,以便區(qū)分物種;(2)片段足夠短,便于一個反應(yīng)完成測序工作,而且便于DNA提取和PCR擴(kuò)增,尤其是對存在DNA降解的材料(如:保存已久的臘葉標(biāo)本、炮制處理過的民間藥材);(3)存在高度保守的區(qū)域,便于設(shè)計(jì)通用引物。
2.1 植物DNA條形碼候選片段及組合
在植物中,線粒體進(jìn)化速率太慢不足以提供足夠的遺傳變異、存在頻繁的結(jié)構(gòu)重排和橫向基因轉(zhuǎn)移現(xiàn)象;核基因存在多拷貝、雜交、基因滲透和進(jìn)化速率太快難以設(shè)大尺度的通用引物等復(fù)雜問題(王培培,2010)。核基因組的核糖體 DNA ITS基因在GenBank數(shù)據(jù)庫中含有大量序列,且進(jìn)化速率快、雙親遺傳、引物通用等,在最初被視為植物候選條形碼,但之后的研究結(jié)果發(fā)現(xiàn),ITS片段的擴(kuò)增成功率較低,且長度變異大、在部分植物類群尤其是裸子植物中致同進(jìn)化不完全,降低了該片段作為 DNA條形碼的應(yīng)用性。而葉綠體基因組的進(jìn)化速率位于線粒體和核基因之間、基因結(jié)構(gòu)穩(wěn)定,單親遺傳避免了基因重組、可以直接測序、在一個細(xì)胞中具有多個拷貝,即使材料高度降解也容易提取,因此目前植物DNA條形碼研究主要集中在葉綠體基因組上。最初,生命條形碼聯(lián)盟及研究學(xué)者提出幾個葉綠體片段,而這些片段有的進(jìn)化速率太慢(如 rpoB,rpoC1),有的在某些植物類群中缺失(如YCF5在苔蘚類植物中缺失,accD在禾本科植物中缺失,ndhJ在松屬植物中缺失、在部分蘭花中變短或功能喪失),有的缺少通用的擴(kuò)增引物(如 psbK-psbI,matK),且越來越多的研究表明,單一基因片段不可能對所有植物物種進(jìn)行鑒定。研究者相繼提出各種組合,如Kress等(Kress,2005)對有花植物的11個基因或基因間區(qū)進(jìn)行比較分析,提出多位點(diǎn)組合的可能,并認(rèn)為ITS和trnH-psbA可以作為被子植物基因條碼選擇的出發(fā)點(diǎn),后來又提出以rbcL+trnH-psbA作為陸生植物DNA條形碼;Newmaster等(Newmaster,2006)建議一種以 rbcL作為核心條形碼,根據(jù)需要在不同類群中選擇不同二級條形碼的分層方法;第二屆國際生物條形碼大會提出matK+atpF-atpH+psbK-psbI和matK+atpF-atpH+trnH-psbA兩個組合及rpoC1+rpoB+matK或rpoC1+matK+trnH-psbA兩個組合作為陸地植物的條形碼標(biāo)記;生命條形碼國際聯(lián)盟植物工作組(CBOL Plant Working Group,2009)綜合考慮通用性、序列質(zhì)量、鑒定水平等方面,建議使用rbcL+matK作為核心條形碼,并針對不同類群的具體結(jié)果,增加相應(yīng)的候選基因;2009年11月在墨西哥城召開的第三屆國際DNA條形碼會議上生命條形碼聯(lián)盟植物工作組又建議葉綠體 trnH-psbA片段和核基因片段 ITS為補(bǔ)充條形碼,并在今后一年半時間內(nèi)對這兩個條形碼進(jìn)行評估。然而,葉綠體片段的各種組合對于植物物種的分辨率可能存在一個上限。Sass等(Sass,2007)在蘇鐵目中檢測了生命條形碼聯(lián)盟植物工作組提議的7個標(biāo)記片段,發(fā)現(xiàn)任何一個標(biāo)記都無法完全識別所有物種。Fazekas等(Fazekas,2008)分析了陸生植物的8個質(zhì)體片段和1個線粒體片段作為候選條碼的可能性,并觀察了各種片段組合的物種鑒定結(jié)果,4個片段組合時得到鑒定的物種數(shù)與7個片段組合時相當(dāng)(70%左右)。Starr等(Starr,2009)對莎草科苔草屬(Cyperaceae,Carex)DNA條形碼進(jìn)行評價,使用的基因片段有 matK,rbcL,rpoC1,rpoB,trnH-psbA,所有的單片段和多片段組合的物種分辨率都不超過60%。Gonzalez等(Gonzalez,2009)在對法屬圭亞那熱帶森林兩公頃內(nèi)所有樹木全面調(diào)查的基礎(chǔ)上,評價八個 DNA標(biāo)記(rbcL,rpoC1,rpoB,matK,ycf5,trnL,trnH-psbA,ITS)在熱帶植物生物多樣性調(diào)查中的應(yīng)用,所有單片段或多片段組合的物種分辨率都不超過70%。研究者還發(fā)現(xiàn),研究類群的采樣策略對 DNA條形碼的分辨率有明顯影響。Meyer等(Meyer,2005)首次對條形碼在不同類群中的分辨能力進(jìn)行評價,認(rèn)為 DNA條形碼在分類學(xué)基礎(chǔ)完善、采樣充分的類群中表現(xiàn)較好,而在采樣不完全的類群中表現(xiàn)較差。Little等(Little,2007)以裸子植物為例對使用DNA條形碼鑒定樣品的幾種方法進(jìn)行了比較,建議結(jié)合地理分布將有助于物種水平的鑒定,并認(rèn)為最可靠的物種鑒定依賴于包含所有物種所有單倍型的引文數(shù)據(jù)庫的建立。
2.2 植物DNA條形碼數(shù)據(jù)庫
生物條形碼工程的首要目標(biāo)是建立可用來作為鑒定標(biāo)本工具的基因序列數(shù)據(jù)庫(Hebert,2004)。目前還沒有專門的植物條形碼數(shù)據(jù)庫,其中最重要的是BOLD。BOLD:全稱為Barcode of Life Data Systems,BOLD是最早開發(fā)也是全世界最大的DNA條形碼數(shù)據(jù)庫,由生命條形碼聯(lián)盟進(jìn)行維護(hù),是一個在線的鑒定平臺,可進(jìn)行條形碼序列的搜集、管理、分析和物種鑒定。其中植物以rbcL+matK作為條形碼。截至 2012年 5月,BOLD系統(tǒng)已經(jīng)收載了153078個物種,1601017條用于條形碼鑒定的序列,其中植物169607條 (http://www.boldsystems.org/views/login.php)。BOLD數(shù)據(jù)庫提交的 DNA條形碼信息需同時包括7種數(shù)據(jù)元素才能被視為正式的條形碼,這7種數(shù)據(jù)包括:物種名(可以是臨時物種名);憑證信息(標(biāo)本的目錄號與館藏號等信息);采集記錄(采集人、采集日期、緯度與海拔高度 GPS定位參數(shù)等標(biāo)本采集信息);樣品鑒定人;條形碼序列(至少500 bp);條形碼序列的PCR擴(kuò)增引物;跟蹤文件(如標(biāo)本的照片以及標(biāo)本采集生境的描述等)。
2.3 我國科學(xué)家在植物DNA條形碼的研究上也取得了重要進(jìn)展
我國學(xué)者在Paul Hebert提出DNA條形碼的概念之后不久就開始關(guān)注這項(xiàng)技術(shù)。寧淑萍等(寧淑萍,2008)分別以綜述形式對植物DNA條形碼技術(shù)進(jìn)行了介紹。葛學(xué)軍研究組在科級水平上利用10種分子標(biāo)記對蘚類植物進(jìn)行了評價,發(fā)現(xiàn) rbcL、rpoC1、trnH-psbA、rps4和 trnL-trnF可以作為候選的DNA條形碼(Liu,2011)。陳世林課題組(Yao,2010)在藥用生物中篩選DNA條形碼,通過對6000余份藥用植物樣本進(jìn)行DNA條形碼序列篩選,表明ITS2序列的鑒定能力優(yōu)于國際條形碼協(xié)會植物工作組推薦的matK+rbcL組合,首次提出將ITS2序列作為藥用植物鑒定的通用DNA條形碼,并建立了以ITS2為核心,psbA-trnH為補(bǔ)充序列的藥用植物DNA條形碼鑒定體系。任保青等(任保青,2010)利用4個DNA片段(ITS、rbcL、matK和 trnH-psbA)對樺木科榿木屬(Alnus)全世界所有的物種(26種)的131個個體進(jìn)行取樣分析,發(fā)現(xiàn)4個片段在種級水平上的分辨能力分別 10%(rbcL)、31.25%(matK)、63.6%(trnH-psbA)和 76.9%(ITS),而將 ITS和trnH-psbA結(jié)合在一起使用可以分辨全部種類中88.5%。
2009年8月起,李德銖等(China Plant BOL Group,2011)聯(lián)合全國19個科研院所和高校62名研究人員組成的中國植物條形碼研究團(tuán)隊(duì),深入開展了種子植物DNA條形碼的研究。研究團(tuán)隊(duì)根據(jù)對主要來自中國的種子植物75科141屬1757種共約6286個樣本(每個種至少兩個樣本)的4個DNA候選條形碼片段(rbcL,matK,trnH-psbA和ITS)引物通用性、序列質(zhì)量和物種分辨率等的綜合分析,發(fā)現(xiàn)3個質(zhì)體DNA候選條形碼片段具有較高的通用性;核糖體核DNA候選條形碼ITS在被子植物中的通用性較高,而在裸子植物中稍低。研究還發(fā)現(xiàn),ITS具有最高的物種分辨率,與3個質(zhì)體 DNA條形碼片段的任何一個組合均可分辨69.9%~79.1%的物種,顯著高于 rbcL+matK條形碼組合49.7%的分辨率。此外,ITS的部分序列 ITS2也表現(xiàn)出較高的物種分辨率。
3.1 DNA條形碼最初的目的有兩個:將樣品鑒定到物種水平;促進(jìn)發(fā)現(xiàn)新物種,尤其是那些隱藏的、細(xì)微的、形態(tài)上復(fù)雜或者難以獲得的其他生物體。另外,還可以利用形態(tài)學(xué)、生物地理學(xué)和DNA序列數(shù)據(jù)分析,揭示隱存種。隱存種不是新物種,是指在傳統(tǒng)分類法中,沒有被劃分出來,被歸屬為同一個物種的不同物種。例如,Lahaye等(Lahaye,2008)單獨(dú)使用matK片段對分布在中美洲的1000多種蘭科植物進(jìn)行分析,顯示單獨(dú)使用 matK片段能夠揭示隱種并且證明了DNA條形碼的可行性。協(xié)助傳統(tǒng)分類方法發(fā)現(xiàn)那些形態(tài)相似但存在遺傳分化的隱種是DNA條形碼技術(shù)對分類學(xué)研究的重要貢獻(xiàn),可顯著提高實(shí)地生態(tài)學(xué)考察研究的準(zhǔn)確性和效率。
3.2 在其他一些方面植物DNA條形碼也有重要應(yīng)用。DNA條形碼和DNA芯片兩種技術(shù)平臺結(jié)合可以在出入境檢驗(yàn)檢疫領(lǐng)域得到應(yīng)用;DNA條形碼還可為外來入侵物種提供快速、準(zhǔn)確的監(jiān)測,有效避免外來入侵物種的進(jìn)入;此外,DNA條形碼還可以應(yīng)用于食品安全、法律鑒定、病蟲害防治等領(lǐng)域。在保護(hù)生物學(xué)中,DNA條形碼可以正確評價瀕危物種的遺傳多樣性,為其科學(xué)保護(hù)和種群恢復(fù)提供可靠依據(jù)(Vogler,2007)。
3.3 目前,區(qū)域性條形碼分析與生態(tài)學(xué)結(jié)合成為DNA條形碼的主要發(fā)展趨勢之一。對加拿大北極群島的莎草(Carex and Kobresia,Cyperaceae)進(jìn)行條形碼研究(王培培,2010)發(fā)現(xiàn),由于在群島內(nèi)缺少比較近緣的物種,該地區(qū)的莎草得到很好的鑒定,matK單基因的分辨率就高達(dá)95%,除matK+atpFH,所有的兩片段組合都能達(dá)到100%鑒定率。如果這一現(xiàn)象普遍存在,將來有望開發(fā)基于 DNA序列鑒定物種的新算法,即在當(dāng)?shù)丶暗貐^(qū)植物區(qū)系的范圍內(nèi)考慮條形碼序列。
4.1 局限性
DNA條形碼概念提出后,取得了豐碩的研究成果,不過,持懷疑態(tài)度的學(xué)者也大有人在。有效的DNA條形碼需要滿足兩個前提條件(Toffoli,2008):一是種內(nèi)遺傳差異顯著小于種間差異,二者間存在條形碼間隙;二是研究對象在物種系統(tǒng)發(fā)生上彼此互為單系群(monophyletic group)。當(dāng) DNA條形碼分析的樣品數(shù)量足夠大時,種內(nèi)遺傳組成差異可能隨地理種群數(shù)量增加而顯著提高,而種間遺傳差異則降低,種內(nèi)最大遺傳距離和種間最小遺傳距離可能重疊交叉,條形碼間隙消失,可能得出錯誤的結(jié)論。有研究顯示確實(shí)存在種內(nèi)分化過高和種間分化不足現(xiàn)象(程希婷,2011)。目前的 植物DNA條形碼主要為線粒體和葉綠體基因,而二者均為單親遺傳,鑒定存在雜交的生物類群時明顯有缺陷。許多生物類群存在不完全支系演化(incompletelineage sorting)與雜交等基因滲入(introgression)現(xiàn)象,DNA條形碼鑒定難以區(qū)分。新近形成的物種,其分子間差異不一定達(dá)到顯著區(qū)分的程度,而且分子進(jìn)化速率的差異可能導(dǎo)致二次突變也會影響分析的結(jié)果;近緣和近期分化的物種是否能用該方法驗(yàn)證一直備受爭議。
4.2 分類鑒定的閾值難以統(tǒng)一
如果用于傳統(tǒng)形態(tài)學(xué)分類較困難的物種,DNA條形碼分析很可能遇到諸多問題。不同物種的變異范圍可能不一致,種內(nèi)和種間變異范圍模糊,很難界定區(qū)分種內(nèi)和種間差異的標(biāo)準(zhǔn);其它各分類階元上不同生物類群判斷標(biāo)準(zhǔn)同樣也難以確定。目前,很多研究取材時取材的種群數(shù)量很少,每個種群僅僅分析1或2個個體,必然導(dǎo)致種內(nèi)變異的低估;或者沒有分析姊妹類群,高估了種間差異,這可能虛高了DNA條形碼的有效性和準(zhǔn)確率(閆化學(xué),2010)。
4.3 一些誤區(qū)
一些科研人員提出在應(yīng)用DNA條形碼進(jìn)行物種鑒定時,應(yīng)首先對分類群進(jìn)行系統(tǒng)發(fā)育分析,了解譜系進(jìn)化線和物種的關(guān)系。其實(shí)這并不是DNA條形碼的應(yīng)用初衷,事實(shí)上依靠幾百bp的序列長度來建立系統(tǒng)發(fā)育樹是困難的。條形碼分析中通常采用標(biāo)準(zhǔn)的分子系統(tǒng)學(xué)方法(比如 NJ、UPGMA、ML、MP、Bayes)建立多種系統(tǒng)樹。然而,建樹的目的并不是利用條形碼重建系統(tǒng)發(fā)育樹,而是為了檢驗(yàn)每個物種的單系性,即同一物種的不同個體能否緊密聚類到一起。
盡管還存在上述諸多問題,但隨著植物DNA條形碼研究的大量開展,相信通過大規(guī)模的分析和整體評價,最終將會找出通用且適合的植物DNA條形碼。
[1]CBOL Plant Working Groups.A DNA barcode for land plants[J].J.PNAS,2009,106(31):12794 ~12797.
[2]China Plant BOL Group.Comparative analysis of a large dataset indicates that internal transcribed spacer(ITS)should be incorporated into the core barcode for seed plants[J].PNAS,2011,108:19641~19646.
[3]Clerc-Blain J L,Starr J R,Bull R D.A regional approach to plant DNA barcoding provides high species resolution of sedges(Carex and Kobresia,Cyperaceae)in the Canadian Arctic Archipelago[J].Molecular Ecology Resources,2010,10:69 ~91.
[4]Fazekas A J,Kesanakurti P R,Burgess K S.Are plant species inherently harder to discriminate than animal species using DNA barcoding markers?[J].Molecular Ecology Resources,2009,9((Suppl.1)):130 ~139.
[5]Gonzalez M A,Baraloto C B,Engel J.Identification of Amazonian Trees with DNA Barcodes[J].PLoS ONE,2009,4(10):e7483.
[6]Hebert P D N,Ratnasingham S,de Waard J R.Barcoding animal life:cytochrome c oxidase subunit 1 divergences among closely re-lated species[J].Proc Biol Sci,2003,270:S96 ~99.
[7]Hebert P D N,Stoeckle M Y,Zemlak T S,et al.Identification of birds through DNA barcodes[J].PLoS Biol,2004,2:e312.
[8]Kress W J,Wurdark K J,Zimmer E A.Use of DNA barcodes to identify flowering plants[J].PNAS,2005,102:8369 ~8374.
[9]Lahaye R,Bank M,Bogarin D.DNA barcoding the floras of biodiversity hotspots[J].PNAS,2008,105:2923 ~2928.
[10]Liu Y,Cao T,Ge XJ.A case study of DNA barcoding in Chinese Grimmiaceae and a moss recorded in China for the first time[J].Taxon,2011,60(1):185 ~193.
[11]Little D P,Stevenson DW.A comparison of algorithms for the identification of specimens using DNA barcodes:examples from gymnosperms[J].Cladistics,2007,23:1 ~21.
[12]Meyer C P,and Paulay G.DNA barcoding:Error rates based on comprehensive sampling[J].PLoS Biol.,2005,3(12):e422.
[13]Newmaster S G,F(xiàn)azekas A J,Steeves R A D,Janovec J.Testing candidate plant barcode regions in the Myristicaceae[J].Molecular Ecology Resources.2008,8:480 ~490.
[14]Sass C,Little D P,Stevenson DW.DNA Barcoding in the Cycadales:Testing the Potential of Proposed Barcoding Markers for Species Identification of Cycads[J].PLoS ONE,2007,2(11):e1154.
[15]Starr J R,Naczi R F C,Chouinard BN.Plant DNA barcodes andspecies resolution in sedges(Carex,Cyperaceae)[J].Molecular Ecology Resources,2009,9(Suppl.1):151 ~163.
[16]Toffoli D,Hrbek T,de Araújo M L G,et al.A test of the utility of DNA barcoding in the radiation of the freshwater stingray genus Potamotrygon(Potamotrygonidae,Myliobatiformes).Genet.Mol.Biol.,2008,31(1):324 ~336.
[17]Vogler A P,Monaghan M T.Recent advances in DNA taxonomy.J Zoolog Syst Evol Res,2007,45:1 ~10.
[18]Yao H,Song JY,Liu C,et al.Use of ITS2 Region as the Universal DNA Barcode for Plants and Animals.PlonS One,2010,5(10):13102.
[19]程希婷,王愛民,顧志峰,等.DNA條形碼研究進(jìn)展[J].基因組學(xué)與應(yīng)用生物學(xué),2011,30(6):748 ~758.
[20]寧淑萍,顏海飛,郝剛,葛學(xué)軍.植物DNA條形碼研究進(jìn)展[J].生物多樣性,2008,16(5):417 ~425.
[21]任保青,陳之端,2010,植物DNA條形碼技術(shù)[J].植物學(xué)報(bào),45(1):1~12.
[22]肖金花,肖暉,黃大衛(wèi).生物分類學(xué)的新動向——DNA條形編碼[J].動物學(xué)報(bào),2004,50(5):852 ~855.
[23]王培培.DNA條形碼在不同地理分布的云杉屬物種中應(yīng)用初探[D].成都:成都理工大學(xué),2010.
[24]閆化學(xué),于杰.DNA條形碼技術(shù)在植物中的研究現(xiàn)狀[J].植物學(xué)報(bào),2010,45(1):102~108.