陳 治,蔡杏偉,張清鳳,李高俊,馬春來,申志新
1. 海南熱帶海洋學(xué)院/熱帶海洋生物資源利用與保護(hù)教育部重點實驗室/海南省熱帶海洋漁業(yè)資源保護(hù)與利用重點實驗室,海南 三亞 572022
2. 海南省海洋與漁業(yè)科學(xué)院,海南 ???571126
魚類是淡水生態(tài)系統(tǒng)的重要組成部分。目前,有超過10 000種魚類生活在淡水中,大約占魚類總數(shù)的40%和脊椎動物的1/4[1]。然而,由于氣候變化、人類活動、生物入侵等原因,全球淡水魚類正以前所未有的速度消失。淡水魚類保護(hù)成為當(dāng)前生物多樣性保護(hù)刻不容緩的事宜[1]。全面準(zhǔn)確的多樣性調(diào)查是開展各項淡水魚類保護(hù)的基礎(chǔ)。傳統(tǒng)的淡水魚類調(diào)查一般基于網(wǎng)具捕獲 (如網(wǎng)捕、籠捕等),這對調(diào)查對象及其所在生境具有一定破壞性。隨著分子生物學(xué)技術(shù)的發(fā)展,一種對調(diào)查對象無損傷、對環(huán)境友好的物種多樣性調(diào)查方法——環(huán)境 DNA (Environmental DNA, eDNA) 宏條形碼(Metabarcoding) 技術(shù)應(yīng)運而生[2]。該技術(shù)是指對從環(huán)境樣品 (如底泥、水、糞便等) 中分離的總DNA進(jìn)行目的片段的PCR擴(kuò)增和高通量測序,通過與已有DNA數(shù)據(jù)庫進(jìn)行比對與注釋,從而實現(xiàn)多物種 (或更高級分類單元) 的鑒定[3]。近年來,環(huán)境DNA宏條形碼技術(shù)引起了漁業(yè)生態(tài)學(xué)家的廣泛關(guān)注,并逐漸應(yīng)用于淡水魚類多樣性調(diào)查、珍稀瀕危物種和外來入侵種檢測等領(lǐng)域[4-6]。
然而,作為一種新興的水生生物多樣性調(diào)查方法,環(huán)境DNA宏條形碼技術(shù)目前仍存在很多問題——不僅取樣策略、實驗環(huán)境對研究結(jié)果具有較大影響[2,7],而且物種判別方案對定性、定量的準(zhǔn)確性也有不可忽視的影響[2-3,7]。目前,物種判別方面比較突出的問題是:1) 參考數(shù)據(jù)庫的構(gòu)建。既可以選擇NCBI、BOLD、MitoFish、FISH-BOL等公共數(shù)據(jù)庫,也可以實際采集樣品自建數(shù)據(jù)庫,或者二者相結(jié)合[7]。主流的觀點認(rèn)為自建數(shù)據(jù)庫優(yōu)于公共數(shù)據(jù)庫[8-9],但目前大部分魚類環(huán)境DNA宏條形碼研究主要還是采用公共數(shù)據(jù)庫[10-11],且其中一些研究表明基于公共數(shù)據(jù)庫進(jìn)行物種注釋效果也比較理想[12-14]。因此數(shù)據(jù)庫的優(yōu)劣可能跟研究區(qū)域、物種類群等因素密切相關(guān)。2) 最優(yōu)目標(biāo)基因的選擇。目前已經(jīng)有不少針對魚類設(shè)計的環(huán)境DNA宏條形碼通用引物[7,15-16],其目標(biāo)基因各不相同,對魚類的鑒定能力也存在差異。究竟哪種目標(biāo)基因更適合特定的研究區(qū)域,需要根據(jù)具體調(diào)查類群進(jìn)行篩選[7,15-16]。3) 種間差異閾值的確定。標(biāo)準(zhǔn)的動物DNA條形碼主要為線粒體細(xì)胞色素c氧化酶亞基I(Cytochrome coxidase subunit I, COI) 基因;但魚類環(huán)境DNA 宏條形碼主要選用線粒體12S核糖體(12s ribosomal RNA, 12S) 或 16S 核糖體 (16s ribosomal RNA, 16S) 基因[16]。不僅變異速度更不穩(wěn)定[17],且擴(kuò)增片段多小于200 bp[15-16]。物種系統(tǒng)發(fā)育分析過程的種間差異閾值應(yīng)為多少目前也尚無定論[18]。
海南省是中國唯一的熱帶島嶼省份,氣候條件優(yōu)越,是中國生物多樣性的天然寶庫和資源基地,有著重要的保護(hù)價值[19]。2016—2018年,海南省海洋與漁業(yè)科學(xué)院對本省淡水魚類進(jìn)行了比較全面的調(diào)查[20],至少采集到淡水魚類124種 (不包括2種洄游的鰻鱺)——僅“兩江一河” (南渡江、昌化江、萬泉河) 初步確認(rèn)的淡水土著魚類就達(dá)93種[21],其中海南島特有魚類19種[21]??紤]到傳統(tǒng)調(diào)查方法具有費時費力、破壞性大及靶生物捕獲率低的缺點,可能還有更多的土著種及特有種等待發(fā)掘。有必要在后續(xù)調(diào)查研究中引入環(huán)境DNA宏條形碼技術(shù),從而更好地了解海南島土著魚類多樣性。而參考數(shù)據(jù)庫的準(zhǔn)確構(gòu)建和條形碼基因的合理選擇,則是后續(xù)使用該技術(shù)的基礎(chǔ)和前提。針對海南島淡水魚類多樣性調(diào)查的實際需求及環(huán)境DNA宏條形碼技術(shù)存在的問題,本研究的目的如下:1) 初步構(gòu)建海南島淡水魚類環(huán)境DNA宏條形碼參考數(shù)據(jù)庫,比較自建數(shù)據(jù)庫與公共數(shù)據(jù)庫在物種注釋上的差異;2) 以自建數(shù)據(jù)庫為本底資料,考察不同魚類的種間差異,探究不同目標(biāo)基因的物種判別能力及種間差異閾值。本研究將為后期基于環(huán)境DNA宏條形碼技術(shù)的海南島淡水魚類多樣性調(diào)查和其他類似研究提供基礎(chǔ)和參考。
樣品采集及鑒定由海南省海洋與漁業(yè)科學(xué)院完成。采集時間始于2016年,采集地點為海南島各淡水水系。形態(tài)鑒定主要參照《海南島淡水及河口魚類志》[22]《廣東淡水魚類志》[23]等資料。對于形態(tài)鑒定無誤的物種,剪取偶鰭鰭條或背部組織肌肉,于無水乙醇中?20 ℃保存。
DNA提取采用標(biāo)準(zhǔn)的苯酚-氯仿-異戊醇法。使用目前應(yīng)用廣泛的魚類環(huán)境DNA宏條形碼通用引物MiFish-U[17](針對線粒體12S,擴(kuò)增子約170 bp)、Vert-16S[24](針對線粒體 16S,擴(kuò)增子約 256 bp)及本研究基于148種魚類的COI序列專門針對海南島淡水魚類設(shè)計的COI短片段引物 (F: AAYCAYAAAGACATYGGYACCCT,R: GGYATTACTATAAAGAARATYAT,擴(kuò)增子 139 bp) 進(jìn)行PCR擴(kuò)增。PCR產(chǎn)物及后續(xù)處理參照吳娜[25]、梁日深等[26]:反應(yīng)體系總體積為50 μL,其中包括PCR Mix 反應(yīng)混合液 (天根生化科技有限公司) 25 μL、滅菌蒸餾水 21 μL、上下游引物 (10 μmol·L?1)各 1 μL、DNA 樣品 2 μL。PCR 反應(yīng)條件為 94 ℃預(yù)變性 5 min;94 ℃ 變性 30 s,55 ℃ 退火 30 s,72 ℃ 延伸 40 s,35 個循環(huán);最后 72 ℃ 再延伸5 min。PCR產(chǎn)物用1%瓊脂糖凝膠電泳檢測,純化回收后送廣州艾基生物技術(shù)有限公司進(jìn)行雙向測序。此外,對于部分有歷史分布記錄但實際暫未采集到相關(guān)樣品的魚類,或者由于樣品個體很小、狀態(tài)保存差而測序失敗的疑似種,本研究一律按該物種在海南有分布處理。從NCBI公共數(shù)據(jù)庫 (以下簡稱公共數(shù)據(jù)庫) 下載這些物種的線粒體序列,截齊后暫時作為海南島淡水魚類環(huán)境DNA宏條形碼參考序列 (具體名單及GenBank序列號見附錄A,詳見 http://dx.doi.org/10.12131/20210339 的資源附件)。
基于序列相似度,模擬條形碼序列注釋過程,統(tǒng)計測序所得序列在公共數(shù)據(jù)庫和自建數(shù)據(jù)庫的物種注釋情況。待注釋序列在參考數(shù)據(jù)庫中比對到的高相似度物種有且僅有其自身1種時,則表示該序列被準(zhǔn)確注釋。基于公共數(shù)據(jù)庫的序列注釋操作如下:打開NCBI序列比對窗口 (https://blast.ncbi.nlm.nih.gov/Blast.cgi),選擇“Nucleotide Blast”,將人工校對切齊處理后的序列輸入“Enter accession number (s), gi (s), or FASTA sequence (s)”對話框,點擊“Blast”選項統(tǒng)計不同相似度下的物種比對名錄;基于自建數(shù)據(jù)庫的注釋過程則參見郜星晨和姜偉[27]:安裝BLAST-2.4軟件工具并配置系統(tǒng)工作環(huán)境,將COI、12S、16S序列整合為3個不同的FASTA格式文件 (COI-barcode.fa、12S-barcode.fa和16S-barcode.fa),Makeblastdb命令格式化和索引化上述數(shù)據(jù) (參數(shù):-in COI-barcode.fa -dbtype nucl -parse_seqids -out fish、-in 12S-barcode.fa -dbtype nucl -parse_seqids -out fish、-in 16S-barcode.fa -dbtype nucl -parse_seqids -out fish),初步形成可供BLAST檢索的本地數(shù)據(jù)庫。取待檢測物種的序列,保存為test.fa文件。Blastn命令執(zhí)行待檢序列數(shù)據(jù)庫檢索 (參數(shù):-query test.fa -db fish -evalue 1e-5-outfmt 2),自動輸出檢索結(jié)果 test.txt。
鄰接系統(tǒng)發(fā)育 (Neighbor-joining, NJ) 分析、種間差異閾值的調(diào)整及確定參考Milan等[18]。具體操作如下:測定的序列通過DNAStar軟件包中的Seqman程序進(jìn)行人工校對切齊。打開MEGA 6.0軟件,基于Kimura 雙參數(shù)模型 (Kimura-2-parameter,K2P) 采用鄰接法構(gòu)建系統(tǒng)發(fā)育樹。系統(tǒng)分支支持率經(jīng)1 000次重復(fù)抽樣檢測;統(tǒng)計序列間的遺傳距離,在0~0.02范圍內(nèi)以0.000 5為閾值間隔設(shè)置不同的種間差異閾值,物種錯誤鑒定比例最小的閾值則為種間差異最佳閾值。
截至2021年5月1日,本研究實地采集魚類72種 (共85尾,其中12種魚類樣品量為2~3尾,其余種類樣品量僅1尾) ,從公共數(shù)據(jù)庫下載67種 (附錄A)。兩數(shù)據(jù)庫物種共計139種,隸屬于8目25科95屬 (附錄A)。其中鯉形目、鱸形目和鲇形目物種數(shù)較多,分別為73、37和18種;鱂形目、脂鯉目、頜針魚目、合鰓魚目和鰻鱺目數(shù)量較少,種類僅2~3種。
雖然本次建庫實地采集的魚類種數(shù)還較少,但其中卻包含南渡江吻蝦虎魚(Rhinogobius nandujiangensis)、海南原纓口鰍 (Vanmanenia hainanensis)等海南島淡水土著魚類特有種11種 (具體名單見附錄 A)。72 種魚中,有 16 (COI)、20 (12S) 和 22(16S) 種魚類在公共數(shù)據(jù)庫內(nèi)無參考序列,為本研究首次提供 [海南異鱲 (Parazacco fasciatus)、海南華鳊 (Sinibrama melrosei) 等,主要為海南島淡水土著魚類特有種或少見種 (附錄A)]。
自建數(shù)據(jù)庫有日本鰻鱺 (Anguilla japonica)、中華沙塘鱧 (Odontobutis sinensis) 等 67 種魚類暫未采到樣品,物種覆蓋度為51.80% (72/139);公共數(shù)據(jù)庫有 16 (COI)、22 (12S) 、24 (16S) 種魚類在其學(xué)名下無對應(yīng)序列,物種覆蓋度分別為88.49% (COI:123/139)、84.17% (12S: 117/139) 和 82.73% (16S:115/139) (圖1、附錄A)。自建數(shù)據(jù)庫的物種覆蓋度低于公共數(shù)據(jù)庫。
圖1 本研究中自建數(shù)據(jù)庫及公共數(shù)據(jù)庫的魚類種數(shù)Fig. 1 Number of fish species in self-built database and public database in this study
公共數(shù)據(jù)庫內(nèi)的參考序列總數(shù)遠(yuǎn)高于自建數(shù)據(jù)庫的序列總數(shù),但前者明確標(biāo)注采樣地點的序列總數(shù)較少,占比分別為6.69% (COI)、11.57% (12S)和8.02% (16S) (表1)。特別是樣品采集于海南島的序列總數(shù)和魚類種數(shù)嚴(yán)重不足,占標(biāo)注采樣地點的魚類種數(shù)和序列總數(shù)的0~4.42%。而自建數(shù)據(jù)庫72種魚類皆有詳細(xì)的采樣地點信息和對應(yīng)的實物樣品。此外,公共數(shù)據(jù)庫內(nèi)不同條形碼參考序列數(shù)量差別明顯。線粒體12S、16S 條形碼的序列總數(shù)明顯低于COI,分別只有后者的23.96%和27.22%。表明公共數(shù)據(jù)庫不同條形碼數(shù)據(jù)庫的完善程度也存在較大差異。
表1 公共數(shù)據(jù)庫和自建數(shù)據(jù)庫參考序列簡介Table 1 Summary of metabarcoding reference sequence in public database and self-built database
自建數(shù)據(jù)庫的物種注釋結(jié)果顯示:72種魚中,有 23 (COI)、24 (12S) 、22 (16S) 種魚類在公共數(shù)據(jù)庫內(nèi)比對不到高相似度序列 (序列相似度<98%),屬于不可注釋到種的序列,只能大致推測其隸屬的科或?qū)佟V挥?68.06% (COI: 49/72)、66.67% (12S: 48/72) 和 69.44% (16S: 50/72) 的魚類順利比對到高相似度序列 (序列相似度≥98%),屬于可注釋到種的序列。然而,與可注釋到種的序列高度相似的物種較多,即使將序列比對閾值提高到≥99%,平均每種序列仍有 2.47 (COI)、1.53 (12S) 、1.85 (16S) 種候選物種 (圖2、表2)。候選物種數(shù)大于1表明數(shù)據(jù)庫內(nèi)存在不同魚類的參考序列高度相似或完全相同現(xiàn)象。而上述可注釋到種的序列基于自建數(shù)據(jù)庫都能比對到100%相似度的魚類,且每種序列的候選物種數(shù)明顯更少,分別只有1.14(COI)、1.10 (12S) 、1.09 (16S) 種 (取序列相似度≥99%) (圖2、表2)?;趦蓚€數(shù)據(jù)庫的候選物種數(shù)存在顯著或極顯著差別 (COI:F=18.93,P<0.000 1;12S:F=4.80,P=0.029; 16S:F=12.87,P=0.000 4) (取序列相似度≥99%)。
圖2 可注釋到種的魚類的候選物種數(shù) (序列相似度≥99%)Fig. 2 Number of candidate species of fish that can be annotated at species level (with≥99% sequence similarity)
表2 可注釋到種的序列在不同閾值范圍內(nèi)的候選物種數(shù) ()Table 2 Number of candidate species of sequence that can be annotated at species level within different threshold values
表2 可注釋到種的序列在不同閾值范圍內(nèi)的候選物種數(shù) ()Table 2 Number of candidate species of sequence that can be annotated at species level within different threshold values
序列相似度Sequence similarity候選物種數(shù) Number of candidate species基于公共數(shù)據(jù)庫 Based on public database 基于自建數(shù)據(jù)庫 Based on self-built database COI 12S 16S COI 12S 16S 100% 0~9 (1.43±1.64) 0~9 (1.01±1.51) 0~9 (1.00±1.46) 1~2 (1.03±0.18) 1~2 (1.08±.028) 1~2 (1.07±.025)100%>X≥99% 0~15 (1.04±1.88) 0~7 (0.53±0.98) 0~7 (0.85±1.22) 0~1 (0.13±0.34) 0~1 (0.03±0.18) 0~1 (0.03±0.18)99%>X≥98% 0~10 (1.07±1.74) 0~11 (0.85±1.42) 0~11 (1.03±1.67) 0~3 (0.19±0.63) 0~3 (0.13±0.37) 0~2 (0.10±0.29)100%≥X≥99% 0~21 (2.47±3.06) 0~16 (1.53±2.06) 0~15 (1.85±2.27) 1~3 (1.14±0.47) 1~2 (1.10±0.30) 1~2 (1.09±0.28)100%≥X≥98% 0~31 (3.53±4.31) 0~27 (2.38±2.99) 0~23 (2.88±3.24) 1~4 (1.31±0.98) 1~4 (1.20±0.65) 1~3 (1.16±0.45)
不同條形碼基因在公共數(shù)據(jù)庫內(nèi)注釋到的候選物種數(shù)也存在差別 (表2) ,COI基因高于12S、16S。特別是100%≥X≥99% 范圍內(nèi)三者存在顯著差別 (F=4.14,P=0.017) ,表明基于 COI基因的物種注釋需要排除更多的物種。
以序列相似度為主要參考依據(jù),結(jié)合Fish-Base、臺灣魚類資料庫地理分布記錄及《海南島淡水及河口魚類志》《廣東淡水魚類志》等,以公共數(shù)據(jù)庫和自建數(shù)據(jù)庫的共有魚類的測序所得序列為待注釋對象,使用兩種數(shù)據(jù)庫進(jìn)行序列注釋:基于自建數(shù)據(jù)庫的注釋準(zhǔn)確率為100% (COI)、96.15%(12S) 和96% (16S);基于公共數(shù)據(jù)庫的物種注釋準(zhǔn)確率為 69.64% (COI)、67.30% (12S) 和 70% (16S)(表3、附錄A)。50~56種共有物種中有11~14種魚類在公共數(shù)據(jù)庫種比對不到高相似度序列 (表3) ,這直接導(dǎo)致了基于公共數(shù)據(jù)庫的物種注釋準(zhǔn)確率偏低。
表3 兩種數(shù)據(jù)庫共有物種的注釋結(jié)果Table 3 Annotation results of common fish species in two databases
基于全部物種的150~152條序列構(gòu)建的系統(tǒng)進(jìn)化樹見圖3—圖5。全部序列的總平均遺傳距離(Overall mean distance) 分別為 0.206 4 (COI)、0.273 8(12S) 和 0.295 0 (16S)。3 種宏條形碼均存在對部分魚類區(qū)分度不夠的現(xiàn)象,分別有4 (COI)、12(12S) 、8 (16S) 種魚類出現(xiàn)種間遺傳距離為 0 的情況;而南方馬口魚 (Opsariichthys bidens) 等物種卻又出現(xiàn)了種內(nèi)不同個體遺傳差異較大的現(xiàn)象 (表4、圖3—圖5)。參考Milan等[18]的研究,基于K2P遺傳距離確定的種間差異最佳閾值分別為0.006 9(COI)、0.005 6 (12S) 和 0.007 5 (16S) ,其物種判別準(zhǔn)確率分別為 94.96% (COI: 132/139)、89.05% (12S:122/137) 和 92.70% (12S: 127/137)。
表4 兩兩序列的遺傳距離 (K2P)Table 4 Pairwise distance of genetic divergences (K2P) within various sequences
圖3 基于152條線粒體COI序列構(gòu)建的NJ系統(tǒng)發(fā)育樹Fig. 3 NJ phylogenetic tree constructed based on 152 mitochondrial COI sequences
圖4 基于150條線粒體12S序列構(gòu)建的NJ系統(tǒng)發(fā)育樹Fig. 4 NJ phylogenetic tree constructed based on 150 mitochondrial 12S sequences
圖5 基于150條線粒體16S序列構(gòu)建的NJ系統(tǒng)發(fā)育樹Fig. 5 NJ phylogenetic tree constructed based on 150 mitochondrial 16S sequences
本研究的結(jié)果表明,數(shù)據(jù)庫的構(gòu)建應(yīng)遵循“自建為主、公共為輔,兩者結(jié)合”的原則。海南島地理位置相對孤立,生物種類及特有類群均比較豐富[19]。雖然自建數(shù)據(jù)庫在物種覆蓋度上低于公共數(shù)據(jù)庫,但綜合附錄A及申志新等[20]和李高俊等[21]的研究可以發(fā)現(xiàn):公共數(shù)據(jù)庫缺失的物種主要是海南島當(dāng)下確有分布的土著特有種、少見種和地理亞種[21],而自建數(shù)據(jù)庫對這部分魚類卻有較好的收集——72種魚類中,土著特有種就多達(dá)11種。公共數(shù)據(jù)庫內(nèi)現(xiàn)存土著特有種參考序列的缺失 (如海南異鱲、海南華鳊等) ,對當(dāng)前海南島淡水魚類多樣性的調(diào)查極為不利。在本研究中,基于公共數(shù)據(jù)庫有30.56%~33.33%的物種比對不到高相似度序列,這直接導(dǎo)致基于公共數(shù)據(jù)庫的物種注釋準(zhǔn)確率明顯偏低。Jerde等[28]和Lim等[29]的研究也表明,NCBI數(shù)據(jù)庫對地方特有種的條形碼收集十分不健全,難以滿足土著淡水魚類多樣性的調(diào)查需求。Gillet等[30]從少見種鑒定角度出發(fā),也認(rèn)為只有先自建參考數(shù)據(jù)才能開展后續(xù)多樣性調(diào)查。對于常見種,雖然公共數(shù)據(jù)庫已收錄了較多參考序列 (表1),但其中明確標(biāo)注采樣地點的序列總數(shù)較少,這降低了條形碼序列的參考價值。并且,由于參考序列存在定種錯誤 (如同物異名) 等原因,導(dǎo)致基于公共數(shù)據(jù)庫比對到的候選物種數(shù)量更多[28,31](比如本研究中的COI基因)。候選物種越多,則序列注釋受到錯誤信息的干擾程度越大[28]。特別是當(dāng)物種存在同域分布記錄時,難以判定序列所代表的真實物種[16,28]?;诠矓?shù)據(jù)庫的注釋準(zhǔn)確率明顯低于自建數(shù)據(jù)庫 (表3)。從上述角度考慮,實地采集樣品自建數(shù)據(jù)庫幾乎是魚類環(huán)境DNA宏條形碼研究中不可替代的步驟。
然而,自建數(shù)據(jù)庫的缺點也十分明顯——建庫過程費時費力。本研究72種魚類的獲取耗時約3年;而從公共數(shù)據(jù)獲取數(shù)據(jù)耗時卻不超過24 h。即使如此長期采樣,本研究中的自建數(shù)據(jù)庫仍僅覆蓋了研究水域約一半的魚類。Miya等[32]提及了2012—2020年20多篇基于環(huán)境DNA宏條形碼技術(shù)的魚類多樣性研究,也未見有高通量測序OTUs能被自建數(shù)據(jù)庫完全覆蓋和/或注釋的報道。由此可見全面、準(zhǔn)確的參考數(shù)據(jù)庫構(gòu)建難度之大。從物種覆蓋度角度考慮,公共數(shù)據(jù)庫無疑是自建數(shù)據(jù)庫的有效補(bǔ)充。
自建國以來,海南島僅進(jìn)行了2次全面系統(tǒng)的淡水魚類多樣性調(diào)查,記錄的魚類種數(shù)分別為106和124種[20]。本研究實地采集樣品72種,公共數(shù)據(jù)庫補(bǔ)充67種。這139種魚類最大限度覆蓋了海南島的已知淡水魚類種數(shù)。然而,仍有部分魚類難以獲得其條形碼參考序列,如原田鳑鲏(Rhodeus haradai)、大鱗鰱 (Hypophthalmichthysharmandi)、戴氏蝦虎魚 (Rhinogobius davidi) 等 (附錄A)。這部分魚類,僅有歷史記錄,實際已多年未采集到樣品[20-21],也未在公共數(shù)據(jù)庫見到任何參考序列,很可能成為海南島淡水魚類環(huán)境DNA宏條形碼的永久缺憾。
本研究表明對海南島淡水魚類判別能力最高的目標(biāo)基因為COI,其次為16S和12S。特別是以共有物種為注釋對象、以自建數(shù)據(jù)庫為本底資料時,COI基因注釋準(zhǔn)確率高達(dá)100%。以公共數(shù)據(jù)庫為參考時,雖然COI序列比對過程中的候選物種最多 (圖2),需要查閱更多的參考文獻(xiàn)才能精準(zhǔn)排除錯誤的候選物種,但該基因在公共數(shù)據(jù)庫中物種覆蓋度最高,參考序列最為豐富,實際注釋準(zhǔn)確率也僅次于16S (表3)。這一結(jié)果與標(biāo)準(zhǔn)的脊椎動物DNA條形碼普遍采用COI基因的現(xiàn)實相符合[33]。
然而,魚類環(huán)境DNA宏條形碼研究卻很少以COI為目標(biāo)基因[16]。其中最大問題是COI基因很難設(shè)計出短片段通用性引物[17]。Balasingham等[5]專門針對歐洲魚類設(shè)計了COI通用引物——PS1,該引物對北京水體的魚類檢出數(shù)為MiFish-U的82.26% (51/62)。序列比對結(jié)果表明,PS1正、反向引物分別與海南島淡水魚類序列存在3~4和4~6個錯配堿基 (結(jié)果未展示)。本研究使用的COI條形碼短片段引物,是基于148種魚類的COI全序列,在改進(jìn)PS1、Uni-Minibar和標(biāo)準(zhǔn)的COI條形碼通用引物基礎(chǔ)上專門針對海南島淡水魚類設(shè)計的。分子實驗過程中,全部魚類的PCR產(chǎn)物條帶清晰、明亮;而PS1引物則有26種魚類不適用(結(jié)果未展示)。本研究的建庫案例表明在不過分要求通用性的研究中,以COI作為目標(biāo)基因可以設(shè)計出環(huán)境DNA宏條形碼通用引物。
Zhang等[16]全面比較了23對魚類環(huán)境DNA宏條形碼通用引物,發(fā)現(xiàn)從引物目標(biāo)基因來看,12S優(yōu)于16S。本研究得出的結(jié)果也與上述主流觀點不同。這是因為以往的引物比較研究,評價指標(biāo)主要為環(huán)境DNA宏條形碼技術(shù)的魚類檢出數(shù)[16,34-35]。而本研究則側(cè)重基于本底資料比較物種序列注釋的準(zhǔn)確性。MiFish-U為Miya等[17]基于880種海洋魚類線粒體全序列篩選出的環(huán)境DNA宏條形碼引物 ,其通用性自然高于COI 和Vert-16S引物[32](注:MiFish的通用性可能過高,實際應(yīng)用過程中極易產(chǎn)生微生物、鳥類、哺乳類的非特異擴(kuò)增)。但MiFish-U的擴(kuò)增子片段長度約170 bp,低于 Vert-16S 片段的 256 bp。Balasingham 等[5]、Gantner等[36]的研究表明,12S和16S擴(kuò)增子片段越長,物種鑒定的準(zhǔn)確性越高。本研究結(jié)果 (表3)與上述結(jié)論相符合,16S對海南島淡水魚類的判別能力高于12S。
然而,Vert-16S引物也有一些通用性問題需要解決。在Zhang等[16]的研究中,Vert-16S 的魚類檢出數(shù)與PS1相同。本研究通過比較發(fā)現(xiàn),Vert-16S引物主要針對非魚類脊椎動物[24]。對于魚類類群而言,其正向引物 (總長 24 bp) 序列的 15~17 bp處存在3個完全錯配的堿基。引物近3'端存在錯配堿基會嚴(yán)重影響擴(kuò)增效果[37]。因此后續(xù)也需要對Vert-16S的正向引物進(jìn)行改進(jìn),以提高Vert-16S的魚類檢出數(shù)。基于PS1和Vert-16S引物均未完全匹配海南島淡水魚類序列的事實,本研究認(rèn)為COI和16S可以作為某個特定區(qū)域魚類環(huán)境DNA宏條形碼研究的目標(biāo)基因,但需要對通用引物進(jìn)行優(yōu)化改進(jìn)。
標(biāo)準(zhǔn)的魚類COI條形碼長度約650 bp[25-26,38],種間差異閾值為0.02 (2%)[33]。本研究所確定的COI基因種間差異閾值卻僅為0.006 9。這是因為COI基因不同區(qū)域的變異速率也并不相同。目前基于COI基因設(shè)計的魚類環(huán)境DNA宏條形碼通用引物很少,且無一例外均位于標(biāo)準(zhǔn)的魚類COI條形碼近 5'端前 350 bp 范圍內(nèi)[7,15-16]。Collins 等[39]、Menning 等[40]、Jennings等[41]、Sultana 等[42]的序列比對結(jié)果均表明,COI基因只有在這一區(qū)域序列較為保守,適合設(shè)計短片段引物,其余區(qū)域變異速率過快。本研究所用的短片段引物同樣位于這一區(qū)域,因此其種間差異較小,閾值遠(yuǎn)小于0.02。
COI基因采用0.006 9種間差異閾值能夠?qū)Ρ镜踪Y料庫中94.96% (132種/139種) 的魚類進(jìn)行準(zhǔn)確判定。對比其他環(huán)境DNA宏條形碼研究,這一數(shù)值已經(jīng)非常高。本研究中所用的COI短片段引物擴(kuò)增子長度為139 bp,僅能夠容許種內(nèi)不同個體間出現(xiàn)1 bp的堿基變異;而12S和16S的擴(kuò)增子長度和總平均遺傳距離均明顯高于COI,理論上可容許種內(nèi)個體存在1.5~2 bp的堿基變異[43]。然而,12S和16S的物種判別準(zhǔn)確性卻未高于COI。以139種魚類為本底資料,12S基因的種間差異閾值為0.005 6,在3種目標(biāo)基因中閾值最小,種內(nèi)個體判定的容錯率也最低 (表4)。造成這種現(xiàn)象的主要原因是12S、16S序列種間遺傳距離為0的物種數(shù)是COI的2~3倍。Miya等[17]和Bylemans等[44]的研究表明:MiFish-U引物擴(kuò)增子位于莖環(huán)結(jié)構(gòu) (Stem-loop structure) 的高變環(huán)區(qū),變異速率卻又因種而異。陳治[45]研究發(fā)現(xiàn):MiFish-U擴(kuò)增子片段呈現(xiàn)高度保守與高度變異并存的特點,約有1/3浙江近海魚類 (46種/147種)的變異速率高于COI,甚至接近控制區(qū) (D-loop)。Milan等[18]比較MiFish-U及自行設(shè)計的NeoFish_3引物對67種淡水熱帶魚類的判別能力,認(rèn)為MiFish-U擴(kuò)增子變異不穩(wěn)定,甚至直接未對MiFish-U提出種間差異閾值。當(dāng)研究區(qū)域和類群不同時,12S種間差異閾值可能會有所變動。這種種間差異閾值的不穩(wěn)定性,可能是影響MiFish-U引物廣泛應(yīng)用的一個重要負(fù)面因素。
Milan等[18]基于NJ系統(tǒng)發(fā)育樹確定的NeoFish_3最佳種間差異閾值為0.55%,物種判定準(zhǔn)確率為91.04% (61種/67種)。本研究3種條形碼閾值及判別準(zhǔn)確率與之接近。這表明受擴(kuò)增子長度的限制,環(huán)境DNA宏條形碼的種間差異閾值可能都比較小,在1%以下;同時受制于魚類自身的遺傳特性,該技術(shù)從源頭上就難以對魚類進(jìn)行100%區(qū)分[14,17,43]。不應(yīng)過分夸大種間差異閾值及環(huán)境DNA宏條形碼技術(shù)的物種判別能力。
本研究結(jié)論如下:1) 自建數(shù)據(jù)庫在序列注釋準(zhǔn)確性上顯著高于公共數(shù)據(jù)庫,但仍需要以公共數(shù)據(jù)庫為補(bǔ)充;2) COI、16S的物種判別能力高于12S;3) 建議使用 0.006 9 (COI) 、0.007 5 (16S) 和0.005 6 (12S) 作為海南島淡水魚類環(huán)境 DNA 宏條形碼研究的種間差異閾值。