程佩琳 俞 丹 劉煥章 杜 浩 危起偉
(1. 中國水產科學研究院長江水產研究所, 農業(yè)農村部淡水生物多樣性保護重點實驗室, 武漢 430223;2. 中國科學院水生生物研究所水生生物多樣性與保護重點實驗室, 武漢 430072)
鱘形目魚類(Acipenseriformes), 隸屬于輻鰭魚亞綱(Subclasss Actinopterygii)、軟骨硬鱗魚下綱(Chondrostei), 是現生軟骨硬鱗魚類的代表類群[1]。除已絕跡的2個化石科類群(Chondrosteidae和Peipiaosteidae)外, 現生鱘形目魚類總計有2科6屬27個有效種[2—4]。作為最古老的魚類之一, 鱘類的化石記錄最早可追溯到2億年前的白堊紀時代, 因此鱘類在魚類乃至整個脊椎動物進化史上都占有極其重要的地位, 被譽為魚類的“活化石”[5,6]。
在過去的20多年中, 基于形態(tài)學特征及分子數據對鱘形目魚類的系統(tǒng)進化關系進行了廣泛探討,但仍未取得一致意見。特別是, 鱘科的內部系統(tǒng)發(fā)育關系及鱘科的各個屬的單系性仍存有許多爭議。Birstein等[7]基于3個線粒體基因(Cytochromeb、12S rRNA和16S rRNA)首次較為完整地分析了鱘形目20個物種的系統(tǒng)發(fā)育關系, 發(fā)現鱘形目魚類的2個科, 匙吻鱘和鱘科是單系群。但鱘科內部關系復雜, 鱘屬和鰉屬不是單系群; 鏟鱘屬是鱘科最原始的基部類群[7,8]。張四明等[9,10]采用2個線粒體基因(ND4L和ND4)對包括中國特有鱘類在內的12種鱘形目魚類進行了分子系統(tǒng)分析, 指出環(huán)太平洋地區(qū)的鱘科魚類可能有共同的起源。Ludwig等[11,12]基于22種鱘類的線粒體細胞色素b基因序列進行了分子系統(tǒng)發(fā)育構建, 顯示鏟鱘屬和尖吻鱘類為并系, 位于鱘科的基部位置; 并發(fā)現鱘科的部分魚類按生物地理分布區(qū)域進行聚類, 首次提出鱘科內部可以劃為大西洋鱘類和太平洋鱘類2個大類群。這一劃分得到之后的許多鱘類分子系統(tǒng)發(fā)育研究的支持[5,13]。Fontana等[14]回顧了早期的鱘類染色體核型和分子系統(tǒng)發(fā)育的研究結果, 基于18種鱘類的線粒體基因細胞色素b基因序列進行了系統(tǒng)發(fā)育重建, 確認了尖吻鱘類(大西洋鱘和尖吻鱘組成的單系群)是鱘科的基部類群。但Krieger等[15]基于25個鱘物種的5個線粒體基因(Cytochromeb、12S rRNA、Cytochromecoxidase subunit II、tRNA Asp和tRNA Phe)聯合數據, 結果顯示鱘科魚類的基部類群仍無法確定, 可能是鏟鱘屬, 也可能是尖吻鱘類。Luo等[16]基于16種鱘類的30個單拷貝核基因序列聯合數據, 分子系統(tǒng)分析認為, 鱘科可以劃分為3個類群: 尖吻鱘類、太平洋鱘類和大西洋鱘類; 并確認了尖吻鱘類為鱘科的基部類群。盡管早期鱘形目魚類形態(tài)分類與分子系統(tǒng)發(fā)育結果的差異很大, 但近些年的鱘形態(tài)分類學的研究也得到了新的進展。Hilton等[17,18]對鱘類化石物種和現生種進行了物種水平的形態(tài)學比較研究, 證據支持鱘屬不是單系群, 并定義了鱘科的2個新類群: 鰉科(Husinae)及擬鏟鱘科(Pseudoscaphirhynchinae)。因此, 鱘科的基部類群究竟是鏟鱘屬還是尖吻鱘類?鱘科的鱘屬和鰉屬的單系性是否有效? 及鱘科內部的系統(tǒng)發(fā)育關系如何? 都是尚未解決的問題。
魚類線粒體基因組是一個15—20 kb的環(huán)狀雙鏈DNA分子, 通常編碼37個基因, 即13個蛋白質編碼基因(PCGs)、22個轉運RNA基因(tRNAs)和2個核糖體RNA基因(rrnL和rrnS)[19]。此外, 線粒體基因組通常還有2個負責復制和轉錄的非編碼區(qū)(OL和OH)。由于線粒體基因組具有母系遺傳、多拷貝、缺少遺傳重組及進化速率快等特點, 已廣泛應用到系統(tǒng)發(fā)育重建、比較基因組學、譜系地理學及種群遺傳學等研究領域[20,21]。在過去的10年中, 魚類線粒體基因組研究受到了高度關注, 并由于高通量測序技術的廣泛應用而使得已測線粒體基因組的魚類種類呈現快速增長的趨勢。目前, 線粒體基因組數據廣泛用于硬骨魚類不同分類階元的系統(tǒng)進化關系研究[22,23]。然而, 鱘類中基于線粒體基因組數據的研究很少。一方面, 鱘類作為全球珍稀保護魚類, 廣泛分布在北半球, 樣本珍貴且難以收集; 另一方面, 不同的線粒體基因數據集的構成, 不同的系統(tǒng)發(fā)育分析方法對系統(tǒng)發(fā)育的構建的結果也存在影響。因此, 獲取更多的鱘線粒體基因組數據, 特別是鱘屬魚類, 并比較分析不同系統(tǒng)發(fā)育分析方法在構建鱘形目魚類的系統(tǒng)進化關系方面的價值和潛力, 顯得非常必要。
本研究新測定了中華鱘(Acipenser sinensis)、長江鱘(A. dabryanus)、短吻鱘(A. brevirotrum)、納氏鱘(A. naccarii)、鰉(H. dauricus)和匙吻鱘(Polyodon spathula), 共計3屬6個種的線粒體基因組, 進一步豐富了鱘形目魚類的線粒體基因組數據庫。在注釋這6種鱘的線粒體基因組基礎上, 聯合已有的17個鱘類的線粒體基因組, 基于5個線粒體基因組數據集(Pro、AA、2rRNA、Pro_2rRNA和Com_Mito), 采用2種方法(最大似然法和貝葉斯法)重新構建了鱘形目的系統(tǒng)發(fā)育關系, 并采用似然值檢驗對不同的樹拓撲結構進行了評價。
本研究樣本均由中國水產科學研究院長江水產研究所荊州太湖基地提供, 包括3屬6種鱘形目魚類樣本(中華鱘、長江鱘、鰉、短吻鱘、納氏鱘和匙吻鱘)。本研究所涉及的動物實驗均得到中國水產科學研究院長江水產研究所實驗動物福利倫理委員會(編號: YFI-001)批準。收集樣本的新鮮血液或鰭條送至武漢天一輝遠生物科技有限公司進行測序。采用DNA提取試劑盒(天根生物, 北京)在提取總DNA后, 用Thermo Scientific NanoDrop 2000測定DNA濃度, 采用瓊脂糖電泳和Agilent 2100 Bioanalyzer檢測DNA完整性。采用全基因組鳥槍法(Whole Genome Shotgun, WGC)策略, 構建400 bp文庫, 利用第二代測序技術(Next Generation Sequencing, NGS), 基于Illumia Miseq測序平臺進行雙末端(Paired-end, PE)測序。采用A5-miseq v20150522[24]和SPAdes v3.9.0[25]對高質量的二代測序數據進行從頭拼裝, 構建contig和Scaffold序列。根據拼接序列的測序深度提取序列, 將高測序深度的序列同NCBI(National Center for Biotechnology Information)的nt庫進行blastn(BLAST v 2.2.31)比對, 挑出各拼接結果的線粒體序列。將得到的線粒體拼接結果利用mummer v 3.1[26]軟件進行共線性分析, 確定contig間的位置關系, 進行contigs間gap填補。使用pilon v 1.1.8[27]軟件對結果進行校正得到最終的完整線粒體基因組全序列。將拼接得到的完整線粒體基因組序列上傳至MITOS網頁服務器(http://mitos.bioinf.uni-leipzig.de/)進行編碼基因, RNA和非編碼區(qū)的注釋[28]。密碼子選擇脊椎動物數據庫,其余為默認參數。采用軟件tRNAscan-SE 1.2.1[29]鑒定tRNA基因, 并預測其二級結構。采用Mega 6.06[30]分析堿基組成和密碼子使用, 并計算AT-偏斜(AT-skew)和GC-偏斜(GC-skew)。
采用本研究新測的6種鱘的線粒體基因組全序列, 結合NCBI中已發(fā)表的17種鱘類的線粒體基因組進行系統(tǒng)發(fā)育分析。通過軟件CLUSTAL X version 1.83[31]進行序列的多重比對。為了明確線粒體數據集的構成差異對系統(tǒng)發(fā)育結果的影響, 構建了5個線粒體數據集: Pro(Combined 13 coding protein gene nucleotide sequences, 13個蛋白質編碼基因核苷酸序列)、AA(Combined 13 protein coding gene amino acid sequence, 13個蛋白質編碼基因氨基酸序列)、2 rRNA(Combined 2 rRNA nucleotide sequences, 2個rRNA聯合序列)、Pro_2 rRNA(Combined 13 coding protein gene and 2 rRNA gene nucleotide sequence, 13個蛋白編碼基因及2個rRNA聯合序列)和Com_Mito(Complete mitochondrial genome nucleotide sequences, 線粒體基因組核苷酸全序列)。其中1、2、3和4數據集均由單個蛋白質編碼基因或者rRNA基因單獨比對。為了避免比對位點的偏倚, 排除模糊區(qū)域位點(包括蛋白質編碼基因的起點和終點區(qū)域, 及rRNA序列中高度可變區(qū)域)使用軟件GBlocks 0.91b[32]進行比對刪除。將比對好的單個蛋白質編碼基因或者rRNA基因聯合在一起獲得目標數據集。而5個線粒體基因組全序列則采用所有堿基無差別對待策略, 通過CLUSTAL進行序列多重比對后, 采用GBlocks去除空位及模糊位點, 最后基于比對刪除后得到的23種完整線粒體基因組數據的集合。對于這5個不同類型的數據集, 分別采用IQ-TREE web server[33](http://iqtree.cibiv.univie.ac.at/)的Model Finder[34]選擇序列的最佳分區(qū)及最優(yōu)堿基/氨基酸替代模型檢測, 并應用于后續(xù)系統(tǒng)發(fā)育分析。對不同數據集分別使用IQTREE的Tree Inference[35]構建最大似然(ML)樹, 采用對應的最佳分區(qū)模式及進化模型, 選擇超快自展法(Ultrafast bootstraping)[36]構建ML樹, 節(jié)點可靠性采用1000次的bootstrap進行評估。貝葉斯BI分析采用軟件Mrbayes 3.2.2[37]進行, 基于貝葉斯信息準則(BIC)選擇最優(yōu)堿基替換模型。根據結果設置模型參數, 然后再運行4條獨立的馬爾可夫鏈(Markov chains), 即3條熱鏈(Hot chain)和1條冷鏈(Cold chain)同時運行6千萬代(Generation)。每運行100代抽樣1次, 當運行結束時顯示“分列頻率平均標準差”(Average standard deviation of split frequencies)小于0.01即認為分析趨于穩(wěn)定狀態(tài)。舍去25%的老化樣本, 再由剩余樹產生多數一致樹, 并計算貝葉斯后驗概率。
由于不同的數據集及樹構建方法獲得的鱘形目的系統(tǒng)發(fā)育關系存在不一致性, 因此為了明確哪種系統(tǒng)發(fā)育樹值得信任, 進一步采用了IQ-TREE web server的Tree topology evaluation and tests進行樹拓撲結構檢驗。對于5個數據集, 分別采用SH(Shimodaira-Hasegawa test)[38]、WKH(Weighted Kishino-Hasegawa test)[39]、WSH(Weighted SH test)[38]和AU(Approximately unbiased test)[40]共4種方法進行統(tǒng)計分析, 并設置1000次重復。其結果順序在擴展名為iqtree的文件中給出, 一般認為SH-aLRT≥80%且ultrafast bootstrap value ≥95%的節(jié)點可信賴。
通過測序組裝, 我們獲得了中華鱘、長江鱘、短吻鱘、納氏鱘、鰉和匙吻鱘的完整線粒體基因組(GenBank登錄號: MK078260-MK078265)。新測的6種鱘的線粒體基因組均顯示是典型的閉合環(huán)狀雙鏈DNA分子, 總長度為16439—16766 bp, 編碼37個線粒體基因, 即13個PCGs、22個tRNAs和2個rRNAs, 及非編碼控制區(qū)(OH區(qū))和輕鏈復制起始區(qū)(OL區(qū))。只有8個tRNA和ND6基因在L鏈上編碼,其余多數基因均在H鏈上編碼, 且基因排序與魚類線粒體基因的原始排序完全一致。
新測的6種鱘顯示鱘類的基因組結構較為緊湊。以中華鱘為例, 統(tǒng)計共有15處堿基間隔區(qū), 間隔堿基數為1—395 bp; 有9處堿基重疊區(qū), 重疊堿基數為1—10 bp。其中有3對蛋白質編碼基因的開放閱讀框存在堿基重疊, 包括ATP8-ATP6、Nad4LNad4和Nad5-Nad6分別重疊10、7和4 bp?;蜷g既沒有間隔又無重疊的基因對共15處。其余物種的線粒體基因組特征同中華鱘類似。
6種鱘的堿基組成顯示具有一定的A+T偏向性,同時還呈現出較強的A堿基和C堿基偏好。以中華鱘為例, 線粒體全基因組的堿基A、C、G和T含量分別為30.17%、29.51%、16.47%和23.85%。其中A+T含量(54.02%)大于G+C含量(45.98%), 表明存在一定的A+T偏向性, 這與其他脊椎動物的線粒體基因組特征類似。而且, 除ND6基因外, 線粒體基因組基因都表現出一定的A+T偏向性, 其中ATP 8基因的A+T偏向性最高(60.12%)。因為ND6基因以L鏈為反義鏈, 所以密碼子第三位G比重較大, 因而整個基因的T+G含量很高(76.82%), 這與脊椎動物的線粒體基因組的情況是相似的。6個鱘的線粒體全基因組的AT-偏斜均為正值(0.109—0.126), 而GC-偏斜為負值(–0.284—0.316), 這與其他脊椎動物的線粒體基因組核苷酸偏斜的規(guī)律一致(表 1)。在6種鱘中, 匙吻鱘的線粒體基因核苷酸偏斜值最大, AT-偏斜為0.126, GC-偏斜為–0.316。
表 1 新測6種鱘形目魚類的線粒體基因組長度及堿基組成Tab. 1 Total length and base composition of mitochondrial genomes of six sequenced Acipenseriforme fishes
6種新測鱘的線粒體基因組高的A+T含量及不同鏈上核苷酸的偏斜性, 也反映在蛋白質編碼基因的密碼子使用上。相對同義密碼子使用頻率(Relative synonymous codon usage, RSCU)分析表明, 所有蛋白質編碼基因的密碼子使用都存在較強的偏好性, NNA或NNC(即第三位點為C的密碼子)的RSCU都大于1, 使用頻率較高。6種鱘的基因組的這種密碼子的使用模式, 與已測其他鱘的高度相似。
在6種鱘的13個蛋白質編碼基因中, 起止密碼子均為TAG或GTG, 其余12個蛋白質編碼基因的起始密碼子均以ATG開始, 僅COXI基因以GTG開始。終止密碼子為TAA、TAG或T--, 其中COXII、ND4和Cytb基因以不完全密碼子T--終止, 而ND1、ND2、COXI、ND3和ND6基因以完整密碼子TAG終止, ATP8、ATP6、COXIII、ND4L和ND5基因以完全密碼子TAA終止。不完全的終止密碼子在魚類線粒體基因組是普遍存在的特征。tRNAscan-SE分析顯示, 6種鱘的22個線粒體tRNAs基因均具有經典的三葉草結構。
基于5個數據集(Pro、AA、Pro_2 rRNA、2 rRNA和Com_Mito)和2種系統(tǒng)發(fā)育分析方法(ML和Bayes)總共獲得了10個系統(tǒng)發(fā)育樹(圖 1)。盡管這10個系統(tǒng)發(fā)育樹的拓撲結構不完全一致, 但均高度支持匙吻鱘科和鱘科的單系性(表 2)。Pro_2rRNA和Com_Mito兩個數據集的BI和ML的拓撲結構, 及Pro數據集的BI樹的拓撲結構完全一致, 即5個系統(tǒng)發(fā)育樹的結果完全一致。分子系統(tǒng)發(fā)育重建的結果顯示(圖 1), 匙吻鱘科為單系(BI:1.00/MP:100), 包括匙吻鱘屬和白鱘屬2個單屬單種。鱘科為單系(BI:1.00/MP:100), 但鱘屬和鰉屬的物種不構成單系群。鱘科按系統(tǒng)發(fā)育結果可以分為3個單系類群。鱘科的基部類群是由歐洲大西洋鱘(A. sturio)和尖吻鱘(A. oxyrinchus)構成的尖吻鱘類(A. sturio-A.oxyrinchusclade), 具有極高的節(jié)點支持率(BI:1.00/MP:100)。其余鱘科魚類可以分為2個大的單系類群: 大西洋鱘類(Atlantic clade)和太平洋鱘類(Pacific clade)。其中大西洋鱘類由3個鏟鱘屬物種、歐鰉及9個鱘屬物種構成。鏟鱘屬顯示是大西洋鱘類的基部類群。太平洋鱘類由鰉和7個鱘屬物種構成。3個BI樹的結果完全一致, 且節(jié)點支持率極高(BI>0.95), 僅一處節(jié)點支持率較低。而2個ML樹中節(jié)點支持率低于90的共計有2處。
圖 1 基于23種鱘形目魚類的線粒體全基因組(Com_Mito)構建的貝葉斯法和最大似然法的系統(tǒng)發(fā)育樹(節(jié)點前數字表示BI后驗支持率及ML自展數)Fig. 1 Baysian and ML phylogenetic tree based on 23 complete mitochondrial genomes nucleotide sequences
Pro數據集的ML樹僅有一處不同于BI樹, 位于大西洋鱘類內部的閃光鱘(A.stellatus)位置上(BI:40)。這表明, 盡管最大似然法在系統(tǒng)發(fā)育分析中得到廣泛應用, 但在構建某些類群的系統(tǒng)發(fā)育關系方面有時表現欠佳, 這與其他已有研究結果一致。2 rRNA數據集的BI和ML樹的結果一致, 支持鏟鱘屬為鱘科的基部類群(BI:1.00/ML:100), 然后是尖吻鱘類(BI:0.52/ML:65)。其余鱘科魚類可以分為2個單系群(BI:0.31/ML: 36)。AA數據集的BI和ML結果顯示, 支持尖吻鱘類是鱘科的基部類群(BI:1.00/ML:100), 其余鱘科魚類可以分為2個單系群(BI:0.98/ML:54)。
綜合比較10個系統(tǒng)發(fā)育樹發(fā)現(表 2), 核苷酸數據與氨基酸數據相比, 表現出更好的系統(tǒng)發(fā)育信息。而與13個蛋白質編碼基因聯合序列或者2個rRNA基因聯合序列相比, 蛋白質編碼基因和2個rRNA基因聯合序列, 及線粒體基因組全序列2個數據集的結果具有一致且極高的節(jié)點支持率, 這表明完整的線粒體基因組數據更有助于解決鱘形目的系統(tǒng)發(fā)育關系。
表 2 不同數據集、不同方法獲得的鱘形目魚類的系統(tǒng)發(fā)育結果Tab. 2 Phylogenetic relationships within order Acipenseriforme based on different dataset
按照鱘形目的系統(tǒng)發(fā)育關系, 本研究的10個系統(tǒng)發(fā)育樹共有5種不同的樹拓撲結構。樹拓撲結構檢驗結果表明, 基于5個數據集的樹拓撲結構檢驗,獲得了高度一致的結果, 均支持Pro_2 rRNA和Com_Mito兩個數據集的BI和ML的系統(tǒng)發(fā)育關系(表 3)。系統(tǒng)發(fā)育結果表明, 鱘科的基部位置有2種情況: (1)拓撲結構檢驗支持率最高的是尖吻鱘類為基部類群, 這與Fontana等[14]為代表的研究結果是一致的。(2)鏟鱘屬為鱘科的基部類群, 拓撲結構檢驗支持度較低, 但早期的研究如Birstein等[7,8]也曾發(fā)現該系統(tǒng)發(fā)育關系?;谙嗤瑪祿腟H檢驗結果表明, 尖吻鱘類為鱘科的基部類群; 鏟鱘屬與歐鰉, 及里海區(qū)鱘類共同構成大西洋鱘類。
回顧鱘形目魚類的分子系統(tǒng)發(fā)育研究, 不同的研究在數據集構成, 分析方法及物種選擇數量等方面存在差異, 推測這可能是導致鱘形目魚類不同研究的分子系統(tǒng)發(fā)育結果不一致的主要原因。鱘形目魚類目前現生種總計有27種, 本研究共收集23種,覆蓋率達85.2%。本研究結果表明, 鱘形目魚類包括匙吻鱘科和鱘科2個單系群。鱘科內部關系復雜,鱘屬和鰉屬不是單系群。鱘科的基部類群為尖吻鱘類, 其余19種鱘科魚類可以分為大西洋鱘類和太平洋鱘類。這與多數前人的鱘類分子系統(tǒng)發(fā)育研究結果是一致的[11,12,14,16]。大西洋鱘類包括12個鱘科物種, 其中鏟鱘屬3種、鰉屬1種和鱘屬8種。值得注意的是, 本研究首次顯示鏟鱘屬為大西洋鱘類的基部類群。這與Dillman等[41]的推測是吻合的。Dillman等[41]基于2個線粒體基因(Cytb和控制區(qū)片段)對鏟鱘亞科進行分子系統(tǒng)發(fā)育重建, 結果顯示鏟鱘亞科單系性被拒絕, 擬鏟鱘屬與閃光鱘有更近的親緣關系, 并推測鏟鱘屬與鱘屬物種的親緣關系更近。太平洋區(qū)類群共7個鱘科物種, 包括鰉屬1種和鱘屬6種。其中達烏爾鰉、中吻鱘、長江鱘、中華鱘和施氏鱘, 均屬于亞洲特有物種。而分布在中國的長江鱘, 及分布在東太平洋區(qū)的高首鱘, 被認為可能是淡水陸封種。
表 3 系統(tǒng)發(fā)育樹拓撲結構檢驗結果Tab. 3 Results of topological tests for five phylogenetic trees
本研究沒有覆蓋的鱘物種有4種, 包括擬鏟鱘屬(Pseudoscaphirhynchus)的3個物種和鱘屬的波斯鱘(A. persicus)。已有的形態(tài)學及分子生物學的證據表明, 擬鏟鱘屬與閃光鱘有很近的親緣關系[16,17,41],因此建議將擬鏟鱘屬和閃光鱘共同列入大西洋鱘類。綜合考慮到現有鱘形目魚類的分子系統(tǒng)發(fā)育結果同形態(tài)學結果仍有許多不一致, 未來仍需要聯合形態(tài)學數據進行綜合分析, 可為鱘形目魚類的分類, 尤其是鱘科的屬的分類及屬間親緣關系提供新的認識。
本研究新測定了包括中華鱘、長江鱘、短吻鱘、納氏鱘、鰉和匙吻鱘在內的6種鱘的線粒體基因組全序列, 基因含量、基因排序、堿基組成、密碼子使用模式及tRNA二級結構等與大部分已測鱘類高度相似?;?個線粒體基因組數據集及2種樹構建方法的系統(tǒng)發(fā)育分析結果表明, 鱘科的基部類群是尖吻鱘類, 其余鱘科魚類可以劃分為大西洋鱘類和太平洋鱘類2個生物地理類群。鱘科的系統(tǒng)發(fā)育關系為(尖吻鱘類(太平洋鱘類(鏟鱘屬(歐鰉,里海區(qū)鱘類))))。盡管線粒體數據集的構成及系統(tǒng)發(fā)育分析方法對樹拓撲結構具有一定影響, 但線粒體全基因組數據在解決鱘形目魚類的系統(tǒng)發(fā)育關系上顯示出重要的系統(tǒng)發(fā)育信息價值。