鄧演文,劉曉洲,卓定龍,曾 鳳
(廣州普邦園林股份有限公司,廣東 廣州 510627)
【研究意義】桃金娘科(Myrtaceae)植物主要產(chǎn)于亞熱帶和美洲的熱帶地區(qū),約有100屬3 000 種以上,我國(guó)僅含9 屬約126 種[1]。蒲桃屬(Syzygium)為桃金娘科喬木或灌木,全球共有1 200 種,我國(guó)有近80 種[1]。蒲桃屬植物具有一定的耐澇能力,其中蒲桃[2]、水翁[3]等均已被證實(shí)具有耐受水淹脅迫能力,可用于濱水、河畔綠化等景觀用途。肖蒲桃(Syzygium acuminatissimum)為桃金娘科蒲桃屬植物,原產(chǎn)于中國(guó),其株型優(yōu)美,嫩葉紅褐色,樹枝軟垂,姿態(tài)優(yōu)雅,兼具觀果價(jià)值,適宜作為行道樹或園景樹[4]。目前關(guān)于肖蒲桃的研究主要在林分類型[5]、脅迫響應(yīng)[6]、固氮作用[7]等方面。研究肖蒲桃的葉綠體基因組對(duì)蒲桃屬的系統(tǒng)發(fā)育和物種鑒定具有重要意義?!厩叭搜芯窟M(jìn)展】葉綠體參與植物的光合作用、氨基酸和脂肪酸的合成等重要生理過(guò)程,在植物生長(zhǎng)、發(fā)育中起重要作用[8]。該細(xì)胞器具有一種環(huán)狀雙鏈DNA 的遺傳物質(zhì),包含100~130 個(gè)基因,總長(zhǎng)度在107~218 kb 之間,并具有保守的四部分結(jié)構(gòu)(一個(gè)大單拷貝區(qū)、一個(gè)小單拷貝區(qū)和兩個(gè)反向重復(fù)區(qū))[9]。由于葉綠體基因組序列高度保守、大小穩(wěn)定、缺乏重組和母體遺傳,因此常被用于系統(tǒng)發(fā)育[10]和分化時(shí)間[11]的相關(guān)研究。近年來(lái),隨著科技發(fā)展,獲取基因組的成本降低,許多研究者利用葉綠體基因組數(shù)據(jù)推測(cè)植物分類學(xué)水平的系統(tǒng)發(fā)育關(guān)系[12]。葉綠體基因組分析技術(shù)在桃金娘科應(yīng)用廣泛,涵蓋了桉屬[13]、番櫻桃屬[14]、白千層屬[15]、番石榴屬[14]。目前,蒲桃屬中,已獲知海南蒲桃、丁香蒲桃和滇邊蒲桃具有完整的葉綠體基因組?!颈狙芯壳腥朦c(diǎn)】對(duì)于肖蒲桃的系統(tǒng)發(fā)育關(guān)系,有研究者僅基于3 個(gè)葉綠體片段序列進(jìn)行解析[16]。但簡(jiǎn)短的片段無(wú)法準(zhǔn)確評(píng)估其在系統(tǒng)發(fā)育樹中的位置,因此亟需通過(guò)完整的葉綠體基因組序列判定肖蒲桃在蒲桃屬中的親緣關(guān)系?!緮M解決的關(guān)鍵問(wèn)題】本研究利用高通量測(cè)序,組裝和注釋肖蒲桃完整的葉綠體基因組,并解析肖蒲桃葉綠體基因組結(jié)構(gòu)特征與系統(tǒng)發(fā)育關(guān)系,旨在為蒲桃屬乃至桃金娘科的系統(tǒng)發(fā)育研究提供依據(jù)。
肖蒲桃葉片采于廣州從化百木苗場(chǎng)(113°24 ′06 ″E、23 °43 ′04 ″N),植物標(biāo)本(Zhang-20200729)放置于中山大學(xué)標(biāo)本館。采用CTAB 法[17]對(duì)肖蒲桃葉片提取基因組DNA,-20℃下保存,備用。
1.2.1 基因組測(cè)序和注釋 利用提取的DNA 構(gòu)建DNA shotgun 文庫(kù),并在Illumina HiSeq X TEN平臺(tái)(美國(guó))進(jìn)行測(cè)序。使用SOAPnuke 軟件[18]進(jìn)行質(zhì)量控制后,將約2 Gb 的干凈讀段以海南蒲桃(Syzygium cumini)的葉綠體基因組作為參考,在SPAdes v3.13.0 軟件[19]上組裝完整的肖蒲桃葉綠體基因組。基因注釋在GeSeq(https://chlorobox.mpimp-golm.mpg.de/geseq.html)[20]上進(jìn)行。將帶注釋的葉綠體基因組序列提交至GenBank(登錄號(hào):MT975437)。使用Editseq v7.1.0 軟件[21]計(jì)算肖蒲桃葉綠體基因組序列的鳥嘌呤-胞嘧啶(GC)含量。采用CHLOROPLOT 軟件[22]繪制肖蒲桃葉綠體基因組圖譜。
1.2.2 氨基酸頻率、RNA編輯位點(diǎn)與重復(fù)序列使用MEGA v7.0軟件[23]生成蛋白編碼基因的相對(duì)同義密碼子使用值(RSCU)。使用PREP 軟件[24]的默認(rèn)設(shè)置預(yù)測(cè)蛋白編碼基因中的RNA編輯位點(diǎn)。通過(guò)REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer/)[25]在線服務(wù)識(shí)別葉綠體基因組中的重復(fù)序列(正向、反向、互補(bǔ)和回文)。通過(guò)MISA-web(https://webblast.ipkgatersleben.de/misa/)[26]在線檢測(cè)葉綠體基因組中的簡(jiǎn)單序列重復(fù),其中單、二、三、四、五、六核苷酸重復(fù)的最小重復(fù)數(shù)分別設(shè)置為8、5、4、3、3。
1.2.3 基因組比較與序列變異分析 采用IRscope軟件[27]對(duì)肖蒲桃、海南蒲桃、丁香蒲桃、滇邊蒲桃4 個(gè)蒲桃屬葉綠體基因組中4 個(gè)不同區(qū)域?qū)崿F(xiàn)邊界可視化。使用DnaSP v6.12.0 軟件[28]檢測(cè)上述4 個(gè)蒲桃屬植物葉綠體基因組序列的核苷酸多樣性(π)。
1.2.4 系統(tǒng)發(fā)育分析 為了研究肖蒲桃在桃金娘科中的系統(tǒng)發(fā)育關(guān)系,基于11 個(gè)桃金娘科和2 個(gè)菊科植物葉綠體基因組中的蛋白編碼基因,使用RAxML 軟件[29]構(gòu)建最大似然樹,并設(shè)置1 000步的bootstrap。所有植物葉綠體基因組序列均從NCBI 核苷酸數(shù)據(jù)庫(kù)下載。
完整的肖蒲桃葉綠體基因組長(zhǎng)度為159 352 bp,具有典型的四分結(jié)構(gòu),包括大單拷貝區(qū)(LSC)87 993 bp,小單拷貝區(qū)(SSC)18 415 bp 和一對(duì)反向重復(fù)區(qū)(IR)26 472 bp。圖1 顯示,肖蒲桃葉綠體基因組的總GC 含量為37%,LSC、SSC 和IR的GC 含量分別為34.73%、30.63%和42.66%。
圖1 肖蒲桃葉綠體基因組圖譜Fig.1 Map of the chloroplast genome of Syzygium acuminatissimum
本研究在肖蒲桃葉綠體基因組中共注釋了109 個(gè)基因,包括78 個(gè)蛋白質(zhì)編碼基因(PCG)、27 個(gè)tRNA 基因和4 個(gè)rRNA 基因。其中,有55個(gè)基因參與自我復(fù)制,包括4 個(gè)基因編碼rRNA、27 個(gè)基因編碼tRNA、12 個(gè)基因編碼核糖體小亞基蛋白、8 個(gè)基因編碼核糖體大亞基蛋白、4 個(gè)基因編碼RNA 聚合酶亞基;另有45 個(gè)基因參與光合作用,包括6 個(gè)ATP 合酶基因、11 個(gè)NADH脫氫酶基因、6 個(gè)細(xì)胞色素b/f 復(fù)合體基因、5 個(gè)光系統(tǒng)I 基因、15 個(gè)光系統(tǒng)II 基因、1 個(gè)翻譯起始因子IF-1 和1 個(gè)Rubisco 長(zhǎng)鏈基因(表1)。
表1 肖蒲桃葉綠體基因組基因Table 1 Genes of the chloroplast genome of Syzygium acuminatissimum
本研究在肖蒲桃葉綠體基因組中共檢測(cè)到17個(gè)基因具有內(nèi)含子,包括12個(gè)蛋白編碼基因和5個(gè)tRNA編碼基因(表2)。ycf3、clpP、和rps12具有2個(gè)內(nèi)含子,其余僅具有1個(gè)內(nèi)含子。編碼40S核糖體蛋白S12的rps12基因被剪接為兩個(gè)片段,其中一個(gè)外顯子位于大單拷貝區(qū),另外兩個(gè)外顯子位于重復(fù)片段區(qū)。最長(zhǎng)的內(nèi)含子位于trnK-UUU基因(2 526 bp)中,因?yàn)槠鋬?nèi)部含有matK基因;trnL-UAA的內(nèi)含子最短(530 bp)。
表2 肖 蒲桃葉綠體基因組中含有內(nèi)含子基因的特征Table 2 Characteristics of genes containing introns in the chloroplast genome of Syzygium acuminatissimum
肖蒲桃葉綠體基因組中的蛋白編碼基因共有21 379 個(gè)密碼子(不包含終止密碼子)。由圖2 可知,數(shù)量最多的3 個(gè)氨基酸分別是絲氨酸(2 275)、亮氨酸(1 973)和精氨酸(1 770),而數(shù)量最少的3 個(gè)分別為蛋氨酸(374)、色氨酸(485)和纈氨酸(497)。在30 個(gè)最常見(jiàn)的密碼子(RSCU >1)中,絕大多數(shù)以A 或U 結(jié)尾,只有UUG 和AGG 以G 結(jié)尾。相反,在32 個(gè)最不常見(jiàn)的密碼子(RSCU <1)中,僅有UUC、CUA、AUA 不 以C 或G 結(jié) 尾。此 外,AUG 和UGG 沒(méi)有密碼子偏向性(RSCU=1)。
圖2 基于肖蒲桃葉綠體中78 個(gè)蛋白編碼基因的氨基酸頻率Fig.2 Amino acid frequency based on 78 protein-coding genes of Syzygium acuminatissimum chloroplast
肖蒲桃葉綠體基因組中共有47 個(gè)RNA 可編輯位點(diǎn)(表3),其中約1/3(15 個(gè))的RNA 可編輯位點(diǎn)可將絲氨酸轉(zhuǎn)化為亮氨酸。在ndhB基因檢測(cè)到的RNA 可編輯位點(diǎn)最多(10 個(gè)),其次是ndhD(5 個(gè))和matK(4 個(gè))。大多數(shù)氨基酸的轉(zhuǎn)化是從極性基團(tuán)變?yōu)榉菢O性基團(tuán),而只有兩個(gè)位點(diǎn)的氨基酸基團(tuán)從非極性變?yōu)闃O性(脯氨酸轉(zhuǎn)化為絲氨酸),其中一個(gè)位于psbE基因、另一個(gè)位于rpoC1基因。
表3 肖蒲桃葉綠體基因組中的RNA 可編輯位點(diǎn)Table 3 RNA editable sites in the chloroplast genome of Syzygium acuminatissimum
在肖蒲桃葉綠體基因組中共檢測(cè)到48 個(gè)長(zhǎng)片段重復(fù),其中18 個(gè)正向重復(fù)、6 個(gè)反向重復(fù)、22 個(gè)回文重復(fù)和2 個(gè)互補(bǔ)重復(fù)。長(zhǎng)片段重復(fù)的長(zhǎng)度范圍在19~42 bp 之間,其中長(zhǎng)度為19 bp 的重復(fù)最多(14 個(gè))、其次是22 bp(8 個(gè)),而42 bp 的最少(1 個(gè))。
在肖蒲桃葉綠體基因組中共檢測(cè)到230 個(gè)簡(jiǎn)單重復(fù)序列,其中絕大多數(shù)為單核苷酸重復(fù)(205個(gè)),其次為四核苷酸重復(fù)(12 個(gè))、三核苷酸重復(fù)(7 個(gè)),雙核苷酸重復(fù)(4 個(gè))和四核苷酸重復(fù)(2 個(gè))較少,未檢測(cè)到六核苷酸重復(fù)。所有簡(jiǎn)單重復(fù)序列中,最長(zhǎng)為17 bp,最短僅有8 bp。
由圖3 可知,4 個(gè)蒲桃屬植物的rps19 基因均跨越LSC 和IRb 邊界;rpl2基因完全位于IRb;丁香蒲桃的ndhF基因跨越IRb 和SSC;ycf1基因均跨越SSC 和IRa;丁香蒲桃和肖蒲桃的trnH基因跨越IRa 和LSC,而海南蒲桃和滇邊蒲桃的trnH基因則完全位于LSC 中。
圖3 4 種蒲桃屬植物葉綠體基因組的4 個(gè)連接邊界Fig.3 Four junction boundaries of the chloroplast genomes of four Syzygium plants
肖蒲桃葉綠體基因組的平均核苷酸多樣性π值為0.00453,檢測(cè)到7個(gè)π值較高的區(qū)域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23(圖4),其中2個(gè)位于基因區(qū)、5個(gè)位于基因間隔區(qū)。
圖4 4 種蒲桃屬植物葉綠體基因組的核苷酸多樣性Fig.4 Nucleotide diversity of the chloroplast genomes of four Syzygium plants
為了解肖蒲桃在桃金娘科中的系統(tǒng)發(fā)育關(guān)系,從桃金娘科中選擇11 個(gè)物種作為主群體,從菊科中選擇2 個(gè)物種作為外類群?;?8 個(gè)共有蛋白編碼基因,采用RAxML 構(gòu)建了具有1 000 個(gè)bootstrap 的最大似然樹(圖5),結(jié)果表明肖蒲桃與丁香蒲桃關(guān)系密切。
圖5 基于13 種植物葉綠體基因組的最大似然樹Fig.5 Maximum likelihood tree based on the chloroplast genomes of 13 species
在高等植物葉綠體基因組中,通常具有長(zhǎng)度為120~160 kb 的序列、典型的四分結(jié)構(gòu)[30]。肖蒲桃葉綠體基因組也不例外,其葉綠體基因組長(zhǎng)度為159 352 bp,總GC 含量為36.89%,大單拷貝、小單拷貝和反向重復(fù)區(qū)的GC 含量分別為34.73%、30.63%和42.66%。與大多數(shù)被子植物相似,反向重復(fù)區(qū)的高GC 含量可能由于該區(qū)域的rRNA 序列GC 含量較高而引起[31]。
肖蒲桃葉綠體基因組的蛋白編碼基因中共有21 379 個(gè)密碼子,在RSCU >1 的密碼子中,除了UUG 外,其余密碼子均以A 或U 結(jié)尾,這與罌粟[31]和紫荊澤蘭[32]相同。在蛋白編碼基因中共檢測(cè)到47 個(gè)可被編輯的RNA 位點(diǎn)。其中大部分氨基酸可從絲氨酸轉(zhuǎn)換為亮氨酸,而ndhB基因中的可編輯位點(diǎn)最多(10/47),在連翹(Forsythia suspensa)[33]和刺柏(Sanionia uncinata)[34]中也有相似研究結(jié)果。葉綠體簡(jiǎn)單重復(fù)序列是一種有效的分子標(biāo)記,常用于群體遺傳學(xué)、生物地理學(xué)和系統(tǒng)發(fā)育評(píng)估[35-36]等研究。在肖蒲桃葉綠體基因組中,絕大多數(shù)為單核苷酸重復(fù)(205/230),與大多數(shù)研究結(jié)果[37-39]一致。
由進(jìn)化事件引起的反向重復(fù)區(qū)的變化導(dǎo)致邊界和基因組大小發(fā)生細(xì)微變動(dòng),增加了物種的遺傳多樣性[40]。在本研究中,肖蒲桃、海南蒲桃、丁香蒲桃、滇邊蒲桃4 個(gè)蒲桃屬植物的連接邊界情況稍有不同,這可能與蒲桃屬植物物種繁多、擁有豐富的遺傳多樣性有關(guān)[41]。
DNA條碼廣泛應(yīng)用于植物鑒定研究[42]。然而在蒲桃屬中,僅有少數(shù)幾個(gè)區(qū)間用于物種鑒定,如matK、ndhF、rpl16、atpB-rbcL、trnL-F等[16,43-44]。本研究通過(guò)計(jì)算π值發(fā)現(xiàn),反向重復(fù)區(qū)比大單拷貝區(qū)和小單拷貝區(qū)區(qū)的保守性更高,該結(jié)果與其他被子植物一致[30,45];此外,獲得7個(gè)π值高于0.015的區(qū)域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23,這些信息將為未來(lái)的物種鑒定提供依據(jù)。
蒲桃屬物種繁多,為該屬的物種鑒定和系統(tǒng)發(fā)育研究帶來(lái)極大難度[1]。本研究構(gòu)建的桃金娘科進(jìn)化樹結(jié)果與 Biffin 等[16]基于3 個(gè)葉綠體片段得到的蒲桃屬系統(tǒng)發(fā)育結(jié)果一致,肖蒲桃與丁香蒲桃的親緣關(guān)系較近。但由于蒲桃屬植物數(shù)量較多,目前僅有的數(shù)據(jù)并不能準(zhǔn)確說(shuō)明肖蒲桃在蒲桃屬系統(tǒng)發(fā)育樹中的準(zhǔn)確位置,今后仍需獲取更全面的數(shù)據(jù)進(jìn)行深入研究分析。
本 研究利用高通量測(cè)序,組裝和注釋了肖蒲桃完整的葉綠體基因組,并解析了該基因組的結(jié)構(gòu)特征和系統(tǒng)發(fā)育關(guān)系,結(jié)果表明肖蒲桃葉綠體基因組的結(jié)構(gòu)特征與其他蒲桃屬植物相似,具有典型的四分結(jié)構(gòu),共檢測(cè)到109 個(gè)基因、21 379個(gè)密碼子、47 個(gè)RNA 可編輯位點(diǎn)、48 個(gè)長(zhǎng)片段重復(fù)、230 個(gè)簡(jiǎn)單重復(fù)序列。基因組比較分析表明,4 個(gè)蒲桃屬植物的IR 邊界有較小差異,核苷酸多樣性高于0.015 的區(qū)間有7 個(gè)。系統(tǒng)發(fā)育關(guān)系分析表明,肖蒲桃與丁香蒲桃的親緣關(guān)系較近。