黃瓊林
摘? 要:為了探究高良姜的葉綠體基因組特征及其系統(tǒng)進化發(fā)育關(guān)系,本研究以高良姜總DNA為材料,采用NovaSeq高通量測序平臺進行高良姜葉綠體基因組測序,并基于生物信息學方法進行高良姜葉綠體基因組的圖譜構(gòu)建及注釋分析。結(jié)果表明:高良姜葉綠體基因組全長162 137 bp,呈典型的環(huán)狀四段式結(jié)構(gòu),包括87 264 bp的大單拷貝區(qū)、15 349 bp的小單拷貝區(qū)以及2個29 762 bp的反向互補重復(fù)區(qū);共編碼132個基因,其中蛋白編碼基因86個、核糖體RNA基因8個以及轉(zhuǎn)運RNA基因38個。高良姜葉綠體基因組密碼子偏好性較弱,偏向于以A/T堿基結(jié)尾。堿基替換分析表明,高良姜葉綠體基因組中大多數(shù)編碼基因的堿基替換沒有引起氨基酸的改變?;?0種物種葉綠體基因組的系統(tǒng)發(fā)育分析發(fā)現(xiàn),高良姜與同屬植物艷山姜、益智的親緣關(guān)系更近。本研究獲得了高良姜的葉綠體基因組特征信息,為高良姜資源保護、遺傳進化和品種選育奠定了基礎(chǔ)。
關(guān)鍵詞:高良姜;葉綠體基因組;密碼子偏好性;堿基替換分析;系統(tǒng)發(fā)育分析
中圖分類號:S813.3? ? ? 文獻標識碼:A
Abstract: To explore the chloroplast genome features and phylogenetic relationship of Alpinia officinarum Hance, total DNA of A. officinarum was used to sequence by NovaSeq, the high-throughput sequencing platform. And then the chloroplast genome of A. officinarum was annotated and analyzed based on bioinformatics. The results showed that the chloroplast genome of A. officinarum exhibited a typical four-stage structure with a length of 162 137 bp and was composed of a large single-copy region (87 264 bp), a small single-copy region (15 349 bp) and two inverted repeat regions (29 762 bp). A total of 132 genes were annotated in the chloroplast genome of A. officinarum, including 86 protein-coding genes, 8 rRNA genes and 38 tRNA genes. The codon preference in the chloroplast genome was weak, and the codon tended to end with A/T bases. The codon replacement in the majority of coding genes did not lead to the alteration of amino acids. Additionally, phylogenetic analysis in the chloroplast genome of 20 species revealed A. officinarum shared closer relationship with A. zerumbet and A. oxyphylla. Collectively, this study reported the characteristic information of A. officinarum chloroplast genome, which would provide a firm foundation for the researches on genetic evolution and variety breeding of A. officinarum.
Keywords: Alpinia officinarum; chloroplast genome; codon preference; base replacement; phylogenetic analysis
DOI: 10.3969/j.issn.1000-2561.2021.01.001
高良姜(Alpinia officinarum Hance)為姜科山姜屬多年生草本植物,主產(chǎn)于廣東、廣西和海南,其根莖入藥可散寒止痛,溫中止嘔,是我國傳統(tǒng)大宗中藥材之一。目前,高良姜野生資源已基本滅絕,栽培高良姜由于種植強度大、成本高、收益低以及田間管理困難,藥農(nóng)種植積極性降低,導(dǎo)致高良姜栽培面積和產(chǎn)量顯著下降,一些地區(qū)已經(jīng)出現(xiàn)高良姜供不應(yīng)求的局面[1-2]。因此,加強高良姜種質(zhì)資源保護和可持續(xù)利用研究是當前高良姜產(chǎn)業(yè)的重要課題之一。目前主要集中于高良姜的化學成分和藥理活性等方面的研究,而遺傳多樣性、進化和發(fā)育等方面的研究則較少。
葉綠體是植物細胞進行光合作用的場所,能為植物提供生命活動所必需的能量[3]。葉綠體擁有相對獨立的遺傳體系,包含一個呈環(huán)狀、結(jié)構(gòu)穩(wěn)定的基因組,即葉綠體基因組[3-4]。與龐大的核基因組相對,葉綠體基因組DNA分子較小,長度一般在115~165 kb之間[5]。由于保守程度高、進化速率適中,葉綠體基因組已被廣泛應(yīng)用于植物鑒定、系統(tǒng)發(fā)育及遺傳進化分析等研究[6-8],基于葉綠體的基因工程在種質(zhì)資源保護、品種優(yōu)育中發(fā)揮著越來越重要的作用。目前,益智[9]、苦參[10]、大黃[11]等常用中藥材的葉綠體基因組已被相繼報道。
本研究擬通過高良姜葉綠體基因組測序,從密碼子偏好性、進化發(fā)育關(guān)系等方面分析高良姜葉綠體遺傳體系,以期為高良姜的遺傳背景、進化發(fā)育提供葉綠體基因組信息,促進高良姜種質(zhì)資源保護和基因工程研究奠定基礎(chǔ)。
1? 材料與方法
1.1? 材料
高良姜新鮮植物采自廣東省湛江市徐聞縣,液氮速凍后于?80 ℃保存?zhèn)溆谩=?jīng)嶺南中藥資源教育部重點實驗室(廣州中醫(yī)藥大學)詹若挺研究員鑒定為高良姜(Alpinia officinarum Hance)。
1.2? 方法
1.2.1? DNA提取、文庫構(gòu)建及測序? 取100 mg高良姜葉片,采用改良CTAB法提取總DNA,并分別使用Qubit熒光光度計、Nanodrop分光光度計和1%瓊脂糖凝膠電泳檢測DNA樣品的濃度、純度和完整性。DNA樣品檢測合格后,經(jīng)超聲破碎隨機打斷,采用NexteraXT DNA Library Preparation Kit構(gòu)建DNA文庫,質(zhì)檢合格后采用NovaSeq測序平臺進行高良姜葉綠體基因組測序。
1.2.2? 序列拼接、注釋和圖譜繪制? 將測序所得的原始讀序(raw read)用NGS QC Tool Kit軟件包進行數(shù)據(jù)質(zhì)量檢測和過濾,去除低質(zhì)量序列、接頭序列及含有不確定堿基序列,以得到高質(zhì)量序列(clean read),隨后使用SPAdes 3.11.0軟件對所得的clean read進行序列拼接,參考物種及序列為益智(Alpinia oxyphylla, NC_035895),并驗證拼接序列是否連接成環(huán),序列以Fastq格式儲存。采用PLANN軟件對高良姜葉綠體基因組全序列進行編碼基因注釋。根據(jù)注釋結(jié)果,使用OrganellarGenomeDraw(OGDRAW)軟件繪制高良姜葉綠體基因組圖譜。將序列數(shù)據(jù)和基因注釋信息上傳到GenBank數(shù)據(jù)庫,獲得序列登記號為MT254526。
1.2.3? 密碼子偏好性分析? 采用CodonW v1.3軟件對高良姜葉綠體轉(zhuǎn)錄組的密碼子組成進行分析,獲得有效密碼子(effective number of codon, Nc)和相對同義密碼子使用情況(relative synonymous codon usage, RSCU)等參數(shù),評價高良姜葉綠體轉(zhuǎn)錄組的密碼子使用偏好性。其中,Nc取值范圍為20~60,該值越大,密碼子使用的隨機性越大,使用偏性越小。RSCU值則以1為限,若RSCU>1,該密碼子使用頻率較高;若RSCU<1,該密碼子使用頻率較低。
1.2.4? 同義替換和非同義替換分析? 將高良姜與參考物種益智等的葉綠體基因組序列導(dǎo)入MAFFT v7.429軟件進行比對,尋找差異堿基,并使用PAML v4.9軟件計算同義替換率Ks、非同義替換率Ka值,以評價高良姜葉綠體基因組基因的進化情況。其中,Ks=同義替換SNP數(shù)/同義替換位點數(shù),Ka=非同義替換SNP數(shù)/非同義替換位點數(shù)。同義替換是指堿基的變化沒有導(dǎo)致氨基酸的突變,而非同義替換指堿基的變化導(dǎo)致了氨基酸的突變。
1.2.5? 系統(tǒng)發(fā)育關(guān)系分析? 從GenBank數(shù)據(jù)中下載益智(Alpinia oxyphylla, NC_035895)、艷山姜(Alpinia zerumbet, JX088668)、白豆蔻(Amomum krervanh, MF991963)、黃花姜黃(Curcuma flaviflora, NC_028729)、觀音姜(Curcuma roscoeana, NC_022928)、蜂巢姜(Zingiber spectabile, NC_020363)、美葉閉鞘姜(Costus pulverulentus, KF601573)、單花姜(Monocostus uniflorus, KF601572)、翅果竹芋(Thaumatococcus daniellii, KF601575)、豹紋竹芋(Marania leuconeura, KF601571)、美人蕉(Canna indica, KF601570)、旅美人蕉(Ravenala madagascariensis, NC_ 022927)、流蘇蘭花蕉(Orchidantha fimbriata, KF6015969)、粉鳥蝎尾蕉(Heliconia collinsiana, NC_020362)、小果野蕉(Musa acuminate, HF677508)、野蕉(Musa balbisiana, NC_028439)、蕉麻(Musa textilis, NC_022926)等單子葉植物和牛蒡(Arctium lappa, MH161419)、紫菀(Aster tataricus, MH669275)等雙子葉植物的葉綠體基因組序列,與高良姜的葉綠體基因組序列一起導(dǎo)入MAFFT v7.429軟件進行多重序列比對,然后使用IQTREE 1.6.12軟件以最大似然法(maximum likelihood, ML)和1000次重復(fù)次數(shù)構(gòu)建系統(tǒng)發(fā)育關(guān)系樹。
2? 結(jié)果與分析
2.1? 高良姜葉綠體基因組測序質(zhì)量
高良姜葉綠體基因組經(jīng)測序后獲得15 840 078條raw read,經(jīng)過濾后得到15 763 357條clean read,有效率為99.5%。平均測序深度為203.3X,超過了序列拼接要求的100X平均測序深度。堿基正確識別率>99%的堿基占比為96.6%,堿基正確識別率>99.9%的堿基占比為91.1%,平均堿基測序錯誤率為0.03%。上述結(jié)果說明高良姜葉綠體基因組測序質(zhì)量良好。
2.2? 高良姜葉綠體基因組的結(jié)構(gòu)特征
由圖1可知,高良姜葉綠體基因組全長為162 137 bp,平均GC含量為36.2%,呈典型的環(huán)狀四段式結(jié)構(gòu),包含始末位置為1~87 264 bp的大單拷貝區(qū)(large single-copy region, LSC),始末位置為117 027~132 375 bp的小單拷貝區(qū)(small?single-copy region, SSC),以及位于LSC和SSC之間、兩段反向互補重復(fù)的反向重復(fù)區(qū)(inverted repeat, IR)IRA和IRB,始末位置分別為87 265~ 117 026 bp和132 376~162 137 bp。
高良姜葉綠體基因組共編碼132個基因,歸屬為三大類,包括86個蛋白編碼基因(protein coding gene, PCG)、8個核糖體RNA(ribosomal RNA, rRNA)基因和38個轉(zhuǎn)運RNA(transfer RNA, tRNA)基因。其中trnK-UUU、rps16、trnG-UCC、atpF、rpoC1、trnL-UAA、trnV-UAC、petB、petD、rpl16、rpl2、ndhB、trnI-GAU、trnA-UGC、ndhA基因各含有1個內(nèi)含子,clpP、ycf3基因含有2個內(nèi)含子,rps12基因存在反式剪接情況。
2.3? 密碼子偏好性分析
密碼子組成分析結(jié)果顯示,高良姜葉綠體基因組的Nc值為46.18,說明其密碼子偏好性較弱。高良姜葉綠體基因組密碼子的第3位上的GC堿基含量GC3s為24.27%,GC含量為37.53%,均小于50%,說明高良姜葉綠體基因組的密碼子使用更傾向于A和T堿基。高良姜葉綠體基因組RSCU分析如表1所示,在64種密碼子中,RSCU值大于1的密碼子有30個,其中以A或T堿基結(jié)尾的密碼子有29個,表明高良姜葉綠體基因組的密碼子偏向以A或T堿基結(jié)尾。
2.4? 同義替換和非同義替換分析
由圖2可知,高良姜葉綠體基因組中共有55個基因存在堿基變化,其中大部分基因的Ks值> Ka值,即Ka/Ks<1,說明它們的進化受純化選擇。而rpl16、rpoC1、rps8、ycf2基因的Ka/Ks>1,說明這些基因的進化有正選擇效應(yīng)。
2.5? 系統(tǒng)發(fā)育分析
將高良姜與17種單子葉物種的葉綠體基因組進行比對,并以牛蒡和紫菀2種雙子葉植物為參照,采用最大似然法(maximum likelihood, ML)進行系統(tǒng)進化分析,以便理解高良姜的進化位置。結(jié)果如圖3所示,高良姜與同為姜科山姜屬的艷山姜、益智最先聚集在一起,說明它們的親緣關(guān)系最近,與蕉麻等芭蕉科物種的親緣關(guān)系則較遠。
3? 討論
高良姜是藥食兩用的藥材,市場需求量大,其植物資源及產(chǎn)品開發(fā)可產(chǎn)生較好的社會和經(jīng)濟效益。開展高良姜的葉綠體基因組測序及分析,可有效探討高良姜在姜科以至單子葉植物中的系統(tǒng)發(fā)育關(guān)系和演化位置,為高良姜光合作用調(diào)控、抗性條件篩選等研究奠定基礎(chǔ),進而推動基于葉綠體基因組的高良姜分子育種和品種優(yōu)育研究,以期達到高良姜資源可持續(xù)利用的目的。
本研究以基因組DNA為材料,采用高通量測序技術(shù)進行高良姜葉綠體全基因組測序,并通過生物信息學對測序數(shù)據(jù)進行編輯和分析,獲得了高良姜葉綠體基因組圖譜及其編碼基因注釋。與傳統(tǒng)方法相比,本研究所用的方法既避免了葉綠體DNA分離等高難度實驗,也不需要設(shè)計特異性引物對葉綠體基因組進行PCR擴增,具有實驗周期短、勞動強度小、結(jié)果信息豐富等優(yōu)勢。
本研究測得高良姜葉綠體基因組全長為162 137 bp,具有高等植物葉綠體基因組的典型環(huán)狀四段式結(jié)構(gòu),包括87 264 bp的大單拷貝區(qū)、15 349 bp的小單拷貝區(qū)以及2個29 762 bp的反向互補重復(fù)區(qū),這些區(qū)域的長度與被子植物葉綠體基因各組分長度范圍基本一致[12]。高良姜葉綠體基因組編碼132個基因,包括蛋白編碼基因86個、rRNA基因8個及tRNA基因38個,其基因組成與益智[9]等山姜屬植物的葉綠體基因組類似。系統(tǒng)發(fā)育分析結(jié)果表明,高良姜首先與同是山姜屬的艷山姜、益智聚在一起,然后再與豆蔻屬白豆蔻、姜屬蜂巢姜、姜黃屬黃花姜黃和觀音姜聚集,形成了姜科分支;而其他來源于閉鞘姜科、竹芋科、美人蕉科、旅人蕉科和芭蕉科等單子葉植物聚成另一分支。上述單子葉植物與參照的雙子葉植物的牛蒡、紫菀也明顯區(qū)分。在整個系統(tǒng)發(fā)育樹中,相同科屬的物種聚在一起,聚類效果較好,能較好地反映高良姜在姜科及單子葉植物中的進化關(guān)系。
在許多物種中存在著某一或幾種特定的密碼子使用頻率高于其同義密碼子的現(xiàn)象,這種現(xiàn)象被稱為密碼子偏好性。密碼子的偏好性可反映基因以至物種的起源和進化方式,對基因功能及其編碼蛋白的表達也有影響[13]。本研究結(jié)果發(fā)現(xiàn),高良姜葉綠體基因組的Nc值為46.18,該值在20~60取值范圍中更偏向60,說明高良姜葉綠體的密碼子偏好性較弱,密碼子的使用頻率沒有太大的差異。高良姜葉綠體基因組的GC含量和GC3s含量均小于50%,說明基因組在堿基組成上A和T的占比更高,且密碼子也主要以A或T結(jié)尾。
由于密碼子的簡并性,有64種堿基組合編碼20種氨基酸,因此DNA堿基的替換對編碼氨基酸造成2種結(jié)果,即同義替換和非同義替換。前者不改變編碼氨基酸,后者則改變了編碼氨基酸。非同義替換(Ka)與同義替換(Ks)的比率是揭示進化率和自然選擇壓力的重要指標[14]。一般而言,大多數(shù)蛋白的同義替換發(fā)生率高于非同義替換發(fā)生率[15],即Ka/Ks<1。本研究也發(fā)現(xiàn)高良姜葉綠體基因組51個編碼基因的Ka/Ks<1,占到發(fā)生堿基替換基因總數(shù)的92.7%。本研究還發(fā)現(xiàn),rpl16、rpoC1、rps8、ycf2基因的Ka/Ks比值大于1,說明這些基因的進化表現(xiàn)出正選擇效應(yīng),提示其可能處于快速進化的狀態(tài)。研究這些正選擇效應(yīng)基因?qū)Ω吡冀灾辽浇獙傥锓N的進化有著積極的意義。
本研究通過高通量測序技術(shù)完成了高良姜葉綠體基因組測序和圖譜構(gòu)建,并分析其密碼子偏好性、堿基替換以及進化發(fā)育關(guān)系,為后續(xù)基于葉綠體基因組的高良姜遺傳進化、變異及育種研究提供了參考。
參考文獻
譚業(yè)華, 陳? 珍. 南藥高良姜生產(chǎn)調(diào)查、問題分析及發(fā)展對策[J]. 海南師范大學學報(自然科學版), 2014, 27(3): 293-296.
楊? 全, 嚴寒靜, 龐玉新, 等. 南藥高良姜藥用植物資源調(diào)查研究[J]. 廣東藥學院學報, 2012, 28(4): 382-386.
Wang X, Zhou T, Bai G, et al. Complete chloroplast genome sequence of Fagopyrum dibotrys: Genome features, comparative analysis and phylogenetic relationships[J]. Scientific Reports, 2018, 8(1): 12379.
Tian N, Han L, Chen C, et al. The complete chloroplast genome sequence of Epipremnum aureum and its comparative analysis among eight Araceae species[J]. PLoS One, 2018, 13(3): e192956.
Zhang Y, Du L, Liu A, et al. The complete chloroplast genome sequences of five epimedium species: Lights into phylogenetic and taxonomic analyses[J]. Frontiers in Plant Science, 2016, 7: 306.
Zhou Y, Nie J, Xiao L, et al. Comparative chloroplast genome analysis of rhubarb botanical origins and the development of specific identification markers[J]. Molecules, 2018, 23(11): 2811.
Shen X, Guo S, Yin Y, et al. Complete chloroplast genome sequence and phylogenetic analysis of aster tataricus[J]. Molecules, 2018, 23(10): 2426.
Choi K S, Kwak M, Lee B, et al. Complete chloroplast genome of Tetragonia tetragonioides: Molecular phylogenetic relationships and evolution in Caryophyllales[J]. PLoS One, 2018, 13(6): e199626.
Gao B, Yuan L, Tang T, et al. The complete chloroplast genome sequence of Alpinia oxyphylla Miq. and comparison analysis within the Zingiberaceae family[J]. PLoS One, 2019, 14(6): e218817.
喬永剛, 賀嘉欣, 王勇飛, 等. 藥用植物苦參的葉綠體基因組及其特征分析[J]. 藥學學報, 2019, 54(11): 2106-2112.
左文明, 曾? 陽, 楊春芳, 等. 基于高通量技術(shù)的唐古特大黃葉綠體全基因組測序及應(yīng)用研究[J]. 中草藥, 2019, 50(22): 5545-5553.
張同武. 植物細胞器基因組測序,組裝及比較基因組學研究[D]. 杭州: 浙江大學, 2012.
葉友菊, 倪州獻, 白天道, 等. 馬尾松葉綠體基因組密碼子偏好性分析[J]. 基因組學與應(yīng)用生物學, 2018, 37(10): 4464-4471.
Yang Z, Nielsen R. Estimating synonymous and nonsynonymous substitution rates under realistic evolutionary models[J]. Molecular Biology and Evolution, 2000, 17(1): 32-43.
Makalowski W, Boguski M S. Evolutionary parameters of the transcribed mammalian genome: An analysis of 2820 orthologous rodent and human sequences[J]. Proceedings of the National Academy of Sciences, 1998, 95(16): 9407-9412.
責任編輯:黃東杰