趙振寧 孫浩田 宋雨茹 余瀟
摘要: 為明確山楂屬植物葉綠體基因組結(jié)構(gòu)與編碼蛋白質(zhì)的基因密碼子偏好性特征,本研究利用第二代高通量測序技術(shù)對云南山楂[Crataegus scabrifolia (Franch.) Rehd.]的葉綠體基因組進行測序、組裝和注釋,并對山楂屬11個種植物的葉綠體基因組結(jié)構(gòu)、遺傳多樣性以及密碼子偏好性進行了分析。結(jié)果顯示,山楂屬植物的葉綠體基因組長度為159 607~159 875 bp,G+C含量為36.6%~36.7%,為標(biāo)準(zhǔn)的四分體結(jié)構(gòu),G+C含量和結(jié)構(gòu)變異均保守,邊界擴張收縮穩(wěn)定,未發(fā)現(xiàn)基因組的倒置和重排現(xiàn)象,11個種植物的簡單重復(fù)序列和離散重復(fù)序列的種類和數(shù)量存在一定的差異。綜合中性繪圖分析、有效密碼子數(shù)分析(ENC-plot)、奇偶校驗分析(PR2-plot)和對應(yīng)性(COA)分析的結(jié)果,發(fā)現(xiàn)山楂屬植物葉綠體基因組密碼子使用不但受到堿基突變的影響,還受到選擇壓力的深刻影響。對葉綠體基因組的最優(yōu)密碼子進行篩選,最優(yōu)密碼子數(shù)量為17~20個,其中C. kansuensis、C. oresbia、C. pinnatifida的最優(yōu)密碼子數(shù)量最多,C. marshallii的最優(yōu)密碼子數(shù)量最少,分析它們的最優(yōu)密碼子數(shù)據(jù)發(fā)現(xiàn),山楂屬植物的最優(yōu)密碼子大多以A或U作為第三位堿基。基于CDS(蛋白質(zhì)編碼序列)和葉綠體全基因組構(gòu)建的系統(tǒng)發(fā)育關(guān)系既具有一定的相似性,也存在一些差異。本研究結(jié)果為山楂屬植物的系統(tǒng)發(fā)育研究和分子標(biāo)記開發(fā)等工作提供了參考依據(jù)。
關(guān)鍵詞: 山楂屬;葉綠體基因組;密碼子偏好性;系統(tǒng)進化
中圖分類號: S661.5 文獻標(biāo)識碼: A 文章編號: 1000-4440(2023)02-0504-14
Chloroplast genome characteristics and codon usage bias analysis of Crataegus L.
ZHAO Zhen-ning1, SUN Hao-tian2, SONG Yu-ru1, YU Xiao3
(1.College of Forestry, Southwest Forestry University, Kunming 650224, China;2.College of Ecology and Environment, Southwest Forestry University, Kunming 650224, China;3.School of Architecture, Hubei Engineering University, Xiaogan 432000, China)
Abstract: In order to clarify the chloroplast genome structure and codon usage bias of Crataegus, this study used the next-generation sequencing to sequence, assemble and annotate the chloroplast genome of Crataegus scabrifolia (Franch.) Rehd., and analyzed the chloroplast genome structure, genetic diversity and codon preference of 11 species of Crataegus. The results showed that the length of chloroplast genome was between 159 607 bp and 159 875 bp, the G+C content and structural variation were conservative, the G+C content was between 36.6% and 36.7%, the boundary expansion and contraction were stable, no inversion and rearrangement of the genome were found, and there were differences in the type and number of simple sequence repeats and interspersed repeated sequences. Based on the results of neutrality plot analysis, ENC-plot, PR2-plot and correspondence analysis, it was found that the chloroplast genome codon usage in Crataegus was not only affected by base mutation, but also by selective pressure. The optimal codons of the chloroplast genome were screened, and the optimal number of codons was between 17 and 20. C. kansuensis, C. oresbia, and C. pinnatifida had the largest number of optimal codons, and C. marshallii had the least number of optimal codons. The analysis of their optimal codon data revealed that the optimal codons of Crataegus mostly used A or U as the third base. The phylogenetic relationships constructed based on protein coding sequence and complete chloroplast genome had certain similarities and differences. The results of this study can provide a reference for the phylogenetic research and molecular marker development of Crataegus.
Key words: Crataegus L.;chloroplast genome;codon usage bias;system evolution
山楂屬(Crataegus L.)為薔薇科中起源相對古老的屬,多為小喬木或落葉灌木,主要分布于溫帶地區(qū)。山楂屬植物有著非常高的經(jīng)濟價值,研究結(jié)果表明,山楂作為果樹在中國的種植歷史可追溯至漢代[1]。山楂的果實含有豐富的營養(yǎng)物質(zhì),具有健胃消食、抗菌消炎等功效,是一種優(yōu)良的水果[2]。除了作為經(jīng)濟果樹,山楂還是一類出色的園林景觀植物和街道綠化樹種。通常認為,山楂屬中有18個種原產(chǎn)于中國,山楂屬植物中廣泛存在的無融合生殖和種間雜交現(xiàn)象使其外形特征發(fā)生了高度變異[3],進而為山楂屬植物的傳統(tǒng)分類學(xué)鑒定造成困難。
葉綠體是植物細胞中重要的細胞器之一,對于研究植物體的光合作用和生長發(fā)育具有非常重要的意義。葉綠體基因組是獨立于核基因組的母系遺傳,其核苷酸置換率與核基因組及線粒體基因組相比更適宜應(yīng)用于多層次的系統(tǒng)發(fā)育研究[4]。隨著第二代高通量測序技術(shù)的不斷完善,針對葉綠體基因組的報道也逐漸增多,目前的研究結(jié)果表明,陸地高等植物的葉綠體基因組長度一般介于120~200 kb,包含大單拷貝區(qū)(LSC)、小單拷貝區(qū)(SSC)、反向重復(fù)區(qū)a(IRa)和反向重復(fù)區(qū)b(IRb)。密碼子偏好性是指編碼相同氨基酸的同義密碼子頻率存在差異[5],這種現(xiàn)象普遍出現(xiàn)在所有原核生物和真核生物中[6]。一般來說,密碼子使用模式能夠反映基因組的起源和進化模式,不同的基因組有其獨特的密碼子使用偏好性,這也使得解釋這種偏好性目前還存在一定的困難[7-8]。
山楂屬植物具有出色的經(jīng)濟價值和科研價值,目前已有許多針對山楂屬植物的相關(guān)研究。例如,有許多學(xué)者圍繞山楂屬植物的營養(yǎng)價值進行了相關(guān)研究,均發(fā)現(xiàn)其有著良好的營養(yǎng)價值和抗氧化活性[9-12],在分子層面,張梟等[13]利用SSR分子標(biāo)記構(gòu)建了部分山楂屬植物的分子條形碼,為山楂屬植物的資源鑒定提供了分子層面的手段,Liston等[3]基于葉綠體基因組和257個核基因組對山楂屬植物亞屬間的雜交狀況進行了評估,證實了雜交在山楂進化中的重要作用。具體到葉綠體基因組層面,近年來,針對山楂屬植物葉綠體基因組的研究正逐漸被重視,部分山楂屬植物的葉綠體基因組數(shù)據(jù)相繼被發(fā)表在國家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)公共數(shù)據(jù)庫中,也有學(xué)者對其葉綠體基因組進行了屬內(nèi)的比較分析[14-15]。然而,目前針對山楂屬植物葉綠體基因組特征和密碼子偏好性的綜合分析相對較少。本研究擬通過對云南山楂葉綠體基因組的測序、組裝和注釋,綜合分析山楂屬11個種的植物葉綠體基因組特征、密碼子偏好性、最優(yōu)密碼子和系統(tǒng)發(fā)育關(guān)系,深入研究山楂屬植物的葉綠體基因組特征,彌補目前對于山楂屬植物密碼子特征和偏好性研究的空白。本研究旨在為山楂屬植物的葉綠體基因組特征、系統(tǒng)發(fā)育關(guān)系和密碼子偏好性研究提供新的參考依據(jù),以期為山楂屬植物的育種和分子標(biāo)記研究提供參考。
1 材料與方法
1.1 試驗材料
本研究所使用的新鮮植物葉片采集于云南省大理白族自治州洱源縣羅平山(99°52′19.15″E, 25°59′53.34″N,海拔2 105 m),經(jīng)西南林業(yè)大學(xué)標(biāo)本館樹木學(xué)教研室李雙智副教授鑒定為薔薇科山楂屬植物云南山楂[Crataegus scabrifolia (Franch.) Rehd.]。使用改良過的CTAB(十六烷基三甲基溴化銨)法[16]從使用硅膠干燥的葉片中提取DNA,提取后的DNA送至天津諾禾致源生物科技有限公司進行葉綠體基因組測序,使用GetOrganelle軟件 [17]組裝得到完整的葉綠體基因組,并使用拼接路徑可視化軟件Bandage[18]驗證其成環(huán)性。以山楂[Crataegus pinnatifida(NC_065486)]葉綠體基因組為參考,使用CPGAVAS2在線工具(http://www.herbalgenomics.org/cpgavas/)[19]對云南山楂葉綠體基因組進行注釋,并使用Geneious Prime軟件[20]對其進行手動調(diào)整。注釋過的云南山楂葉綠體基因組上傳到GenBank公共數(shù)據(jù)庫,登錄號為OP021659,其余10個山楂屬植物葉綠體基因組下載于NCBI公共數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)(表1)。
1.2 試驗方法
1.2.1 重復(fù)序列分析 簡單重復(fù)序列(Simple sequence repeat,SSR)在植物葉綠體基因組中有著廣泛分布,其作為一種重要的分子標(biāo)記常被用作鑒定植物品種和構(gòu)建DNA 指紋圖譜[21]。使用MISA-web(http://webblast.ipk-gatersleben.de/misa/)對山楂屬植物簡單重復(fù)序列的種類和數(shù)量進行在線分析[22],將單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸參數(shù)分別設(shè)置為10、5、4、3、3、3,相鄰SSR間的最小距離為100 bp。
使用REPuter在線工具(https://bibiserv.cebitec.uni-bielefeld.de/reputer)分別鑒定11種山楂屬植物的離散重復(fù)序列[23],設(shè)置參數(shù):海明距離(Hamming distance)為3,鑒定類型選擇正向重復(fù)序列(Forward repeat, F)、回文重復(fù)序列(Palindromic repeat, P)、反向重復(fù)序列(Reverse repeat, R)和互補重復(fù)序列(Complement repeat, C)4種,最小重復(fù)長度30 bp,最大重復(fù)長度300 bp。
1.2.2 邊界擴張收縮分析 葉綠體基因組為環(huán)狀結(jié)構(gòu),分為4個區(qū)域,分別為大單拷貝區(qū)(LSC)、小單拷貝區(qū)(SSC)、反向重復(fù)區(qū)a(IRa)和反向重復(fù)區(qū)b(IRb),其中反向重復(fù)區(qū)相對比較保守,其收縮與擴張會影響葉綠體基因組 G+C 含量和基因組大小,邊界擴展和收縮能夠展現(xiàn)植物的遺傳進化[24];分析葉綠體基因組區(qū)域邊界的信息,對揭示葉綠體基因組的結(jié)構(gòu)差異和進化關(guān)系具有重要的參考價值[25]。使用在線工具CPJSdraw(http://cloud.genepioneer.com:9929)對注釋過的山楂屬植物葉綠體基因組邊界可視化,分析其邊界的擴張收縮情況。
1.2.3 共線性比較分析 以山楂屬11個種的植物葉綠體基因組為研究對象,利用 MAUVE(http://darlinglab.org/mauve/mauve.html)工具對多重基因組的保守區(qū)域、局部共線性和基因組重排倒置現(xiàn)象進行鑒定,用以闡述山楂屬植物的葉綠體在物種演化過程中發(fā)生的結(jié)構(gòu)變異事件[26]。
1.3 密碼子偏好性分析
1.3.1 密碼子相關(guān)參數(shù)的計算 使用Geneious Prime軟件手動提取每個山楂屬植物葉綠體基因組中的蛋白質(zhì)編碼序列(Coding sequence, CDS),由于編碼長度較短的蛋白質(zhì)的基因會使密碼子偏好性的數(shù)據(jù)存在較大的估計誤差,因此在統(tǒng)計密碼子偏好性時,常去除長度在300 bp以下的序列,從而避免產(chǎn)生統(tǒng)計誤差[27],本研究篩選了山楂屬植物葉綠體基因組中具有代表性的48個CDS。利用CUSP在線工具(http://www.Bioin formatics.nl/emboss-explorer/)和Condon W 1.4.2統(tǒng)計得到了葉綠體基因組的相對同義密碼子使用度(RSCU),密碼子第一、第二和第三位的G+C含量(GC1、GC2、GC3)等一系列信息。
1.3.2 中性繪圖分析 使用GC1與GC2的平均值(GC12)與GC3作為數(shù)據(jù)繪制中性對比圖,中性對比圖可以用來檢測密碼子突變壓力和選擇壓力的平衡,從而揭示GC12和GC3的關(guān)系[28]。在密碼子偏好中性對比中,每個離散點表示1個基因,若GC12與GC3為中性,則這些點應(yīng)位于對角線上,若不為中性,這些點應(yīng)出現(xiàn)在橫坐標(biāo)的平行線上[29]。
1.3.3 ENC-plot分析 有效密碼子數(shù)分析(ENC-plot)用于分析密碼子使用受到選擇壓力和突變壓力的影響程度,根據(jù)各組基因密碼子的GC3和有效密碼子數(shù)(ENC),首先計算出預(yù)期ENC(預(yù)期ENC=GC3+2+29/[GC32+(1-GC3)2]),然后使用R語言繪制ENC-plot圖,通過比較預(yù)期ENC與實際ENC得出突變壓力和選擇壓力對密碼子使用偏好性的影響程度[8]。
1.3.4 PR2-plot分析 奇偶校驗分析(PR2-plot)用于展現(xiàn)突變壓力與選擇壓力對于密碼子使用的影響程度,分析密碼子第三位堿基的A、T、C、G含量(分別為A3、T3、C3、G3),并分別以G3/(G3+C3)和A3/(A3+T3)為橫坐標(biāo)和縱坐標(biāo)進行PR2-plot繪圖,各個基因的密碼子偏好性通過其與中心點的方向和矢量偏差表示,而圖中中心點表示A=T和C=G,即此時基因的密碼子使用無偏好性[30]。
1.3.5 最優(yōu)密碼子確定 最優(yōu)密碼子表示基因組中使用頻率最高的密碼子,以ENC為首選標(biāo)準(zhǔn),將48條葉綠體基因組按照ENC進行排序,ENC最高的5個基因組歸為高表達基因組,ENC最低的5個基因組為低表達基因組。將同時滿足高頻[RSCU(同義密碼子相對使用度)>1]和高表達[ΔRSCU(同義密碼子相對使用度之差)≥0.08]的密碼子作為最優(yōu)密碼子。
1.3.6 對應(yīng)性分析 使用CodonW 1.4.2基于RSCU對山楂屬11個種進行對應(yīng)性分析,將山楂屬這11個種所共有的48個編碼蛋白質(zhì)的基因組按照基因功能分為5種類型,通過分析其變異情況得到影響其密碼子偏好性的主要影響因素。
1.4 系統(tǒng)發(fā)育分析
基于山楂屬11個種構(gòu)建葉綠體全基因組系統(tǒng)發(fā)育樹和CDS系統(tǒng)發(fā)育樹。先將山楂屬11個種植物葉綠體全基因組和CDS通過MAFFT v.7軟件進行比對[31],比對結(jié)果通過trimAl[32]進行修飾,修改后的比對文件基于RAxMLv.8中的GTR+I+G模型,采用最大似然法進行系統(tǒng)發(fā)育分析[33],設(shè)置1 000次自展值重復(fù)。
2 結(jié)果與分析
2.1 葉綠體基因組結(jié)構(gòu)
山楂屬植物葉綠體基因組呈現(xiàn)標(biāo)準(zhǔn)的四分體結(jié)構(gòu),分別為大單拷貝區(qū)、小單拷貝區(qū)、反向重復(fù)區(qū)a和反向重復(fù)區(qū)b,葉綠體基因組全長為159 607~159 875 bp(圖1)。LSC長度為87 601~87 874 bp,SSC長度為19 139~19 312 bp,單個反向重復(fù)區(qū)長度為26 347~26 385 bp。各個種的G+C含量為36.6%~36.7%,基因總數(shù)為127~132個,其中rRNA數(shù)量均為8個,tRNA數(shù)量除C. scabrifolia為36個外其余均為37個,編碼蛋白質(zhì)的基因數(shù)量為83~85個(表2)。綜合來看,山楂屬植物的葉綠體基因組G+C含量相近,基因種類和數(shù)量相近,未發(fā)現(xiàn)IR區(qū)丟失現(xiàn)象,葉綠體基因組長度變異較小,結(jié)構(gòu)未發(fā)現(xiàn)明顯差異。
2.1.1 重復(fù)序列分析 如圖2A所示,在本研究中,單核苷酸、二核苷酸、四核苷酸和復(fù)合重復(fù)序列均在山楂屬植物中被檢測到,在本研究所選取的山楂屬植物中,檢測到的單核苷酸重復(fù)序列數(shù)量介于41~55,在各個種中單核苷酸重復(fù)序列數(shù)量均排第一位,而單核苷酸重復(fù)序列數(shù)量最多的物種為C. hupehensis,最少的物種為C. marshallii。山楂屬植物中二核苷酸重復(fù)序列數(shù)量總體差異不大,C. oresbia被檢測到的二核苷酸重復(fù)序列數(shù)量最少,為13個,C. maximowiczii、C. kansuensis、C. cuneata、和C. bretschneideri數(shù)量最多,為15個,其余物種則為14個。三核苷酸重復(fù)序列僅在C. hupehensis、C. cuneata、C. marshallii、C. pinnatifida和C. scabrifolia中被檢測到,四核苷酸重復(fù)序列數(shù)量為3~5個,各物種之間差異不大。五核苷酸重復(fù)序列僅在C. marshallii中被檢測到,六核苷酸重復(fù)序列僅在C. cuneata和C. marshallii中被檢測到。這一結(jié)果說明山楂屬植物的簡單重復(fù)序列的類型和數(shù)量有部分相似之處,但總體來看也有一定的差異。
使用 REputer 在線工具對 11 種山楂屬植物葉綠體基因組的離散重復(fù)序列進行分析,統(tǒng)計結(jié)果如圖2B所示,結(jié)果顯示山楂屬植物離散重復(fù)序列具有一定相似性,回文重復(fù)序列為23~28,正向重復(fù)序列為20~29,其中C. kansuensis的回文重復(fù)序列與反向重復(fù)序列的數(shù)量均為最多,而C. marshallii的2種重復(fù)序列的數(shù)量均為最少。反向重復(fù)序列為3~11個,其中C. kansuensis的反向重復(fù)序列數(shù)量遠高于其他10個種,為11個?;パa重復(fù)序列在C. hupehensis中檢測到的數(shù)量最多,為5個,而在C. maximowiczii與C. bretschneideri中并未檢測出互補重復(fù)序列。總的來說山楂屬植物的離散重復(fù)序列存在著一定的差別。
2.1.2 邊界擴張收縮分析 對山楂屬植物的邊界擴張收縮分析結(jié)果(圖3)表明,山楂屬11個種植物的大單拷貝區(qū)與反向重復(fù)區(qū)b的邊界(JLB)均位于rps19基因中,除C. marshallii和C. bretschneideri外,其余9個種的rps19基因均有120 bp位于IRb區(qū)域中;反向重復(fù)區(qū)b與小單拷貝區(qū)的邊界(JSB)均位于ndhF中,且ndhF位于IRb的長度均為12 bp;JSA 均存在于ycf1基因中,且均有1 074 bp位于IRa中,rpl2為11個種植物的共有基因,均位于大單拷貝區(qū)與反向重復(fù)區(qū)a(JLA)的左側(cè),其中有9個種植物rpl2基因與JLA距離為190 bp,而C. marshallii和C. bretschneideri的rpl2基因與JLA的距離則發(fā)生了變異,與其余9個種植物略有不同。總的來說,山楂屬植物的葉綠體基因組進化關(guān)系保守,結(jié)構(gòu)差異較小,邊界擴張收縮幅度較為穩(wěn)定,只發(fā)生了較小的變異。
2.1.3 共線性分析 使用Mauve軟件,采用多重基因組比較法對山楂屬11個種植物的葉綠體基因組進行共線性分析,山楂屬植物葉綠體基因組結(jié)構(gòu)與各個基因的排列順序基本一致,共線性良好,未發(fā)現(xiàn)倒置和重排現(xiàn)象,葉綠體基因組之間具有高度相似性。
2.2 密碼子偏好性
2.2.1 密碼子組成分析 在研究密碼子的使用偏好性時,ENC常用于評價物種密碼子偏好性的大小,其值為20~61,ENC值越大表示密碼子的偏好性越弱。一般認為,ENC值在35以下時可表明其密碼子偏性現(xiàn)象較為顯著[34]。由表3可知,山楂屬11個種植物的葉綠體基因組平均ENC為46.61~47.55,均大于35,密碼子偏好性較弱,密碼子總G+C含量與第一、第二、第三位的G+C含量均小于50%,且呈現(xiàn)出GC1>GC2>GC3的趨勢,說明山楂屬植物的葉綠體基因組富含A和T 2種堿基,且偏好于使用A、T作為密碼子第三位結(jié)尾堿基。
2.2.2 PR2-plot繪圖分析 若密碼子的偏好性只受突變壓力的影響,則A、T與C、G的使用頻率應(yīng)該是完全相等的。由圖4可知,圖中坐標(biāo)點的分布并不均勻,可以明顯看出,右側(cè)的坐標(biāo)點多于左側(cè),下方的坐標(biāo)點多于上方,而分布于右下角區(qū)域的基因數(shù)量最多,說明山楂屬植物葉綠體基因組密碼子第三位堿基對于T的使用率大于A,對于G的使用率大于C,說明其密碼子偏好性不只受到突變的影響,而是選擇壓力和突變壓力共同作用的結(jié)果。
2.2.3 中性繪圖分析 山楂屬植物中性繪圖分析見圖5,各基因的GC3取值為20.74%~36.54%,GC12的值則介于31.75%~53.96%,回歸系數(shù)為0.364~0.388,GC12與 GC3的相關(guān)系數(shù)為0.324~0.525,雙尾檢驗均未達到顯著水平(P>0.05),GC12與GC3之間相關(guān)性不顯著,選擇壓力對其密碼子的偏好性具有顯著影響,說明山楂屬植物葉綠體基因組密碼子的第一、第二位堿基與第三位堿基的組成相關(guān)性較弱,密碼子受選擇壓力的影響較大。
2.2.4 ENC-plot繪圖分析 ENC-plot繪圖能夠揭示基因組密碼子的ENC與 GC3之間的聯(lián)系,如圖6所示,坐標(biāo)點大多分布在標(biāo)準(zhǔn)ENC曲線下方,且大多與預(yù)期ENC差距很大,即大部分基因的實際ENC小于預(yù)期值,這部分基因主要受到自然選擇的影響。僅有少數(shù)基因靠近標(biāo)準(zhǔn)曲線,即只有少數(shù)基因的密碼子偏好性主要受到突變壓力的影響??偟膩碚f,在本研究中,自然選擇壓力是供試山楂屬植物葉綠體基因組密碼子偏好性的主要影響因素。
2.2.5 山楂屬植物最優(yōu)密碼子 對48個CDS基因按照ENC進行排序,根據(jù)高表達基因和低表達基因中密碼子的RSCU和△RSCU來確定其最優(yōu)密碼子,篩選得到的最優(yōu)密碼子如表4所示,最優(yōu)密碼子數(shù)量介于17~20個,C. kansuensis、C. oresbia、C. pinnatifida的最優(yōu)密碼子數(shù)量最多,C. marshallii的最優(yōu)密碼子數(shù)量最少,分析它們的最優(yōu)密碼子數(shù)據(jù)可知,山楂屬11個種植物的最優(yōu)密碼子都大多以A或U作為第三位堿基,說明其最優(yōu)密碼子偏向于使用A和U作為結(jié)尾。對其共有最優(yōu)密碼子進行分析,發(fā)現(xiàn)其共有最優(yōu)密碼子有13個,分別為GCA、GCU、AGA、CGA、UGU、CAA、UUA、UUU、AGU、UCU、ACA、UAU和GUU,其中有6個以A作為末堿基,7個以U作為末位堿基,共有密碼子的第三位堿基均為A和U。差異密碼子有7個,分別為GAC、GAA、GGA、AUA、CUU、AAA和ACC,存在差異的最優(yōu)密碼子中,有4個以A作為第三位堿基,2個以C作為末位堿基,1個以U作為末位堿基。分析山楂屬11個種植物的最優(yōu)密碼子發(fā)現(xiàn),不存在以G作為末位堿基的最優(yōu)密碼子。
2.2.6 對應(yīng)性分析 基于RSCU對山楂屬植物葉綠體基因組48個共有CDS進行對應(yīng)性分析,結(jié)果顯示,其第一軸貢獻率為11.69%~12.02%,第二軸貢獻率為8.78%~8.94%,第三軸貢獻率為8.22%~8.37%,第四軸貢獻率為7.74%~8.02%,前四軸累計貢獻率為36.71%~37.23%,第一軸對變異的貢獻率與其他3個軸相差較大,為影響其變異的主要因素。為了深入分析其密碼子偏好性特征,使用48個CDS的第一軸和第二軸建立平面坐標(biāo)系,結(jié)果(圖7)顯示,山楂屬11個種植物的CDS序列在平面中的分布相似性很高,均顯示遺傳系統(tǒng)相關(guān)基因與保守性開放閱讀框的分布相對更加集中,說明這2類功能的基因內(nèi)部存在相似的密碼子使用偏好性。而其余3種功能的基因分布相對更加分散,說明這3種基因的密碼子偏好性差異較大。
2.3 系統(tǒng)發(fā)育分析
對基于葉綠體CDS構(gòu)建的系統(tǒng)進化樹(圖8A)與基于葉綠體全基因組構(gòu)建的系統(tǒng)發(fā)育樹(圖8B)進行分析,結(jié)果顯示,2種系統(tǒng)發(fā)育樹具有很高的相似性,C. kansuensis、C. oresbia、C. chungtienensis、C. bretschneideri、C. maximowiczii、C. rhipidophylla和C. marshallii在2種系統(tǒng)進化樹中具有相同的系統(tǒng)發(fā)育位置。但2種系統(tǒng)發(fā)育樹也顯現(xiàn)出了一定的差異,基于葉綠體CDS構(gòu)建的系統(tǒng)發(fā)育樹顯示C. scabrifolia被單獨歸為一個遠緣分支,顯示其與另外10個種的親緣關(guān)系較遠;基于葉綠體全基因組序列構(gòu)建的系統(tǒng)發(fā)育樹(圖8B)則將C. cuneata單獨歸為一個遠緣分支。除此之外,基于葉綠體CDS構(gòu)建的系統(tǒng)發(fā)育關(guān)系顯示,C. hupehensis與C. pinnatifida親緣關(guān)系密切,聚為一類,而基于葉綠體全基因組構(gòu)建的系統(tǒng)發(fā)育樹則為C. hupehensis、C. pinnatifida和C. scabrifolia聚為一支??偟膩碚f,葉綠體基因組的2種系統(tǒng)發(fā)育樹展現(xiàn)出來的系統(tǒng)發(fā)育關(guān)系既存在著部分差異,也存在著一定的相似性。
3 討論與結(jié)論
植物葉綠體全基因組長度大多為120~200 kb,包含植物體豐富的遺傳學(xué)信息[35]。隨著第二代高通量測序技術(shù)的發(fā)展和測序成本的降低,已有大量的葉綠體基因組數(shù)據(jù)被上傳至GenBank公共數(shù)據(jù)庫,為植物的系統(tǒng)發(fā)育和分子標(biāo)記研究提供了重要的參考。本研究對山楂屬11個種的植物葉綠體基因組進行了系統(tǒng)發(fā)育與密碼子偏好性分析,對于深入研究山楂屬植物的進化關(guān)系具有一定的意義。本研究選取了山楂屬11個種的植物葉綠體基因組進行分析,結(jié)果顯示,山楂屬植物的葉綠體基因組結(jié)構(gòu)保守,葉綠體基因組長度變異較小,未發(fā)現(xiàn)任何基因組倒置和重排現(xiàn)象,這與懸鉤子屬植物葉綠體基因組的情況相似[36],但在樟科植物的研究中發(fā)現(xiàn),IR區(qū)存在著部分基因重排現(xiàn)象[37],這與本研究的結(jié)果存在一定的差異。重復(fù)序列包含植物體的重要進化信息,是控制植物體生長發(fā)育的重要部分,重復(fù)序列的差異會對植物的遺傳發(fā)育產(chǎn)生重要影響[38],對所選取的山楂屬植物的離散重復(fù)序列進行分析,發(fā)現(xiàn)正向重復(fù)序列、回文重復(fù)序列、反向重復(fù)序列3種離散重復(fù)序列在山楂屬11個種植物中均有分布,而互補重復(fù)序列在C. maximowiczii與C. bretschneideri中并未檢測出,推斷C. maximowiczii與C. bretschneideri在系統(tǒng)發(fā)育關(guān)系上可能存在著一定的相似性,這種推斷與本研究中2種系統(tǒng)進化樹展現(xiàn)的系統(tǒng)發(fā)育關(guān)系也相吻合。
分子進化中性理論認為,基因的堿基突變對密碼子的影響是中性的或近似中性的[39]。但如果基因組的密碼子受到外界環(huán)境選擇的影響,則會導(dǎo)致密碼子的使用和堿基組成出現(xiàn)偏向性[40]。本研究中選取的山楂屬植物葉綠體基因組密碼子的GC12與 GC3的相關(guān)系數(shù)為0.324~0.525,相關(guān)性均未達到顯著水平(P>0.05),GC12與GC3之間相關(guān)性較弱,山楂屬植物葉綠體基因組密碼子的第一、第二位堿基與第3位堿基差異較大,說明選擇壓力對其密碼子有著非常大的影響,而ENC-plot和PR2-plot繪圖分析結(jié)果也表明,山楂屬植物葉綠體基因組的密碼子受選擇壓力的影響較大。綜合以上分析可以看出,本研究中的山楂屬植物密碼子使用受自然選擇因素的影響遠大于堿基突變,而影響密碼子使用偏好性的主要因素在不同植物物種中也可能存在差異。對應(yīng)性分析結(jié)果顯示,遺傳系統(tǒng)相關(guān)基因與保守性開放閱讀框2種功能的基因呈現(xiàn)出相似的密碼子使用偏性,而其余3種功能基因的密碼子偏好性存在較大差異,推測這3種功能基因的密碼子偏好性可能受到多種因素的共同影響。另外,本研究在山楂屬11個物種中篩選得到17~20個最優(yōu)密碼子,在這11個物種中,均以A、U作為結(jié)尾的最優(yōu)密碼子數(shù)量最多,這一結(jié)果與烏頭屬植物[41]和睡蓮屬植物[42]的情況相似。分析其共有密碼子發(fā)現(xiàn),其共有最優(yōu)密碼子有13個,且均以A和U作為結(jié)尾,所有物種中均未發(fā)現(xiàn)以G作為末位堿基的最優(yōu)密碼子。最優(yōu)密碼子的篩選結(jié)果可以為后續(xù)山楂屬植物的遺傳育種工作提供重要的參考依據(jù)。
基于CDS和葉綠體全基因組構(gòu)建的2種系統(tǒng)發(fā)育樹展現(xiàn)出來的系統(tǒng)發(fā)育關(guān)系具有相似性,這也說明了編碼蛋白質(zhì)氨基酸序列的堿基突變與生物的進化歷程存在一定聯(lián)系,基于葉綠體基因組CDS的系統(tǒng)發(fā)育關(guān)系能在一定程度上對物種的系統(tǒng)發(fā)育關(guān)系和生物進化歷程進行補充。但C. cuneata、C. hupehensis、C. pinnatifida和C. scabrifolia在2種系統(tǒng)發(fā)育樹中的位置存在一定的差別,推測可能是其存在較為特殊的生物進化歷程或非編碼區(qū)堿基序列存在較大差異所導(dǎo)致的。此外,本研究也對山楂屬植物的簡單重復(fù)序列進行了鑒定和分析,可以為后續(xù)山楂屬植物的分子標(biāo)記研究提供一定的參考??傊狙芯繉ι介珜?1個種植物的葉綠體基因組特征、密碼子偏好性及系統(tǒng)發(fā)育關(guān)系進行了分析,對后續(xù)山楂屬植物密碼子優(yōu)化、基因組改造以及探索其系統(tǒng)進化關(guān)系和增加外源基因表達量具有重要的參考價值。
本研究使用生物信息學(xué)手段,對山楂屬植物葉綠體基因組進行分析,發(fā)現(xiàn)山楂屬植物葉綠體基因組結(jié)構(gòu)保守,未發(fā)現(xiàn)基因倒置和重排現(xiàn)象,邊界擴張收縮幅度小,長度變異保守。對其簡單重復(fù)序列與離散重復(fù)序列進行鑒定,重復(fù)序列的種類和數(shù)量存在一定的差異。對其密碼子偏好性進行分析,結(jié)果顯示,選擇壓力均對其密碼子偏好性產(chǎn)生深刻的影響,篩選得到的最優(yōu)密碼子數(shù)量為17~20個,使用山楂屬11個種植物的葉綠體全基因組和CDS分別構(gòu)建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)這2種山楂屬系統(tǒng)發(fā)育樹展現(xiàn)出的系統(tǒng)發(fā)育關(guān)系存在一定相似性。
參考文獻:
[1] 費開偉.讀山楂種質(zhì)資源專著——《中國果樹志·山楂卷》[J].園藝學(xué)報,1998 (1):103.
[2] DEKIC V, RISTIC N, DEKIC B, et al. Phenolic and flavonoid content and antioxidant evaluation of hawthorn (Crataegus monogyna Jacq.) fruits and leaves extracts[J]. Bulletin of Natural Sciences Research, 2020, 10(1): 20-25.
[3] LISTON A, WEITEMIER K A, LETELIER L, et al. Phylogeny of Crataegus (Rosaceae) based on 257 nuclear loci and chloroplast genomes: evaluating the impact of hybridization[J]. PeerJ, 2021, 9: e12418.
[4] CHEN X L, ZHOU J G, CUI Y X, et al. Identification of Ligularia herbs using the complete chloroplast genome as a super-barcode[J]. Frontiers in Pharmacology, 2021, 9: 695.
[5] LI J, LI H Y, ZHI J K, et al. Codon usage of expansin genes in Populus trichocarpa[J]. Current Bioinformatics, 2017, 12(5): 452-461.
[6] MORALES-BRIONES D F, KADEREIT G, TEFARIKIS D T, et al. Disentangling sources of gene tree discordance in phylogenomic data sets: testing ancient hybridizations in Amaranthaceae sl[J]. Systematic Biology, 2021, 70(2): 219-235.
[7] CHAKRABORTY S, YENGKHOM S, UDDIN A. Analysis of codon usage bias of chloroplast genes in Oryza species[J]. Planta, 2020, 252(4): 1-20.
[8] TANG D F, WEI F, CAI Z Q, et al. Analysis of codon usage bias and evolution in the chloroplast genome of Mesona chinensis Benth[J]. Development Genes and Evolution, 2021, 231(1): 1-9.
[9] 王存堂,李子鈺,張福娟,等.山楂屬果實不同組織乙醇提取物的抗氧化成分及性能研究[J].食品與發(fā)酵工業(yè),2021,47(16):117-122.
[10]AIERKEN A, BUCHHOLZ T, CHEN C, et al. Hypoglycemic effect of hawthorn in type II diabetes mellitus rat model[J]. Journal of the Science of Food and Agriculture, 2017, 97(13), 4557-4561.
[11]MIN Q, BAI Y T, ZHANG Y C, et al. Hawthorn leaf flavonoids protect against diabetes-induced cardiomyopathy in rats via PKC-α signaling pathway[J]. Evidence-Based Complementary and Alternative Medicine, 2017. https://doi.org/10.1155/2017/2071952.
[12]張浣悠,鄧秩童,黃嘉泳,等.山楂黃酮的保健功效及提取工藝研究進展[J].食品研究與開發(fā),2021,42(12):212-217.
[13]張 梟,杜 瀟,孫馨宇,等.利用SSR標(biāo)記構(gòu)建部分山楂資源的基因身份證[J].沈陽農(nóng)業(yè)大學(xué)學(xué)報,2021,52(2):153-159.
[14]WU X E, LUO D L, ZHANG Y M, et al. Comparative genomic and phylogenetic analysis of chloroplast genomes of hawthorn (Crataegus spp.) in southwest China[J]. Frontiers in Genetics, 2022, 13. https://doi.org/10.3389%2Ffgene.2022.900357.
[15]WU L W, CUI Y X, WANG Q, et al. Identification and phylogenetic analysis of five Crataegus species (Rosaceae) based on complete chloroplast genomes[J]. Planta, 2021, 254(1): 1-12.
[16]TAI T H, TANKSLEY S D. A rapid and inexpensive method for isolation of total DNA from dehydrated plant tissue[J]. Plant Molecular Biology Reporter, 1990, 8(4): 297-303.
[17]JIN J J, YU W B, YANG J B, et al. GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes[J]. Genome Biology, 2020, 21(1): 1-31.
[18]WICK R R, SCHULTZ M B, ZOBEL J, et al. Bandage: interactive visualization of de novo genome assemblies[J]. Bioinformatics, 2015, 31(20): 3350-3352.
[19]SHI L C, CHEN H M, JIANG M, et al. CPGAVAS2, an integrated plastome sequence annotator and analyzer[J]. Nucleic acids research, 2019, 47(W1): 65-73.
[20]KEARSE M, MOIR R, WILSON A, et al. Geneious basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data[J]. Bioinformatics, 2012, 28(12): 1647-1649.
[21]王 瑞,歐金梅,李 昕,等.基于簡單重復(fù)序列標(biāo)記的藥用梅品種的身份證構(gòu)建[J].安徽中醫(yī)藥大學(xué)學(xué)報,2020,39(6):62-67.
[22]BEIER S, THIEL T, MüNCH T, et al. MISA-web: a web server for microsatellite prediction[J]. Bioinformatics, 2017, 33(16): 2583-2585.
[23]KURTZ S, SCHLEIERMACHER C. REPuter: fast computation of maximal repeats in complete genomes[J]. Bioinformatics (Oxford, England), 1999, 15(5): 426-427.
[24]XIA E H, TONG W, WU Q, et al. Tea plant genomics: achievements, challenges and perspectives[J]. Horticulture research, 2020, 7. https://doi.org/10.1038/s41438-019-0225-4.
[25]梁鳳萍,文祥寧,高赫一,等.菊科植物葉綠體基因組特征分析[J].基因組學(xué)與應(yīng)用生物學(xué),2018,37(12):5437-5447.
[26]DARLING A C, MAU B, BLATTNER F R, et al. Mauve: multiple alignment of conserved genomic sequence with rearrangements[J]. Genome Research, 2004, 14(7): 1394-1403.
[27]WALDVOGEL A M, PFENNINGER M. Temperature dependence of spontaneous mutation rates[J]. Genome Research, 2021, 31(9): 1582-1589.
[28]DE OLIVEIRA J L, MORALES A C, Hurst L D, et al. Inferring adaptive codon preference to understand sources of selection shaping codon usage bias[J]. Molecular Biology and Evolution, 2021,38(8):3247-3266.
[29]XING Y P, XU L, CHEN S Y, et al. Comparative analysis of complete chloroplast genomes sequences of Arctium lappa and A.tomentosum[J]. Biologia Plantarum, 2019,63(1): 565-574.
[30]DUAN H R, ZHANG Q, WANG C M, et al. Analysis of codon usage patterns of the chloroplast genome in Delphinium grandiflorum L. reveals a preference for AT-ending codons as a result of major selection constraints[J]. PeerJ, 2021, 9:e10787.
[31]KATOH K, STANDLEY D M. MAFFT multiple sequence alignment software version 7: improvements in performance and usability[J]. Molecular Biology and Evolution, 2013, 30(4): 772-780.
[32]CAPELLA-GUTI?RREZ S, SILLA-MARTíNEZ J M, GABALDóN T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses[J]. Bioinformatics, 2009,25(15):1972-1973.
[33]LI W, ZHANG C P, GUO X, et al. Complete chloroplast genome of Camellia japonica genome structures, comparative and phylogenetic analysis[J]. PLoS One, 2019, 14(5): e0216645.
[34]MENSAH R A, SUN X, CHENG C, et al. Analysis of codon usage pattern of banana basic secretory protease gene[J]. Plant Diseases and Pests, 2019, 10(1): 1-9.
[35]童一涵,鄭 倩,杜新明,等. 多齒紅山茶葉綠體基因組序列特征分析[J]. 植物資源與環(huán)境學(xué)報,2022,31(5):27-36.
[36]于麗平,孫孟濤,賀志敏,等. 川莓和峨眉懸鉤子葉綠體比較基因組學(xué)及其系統(tǒng)發(fā)育關(guān)系分析[J].分子植物育種, 2022. http://kns.cnki.net/kcms/detail/46.1068.S.20220729.1007.004.html.
[37]田永靖. 樟科植物比較葉綠體基因組與系統(tǒng)發(fā)育研究[D]. 南京: 南京大學(xué), 2021.
[38]KELLER J, ROUSSEAU-GUEUTIN M, MARTIN G E, et al. The evolutionary fate of the chloroplast and nuclear rps16 genes as revealed through the sequencing and comparative analyses of four novel legume chloroplast genomes from Lupinus[J]. DNA Research, 2017, 24(4): 34.
[39]ZHANG R Z, ZHANG L, WANG W, et al. Differences in codon usage bias between photosynthesis-related genes and genetic system-related genes of chloroplast genomes in cultivated and wild solanum species[J]. International Journal of Molecular Sciences, 2018, 19(10): 3142.
[40]LIU H B, LU Y Z, LAN B L, et al. Codon usage by chloroplast gene is bias in Hemiptelea davidii[J]. Journal of Genetics, 2020, 99(1): 1-11.
[41]樊東昌,穆贏通,賈俊英,等. 烏頭屬藥用植物葉綠體基因組密碼子特征和系統(tǒng)發(fā)育分析[J].分子植物育種, 2022. http://kns.cnki.net/kcms/detail/46.1068.S.20220711.1339.002.html.
[42]毛立彥,黃秋偉,龍凌云,等. 7種睡蓮屬植物葉綠體基因組密碼子偏好性分析[J].西北林學(xué)院學(xué)報,2022,37(2):98-107.
(責(zé)任編輯:陳海霞)