張冬冬, 韓宏偉, 余鎮(zhèn)藩, 曾斌*, 楊佳惠, 高雯雯, 馬昕彤
(1.新疆農(nóng)業(yè)大學(xué)園藝學(xué)院,烏魯木齊 830000; 2.新疆林業(yè)科學(xué)院經(jīng)濟林研究所,烏魯木齊 830000)
植物葉綠體基因組的比較研究,尤其是遺傳多樣性的探究,為植物物種的進化研究提供了重要途徑[1]。薔薇科包括蘋果、桃、草莓、玫瑰和月季等多種植物,它們具有重要經(jīng)濟、觀賞和食用價值,是林果和花卉生產(chǎn)上重要的類型[2-3]。葉綠體作為重要的細胞器,是植物進行光合作用的重要場所,為植物的生長提供有機物和能量[4-5]。盡管薔薇科植物種類繁多,但NCBI數(shù)據(jù)庫目前只有9個屬12種植物的葉綠體基因組被測序,它們在分類學(xué)水平上的進化特征和遺傳多樣性尚未研究清楚。
研究植物葉綠體基因組密碼子的使用模式有助于探索其分子適應(yīng)程度以及進化過程[6],因此,研究葉綠體基因組密碼子使用特征具有重要意義[7-8]。研究表明,不同程度的進化壓力使得葉綠體基因組密碼子的使用存在偏差[9-10]。此外,植物物種存在廣泛的多樣性是因為在葉綠體基因組中使用了偏好的遺傳密碼子[11-12]。近年來,葉綠體基因組密碼子的使用特征也被用于比較植物類群間的相關(guān)研究[13-14]。物種多樣性受到遺傳變異調(diào)控,為遺傳改良奠定了基礎(chǔ)。分析不同植物基因組的分子組成、密碼子使用模式以及它們之間的距離是研究植物遺傳多樣性的重要方法[15-16]。
本研究從分子水平上評價薔薇科植物葉綠體基因組密碼子的使用特征及其進化,利用生物信息學(xué)方法分析了12種薔薇科植物葉綠體基因組密碼子的使用特征,并進一步采用對應(yīng)分析、各基因密碼子使用模式多樣性和總標準差等方法探討了薔薇科植物葉綠體基因組特定基因的多樣性,為深入探究薔薇科植物進化規(guī)律奠定了基礎(chǔ)。
通過NCBI(https://www.ncbi.nlm.nih.gov/)數(shù)據(jù)庫搜索到12 種薔薇科植物的葉綠體基因組數(shù)據(jù),將這12 種薔薇科植物的葉綠體基因組作為研究對象,其名稱和登錄號如表1 所示。選擇葉綠體基因組中53 個特定基因進行比較,包括accD、atpA、atpB、atpE、atpF、atpI、ccsA、cemA、clpP、matK、ndhA、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK、petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD、rbcL、rpl14、rpl16、rpl2、rpl20、rpl22、rpoA、rpoB、rpoC1、rpoC2、rps11、rps12、rps14、rps18、rps2、rps3、rps4、rps7、rps8、ycf1、ycf2、ycf3和ycf4。參考文獻[17]選擇基因序列,標準為:編碼基因序列超過300 bp;從起始密碼子ATG開始;去除含模糊堿基的序列。
表1 本研究所收集的12種薔薇科葉綠體基因組Table 1 Chloroplast genomes of 12 Rosaceae collected in this study
根據(jù)perl 腳本計算每個基因的密碼子數(shù)量(codon number,CN)占比(codon proportion,CP)及密碼子第1、第2 和第3 位密碼子的GC 含量,分別記作GC1、GC2 和GC3,并計算密碼子的平均GC含量(GCall)、有效密碼子數(shù)(effective number of codon,ENC)、同義密碼子相對使用度(relative synonymous codon usage,RSCU)。ENC 是衡量同義密碼子使用偏度的重要指標,取值范圍為20~61,ENC 值從小到大表示偏倚性由強到弱[18-19]。RSCU 是指某一密碼子實際使用頻率與無使用偏性時理論頻率的比值,無偏性時,RSCU 為1;RSCU 小于1 則代表該密碼子的實際使用頻率低于其他同義密碼子,反之實際頻率高于其他同義密碼子[20-21]。計算公式如下。
式中,s為密碼子第3 位堿基中G 和C 的出現(xiàn)頻率。
以GC1和GC2的平均值GC12為縱坐標、GC3為橫坐標進行中性繪圖,每個散點代表1 個基因。若GC12 和GC3 顯著相關(guān),說明密碼子偏好性受突變影響較大;反之則說明影響密碼子偏好性的主要因素為選擇效應(yīng)[22]。
ENC-plot 分析可探討ENC 和GC3 的關(guān)系,是一種通過分析基因密碼子偏好性的圖像可視化方式。ENC-plot繪圖分析包含散點圖和標準曲線,其中標準曲線代表無選擇壓力存在時,密碼子偏好性由突變決定,即完全由核酸序列組成決定密碼子偏好性[23];散點圖則以ENC為縱坐標,GC3為橫坐標。
分析各密碼子第3位堿基上的A、T、C、G的含量,分別記作A3、T3、G3和C3。以A3/(A3+T3)為縱坐標、以G3/(G3+C3)為橫坐標進行PR2偏倚分析,用平面圖顯示各基因的堿基組成,其中心點代表無偏性使用時的密碼子狀態(tài),即A=T且C=G,而點與中心點的矢量距離代表其偏倚程度和方向[24-25]。
以葉綠體各基因的ENC 作為偏好性參考標準,從兩端各選擇10%的基因構(gòu)建高、低偏性庫,將兩庫間ΔRSCU≥0.08 的密碼子定義為高表達優(yōu)越密碼子[26];將RSCU 值大于1 的密碼子定義為高頻密碼子。將同時滿足高頻率密碼子和高表達優(yōu)越密碼子確定為最優(yōu)密碼子。
利用SPSS 16.0 基于RSCU 值進行聚類分析[27]。利用MEGA X 采用鄰接法(neighbor-joining method, NJ)基于53 個基因編碼序列和葉綠體基因組序列構(gòu)建系統(tǒng)進化樹[28]。
對12 種薔薇科植物葉綠體基因組分析結(jié)果(表2)表明,密碼子數(shù)量占比(CP)平均31.52%,變幅31.00%~32.00%。 其中,西府海棠(Malus micromalus)的密碼子數(shù)量占比較高,枇杷(Eriobotrya japonica)較低。不同類型堿基第3位的占比如下:T3 為27.80%~28.60%,C3 為45.00%~46.00%,A3 為37.00%~38.00%,G3 為29.00%~30.00%。GC1含量為46.86%~47.06%,GC2含量為39.34%~39.50%,GC3 含量為28.27%~28.61%,GCall 含量為36.54%~37.23%。綜上所述,12 種薔薇科植物葉綠體基因組密碼子數(shù)量占比、第3位密碼子堿基類型和GC含量等具有較高的保守性。
表2 12種薔薇科植物葉綠體基因組密碼子的參數(shù)特征Table 2 Parameter characteristics of codon in chloroplast genome of 12 rosaceae species(%)
12 種薔薇科植物葉綠體基因組的ENC 值為32.25~63.37,平均48.32(圖1),其中,枇杷(Eriobotrya japonica)最低(47.87),草莓(Fragaria x ananassa)最高(49.17),表明12種薔薇科植物葉綠體基因組整體上具有較弱的密碼子偏好性。此外,在53 個編碼基因中,rpl16的平均ENC 值為34.36,表明該基因相對其他基因具有更強的密碼子偏好性。
圖1 12種薔薇科植物葉綠體基因組的有效密碼子數(shù)Fig. 1 ENC of chloroplast genome of 12 Rosaceae plants
進一步對12 種薔薇科植物葉綠體基因組的CP、GC1、GC2、GC3、GCall 以及ENC 進行相關(guān)分析,結(jié)果(圖2)表明,GC1 和GC2 均與GCall 呈顯著正相關(guān);GC3 與GCall、GC1 與GC2 和GC3 呈較弱正相關(guān);CP 與GC1 和GC2 為負相關(guān)性,與GC3和ENC 呈較弱的正相關(guān);ENC 與GC1 呈較弱的正相關(guān),與GC2為負相關(guān),與GC3呈顯著正相關(guān)。
圖2 CN、GC1、GC2、GC3、GCall以及ENC之間相關(guān)性Fig. 2 Correlation between CN, GC1, GC2, GC3, GCall and ENC
以ENC 和GC3 繪制ENC-plot 圖分析53 個編碼基因在進化過程中的進化力。結(jié)果(圖3)表明,12種薔薇科植物葉綠體基因組中的53個編碼基因的ENC 值均大于30,大部分基因沿著標準曲線分布,ENC 值集中在40~50之間,且多數(shù)落于標準曲線下方,表明大部分基因的密碼子偏好性受到了選擇的影響。此外,PR2-plot分析結(jié)果(圖4)顯示,12 種薔薇科植物葉綠體基因組的rpl2、rpl14、rpl16、rpl20、rpl22、rps2、rps3、rps4、rps7、rps8、rps11、rps12、rps14和rps18基因的A3/(A3+T3)值均大于0.5,說明第3 位堿基中A 的占比較高;matK、petA、petB、petD、rpoA、rpoB、rpoC1、rpoC2、ycf1、ycf2、ycf3和ycf4基因的G3/(G3+C3)值均大于0.5,說明第3位堿基中G的占比較高。
圖3 葉綠體基因組中密碼子的ENC-plot分析Fig. 3 ENC-plot analysis of codons in chloroplast genome
圖4 葉綠體基因組中密碼子的PR2-plot分析Fig. 4 PR2-plot analysis of codons in chloroplast genome
利用中性繪圖分析12 種薔薇科植物葉綠體基因組密碼子偏好性,結(jié)果(圖5)表明,GC12 分布在0.3~0.6 之間,GC3 分布在0.2~0.4 之間,且GC12 與GC3 呈正相關(guān)關(guān)系。由此表明,GC3 和GC12 含量變異較小,具有更大的進化自由度,不受基因組總體組成的影響。
密碼子分析(圖6)表明,12種薔薇科植物葉綠體基因組中有69種密碼子高度保守。其中,64個密碼子的RSCU 值≥0.08,為高表達優(yōu)越密碼子;32個密碼子RSCU值≥1,為高頻密碼子,并且32個高頻密碼子中大部分以A/U(13/16)結(jié)尾,另有3個以G結(jié)尾的高頻密碼子UUG、AUG和UGG,表明以A/U 結(jié)尾密碼子的使用頻率更高。此外,AUA、AUC、CUG、GUG和UUG 的使用頻率為0。
圖6 12種薔薇科植物最優(yōu)密碼子分析Fig. 6 Optimal codon analysis of 12 Rosaceae species
基于12 種薔薇科植物葉綠體基因組密碼子使用特征RSCU值構(gòu)建進化樹,結(jié)果(圖7A)表明,12 種薔薇科植物被劃分成2 個類群,蘋果(Malus domestica)和扁桃(Prunus dulcis)屬一個類群;其他10 種薔薇科植物被劃分為另一個類群,此類群中西府海棠(Malus micromalus)與草莓(Fragaria ×ananassa)、木瓜(Chaenomeles sinensis)等9 個物種差異較大。利用12 種薔薇科植物的53 個基因序列和葉綠體基因組分別構(gòu)建系統(tǒng)進化樹,結(jié)果(圖7B 和C)表明,均將12 種薔薇科植物劃分為3 個類群,其中杏(Prunus armeniaca)和梅花(Prunus mume)各自為一個類群;其他10 種植物聚為一個類群,在此類群中,桃(Prunus persica)和扁桃(Prunus dulcis)的相似性較高,枇杷(Eriobotrya japonica)、西洋梨(Pyrus communis)、西府海棠(Malus micromalus)、蘋果(Malus domestica)和木瓜(Chaenomeles sinensis)的相似性較高。對基于3 種類型數(shù)據(jù)構(gòu)建的系統(tǒng)進化樹進行比較,基于53 個基因序列和基于葉綠體基因組構(gòu)建的進化樹兩者間高度相似,而與基于RSCU值構(gòu)建的系統(tǒng)進化樹差異較大。由此說明,序列的位點突變特征和非編碼區(qū)序列在生物體的進化過程中也具有重要的作用。
圖7 12種薔薇科植物的系統(tǒng)進化樹Fig. 7 Phylogenetic tree of 12 Rosaceae species
本研究利用NCBI 數(shù)據(jù)庫中12 種薔薇科植物的葉綠體基因組探究了薔薇科植物葉綠體基因組的密碼子使用特征,對探索薔薇科植物的物種進化具有重要意義,為薔薇科植物的分子育種提供了理論依據(jù)。
植物基因組中的GC 含量在決定堿基組成偏倚的影響方面起著重要作用[29-30]。本研究結(jié)果表明,12 種薔薇科植物葉綠體基因組的GC 含量在36.54%~37.23%,與大部分植物的葉綠體基因組35%~40%的GC 含量相符,也與木蘭科植物葉綠體基因組的GC 含量相似[31-32];且不同位置密碼子的GC 含量表現(xiàn)為GC1>GC2>GC3,即密碼子第3位堿基組成表現(xiàn)出顯著的A/T偏性,這與多種植物葉綠體基因組分析結(jié)果一致[33]。此外,薔薇科植物葉綠體基因組第3 位密碼子的GC 含量均小于第1 和第2 位密碼子,而擬南芥和毛果楊第3 位密碼子的GC 含量大于第2 位密碼子,且單子葉植物水稻和玉米第3 位密碼子的GC 含量均超過了65%,表明不同科屬植物在遺傳進化上密碼子使用模式具有較大差異[34]。中性分析結(jié)果表明,薔薇科植物具有較大的進化自由度,受基因組總體組成的影響較小。
12 種薔薇科植物葉綠體基因組中有69 個密碼子的使用模式高度保守,篩選到的32 個高頻密碼子主要以A/U 結(jié)尾,這與木蘭科和竹亞科等多種植物研究結(jié)果一致[35],說明薔薇科植物葉綠體基因組密碼子偏好使用A/U 結(jié)尾。PR2-plot分析結(jié)果表明,G 和C 的使用頻率高于A 和T,同時中性繪圖分析結(jié)果表明GC12 對GC3 的中性程度較弱。ENC-plot 分析結(jié)果顯示大部分基因位于標準曲線的下方。綜上所述,12 種薔薇科植物葉綠體基因組密碼子使用偏好性主要受自然選擇因素影響。有效密碼子數(shù)為32.25~63.37,平均有效密碼子數(shù)均大于47,高于參考標準35,說明12 種薔薇科植物葉綠體基因組密碼子的偏性較弱,與柿屬等多種植物葉綠體基因組偏性結(jié)果一致[36]。此外,12 種薔薇科植物基于RSCU 值構(gòu)建的系統(tǒng)進化樹與基于基因序列和基于葉綠體基因組序列構(gòu)建的進化樹差異較大,說明基于密碼子偏好特征的進化關(guān)系可能損失了一些信息。