孫月琪, 李密密, 周義峰
〔1. 南京林業(yè)大學(xué)林草學(xué)院、水土保持學(xué)院, 江蘇 南京 210037; 2. 江蘇省中國科學(xué)院植物研究所(南京中山植物園) 江蘇省植物資源研究與利用重點實驗室, 江蘇 南京 210014〕
葉綠體是綠色植物和藻類等真核自養(yǎng)生物特有的細胞器,為光合作用和生物合成的重要場所,能夠為植物生長提供有機物和能量[1-2]。與體細胞基因組相比,葉綠體基因組的拷貝數(shù)非常高,且具有較保守的環(huán)狀結(jié)構(gòu);由于結(jié)構(gòu)簡單、相對分子質(zhì)量小、進化速率中等、突變率較低、單親遺傳等特征,葉綠體基因組在植物系統(tǒng)發(fā)育研究領(lǐng)域發(fā)揮著重要的作用[3-4]。現(xiàn)今,NCBI數(shù)據(jù)庫已經(jīng)收錄了多種植物葉綠體基因組數(shù)據(jù),且葉綠體基因組的相關(guān)研究涉及葉綠體遺傳工程、植物系統(tǒng)進化[5]及近緣物種鑒定和遺傳多樣性分析[6]等領(lǐng)域。
密碼子是連接DNA和蛋白質(zhì)的橋梁,在蛋白質(zhì)翻譯過程中,作為序列單位和重要元件進行遺傳信息的傳遞[7]。編碼同一氨基酸的多個密碼子互為同義密碼子,各同義密碼子在編碼蛋白質(zhì)時被使用的頻率不同,這種現(xiàn)象被稱為密碼子使用偏性(codon usage bias,CUB)[8],這是生物為適應(yīng)環(huán)境而表現(xiàn)出的進化行為[9]。針對密碼子使用偏性產(chǎn)生了一系列的理論和假說,中性理論和選擇-突變-漂移平衡理論是其中的2個經(jīng)典理論[10]。中性理論認為密碼子的選定僅與突變有關(guān),不受自然選擇的影響;而選擇-突變-漂移平衡理論認為突變的發(fā)生是有方向的,密碼子使用偏性受選擇、突變和漂移的共同影響。密碼子使用偏性不僅在物種和種群間存在差異,也在基因間存在差異,并且不由單一因子決定。研究表明:密碼子使用偏性不僅受自然選擇、突變和漂移的影響,還受基因表達水平、基因長度、tRNA豐度等的影響[11]。密碼子使用偏性研究被廣泛應(yīng)用于各個領(lǐng)域,如基因結(jié)構(gòu)和功能分析,動植物、微生物和病毒的蛋白質(zhì)表達等[12]。分析植物葉綠體基因組密碼子使用偏性可以揭示物種的進化關(guān)系;確定植物葉綠體基因組最優(yōu)密碼子可以提高基因表達效率;探究植物葉綠體基因組密碼子的使用模式及其影響因子,能夠為基因工程的載體選擇和基因表達提供理論依據(jù),對于物種進化和遺傳研究具有重要意義[13-14]。
珊瑚菜(GlehnialittoralisF. Schmidt ex Miq.)隸屬于傘形科(Apiaceae)珊瑚菜屬(GlehniaF. Schmidt ex Miq.),為多年生草本植物。珊瑚菜的根是一種著名的傳統(tǒng)中藥材原料,俗稱“北沙參”[15-16]。北沙參在中國的藥用歷史悠久,與人參、玄參、丹參、黨參并稱為“五參”,有養(yǎng)陰清肺、益胃生津、化痰止咳等療效[17],在調(diào)節(jié)免疫功能、抗腫瘤和降血糖等方面具有明顯功效[18]。珊瑚菜野生資源分布相對分散,地理分布區(qū)狹窄,只在近海沙灘生長,由于過度開發(fā)利用和生態(tài)環(huán)境破壞,加之自然繁殖率較低[19],珊瑚菜野生資源已受到嚴重威脅,被國家林業(yè)和草原局列為國家二級重點保護野生植物(http:∥www.forestry.gov.cn/c/www/lczc/10746.jhtml)。葉綠體基因組研究可為珊瑚菜的分子遺傳和系統(tǒng)進化分析提供參考依據(jù),從而對其進行更有效的保護和利用。目前,珊瑚菜葉綠體基因組的測序工作已經(jīng)完成,但關(guān)于珊瑚菜葉綠體基因組密碼子使用偏性的研究尚未見報道。因此,本研究對珊瑚菜葉綠體基因組的密碼子使用偏性進行分析,并探究密碼子使用偏性的影響因子,確定最優(yōu)密碼子,以期為后續(xù)珊瑚菜葉綠體基因組的相關(guān)研究提供重要信息,并為珊瑚菜基因功能和蛋白表達的進一步研究及其基因改良和優(yōu)良性狀優(yōu)化提供科學(xué)依據(jù)。
珊瑚菜新鮮葉片采自浙江省寧波市象山縣鶴浦鎮(zhèn)大沙沙灘,硅膠干燥保存,利用多糖多酚植物基因組DNA提取試劑盒(上海浦迪生物科技有限公司)提取總DNA,送至北京諾禾致源科技股份有限公司,采用Illumina HiSeq 2500高通量測序平臺進行測序,對測序結(jié)果進行組裝、注釋,并將結(jié)果提交至NCBI數(shù)據(jù)庫。為保證結(jié)果的準確性和可比性,剔除長度小于300 bp的序列和重復(fù)序列。
1.2.1 密碼子相關(guān)參數(shù)計算 參考文獻[20],使用EMBOSS在線程序CUSP(http:∥emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計算密碼子總GC含量(GCall),密碼子第1、第2和第3位堿基的GC含量(分別為GC1、GC2和GC3)以及密碼子第3位堿基上的A、T(U,下同)、C、G含量(分別為A3、T3、C3、G3);使用Codon W1.4.2軟件[21]計算葉綠體基因組的有效密碼子數(shù)(ENC)、密碼子適應(yīng)指數(shù)(CAI)、密碼子偏好指數(shù)(CBI)、最優(yōu)密碼子使用頻率(FOP)、相對同義密碼子使用度(RSCU)。若RSCU值等于1,說明該密碼子沒有使用偏性;若RSCU值大于1,說明該密碼子使用偏性較強;若RSCU值小于1,說明該密碼子使用偏性較弱[22]。使用SPSS 19.0軟件進行相關(guān)性分析。
1.2.2 中性繪圖分析 以各基因的GC3值為橫坐標、密碼子第1和第2位堿基GC含量的均值(GC12)為縱坐標繪制散點圖[23],分析二者的相關(guān)性。若回歸系數(shù)接近1,說明該基因受突變影響較大,反之則說明該基因受自然選擇影響較大[24]。
1.2.3 PR2-plot分析 以各基因的G3/(G3+C3)為橫坐標、A3/(A3+T3)為縱坐標繪制散點圖[25]。若基因均勻位于2條中心線上或附近,說明4種堿基的使用頻率相等或相近,表示密碼子使用偏性僅受突變的影響;若基因距離2條中心線較遠,說明4種堿基的使用頻率相差較大,表示密碼子使用偏性受自然選擇和突變的共同影響[26]。
1.2.5 對應(yīng)性分析 按照基因功能將所有基因分為5類,基于RSCU值將各基因分布在多維空間中,以第1軸為橫坐標、第2軸為縱坐標繪制散點圖進行對應(yīng)性分析[29]。
1.2.6 最優(yōu)密碼子的確定 RSCU值大于1的密碼子為高頻密碼子[28];對ENC值按照升序排列,分別將排列在前、后10%的基因建立高、低表達組,高、低表達組的RSCU差值(ΔRSCU)大于或等于0.08的密碼子為高表達密碼子[30]。既屬于高頻密碼子又屬于高表達密碼子的密碼子則為最優(yōu)密碼子[31]。
2.1.1 堿基組成及表達特征分析 珊瑚菜葉綠體基因組(登錄號:OQ863734.1)大小為147 507 bp,經(jīng)注釋后獲得84個蛋白質(zhì)編碼基因,最終篩選得到51個符合條件的蛋白質(zhì)編碼基因,這些基因的密碼子堿基組成和表達特征見表1。
表1 珊瑚菜葉綠體基因組密碼子的堿基組成和表達特征1)Table 1 Base composition and expression characteristics of codons in chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.1)
由表1可見:珊瑚菜葉綠體基因組密碼子第1、第2、第3位堿基的GC含量及總GC含量(分別為GC1、GC2、GC3和GCall)的均值分別為47.6%、39.8%、29.2%和38.8%,GC3值明顯低于GC1和GC2值,說明密碼子第3位堿基的組成與前2位堿基差異大,密碼子相對保守;密碼子不同位置堿基的GC含量均小于50%,說明珊瑚菜葉綠體基因組密碼子偏好使用A或U,且第3位堿基比第1、第2位堿基更偏好使用A或U。
由表1還可見:珊瑚菜葉綠體基因組的有效密碼子數(shù)(ENC)介于34.6~54.5之間,均值為48.1,除rps8基因外,其他50個基因的ENC值均大于35;密碼子適應(yīng)指數(shù)(CAI)介于0.100~0.270之間,均值為0.168;密碼子偏好指數(shù)(CBI)介于-0.190~0.226之間,均值為-0.090;最優(yōu)密碼子使用頻率(FOP)介于0.276~0.550之間,均值為0.356。以上結(jié)果均表明珊瑚菜葉綠體基因組密碼子使用偏性較弱。
2.1.2 相關(guān)性分析 珊瑚菜葉綠體基因組密碼子使用偏性相關(guān)指標的相關(guān)性分析結(jié)果(表2)顯示:GC1值與GC2值極顯著(P<0.01)正相關(guān),而GC3值與GC1和GC2值均無顯著(P>0.05)相關(guān)性,說明珊瑚菜葉綠體基因組密碼子第1和第2位堿基之間差異較小,而前2位與第3位堿基差異較大;CC1、CG2、CG3值均與GCall值極顯著正相關(guān);ENC值僅與GC3值極顯著正相關(guān),說明密碼子第3位堿基組成對密碼子使用偏性的影響較大;此外,GCall值與ENC、CAI、CBI和FOP值均顯著(P<0.05)或極顯著正相關(guān),GC1值與CAI、CBI和FOP值極顯著正相關(guān),GC2值與CBI和FOP值顯著正相關(guān),GC3值與CBI和FOP值極顯著正相關(guān),說明密碼子堿基組成對密碼子使用偏性影響較大,特別是第3位堿基的組成對密碼子使用偏性影響較大。
表2 珊瑚菜葉綠體基因組密碼子使用偏性相關(guān)指標的相關(guān)性分析1)Table 2 Correlation analysis of related indexes of codon usage bias of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.1)
2.1.3 相對同義密碼子使用度(RSCU)分析 RSCU分析結(jié)果(表3)顯示:RSCU值大于1的密碼子有30個,表明這30個密碼子的使用偏性較強,為高頻密碼子,占密碼子總數(shù)的46.9%,其中,除AUC和UUG外,其余密碼子均以A(13個)或U(15個)結(jié)尾。
表3 珊瑚菜葉綠體基因組相對同義密碼子使用度分析1)Table 3 Analysis on relative synonymous codon usage of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.1)
中性繪圖分析結(jié)果(圖1)顯示:珊瑚菜葉綠體基因組密碼子第1和第2位堿基GC含量的均值(GC12)為32.4%~51.5%,密碼子第3位堿基的GC含量(GC3)為18.6%~37.3%,且所有基因均處于對角線上方。GC12值與GC3值的回歸系數(shù)為0.301 2,且二者無顯著(P>0.05)相關(guān)性,表明密碼子第1和第2位堿基與第3位堿基的GC含量差異較大,說明突變對珊瑚菜葉綠體基因組密碼子使用偏性的影響較弱。
GC3: 密碼子第3位堿基的GC含量GC content of the third base of codon; GC12: 密碼子第1和第2位堿基GC含量的均值Mean of GC content of the first and second bases of codon.圖1 珊瑚菜葉綠體基因組中性繪圖分析Fig.. 1 Neutral mapping analysis of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.
PR2-plot分析結(jié)果(圖2)顯示:珊瑚菜葉綠體基因組各基因所在位置與2條中心線的距離差異較大,且在4個平面區(qū)域中并非均勻分布,多數(shù)分布在右下角區(qū)域,由此看出,密碼子第3位堿基的使用頻率為T大于A、G大于C。說明珊瑚菜葉綠體基因組密碼子使用偏性同時受突變和自然選擇的影響,且受自然選擇影響更大。
G3,C3,A3,T3: 分別為密碼子第3位堿基的G、C、A、T含量Contents of G,C,A and T of the third base of codon, respectively.圖2 珊瑚菜葉綠體基因組PR2-plot分析Fig.. 2 PR2-plot analysis of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.
結(jié)果(圖3和表4)顯示:珊瑚菜葉綠體基因組中大多數(shù)基因的有效密碼子數(shù)(ENC)大于35,集中在40~55之間,多數(shù)分布在標準曲線下方,表明珊瑚菜葉綠體基因組密碼子使用偏性受突變的影響較小。分析ENC比值分布發(fā)現(xiàn),14個基因分布在[-0.05, 0.05)區(qū)間,位于標準曲線附近,即ENC實際值(ENCact)與期望值(ENCexp)較接近,說明這些基因的密碼子受突變的影響較大;37個基因分布在[-0.05, 0.05)區(qū)間外,且與標準曲線的距離均較遠,即ENCact值與ENCexp值差距較大,說明這些基因的密碼子使用偏性較強,受自然選擇的影響較大。以上結(jié)果表明:珊瑚菜葉綠體基因組密碼子使用偏性除受突變的影響外,更多受到自然選擇的影響。
GC3: 密碼子第3位堿基的GC含量GC content of the third base of codon; ENC: 有效密碼子數(shù)Effective number of codon.圖3 珊瑚菜葉綠體基因組ENC-plot分析Fig.. 3 ENC-plot analysis of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.
表4 珊瑚菜葉綠體基因組有效密碼子數(shù)(ENC)比值分布Table 4 Distribution of ratio of effective number of codon (ENC) in chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.
基于相對同義密碼子使用度(RSCU)的對應(yīng)性分析結(jié)果(圖4)顯示:第1和第2軸的貢獻率分別為10.30%和8.74%。按照基因功能將所有基因分為5類,分別為遺傳系統(tǒng)基因(4個)、核糖體蛋白基因(14個)、光合系統(tǒng)基因(25個)、其他蛋白基因(5個)和保守開放閱讀框(3個)。不同功能的基因分布較分散,說明這些基因密碼子的使用模式相差較大,其密碼子使用偏性可能受到多種因子的影響。
●: 遺傳系統(tǒng)基因Genetic system gene; ○: 核糖體蛋白基因Ribosomal protein gene; ▲: 光合系統(tǒng)基因Photosynthetic system gene; △: 其他蛋白基因Other protein gene; ■: 保守開放閱讀框Conserved open reading frame. 括號中百分數(shù)為貢獻率The percentages in brackets are the contribution rates.圖4 珊瑚菜葉綠體基因組對應(yīng)性分析Fig. 4 Correspondence analysis of chloroplast genome of Glehnia littoralis F. Schmidt ex Miq.
結(jié)果(表5)顯示:高、低表達組的RSCU差值(ΔRSCU)大于或等于0.08的密碼子有27個,其中1個為終止密碼子,因此高表達密碼子為26個,以A和U結(jié)尾的分別有8和10個。以既是高頻密碼子又是高表達密碼子為依據(jù)共確定了16個最優(yōu)密碼子,分別為GCU、GCA、CGA、UGU、CAA、GGU、AAA、UUA、CUU、UUU、CCU、CCA、UCU、ACU、GUU和GUA,其中7個以A結(jié)尾,9個以U結(jié)尾。說明珊瑚菜葉綠體基因組密碼子偏好以A或U結(jié)尾。
密碼子使用偏性與GC含量密切相關(guān)[32]。密碼子第1和第2位堿基的突變通常為非同義突變,突變率較低,密碼子第3位堿基的突變通常為同義突變,因此,密碼子第3位堿基的組成可以作為分析密碼子使用偏性的主要依據(jù)[33]。本研究發(fā)現(xiàn),珊瑚菜葉綠體基因組密碼子3個位置堿基的GC含量不同,表現(xiàn)為密碼子第1位堿基的GC含量(GC1)大于密碼子第2位堿基的GC含量(GC2),二者均大于密碼子第3位堿基的GC含量(GC3),GC1值與GC2值極顯著(P<0.01)正相關(guān),GC3值與GC1和GC2值無顯著(P>0.05)相關(guān)性,密碼子不同位置堿基的GC含量均小于50%,表明珊瑚菜葉綠體基因組密碼子偏好使用A或U,且第3位堿基比第1和第2位堿基更偏好使用A或U。而有效密碼子數(shù)(ENC)僅與GC3值極顯著相關(guān),表明GC3值對珊瑚菜葉綠體基因組密碼子使用偏性的影響較大。
ENC表示密碼子偏離隨機選擇的程度[34],是衡量密碼子使用偏性的重要指標。ENC值由20到61,表示密碼子使用偏性由強到弱[35],當(dāng)ENC值小于或等于35時,說明密碼子具有較強的使用偏性[36]。珊瑚菜葉綠體基因組ENC均值為48.13,除rps8基因的ENC值小于35外,其他50個基因的ENC值均大于35,表明珊瑚菜葉綠體基因組密碼子整體使用偏性較低。核糖體蛋白S8(RPS8)是小核糖體亞基中的一種蛋白質(zhì)[37],結(jié)構(gòu)較為保守。rps8基因在地理分布廣泛的被子植物中差異極小,說明該基因具有保守的DNA序列,在進化過程中受外部影響小[38]。珊瑚菜葉綠體基因組中rps8基因的GC含量保守性較高,受突變的影響較小,密碼子使用偏性較強,因此ENC值最低。
本研究結(jié)果顯示:珊瑚菜高頻密碼子和高表達密碼子主要以A或U結(jié)尾,最優(yōu)密碼子均以A或U結(jié)尾,說明珊瑚菜偏好使用A或U結(jié)尾的密碼子,這一結(jié)果與西藏凹乳芹(Vicatiathibeticade Boiss.)[39]和人參(PanaxginsengC. A. Meyer)[40]等的研究結(jié)果一致。一般來說,在較強的正向選擇和突變壓力的影響下,最優(yōu)密碼子數(shù)量相對較多;而在純化選擇下,最優(yōu)密碼子數(shù)量較少[41]。本研究共確定了16個珊瑚菜葉綠體基因組的最優(yōu)密碼子,數(shù)量較多,因此推測珊瑚菜葉綠體基因組可能處于正向選擇和突變壓力之下。不同物種的最優(yōu)密碼子及數(shù)量不同,說明不同物種在進化過程中受到的進化壓力有所不同。目前,已報道的多數(shù)高等植物和藻類植物葉綠體基因組的最優(yōu)密碼子大部分以A或U結(jié)尾[28-32,39-40,42],這種密碼子使用模式可能是由于葉綠體基因組中含有豐富的A或U,同時葉綠體基因組密碼子的使用偏性在進化關(guān)系上較為保守。
密碼子使用偏性表現(xiàn)出的基因和物種的特異性能夠影響基因的表達水平。一般來說,密碼子使用偏性越強,基因表達水平越高[43]。密碼子適應(yīng)指數(shù)(CAI)可以根據(jù)已知高表達基因的序列預(yù)估未知基因密碼子使用偏性程度,范圍為0~1,數(shù)值越大表示偏性越強[44];密碼子偏好指數(shù)(CBI)和最優(yōu)密碼子使用頻率(FOP)分別表示最優(yōu)密碼子子集在特定基因中的使用程度和基因中最優(yōu)密碼子占同義密碼子數(shù)量的比值,范圍均為0~1,當(dāng)最優(yōu)密碼子使用次數(shù)比平均使用次數(shù)還少時,CBI為負值[8]。本研究中,CAI、CBI和FOP的均值分別為0.168、-0.090和0.356,均表明珊瑚菜葉綠體基因組密碼子使用偏性較弱,基因表達也較弱;相關(guān)性分析中,密碼子不同位置堿基的GC含量與CAI、CBI和FOP值均有相關(guān)性,FOP、CAI、CBI值兩兩間均極顯著相關(guān),說明密碼子的堿基組成,特別是第3位堿基的組成對珊瑚菜葉綠體基因的表達有很大影響?;虮磉_受密碼子使用偏性調(diào)控,同時最優(yōu)密碼子的使用能夠提升翻譯的速率、效率和精確率[45]。因此,本研究中珊瑚菜葉綠體基因組中包含最優(yōu)密碼子的基因可能表現(xiàn)出較高的表達水平。
中性繪圖分析表明:GC1、GC2與GC3值的相關(guān)性未達到顯著水平,說明突變對密碼子使用偏性影響不大,密碼子使用偏性更多地受自然選擇的影響;ENC-plot和PR2-plot分析均表明珊瑚菜密碼子使用模式同時受到自然選擇和突變的共同影響,且受自然選擇影響較大;對應(yīng)性分析表明突變是影響珊瑚菜密碼子使用偏性的重要因子,但并不是惟一因子。綜合上述分析,影響珊瑚菜密碼子使用偏性的主要因子是自然選擇,這與西藏凹乳芹[39]和人參[40]等植物的研究結(jié)果一致。另有研究表明:澤芹屬(SiumLinn.)[46]和胡蘿卜(Daucuscarotavar.sativaHoffm.)[47]的葉綠體基因組密碼子使用偏性受突變的影響更大。在系統(tǒng)發(fā)育關(guān)系中,珊瑚菜與人參和西藏凹乳芹的親緣關(guān)系較近,而與滇西澤芹〔Siumventricosum(H.Boissieu) Li Song Wang et M.F. Watson〕和胡蘿卜的親緣關(guān)系較遠[48]。因此,可以推斷親緣關(guān)系較近的物種葉綠體基因組具有相似的密碼子使用偏性。
本研究在珊瑚菜葉綠體基因組中共篩選到51個蛋白質(zhì)編碼基因,密碼子3個位置的堿基組成具有不同的特征,第3位堿基的組成與第1和第2位堿基的組成差異較大,且第3位堿基的GC含量最低;珊瑚菜葉綠體基因組密碼子和最優(yōu)密碼子均偏好使用A或U,密碼子使用偏性較弱,基因表達也較弱;密碼子使用偏性受到突變和自然選擇的共同影響,且自然選擇發(fā)揮主要作用。另外,本研究缺乏珊瑚菜不同居群的密碼子使用偏性對比,導(dǎo)致研究結(jié)果不夠全面客觀,缺乏代表性,有待后續(xù)工作對珊瑚菜不同居群之間密碼子使用偏性進行對比分析及深入研究。