李江飛,王 瑜,顏廷雨,汪啟波,陳 詩,蔡年輝,許玉蘭,唐紅燕
(1.西南林業(yè)大學(xué) a.云南省高校林木遺傳改良與繁育重點實驗室;b.西南山地森林資源保育與利用教育部重點實驗室,云南 昆明 650224;2.普洱市林業(yè)和草原科學(xué)研究所,云南 普洱 665099)
云南油杉keteleeria evelyniana屬于松科Pinaceae油杉屬Keteleeria常綠針葉樹種,高大喬木,樹高可達40 m,分布于我國云南、貴州西部及西南部海拔700~2 600 m 的地區(qū),地處南亞熱帶至中亞熱帶邊緣,是東南亞特有的松科孑遺植物,亦是云南重要的鄉(xiāng)土樹種,其木材結(jié)構(gòu)細(xì)密,物理性質(zhì)優(yōu)越,耐水濕、抗腐性好,易加工,是良好的家具、建筑用材[1-3]。云南油杉作為西南地區(qū)風(fēng)景林樹種之一,具有良好的經(jīng)濟和生態(tài)效益[4]。
密碼子是識別和傳遞生物體遺傳信息的載體,在生物遺傳和變異中有著重要作用[5]。不同物種根據(jù)自身特有的進化方式,偏向于使用某一特定密碼子,從而形成該物種特有的使用模式[6],密碼子的使用模式會影響特定基因的功能和表達水平等[7]。密碼子偏好性跟基因的表達和性能相關(guān)聯(lián),基因表達性越高密碼子的偏好性越強,最優(yōu)密碼子出現(xiàn)頻率也越多,反之則表達性低,利用葉綠體基因組來完成功能基因的比較分析則成為當(dāng)前的難點和重點[8]。
葉綠體結(jié)構(gòu)的完整性是植物生長的前提,葉綠體亦是光合作用進行的場所,是陸地植物細(xì)胞中的重要的質(zhì)體類型,其葉綠體細(xì)胞器中有著獨特的遺傳復(fù)制規(guī)律[9-10]。葉綠體基因組作為植物特有的遺傳系統(tǒng),可獨立對基因進行轉(zhuǎn)錄和翻譯,有著分子量小、多拷貝、分子結(jié)構(gòu)相對較為保守、序列獲得容易、進化速率較快等特點,被廣泛運用于分子進化、植物多樣性、系統(tǒng)發(fā)育和DNA條碼開發(fā)等領(lǐng)域[11-13]。通過對葉綠體基因組中密碼子使用模式比較基因組學(xué)進行研究,能對選擇與目的基因契合度高的葉綠體基因進行轉(zhuǎn)化提供幫助,從而提高轉(zhuǎn)化效率,來促進目的基因的高效穩(wěn)定表達[14-15]、也能為揭示葉綠體分子的起源與進化提供參考依據(jù)?,F(xiàn)已在迎春櫻桃Prunusdiscoidea[16]、蒜頭果Malania oleifera[17]、杜仲Eucommia ulmoides Oliver[18]、薔薇科Rosaceae[19]等多種植物中開展關(guān)于葉綠體基因組密碼子偏好性的研究。目前,對云南油杉的研究主要在群落結(jié)構(gòu)特征及其多樣性分析[20]、外生菌根真菌多樣性[2]、苗木培育[21]等方面,雖有對云南油杉葉綠體基因組進行測序、拼裝和注釋,但尚未發(fā)現(xiàn)有關(guān)云南油杉葉綠體基因組密碼子偏好性方面的研究報道。因此,本研究對云南油杉葉綠體基因組密碼子的堿基組成以及密碼子使用偏性的影響因素進行分析,并篩選出云南油杉的最優(yōu)密碼子,旨在為云南油杉葉綠體基因組的應(yīng)用與研究提供參考依據(jù)。
從昆明西南林業(yè)大學(xué)采集新鮮健康的云南油杉嫩葉,放在液氮中帶回實驗室,并送到浙江優(yōu)諾金生物工程有限公司進行葉綠體基因組的測序;其結(jié)果提交至NCBI 數(shù)據(jù)庫中(GenBank 登錄號為MW043479),從中共獲得75 條CDS(coding DNA sequence,CDS)序列。為降低其誤差,將長度小于300 bp、重復(fù)的并且不是以ATG 為起始,以TAA、TAG、TGA 為結(jié)尾的序列剔除,處理后留存41 條基因序列,并用于后續(xù)分析[22-23]。
1.2.1 密碼子堿基組成分析
將挑選出的41 條CDS 整合到一個fasta 文件中,利用Codon W 1.4.2(http://codonw.sourceforge.net) 計算相對同義密碼子使用度(relative synonymous codon usage,RSCU),RSCU 值能反映密碼子的偏好性程度。當(dāng)RSCU=1 時,表明該密碼子沒有偏好性;當(dāng)RSCU>1 時,表示其密碼子的使用頻率比其他密碼子高,偏性強,反之亦然[24]。使用在線軟件CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)計算各個CDS密碼子第1 位、第2 位、第3 位堿基組成的GC 含量(分別用GC1,GC2,GC3表示)[25],以及其平均GC 含量(用GCall表示)等參數(shù)。
1.2.2 中性繪圖分析
以GC1和GC2的平均值為縱坐標(biāo)、以GC3為橫坐標(biāo)繪制的散點圖,剖析GC3與GC12的相關(guān)性,其中每個散點則代表1個基因。以此來判斷密碼子使用偏性受自然選擇及突變壓力的影響程度[19]。若GC3與GC12呈顯著相關(guān)關(guān)系,說明堿基組成無差異,突變是其主要影響因素;反之,則說明基因組中GC 含量有較高保守性,選擇對密碼子使用偏性有較大影響[26]。
1.2.3 ENC-plot 繪圖分析
ENC-plot 繪圖包含散點圖和標(biāo)準(zhǔn)曲線,以有效密碼 子數(shù)(ENC,effective number of codon) 為縱坐標(biāo),GC3為橫坐標(biāo)進行二維散點圖的繪制,ENC=2+GC3+29/(GC32+(1-GC3)2) 為標(biāo)準(zhǔn)曲線公式[27];散點圖可區(qū)分開密碼子使用偏性和基因堿基組成之間的關(guān)系。當(dāng)散點靠近標(biāo)準(zhǔn)曲線,表示堿基組成決定其密碼子偏好性,不會受到選擇影響;反之則說明密碼子的ENC 值較低,在基因表達水平上具有顯著性,密碼子偏好性較強[28]。20~61 之間為ENC 的取值范圍,其值越接近20偏性越強,當(dāng)ENC 值=61,則說明每個密碼子都被均勻使用[29]。
1.2.4 PR2-plot 偏倚分析
對各密碼子第3 位堿基上的A、T、G、C 含量進行分析,分別以G3/(G3+C3)、A3/(A3+T3),為橫縱坐標(biāo)進行繪圖分析[30],平面圖中心位置表示A=T 且C=G,即說明密碼子無偏性,其余點與中心點的矢量距離表示偏性程度和方向[31]。
1.2.5 最優(yōu)密碼子的確定
以云南油杉每個葉綠體基因的ENC 值為參考標(biāo)準(zhǔn),從兩端各選取10%的基因,建立高低表達庫,將高低偏性庫間同義密碼子相對使用度的差值(ΔRSCU)≥0.08的密碼子作為高表達密碼子[25];將RSCU 值>1 的密碼子作為高頻密碼子,同時滿足上述兩個條件的定義為最優(yōu)密碼子[31]。
1.2.6 對應(yīng)分析
對應(yīng)分析(Correspondence analysis,COA)被廣泛應(yīng)用于研究基因間密碼子使用變化的主要趨勢[32],根據(jù)基因不同功能進行分類,再使用Codon W 1.4.2 軟件進行對應(yīng)分析,基于59 個有義密碼子的使用情況(不包括AUG、UGG 和3 個終止密碼子)生成正交軸,第一軸(Axis)的占比表示密碼子使用的大部分變化,隨后的58 個軸表示變化量的減少的影響因素[33]。COA 可以檢測基因之間密碼子使用的差異,識別相關(guān)的密碼子及揭示影響密碼子使用模式的主要因素。
通過在線軟件CUSP 和Codon W 1.4.2 軟件分析云南油杉葉綠體基因中各基因的蛋白編碼序列,由表1可知:云南油杉葉綠體基因密碼子不同位置上的GC 平均含量為40.07%,GC1、GC2、GC3的GC 含量分別是49.65%、40.66%、29.79%,表明不同密碼子位置的GC 含量有差異,其分布頻率也會不同,各位置上的GC 含量平均值由高到低依次為第1 位>第2 位>第3 位,多數(shù)密碼子中第3 位密碼子的GC 含量顯著低于前兩位密碼子,說明云南油杉葉綠體編碼基因多為A/U(T)堿基。其ENC 均值為49.53,介于41.73~61.00 之間,41條CDS 密碼子中有35 條ENC 值>45;可推斷出其密碼子的偏性較弱。
云南油杉葉綠體基因組中密碼子參數(shù)相關(guān)性分析表明(表2),GC1、GC2與GCall在0.01 水平上達到極顯著相關(guān),GC3和GC1、GC2之間不存在相關(guān)性,表明密碼子第3 位堿基的組成存在差異性,其密碼子偏性受選擇影響較大。ENC與GC2為顯著相關(guān)(P<0.05),其相關(guān)系數(shù)為0.365,與GC1、GC3、GCall相關(guān)性不顯著,說明GC2的堿基組成會影響密碼子的偏向性。密碼子數(shù)與GC1、GC2和GCall顯著相關(guān),說明有效密碼子數(shù)會受到不同位置上密碼子的影響;密碼子數(shù)與ENC 之間不存在相關(guān)性,說明基因序列長度對密碼子偏好性影響較小。RSCU 分析表明(表3),有31 個密碼子RSCU>1,以A 和U 結(jié)尾的較多,其中以U 結(jié)尾的有16 個,以A 結(jié)尾的為13 個,有1 個以G 結(jié)尾,1 個以C 結(jié)尾,表明云南油杉葉綠體基因組傾向于以A 和U 結(jié)尾。
由中性繪圖分析(圖1)可知,0.345 0~0.522 2為GC1和GC2平均值GC12的取值范圍,0.231 3~0.409 6 為GC3的取值范圍,圖中各基因都分布在對角線的上方,GC12和GC3相關(guān)系數(shù)為-0.208,說明GC12和GC3的相關(guān)性不顯著,回歸系數(shù)為-0.206,說明云南油杉葉綠體基因組中GC12和GC3的相關(guān)性不高,其堿基組成存在差異,基因組中GC 含量較為保守,說明云南油杉葉綠體基因密碼子偏好更多的是受自然選擇的影響。
表1 云南油杉葉綠體基因組密碼子各位置的GC 含量及ENC 值?Table 1 GC proportions and ENC values of the CDS of K.evelyniana chloroplast genome
表2 云南油杉葉綠體基因組中相關(guān)參數(shù)的相關(guān)性分析?Table 2 Correlation analysis of related parameters of K.evelyniana chloroplast genome
云南油杉葉綠體基因組密碼子的ENC-plot 分析由圖2看出,在標(biāo)準(zhǔn)曲線周圍分布了云南油杉的部分基因,表明云南油杉的實際ENC 值與期望ENC 值接近,而大部分基因匯聚在了標(biāo)準(zhǔn)曲線下方,離曲線位置較近,表示云南油杉葉綠體基因組密碼子偏好性受突變影響較大。通過對ENC 比值進行計算(表4),ENC頻數(shù)比值分布在-0.05~0.05間的有21 個,其基因頻率占比51.2%,且與預(yù)期ENC 值較為接近,而有20 個基因則分布在這個區(qū)間以外,且離預(yù)期ENC 值較遠,表示離標(biāo)準(zhǔn)曲線較遠,表明云南油杉密碼子有較強的偏性,其偏好性主要受到突變的影響。
采用PR2-plot 軟件繪圖分析各編碼基因部分氨基酸A、G 和T、C 之間的關(guān)系,結(jié)果顯示(圖3),在4 個區(qū)域內(nèi)云南油杉葉綠體基因分布不均,且大部分基因分布在平面圖的右下方,這說明在堿基使用頻率上,4 個堿基使用頻率存在不一致性,即T>A,G>C;說明了在云南油杉葉綠體基因組密碼子使用模式上,其偏好性在受到選擇影響的同時亦會受到突變影響。
表3 云南油杉各氨基酸的RSCU 分析?Table 3 RSCU analysis of the amino acids of K.evelyniana
圖1 中性繪圖分析Fig.1 Neutral plotting analysis
圖2 ENC 與GC3 關(guān)聯(lián)分析Fig.2 The correlation of ENC and GC3
表4 ENC 比值頻數(shù)分布Table 4 Distribution of ENC ratios
圖3 PR2-plot 繪圖分析Fig.3 Analysis of PR2-plot
對41 條CDS 的ENC 值進行排序,從兩端各選出10%的基因創(chuàng)建高低表達庫,計算密碼子的RSCU 值、ΔRSCU 值,將同時滿足RSCU>1、ΔRSCU ≥0.08 兩個條件的密碼子確定為最優(yōu)密碼子,根據(jù)表3得出RSCU>1的高頻密碼子有31個;從表5可以看出,ΔRSCU ≥0.08 的密碼子有27 個,其中有7 個以U 結(jié)尾,有7 個以A 結(jié)尾,有8 個以C 結(jié)尾,有5 個以G 結(jié)尾;最終篩選出最優(yōu)密碼子共有15 個,為UUA、CUU、AUU、GUA、UCC、ACA、GCA、UAU、CAU、CAA、GAU、UGU、UGG、AGA、GGU,其中有7 個以U 結(jié)尾,有6 個以A 結(jié)尾,以G 和C 結(jié)尾的分別各有1 個。
表5 云南油杉葉綠體基因組最優(yōu)密碼子的確定?Table 5 Preferred codons in the chloroplast genome of K.evelyniana
基于云南油杉葉綠體基因的RSCU 值對應(yīng)分析表明(圖4),第1 軸存在16.57%的差異,第2軸存在15.93%的差異,第3 軸和第4 軸基因間的差異分別為7.68%、6.06%,累計差異為46.24%,第1 軸和第2 軸的差異水平均大于10%,說明第1軸和第2 軸均為云南油杉密碼子偏好的主要影響因素,第1 軸和第2 軸分別為選擇壓力和突變,其密碼子偏好受到選擇和突變等多種因素的共同影響;第1 軸為主向量軸,但與第2 軸變異水平無明顯差異,結(jié)果也表明該密碼子偏好影響因素不是單一的。為進一步揭示密碼子偏好的影響因素,對4 個向量軸與ENC、GC3進行相關(guān)性分析,相關(guān)系數(shù)為0.097、0.142,均無顯著相關(guān)關(guān)系,說明其影響因素不只有GC3,還受到其他因素影響?;诟骰蚍诸愐缘?、2 向量軸為橫縱坐標(biāo)作圖,由圖4看出,核糖體蛋白基因和光合系統(tǒng)基因集中分布于上半軸,說明該類基因的密碼子使用模式較為相似;遺傳系統(tǒng)基因分布較分散,說明該類基因的密碼子的偏好性是由多種因素決定的。
圖4 基于RSCU 的對應(yīng)性分析Fig.4 Correspondence analysis based on RSCU
同義密碼子的相應(yīng)分布顯示(圖5),以A、U 結(jié)尾的密碼子和以G、C 結(jié)尾的密碼子均沿主軸分布,A、U 結(jié)尾的密碼子集中分布于第1 軸附近,這表明,云南油杉基因之間同義密碼子使用的差異是基于基因的核苷酸含量,而以G、C 結(jié)尾的密碼子在第2 軸上較為分散,這在很大程度上與表達水平有關(guān)。說明少數(shù)密碼子偏好除受堿基組成影響外,亦受到其他因素影響。
圖5 同義密碼子用法與云南油杉葉綠體基因組密碼子的對應(yīng)分析Fig.5 Correspondence analysis of synonymous codon usage and the codons of K.evelyniana chloroplast genome
隨著測序技術(shù)的進步與更新,基因組數(shù)據(jù)的應(yīng)用對密碼子的偏好性能提供一定的支持,堿基組成對密碼子的使用具有重要作用,核苷酸的使用頻率也會受到自然選擇或突變的影響[22],密碼子在基因組與蛋白質(zhì)的聯(lián)系中發(fā)揮著重要作用[34],葉綠體母體遺傳信息具有獨立性,物種進化、物種親緣關(guān)系、物種鑒定可通過葉綠體基因組來進行,基因研究也可根據(jù)葉綠體基因工程安全、高效表達的特點來進行[35],物種在漫長進化過程中形成特有的使用模式,故在不同物種間,其密碼子使用偏性存在差異性,葉綠體基因組中的密碼子偏性可揭示物種基因組的進化關(guān)系,對研究基因進化和功能鑒定具有重要意義[5]。由于密碼子第3 位上的堿基組成受到較小的選擇壓力,因此常用GC3來是衡量密碼子使用偏好性[36]。
本研究通過對云南油杉葉綠體基因組密碼子使用特征進行分析,發(fā)現(xiàn)其葉綠體基因組密碼子GC1、GC2的含量高于GC3,即GC1(49.65%)>GC2(40.66%)>GC3(29.79%),由此可見其密碼子在3 個位置上并不是均勻分布的;在云南油杉葉綠體基因組中,GC3和GC1、GC2之間不存在相關(guān)性,表明密碼子第3 位堿基的組成存在差異性,其密碼子偏性可能受選擇影響較大。這與迎春櫻桃Prunus discoidea[16]、燈盞花Erigeron breviscapus[22]、降香黃檀Dalbergia odorifera[31]、蒜頭果Malania oleifera[17]研究結(jié)果一致,說明在不同物種之間其密碼子使用特征具有相似性。云南油杉葉綠體基因組中大部分編碼基因的ENC 值>45;可推斷出其密碼子的偏性較弱。中性繪圖分析顯示,云南油杉密碼子GC12和GC3的相關(guān)性不顯著,基因組中GC 含量較為保守,說明其葉綠體基因密碼子偏好更多的是受自然選擇的影響,這與巨桉Eucalyptus grandis[37]研究結(jié)果一致;通過對ENC-plot 分析顯示有21 個ENC 頻數(shù)比值分布在-0.05~0.05 間,說明突變是影響密碼子偏好性主要原因。PR2-plot 分析結(jié)果發(fā)現(xiàn),T>A、G>C;說明了在云南油杉葉綠體基因組密碼子使用模式上,其偏好性受到突變和選擇影響;其結(jié)果與蒜頭果Malania oleifera[17]研究結(jié)果一致;而在某些植物的葉綠體基因組堿基使用頻率上發(fā)現(xiàn)T>A,C>G;比如芒果(Mango)[27]、杧果Mangifera indica[38]、薔薇科Rosaceae[19]等植物,這與本研究結(jié)果不一致??梢?,不同植物中的葉綠體基因堿基組成存在差異,從而致使密碼子偏好性亦不相同。結(jié)合ENC-plot 和PR2-plot 分析表明云南油杉密碼子偏好性主要受到自然選擇因素的影響;其在受到自然選擇影響的同時亦會受到突變因素的影響,表明云南油杉葉綠體基因組在一定程度上較為保守。這與燈盞花Erigeron breviscapus[22]、藿香Agastache rugosa[36]等植物的研究結(jié)果一致;而對于坡壘Hopea hainanensis,青梅Vatica mangachapoi[12],乳油木Vitellaria paradoxa[39]等植物來說,影響其密碼子偏好的主要因素是堿基突變。對應(yīng)性分析也表明,云南油杉密碼子偏好影響因素不是單一的,其偏好性受到選擇和突變等多種因素的共同影響。核糖體蛋白基因和光合系統(tǒng)基因分布較為集中,說明該類基因的密碼子偏性較為相似,這與沙棗Elaeagnus angustifolia[29]研究相似;綜上所述,不同植物葉綠體基因密碼子偏好性受到的影響因素有所差異,并不只是受單一因素的影響,而是受到多個因素一起作用的結(jié)果。把同時滿足RSCU>1、ΔRSCU ≥0.08 兩個條件的密碼子作為云南油杉的最優(yōu)密碼子,最終得出了15 個最優(yōu)密碼子,其中有7 個以U 結(jié)尾,有6 個以A 結(jié)尾,以G 和C 結(jié)尾的分別各有1 個,其密碼子的表現(xiàn)形式為NNA、NNU 的模式,與柿屬植物Diospyrosspp.[40]、‘玉鈴鐺’棗Yulingdang Jujuba[41]、紫九牛Ventilago leiocarpa[42]的表現(xiàn)形式一致。最優(yōu)密碼子的確立,能有效提高外源基因的表達效率,為優(yōu)化目標(biāo)基因及開展云南油杉葉綠體基因工程、異源表達基因改造、種源鑒定等研究提供了參考依據(jù),同時也能在分子水平研究建立油杉屬植物的進化機制提供理論基礎(chǔ)。
本研究中分析了云南油杉葉綠體基因組密碼子使用特征,未進行云南油杉與油杉屬間和種間其他物種的密碼子使用特征分析,故不能確定云南油杉與其他物種的葉綠體基因組密碼子偏好性是否相似。因此,可進一步研究油杉屬物種間密碼子偏好性的影響因素是否一致,研究其內(nèi)在機制,以此來確定密碼子偏好影響因素的強弱在種間是否具有差異性。