李顯煌,楊生超,辛雅萱,屈亞亞,楊琳懿,馮發(fā)玉,范 偉,辛培堯
(1.云南農(nóng)業(yè)大學(xué),云南省藥用植物生物學(xué)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650201;2.云南農(nóng)業(yè)大學(xué),西南中藥材種質(zhì)創(chuàng)新與利用國家地方聯(lián)合工程研究中心,云南 昆明 650201;3.西南林業(yè)大學(xué),國家林業(yè)局西南風(fēng)景園林工程技術(shù)研究中心,云南 昆明 650224)
密碼子是生命信息的基本遺傳單位。蛋白質(zhì)在翻譯過程中,同義密碼子的使用存在不均等的現(xiàn)象,即便是同一物種,在不同蛋白質(zhì)中編碼相同的氨基酸時對密碼子的使用頻率也有所不同,即密碼子的使用具有偏好性[1]。物種間密碼子的使用偏好性是由于基因組中的核苷酸突變具有非隨機(jī)性,使得一些密碼子發(fā)生突變偏好而形成[2]。在轉(zhuǎn)基因操作前研究密碼子的偏好性,能夠很好地預(yù)測外源DNA 片段的最適受體以及在受體中表達(dá)水平的高低,或者通過基因工程方法選用最優(yōu)密碼子從而提高外源基因在受體中的表達(dá)水平[3]。密碼子偏好性分析還有利于更好地認(rèn)知轉(zhuǎn)錄和翻譯過程中各因子的調(diào)控機(jī)制[4]。此外,葉綠體基因組的相關(guān)研究還可以闡明基因在相關(guān)物種之間或某一個物種內(nèi)的基因家族之間的進(jìn)化模式[5]。由此可見,研究生物對密碼子的偏好性使用對探索物種生命進(jìn)化模式及基因的選擇性表達(dá)具有重要意義。
葉綠體是具有一套完整獨(dú)立的復(fù)制和翻譯系統(tǒng)的細(xì)胞器,也是植物進(jìn)行光合作用的場所[6]。葉綠體基因組具有半自主性、遺傳信息保守和基因拷貝數(shù)多等特點(diǎn)[7-8]。對葉綠體基因組進(jìn)行相關(guān)研究分析,已被廣泛用于分子進(jìn)化、系統(tǒng)發(fā)育和遺傳表達(dá)等領(lǐng)域[9-11]。隨著測序技術(shù)的不斷升級,被發(fā)現(xiàn)并公布的植物葉綠體基因組序列也日益增多,這為葉綠體基因組氨基酸密碼子的研究提供了充足的數(shù)據(jù)基礎(chǔ)。根據(jù)最優(yōu)密碼子設(shè)計葉綠體基因表達(dá)載體,可迅速提高葉綠體基因組中基因表達(dá)量,用目前已知的密碼子使用模式推斷未知基因的表達(dá),或預(yù)測某些未知基因的功能[12]。因此,研究葉綠體基因組密碼子的使用模式對探討物種進(jìn)化和提高外源基因表達(dá)量等具有重要意義。目前,對于植物葉綠體基因組密碼子偏好性的研究已經(jīng)在無柄小葉榕(Ficus concinna)等多種植物[13-17]中進(jìn)行了分析。
燈盞花[Erigeron breviscapus(Vant.) Hand-Mazz]為菊科(Compositae) 飛蓬屬(Erigeron)多年生草本植物,又稱燈盞細(xì)辛、燈盞花、細(xì)辛草、短葶飛蓬,是中醫(yī)常用藥草之一,具有通經(jīng)活絡(luò)、活血化瘀和消炎止痛等功效[18-20],在心腦血管系統(tǒng)、糖尿病和老年性疾病上也具有較好的療效[21-23]。隨著基因測序技術(shù)的進(jìn)步,燈盞花葉綠體基因組的測序已經(jīng)完成,但是關(guān)于燈盞花葉綠體密碼子使用模式的研究還未見報道。葉綠體基因組與核基因組的研究方法相似,但與核基因組偏好性相比,葉綠體基因組具有目的基因表達(dá)量高和定點(diǎn)整合性強(qiáng)等優(yōu)點(diǎn)。以燈盞花葉綠體基因組作為受體進(jìn)行轉(zhuǎn)基因,可避免核轉(zhuǎn)基因系統(tǒng)中由花粉逃逸帶來的生物安全性問題[12]。為更好地利用燈盞花葉綠體基因組作為受體進(jìn)行轉(zhuǎn)基因,本研究以燈盞花葉綠體基因組全序列為研究對象,通過分析葉綠體基因組密碼子的使用模式,確定燈盞花葉綠體基因組的密碼子偏好性及最優(yōu)密碼子,以期為燈盞花葉綠體基因組在基因工程的應(yīng)用和研究提供理論依據(jù)。
通過查閱文獻(xiàn)資料,獲得燈盞花的葉綠體基因組(GenBank 登錄號:MK414770.1)[24],根據(jù)登錄號從NCBI 數(shù)據(jù)庫(https://www.ncbi.nlm.gov/)下載得到燈盞花葉綠體基因組序列,序列全長為152 183 bp,其中共有87 條編碼蛋白的CDS(coding DNA sequence)。剔除重復(fù)基因和長度小于300 bp 的基因序列,保留以ATG 為起始密碼子、以TAA、TGA 和TAG 為終止密碼子的序列,處理后得到47 條符合條件的CDS 用于分析。
1.2.1 相對同義密碼子使用度分析
運(yùn)用CodonW 1.4.2 軟件分析符合條件的47條CDS,獲得各CDS 的有效密碼子數(shù)(effective number of codon,ENC) 和同義密碼子相對使用度(relative synonymous codon usage,RSCU);應(yīng)用EMBOSS explorer 中的CUSP 軟件計算不同基因密碼子不同位置的GC 含量,分別用GC1、GC2和GC3表示,用GCall表示該基因中GC 堿基的總含量,利用SPSS 21.0 軟件對所得數(shù)據(jù)進(jìn)行相對同義密碼子使用度分析[25]。
1.2.2 堿基組成差異性分析
堿基組成差異性分析是初步判斷影響密碼子使用偏好性因素的方法之一。分析第1、2 位堿基和第3 位堿基組成的相關(guān)性,可推測出其密碼子偏好性的主要影響因素[26]。在Excel 2010 中,采用中性繪圖分析方法,以GC3為橫坐標(biāo)、GC12為縱坐標(biāo)作散點(diǎn)圖,對兩者相關(guān)性進(jìn)行分析,若GC12和GC3顯著相關(guān),且回歸系數(shù)接近于1,則3 個位置上的密碼子堿基組成無明顯差異,密碼子偏好性主要受到突變的影響;若GC12與GC3之間呈不顯著相關(guān),則說明第1、2 位與第3 位的密碼子堿基組成存在差異,其偏好性受自然選擇影響較大[27]。
1.2.3 堿基組成對密碼子偏好性分析
采用ENC-plot 繪圖分析,以GC3為橫坐標(biāo)、ENC 為縱坐標(biāo)構(gòu)建二維散點(diǎn)圖,并在散點(diǎn)圖中畫出ENC 值的標(biāo)準(zhǔn)曲線,探討各基因密碼子使用偏好性情況和基因堿基組成之間的關(guān)系[28]。若散點(diǎn)沿標(biāo)準(zhǔn)曲線分布或落在其附近,則說明該基因密碼子偏性僅受突變影響;若散點(diǎn)落在標(biāo)準(zhǔn)曲線下方較遠(yuǎn)的位置,則說明該基因密碼子偏性受到自然選擇影響。ENC 的值能反映密碼子中同義密碼子非均衡使用的偏好性程度[29],一般以ENC 值為35 來區(qū)分密碼子偏性強(qiáng)弱。當(dāng)ENC 值>35 時,表明其在編碼氨基酸時密碼子使用偏性較弱[30],反之,則強(qiáng)。
標(biāo)準(zhǔn)曲線的計算公式為
然而,ENC-plot 繪圖分析不足以準(zhǔn)確區(qū)分突變和選擇壓力的影響程度。為了更好地評估ENC 觀察值(ENCobs)與ENC 期望值(ENCexp)之間的差異,需根據(jù)公式(ENCexp-ENCobs)/ENCexp統(tǒng)計ENC 比值頻數(shù),并結(jié)合ENC 比值頻數(shù)對差異進(jìn)行量化分析[31]。
1.2.4 堿基奇偶偏好分析
堿基奇偶偏好分析主要用于分析各密碼子第3 位堿基A、T 和G、C 之間突變是否平衡,尤其是針對由4 個同義密碼子編碼的氨基酸。為了避免由第3 位堿基對A/T 或T/A 和G/C 或C/G的突變不均衡,分析時以G3/(G3+C3)為橫坐標(biāo)、A3/(A3+T3)為縱坐標(biāo)進(jìn)行繪圖分析,圖的中心點(diǎn)表示A=T 且G=C 其密碼子偏好性受突變的影響,其余的點(diǎn)由中心點(diǎn)向該點(diǎn)發(fā)出的矢量表示該基因的偏性方向和程度[32]。
1.2.5 最優(yōu)密碼子分析
鑒定燈盞花葉綠體基因組中的最優(yōu)密碼子,需要結(jié)合其高頻率和高表達(dá)密碼子。以47 條CDS 的ENC 值按從小到大進(jìn)行排序,兩端各選出10% 的基因,構(gòu)建高低表達(dá)庫,ENC 值小的為高表達(dá)庫,ENC 值大的為低表達(dá)庫[4];選取RSCU 值>1 的為高頻密碼子;ΔRSCU≥0.08(ΔRSCU=RSCU高表達(dá)-RSCU低表達(dá))的密碼子作為高表達(dá)密碼子,同時滿足高頻密碼子和高表達(dá)密碼子作為燈盞花葉綠體基因組的最優(yōu)密碼子[33]。
由表1 可知:所有CDS 密碼子的平均GC 含量為38.32%,其中,第1~3 位GC 平均含量分別為47.00%、39.57% 和28.39%,可見,GC 含量在密碼子的3 個位置上并不是均勻分布的。絕大多數(shù)密碼子中前兩位的GC 含量要高于第3 位密碼子,說明燈盞花葉綠體基因組密碼子堿基偏好以A/T (U)結(jié)尾。燈盞花47 個葉綠體基因組密碼子的ENC 值介于39.55~59.05 之間,平均值為47.18,故可認(rèn)為燈盞花葉綠體基因組密碼子的偏性較弱。
表1 燈盞花47 個葉綠體基因的GC 含量及ENC 值Tab.1 The GC contents and ENCs of 47 gene codons from E.breviscapus chloroplast genome
由表2 可知:GC1與GC2含量相關(guān)性達(dá)到極顯著水平,GCall與GC1、GC2和GC3含量的相關(guān)性均達(dá)到極顯著水平,GC3與GC1、GC2含量的相關(guān)性均不顯著,說明葉綠體基因組中,第1 位堿基與第2 位堿基具有很高的相似度,但均與第3 位堿基具有較大差異;ENC 與GC1、GC3含量的相關(guān)性不顯著,但與GC2含量顯著相關(guān),說明密碼子第2 位堿基構(gòu)成會對密碼子的使用偏好性有影響,密碼子數(shù)只與GC2、GC3顯著相關(guān),說明不同位置上堿基組成的密碼子會影響有效密碼子數(shù);密碼子數(shù)與ENC 的相關(guān)系數(shù)為0.240,未達(dá)到顯著水平,說明基因序列長度對密碼子偏好性的影響較小。
表2 各基因相關(guān)參數(shù)的相關(guān)性分析Tab.2 Correlation analysis of relative indexes of gene
由表3 可知:RSCU 值大于1.00 的密碼子數(shù)量為30 個,其中16 個以U 結(jié)尾、13 個以A 結(jié)尾、1 個以G 結(jié)尾,說明燈盞花葉綠體基因組密碼子偏好性是以A 或U 結(jié)尾。
表3 燈盞花各氨基酸的RSCU 分析Tab.3 RSCU analysis of each amino acid in E.breviscapus
由圖1 可知:燈盞花葉綠體基因組密碼子中,GC12的取值范圍分布于0.31~0.56,GC3的取值范圍較小,介于0.21~0.37,回歸系數(shù)為0.152 6(即斜率),GC12與GC3的相關(guān)系數(shù)R=0.107,說明兩者的相關(guān)性較低。絕大多數(shù)基因落在對角線的上方,說明影響燈盞花密碼子偏好性形成的主要因素不是突變,而更多的是受自然選擇的影響。
圖1 中性繪圖分析Fig.1 Neutrality plot analysis
由圖2 可知:標(biāo)準(zhǔn)曲線下方匯集了絕大多數(shù)的基因,說明燈盞花密碼子偏好性受自然選擇的影響較大。結(jié)合ENC 比值頻數(shù)(表4) 可知:ENC 比值分布在-0.05~0.05 區(qū)間的基因頻率僅為34.0%,而分布在0.05~0.15 區(qū)間的基因頻率為48.9%,說明ENCexp與ENCobs差異較大,即離標(biāo)準(zhǔn)曲線較遠(yuǎn),說明燈盞花葉綠體基因組密碼子的偏好性更多的是受自然選擇的影響。
圖2 ENC-polt 繪圖分析Fig.2 ENC-plot analysis
表4 ENC 比值頻數(shù)分布表Tab.4 Distribution of ENC ration
由圖3 可知:燈盞花基因在4 個區(qū)域內(nèi)分布不均,且絕大多數(shù)基因分布在左下方,這說明T>A、C>G,即嘧啶頻率出現(xiàn)要高于嘌呤。因此,燈盞花葉綠體基因組密碼子使用模式不僅受到突變的影響,還受到其他因素的影響。
圖3 PR2-plot 繪圖分析Fig.3 Analysis of PR2 bias plot
由表3 可知:選出RSCU 值>1 的密碼子為高頻密碼子,共計30 個。進(jìn)一步根據(jù)ΔRSCU值,篩選出24 個ΔRSCU≥0.08 的高表達(dá)密碼子(表5),其中以U 結(jié)尾的8 個,以A 結(jié)尾的10 個,以G 結(jié)尾的2 個,以C 結(jié)尾的有4 個。最終篩選出的18 個最優(yōu)密碼子,分別為UUU、UUA、UUG、CUU、AUU、GUU、GUA、UCA、CCU、CCA、ACA、UAU、UAA、GAA、UGU、CGA、AGA 和GGU。這些密碼子絕大多數(shù)以A 和U 結(jié)尾,有且僅有1 個密碼子以G 結(jié)尾。
表5 燈盞花葉綠體基因組氨基酸相對同義密碼子使用度Tab.5 The RSCU of codons in E.breviscapus chloroplast genome
DNA 由堿基組成,而堿基的組成對密碼子的使用有著很重要的影響,突變或自然選擇的影響會改變核苷酸的使用頻率,GC 含量的變化常被認(rèn)為是基因發(fā)生突變的趨勢。在植物基因中存在著同義密碼子的非均衡使用現(xiàn)象,引起這種現(xiàn)象的成因較復(fù)雜,其中基因的堿基組成是最普遍的因素[34]。密碼子第3 位堿基的改變通常不會引起編碼氨基酸的改變,因此研究密碼子第3 位堿基組成對研究植物葉綠體密碼子使用偏好性具有重要意義[35]。對燈盞花葉綠體密碼子的第3 位堿基A、T、G 和C 的關(guān)系進(jìn)行PR2 分析,結(jié)果表明:T>A、C>G,即嘧啶使用頻率高于嘌呤,這與學(xué)者對小麥(Triticum aestivum)[36]、黃芩(Scutellaria baicalensis)[37]、劍 麻(Agave sisalana)[34]和陸地棉(Gossypium hirsutum)[38]等植物葉綠體基因組堿基組成分析所得的結(jié)果一致。而對胡楊(Populus euphratica)[39]和禾本科植物[40]的研究發(fā)現(xiàn):葉綠體基因組使用模式中A 與T、G 與C 的使用頻率相當(dāng),這與本研究結(jié)果不一致。由此可見,不同植物的葉綠體基因組中堿基組成存在一定的差異,從而使得密碼子偏好性有所不同。
ZHOU 等[39]研究指出:在植物葉綠體基因組中,密碼子偏向于以A 或T 堿基結(jié)尾。而本研究發(fā)現(xiàn):在燈盞花葉綠體基因組堿基組成中,所有CDS 密碼子的平均GC 含量為38.32%,GC1平均含量為47.00%,GC2為39.57%,GC3為28.39%,GC3含量少于GC1和GC2,可見GC 含量在密碼子的3 個位置上并不是均勻分布的,GC3與GC1、GC2相關(guān)性不顯著,且GC3的含量為三者中最低,這與對蘋果(Malus×domestica)[41]、杉木(Cunninghamia lanceolata)[42]和柿屬(Diospyros)[43]的研究結(jié)果相一致。說明不同物種間密碼子偏好性存在著一定的相似性。
有研究表明:影響氨基酸密碼子偏好性的原因除了突變和自然選擇[44]外,還與堿基的組成差異[45]、基因編碼結(jié)構(gòu)[44]和tRNA 豐度[46]等因素有關(guān)。密碼子使用偏好性是物種對基因組環(huán)境和自然進(jìn)化壓力的適應(yīng)性選擇,通過中性繪圖分析、ENC-plot 繪圖分析及PR2-plot 繪圖分析發(fā)現(xiàn):影響燈盞花葉綠體基因組密碼子偏好性較大的是自然選擇,這可能與燈盞花的生存環(huán)境有關(guān);其受自然選擇影響的同時也受到其他因素(突變)的影響,這一定程度上表明葉綠體基因組在燈盞花中較為保守。這與學(xué)者對蝴蝶蘭(Phalaenopsis aphrodite)[47]、糜子(Panicum miliaceum)[32]和陸地棉(Gossypium hirsutum)[38]等植物的研究結(jié)果一致。但在對胡楊(Populus euphratica)[39]、竹節(jié)參(Panax japonicus)[48]和非洲菊(Gerbera jamesonii)[49]等植物的研究中指出,突變是影響葉綠體基因組密碼子偏好性的因素。由此可見,影響不同植物葉綠體密碼子偏好性的主要因素不同,植物葉綠體密碼子偏好性是多個因素共同作用的結(jié)果,而不同的影響因素作用的大小存在差異。從進(jìn)化學(xué)角度上看這種差異很可能與不同物種對自然環(huán)境的適應(yīng)性調(diào)節(jié)相關(guān)。密碼子偏好性及其使用模式在一定程度上反映了物種間的進(jìn)化關(guān)系,而更深層次的研究還有待進(jìn)一步開展。
本研究以燈盞花葉綠體基因組中的47 條蛋白質(zhì)編碼基因序列為研究對象,運(yùn)用CodonW 1.4.2 等軟件對其密碼子組成及使用模式進(jìn)行了分析。最終篩選出18 個最優(yōu)密碼子,且基本均以A 或U 作為第3 個密碼子堿基,燈盞花植物中葉綠體基因組中密碼子偏好性為NNA 和NNU。這一結(jié)果可為今后利用基因工程手段對外源基因密碼子改造,提高其在燈盞花葉綠體中的表達(dá)量提供參考,也為在分子水平上研究菊科植物的系統(tǒng)進(jìn)化提供相應(yīng)的理論基礎(chǔ)。