趙 英,付海天,金 剛,徐 釧,宋恩亮,羅燕春,莫永龍
(廣西壯族自治區(qū)亞熱帶作物研究所,廣西 南寧 530001)
木薯(Manihot esculenta Crantz)起源于南美洲亞馬遜河流域,是世界三大薯類作物之一,有“地下糧倉”和“淀粉之王”的美稱[1],肩負(fù)著世界近8億人口的口糧任務(wù)[2],具有高光效、高生物量、耐干旱貧瘠、易種植等特點(diǎn)。木薯除可以作為糧食外,也被用作飼料和重要的工業(yè)原料[3],是我國南方熱帶亞熱帶旱地坡地主要的經(jīng)濟(jì)作物之一[4]。當(dāng)前,對于木薯的研究相對其他作物而言還比較薄弱,選育種和高產(chǎn)高效栽培是其研究的主要方向[5];木薯淀粉積累的機(jī)制尚不明確[6];其功能基因組學(xué)的研究也相對滯后,限制了木薯遺傳育種的發(fā)展[7]。
將DNA或RNA序列以3個(gè)核苷酸為一組的密碼子翻譯為蛋白質(zhì)的氨基酸序列,稱為遺傳密碼,又稱密碼子或者三聯(lián)體,其具有簡并性;編碼同一氨基酸的密碼子稱為同義密碼。密碼子使用頻率的不同形成了密碼子的偏好性,不同基因組有其特有的密碼子使用偏好性,表現(xiàn)在物種進(jìn)化過程中受到基因突變壓力和自然選擇的影響不同[8]。在特定物種或基因中使用頻率最高的密碼子稱為最優(yōu)密碼子。研究目標(biāo)物種的密碼子使用偏好性,根據(jù)該物種的最優(yōu)密碼子對外源基因的表達(dá)載體進(jìn)行優(yōu)化設(shè)計(jì),對提高外源基因組在葉綠體中的表達(dá)量具有重要的作用[9]。
葉綠體基因組屬單親遺傳,突變率低,進(jìn)化速度慢[10]。對葉綠體基因組進(jìn)化的研究可加深對植物間親緣關(guān)系、葉綠體基因組及核基因組間信息交流等的了解,并為設(shè)計(jì)載體、轉(zhuǎn)化后同質(zhì)化效率的提高等提供有益的信息[11],以促進(jìn)目的基因高效穩(wěn)定表達(dá),進(jìn)而更好地了解基因[12]。本研究對木薯葉綠體基因組的密碼子組成及其偏好性進(jìn)行了分析,篩選出了木薯的最優(yōu)密碼子,并根據(jù)其密碼子的偏好性,對目的基因的密碼子進(jìn)行了改良,以期使盡可能多的最優(yōu)密碼子參與到外源基因的表達(dá)中,為木薯遺傳性狀的改良、系統(tǒng)發(fā)育及功能基因組學(xué)的研究提供科學(xué)依據(jù)。
木薯葉綠體基因組系列信息從NCBI數(shù)據(jù)庫獲取,GenBank登錄號(hào)為NC_035239,共83個(gè)基因序列。剔除重復(fù)長度小于300 bp,且起始密碼子為ATG,終止密碼子為TAA、TAG、TGA的序列,最終選出51條序列用于分析。
木薯基因組密碼子的組成及相對同義密碼子使用度(RSCU)利用Codon W軟件參照吉德娟等[13]的方法進(jìn)行分析。最優(yōu)密碼子的篩選與確定參照原曉龍等[14]的方法。中性繪圖分析參照唐玉娟等[15]的方法。ENC-plot繪圖分析參照吉德娟、李路麗等[13,16]的方法。PR2-plot繪圖分析參照李路麗等[16]的方法。
從表1可以看出:木薯葉綠體基因組密碼子基因編碼區(qū)GC的含量在28.31%~45.56%之間,平均含量為37.81%;GC在密碼子中的分布不均勻,表現(xiàn)為GC1>GC2>GC3,其含量平均值分別為46.64%、39.19%和27.58%;GC3s的平均含量為24.46%,表明木薯葉綠體密碼子中A和T的使用頻率高于G和C。
有效密碼子數(shù)(ENC)是衡量密碼子偏好性的重要指標(biāo)之一。ENC的理論取值范圍為21~61,其值越接近20則偏好性越強(qiáng);當(dāng)ENC=61時(shí),說明每個(gè)密碼子被均衡使用[17]。由表1可見,木薯葉綠體基因組的ENC均值為47.57,分布于36.55~60.29之間,故可以認(rèn)為木薯葉綠體基因組密碼子的偏好性較弱。
表1 木薯葉綠體基因組密碼子的主要參數(shù)
木薯葉綠體基因組密碼子的相關(guān)分析結(jié)果(表2)顯示:GCall與GC1、GC2和GC3之間的相關(guān)性均極顯著;GC1與GC2極顯著相關(guān);GC1、GC2均與GC12呈極顯著相關(guān);GC1、GC2、GC12與GC3的相關(guān)性均不顯著,說明第1位與第2位堿基的組成相似,與第3位堿基的組成不同,木薯葉綠體基因組密碼子主要受選擇作用的影響;ENC值與GC1間相關(guān)性不顯著,但與GC2和GC3呈顯著或極顯著相關(guān),表明木薯葉綠體基因密碼子的使用偏好性受第2位和第3位堿基組成的影響。
基因表達(dá)水平與密碼子使用偏好性受同義密碼子第3位堿基含量的直接影響[18]。RSCU分析結(jié)果(表3)顯示,在RSCU<1的密碼子中,以G或C結(jié)尾的占91%。RSCU>1的密碼子共有30個(gè),其中偏好性最強(qiáng)的是TTA,其RSCU值為2.05;偏好性最弱的是CTC和TCA,其RSCU值均為0.34;在這30個(gè)密碼子中,有97%的密碼子以A(13個(gè))或T(16個(gè))結(jié)尾,有3%的密碼子以G(1個(gè))結(jié)尾,沒有以C結(jié)尾的密碼子。木薯葉綠體基因組密碼子第3位A或T的使用偏好性比C或G強(qiáng),說明木薯偏好使用以A或T結(jié)尾的密碼子。
從木薯葉綠體基因組中篩選出atpF、atpE、cemA、rpl20、ycf2等5個(gè)高表達(dá)基因,以及rps14、petB、petD、rps8、ndhA等5個(gè)低表達(dá)基因。計(jì)算它們的△RSCU值,發(fā)現(xiàn)△RSCU>0.08的高表達(dá)密碼子有31個(gè)。結(jié)合木薯葉綠體基因的相對同義密碼子使用度和同義密碼子相對使用度(表3和表4),篩選出最優(yōu)密碼子9個(gè),分別是TTG、TCA、CCA、CAT、AAT、GAT、CGA、AGA、GGA。其中5個(gè)以A結(jié)尾,3個(gè)以T結(jié)尾,1個(gè)以G結(jié)尾,再次說明木薯葉綠體基因組偏好使用以A和T結(jié)尾的密碼子。
表3 木薯葉綠體基因組各氨基酸的RSCU分析結(jié)果
表4 木薯葉綠體基因組最優(yōu)密碼子的確定
2.4.1 中性繪圖分析 由圖1可見:除ycf2和cemA基因靠近對角線外,其他基因均距離對角線較遠(yuǎn);GC12的值在0.32~0.54之間,GC3的值在0.22~0.36之間,兩者的分布范圍均較窄;線性回歸方程的回歸系數(shù)為0.3483,接近于0,說明GC12與GC3間相關(guān)不顯著。另外,在表2中,GC12與GC3間的相關(guān)系數(shù)為0.277,顯示第1、2位與第3位堿基組成間的相關(guān)性不顯著。上述結(jié)果表明影響木薯葉綠體基因組密碼子偏性使用的主要因素是自然選擇。
圖1 中性繪圖分析結(jié)果
表2 木薯葉綠體基因組密碼子參數(shù)間的相關(guān)系數(shù)
2.4.2 ENC-plot繪圖分析 從圖2可以看出,GC3s值的分布范圍在0.22~0.36之間,分布較廣,說明不同基因密碼子的偏好性相差較大。ENC頻數(shù)分布結(jié)果(圖4)顯示:45.1%共23個(gè)基因分布在-0.05~0.05區(qū)間內(nèi),這23個(gè)基因距離標(biāo)準(zhǔn)曲線較近,其ENC的實(shí)際值與預(yù)期值接近;54.9%共28個(gè)基因分布在-0.05~0.05區(qū)間之外,這28個(gè)基因距離標(biāo)準(zhǔn)曲線較遠(yuǎn),其ENC的實(shí)際值與預(yù)期值偏差較大。上述結(jié)果同樣說明影響木薯葉綠體基因組密碼子偏性使用的主要因素是選擇。
圖2 ENC-plot繪圖分析結(jié)果
圖4 ENC比值頻數(shù)分布圖
2.4.3 PR2-plot繪圖分析 由圖3可以看出,木薯葉綠體基因組密碼子第3位堿基在4個(gè)區(qū)域內(nèi)分布不均勻,幾乎全部點(diǎn)落在圖3的左上方,且堿基A的使用頻率高于T,堿基C的使用頻率高于G,因此可以推斷木薯葉綠體基因組密碼子的偏好性受多種因素的影響,但主要影響因素是選擇。
圖3 木薯PR2-plot繪圖分析結(jié)果
植物葉綠體基因組密碼子在基因突變、自然選擇和蛋白質(zhì)結(jié)構(gòu)等諸多因素的協(xié)同作用下,形成了適應(yīng)自身偏好的模式以適應(yīng)環(huán)境的變化,其中最重要的影響因素是基因突變和自然選擇。DNA序列中GC含量的變化可反映密碼子使用偏性突變的整體趨勢[19];其中第3位堿基的突變不影響編碼氨基酸的變化,可作為密碼子偏好性分析的主要依據(jù)[20]。本研究首次對木薯葉綠體基因組51條密碼序列進(jìn)行了分析,發(fā)現(xiàn)木薯葉綠體密碼子的GC含量在28.31%~45.56%之間,平均含量為37.81%;GC3s的平均含量為24.46%,表明木薯葉綠體密碼子偏好使用末位堿基為A/T的密碼子,與芒果[15]、紫花苜蓿[21]、劍麻[22]等雙子葉植物一樣偏好使用以A/T結(jié)尾的密碼子。ENC是衡量密碼子偏倚程度的重要指標(biāo)之一,其值越小、越接近20,說明其偏好性越強(qiáng),對應(yīng)基因的表達(dá)量也越高。在本研究中,木薯葉綠體基因組的ENC均值為47.57,說明木薯葉綠體基因組密碼子的偏好性較弱。木薯葉綠體基因第1位與第2位堿基的組成相似,但與第3位堿基的組成不同,據(jù)此可以初步判斷木薯葉綠體基因組密碼子的偏好性主要受選擇作用的影響;中性繪圖、ENC-plot繪圖與PR2-plot繪圖分析結(jié)果再次證實(shí)木薯葉綠體基因組密碼子的使用偏好性主要受選擇的影響,該研究結(jié)果與其他作物如霸王[13]、美國紅梣[23]、杜梨[24]等相似,說明堿基組成成分的不同導(dǎo)致了密碼子使用頻率的差異。
基因的表達(dá)受同義密碼子偏好使用的影響,最優(yōu)密碼子可使翻譯的效率和準(zhǔn)確率得到提高[25]。最優(yōu)密碼子在正選擇和突變壓力的作用下得以大量形成,而在純化選擇和突變壓力作用下則形成較少[26]。本研究通過高頻密碼子和高表達(dá)密碼子作為篩選最優(yōu)密碼子的標(biāo)準(zhǔn),最終篩選出TTG、TCA、CCA、CAT、AAT、GAT、CGA、AGA、GGA等9個(gè)最優(yōu)密碼子;最優(yōu)密碼子數(shù)量較少,可能與木薯葉綠體基因組在進(jìn)化過程中受純化選擇和突變壓力作用有關(guān)。最優(yōu)密碼子的確定,可以為木薯葉綠體改造外源基因密碼子、提高轉(zhuǎn)入表達(dá)量等提供參考。
筆者對木薯葉綠體基因組密碼子的組成與使用偏好性進(jìn)行了系統(tǒng)研究,結(jié)果認(rèn)為木薯葉綠體基因組密碼子的偏好性較弱,偏好使用以A/T結(jié)尾的密碼子,偏好性使用主要受選擇作用的影響;共篩選出9個(gè)最優(yōu)密碼子。本研究結(jié)果可以為木薯基因工程組學(xué)、異源表達(dá)基因改造、遺傳性狀的改良、種源鑒定等方面的研究提供科學(xué)依據(jù)。