馮瑞云 ,田 翔 ,程 宏 ,王慧杰 ,梅 超 ,左 敏 ,雷夢(mèng)林
(1.山西省農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,作物遺傳與分子改良山西省重點(diǎn)實(shí)驗(yàn)室,山西太原030031;2.山西省農(nóng)業(yè)科學(xué)院農(nóng)作物品種資源研究所,農(nóng)業(yè)部黃土高原作物基因資源與種質(zhì)創(chuàng)制重點(diǎn)實(shí)驗(yàn)室,山西太原030031;3.山西省農(nóng)業(yè)科學(xué)院玉米研究所,山西忻州034000)
生物基因的核苷酸序列與蛋白質(zhì)的氨基酸序列之間的聯(lián)系紐帶是三聯(lián)體密碼子[1]。蛋白質(zhì)翻譯過(guò)程氨基酸的正確加入,需靠mRNA上的密碼子與tRNA上的反密碼子相互以堿基配對(duì)辯認(rèn)。在密碼子與反密碼子的配對(duì)中,第1對(duì)和第2對(duì)堿基嚴(yán)格遵守堿基互補(bǔ)配對(duì)原則,第3位堿基有一定自由度,可以“擺動(dòng)”,這就是密碼子的簡(jiǎn)并性[2]。編碼同一個(gè)氨基酸的密碼子是同義密碼子,如果每個(gè)氨基酸位點(diǎn)上的核苷酸在無(wú)任何選擇壓力和突變基因的偏倚情況下,同義密碼子的突變是隨機(jī)的,并且出現(xiàn)的概率也是一樣的[3]。但是實(shí)際情況下,同義密碼子突變概率具有不同的使用頻率,某些同義密碼子具有較高的使用頻率[4],在翻譯過(guò)程中使用頻率有很大的差異,也就是密碼子的使用偏性[5]。從生物的某個(gè)單一物種基因組中的基因到不同的物種基因組,都可以發(fā)現(xiàn)某種密碼子偏好的趨勢(shì)[6]。研究密碼子堿基突變、自然選擇、遺傳漂變、水平轉(zhuǎn)移和重組等特性,不但能夠反映生物物種的一些進(jìn)化現(xiàn)象,而且在基因工程表達(dá)載體中有針對(duì)性的設(shè)計(jì)這些密碼子,能夠有效提高目的基因的轉(zhuǎn)化效率和表達(dá)量,具有一定的應(yīng)用前景[7-8]。
蒙古黃芪(Astragalus.membranaceus var.mongholicus)是豆科蝶形花亞科黃芪屬多年生草本植物[9-10],屬于膜莢黃芪變種,產(chǎn)于黑龍江、內(nèi)蒙古、河北及陜西等地的向陽(yáng)草坡或山坡上[11]。黃芪總黃酮中含量較高的主要為異黃酮類成分,異黃酮不僅藥效顯著,是天然的抗氧化劑,具有很強(qiáng)的清除自由基的能力,而且它的價(jià)值高昂,是黃芪藥材質(zhì)量檢測(cè)及黃芪中藥必不可少的質(zhì)量指標(biāo)之一[12]。
異黃酮(Isoflavone)已被證明是許多植物植保素的前體物質(zhì),是苯丙氨酸代謝途徑中的一類次生代謝物質(zhì),也是豆科植物與根瘤菌共生的化學(xué)誘導(dǎo)物,能夠誘導(dǎo)nod基因的表達(dá),有利于降低膽固醇,預(yù)防心血管疾病,提高機(jī)體免疫功能以及預(yù)防腫瘤發(fā)生等,具有重要的營(yíng)養(yǎng)和醫(yī)用價(jià)值[13]。但是其在植物界只局限于豆科蝶形花亞科等極少數(shù)植物中分布,物種范圍非常狹窄,其中以大豆和苜蓿中的含量最高。異黃酮合成酶(IFS)是將植物的黃烷酮代謝途徑引入異黃酮代謝途徑的關(guān)鍵酶[14],研究IFS結(jié)構(gòu)、功能、催化機(jī)制以及作為信號(hào)分子誘導(dǎo)根瘤形成是異黃酮類化合物代謝的基礎(chǔ)和關(guān)鍵。目前,已經(jīng)在白三葉草、百脈根、大豆、小扁豆、綠豆、紅三葉草、羽扇豆、紫花苜蓿等植物中克隆出IFS全長(zhǎng)。發(fā)掘和利用異黃酮合成過(guò)程中的IFS基因,并通過(guò)轉(zhuǎn)基因技術(shù)轉(zhuǎn)化不同作物,對(duì)提高植物異黃酮水平、賦予非豆類植物合成異黃酮的能力具有重要意義。
本研究利用CodonW和EMBOSS等在線程序,分析了蒙古黃芪IFS基因的密碼子偏性,并將其與不同物種的IFS基因密碼子使用偏性進(jìn)行比較,為進(jìn)一步研究IFS蛋白質(zhì)的結(jié)構(gòu)和功能以及分子進(jìn)化奠定基礎(chǔ),同時(shí)通過(guò)密碼子使用偏性進(jìn)行比較來(lái)選擇最佳外源表達(dá)系統(tǒng),可以為IFS基因轉(zhuǎn)入模式生物進(jìn)行功能驗(yàn)證提供參考依據(jù)。
從GenBank在線數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/genbank/)下載蒙古黃芪(Astragalus.membra naceus var.mongholicus)IFS基因的完整序列(Gen-Bank登錄號(hào)為HQ339961.1),序列全長(zhǎng)1 578 bp,5′UTR 和 3′UTR 分別為 117,17 bp,開(kāi)放閱讀框1 578 bp,編碼526個(gè)氨基酸。
以Isoflavone synthase(IFS)為搜索名稱從Gen-Bank(http://www.ncbi.nlm.nih.gov/genbank/)中 檢 索并下載大豆、葛根、紅豆草和膜莢黃芪等13個(gè)雙子葉植物物種IFS基因CDS序列(表1)。篩選CDS的原則是以ATG為起始密碼子,以TAA,TAG或TGA為終止密碼子,大于300bp的氨基酸序列長(zhǎng)度,只在細(xì)胞質(zhì)中翻譯的基因,并且將位于病毒、轉(zhuǎn)座子、質(zhì)粒上的基因進(jìn)行排除,對(duì)于多拷貝基因只做一次統(tǒng)計(jì)。此外,擬南芥、番茄、煙草、酵母菌以及大腸桿菌的基因組密碼子數(shù)據(jù)來(lái)源于Codon Usage Database在線數(shù)據(jù)庫(kù)(http://www.kazusa.or.jp/codon/)。
表1 IFS基因的完整編碼區(qū)序列來(lái)源
1.2.1 密碼子偏好性參數(shù)分析 分別采用CodonW軟件和EMBOSS在線程序中的CHIP(Codon heterozygosity in a protein coding sequence)和CUSP(Create a codon usage table)模塊分析IFS基因有效密碼子數(shù) ENc,GC1,GC2 和 GC3(密碼子第 1,2 和3位上G和C含量)和總G和C含量(GC),密碼子第3位上A,G,C和U的含量(A3,G3,C3和U3),分析相對(duì)同義密碼子的使用度(relatively synonymous codonusage,RSCU)以及密碼子的使用頻率。
1.2.2 堿基組成相關(guān)性分析 編碼區(qū)密碼子第3位上堿基的突變往往只造成同義突變,對(duì)編碼結(jié)果并不影響;而編碼區(qū)密碼子前2位堿基多會(huì)造成所編碼氨基酸序列改變,為非同義突變。將密碼子GC1,GC2,GC3,GC和ENc等偏好性參數(shù)采用SPSS18.0,進(jìn)行Pearson相關(guān)性和相關(guān)顯著性分析,解析造成密碼子偏好性形成的可能因素。
1.2.3 基于密碼子使用偏性和CDS序列的聚類排除編碼氨基酸61個(gè)密碼子中的色氨酸(Trp)、甲硫氨酸(Met)和終止密碼子,將59個(gè)密碼子出現(xiàn)概率視做多維空間的一個(gè)變量,每個(gè)基因均可量化為59個(gè)變量組成的空間向量。運(yùn)用CodonW在線程序計(jì)算不同物種IFS基因CDS區(qū)的RSCU值,并以每個(gè)物種作為一個(gè)對(duì)象,將每個(gè)密碼子的RSCU值作為變量,利用SPSS 18.0軟件,采用Ward法進(jìn)行聚類分析。同時(shí),運(yùn)用MEGA5.0軟件計(jì)算物種間的遺傳距離,并采用組間鄰接法構(gòu)建系統(tǒng)發(fā)育樹(shù)。
2.1.1 同義密碼子相對(duì)使用度 蒙古黃芪IFS基因編碼區(qū)使用頻率及RSCU值計(jì)算結(jié)果(表2)表明,RSCU值大于1的密碼子有26個(gè),為IFS基因偏好密碼子,其中,以G/C結(jié)尾的密碼子有9個(gè),以A/T結(jié)尾的有17個(gè)。有8個(gè)密碼子的RSCU值大于1.5,為高頻密碼子,分別為 TCT,CTT,CCT,ACC,AGA,AGG,GTT和GCT。密碼子AGA的RSCU值最大,為2.33,該密碼子的偏好性最強(qiáng)。編碼氨基酸Trp,Arg,Met的密碼子 ATG,TGG,TGA 的 RSCU 值均等于1,表明蒙古黃芪IFS基因中的密碼子ATG,TGG,TGA使用沒(méi)有偏好性。
表2 CUSP和Codon W軟件分析膜莢黃芪IFS基因密碼子偏好性
2.1.2 有效密碼子數(shù)及GC含量 通過(guò)CodonW程序分析得出,蒙古黃芪IFS基因編碼區(qū)有521個(gè)密碼子,同義密碼子有502個(gè)。由表3可知,蒙古黃芪IFS基因編碼區(qū)的GC含量為0.458,小于0.5,表明蒙古黃芪IFS基因在編碼堿基較偏向于選擇A+T;GC3含量為0.425,小于0.5,表明蒙古黃芪IFS基因密碼子第3位堿基對(duì)A/T更加偏好。蒙古黃芪IFS基因的ENc值為51.83,遠(yuǎn)大于基因表達(dá)量和密碼子偏好性強(qiáng)弱的區(qū)分標(biāo)準(zhǔn)值35,小于61[15],表明蒙古黃芪IFS基因?qū)γ艽a子選擇偏性比較弱,各密碼子在編碼氨基酸時(shí)的頻率比較一致,基因表達(dá)水平偏低。
表3 不同物種IFS密碼子偏性分析
由表3可知,14個(gè)物種中僅有大豆的GC值大于0.5,其余13個(gè)物種GC值均小于0.5,GC平均值為0.461。14個(gè)物種的GC3平均值為0.446,大于0.5的GC3值有4個(gè),分別為大豆、豇豆、綠豆和紅三葉草,大豆的GC3值最大,為0.554;剩余10個(gè)物種的GC3值均小于0.5,其中,黃羽扇豆GC3值最小,為0.313。說(shuō)明不同物種IFS之間密碼子對(duì)GC含量和G/C結(jié)尾的偏好性不一致,但多數(shù)物種A+T的含量高于G+C,且密碼子可能偏好A/T結(jié)尾。
14個(gè)物種IFS的ENc值平均值為49.649,其中,膜莢黃芪ENc值最大,為52.28,黃羽扇豆ENc值最小,為45.92,說(shuō)明不同物種IFS基因之間有較大差異,但密碼子選擇偏好性和基因表達(dá)水平普遍較低。膜莢黃芪、葛根、錦雞兒、甘草與蒙古黃芪IFS的ENc值較為接近。14個(gè)物種IFS的CAI值介于0.177~0.205之間,CAI平均值為0.193,均遠(yuǎn)小于1。CAI取值范圍在0~1之間,數(shù)值越高表明密碼子使用偏好性越強(qiáng),說(shuō)明各物種IFS的CAI指數(shù)驗(yàn)證結(jié)果與ENc值一致,表明這些物種的密碼子偏好性及基因表達(dá)水平雖有一定差異,但密碼子使用偏好性較弱,基因表達(dá)水平普遍不強(qiáng)。
密碼子使用偏好性RSCU值結(jié)果(表3)表明,豇豆IFS中RSCU>1的密碼子數(shù)目最多,為31個(gè),大豆、甘草和補(bǔ)骨脂的密碼子數(shù)目最少,為26個(gè);豇豆IFS中RSCU>1.5的密碼子數(shù)目最多,為15個(gè),葛根密碼子數(shù)目最少,為7個(gè);RSCU值范圍大多在0~3.00,紅豆草RSCU值范圍較小,為0~2.62。
表4 IFS密碼子成分相關(guān)性分析
采用 SPSS 18.0 進(jìn)行 GC1,GC2,GC12,GC3,GC和ENc兩兩Pearson關(guān)聯(lián)顯著性分析(表4),除GC與 ENc,GC3與 ENc無(wú)顯著相關(guān)性外,GC2與GC3,GC2與ENC參數(shù)間呈顯著相關(guān)性,剩余其他任意2個(gè)參數(shù)間均存在極顯著相關(guān)性(P<0.01)。其中,GC1,GC2,GC3與GC兩兩之間均為極顯著正相關(guān),表明IFS密碼子第1,2,3位上的堿基組成較為相似,堿基組成無(wú)顯著差異;GC12與GC3間為極顯著正相關(guān)(r=0.723,P<0.01),表明 IFS基因密碼子使用偏好性的形成受突變壓力影響較大。
基于不同物種的IFS密碼子使用偏性聚類分析可分為2個(gè)大類(圖1),樣本數(shù)分別為8,6。14個(gè)不同物種均屬于豆科蝶形花亞科,其中,6個(gè)屬于豆目(大豆、葛根、甘草、蒺藜苜蓿、蒙古黃芪、膜莢黃芪),1個(gè)屬于杜鵑花目(黃羽扇豆),7個(gè)屬于薔薇目(豇豆、綠豆、紅三葉草、豌豆、補(bǔ)骨脂、錦雞兒、紅豆草)。蒙古黃芪IFS處于Ⅱ類,與膜莢黃芪以及薔薇目的錦雞兒密碼子偏性較接近;杜鵑花目的黃羽扇豆與薔薇目的紅豆草同為一組,密碼子偏性較近;而同屬于薔薇目的豇豆、綠豆、紅三葉草和豌豆、補(bǔ)骨脂、錦雞兒、紅豆草分屬于不同類別,密碼子偏性差異較大;同屬于豆目的大豆、葛根、甘草和蒺藜苜蓿、蒙古黃芪、膜莢黃芪分屬于不同類別,密碼子偏性差異較大,可見(jiàn)不同物種間IFS的密碼子使用特性與物種近緣關(guān)系是否接近并無(wú)顯著相關(guān)性。
根據(jù)CDS序列構(gòu)建系統(tǒng)發(fā)育樹(shù)可將IFS歸為2個(gè)大類(圖2),不同的是,杜鵑花目的黃羽扇豆單獨(dú)成Ⅰ類,其他13個(gè)物種歸為Ⅱ類,Ⅱ類又分為2個(gè)亞類;亞類群內(nèi)薔薇目的補(bǔ)骨脂重新分類,并單獨(dú)歸為一小類;紅豆草和錦雞兒、蒺藜苜蓿和豌豆聚類結(jié)果較為相近,與密碼子偏性聚類結(jié)果有一定差異;而其余物種在2種方法中的聚類結(jié)果較為相近,但仍有一定差異。可見(jiàn)有些物種間IFS密碼子使用偏性較為相似,但有些物種IFS在長(zhǎng)期生物進(jìn)化過(guò)程中密碼子使用偏性發(fā)生改變?;诿艽a子偏好性聚類分析可以較大程度地反映蒙古黃芪IFS特殊的進(jìn)化規(guī)律,但基于CDS的系統(tǒng)聚類與傳統(tǒng)的植物分類學(xué)更加接近。
表5 蒙古黃芪IFS基因與部分模式生物基因組密碼子使用偏性比較
續(xù)表5
將蒙古黃芪IFS密碼子使用頻率與大腸桿菌、擬南芥、酵母菌、煙草和番茄的基因組密碼子使用頻率進(jìn)行比較發(fā)現(xiàn)(表5),蒙古黃芪IFS與大腸桿菌使用偏性差異較大的密碼子有14個(gè),與酵母菌使用偏性差異較大的密碼子為12個(gè)。
可見(jiàn),酵母菌真核表達(dá)系統(tǒng)更適用于蒙古黃芪IFS異源表達(dá)試驗(yàn),但蒙古黃芪IFS與酵母菌密碼子使用頻率之間仍然存在較大的差異,在使用時(shí)需要進(jìn)行密碼子改造和優(yōu)化。而在與遺傳轉(zhuǎn)化模式植物的比較中,蒙古黃芪IFS與擬南芥、煙草和番茄的基因組密碼子使用頻率差異較大的密碼子個(gè)數(shù)分別為7,9,10個(gè),說(shuō)明蒙古黃芪IFS與這些模式生物密碼子使用特性差異比較小,尤其擬南芥為蒙古黃芪IFS遺傳轉(zhuǎn)化功能驗(yàn)證最為理想的受體。
不同物種或同一物種的不同基因?qū)γ艽a子的偏好性有所不同[16-17]。蒙古黃芪IFS基因的ENc值為51.83,可見(jiàn)該基因密碼子使用偏性相對(duì)較弱。已有研究表明,雙子葉植物的GC3值通常小于50%,而單子葉植物往往具有較高的GC3值,二者的密碼子偏好性明顯不同。在堿基選擇時(shí),蒙古黃芪IFS基因的GC3值為0.425,GC值為0.458,說(shuō)明蒙古黃芪IFS基因較傾向于選擇A/T,密碼子第3位堿基較偏好以A/T結(jié)尾,符合雙子葉植物的使用密碼子特性[18]。所選14種物種全部為雙子葉植物,大豆的GC值大于0.5,而GC3值大于0.5的有大豆、豇豆、綠豆和紅三葉草等4個(gè)。說(shuō)明多數(shù)物種A+T的含量高于G+C,且密碼子可能偏好A/T結(jié)尾。在排除自然環(huán)境壓力前提下,突變壓力的方向會(huì)影響密碼子堿基及密碼子末尾堿基的組成[19],推斷蒙古黃芪IFS基因的密碼子在進(jìn)化過(guò)程中GC到AT突變壓力要比AT到GC突變壓力高。不同物種IFS的ENC值和CAI值雖然各不相同,但均表現(xiàn)為密碼子使用偏好性弱,表達(dá)量較低。
分析表明,基于CDS聚類結(jié)果在親緣關(guān)系鑒定中比密碼子使用偏性分類更為準(zhǔn)確,但密碼子使用偏性分類在反映蒙古黃芪IFS基因特殊的個(gè)體進(jìn)化規(guī)律更準(zhǔn)確,說(shuō)明采用密碼子使用偏性和CDS序列相結(jié)合有助于提高分類結(jié)果的準(zhǔn)確度和客觀說(shuō)明物種的進(jìn)化規(guī)律,是物種進(jìn)化關(guān)系分析中對(duì)系統(tǒng)發(fā)育分析的重要補(bǔ)充[20]。
在植物基因異源表達(dá)過(guò)程中,基因的翻譯效率容易受到受體系統(tǒng)密碼子使用特性的制約,往往需要根據(jù)受體生物密碼子的使用特性對(duì)目標(biāo)序列堿基進(jìn)行改造和修飾,以提高表達(dá)水平[21]。通過(guò)不同模式植物的對(duì)比,蒙古黃芪IFS基因與擬南芥、煙草和番茄的偏性差異均比較小,擬南芥是蒙古黃芪IFS基因最理想的遺傳轉(zhuǎn)化受體,但目標(biāo)基因能否高效表達(dá)還會(huì)受到轉(zhuǎn)化效率、miRNA轉(zhuǎn)錄后水平調(diào)控以及mRNA的結(jié)構(gòu)穩(wěn)定性等諸多因素的影響[22],如何實(shí)現(xiàn)蒙古黃芪IFS基因高效遺傳轉(zhuǎn)化,仍有待深入研究。
通過(guò)對(duì)蒙古黃芪IFS基因的密碼子分析表明,該基因偏好A/T結(jié)尾的密碼子,確定了蒙古黃芪IFS基因中的8個(gè)高頻密碼子;酵母菌與蒙古黃芪IFS基因之間密碼子使用頻率比較差異更小,更適合做蒙古黃芪IFS基因的異源基因表達(dá)載體;蒙古黃芪IFS基因與擬南芥基因組密碼子使用頻率差異較小,說(shuō)明擬南芥為IFS基因進(jìn)行遺傳轉(zhuǎn)化功能驗(yàn)證的理想受體,但在遺傳轉(zhuǎn)化時(shí)仍需要結(jié)合受體密碼子使用偏性對(duì)目標(biāo)基因進(jìn)行改造和優(yōu)化,才能更好地提高表達(dá)效果。