李 薇,王 倩,胡曉艷,杜淑輝
(山西農(nóng)業(yè)大學林學院,山西 太谷 030800)
遺傳密碼是溝通遺傳信息和生物功能的橋梁,也是生命信息的基本遺傳單位,密碼子的使用與生物大分子物質(zhì)的功能表達密切相關(guān)[1]。自然界中存在的20種氨基酸是由密碼子(信使RNA分子一組相鄰的3個核苷酸)所編碼的,編碼相同氨基酸的密碼子被稱為同義密碼子。植物基因組中當同義密碼子以相同頻率出現(xiàn)時,表明不存在基因突變或選擇壓力等影響密碼子使用的情況[1]。但實際翻譯過程中,在不同物種生物體內(nèi),密碼子的使用存在一定程度的差異,這就形成了同義密碼子的使用偏性[2]。密碼子使用偏性是物種在進化過程中由于基因突變和自然選擇壓力等因素共同作用形成的[3],廣泛存在于人類、動物、植物、真菌和細菌等生物體中[4]。研究發(fā)現(xiàn),影響密碼子使用偏性的因素主要包括基因組大小、基因序列的堿基組成、mRNA二級結(jié)構(gòu)、tRNA豐度和蛋白質(zhì)三級結(jié)構(gòu)等[4],在不同生命體中,影響密碼子使用偏性的因素也不同。隨著基因表達調(diào)控和分子進化等研究的不斷深入,密碼子使用偏性的研究表現(xiàn)出了重要的生物學意義。對密碼子使用偏性及其影響因素進行分析,不僅可以確定最優(yōu)密碼子,通過對基因工程表達載體進行設(shè)計來提高基因表達豐度,還可以根據(jù)密碼子使用偏性和特定生物學功能的相關(guān)性來對某些基因的功能進行預測。
銀杏(GinkgobilobaL.)為銀杏科(Ginkgoaceae)銀杏屬(Ginkgo)落葉喬木,是世界著名的中生代孑遺樹種,系我國特有樹種,素有“金色活化石”美譽,具有非常高的觀賞、藥用和食用等價值,在我國栽培區(qū)域甚為廣泛[5]。植物葉綠體基因組密碼子使用偏性及其主要影響因素研究,已在酸棗[6]、大花香水月季[4]和沙棗[7]等物種中展開。目前關(guān)于銀杏的遺傳物質(zhì)[8]、全基因組序列[9]、WRKY家族基因密碼子使用偏性[10]和葉綠體基因組[11]等研究工作也已相繼展開,但有關(guān)其葉綠體基因組密碼子使用偏性的研究還未見報道。本研究從NCBI中獲取銀杏葉綠體基因組序列,分析銀杏葉綠體基因組密碼子使用偏性及其影響因素,以期為銀杏生長發(fā)育及葉綠體基因組遺傳變異研究提供重要的理論依據(jù)。
從NCBI公共數(shù)據(jù)庫中獲取銀杏葉綠體基因組序列(NC_016986,序列全長156 988 bp)。為減少分析誤差,保留長度大于300堿基對(base pair,bp)的編碼序列(coding sequence,CDS),剔除小于300 bp以及重復的序列,最終篩選出57條CDS序列用于此次分析。
1.2.1同義密碼子偏好性分析
運用CodonW軟件對銀杏葉綠體基因組57條CDS序列的密碼子組成和偏好性參數(shù)進行分析。其中,衡量葉綠體基因組密碼子組成的度量指標主要包括:同義密碼子第3位上堿基的出現(xiàn)頻率,即胸腺嘧啶(T3S)、鳥嘌呤(A3S)、腺嘌呤(G3S)和胞嘧啶(C3S)的出現(xiàn)頻率;同義密碼子第3位堿基的GC含量(GC3S);密碼子GC含量(GC);密碼子適應(yīng)指數(shù)(codon adaptation index,CAI),主要用于基因表達水平的測量,其取值范圍為0~1,越接近1表明基因表達水平越高;密碼子偏好指數(shù)(codon bias index,CBI),指特定基因中高表達優(yōu)越密碼子的組分情況;最優(yōu)密碼子頻率(frequency of optimal codon,F(xiàn)op);氨基酸長度(length of amino acid,Laa)等。將同義密碼子使用相對頻率(relative synonymous codon usage,RSCU)和有效密碼字數(shù)組成(effective number of codons,ENC)作為密碼子使用偏好性的度量指標。RSCU指對于某個特定的密碼子在編碼對應(yīng)氨基酸時的同義密碼子中的相對概率;若RSCU=1,則該密碼子無使用偏性;若RSCU>1,則該密碼子使用頻繁;若RSCU<1,則該密碼子使用頻率較低[12]。ENC反映一個特定基因中所用到的密碼子種類的多少,取值范圍為20~61,與密碼子使用偏性呈負相關(guān),即ENC值越大,密碼子使用的隨機性越高,使用偏性越弱;越靠近20則偏性越強[12]。
1.2.2中性繪圖分析
以各基因GC3為橫坐標,GC12(GC1和GC2的平均值)為縱坐標作圖,進行相關(guān)性分析,判斷影響密碼子使用偏性的主要因素。如果二者顯著相關(guān),說明GC12與GC3堿基組成相似,突變對密碼子使用偏性影響較大;反之,說明GC12與GC3堿基組成差異較大,選擇壓力對密碼子使用偏性影響較大[12]。
以各基因GC3為橫坐標,ENC為縱坐標作圖,進行相關(guān)性分析,判斷各基因GC3含量對密碼子使用偏性的影響。理論上ENC=2.5-GC3+29.5/[GC32+(1-GC3)2],若ENC值分布在理論值曲線上或附近,說明密碼子使用偏性僅受GC3含量的影響;若ENC值分布在曲線下方較遠的位置,說明選擇壓力對密碼子使用偏性影響較強[13]。
1.2.4最優(yōu)密碼子分析
結(jié)合高頻率密碼子和高表達密碼子分析銀杏葉綠體基因組的最優(yōu)密碼子。利用軟件計算得到RSCU值,根據(jù)ΔRSCU法,將各基因按照ENC值的大小進行排序,分別取兩級10%的基因組成低樣本組和高樣本組,對最優(yōu)密碼子進行預測。如果ΔRSCU>0.08,且基因組RSCU值>1,則該密碼子為最優(yōu)密碼子[14]。
1.2.5奇偶偏差分析
選擇4種密碼子編碼的氨基酸進行密碼子第3位上的4種堿基組成情況分析,以A3/(A3+T3)/4為橫坐標,G3/(G3+C3)/4為縱坐標繪圖,密碼子使用偏性的程度和方向以從圖的中心點(表示A=T且G=C)發(fā)出的矢量來表示,以此來判斷密碼子使用偏性的影響因素是否為AT或GC的堿基組成差異[15]。
1.2.6對應(yīng)性分析
為闡明密碼子在使用模式上的變異趨勢,運用CodonW軟件,基于RSCU值來進行對應(yīng)性分析。篩選出的57條CDS序列,經(jīng)軟件處理后分布于一個57維的向量空間內(nèi),密碼子使用偏性的影響因素就根據(jù)基因值的變異和在該向量空間的分布情況來判斷?;蛟谥飨蛄枯S(第1,2軸)的分散程度,反映密碼子的主要變化趨勢,分別以第1,2軸為橫縱坐標作圖,依據(jù)基因的分布情況來判斷密碼子使用模式的變異趨勢[16]。
運用CodonW軟件計算分析銀杏葉綠體基因組57條CDS序列密碼子堿基組成與ENC值(表1)。
從表1可知,同義密碼子在第3位上的T3S、G3S、A3S、C3S的使用頻率變化范圍為0.39~0.55、0.08~0.26、0.28~0.51、0.09~0.31,平均值分別為0.47、0.17、0.42、0.17;G+C含量的變化范圍為0.33~0.46,平均值為0.40;第3位堿基G+C含量范圍為0.18~0.34,平均值為0.26;ENC的平均值為48.56,說明銀杏葉綠體基因組密碼子使用隨機性較高,使用偏性較弱。
表1 銀杏葉綠體基因組CDS序列密碼子使用指標
銀杏葉綠體基因組各基因中性繪圖分析如圖1。
圖1 中性繪圖分析
相關(guān)性分析得出R2值為-0.694 57,表明GC12與GC3S無顯著相關(guān)關(guān)系,銀杏葉綠體基因組各基因保守性較高,說明選擇壓力對密碼子使用偏性的影響較大。
ENC-plot繪圖分析結(jié)果如圖2。
續(xù)表1
圖2 ENC-plot繪圖分析
相關(guān)性分析得出R2值為0.435 24,同時從圖2可看出,銀杏葉綠體基因大部分偏離了基因預測值的標準曲線,表明ENC與GC3S無顯著相關(guān)關(guān)系,除堿基組成對密碼子使用偏性有影響外,影響更多來自于自然選擇。
銀杏葉綠體基因組最優(yōu)密碼子分析結(jié)果見表2。
表2 銀杏葉綠體基因組最優(yōu)密碼子
續(xù)表2
將同時滿足高頻密碼子和高表達優(yōu)越密碼子這兩個條件的密碼子確定為銀杏葉綠體基因組最優(yōu)密碼子,其中,RSCU>1的密碼子為高頻密碼子,UUU、UUA、UUG等為銀杏葉綠體基因組的高頻率密碼子;ΔRSCU>0.08的UUU、UUG、CUU等為銀杏葉綠體基因組的高表達優(yōu)越密碼子。最終確定UUU、UUG、CUU、GUU、UCA、CCA、ACA、UAU、AAU、CGA、AGA等11個銀杏葉綠體基因組的最優(yōu)密碼子,除密碼子UUG外,其余密碼子均以A和U結(jié)尾,其中5個以A結(jié)尾,5個以U結(jié)尾。
銀杏葉綠體基因組使用偏性的奇偶偏差分析結(jié)果如圖3所示。
圖3 奇偶偏差分析
各基因較多的集中在圖的左下方,密碼子第3位上堿基A+T和G+C的分布頻率是不平衡的,T高于A,C高于G,嘧啶的使用較嘌呤頻繁,說明密碼子第3位堿基的使用存在偏好性。當密碼子的使用僅由突變影響時,A、C、G、T這4種堿基的使用頻率應(yīng)是一致的。因此可判斷,銀杏葉綠體基因組使用偏性的影響因素,除突變外,還有自然選擇壓力等。
銀杏葉綠體基因組密碼子使用偏性的對應(yīng)性結(jié)果分析如圖4所示。
圖4 對應(yīng)性結(jié)果分析
由圖4可知,銀杏葉綠體基因組57個編碼基因的分布相對集中。
從各度量指標與第1軸的相關(guān)性分析可知,ENC與第1軸呈顯著相關(guān)關(guān)系,相關(guān)系數(shù)為0.335,其他度量與第1軸的相關(guān)關(guān)系未達到顯著水平,說明ENC對銀杏葉綠體基因組的密碼子使用偏性影響最大,其他因素也有一定影響(表3)。
表3 各度量指標與第一軸的相關(guān)性分析
通過密碼子使用參數(shù)之間的相關(guān)性分析可知,ENC與GC3S含量呈極顯著相關(guān),說明密碼子第3位堿基組成對密碼子使用偏好性影響較大(表4)。
表4 基因密碼子使用參數(shù)之間的相關(guān)性分析
針對銀杏葉綠體基因組57條CDS序列,分析其密碼子使用偏性與影響因素。通過中性繪圖、ENC繪圖和奇偶偏差性分析發(fā)現(xiàn),選擇壓力等因素對銀杏葉綠體基因組密碼子使用偏性的影響較大,而堿基突變等因素影響較小。通過對應(yīng)性分析發(fā)現(xiàn),ENC與堿基組成對密碼子使用偏性影響較大。ENC平均值為48.56,根據(jù)Wright的研究[14],以ENC值35作為偏好性使用強弱的閾值,可以得出銀杏葉綠體基因組密碼子使用偏性較弱。依據(jù)ENC值建立高低表達基因庫,最終確定UUU、UUG、CUU、GUU、UCA、CCA、ACA、UAU、AAU、CGA、AGA等11個銀杏葉綠體基因組的最優(yōu)密碼子,其中除UUC外,以U結(jié)尾5個,以A結(jié)尾5個,與此次最優(yōu)密碼子分析結(jié)果基本一致的有酸棗[6]、大花香水月季[4]及巨桉[17]等物種的葉綠體基因組,均偏好以A/T結(jié)尾的密碼子,這可能與不同物種間葉綠體基因組進化的相對保守性有關(guān)。
在生物漫長的進化歷程中,遺傳密碼子也在不斷地進化,且這種趨勢總是朝著穩(wěn)定化的方向前進[18]。自然界各個物種的功能基因,在不斷適應(yīng)外界自然環(huán)境改變以及朝著有利于自身進化方向發(fā)展的過程中,表現(xiàn)出了密碼子的使用偏好性。在眾多影響密碼子使用偏性的因素中,影響最廣泛的因素就是密碼子自身的堿基組成。在分析堿基組成對密碼子使用偏性的各個參數(shù)里,由于密碼子第3位堿基受到的選擇壓力最小,因此,GC3S通常被作為推斷密碼子使用偏性影響因素的重要參數(shù)[6]。通過中性繪圖分析發(fā)現(xiàn)GC12與GC3S無顯著相關(guān)關(guān)系,而奇偶偏差分析表明密碼子第3位堿基的使用存在偏性,嘧啶的使用較嘌呤更為頻繁,即選擇壓力較影響密碼子的使用偏性。這與大花香水月季[4]和陸地棉[13]等葉綠體基因組密碼子使用偏性的研究結(jié)果相一致,但與酸棗[6]等的研究結(jié)果存在差異。在密碼子堿基使用頻率研究中發(fā)現(xiàn),蒺藜苜蓿[19]等植物葉綠體基因組堿基使用頻率中,T高于A,但G和C的使用頻率存在物種差異。上述分析結(jié)果表明,密碼子使用偏性的影響因素存在一定差異,與不同物種間葉綠體基因組堿基組成的差異有一定的關(guān)系。有的物種受自然選擇壓力影響較大,如大花香水月季[4];有的物種受自身堿基組成影響較大,如籽粒莧葉[20];有的物種中突變和選擇起到相對均衡的作用,如巨桉[17]。而影響銀杏葉綠體基因組密碼子使用偏性的主要因素是自然選擇壓力,其他因素如堿基組成和堿基突變等也具有一定的影響。
目前發(fā)現(xiàn),銀杏的自然棲息地絕大部分位于中國,是銀杏家族唯一存活的物種[21],其野生狀態(tài)的樹木也僅在中國有發(fā)現(xiàn),而遍及世界多個國家的栽培品種均源自中國。在對銀杏這一物種進行更深層次的研究過程中發(fā)現(xiàn),銀杏頑強的生命力源自其在物種遺傳變異方面維持了較高的水平,即隨著環(huán)境的變化,銀杏也會朝著利于自己生存的方向進化。因此圍繞銀杏功能基因展開研究,對保持銀杏的種群優(yōu)勢有著重要作用,而葉綠體是植物進行光合作用的主要場所,針對葉綠體基因組進行深入研究,能夠為該植物類群的保護及利用提供科學依據(jù)[22]。經(jīng)過近年來的研究發(fā)展,葉綠體基因組序列在葉綠體基因工程、系統(tǒng)進化分析、物種鑒定以及分子標記等領(lǐng)域應(yīng)用廣泛[23]。隨著對各類植物在分子水平上更深入的研究,針對植物葉綠體基因組的序列測定以及組裝都將極大地推動相關(guān)產(chǎn)業(yè)的發(fā)展[24]。本研究通過對銀杏葉綠體基因組密碼子使用偏性的分析,為銀杏葉綠體基因組有關(guān)的編碼基因進化及基因表達與選擇提供了重要信息,為今后開展銀杏基因工程等工作奠定了堅實的基礎(chǔ)。