劉福利,王飛久,邵展茹
(1.農(nóng)業(yè)部海洋漁業(yè)可持續(xù)發(fā)展重點實驗室,山東 青島100049,2.中國水產(chǎn)科學研究院 黃海水產(chǎn)研究所,山東 青島,100049;3.中國科學院 海洋研究所,山東 青島,266071)
遺傳密碼是聯(lián)系基因核苷酸序列與蛋白質(zhì)氨基酸序列的紐帶,具有簡并性特點,即多個同義密碼子編碼同一種氨基酸。如果沒有任何選擇壓力和突變基因的偏倚,每個核苷酸位點上的核苷酸突變都是隨機的,同義密碼子出現(xiàn)的概率也是一樣的。但研究表明,同義密碼子非均衡使用的現(xiàn)象普遍存在,即某些密碼子比其他同義密碼子具有更高的使用頻率,這些密碼子被稱為最優(yōu)密碼子,此現(xiàn)象稱為密碼子偏性。這種同義密碼子使用的偏好性廣泛存在于從原核到真核生物中,從單一物種基因組中的不同基因到不同物種的基因組中[1-2]。研究發(fā)現(xiàn),影響密碼子偏好性的因素有很多,如堿基組成的差異[3-4]、自然選擇(體現(xiàn)在基因表達水平上)[5-6]、tRNA 豐度[7-9]、基因長度[10-11]、mRNA 二級結構[12]、蛋白結構、疏水性以及氨基酸保守性[13]等。研究基因組和基因的密碼子使用特征,具有重要的理論意義和應用價值。
長囊水云(Ectocarpussiliculosus)隸屬于褐藻門(Phaeophyta)褐子綱(Phaeosporeae)水云目(Ectocarpales)水云科(Ectocarpaceae)水云屬(Ectocarpus)。藻體為異絲體,由單列細胞組成并分枝。生于潮間帶巖石上或石沼中,或附生于其他藻體上。由于具有以下特征,長囊水云被法國科學家Peter等推薦為褐藻類研究的模式生物[14]:較小的藻體(數(shù)厘米);較短的生活史,實驗室培養(yǎng)條件下3個月內(nèi)可完成其生活史;易于進行遺傳分析;可進行大規(guī)模的突變體篩選;繁殖力強;可被一種DNA病毒感染(可提供一種潛在的插入突變工具);具有較小的基因組。2004-09長囊水云基因組計劃在法國的羅斯科夫海洋研究站(Station Biologigue de Roscoff)啟動。在該計劃的推動下,長囊水云的相關研究尤其是分子生物學領域蓬勃發(fā)展,其葉綠體基因和核基因組分別于2009年和2010年完成了全序列測定[15-16]。另外,在NCBI數(shù)據(jù)庫中存儲有67 106條長囊水云的EST序列。這些工作為長囊水云以及以長囊水云為模式生物的褐藻的研究奠定了堅實基礎。為研究長囊水云葉綠體基因組的遺傳及變異,闡明葉綠體基因組與核基因組的關系,進一步探討長囊水云葉綠體的進化,本研究以長囊水云葉綠體全基因組序列為基礎,對其密碼子使用特征進行分析。
長囊水云(E.siliculosus)葉綠體基因組序列(序列號:FP102296)從GenBank數(shù)據(jù)庫下載。長囊水云的葉綠體DNA為雙鏈環(huán)狀,序列全長為139 954bp,基因組平均G+C含量約為30%。根據(jù)基因組序列的注釋信息,占全基因組72%的編碼序列中共有185個編碼基因,其中148個蛋白編碼基因,37個RNA編碼基因。為減少長度較短基因變異所帶來的樣本誤差,依照國際通用辦法,去除59個長度小于350bp的基因[17],提取剩余的89個蛋白編碼基因的Coding Sequence(CDS)序列,分析長囊水云葉綠體基因組密碼子的使用特征。
相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU),用來檢測基因中全部密碼子使用的變化,它等于同義密碼子的實際觀測值與同義密碼子平均使用時期望值的比值。對于同義密碼子家族中的密碼子來說,如果這個同義密碼子的RSCU>1,則表明該密碼子的使用頻率高于期望值,反之亦然[5]。我們使用在線分析軟件Codonw(http:∥codonw.sourceforge.net/)進行RSCU的計算。
有效密碼子數(shù)(Effective Number of Codon,ENC),描述密碼子使用偏離隨機選擇的程度,能反映密碼子家族中同義密碼子非均衡使用的偏好程度[18]。使用歐洲分子生物學開放軟件系統(tǒng)(European Molecular Biology Open Software Suite,EMBOSS)的CHIPS軟件來計算ENC。
堿基組成也是衡量同義密碼子使用偏好性的指標,應用EMBOSS中的CUSP計算GC含量及GC在密碼子第1~第3位上的含量(GC1,GC2,GC3)。為了檢測密碼子使用偏好性是否受到基因組堿基組成的影響,繪制了Nc-plot曲線。若一個基因的密碼子使用模式受到GC堿基組成影響的話,則這個基因?qū)⒙湓贓Nc-plot期望曲線的上面或接近曲線的位置,否則該基因?qū)⒙湓陔x期望曲線比較遠的位置[18]。
密碼子適應指數(shù)(Codon Adaptation Index,CAI)常用于基因表達水平的測量。此值為0~1,越接近1則表示基因的表達水平越高[1]。以長囊水云葉綠體中25個高表達的核糖體蛋白基因的相對密碼子使用度RSCU和密碼子相對適應值w(Relative Adaptiveness of Codon)作為計算CAI值的參考數(shù)據(jù),用軟件Codonw計算各基因的CAI。
高表達優(yōu)越密碼子(High-expression Codon,HE)和高頻密碼子(High-frequency Codon,HF)的確定分別參見文獻[11]和[19]。研究中將同時確定為高表達優(yōu)越密碼子和高頻密碼子的同義密碼子定義為長囊水云葉綠體基因組的最優(yōu)密碼子。
為從整體上研究長囊水云葉綠體基因組的密碼子使用特征,將CDS長度大于350bp的89個蛋白編碼基因整合為一條長度為88 671bp的序列,該序列占基因組總序列的63.4%,共有29 468個有義密碼子,其中28 565為同義密碼子,將該序列作為長囊水云葉綠體基因組的代表來研究其密碼子使用特征。
長囊水云葉綠體基因組中,GC1,GC2,GC3和GC分別為43.3%,34.8%,17.32%和31.8%,每個值都較低,由此可見基因整體GC含量較低。從密碼子不同位置的堿基組成來看,位于密碼子中3個位置的GC含量并非平均分布,其分布規(guī)律是GC1>GC2>GC3,且3個位置GC含量的差值較大,尤其是密碼子第3位的GC3含量很低僅為17.32%。由此可知,以A或T堿基結尾的密碼子在長囊水云葉綠體基因中的使用頻率高于以G或C堿基結尾的密碼子。
ENC是衡量同義密碼子使用偏性的一個重要指標,其取值范圍在20~61,即如果每種氨基酸只使用1種密碼子則有效密碼子數(shù)為20,如果各種同義密碼子的使用機會完全均等,則有效密碼子數(shù)為61,即該值越靠近20則偏性越強。長囊水云葉綠體基因組的ENC值為39,此值較小。另外,89個基因的ENC值介于31~52,總體上ENC值都較小,這表明長囊水云葉綠體基因組的密碼子使用偏離隨機選擇,反映出長囊水云葉綠體基因組的同義密碼子具有較強的使用偏性。
以長囊水云葉綠體25個高表達的核糖體蛋白基因的相對密碼子使用度RSCU和密碼子相對適應值w作為參考數(shù)據(jù),來計算長囊水云葉綠體基因組及各個基因的CAI。長囊水云葉綠體基因組的CAI值為0.638,89個基因的CAI值變化范圍為0.51~0.74??傮w上CAI值都較大,表明長囊水云葉綠體基因組的同義密碼子具有較強使用偏性。
表1 長囊水云葉綠體基因組密碼子的相對使用度Table 1 RSCU in the chloroplast genome of E.siliculosus
同義密碼子的相對使用度(RSCU)為某一密碼子所使用的頻率與其在無偏使用時預期頻率之間的比值,它去除了氨基酸組成對密碼子使用的影響,且直觀地反映了密碼子使用的偏好性。表2顯示了葉綠體基因各密碼子的使用頻次和相對使用度。密碼子UUU,UUA,AUU等27個密碼子的RSCU>1,表明這些密碼子是葉綠體基因偏好的密碼子。這些偏好密碼子均以A或U堿基結尾。而以G或C堿基結尾的密碼子的使用情況則剛好相反,它們出現(xiàn)次數(shù)少、RSCU<1,是長囊水云葉綠體基因少量使用或避免使用的密碼子。葉綠體基因在終止密碼子的使用上偏好UAA。
表2 長囊水云葉綠體基因組的最優(yōu)密碼子Table 2 The optimal codons in the chloroplast genome of E.siliculosus
計算長囊水云葉綠體基因組89個基因的CAI,并按其大小對基因進行排列,從這一排列的兩端各取基因樣本總數(shù)的5%,分別組成高、低表達樣本組。根據(jù)Duret[11]對最優(yōu)密碼子的定義,確定了UUU,UUG和GUU等25個密碼子為高表達優(yōu)越密碼子。根據(jù)林濤等[19]方法同樣也確定了UUU,UUA和GUU等25個密碼子為高頻密碼子。若將兩者綜合評定,UUU,GUU,UCA等12個密碼子被確定是長囊水云葉綠體基因組的最優(yōu)密碼子(表3)。
長囊水云葉綠體基因組的89個基因的ENC值在31~52變動,平均值為39。GC3值的變化范圍為7.9%~23.8%,平均值為14.6%。相關性分析結果顯示二者不具相關性。另外,Nc-plot曲線顯示(圖1),少量偏性較弱(ENC值較大)的基因落在期望線上方,說明這些基因密碼子的使用偏性受到堿基組成的影響;而大部分基因落在期望曲線下面,尤其是一些密碼子使用偏性較強(ENC值較?。┑幕蚵湓诰嗥谕€比較遠的位置,表明堿基組成不是影響密碼子使用偏性的主要因素。這可能與長囊水云葉綠體基因組的GC含量,尤其是GC3含量較低,導致葉綠體基因組的GC異質(zhì)性較差有關。
圖1 長囊水云葉綠體基因組的Nc曲線圖Fig.1 Nc-plot curve of the chloroplast genome of Ectocarpus siliculosus
CAI和ENC相關性分析結果顯示二者顯著負相關(r=-0.397,p<0.01),表明基因表達水平顯著影響基因的密碼子使用偏性,高表達的基因具有更強的密碼子使用偏性,例如葉綠體中高表達的psbA1和rbcS基因,它們的具有較強的密碼子使用偏性(ENC值分別為30.85和34.47)。另外,ENC與基因長度不具相關性,表明長囊水云葉綠體基因的長度可能不會影響密碼子的使用偏性。
本研究通過計算長囊水云葉綠體蛋白編碼基因的多個密碼子使用偏性指標,發(fā)現(xiàn)長囊水云葉綠體基因組存在較強的密碼子使用偏性,偏好使用以A或T堿基結尾的密碼子。這與水稻、楊樹和玉米等植物葉綠體基因的密碼子用法偏好性分析結果一致,表明這些植物葉綠體基因具有相似的密碼子使用規(guī)律。
影響密碼子使用的因素眾多,不同物種或同一物種的不同基因的密碼子使用偏好性的原因也不盡相同。Sharp等認為在高效表達基因中,密碼子的使用偏性由翻譯的選擇壓主宰;而在低表達基因或群體比較小的物種中,主要通過突變或漂移產(chǎn)生,選擇作用相對較弱[5]。Morton認為,在地錢、水稻和煙草的葉綠體基因組中堿基組成是造成同密碼子使用偏性的主要因素,但是在個別高表達的基因中(例如psbA),選擇造成了密碼子使用偏性[20]。Morton認為DNA鏈的不對稱突變也是造成Euglenagracilis使用偏性的主要原因[21]。另外,劉慶坡認為基因表達水平和基因堿基組成是影響水稻葉綠體密碼子使用的主要因素[22];Zhou等認為基因組的堿基突變偏好性是影響擬南芥、楊樹等種子植物的葉綠體基因密碼子使用的主要因素[23];劉漢梅認為玉米葉綠體基因組的堿基組成是影響密碼子使用偏性的主要因素[24]。本研究中發(fā)現(xiàn),長囊水云葉綠體基因組的密碼子使用受到表達水平上的自然選擇以及基因堿基組成的突變影響,其中選擇作用對高表達基因的密碼子使用的影響比較突出,而突變是低表達基因密碼子使用偏性的主要影響因素。
Sugiura等報道在煙草葉綠體基因組中,有3個基因(rps19,psbC和ycf15)以GTG為起始密碼子,2個基因(psbL和ndhD)以ACG為翻譯起始密碼子[25]。劉慶坡等報道在粳稻葉綠體基因組也有與煙草類似的情況[23]。本研究中發(fā)現(xiàn)長囊水云葉綠體基因組148個蛋白編碼基因中,絕大部分基因以ATG作為起始密碼子,但有3個基因(rpl3,rps8和rbcR)以GTG為起始密碼子,另外基因Escp99以TTG為起始密碼子。密碼子GTG和TTG是少數(shù)原核生物(例如某些細菌)的起始密碼子,這從起始密碼子使用的角度上,證明長囊水云葉綠體與原核生物具有一定的相似性,這可以作為關于葉綠體進化的內(nèi)吞假說的佐證。
研究確定某物種的基因組或基因的最優(yōu)密碼子,具有多方面的意義,例如根據(jù)最優(yōu)密碼子可以預測基因的表達量,可以對目標基因進行密碼子優(yōu)化以提高其在宿主中的表達量,還可以發(fā)現(xiàn)新基因并對其功能進行預測。不同的研究者對最優(yōu)密碼子的定義并不統(tǒng)一。最優(yōu)密碼子最初定義為在高表達基因中出現(xiàn)頻率比低表達基因中出現(xiàn)頻率高的同義密碼子[7]。后來Sharp等認為從低密碼子使用偏性的基因到高密碼子使用偏性的基因,那些使用頻率在統(tǒng)計上顯著增加的同義密碼子為最優(yōu)密碼子[6]。Duret等將那些出現(xiàn)頻率隨基因表達水平升高而增加的密碼子定義為高表達優(yōu)越密碼子[11]。林濤等的高頻密碼子分析法未將高表達與低表達蛋白基因分開,認為相對同義密碼子使用頻率大于60% 或超過該組同義密碼子平均占有頻率的1.5倍的即為高頻密碼子[20]。本研究應用這2種方法分別確定了25個最優(yōu)密碼子,我們把二者共同確定的12個密碼子確定為長囊水云葉綠體基因組的最優(yōu)密碼子。
我們研究長囊水云葉綠體基因組的密碼子使用特征,通過計算、分析密碼子使用偏性的多個參數(shù),發(fā)現(xiàn)長囊水云葉綠體基因組的密碼子存在較強的使用偏性,偏向使用A或T堿基結尾的密碼子。長囊水云葉綠體基因組密碼子的使用偏性受到了基因表達水平上的自然選擇以及基因堿基組成中性突變的雙重影響,其中選擇的作用對高表達基因密碼子使用偏性的影響比較突出,而突變是低表達基因密碼子使用偏性的主要影響因素。另外,首次確定了UUU,GUU,UCA等12個密碼子為長囊水云葉綠體基因組的最優(yōu)密碼子。這些結果對研究長囊水云葉綠體基因組相關特性的遺傳及變異,闡明葉綠體基因組與核基因組的關系,以及探討長囊水云葉綠體的進化等問題均有重要的理論意義,也對預測長囊水葉綠體基因組編碼基因的表達量及優(yōu)化其基因體外表達等問題均具應用價值。
(References):
[1] SHARP P M,LI W H.The codon adaptation index-a measure of directional synonymous codon usage bias,and its potential applications[J].Nucleic Acids Research,1987,15(3):1281-1295.
[2] LAVNER Y,KOTLAR D.Codon bias as a factor in regulating expression via translation rate in the human genome[J].Gene,2005,345(1):127-138.
[3] KARLIN S,MRAZEK J.What drives codon choices in human genes[J].Molecular Biology,1996,262(4):459-472.
[4] ROMERO H,ZAVALZ A,MUSTO H.Codon usage inChlamydiatrachomatisis the result of strand-specific mutational biases and complex pattern of selective forces[J].Nucleic Acids Research,2000,28(10):2084-2090.
[5] SHARP P M,LI W H.An evolutionary perspective on synonymous codon usage in unicellular organisms[J].Journal of Molecular Evolution,1986,24(1):28-38.
[6] SHARP P M,COWE E.Synonymous codon usage in Saccharomyces cerevisiae[J].Yeast,1991,7(7):657-678.
[7] IKEMURA T.Correlation between the abundance ofEscherichiacolitransfer RNAs and the occurrence of the respective codons in its protein genes[J].Journal of Molecular Biology,1981,151(3):389-409.
[8] PERCUDANI R,PAVESI A,OTTONELLO S.Transfer RNA gene redundancy and translational selection inSaccharomycescerevisiae[J].Molecular Biology,1997,268(2):322-330.
[9] DURET L.tRNA gene number and codon usage in theC.elegansgenome are co-adapted for optimal translation of highly expressed genes[J].Trends in Genetics,2000,16(7):287-289.
[10] MORIYAMA E N,POWELL J R.Gene length and codon usage bias inDrosophilamelanogaster,SaccharomycescerevisiaeandEscherichiacoli[J].Nucleic Acids Research,1998,26(13):3188-3193.
[11] DURE L,MOUCHIROUD D.Expression pattern and,surprisingly,gene length shape codon usage inCaenorhabditis,Drosophila,andArabidopsis[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(8):4482-4487.
[12] GU W J,ZHOU T,MA J M,et al.Folding type specific secondary structure propensities of synonymous codons[J].IEEE Transactions on Nanobioscience[J],2003,2(3):150-157.
[13] GU W J,ZHOU T,MA J M ,et al.The relationship between synonymous codon usage and protein structure inEscherichiacoliandHomosapiens[J].Biosystems,2004,73(2):89-97.
[14] PETERS A F,DOMINIQUE M,SCORNET D,et al.Proposal ofEctocarpussiliculosus(Ectocarpales,Phaeophyceae)as a model organism for brown algal genetics and genomics[J].Journal of Phycology,2004,40(6):1079-1088.
[15] CORGUILLE G L,PEARSON G,VALENTT M ,et al.Plastid genomes of two brown algae,EctocarpussiliculosusandFucusvesiculosus:further insights on the evolution of red-algal derived plastids[J].BMC Evolutionary Biology,2009,9:253.
[16] COCK J M,SETERCKL,ROUZE P,et al.2010The Ectocarpus genome and the independent evolution of multicellularity in the brown algae[J].Nature,465(7298):617-621.
[17] MORTON B R.Selection on the codon bias of chloroplast and cyanelle genes in different plant and alga lineages[J].Journal of Molecular Evolution,1998,46(4):449-459.
[18] WRIGHT F.The“effective number of codons”used in a gene[J].Gene,1990,87(1):23-29.
[19] LIN T,NI Z H,SHEN M S,et al.High-frequency codon analysis and its application in codon analysis of tobacco[J].Journal of Xiamen University:Natural Science,41(5):551-554.林濤,倪志華,沈明山,等.高頻密碼子分析法及其在煙草密碼子分析中的應用[J].廈門大學學報:自然科學版,2002,41(5):551-554.
[20] MORTON B R.Chloroplast DNA Codon Use:Evidence for selection at the psb A locus based on tRNA availability[J].Journal of Molecular Evolution,1993,37(3):273-280.
[21] MORTON B R.Strand asymmetry and codon usage bias in the chloroplast genome ofEuglenagracilis[J].Proceedings of the National Academy of Sciences of the United States of America,1999,96(9):5123-5128.
[22] LIU Q P,XUE Q Z.Codon uage in the chloroplast genome of rice(OryzasativaL.ssp.japonica)[J].Acta Agronomica Sinica,30(12):1220-1224.劉慶坡,薛慶中.粳稻葉綠體基因組的密碼子用法[J].作物學報,2004,30(12):1220-1224.
[23] ZHOU M,LONG W,LI X.Patterns of synonymous codon usage bias in chloroplast genomes of seed plants[J].Forestry Study in China,2008,11(4):235-242.
[24] LIU H M,HE R,ZHANG H Y,et al.Anaylsis of synonymous codon usage in maize chloroplast genome[J].Journal of Sichuan Agricultural University,28(1):10-14.劉漢梅,何瑞,張懷渝,等.玉米葉綠體基因密碼子使用頻率分析四川農(nóng)業(yè)大學學報[J].2010,28(1):10-14.
[25] SUGIURA M,HIROSE T,SUGITA M.Evolution and mechanism of translation in chloroplast[J].Annual Review of Genetics,1998,32:437-459.