辛雅萱,董章宏,瞿紹宏,劉 成,葉 鵬,辛培堯
( 西南林業(yè)大學 西南山地森林資源保育與利用教育部重點實驗室/ 西南地區(qū)生物多樣性 保育國家林業(yè)和草原局重點實驗室,云南 昆明 650224)
密碼子(Codon)又稱遺傳密碼,在生物體遺傳信息傳遞的過程中作為聯結核酸和蛋白質的紐帶,扮演著重要的角色,其偏好性作為基因和基因組的一個靜態(tài)特征,是生物在長期演化過程中適應和選擇的結果[1]。其中,同義密碼子雖然編碼相同的氨基酸,但其使用頻率并不相同。大量研究表明,在蛋白質編碼過程中,某一物種或某一基因往往傾向于使用一種或幾種特定的密碼子,該現象稱為密碼子的使用偏性(Codon usage bias)[2]。這種現象的產生可能與基因的表達水平[3]、基因的堿基組成[4]、翻譯起始效應[5]和基因的長度[6]等因素有關。密碼子使用模式會影響基因的功能與表達,且基因的表達量越大,其密碼子偏好性就越強[7]。
葉綠體是地球上綠色植物體中把光能轉化為化學能的重要細胞器。葉綠體基因組是一個裸露的環(huán)狀雙螺旋分子,有一套完整的復制、轉錄和翻譯系統(tǒng)。葉綠體基因組分子量小、多拷貝,結構和基因種類一般較為保守,這些有利于對葉綠體基因組進行分析,現已被廣泛用于分子進化、系統(tǒng)發(fā)育和遺傳表達等領域[8]。近年來,對葉綠體基因組密碼子使用模式的研究,已在竹亞科(Bambusoideae)[9]、鐵核桃(Juglans sigillataDode)[10]、巨桉(Eucalyptus grandis)[11]等多種植物中開展。
杜梨(Pyrus betulifoliaBge.)為薔薇科(Rosaceae) 梨屬(Pyrus)落葉喬木,別名棠梨、土梨、海棠梨等,在我國南北方各地均有種植。杜梨不僅是一種美味水果,而且其果實、枝、葉、根均可入藥,用于治療咳嗽、腹瀉等[12]。目前,對杜梨的研究主要集中在其果實多糖的提?。?3]、葉黃酮類化合物提?。?2]以及對鹽、堿脅迫的響應等方面[14],其葉綠體基因組的相關研究,僅見Dong 等[15]對其葉綠體基因的基本結構進行了簡要分析,而葉綠體密碼子使用偏好性方面的研究還未見報到。通過分析杜梨葉綠體基因組密碼子使用偏好性,確定其葉綠體基因組最優(yōu)密碼子,為杜梨乃至梨屬植物葉綠體基因組學的研究提供理論依據。
從瑞麗植物園,采集新鮮杜梨幼葉,將樣品保存在干冰中,送至浙江優(yōu)諾金生物工程有限公司進行葉綠體基因組的測序,其結果已提交至中國科學院西雙版納熱帶植物園綜合保護中心樟科植物葉綠體基因組數據庫(登錄號:LAU10003),通 過Geneious 8.1.3、BioEdit Sequence Alignment Editor、ORF Finder(https://www.ncbi.nlm.nih.gov/orffinder/)等軟件對杜梨葉綠體基因組進行分析,為了降低誤差,研究時從88 條CDS(coding DNA sequence)中剔除序列長度小于300 bp、內部含有終止密碼子的序列和重復基因,最終選取了37 條以ATG 為起始密碼子,TAA、TGA、TAG 為終止密碼子的基因序列用作后續(xù)分析。
1.2.1 密碼子相關參數計算 運用Codon W 1.4.2 軟件分析符合條件的37 條CDS,獲得各CDS 的有效密碼子數(ENC,Effective number of codon)、同義密碼子相對使用度(RSCU,relative synonymous codon usage);應用EMBOSS explorer 中的CUSP軟件分析獲得不同基因中各個密碼子第1 位、第2 位、第3 位堿基的GC 含量(分別用GC1、GC2、GC3表示),以及該基因中GC 堿基的含量(GCall),并利用SPSS 軟件對所得參數進行相關性分析。
1.2.2 中性繪圖分析 中性繪圖分析是用來初步判斷密碼子使用偏好性影響因素的方法之一[16]。若GC12和GC3顯著相關,且回歸系數接近于1,則說明密碼子3 個位置上的堿基組成相似,則密碼子偏好性主要受突變影響;反之,說明密碼子第1、2 位與第3 位堿基組成差異較大,基因組GC 含量高度保守,其偏好性受選擇影響較大[17]。首先,根據已獲得的GC1、GC2含量計算出GC12(GC1和GC2的平均值)的數值,再以GC12為縱坐標,GC3為橫坐標作散點圖,圖中的1 個點即代表1 個基因的位置;通過分析第1、第2 位堿基和第3 位堿基組成的相關性,推測出其密碼子偏好性的主要影響因素。
1.2.4 PR2-plot 分析 PR2 分析(Parity rule 2)也叫偏倚分析,用于分析各密碼子第3 位堿基A、T和G、C 之間突變是否平衡,尤其是針對由4 個同義密碼子編碼的氨基酸。以A3/(A3+T3)為縱坐標,G3/(G3+C3)為橫坐標進行偏倚分析,圖的中心點表示A=T 且G=C(此時其密碼子偏好性完全受突變的影響),其余的點由中心點向該點發(fā)出的矢量表示該基因的偏性方向和程度[20]。
1.2.5 最優(yōu)密碼子分析 鑒定杜梨葉綠體基因組中的最優(yōu)密碼子,需要結合其高頻率和高表達密碼子。選取RSCU 值>1 的為高頻密碼子;以37 條CDS 的ENC 值為偏好性標準,由低到高對其進行排序,分別選出兩端10%的基因(前后各4 個基因),建立高低表達庫[21],將ΔRSCU ≥0.08(ΔRSCU=RSCU高表達-RSCU低表達)的密碼子作為高表達密碼子。最后將同時滿足二者的密碼子定義為杜梨葉綠體基因組的最優(yōu)密碼子[22]。
利用Codon W 1.4.2 和在線程序CUSP 軟件分析杜梨葉綠體基因組中符合條件的37 條CDS 序列,結果如表1 所示。
表1 杜梨葉綠體基因組密碼子不同位置的GC 含量及ENC 值Table 1 GC content and ENC value of different positions of codon in chloroplast genome of P.betulifolia
其中,有核糖體基因10 個(rpl14、rpl16、rpl20、rps11、rps14、rps2、rps3、rps4、rps7、rps8),光 合 作 用 基 因9 個(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD)、7 個基因(ndhC、ndhD、ndhE、ndhG、ndhH、ndhJ、ndhK)為煙堿脫氫酶基因、ATP 基因4 個(atpA、atpB、atpE、atpI)以及其他基因7 個。所有CDS 密碼子的平均GC 含量為38.87%,其中,第1 位GC 平均含量為48.45%,第2 位GC 平均含量為40.76%,第3 位平均GC 含量為28.66%,可見,GC 含量在密碼子的3 個位置上并不是均勻分布的,且絕大多數CDS 密碼子第1 位、第2 位的GC 含量明顯高于第3 位,可見杜梨葉綠體基因組密碼子末位堿基偏好以A/T(U)結尾。表1 還顯示,37 個基因的ENC 取值范圍是33.13 ~52.73,平均為47.41,可以認為,杜梨葉綠體基因組密碼子的偏性較弱。
杜梨葉綠體基因組密碼子不同位置GC 含量、ENC 值和密碼子數(N)之間的相關性分析如表2所示,GCall與GC1和GC2呈極顯著相關,GC1和GC2呈顯著相關,但GC3與GC1和GC2都未呈顯著相關,說明密碼子第1、2 位堿基組成相似,和第3 位堿基存在較大差異。進一步比較發(fā)現,ENC 與GC2極顯著相關、與GC3顯著相關,與GC1無相關性,說明密碼子不同位置上的堿基組成會影響有效密碼子數。密碼子數N 除了與GC3極顯著相關外,與其他參數均無顯著相關。
分析表明,RSCU >1 的密碼子有30 個。其中,16 個以U 結尾;13 個以A 結尾;以G 結尾的只有1 個。說明杜梨葉綠體基因組密碼子偏好以A 或U結尾(表3)。
表2 密碼子數各位置GC 含量、數量與ENC 值的相關性分析 Table 2 Correlation analysis of GC content, quantity and ENC value of different position codon numbers
表3 杜梨各氨基酸的RSCU 分析Table 3 RSCU analysis of each amino acid in P.betulifolia
續(xù)表:
分析表明,在杜梨葉綠體基因組密碼子中,GC12的取值范圍在0.333 ~0.540 之間,GC3的取值范圍在0.203 ~0.366 之間, GC12和GC3的相關系數-0.143 4,回歸系數(即趨勢線斜率)為0.207 2,說明密碼子第1、2 位堿基和第3 位堿基組成存在差異,其基因組中GC 含量高度保守,密碼子的偏好性受選擇影響較大(圖1)。
圖1 中性繪圖分析Fig.1 Neutrality plot analysis
ENC-plot 分析如圖2 所示,大部分基因位于標準曲線下方,說明其密碼子偏好性的影響因素中,選擇占主導地位。進一步計算ENC 比值,分析基因的ENC 頻數分布(表4)。
圖2 ENC-plot 繪圖分析Fig.2 ENC-plot analysis
結果表明,分布在-0.05 ~0.05 區(qū)間的基因有14 個,這14 個基因與預期ENC 值較接近,而分布在這個區(qū)間以外的基因有23 個,這23 個基因與預期ENC 較遠,也就是離標準曲線較遠。說明了杜梨葉綠體基因組密碼子的偏好性更多地受選擇的影響。
表4 ENC 比值頻數分布表Table 4 Distribution table of ENC ratio
由圖3 可知,平面圖的4 個區(qū)域內基因并非均勻分布,大部分基因分布在右下方,表明密碼子第3 位堿基的使用具有偏好性,且T 的使用頻率高于A,G 的使用頻率高于C,說明杜梨葉綠體基因組密碼子使用模式不僅受到突變的影響,還受到其他因素的影響。
依表3 結果,選出RSCU 值>1 的密碼子為高頻密碼子,共計30 個。
圖3 PR2-plot 繪圖分析Fig.3 Analysis of PR2 bias plot
進一步根據ΔRSCU 值,篩選出28 個ΔRSCU ≥ 0.08 的高表達密碼子(表5 中),其中U 結尾的9個,A 結尾的9 個,G 結尾的4 個,C 結尾的有6 個。將高頻密碼子和高表達密碼子相結合,同時滿足二者條件的密碼子才能被確定為杜梨葉綠體基因組的最優(yōu)密碼子。最終篩選出UUU、UUG、CUU、AUU、GUU、UCU、CCU、CCA、ACA、GCA、UAU、UAA、CAA、GAA、CGU、CGA、GGU、GGA 這18 個為最優(yōu)密碼子,9 個以U 結尾,8 個以A 結尾,1 個以G 結尾。
表5 杜梨葉綠體基因組最優(yōu)密碼子的確定Table 5 Determination of optimal codons in the chloroplast genome of P.betulifolia
續(xù)表:
同義密碼子的非均衡使用現象在植物基因中普遍存在,引起這種現象的成因較復雜,基因的堿基組成被認為是最普遍的因素[23]。密碼子第3 位上堿基的改變通常不會引起編碼氨基酸的改變,因此密碼子第3 位上堿基突變所受到的選擇壓較小,GC3也被作為分析密碼子使用模式的一個重要依據。通過對PR2-plot 分析結果表明,T >A,G >C,這與蒺藜苜蓿(Medicago truncatula)[24]、降香黃檀(Dalbergia odorifera)[25]等植物的研究結果一致。但在陸地棉(Gossypium hirsutum)[26]、劍麻(Agave sisalana)[27]等植物中,葉綠體基因組堿基使用頻率 上T >A,C >G;Zhou 等[28]對 紅 松(Pinus koraiensis)、蘇鐵(Cycas revoluta)等植物的研究中,發(fā)現A、T 和G、C 的使用頻率相當;而張月榮[29]對禾本科植物的研究中也發(fā)現了嘧啶嘌呤使用頻率相當。這說明不同植物的葉綠體基因組中堿基組成存在一定的差異,從而使密碼子偏好性的影響因素有所不同。
前人研究發(fā)現,在植物葉綠體基因組中,密碼子偏向于以A 或T 堿基結尾[30]。在杜梨葉綠體基因組堿基組成中發(fā)現,GC1平均含量為48.45%;GC2為40.76%;GC3為28.66%,GC3含量明顯少于GC1和GC2;而密碼子各位置上堿基相關性分析表明,GC1和GC2呈顯著相關,GC3與GC1、GC2相關不顯著且與前兩位存在較大差異,說明堿基組成偏向于A 和T,第3 位密碼子偏好以A、T 結尾。這與馬尾松(Pinus massoniana)[31]、樟樹(Cinnamomum camphora)[30]等植物密碼子的偏好性研究結果一致,說明不同物種間密碼子偏好性存在著一定的相似性。研究表明,變異和選擇是影響密碼子偏好形成的主要因素[20]。對杜梨37 條CDS 的相關參數進行中性繪圖分析、ENC-plot 分析以及PR2-plot 分析均表明,其密碼子的偏好性主要受選擇影響。這與沙棗(Elaeagnus angustifolia)[19]、 酸 棗(Ziziphus jujubevar.spinosa)[23]等 植 物的密碼子偏好性一致;而在普通油茶(Camellia oleifera)[32]、蒺藜苜蓿[24]中,突變是影響葉綠體基因組密碼子偏好性的因素。而續(xù)晨等[33]對蝴蝶蘭(Phalaenopsis aphrodite)葉綠體基因組密碼子研究后認為,其偏好性受自然選擇和堿基差異的共同影響;糜子(Panicum miliaceum)葉綠體基因組密碼子受突變和選擇的共同影響[17];劉慶坡等[34]認為基因表達水平和堿基組成是影響水稻(Oryza sativa)葉綠體密碼子使用偏性的主要因素。由此可見,植物密碼子偏好性是受多重因素影響的,不同植物中影響密碼子偏性的主要因素有所不同。
采用高頻密碼子和高表達密碼子相結合的辦法,將同時滿足二者條件的密碼子確定為杜梨葉綠體基因組的最優(yōu)密碼子,篩選出18 個最優(yōu)密碼子,9 個以U 結尾,8 個以A 結尾,多數以U 和A結尾。這與銀白楊(Populus alba)、水稻等植物中葉綠體基因組密碼子偏好NNA、NNU 型研究結果相一致[34]。
葉綠體是植物進行光合作用的主要器官,在生物進化的漫長歷史中發(fā)揮著重要作用。如今,隨著生物技術的不斷深入發(fā)展,人們發(fā)現葉綠體基因組結構和序列的信息在揭示物種起源、進化演變及其不同物種之間的親緣關系等方面具有重要價值,與此同時葉綠體轉化技術在遺傳改良、生物制劑的生產等方面顯示出巨大潛力。本文通過研究杜梨葉綠體基因組密碼子使用偏好性,揭示了與杜梨葉綠體基因組有關的編碼基因以及基因表達的重要信息,為今后開展杜梨葉綠體基因工程、異源表達基因修飾奠定了基礎,同時也將為在葉綠體基因組水平上建立梨屬植物分類的新方法提供重要依據。