王 宇,唐冬梅,仲偉敏,馬玉華,張 敏
(貴州省農(nóng)業(yè)科學(xué)院 果樹(shù)科學(xué)研究所,貴州 貴陽(yáng) 550006)
【研究意義】密碼子(Codon)一般具有通用性與簡(jiǎn)并性,不同物種的密碼子使用存在一定差異,這種不均衡使用模式稱為密碼子使用偏性(Codon bias),通常把使用頻率較高的一種或幾種同義密碼子稱為最優(yōu)密碼子(Optimal codon)[1-2]。FEDOROV等[3-4]研究表明,自然選擇作用或突變壓力是導(dǎo)致不同物種之間基因密碼子偏性的主要原因。通過(guò)開(kāi)展物種基因組密碼子偏性研究,可以對(duì)其進(jìn)化規(guī)律進(jìn)行描述,此外,通過(guò)分析密碼子使用模式,不僅可以進(jìn)行目的基因最佳宿主預(yù)測(cè),也可以通過(guò)基因工程手段,為目的基因表達(dá)提供最優(yōu)的密碼子使用模式[5-7]?!厩叭搜芯窟M(jìn)展】分子標(biāo)記具有數(shù)量多、多態(tài)性高、共顯性好和準(zhǔn)確性高等諸多優(yōu)點(diǎn)[8]。應(yīng)用分子標(biāo)記評(píng)價(jià)、鑒定物種資源,通過(guò)篩選與目標(biāo)性狀相關(guān)的分子標(biāo)記,能實(shí)現(xiàn)雜交后代的早期鑒定,縮短育種年限,提高育種效率[9]。目前,已有多種分子標(biāo)記應(yīng)用于獼猴桃野生資源和栽培品種的鑒定、遺傳圖譜的構(gòu)建和雜交后代鑒定等研究,其中隨機(jī)擴(kuò)增多態(tài)性DNA標(biāo)記(Random amplified polymorphic DNA,RAPD)與SSR標(biāo)記(Simple Sequence Repeats,SSRs)應(yīng)用較普遍[10]?!颈狙芯壳腥朦c(diǎn)】獼猴桃屬獼猴桃科(Actinidiaceae)獼猴桃屬(Actinidia),又名楊桃、奇異果等[11]?!凹t陽(yáng)”獼猴桃(Actinidiachinensiscv.Hongyang)系四川省廣元市蒼溪縣農(nóng)業(yè)局及四川省自然資源研究所選育的首個(gè)紅肉型獼猴桃新品種[12-13]。其果實(shí)呈短圓柱形,光滑無(wú)毛,果心紫紅色并呈放射狀;鮮果果肉肉質(zhì)鮮美,富含多種維生素、氨基酸及各種礦物質(zhì)[14]。DENG等[15]對(duì)獼猴桃全基因組進(jìn)行了測(cè)序,為后期從基因組水平上對(duì)重要功能基因進(jìn)行挖掘、比較和功能預(yù)測(cè)提供了理論依據(jù)。【擬解決的關(guān)鍵問(wèn)題】為了解紅陽(yáng)獼猴桃SSR位點(diǎn)分析及表達(dá)基因密碼子使用偏性,以紅陽(yáng)獼猴桃全基因組數(shù)據(jù)為材料,分析紅陽(yáng)獼猴桃全基因組與基因密碼子組成的各項(xiàng)指標(biāo),以期為紅陽(yáng)獼猴桃種質(zhì)資源鑒定與分子標(biāo)記進(jìn)行輔助育種提供理論基礎(chǔ)。
從紅陽(yáng)獼猴桃的基因組數(shù)據(jù)庫(kù)(http://bdg.hfut.edu.cn/kir/index.html)中下載全基因組序列,用于SSR位點(diǎn)分析;下載CDS序列,通過(guò)Perl語(yǔ)言程序?qū)t陽(yáng)獼猴桃基因組數(shù)據(jù)進(jìn)行過(guò)濾篩選,篩選出堿基數(shù)不小于300 bp的蛋白質(zhì)編碼序列,用于分析密碼子的偏性。從Codon Usage database(http:/ /www.kazusa.or.jp /codon /)下載釀酒酵母(Saccharomycescerevisiae)、大腸桿菌(Escherichiacoli)和畢赤酵母(Pichiapastoris)的密碼子偏性數(shù)據(jù)用于對(duì)比分析。
1.2.1 紅陽(yáng)獼猴桃全基因組SSR分析 采用將長(zhǎng)DNA序列(默認(rèn)值>2 MB)分組到適當(dāng)長(zhǎng)度以增加數(shù)據(jù)挖掘速度的策略。為準(zhǔn)確進(jìn)行SSR位點(diǎn)識(shí)別,在每個(gè)區(qū)塊末尾設(shè)置1個(gè)短重疊區(qū)域(默認(rèn)為20 bp),GMATA中的SSR挖掘模塊允許對(duì)包括Motif長(zhǎng)度和單元重復(fù)最小次數(shù)等參數(shù)進(jìn)行調(diào)整,并將統(tǒng)計(jì)結(jié)果用于生成SSR信息分析。
1.2.2 紅陽(yáng)獼猴桃GC含量及中性繪圖 利用 CodonW 1.4.2分析紅陽(yáng)獼猴桃基因密碼子的堿基組成規(guī)律。GC1、GC2和GC3分別表示密碼子第1、2和3位堿基的G、C含量,GC3s表示同義密碼子第3位堿基G、C含量,GC1和GC2的均值用GC12表示。中性繪圖參考ZHANG等[16]方法進(jìn)行。
1.2.3 有效密碼子數(shù)與ENC繪圖 紅陽(yáng)獼猴桃單個(gè)密碼子使用頻率采用有效密碼子數(shù)(Effective number of codons,ENC or Nc)衡量[17]。ENC值與基因密碼子使用偏性相關(guān)[18]。ENC繪圖以ENC值與GC3s分別作為縱坐標(biāo)與橫坐標(biāo)進(jìn)行作圖。
1.2.4 同義密碼子相對(duì)使用度及最優(yōu)密碼子分析 紅陽(yáng)獼猴桃密碼子使用偏性以同義密碼子相對(duì)使用度(Relative synonymous codon usage,RSCU)為衡量指標(biāo)[19]。參考BELLGARD等[20]方法統(tǒng)計(jì)ENC值與RSCU值,分析最優(yōu)密碼子。
1.2.5 PR2分析 采用PR2(Parity rule 2,PR2)繪圖進(jìn)行密碼子奇偶偏好分析[24],以紅陽(yáng)獼猴桃基因中A3/(A3+T3)統(tǒng)計(jì)數(shù)據(jù)為縱坐標(biāo),以G3/(G3+C3)統(tǒng)計(jì)數(shù)據(jù)為橫坐標(biāo),平面做圖揭示各基因堿基的組成情況。
掃描紅陽(yáng)獼猴桃全基因組得到247 012個(gè) SSR 單元,存在于總長(zhǎng)度631 450 069 bp 的拼接序列中。其中二核苷酸重復(fù)單元最多,占87.7 %;七核苷酸重復(fù)單元最少,僅占0.1 %(圖1-A)。二核苷酸重復(fù)單元中,占比高的分別是TA(13.2 %)、AT(12.9 %)和TC(12.6 %)(圖1-B)。在二核苷酸SSR重復(fù)單元中,含有GA/TC單元的數(shù)量最多,有61 660個(gè),占25 %;在三核苷酸重復(fù)單元中,ATT/AAT單元最多,占1.1 %;在四核苷酸重復(fù)單元中,TTTA/TAAA單元最多,占0.5 %(圖1-C)。在SSR單元中,有60 262條SSR單元未能匹配到對(duì)應(yīng)染色體,占25 %;3號(hào)染色體與23號(hào)染色體上獲得SSR單元最多,其數(shù)量與占比分別為9081和9018個(gè),3.68 %和3.65 %;16號(hào)染色體與27號(hào)染色體上獲得SSR單元最少,其數(shù)量與占比分別為4647和4226個(gè),1.88 %與1.71 %(圖1-D)。在獲得的SSR中發(fā)現(xiàn),隨著SSR長(zhǎng)度增加,其占比總體呈減少趨勢(shì),其中長(zhǎng)度為10 bp 的SSR的占比最高,為33.4 %(圖1-E)。
A.主要重復(fù)單元; B.主要基序; C.主要重復(fù)單元; D.SSR位置; E.SSR長(zhǎng)度A.Top repeat types; B.Top motifs C.Top grouped motifs; D.SSR loci distribution; E. SSR length圖1 紅陽(yáng)獼猴桃全基因組SSR位點(diǎn)分析Fig.1 Genome-wide analysis of SSR loci of the Actinidia chinensis cv. Hongyang
從表1看出,不同物種基因組平均GC含量以大腸桿菌最高,紅陽(yáng)獼猴桃其次,畢赤酵母第三,釀酒酵母最低;各物種基因密碼子GC12含量以大腸桿菌最高,紅陽(yáng)獼猴桃其次,畢赤酵母居于第3位,釀酒酵母最低;基因密碼子第3位堿基的平均GC含量以大腸桿菌最高,紅陽(yáng)獼猴桃其次,畢赤酵母與紅陽(yáng)獼猴桃接近,釀酒酵母的最低。說(shuō)明,紅陽(yáng)獼猴桃密碼子使用模式與介于大腸桿菌與畢赤酵母間,但與畢赤酵母較接近,與釀酒酵母存在著較大差異。
圖2 紅陽(yáng)獼猴桃全基因組中性繪圖Fig.2 Neutrality plot analysis of Actinidia chinensis cv. Hongyang
從圖2看出, 紅陽(yáng)獼猴桃密碼子GC12取值范圍是0.269~0.813,GC3的取值范圍是0.148~0.943,GC3s與GC12的相關(guān)系數(shù)為r=0.239,回歸系數(shù)為0.44,即無(wú)顯著相關(guān)性,說(shuō)明紅陽(yáng)獼猴桃基因密碼子使用模式受到自然選擇的影響。
表1 不同物種密碼子的GC含量
表2 紅陽(yáng)獼猴桃全基因組相關(guān)性
注:“**”表示在1 %水平上顯著相關(guān)。
Note:‘**’represent significant correlation at 0.01 level.
研究顯示,紅陽(yáng)獼猴桃基因有效密碼子數(shù)(ENC)一般在25.88~61.00,平均為53.04。紅陽(yáng)獼猴桃基因有13條ENC小于35,只有少數(shù)基因具有密碼子偏性。相關(guān)性分析(表2)表明,ENC與密碼子數(shù)間達(dá)到顯著水平,說(shuō)明密碼子數(shù)對(duì)ENC有較強(qiáng)影響。
從圖3看出,大部分紅陽(yáng)獼猴桃基因均分布在標(biāo)準(zhǔn)曲線的周圍,而小部分基因則分布在遠(yuǎn)離標(biāo)準(zhǔn)曲線較遠(yuǎn)的位置,說(shuō)明紅陽(yáng)獼猴桃表達(dá)基因密碼子使用模式不僅受自然選擇的影響,也受突變壓力作用的影響。
圖3 紅陽(yáng)獼猴桃全基因組ENC繪圖Fig.3 ENC plot analysis of Actinidia chinensis cv. Hongyang
從表3看出,紅陽(yáng)獼猴桃共有28個(gè)同義密碼子的相對(duì)使用度(RSCU)大于1,說(shuō)明這28個(gè)密碼子可能是紅陽(yáng)獼猴桃偏好使用,RSCU>1的密碼子主要以A和U結(jié)尾。
從表4看出,對(duì)紅陽(yáng)獼猴桃基因進(jìn)行高、低表達(dá)樣本庫(kù)的比較,篩選出紅陽(yáng)獼猴桃基因組樣本的最優(yōu)密碼子共28個(gè),分別是Phe:UUC;Leu:CUC、CUG;Ile:AUC;Val:GUC、GUG;Tyr:UAC;Cys:UGC;His:CAC;Gln:CAG;Asn:AAC;Lys:AAG;Asp:GAC;Glu:GAG;Ser:UCC、UCG、AGC;Pro:CCC、CCG;Thr:ACC、ACG;Ala:GCC、GCG;Arg:CGC、CGA、CGG;Gly:GGC、GGG。除CGA以A結(jié)尾外,其他密碼子均以C或G結(jié)尾,說(shuō)明紅陽(yáng)獼猴桃最優(yōu)密碼子偏好使用以C/G結(jié)尾的密碼子。
表3 紅陽(yáng)獼猴桃同義密碼子的相對(duì)使用度
續(xù)表3 Continued table 3
氨基酸Amino acid密碼子Condon同義密碼子相對(duì)使用度RSCU氨基酸Amino acid密碼子Condon同義密碼子相對(duì)使用度RSCUGUG2967071.22GAG4808280.99SerUCU3162331.44CysUGU1389721.05UCC1963860.90UGC1264950.95UCA2659491.21TERUGA167161.35UCG1476610.67TrpUGG1881341.00ProCCU2433851.31ArgCGU927100.70CCC1381970.74CGC768980.58CCA2413821.30CGA950700.71CCG1205730.65CGG955980.72ThrACU2299031.29SerAGU2104020.96ACC1761130.99AGC1775350.81ACA2086951.17ArgAGA2250591.69ACG970510.55AGG2145321.61AlaGCU3549371.43GlyGGU2824721.14GCC2192890.88GGC1897800.77GCA2958701.19GGA2869801.16GCG1226900.49GGG2328810.94
表4 紅陽(yáng)獼猴桃編碼 CDS 高、低表達(dá)密碼子的同義密碼子使用頻率
續(xù)表4 Continued table 4
氨基酸Amino acid密碼子Condon同義密碼子使用頻率(次)RSCU高低氨基酸Amino acid密碼子Condon同義密碼子使用頻率(次)RSCU高低TyrUAU0.44 (2758)1.40 (13465)CysUGU0.56 (2424)1.26 (9384)UAC*1.56 (9777)0.60 (5797)UGC*1.44 (6249)0.74 (5518)TERUAA0.81 (500)0.93 (575)TERUGA1.45 (895)1.23 (764)UAG0.75 (462)0.84 (518)TrpUGG1.00 (6066)1.00 (8784)HisCAU0.41 (2382)1.47 (15165)ArgCGU0.46 (2181)0.84 (6494)CAC*1.59 (9119)0.53 (5446)CGC*1.47 (6940)0.34 (2651)GlnCAA0.76 (5214)1.13 (20080)CGA*0.73 (3446)0.67 (5175)CAG*1.24 (8499)0.87 (15531)CGG*1.36 (6394)0.50 (3896)AsnAAU0.63 (5433)1.43 (28579)SerAGU0.43 (3107)1.19 (16801)AAC*1.37 (11867)0.57 (11255)AGC*0.96 (7004)0.61 (8640)LysAAA0.60 (6602)1.03 (28870)ArgAGA0.73 (3448)2.07 (16038)AAG*1.40 (15563)0.97 (27110)AGG1.25 (5890)1.57 (12130)AspGAU0.70 (8163)1.53 (40834)GlyGGU0.65 (5552)1.39 (18923)GAC*1.30 (15077)0.47 (12437)GGC*1.51 (12934)0.52 (7148)GluGAA0.59 (6989)1.18 (41603)GGA0.73 (6242)1.32 (17990)GAG*1.41 (16587)0.82 (28775)GGG*1.12 (9616)0.76 (10407)
注:“*”代表最優(yōu)密碼子。
Note:‘*’represents high frequency codon.
從紅陽(yáng)獼猴桃各基因密碼子中第3位堿基的腺嘌呤A(11076.1821)、鳥(niǎo)嘌呤G(11452.5104999999)、胞嘧啶C(10328.0618)與胸腺嘧啶T(13742.6208)4種組分出現(xiàn)頻次之間的關(guān)系(圖4)看出,4個(gè)堿基均不均衡使用,紅陽(yáng)獼猴桃密碼子第3位堿基T使用頻率大于堿基A,堿基G使用頻率大于堿基C,表明紅陽(yáng)獼猴桃基因密碼子使用模式受突變壓力和自然選擇等多重因素的影響。
圖4 紅陽(yáng)獼猴桃全基因組PR2繪圖分析Fig.4 PR2 plot analysis of Actinidia chinensis cv. Hongyang
由于SSR 標(biāo)記具有豐富的多態(tài)性,該技術(shù)被廣泛應(yīng)用于品種的鑒定。在果樹(shù)種質(zhì)資源鑒定中利用尤為廣泛,柑、柚、梨等果樹(shù)品種已開(kāi)展了相關(guān)研究[21-23]。全基因組測(cè)序技術(shù)成熟開(kāi)啟了大規(guī)模開(kāi)發(fā)SSR標(biāo)記的新紀(jì)元。通常,研究者通過(guò)對(duì)NCBI、EMBL及DDBJ等數(shù)據(jù)庫(kù)內(nèi)信息進(jìn)行深度挖掘來(lái)獲取對(duì)應(yīng)課題的前期研究基礎(chǔ)。以紅陽(yáng)獼猴桃為例,不同于對(duì)整個(gè)基因組進(jìn)行新生物信息學(xué)手段進(jìn)行序列拼接及預(yù)測(cè)分析[24],自紅陽(yáng)獼猴桃全基因組公布以來(lái),有部分研究團(tuán)隊(duì)對(duì)獼猴桃基因組聚焦于某類基因家族的生物信息學(xué)分析[25]。研究采用GMATA首次完成了紅陽(yáng)獼猴桃基于全基因組序列的大規(guī)模SSR 標(biāo)記的開(kāi)發(fā),研究發(fā)現(xiàn)二核苷酸重復(fù)中GA/TC 最多,該結(jié)果與多數(shù)果樹(shù)[26-28]相同。有報(bào)道指出,Genomic-SSR與EST-SSR相比,具有多態(tài)性高的優(yōu)勢(shì),該研究成果[29]為紅陽(yáng)獼猴桃在種質(zhì)鑒定、遺傳圖譜構(gòu)建及基因定位等研究奠定了良好基礎(chǔ)。
GC含量高低不僅可作為基因組中堿基組成的一項(xiàng)指標(biāo),又可衡量生物突變方向性的強(qiáng)度。由于GC3含量不易受突變壓力影響,因此可將GC3s含量作為主要參數(shù)用于密碼子偏性研究。研究發(fā)現(xiàn),紅陽(yáng)獼猴桃GC平均含量(47.10 %)和GC12含量(47.69 %)較接近,且均低于50 %,說(shuō)明其基因中整體AT含量較GC含量略高。共確定28個(gè)最優(yōu)密碼子,除CGA以A結(jié)尾外,其他密碼子均是以C或G結(jié)尾,表明紅陽(yáng)獼猴桃最優(yōu)密碼子偏好使用以C/G結(jié)尾的密碼子,這與高等植物基因密碼子中趨于以C/G結(jié)尾[30]的研究結(jié)果相呼應(yīng)。其密碼子使用模式與畢赤酵母較接近,畢赤酵母是較理想的表達(dá)載體。有研究表明,突變壓力和自然選擇可能使物種密碼子使用模式受到影響[31-32]。通過(guò)中性繪圖、ENC-plot繪圖及PR2-plot繪圖綜合分析表明,自然選擇和突變壓力等多重因素都會(huì)對(duì)紅陽(yáng)獼猴桃基因密碼子使用模式造成影響。
研究以紅陽(yáng)獼猴桃全基因組為數(shù)據(jù)來(lái)源,基于全基因組序列進(jìn)行SSR位點(diǎn)分析,同時(shí)研究其密碼子使用模式,確定表達(dá)基因最優(yōu)密碼子,一方面可以通過(guò)改造異源基因密碼子提高其在紅陽(yáng)獼猴桃的表達(dá)水平,另一方面也可為紅陽(yáng)獼猴桃相關(guān)基因異源表達(dá)選擇更佳宿主,提高基因表達(dá)水平,同時(shí)也可為種質(zhì)鑒定、遺傳圖譜構(gòu)建及基因定位等研究提供理論依據(jù)。
通過(guò)對(duì)紅陽(yáng)獼猴桃全基因組分析,共得到247 012個(gè) SSR位點(diǎn),其中二核苷酸重復(fù)單元占87.7 %;長(zhǎng)度為10 bp 的SSR占33.4 %。綜合中性繪圖、ENC繪圖及PR2繪圖分析,紅陽(yáng)獼猴桃基因密碼子使用模式受突變壓力和自然選擇等多重因素的影響。通過(guò)對(duì)紅陽(yáng)獼猴桃編碼 CDS 高、低表達(dá)密碼子的同義密碼子使用頻率及高、低表達(dá)樣本庫(kù)的比較,確定了紅陽(yáng)獼猴桃最優(yōu)密碼子偏好使用以C/G結(jié)尾的密碼子。畢赤酵母的密碼子使用模式與紅陽(yáng)獼猴桃較接近,是理想的異源基因表達(dá)宿主。