趙婉清,張 敏,柳大軍,雷 慧,伊文博,劉 佳,高志忠,張虎芳
(忻州師范學(xué)院生物系,山西忻州034000)
菜蝽(Eurydema dominulus)屬半翅目(Hemiptera)異翅亞目(Heteroptera)蝽科(Pentatomidae)菜蝽屬(Eurydema),主要為害油菜、甘蘭、蘿卜等十字花科蔬菜,2005 年在我國新疆察哈爾右翼中旗暴發(fā)成災(zāi),是一種重要的農(nóng)業(yè)害蟲[1]。該種廣泛分布于古北區(qū),在我國從北到南各地均有發(fā)生,是菜蝽屬內(nèi)分布最廣泛的物種[2]。菜蝽體色鮮艷,不同分布地的個體之間有色斑變異,存在多種表型[3]。
線粒體存在于所有真核生物中,是細(xì)胞進行能量交換和新陳代謝的場所。線粒體基因組因其具有母系遺傳、結(jié)構(gòu)穩(wěn)定、進化速率適中等特點,逐漸成為現(xiàn)代系統(tǒng)發(fā)育和分子進化研究的重要分子標(biāo)記[4]。近年來,隨著新一代測序技術(shù)的發(fā)展,越來越多的昆蟲線粒體基因組被測得,為進一步研究昆蟲不同類群間的進化關(guān)系提供了基因組水平的證據(jù)[5]。昆蟲線粒體基因組通常為閉合環(huán)狀雙鏈DNA 分子,長度為15~18 kb,包含37 個編碼基因和一段控制區(qū)。其中,22 個轉(zhuǎn)運RNA 基因(Transfer RNA/tRNAs)和2 個核糖體RNA 基因(Ribosomal RNA/rRNAs)與翻譯過程有關(guān);13 個蛋白編碼基因(Protein-coding genes/PCGs)與細(xì)胞的呼吸有關(guān)[6-8]。
基因編碼蛋白質(zhì)的過程中,三聯(lián)體密碼子是mRNA 翻譯形成特定氨基酸的關(guān)鍵。64(43)種密碼子遠(yuǎn)多于20 種氨基酸,這就出現(xiàn)了不同密碼子編碼同一種氨基酸的現(xiàn)象,將這些密碼子稱為同義密碼子[9]。理想狀態(tài)下,即未受到選擇壓力或者突變的影響,同義密碼子的使用頻率是相同的。但是已有研究表明,同義密碼子的使用存在不均衡現(xiàn)象,部分密碼子使用頻率較高,這種性質(zhì)被稱為密碼子的偏好性[10]。目前,昆蟲線粒體基因組的研究多基于系統(tǒng)發(fā)育方面,對密碼子偏好性的研究相對較少,尤其針對同一物種密碼子偏好性的比較分析尚未見報道。
本研究通過對菜蝽線粒體基因組13 個蛋白編碼基因的密碼子偏好程度進行分析,以確定高頻密碼子,并利用統(tǒng)計方法探討偏好性的影響因素,以期為蝽科線粒體蛋白編碼基因的進化機制提供一些理論依據(jù);同時,菜蝽作為重要的農(nóng)業(yè)害蟲,分子水平的研究將為該種的防治提供一定的理論基礎(chǔ)。
菜蝽線粒體基因組序列下載自NCBI 網(wǎng)站GenBank 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/nuccore/NC_044762.1),將13 個蛋白編碼基因序列提取出來,保存為fasta 格式用于后續(xù)密碼子偏好性分析。
1.2.1 密碼子堿基組成分析 運用Codon W 1.4 分別計算13 條蛋白編碼基因DNA 序列的總GC 含量(GC)、密碼子第3 位上同義密碼子GC 的含量(GC3s)、密碼子偏好指數(shù)(Codon Bias Index,CBI)、密碼子適應(yīng)指數(shù)(Codon Adaptation Index,CAI)、有效密碼子數(shù)(Effective Number of Codons,ENC)等參數(shù),密碼子第1、2、3 位GC 含量(GC1、GC2、GC3)采用在線分析軟件CAIcal(http://genomes.urv.es/CAIcal)進行統(tǒng)計。GC12 表示密碼子第1、2 位GC 含量(GC1和GC2)的平均值。
1.2.2 同義密碼子使用偏好性分析 序列的同義密碼子相對使用頻率(Relative Synonymous Codon Usage,RSCU)在軟件MEGA 7.0 中統(tǒng)計;最優(yōu)密碼子采用ΔRSCU 法進行確定,即按照有效密碼子數(shù)(ENC)的大小進行排列,分別從排列好的數(shù)列前后兩端各取10%作為高、低表達(dá)基因樣庫,再計算2 組數(shù)據(jù)的RSCU 差值(ΔRSCU),若ΔRSCU>0.08 且在高表達(dá)基因庫中的RSCU 值>1,則確定該密碼子為最優(yōu)密碼子。
1.2.3 相關(guān)性分析 采用ENC 繪圖分析和中性繪圖分析密碼子使用偏好性的原因,其中,ENC 繪圖分析即以密碼子第3 位同義密碼子的GC 含量(GC3s)為橫坐標(biāo)、以有效密碼子數(shù)(ENC)為縱坐標(biāo),通過分析二者的相關(guān)性來評估密碼子使用偏好性;中性繪圖分析即以密碼子第3 位GC 含量(GC3)為橫坐標(biāo)、以密碼子第1、2 位GC 含量的平均值(GC12)為縱坐標(biāo),通過分析二者的相關(guān)性來評估選擇壓力對密碼子偏好性成因的影響。
基于13 條線粒體基因組蛋白編碼基因序列各位點的GC 含量分析結(jié)果如表1 所示,3 個位點的GC 含量分別為GC1 平均值28.57%,波動范圍為13.21%~40.09%;GC2 平均值31.11%,波動范圍為22.64%~39.49%;GC3 平均值12.04%,波動范圍為8.92%~15.97%,3 個位點的GC 含量平均為23.93%,波動范圍為16.35%~30.03%。蛋白編碼基因序列的AU 含量遠(yuǎn)高于50%,且第3 位上的AU 含量最高,表明線粒體密碼子以A/U 結(jié)尾的頻率高于GC。
表1 菜蝽線粒體基因組蛋白編碼基因密碼子堿基組成和使用參數(shù)
有效密碼子數(shù)(ENC)用于評估某個基因的密碼子使用頻率與同義密碼子平均使用頻率的偏差,其取值一般在20~61,數(shù)值大小反映密碼子偏好性的強弱,當(dāng)ENC 為20 時,表明同義密碼子完全偏移;當(dāng)ENC 為61 時,表明同義密碼子完全無偏好性。菜蝽線粒體基因組的ENC 平均值為34.18,波動范圍為31.09~39.21,表明菜蝽線粒體基因在密碼子的使用上具有一定的偏好性。密碼子的偏好性指數(shù)(CBI)反映一個基因中高表達(dá)優(yōu)越密碼子的組分情況,與ENC 有很好的相關(guān)性。密碼子的適應(yīng)指數(shù)(CAI)用于評估基因表達(dá)水平,取值一般在0~1,數(shù)值越大說明基因表達(dá)水平越高,即密碼子的使用偏好性越顯著。菜蝽線粒體基因組的CBI 平均值為-0.25,波動范圍為-0.17~-0.31;CAI 平均值為0.11,波動范圍為0.07~0.13,這也表明菜蝽線粒體基因組密碼子的使用具有一定程度的偏好性。
經(jīng)數(shù)據(jù)分析計算得到菜蝽線粒體蛋白編碼基因相對同義密碼子使用度如表2 所示,UUU、UUA、AUU、AUA 等以A 或者U 結(jié)尾的堿基的同義密碼子出現(xiàn)頻率較高,其RSCU 值均大于1,屬于菜蝽線粒體基因組偏好使用的密碼子;相反,UUC、UUG、CUC、CUG 等以C 或者G 結(jié)尾的同義密碼子出現(xiàn)頻率較低,其RSCU 值均小于1,屬于使用頻率較低的密碼子。UAA 和UAG 均為菜蝽線粒體基因組密碼子的終止密碼子,其中,UAA 為偏好使用密碼子,其相對使用頻率(RSCU)為1.26,UAG 的相對使用頻率(RSCU)為0.74。
表2 菜蝽線粒體蛋白編碼基因相對同義密碼子使用度
按照13 條序列的ENC 值大小排列后,從兩端各取10%即2 條序列組成高、低表達(dá)樣本庫,分析結(jié)果如表3 所示,共有12 個最優(yōu)密碼子,分別為異亮氨酸(Ile)AUU、纈氨酸(Val)GUU、絲氨酸(Ser)UCU、AGU 以及脯氨酸(Pro)CCA、蘇氨酸(Thr)ACU、丙氨酸(Ala)GCU、組氨酸(His)CAC、天冬氨酸(Asp)GAU、色氨酸(Trp)UGA、精氨酸(Arg)CGA、甘氨酸(Gly)GGU。
表3 菜蝽線粒體蛋白編碼基因最優(yōu)密碼子確定
為分析菜蝽線粒體蛋白編碼基因所受到的突變與選擇壓力的影響,進行了中性繪圖分析,在中性繪圖分析中,若GC12 與GC3 間顯著相關(guān),則說明密碼子3 個位點的堿基組成沒有差異,密碼子的使用受到突變因素的影響;若GC12 與GC3 間相關(guān)性不顯著,說明密碼子第1、2 位和第3 位堿基組成有偏好性,密碼子使用偏好性是受到選擇壓力的影響。
從圖1 可以看出,線性回歸方程顯示,菜蝽線粒體基因組密碼子GC12 含量與GC3 含量呈正相關(guān),但不顯著(R2=0.034 5),表明密碼子使用偏好性的形成主要受到選擇壓力作用的影響。
根據(jù)ENC 繪圖分析進一步確定選擇壓力是密碼子偏好性的主要影響因素,若點位于標(biāo)準(zhǔn)曲線上,則表示該點所對應(yīng)基因的密碼子使用偏好性不受自然選擇壓力的影響。從圖2 可以看出,所有的點均分布在標(biāo)準(zhǔn)曲線附近,且相對集中,ENC 取值為31.09~39.21,同義密碼子第3 位GC(GC3s)含量為0.084~0.165;除較少的一部分點分布于標(biāo)準(zhǔn)曲線外部,其余的點均分布在標(biāo)準(zhǔn)曲線左下側(cè)。由此可知,本研究中菜蝽線粒體基因組密碼子使用偏好性主要受選擇壓力的影響。
堿基組成和基因組的進化存在密不可分的關(guān)系。本研究結(jié)果表明,菜蝽線粒體蛋白編碼基因的GC 含量平均值為23.93%(16.35%~30.03%),明顯低于AT 含量,且密碼子各位點的含量也稍有差異(GC2>GC1>GC3),相關(guān)研究表明,該現(xiàn)象與昆蟲線粒體基因組在進化進程中具有的AT 偏倚性相關(guān)[11]。本研究篩選出AUU、GUU、UCU、AGU、CCA、ACU、GCU、CAC、GAU、UGA、CGA、GGU 共12 個密碼子為菜蝽線粒體蛋白編碼基因的最優(yōu)密碼子,其中,有8 個密碼子以U 結(jié)尾,說明菜蝽線粒體蛋白編碼基因更偏愛以U 結(jié)尾的密碼子。菜蝽線粒體蛋白編碼基因的ENC 平均值為34.18,波動范圍在31.09~39.21,按照ENC 值小于35 密碼子偏好性較強、大于35 則較弱的標(biāo)準(zhǔn)[12],該種線粒體基因組密碼子使用雖然具有一定的偏好性,但是較弱。
本研究的中性繪圖分析結(jié)果表明,GC12 和GC3 間相關(guān)性不顯著,擬合方程為正值且斜率較?。煌瑫r,GC3 含量遠(yuǎn)小于GC1 和GC2,進一步說明密碼子第3 位的堿基組成與前2 位的相似度較低,受到突變因素的影響較弱。ENC 繪圖分析結(jié)果也說明了這一論點,圖中沒有點位于標(biāo)準(zhǔn)曲線上且所有點均集中分布于標(biāo)準(zhǔn)曲線左側(cè)范圍,實際ENC值與理論ENC 值差異較大。本研究的相關(guān)性分析證明,菜蝽線粒體密碼子使用偏好性受到選擇壓力的影響作用更大[13-14]。
越來越多的的研究表明,基因密碼子使用偏好性是生物進化的重要特征[15],造成該特征的影響因素并不是單一的,除選擇壓力作用外,基因突變、tRNA豐度、基因長度、表達(dá)水平等都會造成密碼子的使用偏好[16-19],其中,突變和選擇壓力是普遍認(rèn)為的主導(dǎo)因素[20]。本研究通過多種方法結(jié)合分析證明,選擇壓力是造成菜蝽線粒體蛋白編碼基因密碼子使用的主要原因,但具體影響機制還需進一步研究。