譚傳港,喻達(dá)輝,任童童,徐志雄,何積翠,李素萍,白麗蓉
(北部灣大學(xué)海洋學(xué)院,廣西北部灣海洋生物多樣性養(yǎng)護(hù)重點(diǎn)實(shí)驗(yàn)室,廣西 欽州 535011)
同義密碼子為編碼相同氨基酸的密碼子,其在基因中以不同頻率出現(xiàn)的現(xiàn)象稱為密碼子使用偏好性[1]。突變和自然選擇是產(chǎn)生密碼子偏好性的主要原因[2-3],一般體現(xiàn)在同義密碼子的第3 位密碼子上[4]。研究密碼子偏好性不僅可反映物種的進(jìn)化關(guān)系,對研究自然選擇、遺傳漂變及基因重組等現(xiàn)象也有重要意義。mtDNA有獨(dú)立的遺傳體系,可自主復(fù)制、轉(zhuǎn)錄和翻譯,有組成簡單、母系遺傳、進(jìn)化速度快等特點(diǎn)[5-6],是細(xì)胞核外重要的遺傳物質(zhì)。目前,線粒體基因組密碼子使用分析已在瓜螺(Melo melo)[9]、文蛤?qū)伲∕eretrix)[10]等水生動(dòng)物中得到充分研究。姜艷[11]通過生物信息學(xué)方法對20 種小鯢科線粒體基因組密碼子的使用模式進(jìn)行了聚類分析,為小鯢科物種分子系統(tǒng)發(fā)育提供了新思路。段曉克[3]分析了鲌亞科線粒體基因密碼子,較好地反映鲌亞科魚類的進(jìn)化關(guān)系。Uddin等[4]分析了魚綱、鳥類和哺乳動(dòng)物線粒體ND1 基因的密碼子使用偏倚和系統(tǒng)發(fā)育,表明ND1 基因在魚綱、鳥類和哺乳動(dòng)物中存在差異。珠母貝(Pinctada margaritifera)隸屬于軟體動(dòng)物門瓣鰓綱珍珠貝目珍珠貝科珠母貝屬[12],主要分布在臺(tái)灣及廣東以南沿海,印度-西太平洋暖海區(qū)[13-15],是唯一生產(chǎn)黑珍珠的珍珠貝,其外殼可用于制作貝雕等工藝品,是重要且稀缺的海洋經(jīng)濟(jì)貝類。由于過度捕撈,珠母貝自然資源大幅減少,培育有優(yōu)良性狀的親本繁殖后代對保護(hù)珠母貝種質(zhì)資源有重要意義,而明確密碼子偏好性可有效提高外源基因的表達(dá)并優(yōu)化性狀決定基因,加速優(yōu)良親本的培育進(jìn)程[9]。筆者研究珠母貝密碼子偏好性,探究珠母貝線粒體基因組密碼子組成特征和偏好,為提高外源基因表達(dá)效率和系統(tǒng)發(fā)育提供理論依據(jù),也為珠母貝種質(zhì)資源保護(hù)提供參考資料。
珠母貝線粒體基因組CDS(Coding DNA sequence)序列來源于NCBI 數(shù)據(jù)庫(HM467838.1),線粒體基因組總長15 680 bp,包含34 個(gè)基因,其中可編碼蛋白的CDS有14條。由于,短序列無法正確計(jì)算有效密碼子數(shù)[16],為降低誤差,選取10 條大于300 bp 且起始密碼子以ATG 開頭的非重復(fù)序列用于密碼子偏好性分析。
以選擇的CDS 為研究對象,利用CodonW 1.4.2軟件分析密碼子偏好參數(shù),包括密碼子的GC 比例(N)、密碼子在第1、2、3 位上的GC(GC1、GC2、GC3)比例(N)、同義密碼子第3位的GC(GC3S)比例、密碼子的偏好性指數(shù)(Codon bias index,CBI)、密碼子的適應(yīng)指數(shù)(Codon adaption index,CAI)、最優(yōu)密碼子使用頻率(Frequency of optimal codon,F(xiàn)OP)、有效密碼子數(shù)(Effective number of codon,ENC,nENC)、相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)和總平均親水性(Grand average of hydrophilia,Gravy)。
1.3.1 中性繪圖分析 用以初步判斷影響密碼子使用偏好性的因素。先根據(jù)密碼子的NGC1和NGC2計(jì)算出其平均值NGC12,以NGC12為縱坐標(biāo),NGC3為橫坐標(biāo)作散點(diǎn)圖,每一個(gè)點(diǎn)在圖中均表示一個(gè)基因。通過分析NGC1、NGC2與NGC3之間的關(guān)系,初步判斷出密碼子使用偏好是受突變影響還是由選擇造成,如散點(diǎn)圖均在對角線上,則密碼子偏好性受突變影響,否則受到選擇壓力的影響[17-19]。
1.3.2 ENC-plot 繪圖分析 使用SPSS 22.0 進(jìn)行ENC-plot 繪圖分析,以進(jìn)一步確定影響密碼子偏好的因素。以NGC3S為橫坐標(biāo),ENC(nENC)為縱坐標(biāo),以坐標(biāo)定位各個(gè)基因,建立散點(diǎn)圖,并在圖中添加ENC 值的標(biāo)準(zhǔn)曲線[20]。如每個(gè)基因均分布在標(biāo)準(zhǔn)曲線附近,則密碼子偏好僅受到突變作用的影響;如各基因集中分布在標(biāo)準(zhǔn)曲線下方,則密碼子偏好受選擇影響。標(biāo)準(zhǔn)曲線方程為:
ENC 比值頻數(shù)(nENC,Ratio)分布情況可更準(zhǔn)確體現(xiàn)ENC 期望值(nENC,exp)與ENC 實(shí)際值(nENC,obs)的差異,當(dāng)nENC,exp與nENC,obs接近時(shí)表示基因密碼子受突變壓力的影響,當(dāng)兩者差別較大時(shí)則表示其受自然選擇的影響。
1.3.3 對應(yīng)性分析 是一種利用多元統(tǒng)計(jì)探究不同基因密碼子變異趨勢的方法。利用CodonW 1.4.2軟件的RSCU 對應(yīng)分析功能來分析密碼子,從而反映密碼子使用偏好性特點(diǎn)[21]。
以ENC 偏好性值的大小對基因進(jìn)行排序,兩端各選出20%基因,分別建立高表達(dá)基因庫和低表達(dá)基因庫,再計(jì)算兩庫的同義密碼子使用度的差值(ΔRSCU),選擇ΔRSCU >0.08的密碼子作為高表達(dá)密碼子,選擇RSCU >1.00為高頻密碼子。若ΔRSCU >0.08且在高表達(dá)基因庫中的RSCU 值>1,則確定其為最優(yōu)密碼子[22]。
珠母貝線粒體基因組是總長15 680 bp 的環(huán)狀DNA分子,其內(nèi)包含有34條編碼蛋白的CDS(表1)。為減少誤差,選擇以ATG 為起始密碼子、長度大于300 bp 的10 個(gè)非重復(fù)CDS 序列進(jìn)行密碼子偏好性分析。不同基因密碼子不同位置的GC 含量并不相同,總GC 比例為41.1%~47.5%,平均43.4%,第1、2、3 位密碼子的GC 比 例(NGC)分別是35.2%~51.8%、35.8%~46.8%、37.7%~51.8%,均值分別為45.6%、40.0%、44.1%;NGC3S為33.60%~48.10%,平均40.90%。NU3S、NG3S分別為44.51%、37.81%,分別大于NA3S、NC3S(23.24%和15.19%),表明珠母貝線粒體基因組主要以U(T)/G 結(jié)尾,避免以C 結(jié)尾(表2)。CBI為-0.184~-0.040,平均值為-0.105。CAI 為0.119~0.181,平均值為0.151。FOP 為0.259~0.359,平均值為0.322。nENC為39.72~54.35,平均值為47.46,均大于35,說明珠母貝基因組密碼子偏性較弱。Gravy為0.216 6~1.038 4,平均值為0.741 2(表2)。
表1 珠母貝線粒體基因組特征Table 1 The characteristics of mitochondrial genome of Pinctada margaritifera
表2 珠母貝線粒體基因組密碼子主要參數(shù)Table 2 Parameters in mitochondrial genome of Pinctada margaritifera
表3 可見,GC1比例和GC2比例極顯著負(fù)相關(guān)(P<0.01),其相關(guān)系數(shù)為-0.774,與ENC 呈顯著正相關(guān)(P<0.05),其相關(guān)系數(shù)為0.666;GC3比例與GC3S、GC比例為極顯著正相關(guān)(P<0.01),其相關(guān)系數(shù)分別為0.985、0.886;GC 比例和GC3S比例極顯著正相關(guān)(P<0.01),相關(guān)系數(shù)為0.827。CBI 與FOP極顯著正相關(guān)(P<0.01),相關(guān)系數(shù)為0.944。
表3 珠母貝密碼子主要參數(shù)的相關(guān)分析Table 3 Correlation analysis of the parameters of codons in coding sequence in Pinctada margaritifera
表4 可見,26 個(gè)密碼子的RSCU >1.00。第3 位堿基中,有14個(gè)以U結(jié)尾,9個(gè)以G結(jié)尾,3個(gè)以A結(jié)尾。以U 或G 結(jié)尾的密碼子為23 個(gè),占全部密碼子的88.46%,說明珠母貝線粒體基因組密碼子偏愛以U(T)或G結(jié)尾。
表4 珠母貝線粒體各氨基酸相對同義密碼子使用度(RSCU)Table 4 RSCU analysis on protein coding region in Pinctada margaritifera
2.2.1 中性繪圖分析 圖1 表明,NGC12為41.00%~45.35%,NGC3為37.70%~51.80%,NGC12與NGC3的相關(guān)系數(shù)為0154 5,相關(guān)性未達(dá)顯著水平,回歸系數(shù)為0.142 9,說明NGC12與NGC3為弱相關(guān)。從圖1 可見,多數(shù)基因主要分布在對角線的下方和上方,少數(shù)分布在對角線上,說明自然選擇是密碼子偏向性形成的主要因素。
圖1 珠母貝線粒體基因中性繪圖分析Fig.1 Neutrality plot analysis of genes on mitochondrial of Pinctada margaritifera
2.2.2 ENC-plot繪圖分析 圖2可見,代表基因均位于標(biāo)準(zhǔn)曲線下方。表5 顯示,50.00%的基因ENCRatio頻數(shù)為0.15~0.20,20.00%的基因ENCRatio頻數(shù)為0.20~0.25??梢姡珽NCexp與ENCobs頻數(shù)差異較表明珠母貝線粒體基因組密碼子偏好受到突變的影響,但更多受選擇的影響。
圖2 珠母貝線粒體基因密碼子ENC-plot繪圖分析Fig.2 ENC-plot analysis of codons in mitochondrial genome of Pinctada margaritifera
2.2.3 對應(yīng)性分析 如圖3 所示,第1 向量軸占比為23.43%,第2向量軸占比為14.84%,第2、4軸分別為14.12%和11.47%,4 個(gè)向量軸總差異為63.86%,說明第1軸對珠母貝線粒體基因組密碼子偏好性造成的影響最大。第1 向量軸與CAI 呈極顯著正相關(guān),相關(guān)系數(shù)為0.895,與GC2比例呈極顯著負(fù)相關(guān),其相關(guān)系數(shù)為-0.682,表明堿基差異對珠母貝線粒體基因組密碼子偏好性有一定影響。第1 軸與GC1比例、GC 比例、CBI、FOP、ENC 均相關(guān)不顯著,相關(guān)系數(shù)分別為0.551、-0.239、0.289、0.363、0.330。以軸1為x軸,軸2 為y軸,建立坐標(biāo)系。從基因在坐標(biāo)軸的分布進(jìn)行分析,基因NAD1、COX2、CYTB分布比較接近,而NAD2、NAD4、ATP6分布比較集中,其他4 個(gè)基因則分布比較分散,說明COX1、COX3、NAD6、NAD5與其他基因密碼子偏好相差較大。
圖3 基于RSCU的珠母貝線粒體基因組密碼子的對應(yīng)性分析Fig.3 RSCU-based correspondence analysis of mitochondrial genome codon in Pinctada margaritifera
如表6 所示,將ΔRSCU >0.08 的密碼子確定為珠母貝線粒體基因組高表達(dá)密碼子,最后確定28個(gè)密碼子為高表達(dá)密碼子,其中14 個(gè)以U 結(jié)尾、9 個(gè)以G 結(jié)尾、3 個(gè)以A 結(jié)尾。比28 個(gè)高表達(dá)密碼子和26 個(gè)高頻密碼子(表3),將共有的密碼子作為最優(yōu)密碼子,最后確定,AGG、AUU、CCU、GAG、GCU、UGA 為最優(yōu)密碼子,其中有2 個(gè)密碼子以G 結(jié)尾,3個(gè)密碼子以U 結(jié)尾,說明最優(yōu)密碼子偏好以U(T)或G 結(jié)尾。
表6 珠母貝線粒體基因組高/低表達(dá)基因庫的同義密碼子相對使用度比較Table 6 Relative Synonymous Codon Usage(RSCU)of genes of mitochondrial genome in Pinctada margaritifera
本研究中,珠母貝mtDNA 編碼蛋白基因中,T3S比例為44.51%,G3S比例為37.81%,均大于A3S、C3S比例,可見珠母貝的mtDNA 編碼蛋白偏愛以U(T)堿基和G 結(jié)尾,避免使用C 結(jié)尾。在軟體動(dòng)物中,5種文蛤 屬貝類[10]的A3S、G3S、U3S的平均 分別為20.99%、15.09%、59.45%,偏向使用A、U(T)、G結(jié)尾,避免使用C 結(jié)尾,與珠母貝一致;在魚類中,斑石鯛(Oplegnathus punctatus)和條石鯛(O.fasciatus)[22]的A3S、C3S的平均比例分別為35.06%、38.60%,更偏向于A、C 結(jié)尾;在兩棲類中,小鯢科20 種動(dòng)物[11]均表現(xiàn)為更偏向于T 結(jié)尾,其次是A 和C,避免使用G 結(jié)尾。表明密碼子使用規(guī)律在不同物種中有一定差異,而在進(jìn)化關(guān)系較近的物種中,其線粒體基因組密碼子使用偏好性相似。珠母貝線粒體基因組ENC 平均值為47.46%,大于標(biāo)準(zhǔn)值35%,表明密碼子偏好性較弱。CAI 為0~1,數(shù)值越小代表基因密碼子適應(yīng)性越弱,偏向于高表達(dá)基因密碼子的程度越弱[9],而珠母貝線粒體CAI的平均值為0.151 1,進(jìn)一步表明珠母貝線粒體基因組密碼子為弱偏好性密碼子,RSCU 分析結(jié)果中,RSCU 值大于1.00 的密碼子數(shù)目為26 個(gè)。其中,第3 位堿基中有14 個(gè)以U(T)結(jié)尾,9 個(gè)以G 結(jié)尾;3 個(gè)以A 結(jié)尾。以U(T)或G結(jié)尾的密碼子為23 個(gè),占全部密碼子的88.46%,進(jìn)一步說明珠母貝線粒體基因組密碼子偏愛以U(T)或G結(jié)尾。
影響密碼子偏好性的因素較多,主要有自然選擇和突變,還有基因序列堿基組成偏好性、tRNA 豐度、GC 含量、基因長度、蛋白疏水性水平以及氨基酸保守性等[23-26]。本研究中,GC12、GC3比例的相關(guān)系數(shù)為0.393,相關(guān)性不顯著,說明自然選擇在珠母貝mtDNA 密碼子偏好性中起主導(dǎo)作用;ENC-plot 繪圖中代表基因均位于標(biāo)準(zhǔn)曲線下方,進(jìn)一步說明珠母貝mtDNA 密碼子偏好更多受選擇壓力的影響,受到突變影響次之。這與斑石鯛和條石鯛[22]、小鯢科20 種動(dòng)物[11]、5 種文蛤?qū)儇愵怺10]結(jié)果一致。篩選出AGG、AUU、CCU、GAG、GCU、UGA 共6 個(gè)密碼子為珠母貝線粒體基因組的最優(yōu)密碼子,其中,有3 個(gè)密碼子以U(T)結(jié)尾,2 個(gè)密碼子以G 結(jié)尾,說明珠母貝線粒體蛋白編碼基因更偏愛以U(T)/G 結(jié)尾的密碼子。隨著最優(yōu)密碼子的確定還可通過對目的基因的密碼子進(jìn)行優(yōu)化,提高該基因的表達(dá)效率,為未來珠母貝功能基因表達(dá)調(diào)控研究、蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測等工作提供理論基礎(chǔ),也可為其種質(zhì)資源保護(hù)和人工育苗提供參考。
本研究基于生物信息學(xué)的方法,從多角度分析珠母貝密碼子偏好性,確定AGG、AUU、CCU、GAG、GCU、UGA 共6 個(gè)最優(yōu)密碼子,其中有5 個(gè)以U(T)或G 結(jié)尾,1 個(gè)以A 結(jié)尾。認(rèn)為自然選擇是造成珠母貝線粒體蛋白編碼基因密碼子偏好性的主要原因,具體影響機(jī)制還有待進(jìn)一步深入研究。