宋興超, 趙園園, 孟金柱, 吳震洋, 安清明
(銅仁學(xué)院農(nóng)林工程與規(guī)劃學(xué)院/貴州省梵凈山地區(qū)生物多樣性保護(hù)與利用重點(diǎn)實(shí)驗(yàn)室,貴州銅仁 554300)
原癌基因(-)是即刻早期基因(immediately early genes,簡稱IEGs)家族成員之一,也稱快速反應(yīng)基因,即細(xì)胞受到外部刺激和損傷后最先表達(dá)-基因。-基因最早于1966年作為FBJ和FBR小鼠成骨肉瘤病毒(HSVs)中-癌基因的同源序列而被鑒定。作為一種特定環(huán)境下表達(dá)的轉(zhuǎn)錄因子,-基因及其蛋白質(zhì)表達(dá)產(chǎn)物不僅參與細(xì)胞的正常生長與分化,而且在細(xì)胞內(nèi)信息傳遞和能量代謝過程中也起著極為重要的作用,特別是能夠參與神經(jīng)細(xì)胞的生長、發(fā)育和分化等過程。研究表明,-基因的表達(dá)與骨骼肌細(xì)胞和脂肪的形成存在關(guān)聯(lián),并且-基因的變異與表達(dá)對畜禽肌纖維性狀及馬鹿茸生長可能產(chǎn)生一定的影響。郭云雁等的研究表明,豬-基因外顯子4中檢測到2個多態(tài)位點(diǎn)(G2650A與A2910G),產(chǎn)生3種基因型(AA、AB、BB),并且提高G2650A位點(diǎn)等位基因B的頻率,從而增加肌纖維密度與紅肌纖維的比例。Reiner等利用聚合酶鏈?zhǔn)椒磻?yīng)-單鏈構(gòu)象多態(tài)性(PCR-SSCP)方法分析皮特蘭與梅山豬F代群體-基因多態(tài)性,表明外顯子4中A2910G位點(diǎn)產(chǎn)生的不同基因型可以顯著影響總肌纖維和白肌纖維數(shù)以及白肌纖維、中間型肌纖維和紅肌纖維的比例與直徑。Francis等采用逆轉(zhuǎn)錄聚合酶鏈?zhǔn)椒磻?yīng)(RT-PCR)法檢測到-基因在馬鹿茸真皮層的表達(dá)量高于間充質(zhì)、前軟骨和軟骨組織。韓春梅等的研究表明,-基因在塔里木馬鹿茸快速生長期參與了茸皮干細(xì)胞的增殖與分化,并可調(diào)節(jié)成骨細(xì)胞的分化。近年來,國內(nèi)外對牛、綿羊、豬和雞-基因的研究報(bào)道較多,然而未見山羊該基因資料。因此,獲得山羊-基因全序列是進(jìn)一步研究其與肌纖維性狀是否相關(guān)的基礎(chǔ)。本研究利用電子克隆(in silico cloning)法對山羊-基因進(jìn)行分離,進(jìn)一步預(yù)測分析該基因結(jié)構(gòu)特征及其在山羊染色體上的定位,旨在為深入開展山羊-基因的表達(dá)特性與生理功能等研究提供基礎(chǔ)資料。
美國國立生物技術(shù)信息中心(NCBI)的GenBank數(shù)據(jù)庫;歐洲生物信息學(xué)研究所(EBI)的EMBL核酸序列數(shù)據(jù)庫;日本國家遺傳研究所(NIG)的DDBJ數(shù)據(jù)庫;山羊表達(dá)序列標(biāo)簽EST(http://www.ncbi.nlm.nih.gov/nucest/?term=goat)和基因組Genome(http://goat.kiz.ac.cn/GGD/)數(shù)據(jù)庫。
用BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)進(jìn)行基本局域相似性比對;用CAP 3.0軟件(http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::cap3)進(jìn)行重疊群序列組裝;利用ORF finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)查詢開放閱讀框(ORF);用BioEdit 7.0分析核苷酸序列堿基組成;用ProtParam(http://web.expasy.org/protparam/)進(jìn)行蛋白質(zhì)理化特性分析;蛋白質(zhì)二級結(jié)構(gòu)預(yù)測:PHD、DSC、MLRC(http://npsa-pbil.ibcp.fr);基因染色體定位(http://goat.kiz.ac.cn/blast/blast.php);用DNAStar 7.0進(jìn)行多序列比對;用MEGA 5.05進(jìn)行系統(tǒng)進(jìn)化樹構(gòu)建。
首先,將牛-基因cDNA序列(GenBank登錄號為AY322482)在NCBI中進(jìn)行BLASTn分析,確定山羊的-基因尚未公布;其次,以牛該基因cDNA序列作為探針,利用NCBI網(wǎng)站中BLAST工具檢索山羊表達(dá)序列標(biāo)簽(expressed sequence tag,簡稱EST)數(shù)據(jù)庫(圖1),篩選出同源性較高的基因簇,將基因簇中的山羊EST序列(EV439830、EV442817、EV440759、EV448345)下載到本地,保存為“Fasta”格式的txt文件,通過CAP 3.0軟件進(jìn)行拼接得到重疊群(conting),以此重疊群為種子序列重復(fù)上述檢索步驟直至序列不能再延伸為止。
將電子克隆獲取的山羊-基因cDNA序列利用ORF Finder程序預(yù)測開放閱讀框;利用BioEdit 7.0軟件分析-基因編碼序列的堿基組成;通過ProtParam在線程序預(yù)測-基因編碼氨基酸序列的理化特性;山羊c-fos蛋白的二級結(jié)構(gòu)由PHD、DSC和MLRC等3種方法共同完成;采用DNAStar 7.0軟件包中MegAlign程序?qū)Λ@取的山羊等15個物種的-基因編碼區(qū)核苷酸及氨基酸序列進(jìn)行相似性比對;山羊等物種-基因系統(tǒng)進(jìn)化樹通過MEGA 5.05軟件鄰接(NJ)法構(gòu)建。
基于山羊EST數(shù)據(jù)庫電子延伸獲得1條 1 513 bp 的核苷酸序列,將該序列經(jīng)過BLASTn檢索,與GenBank中已公布的綿羊(NM_001166182)、牛(AY322482)和豬(JX861095)-基因的同源性分別為99%、98%、94%,初步判定其為山羊的-基因序列。利用ORF finder程序預(yù)測該段序列的開放閱讀框,由圖2可知,山羊-基因cDNA序列包括一段從122~1 264位點(diǎn)共計(jì) 1 143 bp 的開放閱讀框,共編碼380個氨基酸(aa)。
經(jīng)過CAP 3.0軟件拼接的山羊-基因包括1 143 bp的完整cDNA序列,編碼區(qū)5′UTR為 121 bp,3′UTR長度為249 bp?!癆TG”為起始密碼子,終止密碼子為“TGA”。山羊-基因中起始密碼子的-3位和+4位均為A,符合Kozak規(guī)則:第1個ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律。BioEdit 7.0軟件統(tǒng)計(jì)山羊-基因堿基組成(圖3)為:A(21.08%)、C(33.16%)、G(26.77%)和T(18.99%),G+C(59.93%)含量高于A+T(40.07%)。
ProtParam在線程序預(yù)測結(jié)果表明,山羊-基因編碼的380個氨基酸中包括:51個酸性氨基酸,占13.42%;33個堿性氨基酸,占8.68%;113個極性氨基酸,占29.74%;110個疏水性氨基酸,占28.95%,可見山羊c-fos蛋白中極性氨基酸的比例最高,含量最少的為堿性氨基酸。山羊c-fos蛋白化學(xué)分子式為CHNOS,由5 620個原子組成,分子質(zhì)量為40.749 4 ku,理論等電點(diǎn)()為4.77,屬于酸性蛋白;其水溶液在280 nm處的消光系數(shù)約為24 910,推測半衰期為30 h,不穩(wěn)定指數(shù)為75.88,為不穩(wěn)定蛋白(計(jì)算指數(shù)<40:穩(wěn)定,計(jì)算指數(shù)>40:不穩(wěn)定);脂肪系數(shù)為62.74,總平均親水性系數(shù)為-0.414。山羊c-fos蛋白的20種基本氨基酸組成中,含量最高的是絲氨酸(Ser,54個,14.2%),色氨酸(Trp,2個,0.5%)含量最少,帶正電荷的氨基酸殘基[精氨酸(Arg)+賴氨酸(Lys)]為51個,帶負(fù)電荷的氨基酸殘基[天冬氨酸(Asp)+谷氨酸(Glu)]為33個。
通過PHD、DSC、MLRC等3種方法分別預(yù)測蛋白二級結(jié)構(gòu),然后綜合3種方法得到最終結(jié)果發(fā)現(xiàn),山羊-基因編碼蛋白主要以無規(guī)則卷曲為主,其他為α-螺旋,延伸直鏈較少(表1)。
表1 山羊c-fos基因編碼蛋白二級結(jié)構(gòu)預(yù)測 %
利用ProtScale在線程序的“Kyte and Doolittle”算法預(yù)測蛋白親疏水性(圖4)。依據(jù)“氨基酸正分值越高疏水性越強(qiáng)和負(fù)分值越低親水性越強(qiáng)”的規(guī)律,結(jié)果表明,山羊-基因的編碼蛋白多肽鏈第64位纈氨酸(Val)具有最高的正分值(1.556),表現(xiàn)為該位點(diǎn)疏水性最強(qiáng),第137位谷氨酸(Glu)具有最低的負(fù)分值(-3.256),表現(xiàn)最強(qiáng)的親水性,整個多肽鏈呈現(xiàn)親水性。
從GenBank中檢索并下載11個物種的-基因同源序列,包括綿羊()、牛()、馬鹿()、豬()、貓()、人()、黑猩猩()、獼猴()、小家鼠()、褐家鼠()、原雞(),與本研究獲取的山羊()該基因序列一起錄入DNAStar 7.0軟件包,利用MegAlign程序基于Clustal W方法進(jìn)行12個物種-基因核苷酸及氨基酸序列的相似性分析(表2),進(jìn)一步利用MEGA 5.05軟件的鄰接法和Poisson Correction模型基于氨基酸序列比對結(jié)果構(gòu)建-基因分子進(jìn)化樹(圖5)。
由表2可知,山羊與同屬反芻動物的綿羊、牛和馬鹿-基因核苷酸序列相似性為95.4%~99.5%,與偶蹄目豬相似性達(dá)94.0%,與小家鼠等物種的相似性在86.4%~92.7%之間,而與原雞的相似性最低;編碼氨基酸序列的相似性具有相同的變化規(guī)律,初步判定-基因在物種間保守性較強(qiáng),特別是山羊與綿羊該基因氨基酸序列相似性達(dá)到100%。
表2 山羊與其他物種c-fos基因核苷酸及氨基酸序列相似性分析
由圖5可知,12個物種被劃分為界限清晰的5個類群,其中山羊、綿羊、馬鹿、牛和豬聚合為偶蹄目(Artiodactyla),表明它們之間具有更近的親緣關(guān)系,人、黑猩猩和獼猴同在靈長目(Primates)分支上,小家鼠和褐家鼠為嚙齒目(Rodentia),貓為食肉目(Carnivora),另外屬雞形目(Galliformes)的原雞單獨(dú)為一支,這種分子進(jìn)化結(jié)果與NCBI中已知的生物分類基本一致,可以初步推斷,-基因可用于物種進(jìn)化研究。
經(jīng)過查詢NCBI上的Gene數(shù)據(jù)庫,牛和綿羊-基因分別定位于10號染色體(86 883 739~86 887 170)和7號染色體(83 397 749~83 400 947)上,但是未公布該基因在山羊染色體的定位信息。山羊、綿羊和牛在動物分類學(xué)中同屬??苿游?,牛和山羊具有60條染色體,而綿羊由于“羅伯遜易位”存在54條染色體,沈祖楠等的研究表明,山羊與牛常染色體的同源性較山羊和綿羊高,由此初步推測-基因也定位于山羊10號染色體上。本研究利用電子克隆獲取的山羊-基因cDNA序列在山羊基因組數(shù)據(jù)庫中進(jìn)行BLASTn檢索,發(fā)現(xiàn)該基因501~1 143位點(diǎn)與山羊基因組(登錄號為JACWUT010000010.1)10號染色體82 537 963~82 538 605 位核苷酸相似性達(dá)到100%(圖6),但是與其他染色體中的序列相似性卻很低,表明山羊-基因很有可能定位于10號染色體上。上述-基因在山羊染色體中的位置只是電子定位和預(yù)測,尚需利用熒光原位雜交等相關(guān)分子生物學(xué)試驗(yàn)進(jìn)一步確認(rèn)。
電子克隆別稱虛擬克隆或電子cDNA文庫篩選,該方法是以生物信息數(shù)據(jù)庫中的表達(dá)序列標(biāo)簽(expressed sequence tag,簡稱EST)、核苷酸及蛋白序列作為基礎(chǔ)資料,選擇相關(guān)生物信息軟件,對EST序列進(jìn)行同源檢索、聚類、拼接及延伸,進(jìn)而能夠快速獲取新的功能基因。與傳統(tǒng)克隆全長新基因的方法相比,電子克隆具有成本低、效率高、針對性強(qiáng)及技術(shù)要求低等優(yōu)點(diǎn)。目前,山羊EST數(shù)據(jù)庫已經(jīng)非常豐富且更新較為迅速,近年來,隨著大規(guī)模生物基因組測序與生物信息學(xué)技術(shù)的飛速發(fā)展,利用電子克隆獲得動植物新基因的報(bào)道日益增多,通過電子克隆分離山羊基因有助于鑒定和探索新的功能基因及其生物學(xué)功能。然而,數(shù)據(jù)庫中的EST數(shù)據(jù)最高精確度為97%以及某些基因存在多種剪切體,因此電子克隆獲得的基因序列與真實(shí)序列之間可能稍有差別,仍需要通過實(shí)驗(yàn)室克隆進(jìn)行驗(yàn)證。目前,有關(guān)山羊-基因的克隆及其功能研究報(bào)道較少,本研究對山羊該基因研究的目的在于為其分子克隆及后續(xù)研究奠定理論基礎(chǔ)。
本研究利用山羊EST數(shù)據(jù)庫,通過電子克隆技術(shù)獲得了山羊-基因的cDNA全長序列,進(jìn)一步采用生物信息學(xué)方法對該基因的結(jié)構(gòu)及其編碼蛋白的理化特性進(jìn)行預(yù)測和分析,解析了山羊-基因的染色體定位,為將來進(jìn)行山羊-基因的分子克隆、表達(dá)調(diào)控及生物學(xué)功能等研究奠定基礎(chǔ)。研究結(jié)果表明,電子克隆獲得的山羊-基因ORF為1 143 bp,共編碼380個氨基酸,這與在綿羊上的研究結(jié)果相符。Fujiwara等通過DNA探針分離鑒定了雞的-基因,包括4個外顯子,編碼367個氨基酸,可能不同物種該基因具有不同的進(jìn)化模式而導(dǎo)致基因組結(jié)構(gòu)存在差異,但-基因在雞、小鼠和人之間具有較高的相似性,并且編碼序列中G+C含量高于A+T,這與本研究結(jié)果基本一致。其次,基于-基因編碼氨基酸序列構(gòu)建的12個物種的系統(tǒng)進(jìn)化樹及其相似性分析結(jié)果也與偶蹄目、食肉目、靈長目、雞形目等4類動物的傳統(tǒng)形態(tài)及生物學(xué)分類地位一致。本研究推測山羊-基因可能定位于10號染色體上,尚需進(jìn)一步利用熒光原位雜交技術(shù)對-基因進(jìn)行物理定位。
本研究將-基因作為影響山羊肌纖維性狀的候選基因進(jìn)行分析,基于NCBI和EST等數(shù)據(jù)庫,運(yùn)用生物信息學(xué)方法初步獲得了1條山羊-基因的全長cDNA序列并應(yīng)用相關(guān)分子生物學(xué)軟件預(yù)測了該基因在山羊中的結(jié)構(gòu)特征,這為山羊肉質(zhì)性狀形成機(jī)理的深入分析提供了相應(yīng)的理論基礎(chǔ),同時也為進(jìn)一步研究-基因的表達(dá)規(guī)律及生物學(xué)功能奠定了科學(xué)依據(jù)。