張慧敏, 李劍芳, 鄔敏辰
(1.江南大學(xué)食品學(xué)院,江蘇無錫 214122;2.江南大學(xué)醫(yī)藥學(xué)院,江蘇無錫 214122)
圓弧青霉脂肪酶基因序列的生物信息學(xué)分析
張慧敏1, 李劍芳1, 鄔敏辰*2
(1.江南大學(xué)食品學(xué)院,江蘇無錫 214122;2.江南大學(xué)醫(yī)藥學(xué)院,江蘇無錫 214122)
從圓弧青霉PG37中克隆了堿性脂肪酶(Lip I)基因,并采用生物信息學(xué)分析了PG37 Lip I基因攜帶的遺傳信息。序列分析結(jié)果表明:Lip I DNA序列全長1 480 bp,不存在重復(fù)序列,含有5個內(nèi)含子,5’端存在TATA box和多個轉(zhuǎn)錄因子結(jié)合位點;cDNA序列全長1 128 bp,包含了轉(zhuǎn)錄起始位點、5’和3’非編碼區(qū)及858 bp的開放閱讀框架;Lip I編碼區(qū)對TGC、GAC、TTC、CAC、AAG、AAC和TAC這7種密碼子使用頻率最高;比對Lip I基因與Pichia pastoris基因組中的密碼子使用頻率,其中有21個密碼子使用頻率的比值相差較大。
生物信息學(xué);圓弧青霉PG37;堿性脂肪酶;基因序列
脂肪酶(Lipase EC 3.1.1.3)是一類分解三脂酰甘油的水解酶,目前研究最多的是來源于真菌和細菌的脂肪酶,已廣泛應(yīng)用于洗滌劑、食品、造紙、香料、醫(yī)藥、紡織、廢物處理、化妝品、有機合成和生物柴油等行業(yè),堿性脂肪酶主要用作洗滌劑添加劑[1-2]。1988年,NoVo Industrial A/B公司最先推出了商品化的重組堿性脂肪酶Liporase,并將其應(yīng)用于洗滌劑行業(yè)。1985年以來,作者所在研究室一直致力于微生物堿性脂肪酶的研究,主要集中在圓弧青霉PG37菌株的誘變育種、發(fā)酵工藝條件優(yōu)化、酶的分離純化、酶學(xué)性質(zhì)、酶的應(yīng)用以及酶基因的克隆和表達等方面[3-4]。
鑒于上述的研究結(jié)果與基礎(chǔ),有必要進一步了解圓弧青霉PG37堿性脂肪酶(Lip I)基因攜帶的遺傳信息。作者擬采用生物信息學(xué)的相關(guān)分析軟件和數(shù)據(jù)庫,分析、預(yù)測PG37 Lip I基因的各種功能單位,例如重復(fù)序列、轉(zhuǎn)錄起始位點、內(nèi)含子、轉(zhuǎn)錄因子結(jié)合位點[5]和開放閱讀框架等,從而加深對基因結(jié)構(gòu)、表達和調(diào)控機制的認識;同時分析和計算PG37 Lip I編碼區(qū)密碼子使用頻率,并與畢赤酵母(Pichia pastoris)基因組密碼子使用頻率進行比對,為Lip I基因在Pichia pastoris中的高效表達打下基礎(chǔ)。有關(guān)圓弧青霉PG37 Lip I基因序列的生物信息學(xué)分析,國內(nèi)外尚未見報道。
1.1 菌株和質(zhì)粒
圓弧青霉PG37:為Lip I基因的供體菌,作者所在研究室保藏;大腸桿菌XL1-Blue:用作基因克隆、質(zhì)粒轉(zhuǎn)化的受體菌;pUCm-T質(zhì)粒,氨芐青霉素抗性,購自上海生工公司。
1.2 培養(yǎng)基
1.2.1 圓弧青霉培養(yǎng)基 大豆磷脂7.5 g/L,玉米漿30 g/L,豆油4 g/L,豆餅水解液400 g/L,檸檬酸三鈉0.5 g/L,K2HPO410 g/L,MgSO41.0 g/L, p H 7.5。
1.2.2 L-Broth培養(yǎng)基 蛋白胨10 g/L,NaCl 10 g/L,酵母粉5 g/L,p H 7.4。對于固體平板LB培養(yǎng)基,在L-Broth的基礎(chǔ)上添加15 g/L的瓊脂粉。
1.3 試劑、試劑盒和PCR引物
參見文獻[3,4]。
1.4 PG37 Lip I基因的克隆
參照Sambrook等[6]的《分子克隆實驗指南》一書的方法進行。
1.5 PG37 Lip I基因的生物信息學(xué)分析
采用生物信息學(xué)相關(guān)分析軟件及數(shù)據(jù)庫對PG37 Lip I基因序列進行分析、預(yù)測,見表1。
表1 生物信息學(xué)相關(guān)分析軟件與數(shù)據(jù)庫網(wǎng)址Tab.1 Website of bioinformatics software and database
1.5.1 PG37 Lip I基因序列分析 采用CENSOR軟件分析DNA序列中的重復(fù)序列;采用NNPP預(yù)測基因轉(zhuǎn)錄起始位點;采用GeneMark分析內(nèi)含子/外顯子剪接位點;采用TFSEARCH和PLACE預(yù)測轉(zhuǎn)錄因子結(jié)合位點;采用ORF Finder確定開放閱讀框架。
1.5.2 有效密碼子數(shù)目(ENc)統(tǒng)計 ENc值是指密碼子使用頻率與同義密碼子平均使用頻率偏差的量化值,其取值范圍為20~61,ENc值越接近20,則密碼子偏愛性越強,反之則偏愛性越低。采用CHIPS軟件統(tǒng)計PG37 Lip I編碼區(qū)的ENc值。1.5.3 密碼子使用頻率(FCU)統(tǒng)計 FCU表示在基因組或基因的所有密碼子中某種密碼子出現(xiàn)的頻率,特指在1 000個密碼子中某種密碼子被使用的次數(shù)。采用CUSP軟件統(tǒng)計PG37 Lip I編碼區(qū)的密碼子使用頻率FCU。
1.5.4 同義密碼子使用的相對概率(RSCU)統(tǒng)計RSCU是指某種密碼子在編碼對應(yīng)氨基酸的同義密碼子間的相對概率。當(dāng)RSCU值大于1.0,表示該密碼子使用頻率相對較高;反之則使用頻率相對較低[13]。在同義密碼子中若某一密碼子RSCU值大于1,而其余密碼子RSCU值均小于1,則前者定義為使用頻率最高的密碼子[14]。采用CodonW軟件統(tǒng)計PG37 Lip I編碼區(qū)的RSCU值。
1.5.5 密碼子使用頻率比值 當(dāng)某種密碼子FCU比值在0.5~2.0范圍內(nèi),表示該密碼子在不同物種或基因中的FCU較接近;FCU比值超出此范圍則FCU相差較大。
2
.1 PG37 Lip I基因克隆
在測定了PG37完整Lip I及其胰蛋白酶酶解肽段N末端部分氨基酸序列的基礎(chǔ)上,分別提取圓弧青霉PG37總RNA和基因組DNA作為模板,采用RT-PCR、嵌合式PCR和單側(cè)PCR等技術(shù),分多次擴增和克隆了Lip I基因的相關(guān)片段,通過拼接獲得了Lip I基因完整的DNA序列,見圖1。
圖1 圓弧青霉PG37 Lip I基因完整的DNA序列Fig.1 Entire DNA sequence of Lip I gene fromPenicillium cyclopiumPG37
2.2 PG37 Lip I基因重復(fù)序列分析
以PG37 Lip I基因完整DNA序列為研究對象,采用CENSOR軟件對該序列進行了分析。分析結(jié)果表明,該DNA序列中不存在重復(fù)序列。
2.3 PG37 Lip I基因轉(zhuǎn)錄起始位點預(yù)測
采用NNPP軟件預(yù)測了PG37 Lip I完整DNA序列的轉(zhuǎn)錄起始位點。預(yù)測結(jié)果顯示,基因轉(zhuǎn)錄起始位點是位于該DNA序列第71位的腺苷酸(AMP),與鄔敏辰等的實驗結(jié)果[15]存在差異,后者是位于DNA序列第92位的鳥苷酸(GMP)。
2.4 PG37 Lip I基因內(nèi)含子剪接位點分析
GeneMark軟件分析結(jié)果表明,PG37 Lip I完整DNA序列中含有5個內(nèi)含子,其5′端剪切位點均為GT,3′端剪切位點均為AG,見表2,符合GTAG法則。GeneMark預(yù)測的內(nèi)含子數(shù)目及內(nèi)含子/外顯子剪接位點與鄔敏辰的實驗結(jié)果[3]完全一致。
在Lip I完整DNA序列中剔除轉(zhuǎn)錄起始位點AMP的上游序列及5個內(nèi)含子序列,可獲得理論上的Lip I完整cDNA序列,全長1 128 bp,與實驗獲得的Lip I完整cDNA序列長度(GenBank登錄號AF274320)相差21 bp,原因是兩者的轉(zhuǎn)錄起始位點不同。
表2 PG37 Lip I基因內(nèi)含子結(jié)構(gòu)與剪接位點的分析Tab.2 Analysis on the structure and splice sites of introns in Lip I gene from PG37
2.5 PG37 Lip I基因轉(zhuǎn)錄因子結(jié)合位點預(yù)測
采用TFSEARCH軟件對PG37 Lip I DNA的5’端序列(從轉(zhuǎn)錄起始位點上游的-70 bp位至下游的+95 bp位)進行了轉(zhuǎn)錄因子結(jié)合位點掃描分析,見圖2。掃描結(jié)果顯示:檢測到預(yù)測分值在85分以上的有44個轉(zhuǎn)錄因子結(jié)合位點;分值在90分以上的有23個轉(zhuǎn)錄因子結(jié)合位點。其中HSF (heat shock factor)9個,其存在表明基因能在較高溫度下誘導(dǎo)表達[16];ADR1(alcohol dehydrogenase gene regulator 1)3個,它可調(diào)節(jié)利用碳源基因的表達,也可與過氧化物酶A等基因的啟動子結(jié)合[17]; CdxA(caudal type homeobox transcription factor A)3個,它作為啟動子的一部分,在基因調(diào)控區(qū)能增強基因轉(zhuǎn)錄的活性[18];NIT2(activator of nitrogen-regulated genes)2個;SRY(sex-determining region Y gene product)2個;cap(cap signal for transcription initiation)1個,它的存在與基因的轉(zhuǎn)錄起始有關(guān);GATA-1(GATA-binding factor 1)1個,它通過疏水作用來識別DNA結(jié)合位點,可調(diào)節(jié)氮代謝、光誘導(dǎo)等,還可以提高啟動子的強度和活性;SREBP和Sox-5各1個。由于實驗手段的限制,生物信息學(xué)已成為分析基因轉(zhuǎn)錄因子結(jié)合位點的重要工具。
此外,在轉(zhuǎn)錄起始位點上游的-16~-11 bp處發(fā)現(xiàn)存在TATA box,預(yù)測分值為85.6,與采用PLACE軟件預(yù)測的位置相同。
2.6 PG37 Lip I cDNA閱讀框架分析
以全長為1 128 bp的PG37 Lip I cDNA序列為研究對象,采用ORF Finder程序?qū)υ揷DNA進行了分析。分析統(tǒng)計結(jié)果表明,Lip I cDNA序列中最長的一個開放閱讀框架為858 bp,從95 bp位至952 bp位,起始ATG,終止密碼子TGA,編碼285個氨基酸,與鄔敏辰的實驗結(jié)果[15]完全一致。
2.7 PG37 Lip I編碼區(qū)密碼子統(tǒng)計分析
采用CHIPS程序計算結(jié)果表明,PG37 Lip I
圖2 PG37 Lip I DNA序列轉(zhuǎn)錄因子結(jié)合位點預(yù)測Fig.2 Prediction of the transcription factor binding sites in Lip I DNA sequence
編碼區(qū)有效密碼子數(shù)目ENc值為48.32,說明Lip I編碼區(qū)不存在特別明顯的密碼子偏愛性。采用CUPS、CodonW程序及密碼子數(shù)據(jù)庫對Lip I編碼區(qū)密碼子進行了統(tǒng)計分析,見表3。統(tǒng)計結(jié)果表明: GCC、GCT、TGC和GAC等28個密碼子的RSCU值大于1,且FCU也較大,為Lip I使用頻繁的密碼子,其中TGC、GAC、TTC、CAC、AAG、AAC和TAC這7種密碼子使用頻率最高;在Lip I基因與Pichia pastoris基因組中,有21個密碼子的使用頻率比值相差較大。通過不同物種或基因間密碼子使用頻率比對,可擇優(yōu)選擇表達系統(tǒng)或改變密碼子,從而提高外源基因的表達。若某一密碼子在Lip I基因中使用頻率較高,而在Pichia pastoris基因組中使用頻率較低,可以把此密碼子突變?yōu)镻ichia pastoris基因組中使用頻率較高的同義密碼子,如將密碼子CAC突變?yōu)镃AT,以提高Lip I組氨酸在Pichia pastoris中的表達量。但外源基因的表達受到多種因素的共同作用,如表達的蛋白是否是毒素、需要糖基化或其它修飾等,密碼子使用的影響只是其中之一。
表3 Lip I密碼子統(tǒng)計分析及與Pichia pastoris密碼子比對Tab.3 Statistics on codon of Lip I and comparison with codon ofPichia pastoris
續(xù)表3
1)分多次PCR擴增和克隆了PG37 Lip I基因的相關(guān)片段,并通過拼接獲得了Lip I基因完整的DNA序列。該DNA序列全長1 480 bp,無重復(fù)序列,轉(zhuǎn)錄起始位點位于序列的第71位,含有5個內(nèi)含子,5′端存在TA TA box和多個轉(zhuǎn)錄因子結(jié)合位點。
2)由PG37 Lip I DNA序列推導(dǎo)的cDNA序列全長1 128 bp,包含了轉(zhuǎn)錄起始位點、5′和3′非編碼區(qū)和開放閱讀框架,后者編碼285個氨基酸。
3)PG37 Lip I編碼區(qū)的ENc值為48.32,說明Lip I編碼區(qū)不存在特別明顯的密碼子偏愛性;Lip I編碼區(qū)的GCC、GCT、TGC和GAC等28個密碼子的RSCU值大于1,FCU也較大,為Lip I使用頻繁的密碼子,其中TGC、GAC、TTC、CAC、AAG、AAC和TAC這7種密碼子使用頻率最高。比對Lip I基因與Pichia pastoris基因組中的密碼子使用頻率,其中有21個密碼子使用頻率的比值相差較大。
[1]Hasan F,Shah A A,Hameed A.Industrial applications of microbial lipases[J].Enzyme and Microbial Technology, 2006,39:235-251.
[2]王蕾,蔡宇杰,廖祥儒,等.一株堿性低溫脂肪酶產(chǎn)生菌發(fā)酵條件的優(yōu)化[J].食品與生物技術(shù)學(xué)報,2008,27:114-119.
WANG Lei,CAI Yu-jie,LIAO Xiang-ru,et al.Optimization of fermentation conditions for a low-temperature lipase-producing strain[J].Journal of Food Science and Biotechnology,2008,27:114-119.(in Chinese)
[3]鄔敏辰.圓弧青霉PG37堿性脂肪酶的發(fā)酵生產(chǎn)、分離純化及基因克隆和表達[D].上海:復(fù)旦大學(xué),2000.
[4]鄧珊珊,鄔敏辰,李江華,等.圓弧青霉BD26堿性脂肪酶基因的克隆及其在大腸桿菌中的表達[J].食品與發(fā)酵工業(yè), 2008,34:42-46.
DENG Shan-shan,WU Min-chen,LIJiang-hua,et al.Cloning and expression of alkaline lipase gene fromPenicillium cyclopiummutant inEscherichia coli[J].Food and Fermentation Industries,2008,34:42-46.(in Chinese)
[5]侯琳,錢敏平,朱云平,等.轉(zhuǎn)錄因子結(jié)合位點生物信息學(xué)研究進展[J].遺傳,2009,31:365-373.
HOU Lin,QIAN Min-ping,ZHU Yun-ping,et al.Advances on bioinformatic research in transcription factor binding sites[J].Hereditas,2009,31:365-373.(in Chinese)
[6]Sambrook J,Fritsch E F,Maniatis T.Molecular Cloning:A Laboratory Manual[M].New York:Cold Spring Harbor Laboratory Press,1989.
[7]Kohany O,Gentles A J,Hankus L,et al.Annotation,submission and of screening repetitive elements in repbase:repbase submitter and censor[J].BMC Bioinformatics,2006,25:474.
[8]Lomsadze A,Ter-Hovhannisyan V,Chernoff Y,et al.Gene identification in novel eukaryotic genomes by self-training algorithm[J].Nucleic Acids Research,2005,33:6494-6506.
[9]Heinemeyer T,Wingender E,Reuter I,et al.Databases on transcriptional Regulation:TRANSFAC,TRRD,and COMPEL[J].Nucleic Acids Research,1998,26:364-370.
[10]Higo K,Ugawa Y,Iwamoto M,et al.Plant cis-acting regulatory DNA elements(PLACE)database[J].Nucleic Acids Research,1999,27:297-300.
[11]Nakamura Y,Gojobori T,Ikemura T.Condon usuage tabulate form the international DNA sequence databases:status for the year 2000[J].Nucl Acids Research,2000,28:292-295.
[12]Wright F.The effective number of codons used in a gene[J].G ene,1990,87:23-29.
[13]趙耀,劉漢梅,顧勇,等.玉米waxy基因密碼子偏好性分析[J].玉米科學(xué),2008,16:16-21.
ZHAO Yao,LIU Han-mei,GU Yong,et al.Analysis of characteristic of codon usage in waxy gene ofZea mays[J]. Journal of Maize Sciences,2008,16:16-21.(in Chinese)
[14]沈慶航,江明鋒,鐘金城,等.MUC1基因遺傳多態(tài)性與密碼子偏好性的生物信息學(xué)分析[J].西南民族大學(xué)學(xué)報:自然科學(xué)版,2009,35:513-518.
SHEN Qing-hang,J IANG Ming-feng,ZHONGJin-cheng,et al.The bioinformatics analysis of genetic polymorphism and code bias of MUC1 gene[J].Journal of Southwest University for Nationalities:Natural Science Edition,2009,35:513-518.(in Chinese)
[15]鄔敏辰,朱劼,黃偉達,等.圓弧青霉脂肪酶基因的克隆和表達[J].無錫輕工大學(xué)學(xué)報,2002,21:218-223.
WU Min-chen,ZHU Jie,HUANG Wei-da,et al.Cloning and expression of the gene encoding alkaline lipase fromPenicillium cyclopium[J].Journal of Wuxi University of Light Industry,2002,21:218-223.(in Chinese)
[16]馬志杰,魏雅萍,鐘金城,等.藏綿羊GHR基因5’側(cè)翼區(qū)序列特征分析[J].遺傳,2007,29:963-971.
MA Zhi-jie,WEI Ya-ping,ZHONGJin-cheng,et al.Sequence characterization of the 5’-flanking region of the GHR gene in Tibetan sheep[J].Hereditas,2007,29:963-971.(in Chinese)
[17]Schaufler L E,Klevit R E.Mechanism of DNA binding by the ADR1 zinc finger transcription factor as determined by SPRJ[J].J Mol Biol,2003,329:931-939.
[18]周穎君,楊亦樺,武淑文,等.棉鈴蟲細胞色素P450 CYP9A12基因5′-上游區(qū)的克隆及序列分析[J].昆蟲學(xué)報,2008, 51:120-125.
ZHOU Ying-jun,YANG Yi-hua,WU Shu-wen,et al.Cloning and sequence analysis of the 5’-upstream region of cytochrome P450 gene CYP9A12 ofHelicoverpa armigera[J].Acta Entomologica Sinica,2008,51:120-125.(in Chinese)
(責(zé)任編輯:李春麗)
Bioinformatics Analysis on the Sequence of Lipase Gene fromPenicillium cyclopium
ZHANG Hui-min1, LI Jian-fang1, WU Min-chen*2
(1.School of Food Science and Technology,Jiangnan University,Wuxi 214122,China;2.School of Medicine and Pharmaceutics,Jiangnan University,Wuxi 2141224,China)
The gene encoding alkaline lipase(Lip I)is cloned fromPenicillium cyclopiumPG37 and the genetic information is analyzed by bioinformatic tool.Sequence analysis showed that Lip I DNA is 1480 bp long with no repeat sequence and five introns,and there is a TA TA box and several transcription factor binding sites in the 5’end.Lip I cDNA is 1128 bp long with an open reading frame containing 858 bp.It also has transcription start site,5’and 3’non-coding region. TGC,GAC,TTC,CAC,AAG,AAC and TAC codons are used at highest frequency in Lip I gene.Comparing codon usage frequency of the Lip I withPichia pastorisgenome’showed that the ratios of 21 codon usage frequency are different widely.
bioinformatics,Penicillium cyclopiumPG37,alkaline lipase,gene sequence
Q 811.4
:A
1673-1689(2010)04-0602-07
2009-09-15
國家自然科學(xué)基金項目(20776061)。
*通信作者:鄔敏辰(1962-),男,江蘇無錫人,理學(xué)博士,教授,博士生導(dǎo)師,主要從事酶工程與基因工程方面的研究。Email:bioch@163.com