張悅 施維 李丹
摘要:本研究根據(jù)已公布的禾谷鐮刀菌的全基因組信息,以其全基因組蛋白序列為試驗材料,通過生物信息學方法,對其候選效應分子及其功能進行預測和分析。首先利用SignalP、TMHMM、Protcomp、big-PI Predictor、TargetP等程序依次預測出其分泌類型的蛋白,再通過其序列大小和半胱氨酸的含量作進一步篩選,最后利用Blastp工具與非冗余蛋白質(zhì)數(shù)據(jù)庫進行比對,找出數(shù)據(jù)庫中沒有蛋白同源性的序列,從而獲得候選效應分子。最終對禾谷鐮刀菌全基因組的14 038個蛋白序列進行分析,預測了126個符合條件的候選效應分子。本研究通過LTR-FINDER程序?qū)坦如牭毒蚪M內(nèi)的轉(zhuǎn)座子進行分析,但未發(fā)現(xiàn)轉(zhuǎn)座子存在,值得進一步分析研究。本研究采用生物信息學分析方法預測出了禾谷鐮刀菌的候選效應分子并查找其基因組內(nèi)轉(zhuǎn)座子情況,可為進一步研究這些效應分子的功能,了解禾谷鐮刀菌進化奠定基礎(chǔ)。
關(guān)鍵詞:禾谷鐮刀菌;全基因組;候選效應因子;轉(zhuǎn)座子;生物信息學;致病機制;進化歷程
禾谷鐮刀菌(Fusarium graminearum)屬半知菌類叢梗孢目瘤座孢科鐮刀屬菌。在糧食上普遍存在,它與其他幾種鐮刀菌都能引起小麥、大麥、玉米等作物發(fā)生赤霉病,還可以引起水稻、高粱、豆類、茭白等發(fā)生根腐病、莖基腐病、穗腐病。由鐮刀菌引起的赤霉病不僅會造成糧食產(chǎn)量減產(chǎn),而且產(chǎn)生的真菌毒素也給人畜的健康造成了嚴重威脅[1-4]。
病原菌在入侵植物的過程中會分泌效應分子到寄主植物細胞中,對寄主植物細胞的生理、生化過程及細胞代謝等產(chǎn)生顯著的影響。通過這些致病效應因子的作用病原菌可以克服寄主植物的防衛(wèi)反應,從而促進和完成對寄主植物的侵染[5]。效應分子由于要分泌到細胞外起作用,因此一般具有以下特征:(1)含有N端信號肽;(2)無跨膜結(jié)構(gòu)域;(3)無糖基磷脂酰肌醇錨定位點;(4)沒有將蛋白輸送至線粒體或其他胞內(nèi)細胞器的預測定位信號;(5)氨基酸殘基數(shù)量大約為50~300個氨基酸;(6)富含半胱氨酸而且特異性高于其他病原菌的效應分子[6-7]。因此,可以根據(jù)效應因子的一般結(jié)構(gòu)特征對已完成測序的病原微生物進行分析,預測其中可能的候選效應因子,目前已有多篇報道針對多種病原微生物的侯選效應因子進行生物信息學預測分析的報道[8-10]。轉(zhuǎn)座子是一類能夠在基因組中通過轉(zhuǎn)錄或逆轉(zhuǎn)錄,在內(nèi)切酶的作用下,在其他基因座上出現(xiàn)的DNA序列。通過對轉(zhuǎn)子的分析,有助于了解微生物的進化歷程[11-12]。本研究于2017年8月對已有的禾谷鐮刀菌測序數(shù)據(jù)進行統(tǒng)計歸納,分析其基因組中的候選效應因子序列及轉(zhuǎn)座子序列,以期對了解禾谷鐮刀菌的致病機制及進化歷程有指導意義。
1 材料與方法
1.1 禾谷鐮刀菌全基因組數(shù)據(jù)
禾谷鐮刀菌全基因組數(shù)據(jù)來自數(shù)據(jù)庫(http://www.broad-institute),該數(shù)據(jù)庫還收錄了該病菌預測的14 038條預測基因DNA序列及其預測蛋白質(zhì)的氨基酸序列。
1.2 信號肽預測
SignalP 4.1 Server(http://www.cbs.dtu.dk/services/SignalP/)是預測信號肽的服務(wù)器。它的功能是預測給定的氨基酸序列中是否存在潛在的信號肽剪切位點及其所在置,原核生物和真核生物都可以進行預測。以SignalP 4.1分析給定的氨基酸序列C、S、Y的最大值,以及位于N端和被預測的剪切位點間S曲線的中間值,以此區(qū)分信號肽和非信號肽。而信號肽剪切位點則位于預測的含有信號肽蛋白的Y曲線的最大值處,本試驗中使用默認設(shè)置[13]。
1.3 蛋白的跨膜結(jié)構(gòu)域預測
TMHMM Server(http://www.cbs.dtu.dk/services/TMHMM/)主要用于預測蛋白的跨膜結(jié)構(gòu)域[14]。
1.4 亞細胞定位預測
ProtComp(http://www.softberry.com/berry.phtml?topic=protcompan&group=programs& subgroup=proloc)主要是對動物或真菌中蛋白的亞細胞定位進行預測。它可將蛋白按以下歸屬進行劃分:細胞核、質(zhì)膜、胞外分泌、細胞質(zhì)、線粒體、內(nèi)質(zhì)網(wǎng)、過氧化物酶體、溶酶體、高爾基體等[15]。
1.5 是否有脂質(zhì)錨定修飾預測
本研究通過Big-PI Predictor(http://mendel.imp.ac.affgpi/fungi-server.html)對在真菌糖基磷脂酰肌醇(glycosylphosphatidylinosi-tol,簡稱GPI)修飾位點進行預測,判斷預測蛋白是否有脂質(zhì)錨定修飾。如果存在糖基磷脂酰肌醇脂質(zhì)錨定修飾,真核生物中蛋白質(zhì)須要在內(nèi)質(zhì)網(wǎng)中[16]。
1.6 確定預測蛋白的亞細胞定位
用TargetP 1.1 Server(http://www.cbs.dtu.dk/services/TargetP/)進一步確定預測蛋白的亞細胞定位。可將蛋白的定位歸屬于線粒體、葉綠體、胞外分泌以及其他亞細胞定位。位置分配是基于相應的N末端的前序列預測存在,如葉綠體轉(zhuǎn)運肽、線粒體靶向肽、分泌途徑的信號肽[17]。
1.7 計算半胱氨酸含量
通過CalMolWtCalMolWt(http://www.cnhupo.cn/CalMW/MYMW.asp)對蛋白質(zhì)分子量、氨基酸組成進行計算,用于分析篩選出序列的半胱氨酸含量[9]。
1.8 序列比對
Blastp(http://blas.ncbi.nlm.nih.gov/Blasucgi?PROGRAM=blastp&PAGETYPE=BlastSearch&LINKLOC=blasthome)是使用蛋白序列在其蛋白數(shù)據(jù)庫中進行查詢的一種工具。每條所查序列能與數(shù)據(jù)庫中已存在的每條已知序列進行序列比對,可以通過所得結(jié)果結(jié)合參數(shù)得到與此相關(guān)的信息。
1.9 轉(zhuǎn)座子的篩選分析
本研究是通過LTR-FINDER程序(http://tlife.fudan.edu.cn/ltr_finder/)對禾谷鐮刀菌全基因組序列進行轉(zhuǎn)座子的篩選分析[18]。
2 結(jié)果與分析
由表1可知,數(shù)據(jù)庫公布的禾谷鐮刀菌全基因組共有36.45 Mbp,分為433個重疊群,預測基因數(shù)量共計 14 038個。
通過SignalP 4.1 Server對14 038個蛋白序列進行分析,預測得到1 271個編碼含N端信號肽的蛋白,占全基因組蛋白序列的9.05%。對所得的結(jié)果進行分析發(fā)現(xiàn),序列長度主要集中在100~600 aa之間,占全部的83.08%,其中長度在200~300 aa之間的序列最多,占全部的19.27%。序列長度在900~1 000 aa的最少,僅僅只有總數(shù)的0.78%(圖1)。
在含有信號肽的分泌型蛋白質(zhì)序列中,如果含有跨膜區(qū)則表明該蛋白可能為膜受體,也可能是膜上的錨定蛋白或離子通道蛋白。本研究使用TMHMM Server v2.0來預測蛋白序列的跨膜螺旋結(jié)構(gòu),排除具有跨膜結(jié)構(gòu)域的蛋白序列。從蛋白跨膜結(jié)構(gòu)域分析結(jié)果可以看到,在含信號肽的1 271個蛋白序列中,有92個蛋白序列含有2個或多個跨膜域,157個蛋白序列只含有1個跨膜域,而有1 022個蛋白序列則不含跨膜域。只含1個跨膜域的蛋白序列,其所具有的跨膜結(jié)構(gòu)域位置均位于N端,該區(qū)域可能為前期所預測的信號肽序列。由于服務(wù)器并不能完全對信號肽序列和所屬跨膜域序列進行區(qū)分,因此,本研究選擇不含跨膜域和只含有1個跨膜域的1 179個蛋白序列進行下一步研究。
將上述初步篩選出的1 179個蛋白序列進一步用ProtComp v9.0進行分析,如表2所示,共預測到733個信號肽分泌至胞外,4個轉(zhuǎn)運至液泡膜,4個轉(zhuǎn)運至液泡,5個轉(zhuǎn)運至溶酶體,16個轉(zhuǎn)運至溶酶體膜,7個轉(zhuǎn)運至細胞核,10個轉(zhuǎn)運至內(nèi)質(zhì)網(wǎng),31個轉(zhuǎn)運至內(nèi)質(zhì)網(wǎng)膜,11個轉(zhuǎn)運至高爾基體,18個轉(zhuǎn)運至高爾基體膜,11個傳輸至過氧化物酶體,29個轉(zhuǎn)運至線粒體,123個轉(zhuǎn)運至線粒體膜,49個轉(zhuǎn)運至細胞質(zhì),128個轉(zhuǎn)運至細胞質(zhì)膜。繼而進行GPI錨定蛋白的預測,以判斷這些被初步推斷為分泌蛋白的是否為胞外蛋白。將733個分泌蛋白用Big-PI Predictor程序進行分析,發(fā)現(xiàn)有63個為GPI錨定蛋白,而670個為非GPI錨定蛋白。
由于效應分子的氨基酸殘基數(shù)量一般在50~300 aa之間,因此將這733個序列按照其長度進行排列,明確了其中有349個蛋白的氨基酸殘基數(shù)量在 50~300 aa之間。此外,根據(jù)效應分子富含半胱氨酸的特點,利用CalMolWt計算所有候選序列的半胱氨酸含量。將不含半胱氨酸的序列排除之后,得到336個含有半胱氨酸殘基數(shù)量在1~24個之間的蛋白序列。最后,將上述符合條件的氨基酸序列在NCBI數(shù)據(jù)庫中利用Blastp工具與非冗余蛋白質(zhì)數(shù)據(jù)庫進行比對,找出那些與數(shù)據(jù)庫中沒有同源性的序列,要求其E-value值小于 1×10-5,最終得到126個符合上述所有6個條件的候選效應分子。其中有16個蛋白序列在數(shù)據(jù)庫中沒有任何與之同源的序列,剩余的110個蛋白序列除了與禾谷鐮孢屬的序列有同源性外,與其他物種都沒有同源性。
現(xiàn)已明確大多數(shù)物種的信號肽主要是通過4種類型的信號肽酶識別位點被信號肽酶所識別并被切割,從而使成熟蛋白穿過膜轉(zhuǎn)運到細胞不同的部位。本研究通過對126個候選效應分子所含的信號肽氨基酸長度進行分析,如圖2所示,含有信號肽長度為16~20 aa的蛋白質(zhì)序列數(shù)量最多,所占比例為79.36%,其中尤以所含信號肽長度為18 aa的蛋白序列居多,所占比例為24.60%。
利用LipoP 1.0 Server對上述分泌蛋白進行信號肽酶識別位點的預測分析,結(jié)果顯示114個蛋白序列含有SpI型信號肽識別位點,7個含有CYT型信號肽識別位點,5個含有SpII型信號肽識別位點,所占比例分別為90.48%、5.56%、3.97%,說明禾谷鐮刀菌中的候選效應分子大部分是由SpI型信號肽酶進行識別。
此外還對20種氨基酸在126個候選效應分子信號肽中出現(xiàn)的頻率進行了分析。如圖3所示,在組成信號肽的氨基酸中,丙氨酸的數(shù)量最多,為3 422個,占10.15%;其次為甘氨酸,有3 275個,占9.73%;其后依次為絲氨酸、蘇氨酸、亮氨酸、脯氨酸、纈氨酸、異亮氨酸、天冬酰胺、天冬氨酸、谷氨酸、精酰胺、賴氨酸、苯丙氨酸、酪氨酸、谷氨酰胺、蛋氨酸、組氨酸、半胱氨酸、色氨酸,分別占8.41%、8.15%、6.02%、5.46%、5.29%、4.98%、4.98%、4.81%、4.38%、4.19%、4.16%、4.07%、3.11%、2.92%、2.67%、2.52%、2.49%、1.43%。統(tǒng)計分析發(fā)現(xiàn),非極性、疏水氨基酸(丙氨酸、纈氨酸、亮氨酸、甘氨酸、異亮氨酸、脯氨酸)的出現(xiàn)頻率最高,占41.63%;其次為極性、不帶電荷的氨基酸(絲氨酸、蘇氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺),占29.62%;帶正電荷的堿性氨基酸(賴氨酸、精酰胺、組氨酸)占10.87%;帶負電荷的酸性氨基酸(天冬氨酸、谷氨酸)占9.19%;芳香族氨基酸(色氨酸、苯丙氨酸、酪氨酸)占8.61%。
另外,對禾谷鐮刀菌的433個重疊群的基因組序列利用LTR-FINDER程序進行了轉(zhuǎn)座子序列篩選,結(jié)果并沒有發(fā)現(xiàn)轉(zhuǎn)座子的存在。
3 結(jié)論與討論
禾谷鐮刀菌全基因組測序的完成和公布,為研究禾谷鐮刀菌的分泌蛋白、效應分子、致病因子及與植物之間互作提供了重要的數(shù)據(jù)基礎(chǔ)。
本研究通過對禾谷鐮刀菌的基因組序列的分析與篩選,對14 038個蛋白序列進行分析,預測得到1 271個編碼含N端信號肽的蛋白。其中不含跨膜域和只含有1個跨膜域的有1 179個蛋白,進一步分析預測,其中733個蛋白分泌至胞外,這些蛋白有可能是與禾谷鐮刀菌致病相關(guān)的候選效應分子。繼而進行GPI錨定蛋白的預測,發(fā)現(xiàn)有63個為GPI錨定蛋白,而670個為非GPI錨定蛋白。真菌細胞壁上的GPI錨定蛋白對真菌的黏附、形態(tài)轉(zhuǎn)換和細胞壁合成有著重要的影響。微生物的黏附是其致病性最重要的決定因素之一[19-20],真菌病原體被確定的黏附素很少,因此預測670個非GPI錨定蛋白為候選效應因子。
利用CalMolWt計算所有候選序列的半胱氨酸含量,將不含半胱氨酸的序列排除之后,得到336個含有半胱氨酸殘基數(shù)量在1~24個之間的蛋白序列。最后, 將上述符合條件的
氨基酸序列在NCBI數(shù)據(jù)庫中利用Blastp工具與非冗余蛋白質(zhì)數(shù)據(jù)庫進行比對,找出那些與數(shù)據(jù)庫中沒有同源性的序列,最終得到126個符合條件的候選效應分子。其中有16個蛋白序列在數(shù)據(jù)庫中沒有任何與之同源的序列,剩余的110個除了與禾谷鐮孢屬的序列有同源性外,與其他物種都沒有同源性。將分泌蛋白進行信號肽酶識別位點的預測分析,結(jié)果顯示114個蛋白序列含有SpI型信號肽識別位點,7個含有CYT型信號肽識別位點,5個含有SpII型信號肽識別位點。說明禾谷鐮刀菌中的效應分子大部分是由SpI型信號肽酶進行識別的。
此外,還對20種氨基酸在126個候選效應分子信號肽中出現(xiàn)的頻率進行了分析,得出丙氨酸的數(shù)量最多,含量最低的是色氨酸。最后測得126個符合要求的禾谷鐮刀菌候選效應分子大多屬于小型蛋白,其信號肽集中在16~20個氨基酸且含有大部分的SpI型信號肽識別位點。這些效應分子可能是禾谷鐮刀菌的致病因子。
本研究還對禾谷鐮刀菌的433個公布的重疊群序列利用LTR-FINDER程序進行轉(zhuǎn)座子查找分析,結(jié)果并沒有發(fā)現(xiàn)轉(zhuǎn)座子的存在,該結(jié)果值得進一步研究分析。
通過一系列的篩選與分析,可以更好地從分子水平系統(tǒng)地了解禾谷鐮刀菌基因與蛋白質(zhì)的結(jié)構(gòu)與組成。并對進一步研究禾谷鐮刀菌與寄主植物之間的關(guān)系有一個更好的基礎(chǔ),為今后研究其致病性以及其病源危害奠定基礎(chǔ)。
參考文獻:
[1]張大軍,邱德文,蔣伶活. 禾谷鐮刀菌基因組學研究進展[J]. 安徽農(nóng)業(yè)科學,2009,37(17):7892-7894.
[2]王路遙,王 超,申成美,等. 引發(fā)小麥赤霉病和莖基腐病禾谷鐮孢菌的生物防治初探[J]. 麥類作物學報,2014,34(5):703-708.
[3]紀武鵬,于 琳,王 平. 玉米莖腐病主要致病菌——禾谷鐮孢菌的生物學特性研究[J]. 現(xiàn)代化農(nóng)業(yè),2014(9):67-69.
[4]張志博,高增貴,張小飛,等. 分離自小麥赤霉病和玉米莖基腐病的禾谷鐮孢菌的致病性研究[J]. 遼寧農(nóng)業(yè)科學,2010(6):1-4.
[5]于欽亮,馬 莉,劉 林,等. 禾谷鐮刀菌基因組中含寄主靶向模體分泌蛋白功能的初步分析[J]. 生物技術(shù)通報,2008(1):160-165,180.
[6]劉玉嶺,柳云帆,謝建平. 粟酒裂殖酵母全基因組中含信號肽蛋白質(zhì)的研究[J]. 遺傳,2007,29(2):250-256.
[7]呂偉強,劉 聰,黃麗麗,等. 內(nèi)生菌KM-1-2全基因組ORFs信號肽和分泌蛋白預測及功能分析[J]. 微生物學報,2017,57(3):411-421.
[8]閆麗斌,肖淑芹,薛春生. 玉米大斑病菌全基因組候選效應分子的預測和分析[J]. 沈陽農(nóng)業(yè)大學學報,2017,48(1):15-20.
[9]陳琦光,王陳驕子,楊 媚,等. 希金斯刺盤孢全基因組候選效應分子的預測[J]. 熱帶作物學報,2015,36(6):1105-1111.
[10]陳琦光,舒燦偉,楊 媚,等. 植物病原真菌效應分子的研究進展[J]. 基因組學與應用生物學,2016,35(11):3105-3114.
[11]馬 欣,高學文. 轉(zhuǎn)座子隨機突變芽孢桿菌的研究進展[J]. 中國生物防治學報,2015,31(3):394-403.
[12]何虎翼,譚冠寧,唐洲萍,等. 植物轉(zhuǎn)座子與基因表達調(diào)控[J]. 生物技術(shù)通報,2017,33(4):38-43.
[13]Petersen T N,Brunak S,von Heijne G,et al. SignalP 4.0:discriminating signal peptides from transmembrane regions[J]. Nature Methods,2011,8(10):785-786.
[14]Krogh A,Larsson B,Heijne G V,et al. Predicting transmembrane protein topology with a hidden markov model:application to complete genomes[J]. Journal of Molecular Biology,2001,305(3):567-580.
[15]Zhang M Q. Computational prediction of eukaryotic protein-coding genes[J]. Nature Reviews Genetics,2002,3(9):698-709.
[16]Eisenhaber B,Bork P,Eisenhaber F . Sequence properties of GPI-anchored proteins near the omega-site:constraints for the polypeptide binding site of the putative,transamidase[J]. Protein Engineering Design & Selection,1998,11(12):1155-1161.
[17]Emanuelsson O,Brunak S,von Heijne G,et al. Locating proteins in the cell using TargetP,SignalP and related tools[J]. Nature Protocols,2007,2(4):953-971.
[18]Xu L,Zhang Y E,Su Y,et al. Structure and evolution of full-length LTR retrotransposons in rice genome[J]. Plant Systematics and Evolution,2010,287(1/2):19-28.
[19]劉 昭,于小番,張 宇,等. 絲氨酸蛋白酶編碼基因prtP對副干酪乳桿菌黏附特性的影響[J]. 江蘇農(nóng)業(yè)學報,2017,33(3):683-689.
[20]李鵬成,楊 倩,侯繼波. 乳酸桿菌S-層蛋白對產(chǎn)腸毒素大腸桿菌黏附Caco-2細胞的協(xié)同作用[J]. 江蘇農(nóng)業(yè)學報,2017,33(2):384-388.林彬彬,邱新法,何永健,等. 茶樹病害智能診斷識別算法研究[J]. 江蘇農(nóng)業(yè)科學,2019,47(6):85-91.