何 淼,林強乾,趙艷超,張淑波,陳維田
(1. 中山大學生命科學學院,廣東 廣州 510275;2. 香港理工大學屋宇設備工程系,香港 九龍)
甲型流感病毒包含8個獨一無二的單鏈RNA片段,RNA松散地包埋在許多核蛋白(Nucleoprotein,NP)分子中,其中,包含3個病毒RNA聚合酶(PB1、PB2及PA)的復合體位于病毒顆粒的內核[1]。1990年,Ayae等[2]用梯度氯化銫離心法從甲型流感病毒中分離出RNA聚合酶,隨后分離出了PB1蛋白、PB2蛋白和PA蛋白。
PB1蛋白,又稱為聚合酶堿性蛋白1(Polymerase Basic Protein 1),由RNA片段2編碼。它在RNA聚合酶復合體中的作用是負責病毒RNA分子的延伸,同時也在模版RNA合成的延伸過程中起作用。PB1蛋白酶定位在感染細胞的細胞核中[1]。研究表明,PB1蛋白的第506-659位氨基酸的保守性不顯著,但是,仍分布有許多零星的保守片斷,這些保守片段是否代表蛋白表面氨基酸或相互作用位點仍需檢驗。
PA蛋白,又稱為聚合酶酸性蛋白(Polymerase Acid Protein),由RNA片段3編碼。是RNA聚合酶復合體中的最后一個蛋白,它對病毒RNA聚合過程的作用未知。有證據(jù)表明,它可能起著蛋白激酶或螺旋解構酶的作用。PA聚合酶也定位在感染細胞的細胞核中[1]。Amelia等通過重組的猿40病毒,用蛋白片斷缺失法分析了PA蛋白的區(qū)域,研究顯示,區(qū)域I(124-139位氨基酸)與區(qū)域II(186-247位氨基酸)具有重要功能;兩個核定位信號均存在于區(qū)域I與區(qū)域II中,結論表明,PA蛋白包含一個核定位信號區(qū)域,是病毒執(zhí)行繁殖復制的重要區(qū)域[3]。
大部分蛋白質需要相互作用才能發(fā)揮出其生物學作用。通過構成復合體才能發(fā)揮生物學作用的蛋白質,在相互作用面上的結構域或序列,具有比一般功能的結構域更高的保守度。Caffrey發(fā)現(xiàn)相互作用表面氨基酸比其它暴露在表面的氨基酸具有更高的保守度[4];Minsteris和 Wang發(fā)現(xiàn)相互作用的表面氨基酸具有與蛋白伴侶共進化的屬性[5]。
研究表明諸如NLS序列、聚合酶功能區(qū)序列、PB2蛋白與PA蛋白結合區(qū)序列完全沒有發(fā)生重疊的現(xiàn)象[6]。PB2蛋白需要與PB1蛋白結合才能發(fā)揮出轉錄酶的功能。PB1蛋白的N端78個氨基酸和PA蛋白C端的3/4個蛋白片斷結合[7];PB1蛋白的第506-659位氨基酸與PB2蛋白的124個氨基酸相互作用[8]。研究顯示,PB1、PB2與PA蛋白在病毒體外亦能自動形成復合體[2]。
本文基于共進化理論,從PB1蛋白的N端結構域與PA蛋白的C端結構域入手,研究了甲型流感病毒的PB1蛋白與PA蛋白間具有潛在共進化關系的肽段,創(chuàng)新性推測出復合體中的相互作用位點,并在三維結構上標記出相互作用位點。
甲型流感病毒序列全部來自于NCBI的流感病毒專門數(shù)據(jù)庫 Influenza Virus Resource(http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html)。本文提取了1428株病毒的PB1蛋白序列和1580株病毒的PA蛋白序列。序列下載后,以FASTA格式保存。
PB1與PA的結構信息來自于Protein Data Base(PDB)。在PDB上檢索文件名為2ZNL.pdb的蛋白結構數(shù)據(jù),作為蛋白結構信息的來源。
本文自主設計了CD search(Conserved Domain Search)軟件,主要用于“保守九聚氨基酸肽片段(Conserved 9-mer Peptide,簡記為C9MP)”的篩選,以C9MP為單位的序列比對和共進化參數(shù)計算結果為篩選依據(jù);所謂C9MP是指九個在一級結構上連續(xù)排列的氨基酸所構成的短肽片段。利用軟件進行序列比對,篩選出所有序列中90%以上完全匹配的9個連續(xù)氨基酸,即保守九聚氨基酸肽片段;計算一個蛋白所有保守片段與另一個蛋白的保守片段相關的η、Z、na、nb、NA、NB、MA、MB等8個共進化參數(shù)。
利用CLUSTALX2.0進行第1次序列比對,選擇BLOSUM矩陣,輸出得到PB1.fasta和PA.fasta。獲得的.fasta文件中序列總數(shù)為M值,其中,MA值表示PB1.fasta中包含的序列總數(shù),MB表示PA.fasta中包含的序列總數(shù)。
對于每一個保守多肽片段來說,相同的片段占了90%以上,不相同的片段總數(shù)N值被精確統(tǒng)計出來。在PB1蛋白中不相同的片段數(shù)為NA;在PA蛋白中,對應的值為NB。
提取兩個病毒蛋白.fasta文件中的GI號及病毒名,構建兩個僅包含GI號及病毒名的數(shù)據(jù)文件PB1_gz.txt與PA_gz.txt。提取PB1.fasta與PA.fasta所包含的共有病毒,統(tǒng)計共有的病毒株數(shù),得到η值。na(0-8)值代表PB1蛋白的氨基酸位置0-8在η條件下的變異數(shù)目,nb(0-8)值代表PA蛋白的氨基酸位置0-8在η條件下的變異數(shù)目。假設PB1蛋白含有X個C9MP,在PA蛋白含有Y個C9MP,則總共有Z=X×Y個潛在相互作用位點。
假設在甲型流感病毒毒株中,我們考慮PB1蛋白的第一個顯著保守片段(記為A1)和PA蛋白的第一個顯著保守片段(記為B1),A1片段在MA中有NA個突變序列,B1片段在MB中有NB個突變序列,那么,在沒有進化壓力的情況下,A1和B1在同一個病毒株中出現(xiàn)變異的概率是:
如果Z值在η值范圍內。在η范圍能夠找到包含兩個變異C9MP的方法數(shù)為:
假設在η值范圍內,A1片段的變異數(shù)目是na,B1片段的變異數(shù)是nb,那么在η范圍(但不在Z值內)變異數(shù)目為:
由于分布在所有甲型流感病毒毒株變異方式的數(shù)目受到η以外變異數(shù)目的約束,定義wA與wB作為在η以外PB1蛋白和PA蛋白的變異方式數(shù)目:
計算在Z中可能發(fā)生重疊的變異方法總數(shù),需要將na和nb的所有可能值累加求和:
最后,P值表示為下式:
其中,W為沒有任何限制條件下,篩選自所有PB1蛋白和PA蛋白變異的總方式數(shù)。
這里P值被Wang等定義為共進化值,即文中計算的Pcov值[9]。
共進化相關變量具體計算和圖形輸出均利用Matlab7.0完成。
DSSP是用于計算多肽在模擬過程中二級結構變化的專用軟件。將2znl.pdb輸入DSSP軟件,分析蛋白質氨基酸的溶劑可及性(ACC),程序自動列表會產(chǎn)生ACC數(shù)據(jù)。文中分別計算了PB1蛋白與PA蛋白的ACC值。根據(jù)Rost的工作,暴露于水環(huán)境中的表面積大于其整體表面積25%的氨基酸為表面氨基酸。當兩個表面氨基酸相互作用,其親水表面積減少超過1A2時,定義為相互作用表面氨基酸[10]。文中分別計算了氨基酸在形成復合體前單體狀態(tài)下的ACC值和形成復合體后的ACC值。
本文采用ZDOCK2.3軟件對蛋白質相互作用的三維結構進行了模擬。
根據(jù)CD search分析的結果,PB1蛋白具有447個C9MP,對位置重疊片段進行整合,得到26個域。這里的“域”指的是由數(shù)個C9MP連結在一起,按照前后順序構成的一個更大片段。如386-396的KKIEKIRPLLI,實際上是由3個C9MP,386-394(KKIEKIRPL)與387-395(KKIEKIRPLL)與388-396(IEKIRPLLI),重疊構成。PA蛋白具有373個C9MP,對重疊片段整合,可以得到29個域。
本文計算了PB1蛋白的447個C9MP與PA蛋白的373個C9MP所有可能的相互作用,即447×373個相互作用,包含了166 731個數(shù)值點。利用Matlab的可視化工具輸出圖形(見圖1),圖中的小色塊單位是-log(Pcov)值。為了更直觀找出相互作用關系,忽略漸變的可能性,直接將-log(Pcov)大于5(即Pcov>10-5)的區(qū)域用顯著的紅色標注出來,Wang 等[9]認為這些紅色區(qū)域是“毫無疑問地”在共進化上具有高度關聯(lián)的區(qū)域。藍色區(qū)域意味著低的共進化值,藍色區(qū)域在復合體結構和功能的穩(wěn)定性方面可以被認為做出較少貢獻。
圖1 在假定極端保守情況下PB1-PA完整的C9MP共進化關系(圖中縱軸表示PA蛋白的C9MP,橫軸表示PB1蛋白的C9MP)
Carol等發(fā)現(xiàn)PB1蛋白、PB2蛋白與PA蛋白都能在宿主受感染細胞中大量表達。這三個蛋白在宿主細胞中相互作用形成一個核酸酶復合體,其中,PB1蛋白可以與PB2蛋白相互作用而不需要依賴于其它因素;PA蛋白可能需要經(jīng)過修飾后才能夠與PB1蛋白相互作用[11]。Yasushi研究小組找到了PB1蛋白與PA蛋白的相互作用域,分別位于PB1蛋白的1-140處與PA蛋白的201-716[12]。
依據(jù)CD Search結果,對于PB1-PA蛋白復合體來說,PB1蛋白的氨基酸位點1-140包含87個C9MP,PA蛋白的氨基酸位點201-716包含245個C9MP。
圖1表明,PB1-PA的結構域有許多在進化上具有相關聯(lián)的域,其中,不少具有極高的Pcov值。但是,由于目前PDB數(shù)據(jù)庫中只有一個PB1蛋白與PA蛋白相互作用的結構圖,為了便于驗證與對照,本文選擇了PDB數(shù)據(jù)庫中的PB1MP1,探討其與PA蛋白的相互作用,探究相互作用位點,該方法可以推廣至其它區(qū)域相互作用位點的預測分析。
表1 PB1MP1的基本信息
計算發(fā)現(xiàn)PB1MP1與PA蛋白上的C9MP僅在1、10、18-22、27-33、40-46、58-59、144-145、151-154、220-221、231-234位置上(見表2)同時具有PB1MP1與PA蛋白殘基201-716區(qū)域內最低的共進化值。
通過蛋白質的三維結構模擬,可以顯著地發(fā)現(xiàn)PA蛋白上與PB1MP1可能存在共進化關系的各個C9MP與PB1MP1在結構上距離較遠。但是,在這12個C9MP中,惟一例外的是編號10的C9MP,模擬顯示其與PB1MP1具有顯著的接觸。為了便于下文引用,參照Wang的命名規(guī)則,即依據(jù)氨基酸片段的首尾字母和起始位置編碼,命名10號C9MP為PAQG670。
對PAQG670片段變異統(tǒng)計分析發(fā)現(xiàn)(見表3),同為接觸面的氨基酸,Q670 比R673更為保守。統(tǒng)計發(fā)現(xiàn)R673位置上共有13個R變異為K。由于相互作用位點在復合體中的功能十分重要,檢索分析表明,PAQG670與PB1MP1的變異實際上沒有存在于同一個病毒中,與R673對位的PB1MP1的氨基酸沒有發(fā)生協(xié)同突變,因此,可以排除R673作為潛在相互作用位點的可能。在對這些變異檢索過程沒有發(fā)現(xiàn)Q670突變。在此,定義共同序列為剔除變異后的剩余序列。序列比對發(fā)現(xiàn),Q670在接近1580個病毒株中沒有發(fā)生突變,因此,Q670屬于高度保守位點,也是可能潛在的相互作用位點。
表2 PA蛋白與PB1蛋白可能存在共進化關系的C9MP位置
表3中的黑斜體字母表明某個位置氨基酸的變異情況。在我們所關心的氨基酸Q670及R673中,Q670的保守度要遠遠高于R673的保守度。E677,P687,G679等位點高度保守,如果兩者存在相互作用,需要確認與Q670對位的PB1氨基酸具有穩(wěn)定性的特征。與Q670對位的PB1氨基酸分別是F9、V12、P13和A14。在這4個氨基酸中,A14由于其在所有病毒株的PB1蛋白變異率高于10%,因而被放棄。在表4中,黑體字母同樣代表該位置氨基酸的變異情況,計算表明,除了6、8位置的氨基酸外,其它氨基酸發(fā)生變異的程度都較低;可以看出,F(xiàn)9、V12和P13均具有很高的保守度,表明這些位點均有參與相互作用的可能。
利用三維模擬的方式,本文重構了PAQG670和PB1MP1的相互接觸情況(見圖2)。局部放大了關鍵相互作用位點(圖3)。圖中的網(wǎng)格表示了整個蛋白的空間范圍,Q670上下方的鏤空區(qū)是氨基酸填充區(qū);從圖3中可以看出,Q670與PB1MP1的F9、V12和P13在復合體中是緊密結合的,此處可能是PAQG670與PB1MP1的相互作用位點之一。
表3 PAQG670變異情況
圖2 PAQG670的Q670與PB1MP1的F9、V12和P13相互作用三維模擬效果
表4 PB1MP1變異情況
Table 4 The mutations of PB1MP1
PB1 1-131-8910-13PB1 14-151415共同序列…F…共同序列.A>gi|115279364| …F…>gi|110733273|.A>gi|115289089| …F…>gi|113497118| .V>gi|138392702| …F…>gi|134044411| .A>gi|145278824| …F…>gi|158454194| .A>gi|158957652| …F…>gi|189230912| .A>gi|172052953| …F…>gi|209978260| .A>gi|188504421| …F…>gi|211998317| .V>gi|218663901| …F…>gi|218874837| .A>gi|218664015| …L…>gi|218874898| .A>gi|76411281| …F…>gi|73665893| .A>gi|77746868| …F…>gi|76411281| .A>gi|91177921| …F…>gi|77543657| .A
利用DSSP程序,如果將PA蛋白與PB1蛋白分別獨立計算ACC值,PA蛋白的Q670,PB1蛋白的F9、V12、P13的ACC值分別為82、117、43和103 A2;如果考慮將PA蛋白與PB1蛋白結合形成復合體后,計算ACC值,則PA蛋白的Q670、PB1蛋白的F9、V12、P13的ACC值分別下降至13、56、14和79 A2。計算結果見表5。
表5 PAQG670的Q670與PB1MP1復合體形成前后參數(shù)變化
在成為復合體前,上述4個氨基酸暴露在水環(huán)境中的面積與整體面積比(ARR)是26.8%、36.3%、16.7%和43.1%;成為復合體后,上述4個氨基酸的ARR值下降到4.2%、17.4%、5.4%和33.1%。
當PB1蛋白與PA蛋白尚未相互作用時,依據(jù)生物學定義,PA的Q670、PB1的F9和P13都是表面氨基酸。特別PB1的P13(ARRmax =43.1%)高度暴露于水環(huán)境中。當PB1蛋白與PA蛋白相互作用時,PA的Q670、PB1的F9和P13暴露在水環(huán)境中的表面積均迅速下降,降幅(比例)分別達到69 A2(22.6%)、61 A2(18.9%)和136 A2(10.0%),均顯著超過了Rost(1994)[10]給出的臨界值1A2;因此,它們均可成為相互作用的表面氨基酸。
本文的主要結論是PAQG670的Q670與PB1的F9、P13構成了一個潛在的相互作用域,該相互作用域由這3個氨基酸構成。
研究表明,越是功能重要的區(qū)域,如果出現(xiàn)變異,蛋白(或蛋白復合體)失活的可能性越高[13]。類似核酸酶復合體這種關乎病毒復制、繁殖的精密蛋白復合體,出現(xiàn)變異的大部分結果是導致病毒無法繁殖子代病毒[14]。相互作用表面氨基酸的保守性要明顯高于其它表面氨基酸[15]。
BLAST和C9MP搜索結果顯示,甲型流感病毒的PB1蛋白與PA蛋白比HIV病毒的RT蛋白和IN蛋白保守許多[9]。本文的研究過程與Wang et al的顯著不同,主要差異在于本文研究的PAQG670與PB1MP1的變異沒有同時存在于同一個病毒中。
本研究也初步發(fā)現(xiàn),共進化理論不僅可用于尋找相互作用位點,而且,也有可能用于尋找存在共進化可能性的區(qū)域。本研究結果對于臨床治療的靶標發(fā)現(xiàn),疫苗和藥物的研發(fā)具有重要指導意義。
參考文獻:
[1]WEBSTER R G, BEAN W J, GORMAN O T, et al. Evolution and ecology of influenza A viruses[J]. Microbiol Rev,1992,56(1):152-179.
[2]HONDA A, MUKAIGAWA J, YOKOIYAMA A, et al. Purification and molecular structure of RNA polymerase from influenza virus A/PR8[J]. J Biochem,1990,107(4):624-628.
[3]NIETO A, DE LA LUNA S, BARCENA J, et al. Complex structure of the nuclear translocation signal of influenza virus polymerase PA subunit[J]. J Gen Virol,1994,75 ( Pt 1):29-36.
[4]CAFFREY D R, SOMAROO S, HUGHES J D, et al. Are protein-protein interfaces more conserved in sequence than the rest of the protein surface?[J]. Protein Sci,2004,13(1):190-202.
[5]MINTSERIS J, WENG Z. Structure, function, and evolution of transient and obligate protein-protein interactions[J]. Proc Natl Acad Sci U S A,2005,102(31):10930-10935.
[6]GONZALEZ S, ZURCHER T, ORTIN J. Identification of two separate domains in the influenza virus PB1 protein involved in the interaction with the PB2 and PA subunits: a model for the viral RNA polymerase structure[J]. Nucleic Acids Research,1996,24(22):4456.
[7]ZURCHER T, de la LUNA S, SANZ-EZQUERRO J J, et al. Mutational analysis of the influenza virus A/Victoria/3/75 PA protein: studies of interaction with PB1 protein and identification of a dominant negative mutant[J]. J Gen Virol,1996,77 ( Pt 8):1745-1749.
[8]PERALES B, de la LUNA S, PALACIOS I, et al. Mutational analysis identifies functional domains in the influenza A virus PB2 polymerase subunit[J]. J Virol,1996,70(3):1678-1686.
[9]WANG Y E, DELISI C. Inferring protein-protein interactions in viral proteins by co-evolution of conserved side chains[J]. Genome Inform,2006,17(1):23-35.
[10]ROST B, SANDEr C. Conservation and prediction of solvent accessibility in protein families[J]. Proteins,1994,20(3):216-226.
[11]ST A C, SMITH G E, SUMMERS M D, et al. Two of the three influenza viral polymerase proteins expressed by using baculovirus vectors form a complex in insect cells[J]. J Virol,1987,61(2):361-365.
[12]OHTSU Y, HONDA Y, SAKATA Y, et al. Fine mapping of the subunit binding sites of influenza virus RNA polymerase[J]. Microbiol Immunol,2002,46(3):167-175.
[13]DARLIX J L, LAPADAT-TAPOLSKY M, de ROCQUIGNY H, et al. First glimpses at structure-function relationships of the nucleocapsid protein of retroviruses[J]. J Mol Biol,1995,254(4):523-537.
[14]STEINHAUER D A, HOLLAND J J. Rapid evolution of RNA viruses[J]. Annu Rev Microbiol,1987,41:409-433.
[15]OFRAN Y, ROST B. Predicted protein-protein interaction sites from local sequence information[J]. FEBS Lett,2003,544(1/3):236-239.