国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高維特征非線性篩選的HLA-A*0201限制性CTL 表位預(yù)測(cè)

2013-09-21 09:00袁哲明代志軍王志明
物理化學(xué)學(xué)報(bào) 2013年9期
關(guān)鍵詞:親和性表位殘基

韓 娜 袁哲明 陳 淵 代志軍 王志明

(湖南農(nóng)業(yè)大學(xué),湖南省作物種質(zhì)創(chuàng)新與資源利用重點(diǎn)實(shí)驗(yàn)室,湖南省植物病蟲害生物學(xué)及防控重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙410128)

1 引言

細(xì)胞毒性T淋巴細(xì)胞(CTL)作為免疫細(xì)胞T細(xì)胞家族的重要成員,在惡性腫瘤治療中起了關(guān)鍵作用.1其中,與主要組織相容性復(fù)合物(MHC-I)結(jié)合的抗原短肽即CTL表位(epitopes),對(duì)CTL特異性殺傷效應(yīng)起決定作用,被廣泛應(yīng)用于多肽疫苗設(shè)計(jì).因?qū)嶒?yàn)方法鑒定CTL表位效率較低,CTL表位測(cè)定成為此類多肽疫苗設(shè)計(jì)開發(fā)的瓶頸,發(fā)展基于計(jì)算機(jī)算法的高精度CTL表位快速鑒定意義重大.

多肽空間結(jié)構(gòu)與功能本質(zhì)上由其一級(jí)結(jié)構(gòu)(氨基酸序列)決定,高級(jí)結(jié)構(gòu)很難測(cè)定而一級(jí)結(jié)構(gòu)簡(jiǎn)便易得.已有研究結(jié)果表明,處于結(jié)合狀態(tài)抗原肽立體結(jié)構(gòu)受HLA-A*0201影響較小,決定抗原肽與HLA-A*0201結(jié)合強(qiáng)弱關(guān)鍵在于抗原肽殘基與附近HLA-A*0201殘基作用大小;受體HLA-A*0201可認(rèn)為不變,故抗原肽序列各位點(diǎn)殘基差異導(dǎo)致它們間親和活性不同.2因此,多肽定量序效模型(QSAM)研究在研發(fā)肽類新藥特別是抗原肽疫苗方面具廣泛應(yīng)用前景.多肽QSAM建模的兩個(gè)重要內(nèi)容是回歸模型選擇和其一級(jí)結(jié)構(gòu)表征.在回歸模型選擇方面,常用的多元線性回歸、偏最小二乘回歸、神經(jīng)網(wǎng)絡(luò)等存在諸多弊端;3?6而基于結(jié)構(gòu)風(fēng)險(xiǎn)最小的支持向量回歸(SVR)較好地解決了小樣本、非線性、過擬合、維數(shù)災(zāi)難和局部極小等問題,模型的外部預(yù)測(cè)能力優(yōu)異.4因此本研究選用SVR為基本建模工具.在多肽一級(jí)結(jié)構(gòu)表征方面,主要有基于氨基酸性質(zhì)主成分分析的氨基酸描述子和直接基于氨基酸性質(zhì)的氨基酸描述子兩類.前者如Z標(biāo)度,7,8每一主成分(描述子)是相應(yīng)氨基酸多種物化性質(zhì)的線性加權(quán),雖綜合性、代表性較好,但實(shí)現(xiàn)的是初始描述子的線性壓縮與去冗余,難以反映初始描述子與多肽活性間的復(fù)雜非線性關(guān)系,且模型解釋困難.后者如殘基側(cè)鏈全向表面積-電荷指數(shù)(ISA-ECI),9雖描述子物化意義明確、解釋性較好,但每個(gè)氨基酸殘基僅由ISA和ECI兩個(gè)參數(shù)表征顯然不夠全面.氨基酸指數(shù)數(shù)據(jù)庫(http://www.genome.jp/aaindex/)中的531個(gè)特征是氨基酸物理化學(xué)性質(zhì)的較全面總結(jié),理論上可直接作為描述子用于肽、蛋白質(zhì)結(jié)構(gòu)表征,但由此衍生的問題是特征維數(shù)巨增,且無關(guān)、冗余特征影響模型精度.從m個(gè)特征中選取最優(yōu)特征子集理論上有2m種可能,在m較大時(shí)無法窮舉;多數(shù)現(xiàn)有啟發(fā)式特征選擇方法存在易陷入局部最優(yōu)的缺陷;10以逐步線性回歸篩選獲得的特征應(yīng)用于SVR等非線性建模,在理論上和實(shí)踐上均缺乏證據(jù)支持.6

鑒此,本文以氨基酸的531個(gè)物理化學(xué)性質(zhì)直接表征多肽序列,集成基于SVR發(fā)展的二元矩陣重排過濾器、多輪末尾淘汰非線性精細(xì)篩選方法以及SVR非線性解釋性體系,運(yùn)用于CTL表位鑒定,建立了精度高、解釋性強(qiáng)的QSAM模型,并基于該模型對(duì)1.28×109條(其中2個(gè)位置被固定)虛擬9肽進(jìn)行預(yù)測(cè),獲得了244880條預(yù)測(cè)活性高于8.77(現(xiàn)有最高實(shí)測(cè)值)的9肽,其中最高活性值達(dá)到9.707.結(jié)果報(bào)道如下.

2 數(shù)據(jù)與方法

2.1 數(shù)據(jù)來源

152條HLA-A*0201限制性CTL表位9肽序列與親和活性pIC50引自文獻(xiàn),11其中多肽序列GLYSSTVPV出現(xiàn)兩次但活性值不同,本文予以去除.為便于比較,參照文獻(xiàn)11劃分訓(xùn)練集(101個(gè)樣本)和測(cè)試集(49個(gè)樣本).pIC50為IC50的負(fù)對(duì)數(shù),IC50(單位為nmol·L?1)為采用不同濃度的待測(cè)肽與0.5 nmol·L?1的放射性標(biāo)記的HBVc18227(FLPSDYEPSV)T細(xì)胞表位肽(對(duì)照肽)與HLA-A*0201的復(fù)合物在溫室下共孵育2 h,測(cè)定待測(cè)肽序列將對(duì)照肽/HLA-A*0201的復(fù)合物中50%的對(duì)照肽置換下來的濃度.

2.2 多肽序列表征

每條多肽序列上的每個(gè)氨基酸殘基由氨基酸指數(shù)數(shù)據(jù)庫中的531個(gè)描述子表征(命名為AA531),依次串聯(lián)排列.每條9肽含4779個(gè)初始描述子.

2.3 二元矩陣重排過濾器

假定初始訓(xùn)練集由n維列向量Y和n行m列矩陣X組成,本文中Y為親和活性值pIC50,X為初始描述子.首先有條件隨機(jī)產(chǎn)生k行m列取值為0或1的矩陣M(限制條件為每列0與1的個(gè)數(shù)均衡),k可根據(jù)m值的大小和每輪篩選所耗費(fèi)時(shí)間適當(dāng)取值,本文k初始值為500,并每輪以步長(zhǎng)50遞減,下限為200.其次,矩陣M的每行以0(剔除)和1(保留)對(duì)應(yīng)取出X的列,產(chǎn)生k個(gè)子集(i=1,2,...,k),所有子集分別與Y組成k個(gè)數(shù)據(jù)集,各個(gè)數(shù)據(jù)集基于SVR經(jīng)交叉測(cè)試(如未特別說明,本文交叉測(cè)試次數(shù)均為5次,核函數(shù)固定為徑向基核,核函數(shù)參數(shù)經(jīng)自動(dòng)尋優(yōu)給出)獲得k個(gè)均方誤差MSE,并與M組合成新的數(shù)據(jù)集D.最后,判斷各特征是否保留時(shí),先將M對(duì)應(yīng)列各元素值取反得M′,與k個(gè)MSE組合后作為測(cè)試集,D作為訓(xùn)練集,預(yù)測(cè)得到k個(gè)MSE',按照M和M′第一列以0和1值對(duì)k個(gè)MSE和k個(gè)MSE'進(jìn)行 分類,對(duì)得到的k個(gè)MSE0和k個(gè)MSE1取均值和除.12,13對(duì)保留的m1個(gè)特征對(duì)應(yīng)原始數(shù)據(jù)集取出相應(yīng)則保留該特征,反之剔列作為新的特征集X1,與Y組合成粗篩后的數(shù)據(jù)集D1,用于后續(xù)多輪末尾淘汰.

2.4 多輪末尾淘汰非線性精細(xì)篩選

基于SVR計(jì)算數(shù)據(jù)集D1的交叉測(cè)試MSE0.在第一輪篩選時(shí),特征集X1(xij∈X1,i=1,...,n;j=1,...,m1)逐次刪除第p列得到m1個(gè)特征子集X2(xij∈X2,i=1,...,n;j=1,...,p?1,p+1,...,m1),交叉測(cè)試得到向量MSEj(j=1,...,m1),若min(MSEj)≤MSE0,則剔除相應(yīng)特征,反之篩選結(jié)束.6,12新特征子集X2(xij∈X2,i=1,...,n;j=1,2,...,m1?1),與Y組合得到D2進(jìn)入下一輪,直到?jīng)]有變量剔除為止.

2.5 SVR非線性解釋性體系

2.5.1 SVR模型非線性回歸顯著性檢驗(yàn)

常用評(píng)估SVR模型優(yōu)劣的MSE等指標(biāo),在不同數(shù)據(jù)集間不具可比性,且無法給出定性判斷.這里引入F統(tǒng)計(jì)量:14

回歸平方和:

剩余離差平方和:

其中,n為樣本個(gè)數(shù),m′為保留因子個(gè)數(shù),yi、yi分別為第i個(gè)樣本真值和估計(jì)值,yˉ為所有樣本真值的均值,F(xiàn)自由度為 (m′,n?m′?1).當(dāng)F > Fα(m′,n?m′?1),則表明SVR模型在α水平上非線性回歸顯著.

2.5.2 單因子重要性分析

因子越重要,則因變量Y隨其大小變化越明顯.將xj固定為零水平(平均值),其它因子值不變作為測(cè)試集代入所建最優(yōu)SVR模型,據(jù)預(yù)測(cè)值計(jì)算得到代表了x對(duì)j回歸平方和的貢獻(xiàn).14由于非線性SVR模型中,離均差平方和SSy≠Q(mào)+U,因此本文利用矯正后的U′=U/(U+Q)×SSy和Q′=Q/(U+Q)×SSy,Q和U規(guī)格化到SSy=Q′+U′并計(jì)算xj固定下的Fj值:

其中,y′i分別為固定 xj的第 i個(gè)樣本估計(jì)值,F(xiàn)j的自由度ν1和ν2分別為1和n?m′?1.

2.5.3 單因子效應(yīng)分析

為了解隨著單個(gè)因子xj的變動(dòng),因變量Y的變化趨勢(shì),采用基于SVR的非線性單因子效應(yīng)分析.14先將除xj外其他因子固定為其均值,并令xj在固定取值區(qū)間(通常為xj的極差)內(nèi)按一定步長(zhǎng)取多個(gè)水平,代入所建最優(yōu)SVR模型獲得預(yù)測(cè)值y,各因子規(guī)格化后作x?y效應(yīng)圖.

二元矩陣重排過濾器粗篩、多輪末尾淘汰精細(xì)篩和SVR非線性解釋性體系以自編Matlab程序通過調(diào)用Libsvm 3.1軟件包15實(shí)現(xiàn)并經(jīng)驗(yàn)證通過.核函數(shù)固定為徑向基核,核函數(shù)各參數(shù)基于gridregression.py搜索自動(dòng)獲取.

2.6 模型評(píng)價(jià)

訓(xùn)練集擬合精度及交叉驗(yàn)證精度采用決定系數(shù)R2和表示:16,17其中,ytr_i和ytr_i分別為訓(xùn)練集樣本真值和擬合值,yˉtr為訓(xùn)練集樣本真值的均值,y'tr_i為訓(xùn)練集交叉驗(yàn)證預(yù)測(cè)值,n1為訓(xùn)練集樣本個(gè)數(shù).

其中,yte_i和yte_i分別為測(cè)試集樣本真值和預(yù)測(cè)值,yˉte為測(cè)試集樣本真值的均值,n2為測(cè)試集樣本個(gè)數(shù).

3 結(jié)果與討論

3.1 模型檢驗(yàn)

訓(xùn)練集初始描述子個(gè)數(shù)為4779,基于SVR的交叉驗(yàn)證,MSE為0.359;經(jīng)二元重排過濾器(BMSF)粗篩后,描述子個(gè)數(shù)降為27,交叉驗(yàn)證MSE降為0.215;進(jìn)一步以多輪末尾淘汰法非線性精細(xì)篩選,得18個(gè)保留描述子,交叉驗(yàn)證MSE降至0.201.基于18個(gè)保留描述子,以訓(xùn)練集構(gòu)建最優(yōu)SVR模型,150條HLA-A*0201表位肽序列及其生物活性值、訓(xùn)練集擬合值、測(cè)試集預(yù)測(cè)值見表1;其擬合、留一法交叉驗(yàn)證決定系數(shù)R2、分別為0.957、0.708;獨(dú)立預(yù)測(cè)決定系數(shù)及均方根誤差、RMSEext分別為0.818、0.366,明顯優(yōu)于現(xiàn)有文獻(xiàn)報(bào)道結(jié)(表2).圖1和圖2進(jìn)一步直觀展示了訓(xùn)練集擬合和測(cè)試集預(yù)測(cè)的優(yōu)異結(jié)果.

3.2 模型解釋

對(duì)表1全部150個(gè)樣本基于18個(gè)保留描述子建立SVR模型,F(xiàn)(=151.032)>F0.01(18,131)(=2.075),表明非線性回歸極顯著.18個(gè)保留描述子單因子重要性分析結(jié)果見表3,均達(dá)極顯著(F0.01(1,131)=6.832).18個(gè)保留描述子的單因子效應(yīng)分析結(jié)果見圖3.

表1 CTL表位的氨基酸序列與親和性(pIC50)的實(shí)驗(yàn)值與預(yù)測(cè)值Table 1 CTLepitopes sequences with observed and predicted values(pIC50)of binding affinity

continued Table 1

3.3 高活性肽分子設(shè)計(jì)

由前所述,基于表1全部150個(gè)樣本、18個(gè)保留描述子建立的SVR模型可以信賴,現(xiàn)依該模型進(jìn)一步進(jìn)行高活性表位肽預(yù)測(cè)與分子設(shè)計(jì).9肽全組合預(yù)測(cè)集生成如下:因1位和5位為非重要?dú)埢?,且?shí)測(cè)150個(gè)9肽中活性最高表位肽為ILWQVPFSV(pIC50=8.77),可固定1位殘基為I,5位殘基為V;其余7個(gè)位置殘基(7因素)每個(gè)位置由20種天然氨基酸依次取代(20水平),共產(chǎn)生207=1.28×109條虛擬9肽.預(yù)測(cè)結(jié)果表明,預(yù)測(cè)值大于8.77的9肽有244880條,最高預(yù)測(cè)值為9.707.預(yù)測(cè)值最高的前10條9肽見表4,可供進(jìn)一步實(shí)驗(yàn)驗(yàn)證.

對(duì)預(yù)測(cè)值大于9.3的3276條虛擬9肽,逐位統(tǒng)計(jì)氨基酸出現(xiàn)頻次,結(jié)果見圖4(其中1位殘基固定為I,5位殘基固定為V),各位置上字母越突出,則表示該氨基酸在該位置出現(xiàn)頻次越高.

3.4 各位置氨基酸殘基與親和活性的關(guān)系

結(jié)合表3、圖3和圖4,逐位殘基(除第1位和第5位非重要?dú)埢?對(duì)表位肽活性影響分析如下.

Position 2(P2):多肽親和性與該位殘基多肽環(huán)信息測(cè)度、24STERIMOL最大側(cè)鏈寬度值、25?6窗口位置卷曲螺旋權(quán)重值26等氨基酸空間性質(zhì)有較大關(guān)聯(lián)(表3),且與多肽環(huán)信息測(cè)度呈顯著正相關(guān),與STERIMOL最大側(cè)鏈寬度值呈負(fù)相關(guān)(圖3).該位殘基對(duì)抗原肽與MHC分子結(jié)合起重要作用,通常被認(rèn)為是“錨點(diǎn)”.11頻次統(tǒng)計(jì)分析顯示,P2位為Val、Ala、Glu、Leu、Ile、Met等6種殘基有助于提高表位肽活性(圖4),與結(jié)合基序法認(rèn)為該位Ile、Met和Val是初級(jí)錨點(diǎn)的結(jié)論相近.27本文結(jié)果支持P2位為關(guān)鍵殘基位點(diǎn)的現(xiàn)有認(rèn)知,但解釋不同,以往研究認(rèn)為多肽親和性與P2位殘基的疏水性和電性有關(guān),本文認(rèn)為主要與P2位殘基的空間性質(zhì)有關(guān).

表2 CTL表位的QSAR/QSAM模型比較Table 2 Comparison between QSAR/QSAM models of CTLepitopes

圖1 訓(xùn)練集樣本活性的實(shí)驗(yàn)值與回歸值Fig.1 Observed values vs predicted values of binding affinity of training samples

圖2 測(cè)試集樣本活性的實(shí)驗(yàn)值與回歸值Fig.2 Observed values vs predicted values of binding affinity of testing samples

Position 3(P3):多肽親和性與該位殘基的β-蛋白標(biāo)準(zhǔn)疏水值、28改進(jìn)Kyte-Doolittle疏水值29等氨基酸疏水性質(zhì)有較大關(guān)聯(lián)(表3),且與前者呈正相關(guān)關(guān)系(圖3);頻次統(tǒng)計(jì)顯示該位可出現(xiàn)14種殘基,其中Trp、Tyr、Phe三種殘基合計(jì)頻率超過80%(圖4),與Doytchinova等11該位殘基側(cè)鏈為芳香烴的疏水性氨基酸Trp、Tyr、Phe有利于提高親和活性的觀點(diǎn)一致.

Position 4(P4):多肽親和性與該位殘基的圖形形狀指數(shù)(反映氨基酸空間性質(zhì)的綜合指標(biāo))、25主成分IV(反映氨基酸多種性質(zhì)的綜合指標(biāo))、30側(cè)鏈交互作用參數(shù)(反映氨基酸側(cè)鏈間范德華力作用大小的指標(biāo))31和平均彈性指數(shù)(穩(wěn)定性指標(biāo))32等四個(gè)性質(zhì)有較大關(guān)聯(lián)(表3),且與前兩者呈負(fù)相關(guān),與后兩者呈正相關(guān)(圖3).該位殘基被認(rèn)為是標(biāo)志鏈,主要功能是被T細(xì)胞表面抗原受體(T cell receptor,TCR)識(shí)別.33頻次統(tǒng)計(jì)顯示該位可出現(xiàn)7種殘基,其中Pro、Gly、Glu三種殘基合計(jì)頻率超過87%(圖4),與宋哲等33認(rèn)為4位的Gly對(duì)親和活性貢獻(xiàn)最大以及Kirksey等34認(rèn)為4位Glu能有效提高親和活性并易于被T細(xì)胞識(shí)別的觀點(diǎn)吻合.

表3 QSAM模型中CTL表位的保留描述子Table 3 Reserved descriptors of CTLepitopes in QSAM model

圖3 CTL表位18個(gè)保留描述子單因子效應(yīng)x?y折線圖Fig.3 x?y line chart of the single-factor effects for 18 selected descriptors of CTLepitopes

Position 6(P6):多肽親和性與該位殘基的反轉(zhuǎn)鏈標(biāo)準(zhǔn)頻率、35側(cè)鏈1+1標(biāo)記位原子數(shù)36關(guān)聯(lián)較大(表3),且與前者呈開口向上拋物線變化,與后者正相關(guān)(圖3).頻次統(tǒng)計(jì)顯示該位可出現(xiàn)除Ala外的19種殘基且較為分散(圖4).綜合判斷,該位殘基對(duì)活性影響較弱.

Position 7(P7):多肽親和性與該位殘基的螺旋N"'端殘基標(biāo)準(zhǔn)化頻率、37側(cè)鏈原子組成38關(guān)聯(lián)較大(表3),且與前者正相關(guān)明顯,與后者負(fù)相關(guān)明顯(圖3).頻次統(tǒng)計(jì)顯示,該位殘基為 Pro、Met、Phe、Tyr、Ala可提高親和活性(圖4),與宋哲等33認(rèn)為7位的Thr、Pro、Phe對(duì)親和活性貢獻(xiàn)較大,Doytchinova等11認(rèn)為7位易接受Ala、Val、Pro的觀點(diǎn)接近.

表4 預(yù)測(cè)活性值(pIC50)最高的10條多肽序列Table 4 Ten sequences with the highest predicted values(pIC50)of binding affinity

圖4 高活性虛擬9肽位置殘基頻次統(tǒng)計(jì)Fig.4 Frequency statistic of amino acids at each position among the high-activity virtual 9 peptide

Position 8(P8):多肽親和性與該位殘基的隱蔽殘基百分比、39平均側(cè)鏈存在角度40關(guān)聯(lián)較大(表3),且與前者呈負(fù)相關(guān),與后者呈正相關(guān)(圖3),頻次統(tǒng)計(jì)顯示該位殘基為L(zhǎng)ys、Arg、Gln、Glu可提高親和活性(圖4).P8位殘基與P4位殘基同被認(rèn)為是標(biāo)志鏈.33

Position 9(P9):多肽親和性與該位殘基的α螺旋標(biāo)準(zhǔn)加權(quán)頻率、4195%自由能自外向內(nèi)轉(zhuǎn)移參數(shù)、42N-末端轉(zhuǎn)角信息測(cè)度24有較大關(guān)聯(lián)(表3),且與前兩者正相關(guān)明顯,與后者呈負(fù)相關(guān)(圖3).該位殘基一般認(rèn)為也是“錨點(diǎn)”.11頻次統(tǒng)計(jì)顯示該位殘基為Val、Met、Gly、Ala、Leu等5種殘基可提高親和活性(圖4),與宋哲等33認(rèn)為9位的Val、Met對(duì)親和活性貢獻(xiàn)最大,Doytchinova等11認(rèn)為9位易于容納Ala、Val的觀點(diǎn)較一致,支持P9位為關(guān)鍵殘基位點(diǎn)的現(xiàn)有認(rèn)知.

3.5 模型局限性

本文所建QSAM模型仍存在進(jìn)一步改進(jìn)之處.一是150條實(shí)測(cè)多肽很難代表209條9肽所產(chǎn)生的多種結(jié)構(gòu)狀態(tài).由于不少相似序列結(jié)構(gòu)基本相同,簡(jiǎn)單地增加實(shí)測(cè)多肽條數(shù)不僅耗時(shí)費(fèi)力,也并不足以能完全解決這一問題.對(duì)類似9因素20水平這樣復(fù)雜的多因素多水平實(shí)驗(yàn)設(shè)計(jì)與優(yōu)化問題,本實(shí)驗(yàn)室曾發(fā)展了基于均勻設(shè)計(jì)(UD)與SVR的實(shí)驗(yàn)設(shè)計(jì)與分析新方法UD-SVR,并在多個(gè)動(dòng)物營(yíng)養(yǎng)、微生物發(fā)酵配方優(yōu)化中得到成功應(yīng)用.43?45因此,首先采用系列UD設(shè)計(jì)獲得樣本容量依次倍增的虛擬9肽集n1、n2、…、nj,模建每一條9肽構(gòu)象,計(jì)數(shù)每一9肽集中結(jié)構(gòu)狀態(tài)數(shù)s1、s2、…、sj,對(duì)n?s作圖,可大致估計(jì)s趨近飽和(si)時(shí)的最小虛擬9肽集ni(si<ni),從ni中挑出約si條結(jié)構(gòu)狀態(tài)非冗余的9肽序列,真實(shí)合成并實(shí)測(cè)其親和活性,構(gòu)建初始數(shù)據(jù)集,可能是解決這一問題的有效途徑.二是本文僅基于序列的分子描述符而未涉及更為重要的基于結(jié)構(gòu)的分子描述符.雖然T細(xì)胞表位是線性表位,46但B細(xì)胞表位主要為構(gòu)象表位,47絕大多數(shù)的多肽活性與空間構(gòu)象有關(guān),基于序列的模型應(yīng)用受限,基于結(jié)構(gòu)的方法理論上更直觀、更準(zhǔn)確.48?51基于結(jié)構(gòu)分子描述符,經(jīng)高維特征非線性篩選建立更普適的高精度多肽QSAR模型是未來進(jìn)一步研究的方向.

4 結(jié)論

將氨基酸指數(shù)數(shù)據(jù)庫中的531個(gè)物理化學(xué)性質(zhì)直接表征表位肽序列,經(jīng)非線性特征篩選后建立SVR模型,獲得了保留特征較少、預(yù)測(cè)精度較高的QSAM模型;通過對(duì)全組合虛擬9肽的預(yù)測(cè),得到了多條預(yù)測(cè)親和活性高于已知表位肽的9肽,可供實(shí)驗(yàn)驗(yàn)證;結(jié)合非線性解釋性體系與高活性虛擬肽頻次統(tǒng)計(jì)分析,進(jìn)一步較全面闡明了特定位置殘基對(duì)多肽親和性的影響規(guī)律,為高活性多肽疫苗分子設(shè)計(jì)提供了切實(shí)指導(dǎo).

致謝: 美國(guó)克萊姆森大學(xué)羅峰博士修改、潤(rùn)色英文摘要,謹(jǐn)致謝忱.

(1) Zhu,B.;Lin,Z.H.;Chen,Z.T.;Wu,Y.T.Immunological Journal 2005,21(3),177. [朱 波,林治華,陳正堂,吳玉堂.免疫學(xué)雜志,2005,21(3),177.]

(2) Zhou,P.;Li,Z.L.;Tian,F(xiàn).F.;Zhang,M.J.Chin.Sci.Bull.2006,51(11),1259.[周 鵬,李志良,田菲菲,張夢(mèng)軍.科學(xué)通報(bào),2006,51(11),1259.]

(3) Charkraborty,K.;Mehrotra,K.;Mohan,C.;Ranka,S.Neural Networks 1992,5(6),961.doi:10.1016/S0893-6080(05)80092-9

(4) Vapnik,V.The Nature of Statistical Learning Theory,2nd ed.;Springer:New York,1995;pp 5?78.

(5)Wang,H.W.;Wu,Z.B.;Meng,J.Partial Least-Squares Regression-Linear and Nonlinear Methods,1st ed.;National Defence Industry Press:Beijing,2006;pp 34?54.[王惠文,吳載斌,孟 潔.偏最小二乘回歸的線性與非線性方法.北京:國(guó)防工業(yè)出版社,2006:34?54.]

(6) Yuan,Z.M.;Tan,X.S.Acta Agronomica Sinica 2010,36(7),1176.

(7) Hellberg,S.;Sj?str?m,M.;Skagerberg,B.;Wold,S.J.Med.Chem.1987,30(7),1126.doi:10.1021/jm00390a003

(8) Hellberg,S.;Eriksson,L.;Jonsson,J.;Lindgren,F(xiàn).;Sj?str?m,M.;Skagerberg,B.;Wold,S.;Andrews,P.Int.J.Pept.Protein Res.1991,37(5),414.

(9) Elizabeth,R.C.;William,J.I.J.Med.Chem.1995,38(14),2705.doi:10.1021/jm00014a022

(10) Golub,T.R.;Slonim,D.K.;Tamayo,P.;Huard,C.;Gaasenbeek,M.;Mesirov,J.P.;Coller,H.;Loh,M.L.;Downing,J.R.;Caligiuri,M.A.;Bloomfield,C.D.;Lander,E.S.Science 1999,286(5439),531.doi:10.1126/science.286.5439.531

(11) Doytchinova,I.A.;Darren,R.F.J.Med.Chem.2001,44(22),3572.doi:10.1021/jm010021j

(12) Zhou,W.;Dai,Z.J.;Chen,Y.;Wang,H.Y.;Yuan,Z.M.Int.J.Mol.Sci.2012,13(1),1161.

(13)Zhang,H.Y.;Wang,H.Y.;Dai,Z.J.;Chen,M.S.;Yuan,Z.M.BMC Bioinformatics 2012,13(1),298.doi:10.1186/1471-2105-13-298

(14)Tan,X.S.;Wang,Z.M.;Tan,S.Q.;Yuan,Z.M.;Xiong,X.Y.Journal of System Simulation 2009,21(24),7795. [譚顯勝,王志明,譚泗橋,袁哲明,熊興耀.系統(tǒng)仿真學(xué)報(bào),2009,21(24),7795.]

(15) Chang,C.C.;Lin,C.J.ACM TIST 2011,2(3),1.

(16)Yang,S.B.;Xia,Z.N.;Shu,M.;Mei,H.;Lü,F(xiàn).L.;Zhang,M.;Wu,Y.Q.;Li,Z.L.Chem.J.Chin.Univ.2008,29(11),2213.[楊善彬,夏之寧,舒 茂,梅 虎,呂鳳林,張 梅,吳玉乾,李志良.高等學(xué)?;瘜W(xué)學(xué)報(bào),2008,29(11),2213.]

(17) Liang,G.Z.;Mao,S.;Li,S.S.J.Chin.Chem.Soc.2008,55(5),1178.

(18)Tropsha,A.;Paola,G.;Gombar,V.K.QSAR Comb.Sci.2003,22(1),69.

(19) Mei,H.;Zhou,Y.;Liao,Z.H.;Li,Z.L.Acta Chimica Sinica 2006,64(9),949.[梅 虎,周 原,廖志華,李志良.化學(xué)學(xué)報(bào),2006,64(9),949.]

(20) Ren,Y.R.Computers and Applied Chemistry 2011,28(6),734.[任彥榮.計(jì)算機(jī)應(yīng)用與化學(xué),2011,28(6),734.]

(21) Chen,T.The Application of 3D Amino Acids Descriptors to the Quantitative Structure?Activity Relationship Study of Peptides.Ph.D.Dissertation,Shanxi University,Shanxi,2011.[陳 婷.三維氨基酸描述子在肽類定量構(gòu)效關(guān)系研究中的應(yīng)用[D].山西:山西大學(xué),2011.]

(22) Liang,G.Z.Construction of Representation Techniques and Investigation on Structure?Activity Relationship for Biological Sequences.Ph.D.Dissertation,Chongqing University,Chongqing,2007.[梁桂兆.生物序列表征體系構(gòu)建及結(jié)構(gòu)與功能關(guān)系研究[D].重慶:重慶大學(xué),2007.]

(23)Wang,Z.M.;Han,N.;Yuan,Z.M.;Wu,Z.H.Acta Phys.-Chim Sin.2013,29(3),498.[王志明,韓 娜,袁哲明,伍朝華.物理化學(xué)學(xué)報(bào),2013,29(3),498.]doi:10.3866/PKU.WHXB201301042

(24) Robson,B.;Suzuki,E.Am.J.Mol.Biol.1976,107(3),327.

(25) Fauchère,J.L.U.C.;Charton,M.;Lemont,B.K.;Verloop,A.;Pliska,V.Int.J.Pept.Protein Res.1988,32(4),269.

(26) Qian,N.;Sejnowski,T.J.Mol.Biol.1988,202(4),865.doi:10.1016/0022-2836(88)90564-5

(27) Falk,K.;R?tzschke,O.;Stevanovié,S.;Jung,G.;Rammensee,H.G.Nature 1991,351(23),290.

(28) Hilda,C.;Marta,B.;Mauricio,C.;Felipe,G.Protein Eng.1992,5(5),373.doi:10.1093/protein/5.5.373

(29) Jureti?a,D.;Zuci?b,D.;Luc?i?c,B.;Trinajsti?c,N.Computers Chem.1998,22(4),279.doi:10.1016/S0097-8485(97)00070-3

(30) Sneath,P.H.A.J.Theoret.Biol.1966,12(2),157.doi:10.1016/0022-5193(66)90112-3

(31) Krigbaum,W.R.;Komoriya,A.BBA-Protein Struct.M.1979,576(1),204.doi:10.1016/0005-2795(79)90498-7

(32) Vihinen,M.;Torkkila,E.;Riikonen,P.Proteins:Structure,F(xiàn)unction,and Genetics 1994,19(2),141.

(33) Song,Z.;Liu,T.;Liu,W.;Zhu,M.H.;Wang,X.G.Acta Phys.-Chim.Sin.2007,23(2),198.[宋 哲,劉 濤,劉 偉,朱鳴華,王曉鋼.物理化學(xué)學(xué)報(bào),2007,23(2),198.]doi:10.1016/S1872-1508(07)60016-3

(34) Kirksey,T.J.;Pogue-Caley,R.R.;Frelinger,J.A.;Collins,E.J.J.Biol.Chem.1999,254(52),33726.

(35) Tanaka,S.;Scheraga,H.A.Macromolecules 1977,10(2),291.doi:10.1021/ma60056a015

(36) Charton,M.;Barbara,I.C.J.Theor.Biol.1983,102(1),121.doi:10.1016/0022-5193(83)90265-5

(37) Aurora,R.;Rose,G.D.Protein Sci.1998,7(1),21.

(38) Grantham,R.Science 1974,185(4154),862.doi:10.1126/science.185.4154.862

(39) Janin,J.;Chothia,C.Biochemistry 1978,17(15),2943.doi:10.1021/bi00608a001

(40) Meirovitch,H.;Scheraga,H.A.Macromolecules 1980,13(6),1406.doi:10.1021/ma60078a014

(41) Levitt,M.Biochemistry 1978,17(20),4277.doi:10.1021/bi00613a026

(42) Radzicka,A.;Wolfenden,R.Biochemistry 1988,27(5),1664.doi:10.1021/bi00405a042

(43)Yuan,Z.M.;Zuo,B.;Tan,S.Q.;Tan,X.S.;Xiong,X.Y.Chin.J.Process Eng.2009,9(1),148.[袁哲明,左 斌,譚泗橋,譚顯勝,熊興耀.過程工程學(xué)報(bào),2009,9(1),148.]

(44) Li,J.;Tan,X.S.;Tan,S.Q.;Yuan,Z.M.;Xiong,X.Y.Acta Entomologica Sinica 2010,53(4),420.[李 俊,譚顯勝,譚泗橋,袁哲明,熊興耀.昆蟲學(xué)報(bào),2010,53(4),420.]

(45) Zhou,S.H.;Li,J.;Yao,R.X.;Zhang,X.;Yuan,Z.M.Acta Entomologica Sinica 2012,55(1),124.[周世豪,李 俊,姚潤(rùn)賢,張 星,袁哲明.昆蟲學(xué)報(bào),2012,55(1),124.]

(46)Yasser,E.L.M.;Dobbs,D.;Honavar,V.PLoS One 2008,3(9),e3268

(47) Zhang,W.;Xiong,Y.;Zhao,M.;Zou,H.;Ye,X.H.;Liu,J.BMC Bioinformatics 2011,12(1),341.doi:10.1186/1471-2105-12-341

(48) Shen,M.Y.;Zhou,S.Y.;Li,Y.Y.;Pan,P.C.;Zhang,L.L.;Hou,T.J.Mol.Biosys 2013,9(3),361.doi:10.1039/c2mb25408e

(49) Hou,T.J.;Li,N.;Li,Y.Y.;Wang,W.J.Proteome Res.2012,11(5),2982.doi:10.1021/pr3000688

(50) Zhang,C.Q.;Hou,T.J.;Li,Y.Y.Curr.Comput.-Aided Drug Des.2013,9(1),60.

(51)Yan,Y.;Li,Y.;Zhang,S.;Ai,C.J.Mol.Graph.Model.2011,29(5),747.doi:10.1016/j.jmgm.2010.12.008

猜你喜歡
親和性表位殘基
基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
“殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
乙型肝炎病毒B和C基因型S蛋白特異性CTL表位保守性分析
荔枝高接品種的選擇
4個(gè)蘋果觀賞品系開花、授粉習(xí)性及花粉管萌發(fā)的熒光顯微觀察
不結(jié)球白菜與西洋菜遠(yuǎn)緣雜交親和性研究
基于MECA算法的BP網(wǎng)絡(luò)研究
聯(lián)合T、B細(xì)胞表位設(shè)計(jì)多肽疫苗的研究進(jìn)展①
基于支持向量機(jī)的蛋白質(zhì)相互作用界面熱點(diǎn)殘基預(yù)測(cè)
小反芻獸疫病毒化學(xué)合成表位多肽對(duì)小鼠的免疫效果研究