杜月寒,鹿文鵬,劉毅慧,成金勇
(齊魯工業(yè)大學(xué)(山東省科學(xué)院)信息學(xué)院,濟(jì)南 250353)
蛋白質(zhì)是生物體內(nèi)生命活動(dòng)的主要承擔(dān)者,是一切生命活動(dòng)的基礎(chǔ),它的生理功能除了體現(xiàn)在氨基酸構(gòu)成上還體現(xiàn)在它的空間結(jié)構(gòu)上[1].因此,預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)是生物信息學(xué)領(lǐng)域的一個(gè)重要任務(wù).通常,蛋白質(zhì)結(jié)構(gòu)包括4個(gè)層次[2]:一級(jí)結(jié)構(gòu)即氨基酸的排列順序;二級(jí)結(jié)構(gòu)主要是由氫鍵維持的α-螺旋和β-折疊;三級(jí)結(jié)構(gòu)是完全折疊的蛋白質(zhì)的空間結(jié)構(gòu)殘基的立體排列模式;四級(jí)結(jié)構(gòu)是多個(gè)蛋白質(zhì)亞基組成的蛋白質(zhì)復(fù)合體的結(jié)構(gòu)(即蛋白質(zhì)之間的交互作用).蛋白質(zhì)二級(jí)結(jié)構(gòu)是聯(lián)系蛋白質(zhì)一級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)的紐帶,而且也是從一級(jí)結(jié)構(gòu)預(yù)測(cè)其三級(jí)結(jié)構(gòu)的關(guān)鍵步驟[3,4].當(dāng)?shù)鞍踪|(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)正確率達(dá)到80%時(shí),就可以準(zhǔn)確預(yù)測(cè)一個(gè)蛋白質(zhì)分子的三維空間結(jié)構(gòu)[5].可見(jiàn),蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)已經(jīng)成為研究蛋白質(zhì)結(jié)構(gòu)和功能的重要手段.
由于已測(cè)定結(jié)構(gòu)的蛋白質(zhì)數(shù)量遠(yuǎn)遠(yuǎn)小于已知的蛋白質(zhì)序列數(shù)量[6],并且傳統(tǒng)的生物實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)的方法花費(fèi)昂貴且耗時(shí)時(shí)間較長(zhǎng).因此,采用數(shù)據(jù)驅(qū)動(dòng)的方法(如機(jī)器學(xué)習(xí)技術(shù))來(lái)預(yù)測(cè)未知的蛋白質(zhì)的結(jié)構(gòu)和功能廣受青睞.在過(guò)去的一段時(shí)間內(nèi),很多方法被提出來(lái)用于蛋白質(zhì)結(jié)構(gòu)類的預(yù)測(cè).而影響蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)效果的關(guān)鍵因素主要集中在兩個(gè)方面上:一是分類預(yù)測(cè)算法,Zhou等人使用神經(jīng)網(wǎng)絡(luò)[7],Mandle等人使用支持向量機(jī)[8],Wang和Peng等使用深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)[9];二是蛋白質(zhì)特征信息提取,如Chou等人提出的偽氨基酸組成(PseAA法)[10-12],Cao等人提出的基于簡(jiǎn)化PSSM與蛋白質(zhì)結(jié)構(gòu)位置信息的特征表示算法[13].
一般的預(yù)測(cè)方法通常使用BLOSUM62矩陣構(gòu)造特征向量,對(duì)蛋白質(zhì)進(jìn)化過(guò)程中存在的氨基酸位點(diǎn)突變現(xiàn)象缺乏考慮.本文提出一種新的特征表示方法,對(duì)于一條蛋白質(zhì)序列,同時(shí)使用多種進(jìn)化趨異度的矩陣來(lái)表示蛋白質(zhì)序列,更全面的考慮了殘基替換的可能性.不同的進(jìn)化矩陣對(duì)不同相關(guān)程度的蛋白質(zhì)序列的敏感性不同.這使得多重進(jìn)化矩陣這種蛋白質(zhì)序列特征表示方法,不僅可以很好地反映序列中氨基酸的位置信息,而且全面考慮序列內(nèi)部近相關(guān)和遠(yuǎn)相關(guān)蛋白質(zhì)區(qū)域[14]之間的相互影響.本文結(jié)合交叉驗(yàn)證法和網(wǎng)格搜索法來(lái)確定實(shí)驗(yàn)參數(shù),先在大范圍大步距粗搜,初步確定一個(gè)最優(yōu)參數(shù)區(qū)間,之后在此區(qū)間進(jìn)行小步距精搜,結(jié)合網(wǎng)格搜索法和交叉驗(yàn)證法共同確定實(shí)驗(yàn)參數(shù).在數(shù)據(jù)集RS126、CB513和25PDB上進(jìn)行的多組實(shí)驗(yàn),表明本文所提出的基于多重進(jìn)化矩陣的特征向量構(gòu)造方法能夠有效提高蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)精度.
通過(guò)蛋白質(zhì)序列的位置特異性打分矩陣而不是僅依靠序列來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),是公認(rèn)的提高預(yù)測(cè)精度的方法.序列的多重比對(duì)反映了蛋白質(zhì)家族的共同特征,提取了結(jié)構(gòu)的保守信息及家族中特定的殘基替換模式,同時(shí)多序列比對(duì)所攜帶的進(jìn)化信息也表明了蛋白質(zhì)進(jìn)化過(guò)程中的相互作用[15].
本文主要采用了BLAST的本地化使用來(lái)獲得蛋白質(zhì)序列的profile.將BLAST軟件包下載到本地以后,可以通過(guò)命令行的形式去調(diào)用相應(yīng)的可執(zhí)行文件.在這里,我們使用PSI-BLAST程序(h=0.001,j=3)搜索和調(diào)整無(wú)冗余的NR數(shù)據(jù)庫(kù).該程序?qū)⒎祷匾粋€(gè)20維矢量的PSSM[16],其值是20個(gè)氨基酸保守的突變分?jǐn)?shù).這樣得到的PSI-BLAST profile是一個(gè)L×20的矩陣(其中L是蛋白質(zhì)序列的長(zhǎng)度),也稱之為位置特異性打分矩陣(Position-Specific Score Matrix,PSSM).PSSM矩陣形式如公式(1)所示.
PSSM矩陣的每一行代表在查詢序列的相應(yīng)位置發(fā)生在氨基酸替代的對(duì)數(shù)似然得分.位于矩陣第i行第j列的元素Pij表示在進(jìn)化過(guò)程中查詢序列的第i個(gè)位置的氨基酸突變成j類氨基酸的得分.
蛋白質(zhì)二級(jí)結(jié)構(gòu)通常分為8類:G(310-helix),H(αhelix),I(π-helix),B(isolated β-bridge),E(β-stand),S(bend),T(hydrogen bonded turn)和rest(apparently random conformations).主流的PSSP思想會(huì)將這8類結(jié)構(gòu)歸納為3種構(gòu)象(H、E和C).通常情況下,H、E和C三種構(gòu)象之間沒(méi)有明確的界限而且也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)去劃分這三種構(gòu)象.然而在1999年,Cuff和Barton兩位學(xué)者證實(shí)了劃分方案可以影響最后的預(yù)測(cè)精度,所以人們希望找到一種劃分方案可以獲得更高的預(yù)測(cè)精度.由此,蛋白質(zhì)二級(jí)結(jié)構(gòu)字典法(DSSP[17])獲得了廣泛的認(rèn)可.該方法依據(jù)已知的氫鍵相連的部分劃分二級(jí)結(jié)構(gòu).本文選用DSSP方法,將8類結(jié)構(gòu)明確歸納為:H、G屬于Helices,記作H;E、B屬于Sheets,記作E;G、S、T、C、I屬于Coils,記作C.
在實(shí)際中,蛋白質(zhì)的結(jié)構(gòu)是不斷折疊式的,某個(gè)殘基不僅與它相鄰的殘基發(fā)生作用,還可能與它在序列上相差較遠(yuǎn)的某些殘基發(fā)生作用,且蛋白質(zhì)進(jìn)化過(guò)程中氨基酸位點(diǎn)存在突變的可能.PAM矩陣和BLOSUM矩陣就反映了蛋白質(zhì)中存在的氨基酸突變.
因PAM矩陣和BLOSUM矩陣都是PSI-BLAST程序中的打分標(biāo)準(zhǔn),不同的打分矩陣對(duì)于評(píng)價(jià)氨基酸突變是不同的[18,19],例如PAM250矩陣假設(shè)每100個(gè)氨基酸發(fā)生250次點(diǎn)突變,PAM矩陣存在從PAM1到PAM250的情況.由于PAM矩陣是基于近相關(guān)蛋白比對(duì)得到的打分矩陣,BLOSUM矩陣是基于觀測(cè)到的遠(yuǎn)相關(guān)蛋白對(duì)比得到的打分矩陣.本文參考了PAM矩陣和BLOSUM矩陣之間的相互關(guān)系[20],如圖1所示,設(shè)計(jì)了多重進(jìn)化矩陣編碼方式.為更詳細(xì)的描述氨基酸位點(diǎn)發(fā)生突變的可能性和序列內(nèi)部近距離和遠(yuǎn)距離的氨基酸之間的相互影響,選擇了低趨異度矩陣PAM30和高趨異度矩陣PAM250和BLOSUM62矩陣三種不同趨異度的進(jìn)化矩陣來(lái)表達(dá)蛋白質(zhì)序列.
圖1 PAM矩陣和BLOSUM矩陣概要
首先將蛋白質(zhì)序列送入PSI-BLAST程序,通過(guò)調(diào)整參數(shù),得到廣泛使用的BLOSUM62矩陣、低趨異度矩陣BLOSUM90和高趨異度矩陣PAM250.將得到的三種不同趨異度的進(jìn)化矩陣對(duì)齊特征維度,組合得到60維的向量表示原來(lái)的蛋白質(zhì)序列,考慮臨近殘基的影響,采用滑動(dòng)窗口法對(duì)所得特征向量進(jìn)行處理,設(shè)置滑動(dòng)窗口為13,得到一個(gè)780維向量表示原來(lái)的序列,構(gòu)成多重進(jìn)化矩陣特征.
為了能夠用計(jì)算方法進(jìn)行訓(xùn)練和預(yù)測(cè),需要將相差較大的原始值進(jìn)行規(guī)范化處理.本文利用公式(2)把多重進(jìn)化矩陣的元素標(biāo)準(zhǔn)化到0~1之間.
其中x是多重進(jìn)化矩陣中元素的原始值.
為了在構(gòu)造特征向量時(shí)能更好的反映蛋白質(zhì)序列中氨基酸殘基存在突變的可能性,且考慮預(yù)測(cè)過(guò)程中存在分類器參數(shù)選擇困難及可靠性差等問(wèn)題,本文提出基于多重進(jìn)化矩陣的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其具體過(guò)程如下:
1)首先要將BLAST本地化.下載蛋白質(zhì)NR數(shù)據(jù)庫(kù)及BLAST程序本地軟件包,對(duì)BLAST進(jìn)行本地配置.
2)計(jì)算蛋白質(zhì)序列的位置特異性打分矩陣(PSSM)矩陣,設(shè)置PSI-BLAST程序的參數(shù)為(-num_iterations:3,-eavlue:0.001,-matrix:BLOSUM62),得到該參數(shù)條件下的PSSM矩陣.
3)調(diào)整PSI-BLAST程序參數(shù),將matrix分別設(shè)置為BLOSUM90和PAM250,計(jì)算該參數(shù)條件下的PSSM矩陣.
4)將3)中得到的三種進(jìn)化矩陣對(duì)齊特征維度,組合得到60維的向量來(lái)表示原來(lái)的蛋白質(zhì)序列.采用滑動(dòng)窗口法處理向量,設(shè)置滑動(dòng)窗口為13,得到一個(gè)780維向量來(lái)表示原來(lái)的蛋白質(zhì),構(gòu)成多重進(jìn)化矩陣特征,對(duì)矩陣進(jìn)行標(biāo)準(zhǔn)化處理.
5)利用網(wǎng)格搜索法和K折交叉驗(yàn)證來(lái)優(yōu)選實(shí)驗(yàn)參數(shù).選取強(qiáng)分類器多分類支持向量機(jī)M-SVMCS來(lái)說(shuō)明實(shí)驗(yàn)過(guò)程:
① 設(shè)定網(wǎng)格搜索的變量(c,p)的范圍以及搜索步距,選擇使分類準(zhǔn)確率最高的一組c和p;
② 在尋得了局部最優(yōu)參數(shù)之后,再在這組參數(shù)附近選擇一個(gè)小區(qū)間,采用小步距進(jìn)行二次精搜,再次選擇使分類準(zhǔn)確率最高的一組c和p;
③ 涉及的所有參數(shù)對(duì)都用7折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),按數(shù)據(jù)集條數(shù)平均分成7份,每次選擇其中6份做訓(xùn)練集,剩下的1份做測(cè)試集,重復(fù)7次;
④ 上述提到的分類準(zhǔn)確率的參數(shù)對(duì)按照以下原則確定:若參數(shù)選擇過(guò)程中有多組c和p對(duì)應(yīng)于最高的驗(yàn)證分類準(zhǔn)確率,則選取能夠達(dá)到最高驗(yàn)證分類準(zhǔn)確率中參數(shù)c最小的那組c和p作為最佳的參數(shù);如果對(duì)應(yīng)最小的c有多組p,就選取搜索到的第一組c和p作為最佳參數(shù)對(duì);
6)按照5)中獲得的最優(yōu)參數(shù)模型,輸入結(jié)構(gòu)未知的蛋白質(zhì)序列特征,預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu).
為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)精確性,選擇數(shù)據(jù)集要慎重,需要結(jié)合機(jī)器學(xué)習(xí)和生物學(xué)方面的知識(shí).伴隨著PDB等主要蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中的蛋白質(zhì)結(jié)構(gòu)資源的日益豐富,可用的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的樣本也越來(lái)越多.出于對(duì)實(shí)驗(yàn)結(jié)果的公平及公正性的考慮,本文選擇三個(gè)廣泛應(yīng)用的低同源性數(shù)據(jù)集RS126[21]、CB513[22]和25PDB[23]作為本文的實(shí)驗(yàn)數(shù)據(jù)集,序列相似性均低于25%.RS126數(shù)據(jù)集含有126條非同源蛋白質(zhì)序列.CB513數(shù)據(jù)集含有513條非同源蛋白質(zhì)序列.25PDB數(shù)據(jù)集含有 1673條非同源蛋白質(zhì)和從PDB中下載和掃描的高分辨率結(jié)構(gòu)域.
為了證明本文提出的多重進(jìn)化矩陣是一種有效特征向量表示方法,本文選擇了兩種弱分類器Logistics、RandomForest和一種強(qiáng)分類器MSVMpack進(jìn)行實(shí)驗(yàn).其中Logistics和RandomForest來(lái)自WEKA軟件,MSVMCS來(lái)自MSVMpack軟件[24].三種分類器都是通過(guò)網(wǎng)格搜索法來(lái)挑選實(shí)驗(yàn)參數(shù).為了對(duì)分類器參數(shù)進(jìn)行優(yōu)化,且保證優(yōu)化結(jié)果的可靠性,本方法結(jié)合七折交叉驗(yàn)證與網(wǎng)格搜索法來(lái)確定實(shí)驗(yàn)參數(shù).
經(jīng)過(guò)多組實(shí)驗(yàn),對(duì)所獲得的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,選擇其中最好的一組作為最優(yōu)參數(shù).對(duì)于數(shù)據(jù)集CB513和25PDB我們將針對(duì)不同分類算法得到的最優(yōu)參數(shù)匯總?cè)绫?所示.
表1 最優(yōu)參數(shù)結(jié)果表
關(guān)于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)有很多種.目前在國(guó)際上大多使用以下幾種標(biāo)準(zhǔn):
(1)整體預(yù)測(cè)準(zhǔn)確率Q3
目前應(yīng)用最廣泛的準(zhǔn)確率,它指的是被正確預(yù)測(cè)的3種二級(jí)結(jié)構(gòu)(殘基)的總百分比,可由公式(3)計(jì)算得出.
其中,NH、NE和NC分別表示序列中二級(jí)結(jié)構(gòu)為H、E和C的殘基的總個(gè)數(shù),PH、PE和PC分別表示被正確預(yù)測(cè)為H、E和C構(gòu)象的殘基個(gè)數(shù).
(2)三態(tài)預(yù)測(cè)準(zhǔn)確率Qi
我們用Qi來(lái)表示每種二級(jí)結(jié)構(gòu)被正確預(yù)測(cè)為H,E或C構(gòu)象的預(yù)測(cè)準(zhǔn)確率.可由公式(4)計(jì)算得出:
其中,Pi是待預(yù)測(cè)序列中被正確預(yù)測(cè)的處于i構(gòu)象的殘基數(shù)目,Ni是待預(yù)測(cè)序列中被正確預(yù)測(cè)的處于i構(gòu)象的殘基數(shù)目,i屬于H構(gòu)象、E構(gòu)象或C構(gòu)象.
根據(jù)本文第4節(jié)的方法,我們?cè)赗S126、CB513和25PDB數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).在RS126數(shù)據(jù)集上三個(gè)獨(dú)立分類器得到的整體預(yù)測(cè)準(zhǔn)確率分別為67.86%、67.90%和73.90%,其各項(xiàng)獨(dú)立指標(biāo)如表2所示.在CB513數(shù)據(jù)集上三個(gè)獨(dú)立分類器得到的整體預(yù)測(cè)準(zhǔn)確率分別為65.53%、71.32%和75.50%,其各項(xiàng)獨(dú)立指標(biāo)如表3所示.在25PDB數(shù)據(jù)集上三個(gè)獨(dú)立分類器得到的整體預(yù)測(cè)準(zhǔn)確率分別為68.57%、72.62%和76.72%,其各項(xiàng)獨(dú)立指標(biāo)如表4所示.
表2 RS126數(shù)據(jù)集使用BLOSUM62矩陣預(yù)測(cè)結(jié)果(%)
表3 CB513數(shù)據(jù)集使用BLOSUM62矩陣預(yù)測(cè)結(jié)果(%)
表4 25PDB數(shù)據(jù)集使用BLOSUM62矩陣預(yù)測(cè)結(jié)果(%)
然后,我們組合三種不同進(jìn)化趨異度的矩陣,作為三個(gè)獨(dú)立分類器的輸入向量,通過(guò)網(wǎng)格搜索法和7折交叉法優(yōu)選實(shí)驗(yàn)參數(shù),獲得優(yōu)化參數(shù)模型,輸入結(jié)構(gòu)未知的蛋白質(zhì)序列特征,預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu).對(duì)數(shù)據(jù)集RS126使用三種分類器獲得的整體預(yù)測(cè)準(zhǔn)確率分別是66.40%、68.08%和74.05%,各類別的預(yù)測(cè)準(zhǔn)確率如表5所示.對(duì)數(shù)據(jù)集CB513使用三種分類器獲得的整體預(yù)測(cè)準(zhǔn)確率分別是69.18%、71.89%和75.92%,各類別的預(yù)測(cè)準(zhǔn)確率如表6所示.通過(guò)對(duì)比表2和表5可以看出,相比于傳統(tǒng)的實(shí)驗(yàn)方法,多重進(jìn)化矩陣這種表示方法在RS126數(shù)據(jù)集上分別高出了-1.37%、0.18%和0.15%.通過(guò)對(duì)比表3和表6可以看出,相比于傳統(tǒng)的實(shí)驗(yàn)方法,多重進(jìn)化矩陣這種表示方法在CB513數(shù)據(jù)集上分別高出了3.65%、0.57%和0.42%.而對(duì)于數(shù)據(jù)集25PDB得到的整體預(yù)測(cè)準(zhǔn)確率分別是70.57%、73.16%和78.05%,各類別的預(yù)測(cè)準(zhǔn)確率如表5所示.通過(guò)對(duì)比表4和表7可以看出,相比于傳統(tǒng)的實(shí)驗(yàn)方法,多重進(jìn)化矩陣這種表示方法在25PDB數(shù)據(jù)集上分別高出了2.00%、0.54%和1.33%.各表中整體預(yù)測(cè)準(zhǔn)確率提高的值用粗體顯示.
表5 RS126數(shù)據(jù)集使用多重進(jìn)化矩陣預(yù)測(cè)結(jié)果(%)
表7 25PDB數(shù)據(jù)集使用多重進(jìn)化矩陣預(yù)測(cè)結(jié)果(%)
為了更為直觀的體現(xiàn)本文方法的有效性,本文將在RS126數(shù)據(jù)集、CB513數(shù)據(jù)集和25PDB數(shù)據(jù)集上使用不同算法得到的整體預(yù)測(cè)準(zhǔn)確率表示成圖2、圖3和圖4,從中可以看出,本方法相對(duì)于原BLOSUM62蛋白質(zhì)序列表示方法,除去對(duì)RS126數(shù)據(jù)集使用Logistics分類器得到的結(jié)果有所下降,在其他對(duì)比實(shí)驗(yàn)中得到的整體預(yù)測(cè)準(zhǔn)確率均有提高.對(duì)于這種現(xiàn)象,由于:
(1)相對(duì)于CB513數(shù)據(jù)集和25PDB數(shù)據(jù)集,RS126數(shù)據(jù)集數(shù)據(jù)量比較少,包含的蛋白質(zhì)種類少 .
(2)Logistics分類器的分類精度受樣本數(shù)據(jù)量的影響,當(dāng)樣本數(shù)量較小時(shí),結(jié)果存在的風(fēng)險(xiǎn)較大.
綜合這兩種因素,我們認(rèn)為,對(duì)于邏輯回歸分類器,使用多重進(jìn)化矩陣反而分類精度有所下降這種現(xiàn)象是正常的,不能否認(rèn)多重進(jìn)化矩陣是一種有效的蛋白質(zhì)序列特征表示方法.我們將對(duì)于三個(gè)數(shù)據(jù)集的使用MSVMCS分類器得到的結(jié)果匯總,如圖5所示.從表2至表7和圖5可以看出,在整體預(yù)測(cè)準(zhǔn)確率上,本文方法比BLOSUM62矩陣表示方法在不同數(shù)據(jù)集上分別提高了 0.15%、0.42%和1.33%,對(duì)于數(shù)據(jù)集RS126提升較小,對(duì)于25PDB數(shù)據(jù)集提升較大.說(shuō)明多分類支持向量機(jī)比較適用于大樣本數(shù)據(jù)集,而對(duì)于小樣本數(shù)據(jù)集效果并不明顯.
圖2 不同方法在數(shù)據(jù)集RS126的整體預(yù)測(cè)準(zhǔn)確率
圖3 不同方法在數(shù)據(jù)集CB513的整體預(yù)測(cè)準(zhǔn)確率
圖4 不同方法在數(shù)據(jù)集25PDB的整體預(yù)測(cè)準(zhǔn)確率
圖5 M-SVMCS分類器在不同數(shù)據(jù)集的整體預(yù)測(cè)準(zhǔn)確率
本文根據(jù)蛋白質(zhì)序列不同進(jìn)化趨異度之間的關(guān)系,組合PAM矩陣和BLOSUM矩陣,設(shè)計(jì)了一種新的方法來(lái)構(gòu)成特征向量表示蛋白質(zhì)序列信息;選用Logistics、RandomForest和M-SVMCS機(jī)器學(xué)習(xí)模型作為預(yù)測(cè)工具,采用交叉驗(yàn)證法和網(wǎng)格搜索法相結(jié)合來(lái)確定實(shí)驗(yàn)參數(shù),預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu).在數(shù)據(jù)集RS126、CB513和25PDB上開(kāi)展的對(duì)比實(shí)驗(yàn),表明本文所提出基于多重進(jìn)化矩陣的蛋白質(zhì)特征向量構(gòu)造方法能夠有效提高蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)精度.
在下一步的工作中,我們可以從下面幾點(diǎn)做出改進(jìn):(1)深入研究蛋白質(zhì)信息特征提取算法,加入對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)特征信息的描述;(2)嘗試?yán)锰卣鬟x擇算法優(yōu)選特征,降低特征向量維度,提高分類器計(jì)算速度.在分類算法上進(jìn)行可能的改進(jìn)也是下一步研究的重點(diǎn).
1Jones DT.Protein structure prediction in the postgenomic era.Current Opinion in Structural Biology,2000,10(3):371-379.[doi:10.1016/S0959-440X(00)00099-3]
2澤瓦勒貝,鮑姆.理解生物信息學(xué).李亦學(xué),郝沛,譯.北京:科學(xué)出版社,2012.
3Floudas CA.Computational methods in protein structure prediction.Biotechnology and Bioengineering,2007,97(2):207-213.[doi:10.1002/(ISSN)1097-0290]
4Khoury GA,Smadbeck J,Kieslich CA,et al.Protein folding and de novo protein design for biotechnological applications.Trends Biotechnology,2014,32(2):99 -109.[doi:10.1016/j.tibtech2013.10.008]
5張海霞,唐煥文,張立震,等.蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法的評(píng)價(jià).計(jì)算機(jī)與應(yīng)用化學(xué),2003,20(6):735-740.
6Lee D,Redfern O,Orengo C.Predicting protein function from sequence and structure.Nature Reviews Molecular Cell Biology,2007,8(12):995-1005.[doi:10.1038/nrm2281]
7Cai YD,Zhou GP.Prediction of protein structural classes by neural network.Biochimie,2000,82(8):783-785.[doi:10..1016/S0300-9084(00)01161-5]
8Mandle AK,Jain P,Shrivastava SK.Protein structure prediction using support vector machine.International Journal on Soft Computing,2012,3(1):67-78.[doi:10.5121/ijsc]
9Wang S,Peng J,Ma JZ,et al.Protein secondary structure prediction using deep convolutional neural fields.Scientific Reports,2016,6:18962.[doi:10.1038/srep18962]
10Lu Z,Szafron D,Greiner R,et al.Predicting subcellular localization of proteins using machine-learned classifiers.Bioinformatics,2004,20(4):547-556.[doi:10.1093/bioinformatics/btg447]
11Chou KC,Cai YD.Predicting protein localization in budding yeast.Bioinformatics,2005,21(7):944-950.[doi:10.1093/bioinformatics/bti104]
12Cai YD,Chou KC.Predicting 22 protein localizations in budding yeast.Biochemical and Biophysical Research Communications,2004,323(2):425-428.[doi:10.1016/j.bbrc.2004.08.113]
13Wang JR,Wang C,Cao JJ,et al.Prediction of protein structural classes for low-similarity sequences using reduced PSSM and position-based secondary structural features.Gene,2015,554(2):241-248.[doi:10.1016/j.gene.2014.10.037]
14梅娟,趙吉,傅毅.基于圖聚類和序列信息的蛋白質(zhì)遠(yuǎn)同源性探測(cè).計(jì)算機(jī)與應(yīng)用化學(xué),2015,32(8):945-950.
15Wang L,You ZH,Xia SX,et al.Advancing the prediction accuracy of protein-protein interactions by utilizing evolutionary information from position-specific scoring matrix and ensemble classifier.Journal of Theoretical Biology,2017,418:105-110.[doi:10.1016/j.jtbi.2017.01.003]
16Ben-Gal I,Shani A,Gohr A,et al.Identification of transcription factor binding sites with variable-order Bayesian networks.Bioinformatics, 2005, 21(11):2657-2666.[doi:10.1093/bioinformatics/bti410]
17Sebastiani F.Text categorization.Rivero LC,Doorn JH,Ferraggine VE.Encyclopedia of Database Technologies and Applications.Hershey,US:Idea Group Reference,2005.683-687.
18Ortu?o FM,Valenzuela O,Prieto B,et al.Comparing different machine learning and mathematical regression models to evaluate multiple sequence alignments.Neurocomputing,2015,164:123-136.[doi:10.1016/j.neucom.2015.01.080]
19Lal D,Verma M.Large-scale sequence comparison.Keith JM.Bioinformatics:Volume I:Data,Sequence Analysis,and Evolution.New York:Springer,2017.191-224.
20喬納森·佩夫斯納.生物信息學(xué)與功能基因組學(xué).孫之榮,譯.北京:化學(xué)工業(yè)出版社,2006.
21Rost B,Sander C.Prediction of protein secondary structure at better than 70% accuracy.Journal of Molecular Biology,1993,232(2):584-599.[doi:10.1006/jmbi.1993.1413]
22Cuff JA,Barton GJ.Evaluation and improvement of multiple sequence methods for protein secondary structure prediction.Proteins Structure Function and Bioinformatics,1999,34(4):508-519.[doi:10.1002/(ISSN)1097-0134]
23Kurgan LA,Homaeian L.Prediction of structural classes for protein sequences and domains-impact of prediction algorithms,sequence representation and homology,and test procedures on accuracy.Pattern Recognition,2006,39(12):2323-2343.[doi:10.1016/j.patcog.2006.02.014]
24http://www.Loria.fr/lauer/MSVMpack.