張帥燕 劉毅慧
摘要:提出一種新的氨基酸編碼方式,即基團(tuán)編碼,基團(tuán)編碼是對(duì)20種氨基酸進(jìn)行的編碼方式,含有42個(gè)屬性,然后采用這種新的編碼方式進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)。所有的氨基酸都可以有這幾種基團(tuán)來(lái)表示,這種基團(tuán)編碼方式中包含氨基酸或蛋白質(zhì)中原子穩(wěn)定結(jié)構(gòu)的信息。實(shí)驗(yàn)中采用3折交叉驗(yàn)證,分別采用不同的滑動(dòng)窗口數(shù),通過(guò)支持向量機(jī)(SVM)來(lái)進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè),驗(yàn)證2組數(shù)據(jù)的準(zhǔn)確率,可以發(fā)現(xiàn)氨基酸的不同的編碼方式對(duì)預(yù)測(cè)精度會(huì)產(chǎn)生影響。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,包含氨基酸內(nèi)部穩(wěn)定結(jié)構(gòu)信息的基團(tuán)編碼方式的準(zhǔn)確率比正交編碼要高出1.2%。
關(guān)鍵詞:蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè);基團(tuán)編碼;正交編碼;SVM
0引言
氨基酸序列的研究是生物信息學(xué)中對(duì)生物序列展開(kāi)探討設(shè)計(jì)的主要工作,氨基酸序列決定了蛋白質(zhì)的空間結(jié)構(gòu),而蛋白質(zhì)的空間結(jié)構(gòu)決定了蛋白質(zhì)生理功能的多樣性。在利用x射線結(jié)晶學(xué)及核磁共振等技術(shù)對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行探測(cè)時(shí)發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)有4個(gè)層次,蛋白質(zhì)的二級(jí)結(jié)構(gòu)是認(rèn)識(shí)了解蛋白質(zhì)的折疊模式和三級(jí)結(jié)構(gòu)的基礎(chǔ),進(jìn)一步為研究蛋白質(zhì)的功能以及彼此之間的相互作用模式提供結(jié)構(gòu)基礎(chǔ),同時(shí)還可以為新藥研發(fā)提供幫助。故研究蛋白質(zhì)的二級(jí)結(jié)構(gòu)具有重要的意義。
1999年,Jones研發(fā)了位置特異性反復(fù)BLAsT算法,構(gòu)建了位置特異性打分(position-specific scoring matrix,PssM)矩陣。在此先后,基于殘基構(gòu)想性的Chou-Fasman算法,基于知識(shí)的人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)(support Neural Network Machine,SVM)方法則陸續(xù)得到推出。同時(shí),還有研究通過(guò)將蛋白質(zhì)的進(jìn)化信息引入BP神經(jīng)網(wǎng)絡(luò)的輸入中,預(yù)測(cè)準(zhǔn)確率達(dá)到75%。此外,文獻(xiàn)中,即重點(diǎn)采用了將特定位置打分矩陣與深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)相結(jié)合的方法得到的預(yù)測(cè)結(jié)果為80.7%,進(jìn)而再基于深度卷積神經(jīng)場(chǎng)的基礎(chǔ),對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率就可達(dá)到84%。
綜合前述分析可知,本文將依據(jù)存在于氨基酸或蛋白質(zhì)中的結(jié)構(gòu)穩(wěn)定的分子官能團(tuán),對(duì)氨基酸進(jìn)行編碼,即文中提出的基團(tuán)編碼,然后使用支持向量機(jī)進(jìn)行分類(lèi)預(yù)測(cè)。