国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

特征選擇在蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中的應(yīng)用

2013-12-29 00:00:00魏小敏
電腦知識(shí)與技術(shù) 2013年4期

摘要:蛋白質(zhì)是細(xì)胞中的主要功能分子,是生命的物質(zhì)基礎(chǔ),蛋白質(zhì)的功能是通過蛋白質(zhì)之間相互作用而發(fā)揮的,而蛋白質(zhì)相互作用界面上只有很少數(shù)的被稱之為“能量熱點(diǎn)”的殘基對(duì)相互作用貢獻(xiàn)了大部分的結(jié)合自由能,如何識(shí)別這些能量熱點(diǎn)是目前生物信息學(xué)領(lǐng)域比較熱門的研究問題。其中基于機(jī)器學(xué)習(xí)的蛋白質(zhì)能量熱點(diǎn)識(shí)別中,特征選擇方法的使用對(duì)識(shí)別模型的性能影響非常大。該文中,筆者通過對(duì)蛋白質(zhì)能量熱點(diǎn)識(shí)別中的特征選擇方法的研究現(xiàn)狀進(jìn)行全面的分析,指出還存在的一些問題及以后改進(jìn)的思路和方向,為蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)準(zhǔn)確率的提高奠定基礎(chǔ)。

關(guān)鍵詞: 蛋白質(zhì)能量熱點(diǎn);特征選擇;預(yù)測(cè);降低維度

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)04-0846-03

The Application of Feature Selection in the Prediction of Protein Energy Hot Spots

WEI Xiao-min

(Department of Computer Science and Technology,Tongji University,Shanghai 201804,China)

Abstract: Protein-protein interactions play a vast role in biological processes. The understanding of protein-protein interface is a crucial bridge to link structure and function of biomolecular systems. It has been discovered that only a fraction of interface residues, named “hot spots”,provide a great amount of energetic contributions to the binding free energy of protein-protein complexes. Probe hot spots in interfaces can therefore be the key step in protein-proteininteractions research. For machine learning methods to predict hot spots, the different strategies in the vital step of feature

selection are concluded and analyed, then pointed the problems and the direction of improve,which will increase the accuracy of hot spots prediction.

Key words: protein energy hot spots; feature selection; prediction; dimension reduce

1 概述

1.1 研究背景

蛋白質(zhì)是細(xì)胞中的主要功能分子,是生命的物質(zhì)基礎(chǔ),是生命活動(dòng)的最終控制者和直接執(zhí)行者,它參與生物體內(nèi)幾乎所有的生命活動(dòng)過程[1]。蛋白質(zhì)功能發(fā)揮的關(guān)鍵在于能夠特異性地以不同的親和力與其他各類分子包括蛋白質(zhì)分子結(jié)合。蛋白質(zhì)相互作用(Protein-protein Interactions 簡(jiǎn)稱PPIs)是生物體中眾多生命活動(dòng)過程的重要組成部分,是多種生理活動(dòng)的基礎(chǔ)。在生物分子系統(tǒng)中,全面的理解蛋白質(zhì)相互作用是聯(lián)系蛋白質(zhì)結(jié)構(gòu)和功能的橋梁,而識(shí)別相互作用界面上的殘基則是必不可少的工作。雖然蛋白質(zhì)相互作用的基本原理仍然未被很好的解釋,但研究表明,蛋白質(zhì)相互作用界面通常較大,但只有很少數(shù)的被稱之為蛋白質(zhì)相互作用能量熱點(diǎn)(Hot Spots)的殘基貢獻(xiàn)了大部分的結(jié)合自由能[2],在蛋白質(zhì)結(jié)合的穩(wěn)定性方面起著非常重要的作用,探索蛋白質(zhì)能量熱點(diǎn)是蛋白質(zhì)相互作用是蛋白質(zhì)功能研究的重要的階段。

蛋白質(zhì)能量熱點(diǎn)是蛋白質(zhì)相互作用中起關(guān)鍵作用的位點(diǎn),從而使得蛋白質(zhì)復(fù)合物能夠很好的發(fā)揮功能。在藥物設(shè)計(jì)中,蛋白質(zhì)與小分子化合物的相互作用是理論基礎(chǔ);藥物分子產(chǎn)生藥效的過程,就是靶標(biāo)上起關(guān)鍵作用的殘基位點(diǎn)與藥物分子相互結(jié)合,形成相互作用。在蛋白質(zhì)設(shè)計(jì)上,我們也需要定位對(duì)結(jié)合起關(guān)鍵作用的殘基。

在生物領(lǐng)域中,研究人員識(shí)別蛋白質(zhì)能量熱點(diǎn)的手段是丙氨酸掃描突變(Alanine-scanning mutagenesis),其過程非常復(fù)雜,并且需要很高的實(shí)驗(yàn)室環(huán)境配置,設(shè)備及化學(xué)試劑等,需要大量的人力投入,實(shí)驗(yàn)代價(jià)非常昂貴,并且后續(xù)的分析工作非常繁冗,每個(gè)殘基都要單獨(dú)進(jìn)行分析?,F(xiàn)在已經(jīng)有了一些存儲(chǔ)生物實(shí)驗(yàn)結(jié)果的數(shù)據(jù)庫,例如丙氨酸掃描能量數(shù)據(jù)庫[4](ASEdb)和結(jié)合界面數(shù)據(jù)庫[5](BID),然而至今這些數(shù)據(jù)庫與現(xiàn)在能用的蛋白質(zhì)相互作用界面數(shù)據(jù)[6]相比是遠(yuǎn)遠(yuǎn)不夠的。

1.2 研究問題

近年來,研究人員在蛋白質(zhì)能量熱點(diǎn)的組成、結(jié)構(gòu)和機(jī)理的探索上已經(jīng)有了很大的進(jìn)展,這些理論為后續(xù)的研究和應(yīng)用奠定了基礎(chǔ),但是疏水性、形狀特征、電荷等特征等特征對(duì)于解釋能量熱點(diǎn)還是遠(yuǎn)遠(yuǎn)不夠的,仍然沒有一個(gè)通用的識(shí)別蛋白質(zhì)能量熱點(diǎn)的規(guī)則。

隨著對(duì)蛋白質(zhì)相互作用能量熱點(diǎn)的認(rèn)識(shí)不斷提高,計(jì)算的方法開始用于識(shí)別能量熱點(diǎn)。這些方法主要分為三類:分子動(dòng)力學(xué)模擬方法、經(jīng)驗(yàn)的方法和基于機(jī)器學(xué)習(xí)的方法。其中分子動(dòng)力學(xué)模擬方法一般需要超級(jí)計(jì)算機(jī)的支撐,計(jì)算代價(jià)高昂,基于經(jīng)驗(yàn) 的方法雖然計(jì)算簡(jiǎn)單,經(jīng)驗(yàn)主觀性使得這種方法沒有說服力并且效果并不理想。

基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法比之前的一些方法從計(jì)算效率還有預(yù)測(cè)性能上已經(jīng)有很大的提高,其中神經(jīng)網(wǎng)絡(luò)[7],最小割樹[8] ,貝葉斯網(wǎng)絡(luò)[9]以及支持向量機(jī)(SVM) [10-13] ,決策數(shù)[14]均被作為學(xué)習(xí)算法用于蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中,而基于機(jī)器學(xué)習(xí)的預(yù)測(cè)一般有兩個(gè)主要組成部分,即學(xué)習(xí)方法和特征,在某種程度上選取合適的特征要比學(xué)習(xí)方法更重要。若要提升蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)的準(zhǔn)確率和性能,選取合適的特征是必要前提。目前用于蛋白質(zhì)能量預(yù)測(cè)研究中的特征有很多,包括溶劑可及性面積,疏水性參數(shù),保守性等, 由于能量熱點(diǎn)預(yù)測(cè)中存在訓(xùn)練樣本有限特征相對(duì)較多,容易出現(xiàn)“過擬合”的情況,我們需要通過減少特征維度來避免過擬合的同時(shí)提高預(yù)測(cè)性能。

在本文中,我們對(duì)蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中的特征選擇研究現(xiàn)狀進(jìn)行綜述,并針對(duì)當(dāng)前存在的問題進(jìn)行分析,最后根據(jù)分析提出了一些建議以及以后工作的重心。

2 特征選擇方法的分類及其在蛋白質(zhì)能量熱點(diǎn)中的應(yīng)用現(xiàn)狀

特征選擇作為降低特征維度避免過擬合的一種手段,在分類問題中已經(jīng)有廣泛的應(yīng)用,其中在蛋白質(zhì)能量熱點(diǎn)的研究工作中也有很多用到了特征選擇,這里我們結(jié)合特征選擇的種類介紹,簡(jiǎn)要說明現(xiàn)階段特征選擇在蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中的應(yīng)用情況。

按照特征子集的搜索怎樣與分類模型的構(gòu)建相結(jié)合分類,特征選擇可以分為三類[16],如圖1所示,這三類分別是濾波器的方法,封裝方法及嵌入式方法。

1)濾波器方法。在這種方法中,特征子集的選擇與分類器的構(gòu)建相互獨(dú)立,計(jì)算比較快速高效,它一般使用的搜索策略是單獨(dú)最優(yōu)特征組合[17]的方式,即根據(jù)某種指標(biāo)計(jì)算單個(gè)特征的指標(biāo)值,然后對(duì)所有的特征按照它們的指標(biāo)值進(jìn)行排序,取排序靠前的k個(gè)特征作為我們要找的特征子集。在蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中,APIS[10]使用F_score作為濾波器 衡量每個(gè)特征的重要性,然后從62個(gè)特征中選取9個(gè)特征作為最優(yōu)特征子集,MINERVA2[11] 使用決策樹作為濾波器,利用每個(gè)特征的信息熵作為衡量yHxzquk/BVnAF3tCkZbaW1nHYMTx62PSRoPKSu373t4=標(biāo)準(zhǔn),然后選取了12個(gè)特征,然后根據(jù)選擇出的特征子集去構(gòu)建分類模型。這種方法計(jì)算簡(jiǎn)單,與分類器獨(dú)立,可以很容易的應(yīng)對(duì)高維數(shù)據(jù)集,選擇出的特征子集可以用到多個(gè)分類器中,但它并不能保證選擇出的特征子集是最優(yōu)的,而且它不考慮特征子集的選擇與分類器構(gòu)建之間的關(guān)系,分類器不具有針對(duì)性,分類效果并不理想。

2)封裝的方法。這種方法將特征子集的選擇和分類器的構(gòu)建結(jié)合起來,具體過程是,根據(jù)某種搜索策略確定一些特征子集,然后依次用每一個(gè)特征子集用特定的學(xué)習(xí)算法結(jié)合構(gòu)建分類模型,最后挑選出分類模型效果最好的做為最終我們要建立的分類模型,對(duì)應(yīng)的特征子集就是最優(yōu)特征子集。這種方法計(jì)算復(fù)雜度要比基于濾波器的方法高,但它直接通過分類器的分類性來評(píng)價(jià)特征子集的可用性,結(jié)果較好。這種方法可以跟序列前向或后項(xiàng)搜索策略相結(jié)合,Lise[12] 用后向消除的方法,每次去除一個(gè)特征子集,然后使用剩余特征在分類模型中的性能來驗(yàn)證去除特征的重要性,采取的就是封裝的策略。 這種方法在其他的蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)中也有廣泛的應(yīng)用[9,13-15],其中,在KFC[14]和PCRPi[9]中他們采用了窮舉搜索來確定候選的特征子集,然后以特定的分類模型去訓(xùn)練每一種可能的特征子集,用分類模型的性能挑選出最優(yōu)的特征子集。在KFC2[13]中,作者將特征分成不同的類別,然后從每一種類別中挑選一些特征以確保特征的多樣性,同樣的,這些挑選出來的可能的特征子集也是通過用SVM構(gòu)建分類器的性能來確定最優(yōu)的特征子集。這些方法在預(yù)測(cè)蛋白質(zhì)能量熱點(diǎn)的性能上相比濾波器方法有很大的提高,它考慮了特征子集的搜索與分類模型的構(gòu)建之間的聯(lián)系,充分利用了特征之間的關(guān)聯(lián)性,是目前研究熱點(diǎn)選擇特征子集時(shí)最常用的方法,但是在之前的研究中,使用這種方法進(jìn)行特征選擇的搜索策略都是窮舉或帶有一定主觀性,使得計(jì)算量非常大或者選擇出的特征子集沒有說服力。

3)嵌入式的方法。這種方法是利用選取的學(xué)習(xí)方法自身的特性來對(duì)特征排序,依據(jù)某種搜索策略,對(duì)特征子集候選集進(jìn)行分類性能評(píng)估,最終得到性能較高的分類模型和最優(yōu)特征子集。這種方法與濾波器方法相比,它考慮了特征之間的關(guān)聯(lián),也考慮了學(xué)習(xí)方法自身的特征對(duì)特征選擇的影響;與封裝方法相比,計(jì)算復(fù)雜度大大降低,這種特征選擇策略在蛋白質(zhì)能量熱點(diǎn)中還沒有應(yīng)用,但在生物信息學(xué)領(lǐng)域中的基因選擇用于癌癥分類[17]研究中有較好的應(yīng)用,在這項(xiàng)研究中,作者使用支持向量機(jī)建立的決策函數(shù)每項(xiàng)特征的系數(shù),作為特征重要程度的評(píng)判指標(biāo),實(shí)驗(yàn)表明,采用這種方法選擇出的基因(特征)具有較好的識(shí)別特定癌癥的功能。

3 蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)研究中特征選擇策略展望

根據(jù)蛋白質(zhì)能量熱點(diǎn)中特征選擇研究現(xiàn)狀的分析我們知道,基于嵌入式的特征選擇方法在能量熱點(diǎn)預(yù)測(cè)中還未有過嘗試,雖然癌癥分類與能量熱點(diǎn)預(yù)測(cè)上有很大的不同,比如能夠識(shí)別癌癥的基因有很多,成百上千個(gè),癌癥樣本也非常多,但是現(xiàn)在可用的能量熱點(diǎn)樣本比較少,特征也僅幾百個(gè),但是同樣作為分類預(yù)測(cè)問題,我們猜測(cè),這種特征選擇策略同樣可以被借鑒到蛋白質(zhì)能量熱點(diǎn)的預(yù)測(cè)中,在以后的研究工作中,我們希望能夠根據(jù)蛋白質(zhì)能量熱點(diǎn)本身的性質(zhì)改進(jìn)這個(gè)基于SVM的遞歸特征消除法,用到蛋白質(zhì)能量熱點(diǎn)的預(yù)測(cè)中,提高能量熱點(diǎn)預(yù)測(cè)的準(zhǔn)確率。

同時(shí),封裝的特征選擇方法涉及到搜索策略和學(xué)習(xí)算法的選擇,這種特征選擇的策略仍然具有很大研究的空間,例如搜索策略的變化,和不同的學(xué)習(xí)算法相結(jié)合等,在以后的研究中我們可以嘗試這些方法從而選擇出具有高識(shí)別度的能量熱點(diǎn)特征子集。

4 結(jié)束語

本文從特征選擇的角度對(duì)基于機(jī)器學(xué)習(xí)的蛋白質(zhì)能量熱點(diǎn)預(yù)測(cè)的研究現(xiàn)狀進(jìn)行分析,指出了研究中已取得的成就以及還存在的一些問題,然后從理論角度出發(fā),結(jié)合現(xiàn)階段的研究,探討使用嵌入式的特征選擇策略,例如基于支持向量機(jī)自身的特性來進(jìn)行特征選擇的研究思路,以及基于封裝方法的一些改進(jìn)方向。

參考文獻(xiàn):

[1] 蛋白質(zhì). [EB\OL].(2012-11-15).維基百科:zh.wikipedia.org/wiki/蛋白質(zhì).

[2] Moreira I S, Fernandes P A,Ramos M J. Hot spots-A review of the protein-protein interface determinant amino-acid residues[J].Proteins,2007,68(4):803-812.

[3] Brian C.Cunningham and James A.Wells.High-resolution epitope mapping of hghreceptor interactions by alanine-scanning mutagenesis[J].Science,1989,244(4908):1081-1085.

[4] Kurt S. Thorn and Andrew A. Bogan.Asedb: a database of alanine mutations and their effects on the free energy of binding in protein interactions[J]. Bioinformatics,2001,17(3):284-285.

[5] Fischer T B, Arunachalam K V, Bailey D, et al. The binding interface database(bid):a compilation of amino acid hot spots in protein interfaces. Bioinformatics, 2003,19(11):1453-1454.

[6] Tuncbag N, Kar G, Keskin O,et al. A survey of available tools and web servers for analysis of protein-protein interactions and interfaces[J]. Briefings in bioinformatics, 2009,10(3):217-232.

[7] Ofran Y, Rost R. Protein-protein interaction hotspots carved into sequence Protein-protein interaction hotspots carved into sequence [J] .PLoS computational biology, 2007,3(7):e119.

[8] Tuncbag N, Sibel Salman F, Ozlem Keskin,et al. Analysis and network representation of hotspots in protein interfaces using minimum cut trees[J].Proteins, 2010,78(10):2283-2294.

[9] Salam A. Assi, Tomoyuki Tanaka, Terence H. Rabbitts et al.Pcrpi: Presaging critical residues in protein interfaces, a new computational tool to chart hot spots in protein interfaces[J].Nucleic Acids Research, 2010,38(6):e86.

[10] Xia J F, Zhao X M, Song J, et al.APIS: accurate prediction of hot spots in protein interfaces by combining protrusion index with solvent accessibility[J].BMC Bioinformatics, 2010, 11:174.

[11] Kyu-il Cho. A feature-based approach to modeling protein–protein interaction hot spots[J].Nucleic Acids Research, 2009, 37(8): 2672–2687.

[12] Lise S, Archambeau C, Pontil M,et al. Prediction of hot spot residues at protein-protein interfaces by combining machine learning and energy-based methods[J]. BMC Bioinformatics, 2009, 10:365.

[13] Zhu X L, Julie C. Mitchel.Kfc2: A knowledge-based hot spot prediction method based on interface solvation, atomic density, and plasticity features[J].Proteins: Structure, Function, and Bioinformatics,2011, 79(9):2671–2683.

[14] Steven J. Darnell,David Page,et al. Mitchell. An automated decision tree approach to predicting protein interaction hot spots[J].Proteins, 2007,68(4):813-823.

[15] Yvan Saeys. A review of feature selection techniques in bioinformatiocs[J]. Bioinformatics, 2007, 23(19):2507-2517.

[16] 毛勇,周小波,夏錚,等.特征選擇算法研究綜述[J].模式識(shí)別與人工智能, 2007,20(2),211-218.

[17] GuyonI. Gene selection for cancer classification using support vector machines. Mach.Learn.,2002,46(1-3):389-422.

阜新| 阿瓦提县| 凤庆县| 蚌埠市| 正镶白旗| 昔阳县| 肥东县| 沙湾县| 锦州市| 防城港市| 灵石县| 三原县| 海城市| 马鞍山市| 广水市| 庆云县| 东阿县| 栖霞市| 昌邑市| 平舆县| 砀山县| 乳源| 罗山县| 孝义市| 聂荣县| 莆田市| 秦皇岛市| 乌苏市| 通城县| 新巴尔虎左旗| 九江县| 女性| 来安县| 定日县| 驻马店市| 天津市| 禄丰县| 赞皇县| 涞源县| 兴和县| 黄浦区|