国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量機(jī)的蛋白質(zhì)交互界面熱點(diǎn)的預(yù)測(cè)的研究與改進(jìn)

2014-11-19 17:22王毅誠(chéng)陳向煌
卷宗 2014年10期
關(guān)鍵詞:元組裝袋分類器

王毅誠(chéng) 陳向煌

1 背景

隨著人類和其他物種基因組序列測(cè)定的完成,生物信息學(xué)的研究中心逐步轉(zhuǎn)移到對(duì)蛋白質(zhì)組和功能基因組的研究。本文采用的是機(jī)器學(xué)習(xí)的方法,基于現(xiàn)有的一些研究成果,計(jì)算了6個(gè)序列特征和62個(gè)結(jié)構(gòu)特征,嘗試了支持向量機(jī)這種機(jī)器學(xué)習(xí)的方法對(duì)界面熱點(diǎn)進(jìn)行了訓(xùn)練和預(yù)測(cè),接下來用了主成分分析繼續(xù)優(yōu)化了這種機(jī)器學(xué)習(xí)的方法.

2 材料與方法

2.1 支持向量機(jī)方法概述

SVM是一個(gè)監(jiān)督學(xué)習(xí)的基于最大間隔的分類器。這些數(shù)據(jù)點(diǎn)是n維實(shí)空間中的點(diǎn)。我們希望能夠把這些點(diǎn)通過一個(gè)n-1維的超平面分開。通常這個(gè)被稱為線性分類器。但是我們還希望找到分類最佳的平面,即使得屬于兩個(gè)不同類的數(shù)據(jù)點(diǎn)間隔最大的那個(gè)面,該面亦稱為最大間隔超平面。如果我們能夠找到這個(gè)面,那么這個(gè)分類器就稱為最大間隔分類器。它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。

2.2 組合分類器簡(jiǎn)介

組合分類器是一個(gè)復(fù)合模型,由多個(gè)分類器復(fù)合而成。個(gè)體分類器投票,組合分類器基于投票返回類標(biāo)號(hào)預(yù)測(cè),組合分類器往往比它的成員分類器更準(zhǔn)確。裝袋、提升和隨機(jī)森林都是流行的組合分類方法。它旨在于創(chuàng)建一個(gè)改進(jìn)的復(fù)合分類模型M,使給定的數(shù)據(jù)集D創(chuàng)建k個(gè)訓(xùn)練集,其中用于創(chuàng)建。給定一個(gè)待分類的新數(shù)據(jù)元組,每個(gè)基分類通過返回類預(yù)測(cè)投票。組合分類器基于基類分類器的投票返回預(yù)測(cè)。

組合分類器往往比它的基類分類器更準(zhǔn)確?;惪赡艹鲥e(cuò),但當(dāng)且僅當(dāng)超過一半的基分類器出錯(cuò)時(shí),組合分類器才會(huì)誤分類。當(dāng)模型之間存在顯著差異是,組合分類器產(chǎn)生更好的結(jié)果。也就是說,理想情況下,各個(gè)基分類器之間幾乎不相關(guān)?;诸惼鲬?yīng)該優(yōu)于隨機(jī)猜測(cè)。

先直觀的考慮裝袋如何作為一種提高準(zhǔn)確率的方法。給定d個(gè)元素的元組D,裝袋的過程如下。對(duì)于迭代d個(gè)元組的訓(xùn)練集采用又放回的抽樣,由原始元組集D抽取。每個(gè)訓(xùn)練集都是一個(gè)自助樣本,這樣D的某些元素可能不存在中,有的可能出現(xiàn)多次,由每個(gè)訓(xùn)練集學(xué)習(xí),得到分類模型。為了對(duì)未知元組分類,每個(gè)分類器返回它的預(yù)測(cè)類,算作一票。裝袋分類器M統(tǒng)計(jì)得票,并將得票最多的賦予類X。通過給定檢驗(yàn)元組的每個(gè)預(yù)測(cè)的平均值,裝袋也可以用于連續(xù)值的預(yù)測(cè)。

2.3 組合分類器對(duì)支持向量機(jī)進(jìn)行交互界面熱點(diǎn)預(yù)測(cè)進(jìn)一步優(yōu)化

程序代碼由matlab編寫,先從excel文件中讀取訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),然后隨機(jī)選取71個(gè)訓(xùn)練數(shù)據(jù),主成分分析的參數(shù)和支持向量機(jī)的參數(shù)與之前一樣,測(cè)試過后記錄反饋的結(jié)果,如果投票次數(shù)不足則繼續(xù)選取訓(xùn)練數(shù)據(jù),然后分類,足夠的話就統(tǒng)計(jì)投票結(jié)果,與測(cè)試的答案對(duì)比輸出。

2.4 支持向量機(jī)實(shí)驗(yàn)結(jié)果與討論

雖然由線性標(biāo)準(zhǔn)化的支持向量機(jī)比正太標(biāo)準(zhǔn)化的支持向量機(jī)各項(xiàng)參數(shù)都好,但是召回率仍未過半,其原因可能是維數(shù)過高導(dǎo)致的訓(xùn)練不足,而且特征之間極高的相關(guān)性并不適合支持向量機(jī)的表現(xiàn)。經(jīng)過主成分分析預(yù)處理優(yōu)化的效果與之前沒有用主成分分析預(yù)處理的效果提高了68%。有這種提高的原因有如下,首先是因?yàn)橹С窒蛄繖C(jī)比較適合一些低維度的分析,在主成分分析處理過以后的數(shù)據(jù),在貢獻(xiàn)保留98%的情況下仍然只有四項(xiàng),數(shù)據(jù)規(guī)??s小了將近95%但是數(shù)據(jù)的質(zhì)量減少得并不多。第二個(gè)原因是用主成分分析使變量不相關(guān)以后更加有利于在坐標(biāo)軸上劃分。坐標(biāo)軸上的維度理論上說是獨(dú)立的,雖然不相關(guān)從數(shù)學(xué)角度上來說是退不出獨(dú)立的,但是在實(shí)際情況下,在已經(jīng)有不相關(guān)這個(gè)條件的情況下,把數(shù)據(jù)當(dāng)作是獨(dú)立的來處理通常都能獲得很不錯(cuò)的效果。

對(duì)所有算法的綜合比較可以發(fā)現(xiàn)主成分分析+支持向量機(jī)+組合分類器的召回率較高,貝葉斯網(wǎng)絡(luò)在召回率不低的情況下的精確度較高。并且都已經(jīng)超過現(xiàn)有的一些傳統(tǒng)算法,結(jié)果如表2.1:

圖2.2組合分類器投票次數(shù)與F值之間的關(guān)系

所以得出的結(jié)論是在訓(xùn)練樣例充足的情況下,多次投票的支持向量機(jī)與單次沒有顯著差異。并且在投票結(jié)果有很多幾乎全票投給陰性的測(cè)試數(shù)據(jù)答案是陽性,這已經(jīng)不是支持向量機(jī)所能解決的問題了。所以再次提高準(zhǔn)確率可能需要去的是新屬性的獲取,或者是屬性質(zhì)量的提高。F值隨著組合分類器個(gè)數(shù)的變化如圖2.2所示。

3 總結(jié)

本文開始介紹了蛋白質(zhì)-蛋白質(zhì)交互界面熱點(diǎn)的一些相關(guān)背景,然后用了支持向量機(jī)對(duì)蛋白質(zhì)-蛋白質(zhì)相互作用界面上的熱點(diǎn)進(jìn)行了預(yù)測(cè),并用主成分分析對(duì)這種機(jī)器學(xué)習(xí)算法進(jìn)行了優(yōu)化,而且用組合分類器對(duì)支持向量機(jī)進(jìn)行了進(jìn)一步的優(yōu)化,其中用主成分分析和組合分類器優(yōu)化的支持向量機(jī)得到的結(jié)果要比傳統(tǒng)的算法更優(yōu)。

猜你喜歡
元組裝袋分類器
Python核心語法
新型液動(dòng)食用菌裝袋機(jī)的設(shè)計(jì)要點(diǎn)與應(yīng)用*
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
基于減少檢索的負(fù)表約束優(yōu)化算法
板栗的塑料薄膜袋貯藏技術(shù)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
面向數(shù)據(jù)流處理的元組跟蹤方法