王鮮芳,盧 凡,劉依鋒,李啟萌
(1.河南工學院 計算機科學與技術學院,河南 新鄉(xiāng) 453003;2.河南師范大學 計算機與信息工程學院,河南 新鄉(xiāng) 453007)
嗜熱蛋白質(zhì)在開發(fā)應用方面有著非常廣闊的前景。在發(fā)酵行業(yè)中,可利用其能耐受高溫這一特性,提高反應溫度和速度,減少中溫型雜菌污染的機會[1],來生產(chǎn)多種催化劑。由嗜熱蛋白質(zhì)生產(chǎn)的這些酶制劑具有熱穩(wěn)定性好,催化反應速率高,易于在室溫下保存等優(yōu)點。嗜熱蛋白質(zhì)研究中最引人注目的成果之一是將水生棲熱菌中耐熱的TaqDNA聚合酶[2]用于基因研究和遺傳工程以及基因技術之中。所以對于嗜熱蛋白質(zhì)的預測顯得尤為重要。
目前嗜熱蛋白質(zhì)預測主要有兩類方法:生物實驗手工標注和計算方法預測[3]。在后基因組時代,隨著DNA和蛋白質(zhì)序列以及結構信息的大量積累,傳統(tǒng)的手工實驗費時費力,所以人們更傾向于利用數(shù)學、計算機科學知識分析、挖掘生物數(shù)據(jù),以尋求蘊含在其中的生物規(guī)律[4]。近年來,機器學習算法被廣泛應用到蛋白質(zhì)預測中,目前常用的機器學習分類算法有線性判別分析、K近鄰算法、決策樹、樸素貝葉斯、支持向量機[5]和神經(jīng)網(wǎng)絡等。其中,Hua和Sun[6]等人采用氨基酸組成方法構造特征表達模型,在蛋白質(zhì)數(shù)據(jù)集上取得了高達91.4%的預測準確率;Wu[7]等人運用決策樹預測嗜熱蛋白質(zhì)的熱穩(wěn)定性,其精度達到80%以上;Dao[2]等人運用支持向量機對嗜熱蛋白質(zhì)進行預測,在五折疊交叉驗證中精度達到了92.75%。以上實驗都取得了較好的預測精度,但是預測性能還需要進一步提升,同時這些實驗都為我們進一步提升[8]嗜熱蛋白質(zhì)的預測精度提供了很好的借鑒。
現(xiàn)有的預測研究方法大部分只是提取單一的蛋白質(zhì)特征,并未全面地將嗜熱蛋白質(zhì)的內(nèi)在信息表達出來,在一定程度上限制了模型的預測性能。為此,本文提出了基于特征融合(Feature Fusion,FF)的多層感知機(Multi-Layer Perception,MLP)預測模型。首先,分別使用多段氨基酸組成(Multi-stage Amino Acid Composition,MAAC)、G-gap二肽組成和組成轉(zhuǎn)變分布組成(Composition Transition Distribution Composition,CTDC)來表征嗜熱蛋白質(zhì)序列,通過串聯(lián)融合的方式構建嗜熱蛋白質(zhì)的特征向量。然后,對特征進行貢獻度分析,挑選前179維特征重要性評估(Variable Importance Measures,VIM)得分最高的特征作為模型的最優(yōu)特征子集。通過多種機器學習算法的比較,將MLP作為最終的分類算法,構建基于多特征融合的嗜熱蛋白質(zhì)類型預測模型。
在本研究中,首先嗜熱蛋白質(zhì)使用G-gap二肽組成、CTDC和MAAC三種特征提取方法進行表征,共構建了499維特征向量,然后使用VIM分析各個特征的貢獻度以挑選最優(yōu)特征子集,最后利用MLP來構建最終的預測模型。實驗步驟如圖1所示。
圖1 基于FF和VIM的嗜熱蛋白質(zhì)預測流程
蛋白質(zhì)序列是由20種氨基酸之間相互脫水縮合形成的。一條長度為N的[8]蛋白質(zhì)P可以表達為:
P=R1R2…Ri…RN
式中,每一個R代表這條蛋白質(zhì)中的一個氨基酸殘基。例如R1代表蛋白質(zhì)P的第一個氨基酸殘基,R2代表蛋白質(zhì)P的第二個氨基酸殘基,Ri代表蛋白質(zhì)P的第i個氨基酸殘基,則RN就是第N個氨基酸殘基。
MAAC是在氨基酸組成上的進一步演變,該方法通過計算組成序列氨基酸的頻率來表征蛋白質(zhì)序列[9],與傳統(tǒng)氨基酸組成方法相比,MAAC聯(lián)合蛋白質(zhì)兩端區(qū)域與中間段的氨基酸信息。本研究中將整段蛋白質(zhì)序列分成三段,分別是N端氨基酸區(qū)域、中間段以及C端氨基酸區(qū)域。MAAC把蛋白質(zhì)的空間位置信息融進特征中,一條蛋白質(zhì)信息將由20維轉(zhuǎn)變?yōu)?0維。
SAAC=[S1,S2,S3]T
(2)
Sj=[a1j,a2j,a3j,…,a20j]T,(j=1,2,3)
(3)
(4)
式(2)中,S1代表前三分之一的蛋白質(zhì)序列的氨基酸組成表征,S2代表中間三分之一的蛋白質(zhì)序列的氨基酸組成表征,S3代表后三分之一的蛋白質(zhì)序列的氨基酸組成表征。式(3)中aij代表第j段氨基酸序列的第i種氨基酸出現(xiàn)的頻率[10]。式(4)中cij代表統(tǒng)計第j段氨基酸序列中第i種氨基酸的個數(shù)。
二肽組成方法通過計算蛋白質(zhì)序列中任意兩個相鄰氨基酸組成的二肽的頻率形成特征向量來表征蛋白質(zhì)[11]。而20種基礎氨基酸兩兩的排列組合得到的二肽形式共有400種,因此該方法將一條蛋白質(zhì)序列表征為400維的數(shù)字特征向量:
D=[f1,f2,…,f400]T
(5)
(6)
式中,vi表示第i種相鄰氨基酸對組成的二肽出現(xiàn)的次數(shù),fi表示第i種相鄰氨基酸對的頻率。在傳統(tǒng)的二肽組成方法的基礎上進一步提出G-gap二肽組成[12]方法,其公式如下:
(7)
(8)
CTDC特征提取方法將組成蛋白質(zhì)的20種基礎氨基酸[13]分成三類,以疏水性為例,所有的氨基酸都可以分為極性、中性和疏水性三種類別。然后,分別統(tǒng)計每一類氨基酸殘基在整個蛋白質(zhì)序列中出現(xiàn)的頻率,記作n(x),計算每一個類別所占的百分比,公式如下:
(9)
式中,g1代表類別一極性[9],g2代表類別二中性,g3代表疏水性,其中N表示蛋白質(zhì)氨基酸殘基的總個數(shù)。
本文使用MAAC、G-gap二肽組成和CTDC三種特征提取方法,共同構建向量維度為499維,使用VIM來挑選影響模型最大的特征子集,并以此縮減建模型輸入變量的特征數(shù)。本文使用隨機森林(Random Forest,RF)來進行特征重要性評估,使用Gini指數(shù)作為評價指標來衡量特征對于模型的重要度[14]。
輸入特征為X1,X2,…,XM,其Gini指數(shù)的計算公式如下:
(10)
式中,K指數(shù)據(jù)的類別數(shù),嗜熱蛋白預測屬于二分類問題,所以K=2。pmk表示節(jié)點m中類別k所占的比例。
(11)
式中,GIl與GIr為m節(jié)點分枝后的兩個節(jié)點的基尼指數(shù)。若特征Xj在第i棵樹中出現(xiàn)的頻率為M,則特征Xj在第i棵樹的貢獻度為:
(12)
若RF中分類樹的數(shù)量為n棵,則特征Xj的Gini指數(shù)為[15]:
(13)
MLP最重要的一個特點是多層,除了輸入輸出層,它中間可以包含多個隱藏層。本文的MLP模型如圖2所示,包含兩個隱藏層,總共四層結構[16]。
從圖2可知,MLP的層與層之間的所有神經(jīng)元都有連接。MLP第i層是輸入層,h層是隱藏層,最右邊一列代表輸出層。每一層輸出都是上層輸入的線性函數(shù),無論MLP有多少層,輸出都是輸入的線性組合。而激活函數(shù)的使用,能夠給神經(jīng)元引入非線性功能,使得MLP可以任意逼近任何非線性函數(shù),這樣MLP就可以適用于更多的非線性模型中。本文模型激活函數(shù)使用的是Relu函數(shù),表達式如下所示:
Relu(x)=max(x,0)
(14)
圖2 MLP原理圖
輸入層為嗜熱蛋白質(zhì)序列樣本,用向量X=(x1,x2…xn)表示。第一個隱藏層與輸入層之間的解析表達式為:
(15)
(16)
輸出層o為:
o={+1,-1}
(17)
式中的+1代表嗜熱蛋白質(zhì),而-1代表常溫蛋白質(zhì)。
MLP的學習過程就是根據(jù)訓練集來對神經(jīng)元之間的連接權以及每個功能神經(jīng)元的閾值進行調(diào)整。
本文研究的嗜熱蛋白質(zhì)和常溫蛋白質(zhì)樣本數(shù)據(jù)集來源于文獻[2],從UniProt中根據(jù)最適宜溫度的標記選取嗜熱蛋白質(zhì)和常溫蛋白質(zhì)序列,對于選取的蛋白質(zhì)序列,包含“B”“J”“O”“U”“X”和“Z”的序列被剔除,并使用CD-HIT軟件去除冗余,同時序列相似度在40%以上也被刪除。通過以上步驟,獲得915條嗜熱蛋白質(zhì)序列以及793條常溫蛋白質(zhì)序列,最終以共1708條蛋白質(zhì)序列作為本文的數(shù)據(jù)集N,其表示如下:
N=NT∪NM
(18)
式中,NT表示915條嗜熱蛋白質(zhì)序列的數(shù)據(jù)集,NM表示793條常溫蛋白質(zhì)序列的數(shù)據(jù)集。
分類預測常用的交叉驗證方法有K折交叉驗證和留一法。K折交叉驗證方法基本原理是將樣本數(shù)據(jù)有n個的集合S分割為k個大小相同的互斥子集,其表達式為:
S=s1∪s2∪s3…∪sk
(19)
k為子集個數(shù),然后依次從k個子集中選出1個子集作為驗證集,其余k-1個子集作為測試集,進行k次模型訓練和驗證。而留一法是將樣本分割成n份,即一個子集包含一個樣本,每次選出一個樣本作為驗證集,其余n-1個樣本作為訓練集,進行n次模型訓練和驗證。
對比其余交叉驗證方法,留一法[18]被認為是最嚴格最客觀的,所以本文主要運用留一法進行交叉驗證。
針對嗜熱蛋白質(zhì)分類問題,通過把樣本的真實類別與模型的預測類別進行對比,可以形成真正例、假正例、真反例、假反例四種情況,如表1所示[19]。
表1 混淆矩陣表
常用的模型性能評價指標主要包括:準確率(Acc)、馬修斯相關系數(shù)(MCC)、查準率(P)、敏感性(Sn)和特異性(Sp),具體如下。
準確率(Acc)定義為:
(20)
敏感性(Sn)定義為:
(21)
特異性(Sp)定義為:
(22)
查準率(P)定義為:
(23)
馬修斯相關系數(shù)(MCC)定義為:
MCC=
(24)
本文利用以上性能評價指標對預測結果進行分析。
將嗜熱蛋白質(zhì)看作正樣本,將常溫蛋白質(zhì)看作負樣本。本文實驗數(shù)據(jù)集存在正負樣本不平衡的狀態(tài),正負樣本不平衡可能會影響最后的預測結果,降低模型的泛化性能。為此,本實驗對于樣本采取欠采樣方法隨機刪除部分正樣本,使得正樣本個數(shù)與負樣本數(shù)據(jù)基本持平,確保實驗結果的精確性與可靠性。本文針對現(xiàn)有模型特征工程表征能力不足的問題,提出使用MAAC、G-gap二肽組成和CTDC三種蛋白質(zhì)提取方法分別對嗜熱蛋白質(zhì)進行表征,然后將提取的三種特征進行特征融合構建樣本的特征,MAAC構建的蛋白質(zhì)特征向量為60維,CTDC用39維特征表征蛋白質(zhì),G-gap二肽使用400維特征,共有499維特征向量,特征融合雖然可以使得蛋白質(zhì)信息表達得更加全面,但是也帶來了由于維度過大增加計算復雜度的問題,同時還會存在信息冗余現(xiàn)象,為了解決這個問題并減少訓練時間,本實驗對特征進行了特征重要度分析,得出每個特征的VIM得分。
5.3.1 嗜熱蛋白質(zhì)特征變量重要性分析
本文使用VIM分析各個特征的貢獻度。RF是一種常見的機器學習算法,其在度量特征重要性方面相比于其他機器學習算法更具優(yōu)勢,所以本文使用包含250棵決策樹的RF模型,獲得了嗜熱蛋白質(zhì)特征VIM得分,如圖3所示。
圖3 嗜熱蛋白質(zhì)特征重要性分析
從圖3可知,特征排序是按照VIM得分由高到低依次排列的。為了更清晰明確地得出對于預測貢獻度較大的特征,我們選取VIM得分較高的前20維特征,如圖4所示。VIM得分越高說明特征貢獻度越高,從圖4可知在貢獻度較高的前20維特征中,CTDC的貢獻率是最高的,前六維的特征均來自CTDC,總貢獻率大約是占據(jù)第二位的多段氨基酸的貢獻度的三倍,說明CTDC與嗜熱蛋白質(zhì)預測精度的提升有很大的關聯(lián)。
圖4 特征重要性較高的前20維特征
5.3.2 嗜熱蛋白質(zhì)特征篩選
通過VIM算法,對特征重要度進行分析,按VIM得分從高到低對特征進行排列。特征的排序越靠前,其對嗜熱蛋白質(zhì)的預測就越重要?;谔卣髋判?以設定VIM得分閾值來挑選最優(yōu)特征子集,通過計算不同VIM得分閾值組成的特征子集所建模型的精確度來確定最優(yōu)閾值。其實驗結果如圖5所示,當VIM得分設定在0.0013時,即所選特征子集包含了VIM得分在0.0013以上的特征,精確度最高達到93.19%。VIM得分在0.0013以上的共179維,則對應的特征子集由得分最高的前179維特征組成,即為嗜熱蛋白質(zhì)的最優(yōu)特征子集。多層感知機的各項參數(shù)為:solver設置為lbfgs, alpha設置為1e-2,隱藏層設置為2層,每層78個神經(jīng)元,隨機種子設置為100。
圖5 特征VIM得分精度圖
5.3.3 不同特征提取方法的比較
為了更加客觀地評價本文所建融合特征模型的預測性能,使用MAAC、G-gap二肽組成和CTDC三種特征提取方法進行特征融合來表征嗜熱蛋白質(zhì),然后提取嗜熱蛋白質(zhì)的最優(yōu)特征子集來構建嗜熱蛋白質(zhì)的最終融合特征,與使用G-gap、CTDC、MAAC、MAAC+CTDC、MAAC+G-gap、CTDC+G-gap等6種蛋白質(zhì)特征提取方法所構建的嗜熱蛋白質(zhì)預測模型分別進行對比,并使用留一法進行交叉驗證,結合多種評價指標進行對比,對比結果如表2所示。由表2可知,基于本文特征構建的預測模型精確度高達93.19%,高于其余6個模型的預測精度,且在查準率(P)、敏感度(Sn)、特異性(Sp)、馬修斯相關系數(shù)(MCC)這四個指標上也高于其余6個模型。且本文特征所建模型的敏感度(Sn)為93.69%,特異性(Sp)為92.69%,說明基于本文特征所構建的模型對于正負樣本的預測效果都很好,幾乎達到了平衡。進一步說明本文使用的特征融合預測模型在提高嗜熱蛋白質(zhì)的預測精度上有很大的作用。
5.3.4 不同分類算法在數(shù)據(jù)集上的精確度對比
本文采用的特征融合表征方法在一定程度上提高了預測精度,為了更客觀地評價多層感知機構建模型的預測性能,將MLP與線性判別分析 (Linear Discriminant Analysis,LDA)、樸素貝葉斯(Nave Bayes,NB)、決策樹 (Decision Tree,DT)、K近鄰 (k-Nearest Neighbors,KNN)4種分類算法所構建的模型進行對比,為了保證一致性,實驗的數(shù)據(jù)集均使用篩選的179維最優(yōu)特征子集,并采用留一法進行交叉驗證,對比結果如表3所示。
從表3可知,DT構建的模型預測性能最低,在精確度(Acc)、查準率(P)、敏感度(Sn)、特異性(Sp)、馬修斯相關系數(shù)(Mcc)五項評價指標當中最低,而LDA在五項評價指標中表現(xiàn)略低于MLP,但均高于其余三種分類算法。NB的整體預測性能比DT略勝一籌,但是比KNN的預測性能稍低。MLP的性能最佳,預測精度達到了93.19%,比其余四種對比算法分別提高了1.14%、4.29%、7.51%、3.22%。在敏感度、特異性兩個評估指標上高達92.6%以上,證明使用MLP能構建更優(yōu)的預測模型。
表2 不同特征預測結果對比
表3 不同分類算法對分類效果的影響
為了更加直觀地比較MLP、LDA、KNN、DT、NB這五種分類算法的分類效果,繪制了這五種分類算法的P-R曲線圖與ROC曲線圖,如圖6、圖7、圖8所示。從圖6可以發(fā)現(xiàn),多層感知機MLP的P-R曲線圖包裹住了其余四種分類算法的曲線,證明其分類效果更好;同時從圖7可得,MLP的曲線圖也包住了其余分類算法的曲線,而ROC曲線的面積越大,分類性能更好;從圖8我們可以看出MLP的ROC面積達到了0.98。從以上三個指標綜合分析可得,MLP在嗜熱蛋白質(zhì)的分類性能上超越了其余的分類算法,分類效果更佳。
圖6 不同分類算法的P-R曲線圖
圖7 不同分類算法的ROC曲線圖
圖8 多層感知機的ROC曲線圖
5.3.5 與現(xiàn)有模型對比
為了驗證模型的有效性,與使用同一數(shù)據(jù)集的其余實驗進行對比是很有必要的,所以我們同文獻[2]和文獻[20]的實驗進行對比,結果如表4所示。本文方法的特異性指標Spe為0.9269,高于文獻[2]的方法而低于文獻[20]的方法;但精確度指標Acc為0.9319,敏感性指標Sen達到0.9369,均高于其余兩種方法。結合以上分析可知,本文方法對于嗜熱蛋白質(zhì)預測性能的提升是有效的。
表4 同一數(shù)據(jù)集上不同方法的預測結果對比
本文針對單一特征表征蛋白質(zhì)信息不充分的問題,提出了基于特征融合的概念,將MAAC、G-gap二肽組成和CTDC三種蛋白質(zhì)特征提取方法結合起來用于表征嗜熱蛋白質(zhì)的特征向量,利用VIM方法篩選最優(yōu)特征子集,特征維度降低的同時減少冗余信息與降低時間復雜度。經(jīng)過實驗對比分析發(fā)現(xiàn),本文所提出的融合特征表達的預測性能更優(yōu),選用MLP作為分類算法,并采用留一法在多個分類算法上進行交叉驗證,精度高達93.19%。結果表明將多個特征融合起來,并使用MLP來構建預測模型對于嗜熱蛋白質(zhì)預測性能的提高是有效的。