衛(wèi)博翔,焦 雄
(太原理工大學(xué) 生物醫(yī)學(xué)工程學(xué)院,太原 030024)
蛋白質(zhì)的功能必須通過(guò)其相互作用表現(xiàn)出來(lái)。蛋白質(zhì)相互作用作為細(xì)胞生命活動(dòng)中信號(hào)傳遞的基礎(chǔ),在生長(zhǎng)、分化、代謝和凋亡中起著重要作用[1]。但是,現(xiàn)有蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)通常不攜帶兩個(gè)相互作用蛋白質(zhì)之間的方向信息,如上游/下游,激活/抑制關(guān)系等。這阻礙了對(duì)生命活動(dòng)中的信號(hào)傳遞的理解。因此,需要用相互作用蛋白質(zhì)間的信號(hào)傳遞的方向來(lái)進(jìn)一步注釋當(dāng)前的PPI網(wǎng)絡(luò)。
一些計(jì)算生物學(xué)家試圖從PPI網(wǎng)絡(luò)推斷信號(hào)傳遞方向。VINAYAGAM et al[2]基于信號(hào)通路是從質(zhì)膜相關(guān)受體開(kāi)始到轉(zhuǎn)錄因子結(jié)束的假設(shè),從蛋白質(zhì)相互作用網(wǎng)絡(luò)中導(dǎo)出最短路徑連接(SPC)特征,訓(xùn)練預(yù)測(cè)PPI網(wǎng)絡(luò)方向的樸素貝葉斯分類器。GITTER et al[3]提出了一種優(yōu)化方法來(lái)求解蛋白質(zhì)相互作用網(wǎng)絡(luò)中最大邊緣方向。該方法不需要其他的信息,僅需要蛋白質(zhì)相互作用網(wǎng)絡(luò)中的拓?fù)湫畔?,但是存在?jì)算強(qiáng)度大的缺點(diǎn)。這種基于PPI網(wǎng)絡(luò)拓?fù)涞姆椒m然簡(jiǎn)單直觀,但通常沒(méi)有利用KEGG和NetPath中提供的經(jīng)由實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)相互作用間的上游/下游信息,因此容易產(chǎn)生錯(cuò)誤的信號(hào)蛋白通路和信號(hào)流方向。劉偉等[4]首先從兩個(gè)相互作用的蛋白質(zhì)之間的方向信息中歸納得到兩個(gè)相互作用蛋白質(zhì)的兩個(gè)結(jié)構(gòu)域之間的方向概率;然后提出了函數(shù)F來(lái)預(yù)測(cè)任何結(jié)構(gòu)域?qū)Φ姆较?,并且進(jìn)一步提出了參數(shù)PIDS來(lái)預(yù)測(cè)任何相互作用蛋白質(zhì)對(duì)之間信號(hào)傳遞的方向。但是僅憑兩個(gè)結(jié)構(gòu)域的方向信息尚不足以確定兩個(gè)蛋白質(zhì)之間的作用方向,需要考慮其他的輔助信息。梅素玉等[5]考慮到蛋白質(zhì)相互作用過(guò)程中結(jié)構(gòu)域的非線性組合,提取結(jié)構(gòu)域特征訓(xùn)練一個(gè)SVM支持向量機(jī)模型,用以預(yù)測(cè)蛋白質(zhì)相互作用間的激活/抑制關(guān)系。與那些基于PPI網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法相比,這些方法能夠有效地利用實(shí)驗(yàn)驗(yàn)證的相互作用蛋白質(zhì)之間的方向信息。
結(jié)構(gòu)域作為蛋白質(zhì)中具有進(jìn)化保守性的結(jié)構(gòu)功能單位,是蛋白質(zhì)相互作用中發(fā)揮著重要作用的結(jié)構(gòu)功能區(qū)域,結(jié)構(gòu)域信息在方向預(yù)測(cè)中具有重要地位。本文選用結(jié)構(gòu)域理化性質(zhì),提出一種基于結(jié)構(gòu)域理化性質(zhì)[6-7]預(yù)測(cè)蛋白質(zhì)相互作用方向的新方法。該方法利用在線分析工具計(jì)算蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì),構(gòu)成能夠反映相互作用蛋白質(zhì)對(duì)的特征向量,接著利用支持向量機(jī)技術(shù)分析代表這些相互作用蛋白質(zhì)對(duì)的特征向量,并對(duì)其進(jìn)行分類,由此預(yù)測(cè)相互作用蛋白質(zhì)間信號(hào)傳遞的方向。本方法將蛋白質(zhì)結(jié)構(gòu)域自有的理化性質(zhì)引入相互作用方向預(yù)測(cè),不同于之前基于網(wǎng)絡(luò)拓?fù)涞姆椒ǎ瑸橐院蟮难芯刻峁┝艘粋€(gè)新思路。
結(jié)構(gòu)域(domain)是具有一定活性的蛋白質(zhì)超二級(jí)結(jié)構(gòu)單元,是蛋白質(zhì)折疊、設(shè)計(jì)、進(jìn)化以及功能實(shí)現(xiàn)的基本單位[8]。一個(gè)蛋白質(zhì)平均含有2~3個(gè)結(jié)構(gòu)域,平均50個(gè)氨基酸構(gòu)成一個(gè)蛋白質(zhì)的結(jié)構(gòu)域[9]。研究表明,76.4%的蛋白質(zhì)具有一個(gè)或多個(gè)結(jié)構(gòu)域,且結(jié)構(gòu)域相互作用的方向性是廣泛存在的,可以用于預(yù)測(cè)信號(hào)網(wǎng)絡(luò)中蛋白質(zhì)相互作用的方向[10]。因此,選取蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)作為樣本特征,并分析現(xiàn)有的具有明確方向的蛋白質(zhì)相互作用數(shù)據(jù),可以為未來(lái)進(jìn)一步預(yù)測(cè)方向未知的蛋白質(zhì)相互作用提供有益的幫助。
為了訓(xùn)練及評(píng)估分類器,首先需要用于訓(xùn)練和分類的標(biāo)準(zhǔn)陽(yáng)性集和標(biāo)準(zhǔn)陰性集。為方便起見(jiàn),本文數(shù)據(jù)集采用文獻(xiàn)[11]中的數(shù)據(jù)集,該數(shù)據(jù)集從人、小鼠、大鼠、果蠅和酵母的所有信號(hào)網(wǎng)絡(luò)中,分離整理出2 803對(duì)具有特定方向的蛋白質(zhì)相互作用,包括激活、抑制、磷酸化、去磷酸化和泛素化,作為標(biāo)準(zhǔn)陽(yáng)性集。同時(shí),蛋白質(zhì)復(fù)合物中的蛋白質(zhì)相互作用被認(rèn)為是不具有方向的,構(gòu)建649個(gè)蛋白質(zhì)復(fù)合物,將其作為標(biāo)準(zhǔn)陰性集。
本文采用Expasy的protparam在線分析工具[12],得到蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì),包括氨基酸數(shù)量、分子量、理論等電點(diǎn)、帶負(fù)電的殘基總數(shù)、帶正電的殘基總數(shù)、消光系數(shù)、平均消光系數(shù)、不穩(wěn)定指數(shù)、脂肪族指數(shù)和親水性平均值。每一對(duì)相互作用蛋白質(zhì)對(duì)的結(jié)構(gòu)域均采用在pfam數(shù)據(jù)庫(kù)[13]中經(jīng)過(guò)注釋的結(jié)構(gòu)域。
由于蛋白質(zhì)結(jié)構(gòu)域之間結(jié)構(gòu)的差異性,計(jì)算所得的理化特性值具有一個(gè)很大的跨度,范圍從幾百到幾萬(wàn)。為了避免支持向量機(jī)模型參數(shù)被分布范圍較大或較小的數(shù)據(jù)支配,需要特征矩陣進(jìn)行歸一化處理。如公式(1)所示,特征矩陣S中的每一行對(duì)應(yīng)一對(duì)相互作用蛋白質(zhì)的結(jié)構(gòu)域理化性質(zhì)特征值,特征矩陣歸一化方法如式(2)所示。
(1)
(2)
式中:Si,j表示第i對(duì)蛋白質(zhì)的第j個(gè)特征值;max(S)和min(S)分別表示所有樣本中第j個(gè)特征值的最大值和最小值。
支持向量機(jī)(support vector machine,SVM)是一種建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,其可以根據(jù)樣本信息在學(xué)習(xí)能力和模型的復(fù)雜性之間尋求最佳平衡。在預(yù)測(cè)蛋白質(zhì)相互作用方向中,支持向量機(jī)有專門針對(duì)有限樣本情況,理論上可以得到全局最優(yōu)點(diǎn);對(duì)于不平衡樣本,能夠給定一個(gè)置信水平來(lái)避免過(guò)擬合;對(duì)于高通量的蛋白質(zhì)相互作用數(shù)據(jù),能將特征向量映射到高維空間[14],計(jì)算效率高,能夠進(jìn)行快速的訓(xùn)練。
本文選用SVM分類器利用蛋白質(zhì)理化性質(zhì)進(jìn)行蛋白質(zhì)相互作用方向預(yù)測(cè),具體步驟如下:
1) 構(gòu)建特征向量。利用1.2小節(jié)的方法分別計(jì)算并構(gòu)建標(biāo)準(zhǔn)陽(yáng)性集和標(biāo)準(zhǔn)陰性集的相互作用蛋白質(zhì)對(duì)的特征向量。最終得到的數(shù)據(jù)集樣本為3 452個(gè),其中陽(yáng)性集2 803個(gè),陰性集649個(gè),每個(gè)樣本維數(shù)為1 560維。
2) 特征向量的歸一化。由于模型的輸入值需在[0,1]范圍內(nèi),使用1.3小節(jié)的方法對(duì)特征向量進(jìn)行歸一化,使特征向量的各個(gè)特征值在(0,1)范圍內(nèi)。
3) 生成訓(xùn)練集和測(cè)試集。將所有的樣本集分為訓(xùn)練集和測(cè)試集,在標(biāo)準(zhǔn)陽(yáng)性集和標(biāo)準(zhǔn)陰性集中分別隨機(jī)選取4/5的數(shù)據(jù),將這兩部分組成用于訓(xùn)練SVM分類器模型的訓(xùn)練集,其余的標(biāo)準(zhǔn)陽(yáng)性集數(shù)據(jù)和標(biāo)準(zhǔn)陰性集數(shù)據(jù)組成測(cè)試集。
4) 利用訓(xùn)練集對(duì)SVM分類器進(jìn)行訓(xùn)練,并使用libsvm中的grid函數(shù)對(duì)模型進(jìn)行參數(shù)優(yōu)化。
為了定量評(píng)價(jià)基于結(jié)構(gòu)域理化性質(zhì)預(yù)測(cè)蛋白質(zhì)相互作用間信號(hào)傳遞方向的方法的性能,使用準(zhǔn)確率、精確度、召回率和F-measure 4種指標(biāo)來(lái)評(píng)價(jià)分類器模型的性能。4種評(píng)價(jià)指標(biāo)的含義分別為:
1) 準(zhǔn)確率(aaccuracy):正確預(yù)測(cè)的蛋白質(zhì)有明確相互作用方向和無(wú)明確方向的樣本數(shù)在所有樣本中所占比例。
2) 精確度(bprecision):正確預(yù)測(cè)的蛋白質(zhì)有明確相互作用方向的樣本占所有被預(yù)測(cè)為有明確方向樣本的比例。
3) 召回率(crecall):正確預(yù)測(cè)為蛋白質(zhì)有明確相互作用方向占所有蛋白質(zhì)相互作用有方向樣本的比例。
4) F-measure(dF-measure):精確度和召回率調(diào)和均值的2倍。
4種評(píng)價(jià)指標(biāo)的相關(guān)計(jì)算公式如下:
(1)
(2)
(3)
(4)
式中:PT表示預(yù)測(cè)正確的有明確方向的相互作用蛋白質(zhì)對(duì)數(shù)目;NT表示預(yù)測(cè)正確的無(wú)明確方向的相互作用蛋白質(zhì)對(duì)數(shù)目;PF表示將無(wú)明確方向預(yù)測(cè)為有明確方向的相互作用蛋白質(zhì)對(duì)數(shù)目;NF表示將有明確方向預(yù)測(cè)為無(wú)明確方向的相互作用的蛋白質(zhì)對(duì)數(shù)目。
此外,由于本文的實(shí)驗(yàn)數(shù)據(jù)中有明確相互作用方向的樣本數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于無(wú)方向的,因此引入了接收者操作特征(receiver operating characteristic,ROC)曲線及其線下面積AUC值用于預(yù)測(cè)方法的性能評(píng)價(jià)。AUC值能更加全面地反映分類器的性能,避免由于樣本數(shù)量在不同類別上的不均衡所帶來(lái)的誤差。
SVM的核函數(shù)決定了模型的分類學(xué)習(xí)能力。目前支持向量機(jī)中常用的核函數(shù)有:線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù)。線性核函數(shù)用于線性可分的情況,具有參數(shù)少、速度快的優(yōu)點(diǎn),且特征空間和輸入空間的維數(shù)一樣,對(duì)于線性可分?jǐn)?shù)據(jù),分類效果理想;多項(xiàng)式核函數(shù)可以將輸入空間的低維向量映射到特征空間的高維度,但是由于多項(xiàng)式和函數(shù)參數(shù)多,當(dāng)多項(xiàng)式的階數(shù)較高時(shí),計(jì)算復(fù)雜度會(huì)阻礙分類;高斯徑向基核函數(shù)局部性強(qiáng),可以將一個(gè)樣本映射到更高維的空間,應(yīng)用范圍廣,對(duì)大樣本或小樣本都有較好的分類性能,而且相對(duì)于多項(xiàng)式和函數(shù),參數(shù)較少;而采用sigmoid核函數(shù),支持向量機(jī)實(shí)現(xiàn)一種多層神經(jīng)網(wǎng)絡(luò)。所以,為支持向量機(jī)模型選擇恰當(dāng)?shù)暮撕瘮?shù)會(huì)達(dá)到事半功倍的效果。
首先對(duì)支持向量機(jī)的核函數(shù)進(jìn)行選擇,使用4/5的數(shù)據(jù)集訓(xùn)練分類器,剩余的1/5數(shù)據(jù)則作為測(cè)試集,測(cè)試選擇不同核函數(shù)時(shí)預(yù)測(cè)模型的分類性能,實(shí)驗(yàn)結(jié)果如表1所示。由于實(shí)驗(yàn)用的數(shù)據(jù)不均衡,標(biāo)準(zhǔn)陽(yáng)性集大于標(biāo)準(zhǔn)陰性集。由表1可以看出,當(dāng)選擇高斯徑向基核函數(shù)時(shí),分類器模型的準(zhǔn)確率遠(yuǎn)高于其他模型,可達(dá)86.79%.因此,選擇高斯徑向基核函數(shù),使支持向量機(jī)模型預(yù)測(cè)結(jié)果更加精確。
表1 不同核函數(shù)SVM預(yù)測(cè)模型的性能比較Table 1 Performance comparison of SVM prediction models with different kernel functions
進(jìn)一步,使用libsvm中的grid函數(shù)來(lái)選擇最佳的高斯徑向基核函數(shù)的參數(shù)g和SVM的懲罰系數(shù)c.核函數(shù)參數(shù)g的網(wǎng)格搜索范圍設(shè)置為g∈[-15,-14,…,14,15],懲罰系數(shù)c的網(wǎng)格搜索范圍設(shè)置為c∈[-15,-14,…,14,15].如圖1所示,當(dāng)c=2,g=0.000 122時(shí),該預(yù)測(cè)模型的準(zhǔn)確率最高,為
圖1 c,g參數(shù)尋優(yōu)結(jié)果Fig.1 c, g parameter optimization results
88.17%.因此SVM預(yù)測(cè)模型的參數(shù)選擇如下:核函數(shù)選擇高斯徑向基核函數(shù),高斯徑向基核函數(shù)的參數(shù)g=0.000 122,懲罰系數(shù)c=2.
將上述參數(shù)用于支持向量機(jī)模型;在測(cè)試集上,該模型的預(yù)測(cè)準(zhǔn)確率、精確度、召回率和F-measure分別為88.17%,82.94%,80.12%,81.51%.圖2給出了分類器的ROC曲線,以真陽(yáng)性率作為縱軸,假陽(yáng)性率作為橫軸,曲線下的面積越大,即AUC值越大,則分類器的性能越好。圖中曲線下面積AUC值為0.837,說(shuō)明分類器有很好的分類性能。這些結(jié)果表明,基于蛋白質(zhì)結(jié)構(gòu)域理化性質(zhì)的支持向量機(jī)模型能夠有效預(yù)測(cè)蛋白質(zhì)相互作用間的信號(hào)傳遞方向。
圖2 預(yù)測(cè)模型的ROC曲線Fig.2 ROC plot of the predictive model
為了進(jìn)一步考察各種理化性質(zhì)對(duì)蛋白質(zhì)相互作用方向預(yù)測(cè)的影響,依次刪除不同的理化性質(zhì),并采取5折交叉驗(yàn)證的方法,計(jì)算預(yù)測(cè)模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù),結(jié)果見(jiàn)表2。由表可見(jiàn),刪除不同的理化性質(zhì)后,預(yù)測(cè)模型的準(zhǔn)確率、均方誤差及平方相關(guān)系數(shù)均有所下降,所以蛋白質(zhì)結(jié)構(gòu)域的10種理化性質(zhì)均有助于蛋白質(zhì)相互作用方向的預(yù)測(cè)。
表2 刪除不同理化性質(zhì)后在測(cè)試集上的預(yù)測(cè)性能比較Table 2 Comparison of prediction performance on test sets after removing different physicochemical properties
為了進(jìn)一步說(shuō)明本文方法的可靠性,使用文獻(xiàn)[4]中評(píng)價(jià)標(biāo)準(zhǔn),將預(yù)測(cè)模型與PIDS方法進(jìn)行對(duì)比,結(jié)果如表3所示。在準(zhǔn)確率和誤報(bào)率方面,本文的方法與PIDS方法相比略有不足;但是對(duì)于數(shù)據(jù)的覆蓋度,本文的方法領(lǐng)先于PIDS方法。綜上所述,本文提出的新方法用于預(yù)測(cè)的蛋白質(zhì)相互作用間的信號(hào)傳遞方向是有效的。
表3 不同方法的預(yù)測(cè)結(jié)果比較Table 3 Prediction results of different methods
筆者提出了一種基于結(jié)構(gòu)域的理化特性來(lái)推斷相互作用蛋白質(zhì)間的信號(hào)傳遞方向的新方法。與以往方法相比,本文的方法關(guān)注結(jié)構(gòu)域的理化性質(zhì),利用經(jīng)過(guò)實(shí)驗(yàn)注釋的具有明確方向的蛋白質(zhì)相互作用信息,著重于成對(duì)相互作用蛋白質(zhì)之間的信號(hào)傳遞方向預(yù)測(cè)。特別是,該方法可用于預(yù)測(cè)蛋白質(zhì)組范圍內(nèi)蛋白質(zhì)相互作用間的信號(hào)傳遞方向,并可進(jìn)一步注釋現(xiàn)有的蛋白質(zhì)相互作用網(wǎng)絡(luò)。但是此方法仍具有一定的局限性,本方法涉及到的蛋白質(zhì)結(jié)構(gòu)域的理化性質(zhì)信息僅僅只有10種;接下來(lái)??梢試L試更多的蛋白質(zhì)結(jié)構(gòu)域信息,并使用特征提取方法對(duì)特征向量進(jìn)行選擇,來(lái)進(jìn)一步完善本文提出的預(yù)測(cè)模型。