劉威,郭紅
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350116)
表位是蛋白質(zhì)抗原性的基礎(chǔ),深入研究蛋白質(zhì)表位對(duì)多肽和新型疫苗分子的設(shè)計(jì)及診斷試劑的開發(fā)具有重要意義[1].線性B細(xì)胞表位是抗原序列上能與抗體結(jié)合的一段連續(xù)的區(qū)域[2].早期的表位預(yù)測(cè)工作主要通過生物實(shí)驗(yàn)進(jìn)行鑒別,但這種方法耗時(shí)耗力而且得到的數(shù)據(jù)較少,針對(duì)標(biāo)準(zhǔn)的數(shù)據(jù)集開發(fā)自動(dòng)評(píng)價(jià)工具將是未來的發(fā)展方向[3].
線性B細(xì)胞表位預(yù)測(cè)問題可以看作一個(gè)二分類問題:給定若干肽鏈序列,指出哪些肽鏈序列屬于表位,哪些屬于非表位.表位和非表位在某些生物特性、序列結(jié)構(gòu)、氨基酸組成上存在一定的差異,通過對(duì)這些差異提取特征進(jìn)行分類能夠有效地對(duì)表位進(jìn)行預(yù)測(cè).B細(xì)胞表位數(shù)據(jù)庫的建立,提供了大量的表位序列片段,通過對(duì)表位和非表位序列分析,找出表位和非表位的特征,從而進(jìn)行分類.通常的研究方法是使用一種特征提取方法將肽鏈序列轉(zhuǎn)化為相應(yīng)的編碼,將編碼作為輸入再使用分類器進(jìn)行分類,從而得出預(yù)測(cè)結(jié)果.文獻(xiàn)[4]提出了一種氨基酸對(duì)抗原性量表(AAPantigenicity scale),并將這種量表作為一種新的編碼,該編碼反映了表位與非表位中某些特定氨基酸對(duì)片段出現(xiàn)頻率的差異性,最后使用SVM作為分類器進(jìn)行預(yù)測(cè).文獻(xiàn)[5]在AAP編碼的基礎(chǔ)上提出了長(zhǎng)度為3和4的抗原性量表的概念,結(jié)合LEP方法,將3種長(zhǎng)度的抗原性量表作為分類器的輸入?yún)?shù)得出預(yù)測(cè)模型,這表明AAP編碼是一種不錯(cuò)的特征編碼.文獻(xiàn)[6]中引入貝葉斯中先驗(yàn)概率,提出在線性B細(xì)胞表位上的一種貝葉斯特征提取方法,結(jié)合氨基酸在肽鏈序列中的位置形成貝葉斯編碼,最后使用SVM進(jìn)行預(yù)測(cè).AAP編碼包含了氨基酸對(duì)信息,考慮了氨基酸對(duì)在表位和非表位數(shù)據(jù)中的出現(xiàn)頻率,但AAP編碼對(duì)缺少了單個(gè)氨基酸的出現(xiàn)頻率對(duì)肽鏈序列的影響,這導(dǎo)致肽鏈信息的缺失.單個(gè)氨基酸的貝葉斯編碼只包含單個(gè)氨基酸與分類結(jié)果的關(guān)系,沒有考慮到氨基酸之間的關(guān)系,不符合表位與非表位序列間存在一定結(jié)構(gòu)差異.
受文獻(xiàn)[6]的啟發(fā),提出一種基于氨基酸對(duì)量表加權(quán)的貝葉斯特征提取方法,在貝葉斯特征提取方法的基礎(chǔ)上,引入氨基酸對(duì)抗原性量表的概念,有效地提取肽鏈序列的組成和結(jié)構(gòu)信息,提高序列與所屬類別的相關(guān)性.
文獻(xiàn)[5]中使用貝葉斯方法(Bi-profile Bayes feature extraction)來提取氨基酸序列的特征,并提出貝葉斯特征提取方法的蛋白質(zhì)甲基化位點(diǎn)預(yù)測(cè)(BPB-PPM).文獻(xiàn)[7]構(gòu)造了Px用于描述表位和非表位數(shù)據(jù)中不同氨基酸在不同位置上的差異,將bayes方法應(yīng)用到線性B細(xì)胞表位上.
每條肽鏈的貝葉斯編碼是一個(gè)長(zhǎng)度2n的向量,其中n表示肽鏈的長(zhǎng)度,每個(gè)位置上的氨基酸編碼由兩個(gè)部分構(gòu)成:對(duì)表位數(shù)據(jù)的先驗(yàn)概率,對(duì)非表位數(shù)據(jù)的先驗(yàn)概率.對(duì)2n長(zhǎng)度的貝葉斯編碼而言,單個(gè)貝葉斯編碼包含氨基酸在特定位置上出現(xiàn)對(duì)類別的先驗(yàn)概率,整體的編碼又包含了肽鏈的氨基酸組成情況.
貝葉斯特征提取方法計(jì)算過程描述如下:①將實(shí)驗(yàn)數(shù)據(jù)集分為測(cè)試集和訓(xùn)練集;②統(tǒng)計(jì)訓(xùn)練集中的每條肽鏈上單個(gè)氨基酸的信息,信息包含肽鏈序列的不同位置上出現(xiàn)各種氨基酸數(shù)量;③使用統(tǒng)計(jì)信息構(gòu)造不同位置上出現(xiàn)氨基酸對(duì)肽鏈類別的先驗(yàn)概率;④使用構(gòu)造的先驗(yàn)概率對(duì)數(shù)據(jù)集的每一條肽鏈進(jìn)行編碼,編碼時(shí)使用氨基酸的種類和位置確定該氨基酸的編碼值.
貝葉斯特征提取方法以肽鏈序列與單個(gè)氨基酸之間的關(guān)系作為特征,然而該方法忽略了氨基酸之間的結(jié)構(gòu)可能對(duì)表位和非表位的差異所造成的影響.目前表位和非表位之間存在的明顯差異還不得而知,但實(shí)際上,表位和非表位存在一定結(jié)構(gòu)上差異,表現(xiàn)為包含數(shù)量不同的氨基酸結(jié)構(gòu)體,和結(jié)構(gòu)體在肽鏈中不同的位置組合.
Bcipep數(shù)據(jù)庫是專門收集B細(xì)胞表位數(shù)據(jù)的數(shù)據(jù)庫,Swiss-Prot數(shù)據(jù)庫是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,作為非表位數(shù)據(jù)庫.通過對(duì) Bcipep和Swiss-Prot數(shù)據(jù)庫的氨基酸對(duì)組成進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)表位和非表位的氨基酸對(duì)組成有很大差異[4],如圖1所示,以每種氨基酸對(duì)占總共400氨基酸對(duì)的比例作為縱坐標(biāo),以氨基酸對(duì)FI和MP為例,F(xiàn)I在Bcipep數(shù)據(jù)庫中占所有400種氨基酸對(duì)總數(shù)的0.067%,MP為0.037%,而在Swiss-Port數(shù)據(jù)庫中這兩種氨基酸對(duì)占的比例為0.242%和0.111%,通過對(duì)比說明表位和非表位數(shù)據(jù)之間存在氨基酸對(duì)的差異,因此很有必要對(duì)氨基酸對(duì)在表位和非表位數(shù)據(jù)中的差異信息進(jìn)行提?。?/p>
圖1 Bcipep和Swiss-Port數(shù)據(jù)庫中不同氨基酸片段比例Fig.1 Difference of AAPcomposition in Bcipep and Swiss-Port database
Bayes編碼缺少氨基酸對(duì)結(jié)構(gòu)信息,文獻(xiàn)[7]中氨基酸對(duì)抗原性量的思想是對(duì)氨基酸對(duì)的一種表示,將其引入到貝葉斯特征提取中,使用滑動(dòng)窗口將肽鏈序列分割成氨基酸對(duì),并對(duì)氨基酸對(duì)進(jìn)行加權(quán),提出了基于氨基酸對(duì)量表加權(quán)的貝葉斯特征提取方法.
假設(shè)肽鏈序列S={s1,s2,…,sn},sj(j=1,2,…,n)表示肽鏈序列中第j個(gè)位置的氨基酸s,肽鏈序列S屬于表位或非表位,符號(hào)C1表示表位,C-1表示非表位,表1給出三條肽鏈樣本.根據(jù)公式有:其中:表示Ci數(shù)據(jù)中第j個(gè)位置上是氨基酸s的概率;P(Ci)表示所有肽鏈序列數(shù)據(jù)中Ci數(shù)據(jù)的概率;P(sj)表示在所有肽鏈序列數(shù)據(jù)中第j個(gè)位置上是氨基酸s的概率,Psj表示序列S上第j個(gè)位置的貝葉斯編碼.
表1 三條肽鏈樣本Tab.1 Three peptide chains samples
AAP作為一種最簡(jiǎn)單的氨基酸組合模式和結(jié)構(gòu),包含了相鄰氨基酸相互之間的信息,文獻(xiàn)[4]利用同種AAP在表位數(shù)據(jù)和非表位數(shù)據(jù)中的頻率比值作為該AAP的抗原性量表,使用滑動(dòng)窗口方式得到AAP編碼RAAP,將窗口長(zhǎng)度設(shè)為2,從頭到尾每次向后滑動(dòng)一個(gè)氨基酸,由此可得:
本文提出的改進(jìn)貝葉斯特征提取方法基于氨基酸對(duì)量表加權(quán),采用獨(dú)立隨機(jī)變量的方法去除氨基酸對(duì)量表中出現(xiàn)的冗余問題.改進(jìn)后貝葉斯方法不僅包含單個(gè)氨基酸與分類結(jié)果的關(guān)系,還考慮到氨基酸之間的關(guān)系,通過增加特征提取所包含的肽鏈信息提高了預(yù)測(cè)的準(zhǔn)確率.
使用改進(jìn)的貝葉斯特征提取方法并結(jié)合SVM分類器用于線性B細(xì)胞表位的預(yù)測(cè),步驟如下.
1)準(zhǔn)備數(shù)據(jù)集,包括表位和非表位數(shù)據(jù)集,使用El-Manzalawy和Saha數(shù)據(jù)集,將兩組數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集,使用五折交叉驗(yàn)證法生成五組對(duì)應(yīng)的訓(xùn)練集和測(cè)試集.
2)特征提取和編碼,對(duì)兩組數(shù)據(jù)的訓(xùn)練集進(jìn)行特征提取,使用加權(quán)貝葉斯特征提取方法對(duì)數(shù)據(jù)集編碼,包括訓(xùn)練集和測(cè)試集數(shù)據(jù).
3)訓(xùn)練分類器,本文使用SVM作為分類器,使用第二步中已編碼的訓(xùn)練集數(shù)據(jù)作為SVM的輸入進(jìn)行訓(xùn)練,訓(xùn)練過程完成SVM參數(shù)的確定.
4)分類器預(yù)測(cè),SVM參數(shù)確定之后,將第二步中已編碼的測(cè)試集數(shù)據(jù)作為分類器的輸入,得到分類器對(duì)測(cè)試集的結(jié)果.
5)重復(fù)步驟3)、4),使用五組數(shù)據(jù)中的訓(xùn)練集,并用訓(xùn)練好的分類器測(cè)試相應(yīng)的測(cè)試集數(shù)據(jù).
用于線性B細(xì)胞表位預(yù)測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集較多,bcipep數(shù)據(jù)庫[8]是專門收集B細(xì)胞表位數(shù)據(jù)的網(wǎng)上公用數(shù)據(jù)庫,為了更準(zhǔn)確地進(jìn)行測(cè)試,本文使用與文獻(xiàn)[6]相同的數(shù)據(jù)集,引用El-Manzalawy和J.Chen已整理的數(shù)據(jù)集.
1)由El-Manzalawy[9]從bcipep數(shù)據(jù)庫中的947條表位數(shù)據(jù)中整理的數(shù)據(jù)集,使用“延伸-截尾”方法得到(30、28、26、24、22、20、18、16、14、12)長(zhǎng)度的701條表位數(shù)據(jù)集.?dāng)?shù)據(jù)下載地址:http://ailab.cs.iastate.edu/bcpreds/.
2)J.Chen等[4]從bcipep數(shù)據(jù)庫中獲得并處理得到的固定長(zhǎng)度為20的數(shù)據(jù),使用“延伸-截尾”方法得到(20、18、16、14、12、10)長(zhǎng)度的872條表位數(shù)據(jù)集.?dāng)?shù)據(jù)下載地址:http://link.springer.com/article/10.1007%2Fs00726-006-0485-9.
El-Manzalawy和S.Saha數(shù)據(jù)雖然都來自統(tǒng)一數(shù)據(jù)庫,由于處理方式、篩選尺度的不同,數(shù)據(jù)集仍存在較大的差別,多篇文獻(xiàn)也同時(shí)引用兩個(gè)數(shù)據(jù)集作為試驗(yàn)數(shù)據(jù)集.
3)從Swiss-Prot數(shù)據(jù)庫中隨機(jī)生成的固定長(zhǎng)度的多肽作為非表位數(shù)據(jù).
SVM常用的核函數(shù)四種,憑經(jīng)驗(yàn)選擇RBF作為核函數(shù).本文使用的SVM來自于Chang[10]編寫的libsvm工具箱.為了提高實(shí)驗(yàn)效果,采用libsvm自帶的網(wǎng)格搜索算法尋找C和σ2的最優(yōu)組合.
采用五折交叉驗(yàn)證法,將實(shí)驗(yàn)數(shù)據(jù)分為5個(gè)子集,每次把1個(gè)子集作為測(cè)試集,其余的4個(gè)子集作為訓(xùn)練集,每一個(gè)子集都被測(cè)試過1次,訓(xùn)練過4次,最后將5次結(jié)果的平均值作為實(shí)際的實(shí)驗(yàn)結(jié)果.
使用的幾個(gè)評(píng)價(jià)指標(biāo)包括特異性、敏感性、準(zhǔn)確率、MCC(Mattew相關(guān)系數(shù))、AUC(受試者工作特征曲線下的面積).Rsen反映的是靈敏度,即真實(shí)表位被預(yù)測(cè)為表位的比率;Rspe反映的是特異性,即非表位被預(yù)測(cè)為非表位的比率;Racc反映的是準(zhǔn)確率,即能夠被正確預(yù)測(cè)的表位和非表位的比率;Rpos反映的是陽性預(yù)測(cè)率,即被預(yù)測(cè)為表位中真實(shí)表位所占的比率;Mattew相關(guān)系數(shù)是一個(gè)性能綜合評(píng)價(jià)指標(biāo),其中,真陽性(TP)實(shí)際為正樣本被正確地預(yù)測(cè)為正樣本的樣本數(shù);假陽性(FP)實(shí)際為負(fù)樣本被錯(cuò)誤地預(yù)測(cè)為正樣本的樣本數(shù);真陰性(TN)實(shí)際為負(fù)樣本被正確地預(yù)測(cè)為負(fù)樣本的樣本數(shù);假陰性(FN)實(shí)際為正樣本被錯(cuò)誤地預(yù)測(cè)為負(fù)樣本的樣本數(shù).AUC值為ROC曲線下的面積,AUC越接近于1,說明效果越好.這些參數(shù)具體為:
敏感度:Rsen=TP/(TP+FN)×100% 特異度:Rspe=TN/(TN+FP)×100%
精確度:Racc=(TP+TN)/(TP+FP+TN+FN)×100% 陽性預(yù)測(cè)率:Rpos=TP/(TP+FP)×100%
文獻(xiàn)[4]中的貝葉斯特征提取方法對(duì)數(shù)據(jù)提取的貝葉斯編碼中包含了訓(xùn)練集和測(cè)試集的信息,僅提取訓(xùn)練集數(shù)據(jù)的信息,對(duì)AAP編碼也僅提取訓(xùn)練集數(shù)據(jù)信息.在兩個(gè)數(shù)據(jù)集上將加權(quán)貝葉斯特征提取方法,與貝葉斯特征提取方法作對(duì)比.
表2、3是在El-Manzalawy數(shù)據(jù)集上使用貝葉斯特征提取方法,加權(quán)貝葉斯方法在不同長(zhǎng)度窗口(12、14、16、18、20、22、24、26、28、30)下的參數(shù),由于都是采用SVM訓(xùn)練分類器來進(jìn)行分類,因此分類效果的區(qū)別主要來自特征提取方法,可以看出改進(jìn)的貝葉斯方法除了特異度以外,在其他指標(biāo)上整體參數(shù)均有提升.當(dāng)窗口長(zhǎng)度大于20時(shí)提升更加明顯,在窗口長(zhǎng)度為26、28、30時(shí)準(zhǔn)確率的提升達(dá)到了10個(gè)百分點(diǎn).需要強(qiáng)調(diào)的是目前90%的表位數(shù)據(jù)長(zhǎng)度都在20以下,數(shù)據(jù)集中長(zhǎng)度大于20的表位數(shù)據(jù)都是利用源數(shù)據(jù)擴(kuò)展得來,但是在一定程度上也表現(xiàn)出數(shù)據(jù)的性質(zhì),因此采用了大于20長(zhǎng)度的表位數(shù)據(jù)集(22、24、26、28、30).
表4、5是在Saha數(shù)據(jù)集上對(duì)貝葉斯特征提取方法和加權(quán)貝葉斯特征提取方法的比較,從表中可以看出,在Saha數(shù)據(jù)集上,各個(gè)長(zhǎng)度的數(shù)據(jù)的實(shí)驗(yàn)結(jié)構(gòu)相比貝葉斯方法改進(jìn)后有較大的提升.20為肽鏈的經(jīng)典長(zhǎng)度,在該長(zhǎng)度下將兩個(gè)數(shù)據(jù)集的兩種特征提取方法繪制ROC曲線(圖2).從圖2可以看出,在El-Manzalawy數(shù)據(jù)集上,由于改進(jìn)前方法的特異度高于改進(jìn)之后的特異度值,兩條ROC曲線的AUC值并無太大差異;在Saha數(shù)據(jù)集上,改進(jìn)后方法的敏感度和特異度均優(yōu)于改進(jìn)前方法,可以看出ROC曲線下的AUC值有明顯提升.
表2 貝葉斯特征提取在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.2 Using Bayes feature extraction in El-Manzalawy dataset
表3 加權(quán)貝葉斯特征提取在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.3 Using weighted Bayes feature extraction in El-Manzalawy dataset
表4 貝葉斯特征提取在Saha數(shù)據(jù)集上的參數(shù)Tab.4 Using Bayes feature extraction in Saha dataset
表5 加權(quán)貝葉斯特征提取在Saha數(shù)據(jù)集上的參數(shù)Tab.5 Using weighted Bayes feature extraction in Saha dataset
目前預(yù)測(cè)線性B細(xì)胞表位的方法較多,所提取的特征也不盡相同,但總體預(yù)測(cè)效果差不多.AAP方法是一種常用的線性B細(xì)胞表位預(yù)測(cè)方法,該方法以氨基酸對(duì)作為特征提取的基本單位.為了進(jìn)一步說明本文提出方法的有效性,下面給出本文提出方法與AAP方法的對(duì)比實(shí)驗(yàn),為了避免數(shù)據(jù)人工處理帶來的誤差,這里取長(zhǎng)度為20的表位數(shù)據(jù)在前面所述兩個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn)比對(duì).
圖2 El-Manzalawy,Saha數(shù)據(jù)集的兩種貝葉斯特征提取方法ROC曲線Fig.2 Both bayes and weighted bayes feature extraction ROC on El-Manzalawy,Saha dataset
通過兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可以看出,AAP方法的敏感度(Rsen)比貝葉斯方法高,這說明此類特征能更準(zhǔn)確描述表位數(shù)據(jù),而加權(quán)貝葉斯方法中的敏感度高于兩種方法,表明加權(quán)貝葉斯方法在描述表位數(shù)據(jù)上更加有效;特異度(Rspe)一定程度上受到敏感度的影響,使得加權(quán)貝葉斯方法在特異度上數(shù)值有所降低,由于表位數(shù)據(jù)來源于真實(shí)數(shù)據(jù),而非表位數(shù)據(jù)是從數(shù)據(jù)庫中隨機(jī)生成,這也影響了非表位數(shù)據(jù)的精度和實(shí)驗(yàn)結(jié)果;準(zhǔn)確率反映了整體的預(yù)測(cè)精度,加權(quán)貝葉斯方法相比其他兩種方法表現(xiàn)出了較好精度.從表6、7的結(jié)果可知,相比AAP算法,加權(quán)貝葉斯算法有更好的性能效果.
表6 貝葉斯,加權(quán)貝葉斯,AAP提取方式在El-Manzalawy數(shù)據(jù)集上的參數(shù)Tab.6 Using Bayes,w -Bayes,AAP feature extraction in El-Manzalawy dataset
表7 貝葉斯,加權(quán)貝葉斯,AAP提取方式在Saha數(shù)據(jù)集上的參數(shù)Tab.7 Using Bayes,w -Bayes,AAP feature extraction in Saha dataset
對(duì)線性B細(xì)胞表位的預(yù)測(cè)是一個(gè)重要的問題,而特征提取是問題的重心所在.針對(duì)特征提取提出了一種基于氨基酸對(duì)量表加權(quán)的貝葉斯特征提取方法.在對(duì)氨基酸序列的特征提取上考慮了結(jié)構(gòu)的特征,把一種AAP量表引入到貝葉斯特征提取上來,根據(jù)對(duì)El-Manzalawy和Saha數(shù)據(jù)集的實(shí)驗(yàn),該方法能夠提高貝葉斯特征提取方法的預(yù)測(cè)精度.今后的研究工作重點(diǎn)是如何將改進(jìn)貝葉斯的特征提取方法應(yīng)用到線性B細(xì)胞表位的預(yù)測(cè)中去.