趙 南, 張 梁, 薛 衛(wèi)*, 王雄飛, 任守綱
(1.南京農(nóng)業(yè)大學 信息科學技術學院,江蘇 南京210095;2.江南大學 糧食發(fā)酵工藝與技術國家工程實驗室,江蘇 無錫214122)
詞袋模型在蛋白質亞細胞定位預測中的應用
趙 南1, 張 梁2, 薛 衛(wèi)*1, 王雄飛1, 任守綱1
(1.南京農(nóng)業(yè)大學 信息科學技術學院,江蘇 南京210095;2.江南大學 糧食發(fā)酵工藝與技術國家工程實驗室,江蘇 無錫214122)
運用詞袋模型結合傳統(tǒng)的蛋白質特征提取算法提取蛋白質序列特征,采用K-means算法構建字典,計算獲得蛋白質序列的詞袋特征,最終將提取的特征值送入SVM多類分類器,對數(shù)據(jù)集中蛋白質的亞細胞位置進行預測,在一定程度上提高了亞細胞定位預測的準確率。
詞袋模型;K-means;支持向量機;亞細胞定位預測
人類對生命科學的研究因計算機技術的蓬勃發(fā)展發(fā)生了巨大變化,自從進入后基因組時代,人類獲得了大規(guī)模的核酸和蛋白質序列數(shù)據(jù),借助先進高效的計算機自動化數(shù)據(jù)處理技術[1]從這些海量數(shù)據(jù)中挖掘有效信息成為必然趨勢。國內(nèi)外學者在以往的研究中,主要采用數(shù)學方法描述提取的蛋白質序列特征信息,用高維的特征向量表示蛋白質序列,然后設計使用高效的分類器進行預測分析。
目前,用于蛋白質序列特征提取的算法主要包括:氨基酸組成(AAC)、氨基酸的物化特性、二肽及多肽組成、偽氨基酸組成(PseAAC)以及不同特征的融合等[2-6]。如Lin等[4]的蛋白質亞細胞定位預測研究采用了四肽信息;楊會芳等[5]在預測蛋白質亞細胞定位中采用了分段偽氨基酸的特征提取方法;Gao等[6]通過尋找蛋白質不同結構與物化特性的最佳組合來區(qū)分外膜蛋白。同時,在預測算法的設計方面國內(nèi)外研究者開展了大量工作,統(tǒng)計學和機器學習方法在已有的預測算法中得到了充分應用,如陳穎麗等[7]在6類細胞凋亡蛋白的亞細胞定位研究中使用了離散增量結合支持向量機的方法;還有基于人工神經(jīng)網(wǎng)絡、馬爾可夫模型和貝葉斯網(wǎng)絡等的分類預測方法[8-9]。
總結前人研究成果不難發(fā)現(xiàn),單純采用傳統(tǒng)的蛋白質序列特征提取算法如AAC等,進行特征提取并送入分類器進行定位預測的準確率偏低。為了改善這一問題,作者引入詞袋模型 (Bag of Words Model,簡稱BOW模型),BOW模型源自文檔處理領域,也被廣泛應用于圖像分類方法中。不考慮語法和詞序,收集所有文檔中出現(xiàn)過的單詞,形成一本字典,然后統(tǒng)計獲得文檔中出現(xiàn)過的單詞及其出現(xiàn)的頻率[10],將文檔表示成高維的向量。作者使用詞袋模型完成序列信息的提取,實驗證明結合使用BOW模型與傳統(tǒng)序列特征提取算法AAC和PseAAC完成蛋白質序列特征的提取,并使用支持向量機分類方法進行定位預測,能有效提高識別精度。
1.1 數(shù)據(jù)集
采用兩個凋亡蛋白數(shù)據(jù)集,第一個數(shù)據(jù)集由Zhou和Doctor[11]構建,該數(shù)據(jù)集包含98條凋亡蛋白質序列,分為四個亞細胞定位類別,分別是43個細胞質蛋白、30個膜蛋白、13個線粒體蛋白和12個其它類蛋白;第二個數(shù)據(jù)集是由Chen和Li[12]構建,該數(shù)據(jù)集包含317條蛋白質序列,總共有6個亞細胞定位類別,分別是112個細胞質蛋白、55個膜蛋白、34個線粒體蛋白、17個分泌蛋白、52個細胞核蛋白和47個內(nèi)質網(wǎng)蛋白。這兩個數(shù)據(jù)集的蛋白質序列均從SWISS-PROT數(shù)據(jù)庫獲得。
1.2 蛋白質序列的詞袋特征
BOW模型描述文檔的方法是用D表示一個存在的文檔集合,由M個文檔組成,提取M個文檔中出現(xiàn)過的單詞,假設不同的單詞個數(shù)為N,由這N個單詞構成字典,則每一個文檔都可以被表示成一個N維的向量[13]。同理,一個蛋白數(shù)據(jù)集包含若干條蛋白質序列,連續(xù)選取每一條蛋白質序列的若干個片段,稱這樣的片段為序列單詞,分別采用傳統(tǒng)的序列特征提取算法AAC和PseAAC統(tǒng)計序列單詞的氨基酸組分信息和位置信息,用向量表示,稱這樣的向量為序列單詞特征;然后采用K-means聚類算法對所有的序列單詞特征進行聚類分析,聚類分析之后所得到的所有聚類中心的集合,稱為字典,字典的大小由聚類中心的個數(shù)k決定,所有的序列單詞特征將映射到字典中的各個聚類中心;逐一統(tǒng)計每一條蛋白質序列屬于各個聚類中心的序列單詞個數(shù),從而繪制出每一條蛋白質序列的序列單詞直方圖,計算各個聚類中心上序列單詞個數(shù)占該條蛋白質序列序列單詞總數(shù)的比例即可得到蛋白質序列的詞袋特征,則每一條蛋白質序列都可以用一個k維向量來表示。此方法主要分為5個步驟:
1)分割數(shù)據(jù)集中所有的蛋白質序列產(chǎn)生若干個序列單詞;
2)提取序列單詞的序列單詞特征;
3)對序列單詞特征進行聚類分析,獲得字典,字典大小為聚類中心個數(shù)k;
4)經(jīng)聚類分析后序列單詞特征被映射到字典中的各個聚類中心,統(tǒng)計每一條蛋白質序列屬于各個聚類中心的序列單詞個數(shù),獲得蛋白質序列的序列單詞直方圖;
5)對每一條蛋白質序列計算各個聚類中心上序列單詞個數(shù)占該條蛋白質序列序列單詞總數(shù)的比例,從而獲得蛋白質序列的詞袋特征,每一條蛋白質序列被表示成一個k維的向量。
詞袋特征提取過程見圖1。
1.2.1 序列單詞特征提取 提取特征前對蛋白質序列進行分割處理,分割蛋白質序列可采用均勻分割和滑動窗口分割。均勻分割法是把每條蛋白質序列均勻分割為多個序列單詞,得到的大量序列單詞的集合構成構建字典的基礎?;瑒哟翱诜椒▌t每間隔一定數(shù)量截取窗口內(nèi)的蛋白質序列片段作為一個序列單詞,設定不同的間隔字符個數(shù)和窗口大小可以得到不同長度的序列單詞。
圖1 詞袋特征提取過程Fig.1 Bag of words feature extraction process
主要采用滑動窗口分割法,從序列的N端到C端每次滑動間隔固定為1,窗口大小決定序列單詞的長度,選取方法如下:
其中L1,L2,…,Ln表示數(shù)據(jù)集中所有蛋白質序列的長度,L為數(shù)據(jù)集中最短蛋白質序列的長度,d為滑動窗口大小,即序列單詞長度在與L之間選取。
分割后統(tǒng)計序列單詞的組分信息和位置信息,運用BOW模型結合已有的AAC和PseAAC算法,采用兩種統(tǒng)計方法,分別稱為BOW_AAC和BOW_PseAAC。
設序列單詞P為:
其中R1R2R3R4R5表示序列單詞P的第一到第五個氨基酸殘基,以此類推,RL表示序列單詞P的最后一個氨基酸殘基。
1)BOW_AAC序列單詞特征提?。篜的氨基酸組分信息定義如公式(3)[2]所示:
f1f2…f20的計算用公式(4)求解:
其中,fu(u=1,2,3,…,20)表示20種氨基酸在序列單詞中出現(xiàn)的頻率,L表示一個序列單詞的長度,N表示一個序列單詞包含的所有氨基酸殘基的總數(shù)目,A(u)表示序號u所對應的氨基酸殘基。經(jīng)過統(tǒng)計計算,所有的序列單詞都可以用一個20維的向量表示,從而獲得所有蛋白質序列的序列單詞特征。
2)BOW_PseAAC序列單詞特征提?。杭僭O序列單詞有L個氨基酸殘基,表示同公式(2),任意一個氨基酸殘基在同一個序列單詞中與其他氨基酸殘基存在不同程度的相關作用,用序列相關因子定義氨基酸殘基之間的相關性[14],定義如公式(5)[15]所示:
其中,θ1表示第一級相關因子,反映序列單詞中相鄰兩個氨基酸殘基之間的相關性;θ2表示第二級相關因子,反映序列單詞中每間隔一個氨基酸殘基的兩個氨基酸殘基之間的相關性;θ3表示第三級相關因子,反映序列單詞中每間隔兩個殘基的兩個氨基酸殘基之間的相關性;以此類推。Ci,j是根據(jù)氨
基酸殘基的疏水性、親水性和側鏈分子量構建的相關函數(shù),定義如公式(6)[15]所示:
其中,H1(Rj)表示Rj的疏水性值,H1(Ri)表示Ri的疏水性值;H2(Rj)表示Rj的親水性值,H2(Ri)表示Ri的親水性值;M(Rj)表示Rj的側鏈原子量,M(Ri)表示Ri的側鏈原子量。然后序列單詞特征可表示為:
其中
λ表示選取的相關因子類型數(shù)目,fi表示序列單詞中第i種氨基酸出現(xiàn)的頻率,w表示序列順序效應的權重因子,θj表示序列單詞中第j級序列相關因子。
1.2.2 構建字典 得到序列單詞特征之后,下一步即是對這些特征值進行處理,用K-means聚類算法構建字典,聚類中心的個數(shù)即為字典的大小。核心思想是按照類內(nèi)方差和最小的原則將n個序列單詞特征值分為指定的k類,k的選取方法為:
即聚類中心個數(shù)從20開始逐一遞增選取,結合序列單詞長度d的選取,可以找到一組(d,k)使獲得的詞袋特征具有最高的識別精度。而類內(nèi)方差和最小的定義如公式(10)[16]所示:
其中,Si(i=1,2,…,k)表示聚類中心位置是μi的第i個聚類類別,xj為屬于聚類類別Si的特征值。利用K-means聚類算法構建字典的過程描述如下:
輸入:DS:n個序列單詞特征值組成的數(shù)據(jù)集合,k:聚類中心的個數(shù)。
輸出:k個聚類中心的集合即字典。
算法:
1)從DS中任意選取k個序列單詞特征值作為初始聚類中心;
2)計算每個序列單詞特征值與各聚類中心的距離,按照最近距離原則將n個特征值分配到以k個初始中心為代表的聚類類別中;
3)根據(jù)步驟2得到的結果對新產(chǎn)生的k個類別進行中心計算,得到新的聚類中心;
4)重復步驟2~3,直至達到終止條件,如聚類中心不再變化或者已達到最大迭代次數(shù)等。
1.3 支持向量機
支持向量機(SVM)擁有堅實的理論基礎,并且數(shù)學模型簡單明了,在解決高維模式識別問題中具有泛化能力強、分類效率高等優(yōu)點[17]。借助林智仁等開發(fā)設計的LIBSVM工具箱用一對一法構造SVM多類分類器,為任意兩類樣本設計一個SVM,當存在一個未知樣本需要分類時,它的類別取得票最多的那個類別?;谶@樣的SVM分類實驗,在提取出蛋白質序列的詞袋特征之后,主要是選取最佳懲罰參數(shù)c和核函數(shù)參數(shù)g的問題,作者通過交叉驗證選擇最佳參數(shù),調用工具箱中的SVMcgForClass函數(shù)將c和g劃分網(wǎng)格進行搜索,最佳參數(shù)是達到最高驗證分類準確率時最小參數(shù)c對應的那組c和g,如果存在多組g對應最小參數(shù)c,則最佳參數(shù)是搜索到的第一組c和g。然后將訓練樣本(Ci,yi)送入分類器,向量Ci表示第i組訓練樣本的詞袋特征值,yi表示該條蛋白質序列所對應的亞細胞位置,最后送入測試樣本并統(tǒng)計預測結果。
為了檢驗方法的預測性能,采用Jackknife檢驗,每次僅從數(shù)據(jù)集中選取一條蛋白質序列構成測試集,訓練集由剩余的蛋白質序列構成,測試次數(shù)等于數(shù)據(jù)集的大小,這種檢驗方法具有最小的任意性,是一種客觀有效的交叉驗證方法[18]。最后將本文方法BOW_AAC_SVM和BOW_PseAAC_SVM在98和317數(shù)據(jù)集上的預測結果列于表1-2。為了方便比較,將運用傳統(tǒng)蛋白質序列特征提取算法氨基酸組成(AAC)和偽氨基酸組成(PseAAC)進行特征提取并送入SVM分類器得到的預測成功率一并列出,如表中AAC_SVM和PseAAC_SVM兩行所示,同時在表 1的第一行列出了 G.P.ZHOU和K.DOCTOR[11]利用氨基酸組成提取特征值以及采用Jackknife進行檢驗的實驗結果。
從表1可以看出,在98數(shù)據(jù)集上直接采用AAC、PseAAC特征提取算法的總體預測精度分別是80.2%和83.3%,用BOW模型結合AAC、PseAAC提取的特征值的總體識別精度達到了90.6%和91.7%,分別提高了10.4%和8.4%,對于每一個亞細胞類,也都有不同程度的提高,在傳統(tǒng)方法預測成功率較低的Mitochondrial和Other亞細胞類上最高提升了23%~25%,尤其在最后一個亞細胞類上將AAC_CCA方法的預測成功率由 25%提高到了83.3%。通過表2的比較發(fā)現(xiàn),運用BOW模型的總體預測精度也比傳統(tǒng)方法高出6.7%和6.9%,在各個亞細胞類上也都有不同程度的提高,在Nuclear亞細胞類上分別提升了15.7%和11.8%,在Secreted上比傳統(tǒng)方法高出23.6%。
表1 98數(shù)據(jù)集結果比較Table 1 Comparison of the results of 98 data sets
表2 317數(shù)據(jù)集結果比較Table 2 Comparison of the results of 317 data sets
作者引入詞袋模型應用于蛋白質亞細胞定位預測中,主要技術包括:蛋白質序列分割——滑動窗口法,用來獲得大量序列單詞的集合,作為構建字典的基礎;序列單詞特征提取——BOW_AAC與BOW_PseAAC,運用詞袋模型結合傳統(tǒng)的蛋白質特征提取算法統(tǒng)計蛋白質序列的氨基酸組分信息和位置信息;構建字典——Kmeans算法,對所有的序列單詞特征進行聚類分析處理,再通過統(tǒng)計計算獲得蛋白質序列的詞袋特征;亞細胞定位預測——SVM多類分類器,對數(shù)據(jù)集中蛋白的亞細胞位置進行預測。預測準確率較傳統(tǒng)的蛋白質序列特征提取算法有所提升,最高達到了91.7%,尤其在傳統(tǒng)方法預測準確率較低的亞細胞類上識別精度明顯提高,如在98數(shù)據(jù)集other這一亞細胞分類上,預測成功率提高了25%,在317數(shù)據(jù)集Secreted這一亞細胞分類上,預測成功率也提高了20%以上,對準確預測未知蛋白質的亞細胞位置具有重要作用。此次在特征提取方面做了研究工作并取得了一些成果,接下來將在滑動窗口大小和聚類中心個數(shù)的選取方法上做一些改進,并嘗試在預測算法設計方面做一些工作,重點關注集成學習以及深度學習等。
[1]QIAO Shanping,YAN Baoqiang.The research review of protein subcellular localization prediction[J].Application Research of Computers,2014,31(2):321-327.(in Chinese)
[2]CHOU Kuochen.Some remarks on protein attribute prediction and pseudo amino acid composition[J].Journal of Theoretical Biology,2011,273(1):236-247.
[3]FAN Guoliang,LI Qianzhong.Predictingprotein submitochondrialocations by combining different descriptors into the general form of Chou’s pseudo amino acid composition[J].Amino Acids,2012,43(2):545-555.
[4]LIN Hao,CHEN Wei,YUAN Lufeng,et al.Using over-represented tetrapeptides to predict protein submitochondria locations[J]. Acta Biotheoretica,2013,61(2):259-268.
[5]YANG Huifang,CHENG Yongmei,ZHANG Shaowu,et al.Based on the pseudo amino acid composition feature extractionmethod to predict protein subcellular localization[J].Acta Biophysica Sinica,2008,24(3):232-238.(in Chinese)
[6]GAO Qingbin,YE Xiaofei,JIN Zhichao,et al.Improving discrimination of outer membrane proteins by fusing different forms of pseudo amino acid composition[J].Analytical Biochemistry,2009,398(1):52-59.
[7]CHEN Yingli,LI Qianzhong,YANG Keli,et al.Based on the discrete incremental support vector machine method of apoptosis protein subcellular location prediction[J].Acta Biophysica Sinica,2007,23(3):192-198.(in Chinese)
[8]ZOU Lingyun,WANG Zhengzhi,HUANG Jiaomin.Prediction of subcellular localization of eukaryotic proteins using position-specific profiles and neural network with weighted inputs[J].Journal of Genetics and Genomics,2007,34(12):1080-1087.
[9]ZHANG Shubo,LAI Jianhuang.Machine learning-based prediction of subcellular localization for protein[J].Computer Science,2009,36(4):29-33,49.(in Chinese)
[10]ZHAO Chunhui,WANG Ying,Masahide KANEKO.An optimized method for image classification based on bag of words model [J].Journal of Electronics&Information Technology,2012,34(9):2064-2070.(in Chinese)
[11]ZHOU Guoping,DOCTOR Kutbuddin.Subcellular location prediction of apoptosis proteins[J].Proteins,2002,50(1):44-48.
[12]CHEN Yingli,LI Qianzhong.Prediction of the subcellular location of apoptosis proteins[J].Journal of Theoretical Biology,2006,245(4):775-783.
[13]YANG Quan,PENG Jinye.Chinese sign language recognition research using SIFT-BoW and depth image information[J]. Computer Science,2014,41(2):302-307.(in Chinese)
[14]MA Junwei,GAO Xinzhong,ZHANG Jie.Study on the sequence encoding method of protein subcellular location prediction[J]. Computer Science,2012,39(11A):283-287,312.(in Chinese)
[15]CHOU Kuochen.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[16]LEI Xiaofeng,XIE Kunqing,LIN Fan.An efficient clustering algorithm based on local optimality of K-Means[J].Journal of Software,2008,19(7):1683-1692.(in Chinese)
[17]GU Yaxiang,DING Shifei.Advances of support vector machines[J].Computer Science,2011,38(2):14-17.(in Chinese)
[18]WANG Wei,ZHENG Xiaoqi,DOU Yongchao,et al.Prediction of protein subcellular location using optimal cleavage site[J]. Bioinformatics,2011,9(2):171-175,180.(in Chinese)
Application of Bag of Words Model in the Prediction of Protein Subcellular Location
ZHAO Nan1, ZHANG Liang2, XUE Wei*1, WANG Xiongfei1, REN Shougang1
(1.School of Information Science and Technology,Nanjing Agricultural University,Nanjing 210095,China;2. National Engineering Laboratory for Cereal Fermention Technology,Jiangnan University,Wuxi 214122,China)
Predecessors have done a lot of work in the feature extraction of protein and subcellular localization prediction.Previous studies showed that prediction accuracy obtained by traditional feature extraction algorithm is low.In order to improve accuracy,bag of words model combined with traditional protein features extraction algorithm is used to extract feature of protein sequence in this study.Firstly,K-means algorithm is used to construct feature dictionary.Then bag of words features of protein sequences are counted by dictionary.Finally extracted feature is inputted into SVM classifier to forecast the protein subcellular location.Results showed that predictionaccuracy of subcellular localization has been improved.
bag of words model,K-means,support vector machine,subcellular localization prediction
TP 391.4
A
1673—1689(2017)03—0296—06
2015-03-10
中央高?;究蒲袠I(yè)務費專項資金項目(KYZ201668);江蘇省自然科學基金項目(BK2012363,BK2011153);江蘇省博士后科研計劃項目(1302038B)。
*通信作者:薛 衛(wèi)(1979—),男,江蘇南通人,理學博士,副教授,碩士研究生導師,主要從事生物信息、模式識別方面的研究。
E-mail:xwsky@njau.edu.cn
趙南,張梁,薛衛(wèi),等.詞袋模型在蛋白質亞細胞定位預測中的應用[J].食品與生物技術學報,2017,36(03):296-301.