王藝皓,丁洪偉,李 波,保利勇,張穎婕
(云南大學(xué)信息學(xué)院,昆明 650500)
(?通信作者電子郵箱893885847@qq.com)
隨著蛋白質(zhì)組學(xué)、基因組學(xué)等領(lǐng)域研究[1]的快速發(fā)展,大量的生物基因信息被不斷挖掘,海量實(shí)驗(yàn)累積的蛋白質(zhì)數(shù)量更是呈指數(shù)式增長(zhǎng),傳統(tǒng)的實(shí)驗(yàn)方法耗時(shí)費(fèi)力,已經(jīng)難以滿足蛋白質(zhì)定位研究的需要,因此需要通過(guò)生物信息學(xué)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。
近年來(lái),基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位算法[2-7]已經(jīng)取得了突破性的進(jìn)展:Wang 等[2]針對(duì)革蘭氏陽(yáng)性和革蘭氏陰性細(xì)菌蛋白提出了兩種有效的多標(biāo)記預(yù)測(cè)因子,并通過(guò)集成學(xué)習(xí)的方式進(jìn)一步優(yōu)化了分類(lèi)器性能;Wan 等[3]提出了一種mGOASVM(multi-label protein subcellular localization based on Gene Ontology and Support Vector Machines)算法,該算法將基因本體(Gene Ontology,GO)術(shù)語(yǔ)出現(xiàn)頻率引入特征向量的表達(dá),并采用多位點(diǎn)支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè),最終在Virus proteins和Plant proteins數(shù)據(jù)集上分別取得了88.9%和87.4%的實(shí)際準(zhǔn)確率;Wan 等[5]結(jié)合了GO 術(shù)語(yǔ)出現(xiàn)的頻率與其詞之間的語(yǔ)義相似性,提出了一種HybridGO-Loc(mining Hybrid features on Gene Ontology for predicting subcellular Localization of multi-location proteins)算法,該算法分別在Virus proteins和Plant proteins數(shù)據(jù)集上取得了93.7%和93.6%的實(shí)際準(zhǔn)確率。綜上所述,傳統(tǒng)機(jī)器學(xué)習(xí)方法應(yīng)用于提高蛋白質(zhì)定位預(yù)測(cè)的準(zhǔn)確性已經(jīng)取得了相當(dāng)多的成就,但大多數(shù)的傳統(tǒng)機(jī)器學(xué)習(xí)方法仍需通過(guò)手工操作來(lái)表示特征,而深度學(xué)習(xí)的出現(xiàn)良好地解決了這個(gè)問(wèn)題。
與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)能夠通過(guò)多層次深度網(wǎng)絡(luò)結(jié)構(gòu)從輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)良好的特征表示。經(jīng)典的深度學(xué)習(xí)框架主要有深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[8]、堆棧式自編碼器(Stacked AutoEncoder,SAE)[9]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[10]等。由于深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力和泛化能力,近幾年已經(jīng)開(kāi)始逐漸應(yīng)用于生物信息學(xué)領(lǐng)域[11-14]中。例如:Wen 等[11]利用DBN 提出了一種用于預(yù)測(cè)藥物-靶標(biāo)之間的相互作用的深度學(xué)習(xí)算法——DeepDTIs(Deep learning-based Drug-Target Interaction prediction),該算法性能超過(guò)了當(dāng)時(shí)最先進(jìn)的傳統(tǒng)機(jī)器學(xué)習(xí)算法;Alipanahi等[12]基于CNN 提出了一種稱為DeepBind的深度學(xué)習(xí)算法,該算法用于預(yù)測(cè)DNA和RNA結(jié)合蛋白的序列特異性,取得了不錯(cuò)的效果;Liu 等[13]結(jié)合支持向量機(jī)和深度神經(jīng)網(wǎng)絡(luò)提出了一種用于蛋白質(zhì)折疊識(shí)別的算法——DeepSVMfold,該算法取得了明顯優(yōu)于其他傳統(tǒng)機(jī)器學(xué)習(xí)算法的性能表現(xiàn)。隨著越來(lái)越多的研究者們將注意力轉(zhuǎn)移到深度學(xué)習(xí)的應(yīng)用研究中,大量新穎有效的深度學(xué)習(xí)算法不斷涌現(xiàn),這也為蛋白質(zhì)亞細(xì)胞的定位預(yù)測(cè)研究工作提供了一定的便利條件。
張穎婕[7]基于特征融合和集成學(xué)習(xí)的思想,結(jié)合了偽氨基酸組成法(Pseudo-Amino Acid Composition,PseAAC)、偽位置特異性得分矩陣(Pseudo Position Specific Scoring Matrix,PsePSSM)和三肽組成三種特征提取方式,然后通過(guò)主成分分析法(Principal Components Analysis,PCA)降維,最后輸入集成SVM 分類(lèi)器完成了蛋白質(zhì)定位預(yù)測(cè)任務(wù)。雖然文獻(xiàn)[7]取得了較好的預(yù)測(cè)準(zhǔn)確率,但是也帶來(lái)了以下幾個(gè)問(wèn)題。
首先,采用PCA 對(duì)融合后的特征向量進(jìn)行降維處理,雖然可以有效剔除冗余信息并避免維度災(zāi)難帶來(lái)的影響,但同時(shí)它也會(huì)帶來(lái)一些消極影響:1)對(duì)于主成分的解釋往往具有一定的模糊性,進(jìn)而導(dǎo)致降維后的特征表示可能與原始數(shù)據(jù)有所差異;2)某些主成分雖然貢獻(xiàn)率小,但是它們往往包含了關(guān)于樣本差異的重要信息,特別是像蛋白質(zhì)這樣的不平衡數(shù)據(jù)集;3)PCA作為無(wú)監(jiān)督學(xué)習(xí)算法,仍需通過(guò)手工操作來(lái)確定主成分和表示特征。
其次,集成支持向量機(jī)的使用,雖然在一定程度上提高了預(yù)測(cè)準(zhǔn)確率,但同時(shí)它也增加了算法復(fù)雜度。
本文針對(duì)以上問(wèn)題,對(duì)特征提取模型和分類(lèi)器進(jìn)行了改進(jìn)和優(yōu)化。首先對(duì)PseAAC 和三聯(lián)體編碼法(Conjoint Traid,CT)進(jìn)行了改進(jìn),進(jìn)一步豐富了特征融合后的蛋白質(zhì)序列表征模型;接著將融合后的特征向量輸入到本文構(gòu)造好的堆棧式降噪自編碼器(Stacked Denoising AutoEncoder,SDAE)深度網(wǎng)絡(luò),SDAE 網(wǎng)絡(luò)可以進(jìn)一步深入學(xué)習(xí)到表達(dá)能力更強(qiáng)、泛化能力更好、更接近真實(shí)數(shù)據(jù)的特征表示,避免了PCA 降維對(duì)蛋白質(zhì)序列表征模型產(chǎn)生的消極影響;然后輸入Softmax 回歸分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè),這降低了算法的復(fù)雜度;最后采用留一法分別在Virus proteins 和Plant proteins 數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證,并將實(shí)驗(yàn)結(jié)果與其他現(xiàn)有算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,本文提出的新方法能夠有效提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的準(zhǔn)確性。
Chou[15]提出了偽氨基酸組分(PseAAC)方法,在氨基酸組分法(Amino Acid Composition,AAC)的基礎(chǔ)上引入了λ 階相關(guān)因子更好地表達(dá)序列信息。傳統(tǒng)的PseAAC 模型僅考慮了疏水性、親水性和側(cè)鏈分子量三種理化特征,本文在此基礎(chǔ)上增加了極性、極化率、溶劑化自由能、曲線形狀指數(shù)、轉(zhuǎn)移自由能、氨基酸組分、回歸分析相關(guān)系數(shù)、殘基可及表面、分配系數(shù)、氨基酸邊鏈體積、表面區(qū)域溶解能力、網(wǎng)絡(luò)負(fù)荷指數(shù)共12種氨基酸理化性質(zhì),構(gòu)造了一種包含15 種氨基酸理化性質(zhì)的改進(jìn)型PseAAC模型。
根據(jù)改進(jìn)型PseAAC模型,每條蛋白質(zhì)序列可以表示為:
其中每個(gè)元素pu可由式(2)求出:
其中:fu表示每種氨基酸在蛋白質(zhì)序列中出現(xiàn)的概率;ω 是權(quán)重因子,本文默認(rèn)取0.05;γj表示j個(gè)緊鄰相關(guān)因子,反映了不同氨基酸之間的順序信息,可由式(3)求得:
Ji,i+k稱為相關(guān)函數(shù),其定義為:
其中H(Ri)由式(5)求得:
其中:h0(Ri)為氨基酸Ri對(duì)應(yīng)理化性質(zhì)的原始特征值為對(duì)應(yīng)理化性質(zhì)下20種氨基酸原始特征值的平均值,ν(h0)表示其對(duì)應(yīng)的方差。
由于λ 的取值會(huì)影響最終分類(lèi)預(yù)測(cè)的結(jié)果,故要通過(guò)實(shí)驗(yàn)選取最佳參數(shù)。實(shí)驗(yàn)中λ 分別取1~30,輸入支持向量機(jī)在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用留一法對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),通過(guò)比較得出,當(dāng)λ=15時(shí)預(yù)測(cè)準(zhǔn)確率達(dá)到最高。因此,通過(guò)改進(jìn)型PseAAC,一條蛋白質(zhì)序列可以轉(zhuǎn)化為一個(gè)35維的特征向量。
Jones[16]提出了位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM),該方法充分考慮了氨基酸的序列進(jìn)化信息。本文選用了PSI-BLAST[17]來(lái)獲取PSSM 矩陣,設(shè)置閾值為0.001,最大迭代次數(shù)為3,選取NCBI 的非冗余蛋白質(zhì)數(shù)據(jù)庫(kù)(non-redundant,nr)[18]作為對(duì)比,其下載網(wǎng)址為ftp://ftp.ncbi.nih.gov/blast/db/nr。由此可以獲得一個(gè)L × 20 的PSSM矩陣,即:
由于不同蛋白質(zhì)序列的長(zhǎng)度L 是不同的,故需要將不同蛋白質(zhì)序列的PSSM 矩陣轉(zhuǎn)化為維度相同的矩陣。從PSSM矩陣中提取氨基酸組分(AAC)則得到了PSSM-AAC模型,即:
Shen 等[20]提出了三聯(lián)體編碼方式(CT)用于預(yù)測(cè)蛋白質(zhì)相互作用的工作中,該方法考慮了蛋白質(zhì)序列中相鄰氨基酸分子之間的相互作用。氨基酸的分類(lèi)依據(jù)決定了三聯(lián)體的構(gòu)成方式,與按照親疏水性劃分為6 類(lèi)[7]不同,本文根據(jù)偶極性和側(cè)鏈體積將20 種氨基酸重新劃分成7 類(lèi),接著再引入緊鄰三聯(lián)體,將連續(xù)的三個(gè)氨基酸看作是一種三聯(lián)體結(jié)構(gòu),故可得三聯(lián)體共有343(7×7×7)種構(gòu)成方式。由CT 可得,每條蛋白質(zhì)序列有343 個(gè)特征因子fi。由于fi的大小與蛋白質(zhì)序列的長(zhǎng)度成正比關(guān)系,而且不同的蛋白質(zhì)序列長(zhǎng)度相差較大,故要進(jìn)行歸一化處理,引入以下定義:
其中:si表示標(biāo)準(zhǔn)化后的特征向量,且si∈[0,1]。接下來(lái)將蛋白質(zhì)對(duì)的兩條序列串聯(lián)起來(lái)以表示其相互作用信息:
其中DA和DB表示蛋白質(zhì)對(duì)的兩條序列。綜上可得,每條蛋白質(zhì)序列可以轉(zhuǎn)為343(7×7×7)維的特征向量表示,即:
在企業(yè)績(jī)效管理工作的開(kāi)展中,最終目的都是將企業(yè)績(jī)效管理工作的開(kāi)展提升整體企業(yè)業(yè)績(jī)開(kāi)展能力,并且在企業(yè)業(yè)績(jī)開(kāi)展能力的提升過(guò)程中,能夠?qū)?duì)應(yīng)的績(jī)效管理工作和對(duì)應(yīng)的績(jī)效管理因素協(xié)調(diào)好。保障了績(jī)效管理因素控制關(guān)系的協(xié)調(diào)性建設(shè),同時(shí)按照這種績(jī)效管理因素的考核實(shí)施來(lái)看,在石油裝備企業(yè)的建設(shè)和管理中,要想保障HU績(jī)效考核管理體系建設(shè)能夠滿足石油裝備企業(yè)的自身性績(jī)效管理工作開(kāi)展需求,對(duì)應(yīng)的石油裝備企業(yè)績(jī)效考核管理者,應(yīng)該在績(jī)效考核管理工作的開(kāi)展中,將對(duì)應(yīng)的績(jī)效考核管理工作與激勵(lì)制度的建設(shè)結(jié)合在一起,這樣不僅能夠調(diào)動(dòng)企業(yè)員工的工作積極性,同時(shí)也能夠提升績(jī)效考核管理效率,保障了企業(yè)的科學(xué)化績(jī)效管理。
本文基于多特征融合的思想,將改進(jìn)型PseAAC、PsePSSM 和三聯(lián)體編碼法三種特征提取方式結(jié)合,構(gòu)成了一種全新的蛋白質(zhì)序列特征提取模型。融合之后的蛋白質(zhì)序列信息可由式(16)表達(dá):
將數(shù)值代入之后,每條蛋白質(zhì)序列可以轉(zhuǎn)化為458(35+80+343)維特征向量表示。
堆棧式降噪自編碼器(SDAE)[21]是由多個(gè)降噪自編碼器(Denoising AutoEncoder,DAE)逐層連接而成的一種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通常主要包括兩個(gè)過(guò)程:無(wú)監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)。預(yù)訓(xùn)練過(guò)程會(huì)以無(wú)監(jiān)督方式逐層學(xué)習(xí)深層特征并初始化深度網(wǎng)絡(luò)的參數(shù),同時(shí)它會(huì)使用反向傳播算法以微調(diào)的監(jiān)督方式進(jìn)一步優(yōu)化預(yù)訓(xùn)練過(guò)程生成的參數(shù),從而提升模型性能。因此,SDAE 具有良好的學(xué)習(xí)能力和泛化能力。SDAE模型架構(gòu)如圖1所示。
圖1 SDAE模型架構(gòu)Fig.1 Model architecture of SDAE
自編碼器(Auto Encoder,AE)是一種無(wú)監(jiān)督表征學(xué)習(xí)的高效深度神經(jīng)網(wǎng)絡(luò),本文默認(rèn)輸出層與輸入層參數(shù)相同。AE由編碼器和解碼器組成。假設(shè)AE輸入特征向量其中dx表示輸入的維數(shù),編碼器通過(guò)以下映射函數(shù)h將x從輸入層投影到隱藏層y ∈Rdy:
其中:W 表示dy× dx權(quán)重矩陣表示映射到隱藏層對(duì)應(yīng)的向量維度)表示偏差向量。本文選取ReLU(Rectified Linear Unit)函數(shù)作為激活函數(shù)af。
在解碼器中,隱藏層y 通過(guò)以下映射函數(shù)h*映射到輸出層
在AE 中,每個(gè)輸入特征向量xi通過(guò)函數(shù)h 映射到隱藏層yi,再通過(guò)函數(shù)h*映射到輸出層輸出重構(gòu)向量。為了使重構(gòu)輸出與輸入x 盡可能相似,本文選取ReLU 函數(shù)作為隱藏層的激活函數(shù)af,選取Softplus 函數(shù)作為重構(gòu)層的激活函數(shù),同時(shí)引入以下均方誤差:
其中:α 為噪聲污染維度重構(gòu)代價(jià)權(quán)重,β 為無(wú)噪聲污染維度重構(gòu)權(quán)重。
本文在此基礎(chǔ)上,提出了一種堆棧式降噪自編碼器(SDAE)用在蛋白質(zhì)定位預(yù)測(cè)任務(wù)中。SDAE 訓(xùn)練過(guò)程如圖2所示。
圖2 SDAE訓(xùn)練流程Fig.2 Training flow chart of SDAE
如圖2 所示,SDAE 主要進(jìn)行兩個(gè)步驟,分別是無(wú)監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)。在預(yù)訓(xùn)練中,對(duì)于首個(gè)DAE 按照最小化重構(gòu)誤差原則將輸入的原始特征向量映射到第一個(gè)隱藏層,訓(xùn)練完首個(gè)DAE后得到參數(shù){W1,b1},接著將第一個(gè)隱藏層的輸出會(huì)作為第二個(gè)隱藏層的輸入,繼續(xù)訓(xùn)練第二個(gè)DAE 得到參數(shù){W2,b2}。以這樣的方式來(lái)對(duì)整個(gè)SDAE 層進(jìn)行逐層預(yù)訓(xùn)練,直到得到最后一個(gè)DAE 層。在無(wú)監(jiān)督預(yù)訓(xùn)練之后,通過(guò)預(yù)訓(xùn)練得到的權(quán)重參數(shù){Wk,bk}(k=1,2,…,K)來(lái)初始化每個(gè)隱藏層的權(quán)重,然后通過(guò)反向傳播對(duì)整個(gè)深度網(wǎng)絡(luò)進(jìn)行微調(diào),通過(guò)最小化目標(biāo)變量的預(yù)測(cè)誤差來(lái)獲得更新權(quán)重,k=1,2,…,K。其反向傳播函數(shù)定義如下:
其中:rj表示第j條蛋白質(zhì)序列標(biāo)記值表示其預(yù)測(cè)值。SDAE深度網(wǎng)絡(luò)最后一層選用Softmax 回歸函數(shù)進(jìn)行分類(lèi)。本文SDAE算法采用DeepLearing Tutorials 軟件包在Matlab2018a中實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境為Intel Core i7-9750H CPU 2.90 GHz 16.0 GB。
目前,常用于模型性能檢測(cè)的主要方法有獨(dú)立性檢驗(yàn)、自相容檢驗(yàn)、K 折交叉驗(yàn)證和留一法(leave-one-out cross validation)等。其中,留一法由于其客觀公正的特點(diǎn),被廣泛應(yīng)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)模型的性能評(píng)估工作當(dāng)中[23]。故本文選取留一法對(duì)模型性能進(jìn)行評(píng)估。對(duì)于評(píng)估指標(biāo),本文采用生物信息學(xué)中最常用的5個(gè)指標(biāo)[24]來(lái)對(duì)模型性能進(jìn)行全方位的評(píng)估:
本文選用數(shù)據(jù)集來(lái)自被研究者們廣泛認(rèn)可和使用的Plant proteins、Viral proteins 兩個(gè)數(shù)據(jù)集(可以從http://www.csbio.sjtu.edu.cn/bioinf/下載):數(shù)據(jù)集Plant proteins 共包括1 055 條蛋白質(zhì)序列,涉及12 個(gè)亞細(xì)胞位點(diǎn)標(biāo)簽;數(shù)據(jù)集Viral proteins 共包含252 條蛋白質(zhì)序列,涉及6 個(gè)亞細(xì)胞位點(diǎn)標(biāo)簽。數(shù)據(jù)集的詳細(xì)信息如表1所示。
在Plant proteins 和Viral proteins 兩個(gè)數(shù)據(jù)集中,同時(shí)擁有大量的單位點(diǎn)蛋白和多位點(diǎn)蛋白,適用于本文對(duì)于蛋白質(zhì)亞細(xì)胞的多標(biāo)簽分類(lèi)預(yù)測(cè)的研究。其具體位點(diǎn)分布情況如表2所示。
表1 實(shí)驗(yàn)中使用的Viral proteins和Plant proteins數(shù)據(jù)集Tab.1 Viral proteins and Plant proteins datasets used in the experiment
表2 Viral proteins和Plant proteins數(shù)據(jù)集中蛋白質(zhì)序列位點(diǎn)分布情況Tab.2 Distribution of protein sequence sites in Viral proteins and Plant proteins datasets
4.2.1 特征提取算法性能分析
首先在Viral proteins 和Plant proteins 數(shù)據(jù)集上分別用改進(jìn)型PseAAC、PsePSSM、三聯(lián)體編碼法、多特征融合法和本文提出的新方法進(jìn)行實(shí)驗(yàn)并使用留一法進(jìn)行驗(yàn)證,其實(shí)驗(yàn)結(jié)果如表3所示。
從表3可以看出,多特征融合法由于結(jié)合了前三種特征提取方法構(gòu)造了更為豐富的蛋白質(zhì)序列表征模型,其分類(lèi)預(yù)測(cè)結(jié)果在各項(xiàng)指標(biāo)上完全碾壓其他三種單一特征提取方法。多特征融合法與三種單一特征提取方法中表現(xiàn)最好的改進(jìn)型PseAAC 相比,其Coverage、Aiming、Accuracy 和Absolute True均提升了6個(gè)百分點(diǎn)以上,同時(shí)Absolute False降低了1個(gè)百分點(diǎn)左右。同時(shí)可以看出,本文方法由于加入了堆棧式降噪自編碼深度(SDAE)網(wǎng)絡(luò)進(jìn)一步篩選并提取了更加魯棒和真實(shí)的特征表示,其實(shí)驗(yàn)各項(xiàng)指標(biāo)相對(duì)多特征融合法來(lái)講又有了大幅度的提升。對(duì)于Viral proteins數(shù)據(jù)集,本文方法和多特征融合法相比,前者的Coverage、Aiming、Accuracy 和Absolute True 分別比后者高出了4.1、4.91、0.94 和1.6 個(gè)百分點(diǎn),而Absolute False 降低了0.58 個(gè)百分點(diǎn);對(duì)于Plant proteins 數(shù)據(jù)集,本文方法的Coverage、Aiming、Accuracy 和Absolute True 分別比多特征融合法提高了4.25、5.75、1.51和3.93個(gè)百分點(diǎn),而Absolute False 降低了1.27個(gè)百分點(diǎn)。綜上所述,本文方法可以有效提高多位點(diǎn)亞細(xì)胞分類(lèi)預(yù)測(cè)的準(zhǔn)確性。
表3 不同方法在Viral proteins數(shù)據(jù)集和Plant proteins數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.3 Comparison of experimental results of different methods on Viral proteins dataset and Plant proteins dataset unit:%
4.2.2 分類(lèi)器性能分析
本節(jié)主要對(duì)目前用于多位點(diǎn)亞細(xì)胞定位任務(wù)四種表現(xiàn)較好的分類(lèi)器進(jìn)行了實(shí)驗(yàn)和對(duì)比。這四種分類(lèi)器分別為:樸素貝葉斯(Naive Bayesian,NB)、SVM、隨機(jī)森林(Random Forests,RF)以及Softmax 回歸。首先將SDAE 網(wǎng)絡(luò)得到的特征向量分別輸入NB、SVM、RF 和Softmax 回歸分類(lèi)器中,采用留一法在Viral proteins 和Plant proteins 兩個(gè)數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證。其中,NB和RF均采用默認(rèn)參數(shù);SVM 中的核函數(shù)選擇高斯核函數(shù)。實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3 可以看出,在Viral proteins 數(shù)據(jù)集上,NB、SVM、RF分別取得了91.2%、93.7%和96%的整體準(zhǔn)確率,而本文所選用的Softmax回歸分類(lèi)器取得了98.2%的整體準(zhǔn)確率,相比前三種分類(lèi)算法分別提高了7、4.5 和2.2 個(gè)百分點(diǎn);而在Plant proteins 數(shù)據(jù)集上,NB、SVM、RF 分別取得了89.5%、92.9%和95.2%的整體準(zhǔn)確率,本文所選用的Softmax 回歸分類(lèi)器取得了97.6%的整體準(zhǔn)確率,相比前三種分類(lèi)算法分別提高了8.1、4.7 和2.4 個(gè)百分點(diǎn)。綜上所述,本文所選用的Softmax回歸分類(lèi)器分類(lèi)效果最好。
圖3 在兩個(gè)數(shù)據(jù)集上四種分類(lèi)算法的預(yù)測(cè)結(jié)果對(duì)比Fig.3 Comparison of prediction results of four classification algorithms on two datasets
4.2.3 與其他算法比較
接下來(lái)將本文方法所取得的實(shí)驗(yàn)結(jié)果與其他現(xiàn)有算法模型取得的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,均采用留一法進(jìn)行測(cè)試。先依次對(duì)各位點(diǎn)標(biāo)簽所取得的預(yù)測(cè)結(jié)果進(jìn)行分析比較,在Viral proteins數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果如表4所示。
表4 Viral proteins數(shù)據(jù)集上不同方法性能的比較結(jié)果單位:%Tab.4 Performance comparison of different methods on Viral proteins dataset unit:%
由表4 可以看出,本文所提新方法與iLoc-Virus、KNNSVM、mGOASVM 算法的實(shí)驗(yàn)結(jié)果相比,均有較明顯的提高。特別是與文獻(xiàn)[7]算法相比,本文方法在Host cell membrane、Host cytoplasm、Host nucleus 和Host endoplasmic reticulum 位點(diǎn)上的預(yù)測(cè)準(zhǔn)確率均有不同程度的提升,說(shuō)明了本文在特征融合后引入SDAE 深度網(wǎng)絡(luò)的有效性和科學(xué)性。為了進(jìn)一步驗(yàn)證新方法的優(yōu)越性,將預(yù)測(cè)結(jié)果與現(xiàn)有算法中表現(xiàn)較好的mGOASVM 和文獻(xiàn)[7]算法進(jìn)一步進(jìn)行比較,其詳細(xì)對(duì)比結(jié)果如表5所示。
表5 Viral proteins數(shù)據(jù)集上三種方法的實(shí)驗(yàn)性能對(duì)比 單位:%Tab.5 Comparison of the experimental performance of three methods on Viral proteins dataset unit:%
由表5 可得,在Viral proteins 數(shù)據(jù)集上,本文方法與mGOASVM 算法相比,前者的Coverage、Aiming、Accuracy 和Absolute True 分別比后者提高了2、4.3、4.4 和6.8 個(gè)百分點(diǎn),其Absolute False 降低了1.7 個(gè)百分點(diǎn),可以看出整體提升幅度還是蠻大的;進(jìn)一步分析,本文方法與文獻(xiàn)[7]相比,其Coverage、Aiming、Accuracy 和Absolute True 分別提升了0.2、1.2、1.5 和2.6 個(gè)百分點(diǎn),而Absolute False 降低了0.5 個(gè)百分點(diǎn),可以發(fā)現(xiàn)整體提升效果還是很明顯的。綜上可得,本文方法在數(shù)據(jù)集Viral proteins上表現(xiàn)出了良好的分類(lèi)預(yù)測(cè)性能。
為了進(jìn)一步驗(yàn)證本文方法的優(yōu)越性,繼續(xù)在數(shù)據(jù)集Plant proteins 上進(jìn)行實(shí)驗(yàn)分析,將各位點(diǎn)標(biāo)簽上得到的預(yù)測(cè)結(jié)果與其他現(xiàn)有算法模型取得的實(shí)驗(yàn)結(jié)果進(jìn)行比較,其對(duì)比結(jié)果如表6 所示。由表6 可知,與傳統(tǒng)的蛋白質(zhì)定位算法iLoc-Plant相比,本文方法在蛋白質(zhì)各位點(diǎn)標(biāo)簽上的預(yù)測(cè)準(zhǔn)確率有顯著的提升。而相較于mGOASVM 和HybridGO-Loc 這兩種算法,本文方法除了在Cell wall proteins 和Mitochondrion proteins 位點(diǎn)的預(yù)測(cè)準(zhǔn)確率稍有下降以外,其他位點(diǎn)的預(yù)測(cè)準(zhǔn)確率均有一定程度的提高;與文獻(xiàn)[7]算法相比,本文方法除了在Nucleus proteins 位點(diǎn)預(yù)測(cè)準(zhǔn)確率稍有下降,其他位點(diǎn)的預(yù)測(cè)準(zhǔn)確率都基本提升和持平。特別的,本文方法在Extracell proteins、Peroxisome proteins、Plastid proteins 和 Vacuole proteins 位點(diǎn)上取得了100%的預(yù)測(cè)準(zhǔn)確率。由于這四種方法各位點(diǎn)亞細(xì)胞預(yù)測(cè)準(zhǔn)確率較為接近,為了進(jìn)一步驗(yàn)證本文方法的有效性,接下來(lái)引入多標(biāo)簽預(yù)測(cè)評(píng)估指標(biāo),對(duì)四種方法進(jìn)一步分析比較,其詳細(xì)對(duì)比結(jié)果如表7所示。
表6 Plant proteins數(shù)據(jù)集上不同方法性能的比較結(jié)果 單位:%Tab.6 Performance comparison of different methods on Plant proteins dataset unit:%
表7 Plant proteins數(shù)據(jù)集上四種方法的實(shí)驗(yàn)性能對(duì)比 單位:%Tab.7 Comparison of the experimental performance of four methods on Plant proteins dataset unit:%
由表7 可知,在Plant proteins 數(shù)據(jù)集上,HybridGO-Loc 算法的分類(lèi)預(yù)測(cè)效果明顯要優(yōu)于mGOASVM 和文獻(xiàn)[7]算法,故本文方法與三種算法中相對(duì)表現(xiàn)更好的HybridGO-Loc 算法相比,其Coverage、Aiming、Accuracy 和Absolute True 分別提升了1.5、0.7、0.9 和3.6 個(gè)百分點(diǎn),而Absolute False 降低了0.2個(gè)百分點(diǎn)。進(jìn)一步分析,本文方法與文獻(xiàn)[7]方法相比,雖然其Coverage 略有下降,但其他指標(biāo)均有明顯改善,其Aiming、Accuracy 和Absolute True 分別提升了1.8、1.5 和7.1 個(gè)百分點(diǎn),而Absolute False 降低了0.6個(gè)百分點(diǎn),這再一次證明了本文方法優(yōu)化策略的有效性和科學(xué)性。綜上所述,本文方法能有效提高多位點(diǎn)亞細(xì)胞定位的預(yù)測(cè)效果。
本文提出了一種基于深度學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)新方法。首先,分別通過(guò)改進(jìn)型PseAAC、PsePSSM 和三聯(lián)體編碼法對(duì)蛋白質(zhì)序列信息進(jìn)行特征提取,并將三種方法提取的特征向量進(jìn)行融合,構(gòu)造了一種全新的蛋白質(zhì)序列信息表達(dá)模型,該模型不僅包含了蛋白質(zhì)序列中氨基酸的理化性質(zhì)、頻率信息和順序信息,還充分考慮了氨基酸之間的進(jìn)化信息以及相互作用,進(jìn)一步豐富了蛋白質(zhì)序列表達(dá)信息;接著,將融合后的特征向量輸入SDAE 深度網(wǎng)絡(luò),通過(guò)預(yù)訓(xùn)練和微調(diào)的方式得到最優(yōu)的深度學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)并提取更加魯棒、真實(shí)的特征表示信息;然后,輸入Softmax 回歸分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè);最后,采用留一法在Virus proteins 和Plant proteins 數(shù)據(jù)集上進(jìn)行交叉驗(yàn)證。通過(guò)將實(shí)驗(yàn)結(jié)果與多種現(xiàn)有算法進(jìn)行比較,充分證明了新方法可以有效提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的準(zhǔn)確性。下一步將繼續(xù)擴(kuò)大數(shù)據(jù)集,在此基礎(chǔ)上豐富蛋白質(zhì)序列表征模型,并對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行優(yōu)化,進(jìn)一步提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的準(zhǔn)確性。