国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)相互作用預(yù)測模型

2021-08-02 03:47:12安計勇閆子驥
計算機技術(shù)與發(fā)展 2021年7期
關(guān)鍵詞:標(biāo)簽準(zhǔn)確率聚類

安計勇,閆子驥

(1.中國礦業(yè)大學(xué) 礦山數(shù)字化教育部工程研究中心,江蘇 徐州 221000;2.中國礦業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221000)

0 引 言

在機器學(xué)習(xí)領(lǐng)域中,根據(jù)訓(xùn)練集中有標(biāo)簽和無標(biāo)簽樣本的數(shù)量,可以將機器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)[1]、無監(jiān)督學(xué)習(xí)[2]和半監(jiān)督學(xué)習(xí)[3-4]。有監(jiān)督學(xué)習(xí)訓(xùn)練集只包含有標(biāo)簽樣本,根據(jù)有標(biāo)簽樣本集訓(xùn)練模型,用訓(xùn)練好的模型預(yù)測無標(biāo)簽樣本的標(biāo)簽類別;無監(jiān)督學(xué)習(xí)訓(xùn)練集只包含無標(biāo)簽樣本,根據(jù)樣本間的內(nèi)在聯(lián)系,判定樣本的標(biāo)簽類別。有監(jiān)督學(xué)習(xí)要得到好的訓(xùn)練模型,通常需要足夠多的有標(biāo)簽樣本數(shù)據(jù),但實際上有標(biāo)簽樣本數(shù)據(jù)的獲取通常會耗費大量的人力、物力及財力,需要付出昂貴的成本。但現(xiàn)實中大量存在的無標(biāo)簽樣本數(shù)據(jù),則相對容易獲取。將有標(biāo)簽樣本和無標(biāo)簽樣本有效結(jié)合來獲取更好的分類效果,是當(dāng)前機器學(xué)習(xí)領(lǐng)域迫切的研究內(nèi)容。由于半監(jiān)督學(xué)習(xí)的訓(xùn)練集不僅包含有標(biāo)簽樣本,而且包含無標(biāo)簽樣本,學(xué)習(xí)過程中能夠同時利用少量的有標(biāo)簽樣本與大量的無標(biāo)簽樣本,能夠有效地融合兩者所蘊含的信息,因此現(xiàn)實中,針對有標(biāo)簽樣本較少,無標(biāo)簽樣本大量存在的數(shù)據(jù)集的分類,通常采用半監(jiān)督分類算法。

該文提出的半監(jiān)督預(yù)測模型主要針對如下問題:

(1)基于有監(jiān)督學(xué)習(xí)的預(yù)測模型在預(yù)測過程中存在以下缺陷:一是過分依賴訓(xùn)練集中有標(biāo)簽樣本的數(shù)量,導(dǎo)致分類精度受有標(biāo)簽樣本數(shù)量多少的制約;二是其預(yù)測分類一次完成,導(dǎo)致大量的無標(biāo)簽樣本無法用來修正分類器的預(yù)測精度,大量數(shù)據(jù)信息被浪費,從而影響分類性能。

(2)采用生物實驗方法獲取有標(biāo)簽的蛋白質(zhì)相互作用樣本既耗時、費力且成本較高,因此,在蛋白質(zhì)相互作用預(yù)測領(lǐng)域同樣存在有標(biāo)簽數(shù)據(jù)少且獲取難,無標(biāo)簽數(shù)據(jù)容易獲取的現(xiàn)實問題,如M.musculus、H.pylori和H.sapiens三個數(shù)據(jù)集。

基于以上分析,該文提出一種基于AP聚類與Renyi熵融合的自訓(xùn)練半監(jiān)督相關(guān)向量機分類預(yù)測模型。該模型通過AP聚類分析與Renyi熵來共同標(biāo)記無標(biāo)簽樣本的標(biāo)簽類別,篩選置信度高的無標(biāo)簽樣本擴充原有訓(xùn)練集進行自訓(xùn)練迭代分類,降低了噪聲數(shù)據(jù)對分類器預(yù)測精度的影響,構(gòu)造出了性能最優(yōu)的基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)相互作用分類預(yù)測模型。

1 模型相關(guān)理論介紹

1.1 相關(guān)向量機

相關(guān)向量機(relevance vector machine,RVM)以貝葉斯概率為框架,是一種基于稀疏貝葉斯理論的核函數(shù)學(xué)習(xí)方法[5-6],其訓(xùn)練是在貝葉斯框架下進行的,在先驗參數(shù)的結(jié)構(gòu)下基于主動相關(guān)決策理論(automatic relevance determination,ARD)來移除不相關(guān)的點,從而獲得稀疏化的模型[7-8]。

RVM分類算法的數(shù)學(xué)模型基本形式如下:

(1)

(2)

P(w|t,μ)∝P(t|w)P(w|a)

(3)

由于分類算法中P(t|w)不是標(biāo)準(zhǔn)的正態(tài)分布,所以無法求解定積分,但是可以用拉普拉斯方法近似地逼近:

固定μ,求出w的最大值:

(5)

上式中,yi=σ{y(xn;w)},A=diag(μ0,μ1,…,μN)。

(1)采用Laplace方法,對公式(5)兩次求導(dǎo)可以得到如下公式:

g=▽wlog{P(t|w)P(w|μ)}=

?T(t-y)-Aw

(6)

H=▽w▽wlog{P(t|w)P(w|μ)}=

(-?TB?-A)-1

(7)

?w=-H-1g

(8)

wMP=wMP+▽w

(9)

(2)計算權(quán)重w的后驗概率:

(10)

其中,

Σ=(?TB?+A)-1,wMP=∑?TBtv

(11)

公式中,

B=diag(β1,β2,…,βm),

βi=σ[y(xi)]{1-σ[y(xi)]}

(12)

(3)聯(lián)合公式(11)、(12)和公式(13)更新超參數(shù)μ。

(13)

其中,迭代公式如公式(14)所示。

(14)

訓(xùn)練預(yù)測完成后,RVM分類器會得到一系列取值為0到1之間的概率預(yù)測值,根據(jù)這些預(yù)測值對全部數(shù)據(jù)可進行識別判斷。

1.2 AP聚類

Affinity Propagation (AP)[9-11]聚類是一種根據(jù)數(shù)據(jù)對象之間的相似度自動進行聚類的方法,隸屬于劃分聚類方法的一種。AP算法有兩個重要的消息Responsibility和Availability。R(i,k)描述了數(shù)據(jù)對象k適合作為數(shù)據(jù)對象i聚類中心的程度,表示的是從i到k的消息;A(i,k)描述了數(shù)據(jù)對象i選擇數(shù)據(jù)對象k作為它聚類中心的適合程度,表示從k到i的消息。R(i,k)與A(i,k)越大,那么數(shù)據(jù)對象k就越有可能作為聚類的中心。AP算法就是不斷迭代更新每一個數(shù)據(jù)對象的吸引度和歸屬度,直到迭代一定的次數(shù),產(chǎn)生m個高質(zhì)量的聚類中心,同時將其余數(shù)據(jù)對象分配到相應(yīng)的聚類中。

AP聚類算法在數(shù)據(jù)點的相似度矩陣上進行聚類。因為聚類的目標(biāo)是使數(shù)據(jù)點與其類代表點之間的距離達到最小化,因此選用歐氏距離作為相似度的測量標(biāo)準(zhǔn),即任意兩個點xi和xj之間的相似度為:

s(i,k)=-d2(xi,xj)=-‖xi-xj‖2,i=k

(15)

AP算法執(zhí)行步驟如下:

Step1:計算相似度矩陣S;Preference賦值;

Step2:計算數(shù)據(jù)對象之間的Responsibility值:

(16)

Step3:計算數(shù)據(jù)對象之間的Availability值:

(17)

(18)

Step4:基于如下數(shù)學(xué)描述更新Responsibility和Availability的值:

λ∈[0.5,1]

(19)

λ∈[0.5,1]

(20)

ai+1(k,k)=p(k)-max[ai+1(k,j)+si+1(k,j)],

j∈[1,2,…,N],j≠k

(21)

Step5:當(dāng)?shù)螖?shù)超過最大值或聚類中心不再發(fā)生改變時算法結(jié)束,輸出類中心和每個類包含的數(shù)據(jù)點;否則返回Step2。

1.3 Renyi熵(Entropy of Information and Renyi)

在信息論中,熵用來表示平均信息量,Shannon提出的熵定義為Shannon熵,如下式所示:

對于公路企業(yè)而言,在實踐過程中還需要合理配置專業(yè)的操作人員和維護人員,要求相關(guān)的人員能夠了解設(shè)備的構(gòu)造性能,操作規(guī)程以及養(yǎng)護知識內(nèi)容,同時要根據(jù)規(guī)則以及流程使用設(shè)備,及時對設(shè)備的運行狀態(tài)進行檢修,發(fā)現(xiàn)問題時需要及時排除,保證每個環(huán)節(jié)都處于正常狀態(tài)[4]。

(22)

式中,P(i)是概率密度函數(shù),作為熵的一種,Shannon熵滿足如下性質(zhì):

(1)H是連續(xù)的;

(3)H是遞增的。

而Renyi熵滿足以上條件中的第1條和第2條,所以Renyi熵是Shannon的廣義形式[12-13],如下式所示:

(23)

與Shannon熵相比較可以得知,由于Renyi熵具有一個可調(diào)節(jié)參數(shù)α,因此它通常能夠靈活地度量信息量,并且當(dāng)α→1的時候,R(A)→H(A)。

2 基于AP聚類與Renyi熵融合的自訓(xùn)練半監(jiān)督相關(guān)向量機分類預(yù)測模型

該文提出的基于AP聚類與Renyi熵融合的自訓(xùn)練半監(jiān)督相關(guān)向量機分類預(yù)測模型技術(shù)路線如圖1所示。

圖1 基于AP聚類與Renyi熵的自訓(xùn)練半監(jiān)督RVM分類預(yù)測模型技術(shù)路線圖

模型算法執(zhí)行步驟如下:

Setp1:將數(shù)據(jù)集的有標(biāo)簽樣本和無標(biāo)簽樣本一起進行AP聚類分析,根據(jù)AP聚類分類結(jié)果初步確定無標(biāo)簽樣本的標(biāo)簽類別。確定無標(biāo)簽樣本的標(biāo)簽類別采用如下方法:

(24)

則該類別中的無標(biāo)簽樣本分配與有標(biāo)簽樣本一樣的標(biāo)簽類別。這里τ是調(diào)節(jié)因子,為了確定最佳的τ值,將全部有標(biāo)簽樣本作為實驗數(shù)據(jù)集,即有標(biāo)簽樣本數(shù)據(jù)集的20%作為有標(biāo)記樣本,剩余的80%假定為無標(biāo)記樣本。全部數(shù)據(jù)集進行AP聚類,基于公式(24)判斷無標(biāo)簽樣本的所屬類別,從而得出AP聚類的預(yù)測準(zhǔn)確率。實驗中,三個數(shù)據(jù)集M.musculus、H.pylori和H.sapiens的最佳τ值分別為0.82、0.63和0.58。

Step2:將有標(biāo)簽樣本作為訓(xùn)練集,采用相關(guān)向量機作為預(yù)測分類器,進行無標(biāo)簽樣本的標(biāo)簽識別,得到無標(biāo)簽樣本所屬類別的概率值。

Step3:判斷是否滿足迭代結(jié)束條件,是,轉(zhuǎn)到Step6,否,轉(zhuǎn)到Step4。

Step4:根據(jù)Step2得到的類別概率值,通常將概率值最大的類別標(biāo)記為該樣本的最終識別類別。但是,許多無標(biāo)簽樣本預(yù)測出的類別概率值幾乎相同,差別很小,如果單從概率值來判定無標(biāo)簽樣本的最終類別,往往會造成錯判和漏判,從而生成噪聲數(shù)據(jù),影響自訓(xùn)練半監(jiān)督分類器的預(yù)測性能。該文通過采用AP聚類與Renyi熵融合的方法來共同決定無標(biāo)簽樣本的標(biāo)簽類別。由于蛋白質(zhì)相互作用數(shù)據(jù)樣本存在較大的類別不確定性,因此標(biāo)簽的分配一定程度上就是對不確定性的度量。而Renyi熵是一種穩(wěn)定的熵度量方法,對混雜或具有不規(guī)則碎片形狀的非可加性系統(tǒng)提供更佳的解釋,而這一點能夠滿足蛋白質(zhì)相互作用樣本數(shù)據(jù)的特征需要,所以采用Renyi熵能夠更好地對蛋白質(zhì)相互作用樣本進行度量。由于二次Renyi熵比較穩(wěn)定,而且計算量小,容易實現(xiàn),因此該文采用二次Renyi熵作為樣本類別不確定性的度量。二次Renyi熵數(shù)學(xué)描述如下:

(25)

其中,p(xi)是蛋白質(zhì)序列對的預(yù)測概率值。為了防止線性回歸算法在計算概率過程中出現(xiàn)無窮大的數(shù)值,該文對公式(25)進行歸一化處理,從而有:

(26)

顯然,K個樣本中的最大Renyi熵為:

(27)

式中,RS(U)表示蛋白質(zhì)序列對樣本中最大Renyi熵的若干個樣本,熵越大的樣本不確定性越大,信息量也越大,也是無法確定分類信息的樣本,根據(jù)有標(biāo)簽樣本的標(biāo)簽信息,將這些熵值最大的樣本分配相應(yīng)的類別標(biāo)簽。

Step5:將Renyi熵與AP聚類分析標(biāo)簽類別判定一致的無標(biāo)簽樣本添加到現(xiàn)有的訓(xùn)練集中,用擴充后的訓(xùn)練集繼續(xù)迭代訓(xùn)練分類器,轉(zhuǎn)到Step2。

Step6:輸出分類結(jié)果,算法結(jié)束。

3 實 驗

3.1 實驗數(shù)據(jù)集

為了驗證提出的分類預(yù)測模型的有效性,該文在三個蛋白質(zhì)相互作用數(shù)據(jù)集M.musculus、H.pylori和H.sapiens上進行了實驗驗證,表1列出了實驗數(shù)據(jù)集的樣本數(shù)量。

表1 實驗數(shù)據(jù)集樣本數(shù)量

3.2 實驗結(jié)果及分析

為了描述方便,表2列出了基于不同自訓(xùn)練方法的半監(jiān)督相關(guān)向量機中文名稱及英文簡稱,其中ST表示自訓(xùn)練,SSRVM表示半監(jiān)督相關(guān)向量機。

表2 基于不同半監(jiān)督相關(guān)向量機英文簡稱

實驗中,針對蛋白質(zhì)序列特征向量的生成,該文采用文獻[14]提出的基于位置特異性打分矩陣(PSSM)的串行多特征融合的蛋白質(zhì)序列特征提取方法,該方法通過局域蛋白質(zhì)序列PSSM矩陣編碼捕獲序列上連續(xù)的和間斷的蛋白質(zhì)相互作用信息;通過串行多特征融合實現(xiàn)序列中蘊含的多種關(guān)鍵特征信息的整合;針對樣本測試集與訓(xùn)練集的構(gòu)建,該文分別從三個數(shù)據(jù)集中隨機抽取有標(biāo)簽樣本的20%作為測試集,80%作為初始預(yù)測模型訓(xùn)練集。當(dāng)模型每次迭代結(jié)束后針對每個數(shù)據(jù)集的測試集樣本進行預(yù)測分類,得出當(dāng)前模型的預(yù)測準(zhǔn)確率,從而了解當(dāng)前模型的預(yù)測性能。

下面列出了不同的預(yù)測模型在M.musculus、H.pylori和H.sapiens數(shù)據(jù)集上的實驗結(jié)果,如表3~表5所示。

表3 M.musculus數(shù)據(jù)集不同預(yù)測模型預(yù)測結(jié)果(準(zhǔn)確率%)

表4 H.pyloris數(shù)據(jù)集不同預(yù)測模型預(yù)測結(jié)果(準(zhǔn)確率%)

表5 H.sapienss數(shù)據(jù)集不同預(yù)測模型預(yù)測結(jié)果(準(zhǔn)確率%)

從表3~表5中可以看出,AP-ST-SSRVM、Renyi-ST-SSRVM及AP-Renyi-ST-SSRVM分類算法針對M.musculus、H.pylori和H.sapiens三個數(shù)據(jù)集的初始預(yù)測準(zhǔn)確率都相對較低,分別為71.12%、73.35%及72.91%;73.12%、74.32%及73.86%和74.52%、75.69%及74.73%。但隨著訓(xùn)練樣本數(shù)的增加,三種分類算法針對三個數(shù)據(jù)集的預(yù)測準(zhǔn)確率都有了明顯提升;AP-ST-SSRVM分別迭代5次、10次和9次后;Renyi-ST-SSRVM分別迭代6次、8次和9次后以及AP-Renyi-ST-SSRVM分別迭代8次、10次和12次后它們的預(yù)測準(zhǔn)確率曲線趨于平直。AP-Renyi-ST-SSRVM的迭代次數(shù)多于其他兩種分類算法,但它的預(yù)測準(zhǔn)確率是最高的。迭代次數(shù)多是因為AP-Renyi-ST-SSRVM相比AP-ST-SSRVM增加了二次Renyi熵的驗證,相比Renyi-ST-SSRVM增加了AP聚類分析,從而增加了計算開銷。但相對于能夠得到較高的預(yù)測準(zhǔn)確率,這種開銷成本的增加是可以忽略的。同樣的,通過圖2~圖4分別展示的針對M.musculus、H.pylori和H.sapiens三個數(shù)據(jù)集三種分類算法的ROC曲線對比,進一步證明了AP-Renyi-ST-SSRVM分類算法在預(yù)測性能上優(yōu)于其他兩種分類算法。

圖2 M.musculus數(shù)據(jù)集不同預(yù)測模型ROC曲線比較

圖3 H.pylori數(shù)據(jù)集不同分類算法ROC曲線比較

圖4 H.sapiens數(shù)據(jù)集不同分類算法ROC曲線比較

此外,該文提出的分類預(yù)測模型分別與其他研究學(xué)者提出的預(yù)測模型在M.musculus、H.pylori和H.sapien數(shù)據(jù)集上進行了比較分析,如表6所示。

表6 M.musculus、H.pylori和H.sapient數(shù)據(jù)集不同預(yù)測模型預(yù)測結(jié)果比較(準(zhǔn)確率%)

從表6可以看出,文中構(gòu)建的預(yù)測模型在M.musculus和H.pylori數(shù)據(jù)集上的預(yù)測準(zhǔn)確率都高于其他預(yù)測模型,在H.sapien數(shù)據(jù)集上預(yù)測準(zhǔn)確率也高于Huang’ work[15]的預(yù)測模型,同You’work[16]的預(yù)測準(zhǔn)確率基本相同。這進一步驗證了提出的基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)相互作用預(yù)測模型的有效性。

AP-Renyi-ST-SSRVM分類算法的主要優(yōu)勢在于:通過AP聚類與Renyi熵融合的方法將置信度高的無標(biāo)簽樣本,即AP聚類分析與二次Renyi熵判定類別一致的樣本,標(biāo)記為有標(biāo)簽樣本,加入到原有訓(xùn)練集中,用擴充后的訓(xùn)練集進行自訓(xùn)練迭代分類,構(gòu)造出了性能最優(yōu)的半監(jiān)督分類器。通過以上處理可以大大減少由于誤判而生成噪聲數(shù)據(jù)的數(shù)量,從而能夠降低噪聲數(shù)據(jù)對分類器預(yù)測性能的影響,提高預(yù)測準(zhǔn)確率。

4 結(jié)束語

通過實驗結(jié)果還發(fā)現(xiàn),基于不同自訓(xùn)練方法的半監(jiān)督相關(guān)向量機模型的預(yù)測準(zhǔn)確率與訓(xùn)練集有標(biāo)簽樣本數(shù)的多少密切相關(guān),初始有標(biāo)簽樣本數(shù)越多,分類準(zhǔn)確率越高,并且隨著訓(xùn)練樣本的不斷增加,預(yù)測準(zhǔn)確率有明顯提升;但當(dāng)訓(xùn)練樣本集到一定規(guī)模后,即使再添加更多的有標(biāo)簽樣本,預(yù)測準(zhǔn)確率也無明顯變化,達到一種飽和狀態(tài)。因此,基于以上分析可以得出如下結(jié)論:

(1)提出的基于AP聚類和Renyi熵融合的自訓(xùn)練半監(jiān)督相關(guān)向量機分類預(yù)測模型極大降低了噪聲數(shù)據(jù)對分類器預(yù)測性能的影響。初始訓(xùn)練只需選擇較少量的有標(biāo)簽樣本,通過自訓(xùn)練識別無標(biāo)簽樣本并添加到當(dāng)前訓(xùn)練集,預(yù)測模型通過多次迭代學(xué)習(xí)和糾錯,能夠獲得好的預(yù)測性能。模型預(yù)測準(zhǔn)確率較高,預(yù)測分類效果良好,可以應(yīng)用到多種類型的蛋白質(zhì)相互作用預(yù)測分類中;

(2)有標(biāo)簽樣本的數(shù)量影響半監(jiān)督分類算法的預(yù)測性能。隨著新的有標(biāo)簽樣本不斷添加到訓(xùn)練集,預(yù)測模型的分類準(zhǔn)確率和分類效果都有較大提高,但當(dāng)訓(xùn)練集達到一定規(guī)模時,預(yù)測性能又趨于平穩(wěn)。因此,半監(jiān)督學(xué)習(xí)中有標(biāo)簽樣本數(shù)量的合適選擇是一個值得研究的問題,要充分平衡半監(jiān)督學(xué)習(xí)的優(yōu)點和有標(biāo)簽訓(xùn)練樣本數(shù)量之間的關(guān)系,使最終的分類結(jié)果能夠達到最優(yōu)。

猜你喜歡
標(biāo)簽準(zhǔn)確率聚類
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
標(biāo)簽化傷害了誰
基于改進的遺傳算法的模糊聚類算法
基于多進制查詢樹的多標(biāo)簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
邯郸市| 贵德县| 威海市| 寿阳县| 蛟河市| 林芝县| 含山县| 固镇县| 青海省| 永春县| 青龙| 宁安市| 蒲江县| 阳高县| 东平县| 光山县| 大足县| 房产| 仙居县| 嘉祥县| 措勤县| 锦屏县| 郸城县| 阳曲县| 高邑县| 隆昌县| 武平县| 无锡市| 米林县| 龙泉市| 米脂县| 吉安市| 泾源县| 防城港市| 承德市| 隆子县| 泽普县| 呼图壁县| 开鲁县| 新河县| 太白县|