李麗雙,郭 瑞,黃德根,周惠巍
(大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023)
基于遷移學(xué)習(xí)的蛋白質(zhì)交互關(guān)系抽取
李麗雙,郭 瑞,黃德根,周惠巍
(大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023)
作為生物醫(yī)學(xué)信息抽取領(lǐng)域的重要分支,蛋白質(zhì)交互關(guān)系(Protein-Protein Interaction,PPI)抽取具有重要的研究意義。目前的研究大多采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,需要大規(guī)模標(biāo)注語料進(jìn)行訓(xùn)練。訓(xùn)練語料過少,會(huì)降低關(guān)系抽取系統(tǒng)的性能,而人工標(biāo)注語料需要耗費(fèi)巨大的成本。該文采用遷移學(xué)習(xí)的方法,用大量已標(biāo)注的源領(lǐng)域(其它領(lǐng)域)語料來輔助少量標(biāo)注的目標(biāo)領(lǐng)域語料(本領(lǐng)域)進(jìn)行蛋白質(zhì)交互關(guān)系抽取。但是,不同領(lǐng)域的數(shù)據(jù)分布存在差異,容易導(dǎo)致負(fù)遷移,該文借助實(shí)例的相對(duì)分布來調(diào)整權(quán)重,避免了負(fù)遷移的發(fā)生。在公共語料庫AIMed上實(shí)驗(yàn),兩種遷移學(xué)習(xí)方法獲得了明顯優(yōu)于基準(zhǔn)算法的性能;同樣方法在語料庫IEPA上實(shí)驗(yàn)時(shí),TrAdaboost算法發(fā)生了負(fù)遷移,而改進(jìn)的DisTrAdaboost算法仍保持良好遷移效果。
蛋白質(zhì)交互關(guān)系抽取;遷移學(xué)習(xí);負(fù)遷移
伴隨著信息數(shù)字化和生物醫(yī)學(xué)領(lǐng)域的快速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)呈爆發(fā)式增長,使得提取文獻(xiàn)中的信息困難重重。生物醫(yī)學(xué)文本挖掘應(yīng)運(yùn)而生。作為其中的重要分支之一,蛋白質(zhì)交互關(guān)系(PPI)抽取技術(shù)具有很高的應(yīng)用價(jià)值,尤其是對(duì)蛋白質(zhì)知識(shí)網(wǎng)絡(luò)的建立、本體的構(gòu)建等具有重要意義。
目前用于蛋白質(zhì)交互關(guān)系抽取的方法可以分為三種,基于詞共現(xiàn)的方法,基于模式匹配的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法是主流的方法,取得了較好的結(jié)果,它可分為基于特征向量和基于核函數(shù)[1]的方法以及組合方法[2],組合方法具有比單一方法更好的性能。
雖然基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法在蛋白質(zhì)交互關(guān)系抽取領(lǐng)域得到了較好的應(yīng)用,但是當(dāng)訓(xùn)練語料極其匱乏時(shí),抽取效果就會(huì)大大降低。人工標(biāo)注PPI數(shù)據(jù)庫需要耗費(fèi)大量的人力和物力。從另一個(gè)角度講,不能很好地利用大量的、已標(biāo)注的語料,亦是對(duì)資源的浪費(fèi)。例如在不同疾病的蛋白質(zhì)交互關(guān)系的研究中,我們可以借助其他疾病領(lǐng)域的已標(biāo)注數(shù)據(jù)集來提高本領(lǐng)域的抽取效果。
利用其他領(lǐng)域已標(biāo)注信息,解決本領(lǐng)域訓(xùn)練數(shù)據(jù)不足問題,當(dāng)下有兩種思路:領(lǐng)域適應(yīng)和遷移學(xué)習(xí)。其中,領(lǐng)域適應(yīng)在人臉識(shí)別[3],情感分類[4],機(jī)器翻譯[5]和中文分詞[6]等領(lǐng)域得到很好的應(yīng)用,也有研究者采用領(lǐng)域適應(yīng)的方法探討了PPI抽取,如文獻(xiàn)[7]討論了AIMed,IEPA,LLL,HPRD50和BioInfer五個(gè)語料在大小和物種方面的差異,提出一種統(tǒng)一的標(biāo)注方法,并采用該方法處理五種語料,對(duì)結(jié)果進(jìn)行定量分析,整合出更大的、物種更多的語料,用統(tǒng)一標(biāo)注的其他領(lǐng)域語料輔助訓(xùn)練,在五個(gè)語料上測試的精確率、召回率、F值均有明顯提高。文獻(xiàn)[8]從上述五個(gè)語料出發(fā),采用領(lǐng)域適應(yīng)方法SVM-CW,同時(shí)對(duì)多個(gè)語料學(xué)習(xí),調(diào)整源領(lǐng)域語料的權(quán)重,選取合適的懲罰因子,在五個(gè)語料上取得了較好的效果。但是文獻(xiàn)[7]和文獻(xiàn)[8]主要討論領(lǐng)域間的兼容性,未對(duì)目標(biāo)訓(xùn)練語料不足做出分析,使得輔助訓(xùn)練語料占全部訓(xùn)練語料比例較小,對(duì)目標(biāo)訓(xùn)練語料的需求仍然較大,不能大幅減少標(biāo)注目標(biāo)語料的成本。
遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新方向,是在不同但相似的領(lǐng)域、任務(wù)之間進(jìn)行知識(shí)的遷移,在Web文本數(shù)據(jù)挖掘[9]、文本分類[10-11]、雙語句子對(duì)齊[12],取得了很好的效果。但研究者很少將遷移學(xué)習(xí)應(yīng)用到PPI抽取中。本文嘗試采用遷移學(xué)習(xí)思想探討因標(biāo)注語料不足而導(dǎo)致PPI抽取性能較差的問題。但是領(lǐng)域間數(shù)據(jù)分布會(huì)存在差異,如不同物種間的生理特征,基因及蛋白質(zhì)等存在顯著不同,差異較大時(shí)容易導(dǎo)致負(fù)遷移[13],遷移學(xué)習(xí)反而降低了普通分類器的學(xué)習(xí)效果。針對(duì)上述問題,本文提出一種改進(jìn)的DisTrAdaboost算法,通過調(diào)整其他領(lǐng)域已標(biāo)注數(shù)據(jù)集的實(shí)例權(quán)重的方法來避免負(fù)遷移,即用實(shí)例的相對(duì)分布來初始化權(quán)重,增加源數(shù)據(jù)中分布近似于目標(biāo)數(shù)據(jù)集的實(shí)例的權(quán)重,進(jìn)而平滑學(xué)習(xí)過程,降低領(lǐng)域差異對(duì)遷移學(xué)習(xí)的影響,避免負(fù)遷移。
在蛋白質(zhì)交互關(guān)系抽取任務(wù)上,我們首先把AIMed作為目標(biāo)語料,選取IEPA和HPRD50作為輔助訓(xùn)練語料(源語料),分別采用TrAdaboost[14]算法和改進(jìn)的遷移學(xué)習(xí)算法DisTrAdaboost進(jìn)行實(shí)驗(yàn)。結(jié)果表明,兩種遷移學(xué)習(xí)方法均獲得了較好的抽取效果,并且沒有發(fā)生負(fù)遷移。然后IEPA作為目標(biāo)語料進(jìn)行了相同的實(shí)驗(yàn),以HPRD50作為源語料時(shí),TrAdaboost算法發(fā)生了負(fù)遷移,而改進(jìn)的DisTrAdaboost算法依然取得了很好的遷移效果,沒發(fā)生負(fù)遷移。此外,在文本分類任務(wù)的公共評(píng)測語料上,我們驗(yàn)證了DisTrAdaboost算法的收斂性,得出DisTrAdaboost算法收斂速度明顯快于TrAdaboost算法,分類效果也優(yōu)于TrAdaboost算法。
為使問題描述更清晰,我們給出以下定義:
定義2.1(基本符號(hào)):
X:樣例空間,也指需要被分類的輸入數(shù)據(jù)。
Y={-1,+1}: 類空間。
c(x): 樣本x∈X的類標(biāo),且c(x)∈Y。
定義2.2(數(shù)據(jù)集):
圖1給出了TrAdaboost算法的描述。
TrAdaboost算法繼承了Adaboost算法良好的收斂性,并且訓(xùn)練集中實(shí)例的初始權(quán)重不影響其收斂性。但是,TrAdaboost算法初始設(shè)定源領(lǐng)域數(shù)據(jù)集實(shí)例權(quán)重相等,使得遷移效果嚴(yán)重受到領(lǐng)域差異的影響,未能有效避免負(fù)遷移的發(fā)生。下面討論數(shù)據(jù)分布對(duì)遷移學(xué)習(xí)的影響,并采用實(shí)例的分布來初始化源數(shù)據(jù)集實(shí)例的權(quán)重,降低分布差異對(duì)遷移學(xué)習(xí)的影響。
基于實(shí)例的遷移學(xué)習(xí)有以下假設(shè):
(3)P(XS)≠P(XY)
圖1 TrAdaboost算法描述
遷移學(xué)習(xí)的目標(biāo)就是,用源數(shù)據(jù)集DS輔助訓(xùn)練,在目標(biāo)數(shù)據(jù)集DT上得到觀測值hT,使得觀測值盡可能接近目標(biāo)值,即損失函數(shù)最小。為達(dá)到上述目標(biāo),Zadrozny[15]對(duì)損失函數(shù)l(x,y,θ)做出如下推導(dǎo):
(1)
針對(duì)源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的分布差異較大問題,本文提出了一種DisTrAdaboost算法進(jìn)行改進(jìn)。首先,我們給出相對(duì)分布δ(x)的定義:
(2)
即,實(shí)例x在目標(biāo)數(shù)據(jù)集的分布與在源數(shù)據(jù)集的分布之比。本文使用KL距離(見4.1節(jié))來計(jì)算分布PT(x)和PS(x)。為使問題更具一般性,我們?cè)谑?1)中加入懲罰函數(shù),求解參數(shù)θ*的過程就變?yōu)椋?/p>
(3)
其中λ是正則化系數(shù),Ω(θ)是正則化項(xiàng)。對(duì)于給定分類算法,損失函數(shù)l(x,y,θ)是固定值,求解θ*就轉(zhuǎn)化為求解δ(xi)最小值問題。由此,我們可以看出改進(jìn)后的目標(biāo)領(lǐng)域損失函數(shù)小于原先的目標(biāo)領(lǐng)域損失函數(shù):
(4)
同理,不難得出,改進(jìn)后的源領(lǐng)域損失函數(shù)小于之前的源領(lǐng)域損失函數(shù):
(5)
本文采用最直觀的做法,評(píng)價(jià)源領(lǐng)域數(shù)據(jù)集中每個(gè)實(shí)例Si的相對(duì)分布δ(xi)。δ(xi)取值越大,初始訓(xùn)練權(quán)重越低。
最終,改進(jìn)后的DisTrAdaboost算法初始權(quán)重向量修改如式(6)所示。
(6)
TrAdaboost算法劣勢在于,收斂速度較慢。當(dāng)領(lǐng)域差異較大時(shí),容易導(dǎo)致負(fù)遷移??紤]到目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)和目標(biāo)領(lǐng)域測試數(shù)據(jù)分布相同,訓(xùn)練損失較小,本文主要對(duì)源領(lǐng)域數(shù)據(jù)訓(xùn)練損失的迭代收斂速度進(jìn)行討論,如式(7)所示。
(7)
根據(jù)定義,DisTrAdaboost算法初始的平均加權(quán)訓(xùn)練損失為:
(8)
同理,TrAdaboost算法初始的平均加權(quán)訓(xùn)練損失為:
(9)
根據(jù)式(5)可以得出, DisTrAdaboost算法初始的平均加權(quán)訓(xùn)練損失小于TrAdaboost算法初始的平均加權(quán)訓(xùn)練損失,更快地到達(dá)收斂,從而更加有效地避免負(fù)遷移。
3.1 詞特征
本文中運(yùn)用了豐富的詞特征,這些詞特征包括兩個(gè)蛋白質(zhì)名字中的詞,兩個(gè)蛋白質(zhì)之間的詞,蛋白質(zhì)周圍的詞,以及表示兩個(gè)蛋白質(zhì)交互關(guān)系的交互詞。
(1) 兩個(gè)蛋白質(zhì)名字中的詞(ProName)
指出現(xiàn)在兩個(gè)蛋白質(zhì)名字中的所有單詞。
(2) 兩個(gè)蛋白質(zhì)之間的詞(Betwords)
指位于兩個(gè)蛋白質(zhì)之間的所有詞。如果兩個(gè)蛋白質(zhì)之間沒有別的單詞,那么該特征被設(shè)置為NULL。
(3) 兩個(gè)蛋白質(zhì)周圍的詞(Surrounding Words)
指兩個(gè)蛋白質(zhì)前后的詞。本文選取交互關(guān)系對(duì)中第一個(gè)蛋白質(zhì)的前面五個(gè)詞和第二個(gè)蛋白質(zhì)的后面五個(gè)詞。
(4) 交互詞特征(Keyword)
所謂交互詞指的是能表示兩個(gè)蛋白質(zhì)之間交互關(guān)系的詞(如:regulate, interact, modulate 等)。如果在兩個(gè)蛋白質(zhì)之間或者周圍有一個(gè)交互詞,則把這個(gè)詞作為交互詞特征。如果在一個(gè)句子中有兩個(gè)或兩個(gè)以上的交互詞,則選擇離兩個(gè)蛋白質(zhì)最近的那個(gè)詞作為交互詞;如果在一個(gè)句子沒有表示兩個(gè)蛋白質(zhì)交互關(guān)系的詞,則把該特征設(shè)置為NULL。
3.2 兩個(gè)蛋白質(zhì)之間的距離特征
在一個(gè)句子中,如果兩個(gè)蛋白質(zhì)離的越近,那么它們之間具有交互關(guān)系的可能性也就越大。因此蛋白質(zhì)之間的距離可以作為判斷兩個(gè)蛋白質(zhì)是否具有交互關(guān)系的一個(gè)因素。本文使用兩種距離特征。
(1) TwoProDis: 指兩個(gè)蛋白質(zhì)之間其他單詞的個(gè)數(shù)。如果TwoProDis≤3,則把該特征值設(shè)為1;如果3 (2) ProNumDis: 兩個(gè)蛋白質(zhì)之間是否具有交互關(guān)系,除了受兩個(gè)蛋白質(zhì)之間單詞的個(gè)數(shù)影響外,還與兩個(gè)蛋白質(zhì)之間是否有別的蛋白質(zhì)有關(guān)。因此這種情形也被考慮進(jìn)去,并稱之為ProNumDis 特征。如果兩個(gè)蛋白質(zhì)之間沒有其它的蛋白質(zhì),那么該特征的特征值被設(shè)為0,如果兩個(gè)蛋白質(zhì)之間有其它蛋白質(zhì),那么該特征的特征值為兩個(gè)蛋白質(zhì)之間其它蛋白質(zhì)的個(gè)數(shù)。 本文使用兩種語料作為目標(biāo)語料進(jìn)行實(shí)驗(yàn):AIMed語料和IEPA語料。前者來自Medline數(shù)據(jù)庫中的225篇摘要,有1 000對(duì)正例(有交互關(guān)系),3 500對(duì)負(fù)例(無交互關(guān)系)。后者摘自PubMed數(shù)據(jù)庫中的303篇摘要,其中正例336對(duì),負(fù)例336對(duì)。另外,還選取了HPRD50語料作為源領(lǐng)域語料。HPRD50有163條正例和270條負(fù)例。本文使用F值對(duì)該實(shí)驗(yàn)進(jìn)行評(píng)價(jià)。它的定義如式(10)所示。 (10) 其中,TP(true positive)表示所有正例中判斷正確的樣本數(shù)。FN(false negative)代表負(fù)例中判斷錯(cuò)誤的樣本數(shù),即分類器把正例判斷成負(fù)例的個(gè)數(shù)。FP(false positive)代表正例中判斷錯(cuò)誤的樣本數(shù),即分類器把負(fù)例判斷成正例的樣本個(gè)數(shù)。其中,F(xiàn)值為準(zhǔn)確率和召回率的調(diào)和函數(shù)值。實(shí)驗(yàn)均采用五倍交叉方法。 4.1 可遷移性評(píng)價(jià) 為了更好刻畫語料間分布差異,我們引入KL距離[16]。計(jì)算如式(11)所示。 (11) 式(11)中P和Q是兩個(gè)概率分布,D(P||Q)是對(duì)P和Q差別的非對(duì)稱性的度量,又名KL散度。KL散度是用來度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外的比特個(gè)數(shù)。典型情況下,P表示數(shù)據(jù)的真實(shí)分布,Q表示數(shù)據(jù)的理論分布,模型分布,或P的近似分布。且KL散度不具有對(duì)稱性: 從分布P到Q的距離(或度量)通常并不等于從Q到P的距離(或度量)。 本文通過計(jì)算單詞x在數(shù)據(jù)集P的出現(xiàn)頻率作為P(x),同理可得Q(x)。 表1給出了三個(gè)數(shù)據(jù)集間的KL距離結(jié)果。因HPRD50數(shù)據(jù)集過小,本文未將其選作目標(biāo)領(lǐng)域數(shù)據(jù)集。其它KL距離結(jié)果存在如下關(guān)系: (12) 從結(jié)果可以看出,數(shù)據(jù)集AIMed到IEPA的距離遠(yuǎn)小于數(shù)據(jù)集HPRD50到IEPA的距離。 表1 AIMed,IEPA,HPRD50語料間的KL距離 4.2 AIMed作為目標(biāo)領(lǐng)域時(shí)的遷移學(xué)習(xí) 將IEPA和HPRD50作為源領(lǐng)域數(shù)據(jù)集,隨機(jī)選取AIMed語料的2%,4%,6%,8%,10%,12%,14%,16%,18%,20%作為目標(biāo)領(lǐng)域訓(xùn)練集。將兩種遷移學(xué)習(xí)算法與兩個(gè)基準(zhǔn)算法進(jìn)行比較,分別是:(1)SVM,即簡單地用目標(biāo)領(lǐng)域語料訓(xùn)練;(2)SVMt,即合并源領(lǐng)域語料和目標(biāo)領(lǐng)域語料訓(xùn)練。結(jié)果如圖2和圖3所示。 圖2 IEPA作為源領(lǐng)域時(shí),四種算法在AIMed上F值對(duì)比 圖3 HPRD50作為源領(lǐng)域時(shí),四種算法在AIMed上F值對(duì)比 從圖2和圖3中可以看出:首先,兩種遷移學(xué)習(xí)算法曲線都一直高于SVM曲線,說明IEPA或HPRD50作為源語料時(shí),遷移學(xué)習(xí)效果優(yōu)于普通SVM;其次,兩種算法曲線也一直高于SVMt曲線,說明都能夠通過調(diào)整源數(shù)據(jù)集實(shí)例的權(quán)重,選取合適實(shí)例輔助訓(xùn)練,其效果優(yōu)于直接在合并數(shù)據(jù)集上訓(xùn)練;最后,兩種算法都未發(fā)生負(fù)遷移,說明遷移學(xué)習(xí)在該數(shù)據(jù)集上取得了較好的效果。 然而,對(duì)比兩種遷移學(xué)習(xí)曲線,我們發(fā)現(xiàn),在目標(biāo)語料較少(2%~4%)時(shí),算法DisTrAdaboost曲線高于TrAdaboost曲線,說明DisTrAdaboost算法通過加速收斂,從而更好地適應(yīng)目標(biāo)領(lǐng)域語料的不足;當(dāng)目標(biāo)語料達(dá)到一定程度后(≥8%),兩個(gè)曲線基本重合,原因是隨著目標(biāo)領(lǐng)域語料的增多,TrAdaboost算法也取得了較好的收斂效果,DisTrAdaboost算法加速收斂的效果不再明顯。 4.3 IEPA作為目標(biāo)領(lǐng)域的結(jié)果對(duì)比 與上節(jié)實(shí)驗(yàn)類似,將兩種算法與兩個(gè)基準(zhǔn)算法SVM和SVMt進(jìn)行比較。結(jié)果如圖4和圖5所示。 圖4 AIMed作為源領(lǐng)域時(shí),四種算法在IEPA上F值對(duì)比 圖5 HPRD50作為源領(lǐng)域時(shí),四種算法在IEPA上F值對(duì)比 圖4中,兩種遷移學(xué)習(xí)曲線都高于SVM曲線和SVMt曲線,然而改進(jìn)的DisTrAdaboost算法曲線低于TrAdaboost曲線。原因分析如下,4.1節(jié),我們得出數(shù)據(jù)集AIMed到IEPA的KL距離較小,TrAdaboost算法遷移效果較好,此時(shí),DisTrAdaboost算法對(duì)源數(shù)據(jù)集AIMed的數(shù)據(jù)分布進(jìn)行調(diào)整,過濾掉了原本符合輔助訓(xùn)練條件的實(shí)例,降低了性能。 圖5中,遷移學(xué)習(xí)曲線一直高于SVM曲線和SVMt曲線。由此可以得出類似圖2的結(jié)論:以AIMed作為源語料,IEPA作為目標(biāo)語料時(shí),遷移學(xué)習(xí)可以明顯提高PPI抽取性能。此外,由圖5可以看出,在目標(biāo)語料比例為2%和4%時(shí),TrAdaboost算法曲線低于SVM和SVMt,說明此時(shí)產(chǎn)生了負(fù)遷移;而改進(jìn)的DisTrAdaboost算法曲線仍一直高于SVM曲線和SVMt曲線,說明用相對(duì)分布β(xi)來初始化每個(gè)實(shí)例的權(quán)重,可以降低領(lǐng)域差異對(duì)遷移學(xué)習(xí)的影響,彌補(bǔ)目標(biāo)訓(xùn)練語料過少導(dǎo)致基本分類器效果差的不足,避免負(fù)遷移。 4.4 與相關(guān)工作比較 為驗(yàn)證算法DisTradaboost算法的有效性,本文還在文本分類語料20newsgroups*http://qwone.com/~jason/20Newsgroups上進(jìn)行了實(shí)驗(yàn)。該語料共分為七個(gè)大類,每個(gè)大類分為若干子類。本文選取以下兩個(gè)大類作為分類任務(wù):sci和talk。目標(biāo)領(lǐng)域設(shè)為sci.space和talk.religion.misc,共2 315條實(shí)例。源領(lǐng)域則由與目標(biāo)領(lǐng)域語料同屬一個(gè)大類下的其他子類構(gòu)成,包括sci.crypt,sci.electronic,sci.med,talk.politics.gunstalk.politics.mideast和talk.politics.misc,共4 880條實(shí)例。實(shí)驗(yàn)用精確率進(jìn)行評(píng)價(jià),定義如式(13)所示。 (13) 其中,True表示分類正確的實(shí)例個(gè)數(shù),F(xiàn)alse表示分類錯(cuò)誤的實(shí)例個(gè)數(shù)。 本文還將DisTrAdaboost算法和TPTSVM算法[11]的效果,進(jìn)行了對(duì)比。其中,TPTSVM[11]結(jié)合了遷移學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的思想,利用了大量未標(biāo)注數(shù)據(jù)輔助訓(xùn)練,效果好于TrAdaboost算法。 圖6中,TPTSVM算法和DisTrAdaboost算法曲線都高于TrAdaboost曲線,說明前者利用大量無標(biāo)記語料,后者通過加速收斂,都能改進(jìn)TrAdaboost算法。對(duì)比TPTSVM算法曲線和DisTrAdaboost算法曲線,我們發(fā)現(xiàn)在目標(biāo)領(lǐng)域訓(xùn)練語料較少(≤50)時(shí),TPTSVM效果最好,說明該算法能夠正確地標(biāo)注目標(biāo)領(lǐng)域的未標(biāo)注語料,從而輔助訓(xùn)練,學(xué)習(xí)效果更好;在目標(biāo)領(lǐng)域訓(xùn)練語料達(dá)到一定規(guī)模(≥200)后,半監(jiān)督學(xué)習(xí)影響下降,而DisTrAdaboost算法能更好地使用源領(lǐng)域輔助訓(xùn)練數(shù)據(jù),加速收斂。 圖6 遷移學(xué)習(xí)算法在文本分類語料上的精確率對(duì)比 圖7中,我們對(duì)比了TrAdaboost算法,DisTrAdaboost算法和TPTSVM算法在不同迭代次數(shù)時(shí)的學(xué)習(xí)曲線。其中,目標(biāo)領(lǐng)域?qū)嵗齻€(gè)數(shù)全部設(shè)為400。從學(xué)習(xí)曲線中,我們可以發(fā)現(xiàn):三種算法最終都能達(dá)到收斂,而DisTrAdaboost算法初始收斂速度更快。 圖7 三種遷移學(xué)習(xí)算法的學(xué)習(xí)曲線 4.5 語料分布對(duì)遷移學(xué)習(xí)效果影響分析 表1中,給出了上述三個(gè)數(shù)據(jù)集的KL距離的大小關(guān)系(式(12))。簡單起見,僅對(duì)KL距離差異最大的兩對(duì)數(shù)據(jù)集進(jìn)行討論。圖4中,AIMed作為源數(shù)據(jù)集,IEPA作為目標(biāo)數(shù)據(jù)集,KL距離最小,TrAdaboost算法曲線表現(xiàn)最好,一直高于另外三種算法曲線,說明用源數(shù)據(jù)集表示目標(biāo)數(shù)據(jù)集的KL距離較小時(shí),遷移學(xué)習(xí)表現(xiàn)良好,不必考慮負(fù)遷移;而在圖5中,HPRD50作為源數(shù)據(jù)集,IEPA作為目標(biāo)數(shù)據(jù)集,KL距離D(PIEPA‖QHprd50)較大,TrAdaboost在目標(biāo)數(shù)據(jù)較少(僅占2%和4%)時(shí),效果不如SVMt和SVM,而改進(jìn)的DisTrAdaboost算法此時(shí)表現(xiàn)最好,說明KL距離較大容易導(dǎo)致負(fù)遷移,通過調(diào)整語料的初始權(quán)重,可以降低語料分布差異對(duì)遷移學(xué)習(xí)的影響。 在蛋白質(zhì)交互關(guān)系抽取領(lǐng)域,訓(xùn)練語料不足時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)方法分類效果很差,為此我們引入遷移學(xué)習(xí)。以TrAdaboost算法作為遷移實(shí)現(xiàn),SVM和SVMt作為參照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,遷移學(xué)習(xí)借助源領(lǐng)域語料,只需標(biāo)注小部分目標(biāo)領(lǐng)域語料,就可以達(dá)到一定的抽取性能。對(duì)比發(fā)現(xiàn),當(dāng)目標(biāo)語料較少并且源語料和目標(biāo)語料分布相近時(shí),遷移效果遠(yuǎn)好于SVM,隨著訓(xùn)練語料的增加,SVM逐漸逼近遷移學(xué)習(xí)。同時(shí),針對(duì)負(fù)遷移問題,本文對(duì)TrAdaboost算法進(jìn)行了改進(jìn),用實(shí)例的相對(duì)分布來初始化權(quán)重向量,實(shí)驗(yàn)結(jié)果表明,通過對(duì)源數(shù)據(jù)集中實(shí)例進(jìn)行預(yù)先評(píng)價(jià),利用實(shí)例在源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的分布,增加與目標(biāo)數(shù)據(jù)集分布相似的實(shí)例的權(quán)重,降低與目標(biāo)數(shù)據(jù)集分布相異的實(shí)例的權(quán)重,可以有效避免負(fù)遷移。并且在文本分類任務(wù)上,改進(jìn)的DisTrAdaboost算法的收斂速度明顯快于TrAdaboost算法,其分類效果也優(yōu)于TrAdaboost算法。 本文工作對(duì)于近似領(lǐng)域知識(shí)的遷移具有借鑒作用,如不同疾病(肝病和肺病)的蛋白質(zhì)交互關(guān)系抽取的研究。這些領(lǐng)域的數(shù)據(jù)分布不同但近似,對(duì)于缺少足夠訓(xùn)練樣本的目標(biāo)領(lǐng)域,充分利用已有標(biāo)記的源領(lǐng)域數(shù)據(jù)資源,采用遷移學(xué)習(xí)方法可以提升目標(biāo)領(lǐng)域的知識(shí)挖掘性能。 [1]QianLH,ZhouGD.Dependency-directedtreekernel-basedprotein-proteininteractionextractionfrombiomedicalliterature[C]//Proceedingsofthe5thInternationalJointConferenceonNaturalLanguageProcessing,Thailand,2011: 10-19. [2] 李麗雙,劉洋,黃德根. 基于組合核的蛋白質(zhì)交互關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2013, 27(1): 86-92. [3] 陶劍文,王士同. 多核局部領(lǐng)域適應(yīng)學(xué)習(xí)[J]. 軟件學(xué)報(bào),2012, 23(9):2297-2310 [4]LiSS,XueYX,WangZQandZhouGD.Activelearningforcross-domainsentimentclassification[C]//ProceedingsoftheTwenty-ThirdInternationalJointConferenceonArtificialIntelligence.Beijing,China, 2013: 2127-2133. [5] 蘇晨,張玉潔,郭振,徐金安. 適用于特定領(lǐng)域機(jī)器翻譯的漢語分詞方法[J]. 中文信息學(xué)報(bào),2013,27(05):184-190. [6] 孟凡東,徐金安,姜文斌,劉群. 異種語料融合方法:基于統(tǒng)計(jì)的中文詞法分析應(yīng)用[J]. 中文信息學(xué)報(bào),2012, 26(2):3-7,12. [7]SampoP,AnttiA,JuhoH,etal.Comparativeanalysisoffiveprotein-proteininteractioncorpora[J].BMCBioinformatics,2008, 9:S6. [8]MiwaM,SaetreR,MiyaoY,etal.Arichfeaturevectorforprotein-proteininteractionextractionfrommultiplecorpora[C]//ProceedingsoftheAssociationforComputationalLinguistics,Singapore:WorldScientificPublishingCoPteLtd. 2009: 121-130. [9]WeiFM,ZhangJP,ChuY,etal.FSFP:TransferLearningFromLongTextstotheShort[J].AppliedMathematics&InformationSciences, 2014, 8(4): 2033-2040. [10]YangP,GaoW,TanQ,etal.Alink-bridgedtopicmodelforcross-domaindocumentclassification[J].InformationProcessing&Management, 2013, 49(6): 1181-1193. [11]ZhouH,ZhangY,HuangD,etal.Semi-supervisedLearningwithTransferLearning[J].ChineseComputationalLinguisticsandNaturalLanguageProcessingBasedonNaturallyAnnotatedBigData.SpringerBerlinHeidelberg, 2013: 109-119. [12] 陳相, 林鴻飛, 楊志豪. 基于高斯混合模型的生物醫(yī)學(xué)領(lǐng)域雙語句子對(duì)齊[J]. 中文信息學(xué)報(bào), 2010, 24(4): 68-73. [13]PanSJ,YangQ.Asurveyontransferlearning[J].KnowledgeandDataEngineering. 2010, 22(10): 1345-1359. [14]DaiW,YangQ,XueGR,etal.Boostingfortransferlearning[C]//Proceedingsofthe24thInternationalConferenceonMachineLearning. 2007: 193-200. [15]ZadroznyB.Learningandevaluatingclassifiersundersampleselectionbias[C]//ProceedingsoftheTwenty-firstInternationalConferenceonMachineLearning. 2004: 114. [16]KullbackS,LeiblerRA.Oninformationandsufficiency[J].TheAnnalsofMathematicalStatistics, 1951, 22(1): 79-86. Protein-Protein Interaction Extraction Based on Transfer Learning LI Lishuang, GUO Rui, HUANG Degen, ZHOU Huiwei (School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116023, China) As an important branch of biomedical information extraction, Protein-Protein Interaction (PPI) extraction has great research significance. Currently, research of PPI mainly focuses on traditional machine learning, which requires the use of large amounts of annotated corpus for training and makes it costly to label the new data. This paper employs Transfer Learning in extracting PPI with a small amount of labeled data of target domain (in-domain), drawing support from annotated data of source domain (out-of-domain). To avoid the negative transfer caused by large differences between the distributions of different domains, we adjust the weights of each instance from source domain, depending on its relative distribution. Experiments on the AIMed corpus and on IEPA corpus reveals the efficiency of our alogrithems. PPI; transfer learning; negative transfer 李麗雙(1967—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言理解、信息抽取與機(jī)器翻譯。E?mail:lils@dlut.edu.cn郭瑞(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿?。E?mail:guoruiaini1994@126.com黃德根(1965—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言理解與機(jī)器翻譯。E?mail:huangdg@dlut.edu.cn 1003-0077(2016)02-0160-08 2013-12-10 定稿日期: 2014-11-28 國家自然科學(xué)基金(61173101, 61173100, 61272375) TP391 A4 實(shí)驗(yàn)及結(jié)果分析
5 總結(jié)