高嘉偉,梁吉業(yè),劉楊磊,李 茹
(1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2. 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
?
一種基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)文檔分類算法
高嘉偉1,2,梁吉業(yè)1,2,劉楊磊1,2,李 茹1,2
(1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2. 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
多標(biāo)記學(xué)習(xí)主要用于解決因單個樣本對應(yīng)多個概念標(biāo)記而帶來的歧義性問題,而半監(jiān)督多標(biāo)記學(xué)習(xí)是近年來多標(biāo)記學(xué)習(xí)任務(wù)中的一個新的研究方向,它試圖綜合利用少量的已標(biāo)記樣本和大量的未標(biāo)記樣本來提高學(xué)習(xí)性能。為了進一步挖掘未標(biāo)記樣本的信息和價值并將其應(yīng)用于文檔多標(biāo)記分類問題,該文提出了一種基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)算法(MKSMLT),該算法首先利用k近鄰算法擴充已標(biāo)記樣本集,結(jié)合Tri-training算法訓(xùn)練分類器,將多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為標(biāo)記排序問題。實驗表明,該算法能夠有效提高文檔分類性能。
半監(jiān)督學(xué)習(xí);多標(biāo)記學(xué)習(xí);文檔分類
多標(biāo)記學(xué)習(xí)(multi-label learning)[1]是近年來機器學(xué)習(xí)領(lǐng)域中的研究熱點問題之一。在多標(biāo)記學(xué)習(xí)問題中,一個訓(xùn)練樣本可能同時對應(yīng)多個不同的類別標(biāo)記,以表達其豐富的語義信息,那么學(xué)習(xí)的任務(wù)是為待分類樣本預(yù)測其可能對應(yīng)的類別標(biāo)記集合。多標(biāo)記學(xué)習(xí)問題廣泛存在于真實世界中,比如在文檔分類任務(wù)中,如圖1所示的一篇關(guān)于“2016年巴西奧運會”的網(wǎng)頁文檔中,同時擁有“體育”、“志愿者”以及“南美洲”等多個類別標(biāo)記。
如果每個樣本只對應(yīng)一個類別標(biāo)記,那么多標(biāo)記學(xué)習(xí)問題可以退化為傳統(tǒng)的兩類或多類學(xué)習(xí)問題。然而,多標(biāo)記學(xué)習(xí)的普適性使得其相對于傳統(tǒng)的學(xué)習(xí)問題更加地復(fù)雜并難以解決。當(dāng)前,多標(biāo)記學(xué)習(xí)面臨的最大挑戰(zhàn)在于標(biāo)記輸出空間過大,即與一個待學(xué)習(xí)樣本相關(guān)聯(lián)的候選類別標(biāo)記集合的數(shù)量將會隨著標(biāo)記空間的增大而成指數(shù)規(guī)模增加。如何充分利用標(biāo)記之間的相關(guān)性是構(gòu)造具有強泛化能力多標(biāo)記學(xué)習(xí)算法的關(guān)鍵。按照考察標(biāo)記之間相關(guān)性的不同方式, 已有的多標(biāo)記學(xué)習(xí)問題求解策略大致分為三類,即“一階”策略、“二階”策略和“高階”策略[2]。
圖1 多標(biāo)記學(xué)習(xí)網(wǎng)頁文檔分類示例圖
傳統(tǒng)的多標(biāo)記學(xué)習(xí)通常是在監(jiān)督意義下考慮的,即要求訓(xùn)練集的所有樣本必須是已標(biāo)記樣本。然而,在現(xiàn)實生活中,雖然獲取大量的訓(xùn)練樣本并不十分困難,但是為這些數(shù)據(jù)提供準確完備的類別標(biāo)記卻需要耗費大量的時間和人力資源。例如,在上述網(wǎng)頁文檔分類任務(wù)中,現(xiàn)實世界中存在著海量的未標(biāo)記文檔,且每一篇文檔可能擁有大量的候選類別標(biāo)記。如果要完整標(biāo)注訓(xùn)練集中的每一個樣本就意味著需要查看每一篇文檔的所有候選類別并逐一標(biāo)注。當(dāng)數(shù)據(jù)規(guī)模較大或者候選類別數(shù)目較多時,要獲得完整類別標(biāo)記的訓(xùn)練樣本集是非常困難的。此時,如果只使用少量已標(biāo)記樣本訓(xùn)練,則得到的模型很難具有較強的泛化能力。而半監(jiān)督學(xué)習(xí)能夠較好地解決上述問題,它綜合利用少量的已標(biāo)記樣本和大量的未標(biāo)記樣本以提高泛化性能[3-4]。因而,融合半監(jiān)督學(xué)習(xí)機制的半監(jiān)督多標(biāo)記學(xué)習(xí)方法成為近年來新的研究熱點。
2.1 多標(biāo)記學(xué)習(xí)之k近鄰算法
2007年,張敏靈等人[5]把傳統(tǒng)的k近鄰學(xué)習(xí)算法擴展到多標(biāo)記學(xué)習(xí)領(lǐng)域,提出了ML-kNN算法。它對于給定的分類測試樣本,首先確定其在訓(xùn)練集中的k個近鄰,然后根據(jù)挑選出的這些近鄰樣本的類別標(biāo)記集合所蘊含的統(tǒng)計信息,利用最大化后驗概率準則確定測試樣本的標(biāo)記集合。在若干多標(biāo)記學(xué)習(xí)問題上的應(yīng)用表明,ML-kNN算法的性能,尤其是算法執(zhí)行效率方面,優(yōu)于其他一些常用的多標(biāo)記學(xué)習(xí)算法。
2.2 多標(biāo)記學(xué)習(xí)之文檔分類
多標(biāo)記學(xué)習(xí)起源于文檔分類研究中遇到的歧義性問題[6]。2000年,Schapire等人[7]在MachineLearning上發(fā)表文章,提出了一種基于集成學(xué)習(xí)的BoosTexter方法。該方法是對AdaBoost算法的擴展,它在訓(xùn)練過程中不僅要改變訓(xùn)練樣本的權(quán)重,同時還要改變類別標(biāo)記的權(quán)重。在此之后,多標(biāo)記文檔分類問題引起了學(xué)界的廣泛關(guān)注。
2001年,Amanda Clare等人[8]通過改變熵的形式,改造了C4.5決策樹分類算法,并使其適應(yīng)多標(biāo)記數(shù)據(jù)的處理。2012年,張敏靈[9]提出了一種新型多標(biāo)記懶惰學(xué)習(xí)算法。它首先以測試樣本為起點,按照不同的類別,對應(yīng)找出這些測試樣本在訓(xùn)練集中近鄰樣本,然后構(gòu)造一個標(biāo)記計數(shù)向量,并提交給已訓(xùn)練得到的分類器進行預(yù)測。2013年,程圣軍等人[10]提出了一種改進的ML-kNN多標(biāo)記文檔分類算法,其中文檔相似度利用KL散度的距離來度量,并根據(jù)k個近鄰樣本所屬類別的統(tǒng)計信息,通過一種模糊最大化后驗概率法則來預(yù)測未標(biāo)記文檔的標(biāo)記集合。
目前關(guān)于文檔分類的多標(biāo)記學(xué)習(xí)主要集中在監(jiān)督意義下。在現(xiàn)實生活中,為訓(xùn)練集標(biāo)注正確完備的類別標(biāo)記需要耗費大量的人力和時間。因此,如果只有少量已標(biāo)記樣本可以利用時,傳統(tǒng)的多標(biāo)記學(xué)習(xí)算法已不再完全適用。
2.3 半監(jiān)督多標(biāo)記學(xué)習(xí)
近來年,一些學(xué)者開始關(guān)注半監(jiān)督多標(biāo)記學(xué)習(xí)(semi-supervised multi-label learning)或直推式多標(biāo)記學(xué)習(xí)(transductive multi-label learning),并取得了一些研究成果。兩者的相同點是學(xué)習(xí)目的相同,都是希望從大量的未標(biāo)記樣本獲取有價值的信息來輔助少量已標(biāo)記樣本的學(xué)習(xí)。但是二者的基本思想與測試環(huán)境卻完全不同。直推式學(xué)習(xí)要求測試樣本必須是訓(xùn)練集中的未標(biāo)記樣本,測試環(huán)境是相對封閉的;而半監(jiān)督學(xué)習(xí)并無此要求,測試樣本與訓(xùn)練樣本完全無關(guān),測試環(huán)境是開放的。
根據(jù)如果樣本具有較大相似性,那么它們對應(yīng)的標(biāo)記集合也可能具有較大相似性的假設(shè),Liu等人[11]于2006年提出了CNMF方法。它通過求解一個帶約束的非負矩陣分解問題,在滿足上述兩種相似性的差值最小的情形下,希望獲得的預(yù)測樣本的標(biāo)記最優(yōu)。2008年,Chen等人[12]提出了SMSE方法,它利用樣本相似性與標(biāo)記相似性構(gòu)圖,通過標(biāo)記傳播思想對未標(biāo)記樣本的標(biāo)記進行預(yù)測。2008年,姜遠等人[13]提出了直推式多標(biāo)記學(xué)習(xí)算法TML,采用隨機游走的思想,并將其應(yīng)用于文檔分類問題。針對如果訓(xùn)練樣本對應(yīng)的標(biāo)記集合中只有小部分擁有標(biāo)記,或者根本沒有任何標(biāo)記,即多標(biāo)記學(xué)習(xí)中的弱標(biāo)記問題,Sun等人[14]和孔祥南等人[15]于2010年分別提出了WELL方法和TML-WL方法,他們都采用標(biāo)記傳播的思想對缺失標(biāo)記進行學(xué)習(xí)。2013年,孔祥南等人[16]同樣采用標(biāo)記傳播的思想提出了TRAM算法。它首先將多標(biāo)記學(xué)習(xí)任務(wù)看作對標(biāo)記集合進行估計的優(yōu)化問題,在得出封閉解的基礎(chǔ)上,給未標(biāo)記樣本分配其對應(yīng)的標(biāo)記。以上方法都是直推式方法,這類方法不能對非測試樣本進行預(yù)測,具有一定的局限性。2012年,李宇峰等人[17]針對歸納式半監(jiān)督多標(biāo)記學(xué)習(xí),引入正則項使得相似的樣本擁有相似的標(biāo)記和約束分類器的復(fù)雜度,提出了一種正則化方法MASS算法。
但是上述方法都沒有考慮到目前半監(jiān)督學(xué)習(xí)重要的方法之一的協(xié)同訓(xùn)練機制[18]在多標(biāo)記學(xué)習(xí)領(lǐng)域的擴展和應(yīng)用。2013年,劉楊磊等人[19]以協(xié)同訓(xùn)練思想為核心,以兩兩標(biāo)記之間的關(guān)系為出發(fā)點,利用Tri-training算法[20]訓(xùn)練分類器,并將多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為標(biāo)記排序問題進行求解,提出了半監(jiān)督多標(biāo)記學(xué)習(xí)SMLT算法。從文獻[19]中實驗部分可以看出,已標(biāo)記樣本集的規(guī)模對于最終的分類結(jié)果有較大影響。因而當(dāng)已標(biāo)記樣本集在已經(jīng)給定的情形下,如何充分利用現(xiàn)有的數(shù)據(jù)來擴充已標(biāo)記樣本集從而提高多標(biāo)記學(xué)習(xí)的分類性能成為本文的研究動機。
本文提出了一種基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)算法(MKSMLT),該算法首先利用k近鄰算法擴充已標(biāo)記樣本集,并結(jié)合Tri-training算法訓(xùn)練得到分類器,將多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為標(biāo)記排序問題。
為了能夠針對后續(xù)分類過程中產(chǎn)生的標(biāo)記排序結(jié)果進行有效客觀的分析,并得到最終的預(yù)測標(biāo)記結(jié)果,因而在算法的預(yù)處理階段,給所有訓(xùn)練樣本xi添加虛擬標(biāo)記yi0,并把測試樣本通過分類算法在虛擬類標(biāo)記上的得票數(shù)作為閾值對標(biāo)記排序結(jié)果進行有效劃分。因此,引入虛擬類標(biāo)記后,涉及到標(biāo)記的下標(biāo)都應(yīng)從0開始。
3.1 算法思想
傳統(tǒng)多標(biāo)記學(xué)習(xí)無法充分利用大量的未標(biāo)記樣本,僅憑借少量已標(biāo)記樣本訓(xùn)練得到的分類器泛化能力不強。因此,利用協(xié)同訓(xùn)練Tri-training算法訓(xùn)練分類器,能夠綜合利用少量的已標(biāo)記樣本和大量的未標(biāo)記樣本以提高泛化性能。為了進一步挖掘未標(biāo)記樣本的信息和價值,在訓(xùn)練分類器之前首先利用ML-kNN算法對未標(biāo)記樣本集進行預(yù)測,然后將預(yù)測標(biāo)記中置信度較高的樣本添加至已標(biāo)記樣本集中,以實現(xiàn)對已標(biāo)記樣本集的擴充。
首先,利用ML-kNN算法,將未標(biāo)記樣本集U中滿足條件的樣本擴充至已標(biāo)記樣本集L中。此時,為了將置信度較高的樣本添加至已標(biāo)記樣本集L中得到擴充后的已標(biāo)記樣本集Lnew,需要設(shè)置一個閾值th篩選置信度較高的樣本。由于不同的數(shù)據(jù)差別較大,該閾值由經(jīng)驗確定。
最后,在測試過程中,針對某個測試樣本,用學(xué)習(xí)得到的3個分類器,對其在每一標(biāo)記進行預(yù)測,并統(tǒng)計每個標(biāo)記所得的票數(shù)Rsj,并最終得到該測試樣本在所有標(biāo)記上的一個標(biāo)記排序結(jié)果。在此利用虛擬標(biāo)記y″s0的得票數(shù)Rs0作為劃分所取類標(biāo)記的依據(jù)。如果Rsj>Rs0,(j=1,2,…,n),則樣本x″s在第j個標(biāo)記的取值為1,即y″sj=1;否則y″sj=0。這樣就可以得出對測試樣本的分類結(jié)果Y″。
3.2 算法流程
算法流程圖如圖2所示。
圖2 算法流程圖
輸入:原始已標(biāo)記樣本集L,未標(biāo)記樣本集U,測試集T
輸出:測試集T的分類結(jié)果Y″
步驟1 初始化用于存放投票數(shù)的Rsj和用于臨時存放訓(xùn)練樣本的集合Vpq,使Rsj=0,(s=1,2,…,w;j=0,1,…,n),Vpq=φ,(0≤p 步驟2 利用ML-kNN算法以及由經(jīng)驗值確定的閾值th對已標(biāo)記樣本集L進行擴充,得到新的已標(biāo)記樣本集L*。其中ML-kNN算法的參數(shù)設(shè)置為文獻[6]中公布的最好參數(shù),即最近鄰數(shù)k=10,平滑指數(shù)smooth=1。 步驟5 利用得到的3個分類器對測試集T中的未標(biāo)記樣本x″s,(s=1,2,…,w)進行預(yù)測,得出分類結(jié)果rspq并分別統(tǒng)計對應(yīng)標(biāo)記獲得的投票數(shù)。如果rspq=1,則樣本x″s屬于第p類標(biāo)記,對應(yīng)的Rsp自增1;如果rspq=0,則樣本x″s屬于第q類標(biāo)記,對應(yīng)的Rsq自增1。 步驟7 對于測試集T中的未標(biāo)記樣本x″s,如果其在第j個標(biāo)記上獲得的投票數(shù)Rsj大于虛擬標(biāo)記獲得的投票數(shù)Rs0,即Rsj>Rs0,(j=1,2,…,n),則未標(biāo)記樣本x″s在第j個標(biāo)記的取值為1,即y″sj=1;否則y″sj=0。最終可以輸出測試集的預(yù)測標(biāo)記集合Y″={Y″s,s=1,2,…,w}。 本文實驗分為兩個部分,一是在各個領(lǐng)域中常用的多標(biāo)記數(shù)據(jù)集上的實驗對比,二是在網(wǎng)頁文檔分類領(lǐng)域中的“yahoo.com”數(shù)據(jù)集上的實驗對比。 4.1 在常用多標(biāo)記數(shù)據(jù)集上的對比實驗 本文分別在emotions、scene、yeast、enron4個常用的多標(biāo)記數(shù)據(jù)集[21]上,與多標(biāo)記學(xué)習(xí)的多種算法實驗對比,其中包括ML-kNN[5]、TRAM[16]以及SMLT[19]。實驗數(shù)據(jù)集的相關(guān)信息如表1所示。 表1 實驗數(shù)據(jù)集相關(guān)信息 實驗選用常用的4種多標(biāo)記學(xué)習(xí)評價指標(biāo)(Hamming Loss,One-Error,Coverage,Ranking Loss)對算法性能進行評估。這4種評價指標(biāo)的值越小,表明多標(biāo)記學(xué)習(xí)算法的分類性能越好[22]。 實驗抽取各數(shù)據(jù)集的90%作為訓(xùn)練樣本集(其中10%的訓(xùn)練樣本是已標(biāo)記樣本集L,90%的訓(xùn)練樣本是未標(biāo)記樣本集U),其余10%的數(shù)據(jù)為測試樣本集T,重復(fù)10次統(tǒng)計其平均結(jié)果。由于TRAM算法屬于直推式方法,不能直接對未見樣本進行預(yù)測,因而實驗中將測試樣本T也并入TRAM訓(xùn)練時的未標(biāo)記樣本集U中。TRAM的參數(shù)k取值為10。 表2到表5列出了相關(guān)實驗結(jié)果,加粗部分為每個指標(biāo)上的最佳性能。 表2 數(shù)據(jù)集yeast上各算法實驗結(jié)果 續(xù)表 表3 數(shù)據(jù)集emotions上各算法實驗結(jié)果 表4 數(shù)據(jù)集scene上各算法實驗結(jié)果 表5 數(shù)據(jù)集enron上各算法實驗結(jié)果 通過分析表2至表5,在以上4個數(shù)據(jù)集中,本文提出的MKSMLT算法大部分都取得了較好的分類結(jié)果,4個評估指標(biāo)大多優(yōu)于其他同類算法。 4.2 在文檔分類領(lǐng)域中數(shù)據(jù)集上的對比實驗 本文選用了2個“yahoo.com”數(shù)據(jù)集進行了實驗,數(shù)據(jù)集來自于真實的網(wǎng)頁文檔。這兩個數(shù)據(jù)集分別對應(yīng)于yahoo的Business&Economy和Science兩個一級類別,每個網(wǎng)頁再根據(jù)yahoo的二級類別賦予標(biāo)記。由于每個網(wǎng)頁可能同時隸屬于多個二級類別,因此,該數(shù)據(jù)集是較為典型的網(wǎng)頁文本分類的多標(biāo)記數(shù)據(jù)集。每個數(shù)據(jù)集都包括2 000個訓(xùn)練樣本和3 000個測試樣本。 實驗同樣采用上文所述的Hamming Loss,One-Error,Coverage,Ranking Loss 這4種常用的多標(biāo)記學(xué)習(xí)評價指標(biāo)對算法性能進行評估。 實驗將抽取每個數(shù)據(jù)集2 000個訓(xùn)練樣本中的10%為已標(biāo)記樣本集L,其余的90%為未標(biāo)記樣本集U,同時從3 000個測試樣本中隨機抽取300個樣本作為測試集T。實驗中TRAM算法設(shè)置同上。 表6和表7給出了實驗結(jié)果,加粗部分為每個指標(biāo)上的最佳性能。 表6 數(shù)據(jù)集Business&Economy上各算法實驗結(jié)果 表7 數(shù)據(jù)集Science上各算法實驗結(jié)果 通過分析表6和表7,在兩個數(shù)據(jù)集上,本文提出的MKSMLT算法大部分都取得了較好的分類結(jié)果,四個評估指標(biāo)大多優(yōu)于其他同類算法。 本文針對廣泛存在于現(xiàn)實生活中的半監(jiān)督多標(biāo)記學(xué)習(xí)問題,綜合利用少量的已標(biāo)記樣本和大量的未標(biāo)記樣本,充分挖掘未標(biāo)記樣本的信息和價值,首先利用ML-kNN算法擴充已標(biāo)記樣本集,以多標(biāo)記的“二階”策略為出發(fā)點,結(jié)合Tri-training算法訓(xùn)練得到多標(biāo)記學(xué)習(xí)分類器,將多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為標(biāo)記排序問題求解,并將其應(yīng)用于文檔文類領(lǐng)域。實驗結(jié)果表明了本文提出算法的有效性。但是,當(dāng)多標(biāo)記學(xué)習(xí)問題中的標(biāo)記的數(shù)量和樣本的規(guī)模較大時,如何進一步降低算法的計算復(fù)雜度以及閾值參數(shù)th的選定仍將是需要深入討論的問題。 [1]TsoumakasG,KatakisI.Multi-labelclassification:Anoverview[J].InternationalJournalofDataWarehousingandMining, 2007,3(3): 1-13. [2]ZhangMinling,ZhangK.Multi-labellearningbyexploitinglabeldependency[C]//Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,Washington,D.C., 2010, 999-1007. [3]ZhuXiaojin.Semi-supervisedLearningLiteratureSurvey[R].MadisonUniversityofWisconsin,2008. [4] 常瑜, 梁吉業(yè), 高嘉偉,等. 一種基于Seeds集和成對約束的半監(jiān)督聚類算法[J]. 南京大學(xué)學(xué)報(自然科學(xué)版), 2012,48(4): 405-411. [5]ZhangMinling,ZhouZhihua.ML-kNN:Alazylearningapproachtomulti-labellearning[J].PatternRecognition, 2007, 40(7): 2038-2048. [6] 廣凱, 潘金貴. 一種基于向量夾角的k近鄰多標(biāo)記文本分類算法[J]. 計算機科學(xué), 2008,35(4): 205-207. [7]RobertE.Schapire,YoramSinger.BoosTexter:aboosting-basedsystemfortextcategorization[J].MachineLearning, 2000, 39(2-3):135-168. [8]AmandaClare,RossD.King.Knowledgediscoveryinmulti-labelphenotypedata[J].LectureNotesinComputerScience, 2001, 2168:42-53. [9] 張敏靈. 一種新型多標(biāo)記懶惰學(xué)習(xí)算法[J]. 計算機研究與發(fā)展. 2012,49(11):2271-2282. [10] 程圣軍, 黃慶成, 劉家鋒,等. 一種改進的ML-kNN多標(biāo)記文檔分類方法 [J]. 哈爾濱工業(yè)大學(xué)學(xué)報,2013,45(11): 45-49. [11]LiuYi,JinRong,YangLiu.Semi-supervisedmulti-labellearningbyconstrainednon-negativematrixfactorization[C]//Proceedingsofthe21stNationalConferenceonArtificialIntelligence.MenloPark:AAAI,2006: 421-426. [12]ChenGang,SongYangqiu,WangFei,etal.Semi-supervisedmulti-labellearningbySolvingaSylvesterequation[C]//ProceedingsofSIAMInternationalConferenceonDataMining.LosAlamitos,CA:IEEEComputerSociety, 2008: 410-419. [13] 姜遠,佘俏俏,黎銘,等. 一種直推式多標(biāo)記文檔分類方法[J]. 計算機研究與發(fā)展,2008,45(11): 1817-1823. [14]SunYuyin,ZhangYin,ZhouZhihua.Multi-labellearningwithweaklabel[C]//Proceedingsofthe24thAAAIConferenceonArtificialIntelligence.MenloPark:AAAI, 2010: 593-598. [15] 孔祥南, 黎銘, 姜遠,等. 一種針對弱標(biāo)記的直推式多標(biāo)記分類方法[J]. 計算機研究與發(fā)展. 2010,47(8):1392-1399. [16]XiangnanKong,MichaelK.Ng,ZhouZhihua.TransductiveMulti-labelLearningviaLabelSetPropagation[J].IEEETransactionsonKnowledgeandDataEngineering, 2013,25(3): 704-719. [17] 李宇峰, 黃圣君, 周志華. 一種基于正則化的半監(jiān)督多標(biāo)記學(xué)習(xí)方法[J]. 計算機研究與發(fā)展. 2012,49(6): 1272-1278. [18] 周志華,王玨. 半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法[M]. 機器學(xué)習(xí)及其應(yīng)用.北京:清華大學(xué)出版社, 2007: 259-275. [19] 劉楊磊, 梁吉業(yè), 高嘉偉,等. 基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)算法[J]. 智能系統(tǒng)學(xué)報.2013, 8(5):439-445. [20]ZhouZhihua,LiMing.Tri-training:Exploitingunlabeleddatausingthreeclassifiers[J].IEEETransactionsonKnowledgeandDataEngineering, 2005, 17(11): 1529-1541. [21]http://mulan.sourceforge.net/datasets.html[OL]. [22]ZhouZhihua,ZhangMinling,HuangShengjun,etal.Multi-instancemulti-labellearning[J].ArtificialIntelligence, 2012, 176:2291-2320. A Tri-training Based Semi-supervised Multi-label Learning for Text Categorization GAO Jiawei1,2, LIANG Jiye1,2,LIU Yanglei1,2,LI Ru1,2 (1. School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China;2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Taiyuan, Shanxi 030006,China) Multi-label learning is proposed to deal with the ambiguity problem in which a single sample is associated with multiple concept labels simultaneously, while the semi-supervised multi-label learning is a new research direction in recent years. To further exploit the information of unlabeled samples, a semi-supervised multi-label learning algorithm based on Tri-training(MKSMLT) is proposed. It adopts ML-kNN algorithm to get more labeled samples, then employs the Tri-training algorithm to use three classifiers to rank the unlabeled samples. Experimental results illustrate that the proposed algorithm can effectively improve the classification performance. semi-supervised learning; multi-label learning; text categorization 高嘉偉(1980—),講師,博士研究生,主要研究領(lǐng)域為機器學(xué)習(xí)。E?mail:gjw@sxu.edu.cn梁吉業(yè)(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為機器學(xué)習(xí)、計算智能、數(shù)據(jù)挖掘等。E?mail:ljy@sxu.edu.cn劉楊磊(1990—),碩士研究生,主要研究領(lǐng)域為機器學(xué)習(xí)。E?mail:lyl_super@126.com 1003-0077(2015)01-0104-07 2013-03-23 定稿日期: 2014-12-15 國家重點基礎(chǔ)研究發(fā)展規(guī)劃(973)前期研究專項(2011CCB311805);國家自然科學(xué)基金(61432011,61100058,61202018);山西省科技攻關(guān)項目(20110321027-01);山西省科技基礎(chǔ)條件平臺建設(shè)項目(2012091002-0101) TP391 A4 實驗
5 總結(jié)與展望