趙建華
(1. 西北工業(yè)大學(xué)計算機學(xué)院,陜西 西安 710072; 2. 商洛學(xué)院數(shù)學(xué)與計算機應(yīng)用學(xué)院,陜西 商洛 726000)
半監(jiān)督分類[1-2]是利用大量無標(biāo)記數(shù)據(jù)擴大分類算法的訓(xùn)練集,從有監(jiān)督學(xué)習(xí)的角度出發(fā), 當(dāng)已標(biāo)記訓(xùn)練樣本不足時, 研究如何自動地利用大量未標(biāo)記樣本信息輔助分類器的訓(xùn)練, 挖掘未標(biāo)記樣本隱含信息,提高分類性能。
目前半監(jiān)督學(xué)習(xí)方法大致有4種主流范型:基于生成式模型的方法、半監(jiān)督SVM方法、基于圖的半監(jiān)督學(xué)習(xí)方法和基于分歧的半監(jiān)督學(xué)習(xí)方法?;谏墒侥P偷姆椒ㄍǔ0盐礃?biāo)記樣本屬于每個類別的概率看成一組缺失參數(shù),然后采用EM算法對生成式模型的參數(shù)進(jìn)行極大似然估計;半監(jiān)督SVM方法是對未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)標(biāo)記,選取使SVM超平面在所有數(shù)據(jù)上間隔最大化的標(biāo)記作為最終的標(biāo)記;基于圖的半監(jiān)督學(xué)習(xí)方法是利用有標(biāo)記和未標(biāo)記數(shù)據(jù)構(gòu)建數(shù)據(jù)圖,并且基于圖上的鄰接關(guān)系將標(biāo)記從有標(biāo)記的數(shù)據(jù)點向未標(biāo)記數(shù)據(jù)點傳播;基于分歧的半監(jiān)督學(xué)習(xí)方法是通過多個學(xué)習(xí)器對未標(biāo)記數(shù)據(jù)進(jìn)行利用,在學(xué)習(xí)過程中將未標(biāo)記數(shù)據(jù)作為多學(xué)習(xí)器間信息交互的平臺[3-4]。
基于分歧的半監(jiān)督學(xué)習(xí)(也稱基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí))的研究始于協(xié)同訓(xùn)練(Co-training)[5]。該技術(shù)較少受到模型假設(shè)、損失函數(shù)非凸性和數(shù)據(jù)規(guī)模問題的影響,學(xué)習(xí)方法簡單有效,理論基礎(chǔ)相對堅實,適用范圍較為廣泛。后續(xù)研究[3-4]表明,多學(xué)習(xí)器間的”分歧”對此類學(xué)習(xí)的成效至關(guān)重要。
Co-training是A. Blum 等[5]在1998年提出的。他們假設(shè)數(shù)據(jù)集有2個充分冗余(sufficient and redundant)的視圖(view),在協(xié)同訓(xùn)練過程中,每個分類器從無標(biāo)記樣本中挑選出若干置信度較高的樣本進(jìn)行標(biāo)記,并把標(biāo)記后的樣本加入另一個分類器的有標(biāo)記訓(xùn)練集中,以便對方利用這些新標(biāo)記的樣本進(jìn)行更新。
為進(jìn)一步放松協(xié)同訓(xùn)練的約束條件,Zhou Z.H.等[6]提出一種既不要求充分冗余視圖也不要求使用不同類型分類器的tri-training算法,通過3個分類器協(xié)同工作,只要其中2個分類器對無標(biāo)記樣本的預(yù)測結(jié)果一致,就將樣本和新標(biāo)記添加到第3個分類器的訓(xùn)練集中。該算法具有較好的實驗效果。文獻(xiàn)[7-9]對Co-training的多視圖條件進(jìn)行了進(jìn)一步的分析和弱化。文獻(xiàn)[10-12]將Co-training與主動學(xué)習(xí)結(jié)合起來,進(jìn)一步提高了半監(jiān)督的分類性能。文獻(xiàn)[13]提出一種增強差異性的半監(jiān)督協(xié)同分類算法,該算法使用不同類型的分類算法訓(xùn)練分類器進(jìn)行分類,通過基于分類正確率的加權(quán)投票法實現(xiàn)分類器的集成。文獻(xiàn)[14]提出一種3分類器協(xié)同投票的半監(jiān)督分類算法,即將3個分類器預(yù)測結(jié)果一致的標(biāo)記作為未標(biāo)記樣本的最終標(biāo)記,其操作簡單,并取得了較好的效果。
然而,現(xiàn)有的基于分歧的半監(jiān)督分類算法總體上存在以下問題: 1)僅僅利用有標(biāo)記樣本增強分類器的差異性,沒有充分利用大量無標(biāo)記樣本的豐富信息[15];2)缺乏有效的安全機制,新標(biāo)記樣本的引入會造成分類器性能的下降[1,9];3)一些分類算法要么對視圖條件要求較高,要么對各個分類器的類型要求不一致,操作也不方便[7,13]。本文對現(xiàn)有的基于分歧的半監(jiān)督分類算法進(jìn)行改進(jìn),提出一種安全的基于分歧的半監(jiān)督分類算法(a safe coordination semi-supervised classification,Safe Co-SSC)。Co-SSC充分利用未標(biāo)記樣本的豐富信息增強分類器的分歧性,僅選取能提高分類率的未標(biāo)記樣本進(jìn)行標(biāo)記,保證分類器向著分類率提高的方向演化,提高了算法的安全性。同時,Co-SSC不需要多視圖,選用3個分類器進(jìn)行協(xié)同工作,3個分類器只需要一種類型的有監(jiān)督分類算法,操作簡單。
Safe Co-SSC選用3個分類器,通過3個不同的有標(biāo)記訓(xùn)練集訓(xùn)練對應(yīng)的分類器,采取3個分類器加權(quán)投票的策略對無標(biāo)記樣本進(jìn)行偽標(biāo)記,對偽標(biāo)記樣本進(jìn)行二次驗證,只有那些能有效提高分類器分類率的新標(biāo)記樣本,才能作為最終的新增標(biāo)記樣本擴充標(biāo)記樣本集,同時,充分利用無標(biāo)記樣本的隱含信息,增強分類器的差異性。這樣,保證了新樣本的添加,一方面有利于減少分類器的分類誤差,另一方面有利于提高分類器的分歧性。
使用1個分類器,屬于自學(xué)習(xí)的self-training,分類效果較差;使用2個分類器,屬于經(jīng)典的 Co-training, 它要求分類器具有2個獨立的視圖并且分類器類型不一致,操作復(fù)雜。Safe Co-SSC算法借鑒了tri-training的思想,使用3個分類器,不僅可以簡便地處理置信度估計問題,還可以利用集成學(xué)習(xí)(ensemble learning)來提高泛化能力,使用集成學(xué)習(xí)中經(jīng)常采用的投票法將3個分類器組成一個集成來實現(xiàn)對未標(biāo)記樣本的預(yù)測[6]。
Safe Co-SSC結(jié)構(gòu)如圖1所示,L為有標(biāo)記樣本集,U為無標(biāo)記樣本集,S(k)為新增加的k個有標(biāo)記樣本集。將L通過抽樣算法分成3個標(biāo)記集L1、L2和L3,通過有監(jiān)督算法訓(xùn)練生成3個分類器C1、C2和C3,分別實現(xiàn)對無標(biāo)記樣本的標(biāo)記,記為y1、y2和y3。根據(jù)3個分類器的分類誤差計算其權(quán)值w1、w2和w3,使用各個分類器標(biāo)記和權(quán)值的線性組合即決策函數(shù)實現(xiàn)對無標(biāo)記的偽標(biāo)記。為提高偽標(biāo)記的可靠性和安全性,通過2個判斷條件對偽標(biāo)記樣本進(jìn)行二次篩選,將結(jié)果作為最終的新增標(biāo)記樣本,同時使用新增樣本分配策略將最終的新增標(biāo)記樣本分配到3個訓(xùn)練集,提高分類器的分歧性。其主要包括訓(xùn)練集的初始化、分類器加權(quán)投票、決策判斷和新增樣本分配策略等4個階段。
圖 1 分類器的結(jié)構(gòu)
1) 訓(xùn)練集的初始化。采用抽樣方法對L進(jìn)行自助抽樣,產(chǎn)生3個差異性較大的子集L1、L2和L3,并作為初始的訓(xùn)練集。該抽樣方法主要思想是,首先統(tǒng)計標(biāo)記樣本的總數(shù)目和各類別樣本的數(shù)目,計算各種類別樣本的比例,按照比例和抽樣子集的大小,確定每個分類器中各種類別樣本的組成。
在初始化的過程中,為提高各個分類器之間的差異性,先將某一類樣本(如正類)分配到3個分類器中,再將另一類樣本(如負(fù)類)依次添加到3個分類器中。在添加第2類樣本時,可以預(yù)先設(shè)計幾種方案,每種方案使用分類器C1、C2和C3對選取無標(biāo)記進(jìn)行預(yù)測,然后比較3個預(yù)測結(jié)果,選取3個分類器預(yù)測差異較大的方案作為最終新增標(biāo)記樣本分配方案。
2) 分類器加權(quán)投票。為充分利用無標(biāo)記樣本隱含信息,提高半監(jiān)督分類器對無標(biāo)記樣本進(jìn)行標(biāo)記的正確率,采用分類器加權(quán)投票的方法對無標(biāo)記樣本進(jìn)行偽標(biāo)記。使用有監(jiān)督分類算法分別訓(xùn)練L1、L2和L3,生成3個分類器C1、C2和C3。使用分類器C1、C2和C3對無標(biāo)記集S中的無標(biāo)記樣本進(jìn)行預(yù)測,假設(shè)無標(biāo)記樣本u對應(yīng)的預(yù)測標(biāo)記分別為y1、y2和y3。同時,計算各個分類器的權(quán)值,采用各分類器分類正確率加權(quán)投票法對無標(biāo)記樣本進(jìn)行偽標(biāo)記,挖掘未標(biāo)簽樣本中的隱含信息,擴大有標(biāo)簽樣本的數(shù)目。假設(shè),根據(jù)分類器C1、C2和C3的分類誤差分別計算對應(yīng)的權(quán)值w1、w2和w3,使用決策函數(shù)(公式(1)),通過3個分類器的正確率和權(quán)值的線性組合計算對無標(biāo)記樣本進(jìn)行偽標(biāo)記。其中,各個分類器的權(quán)值計算方法如式(2)所示,其值與該分類器的分類正確率相關(guān),即加大分類誤差率小的分類器的權(quán)值,使其在表決中起較大作用,減小分類器誤差率大的分類器的權(quán)值,使其在表決中起較小作用。
y=sign(w1y1+w2y2+w3y3),
(1)
(2)
式中:ei表示第i個分類器的分類誤差;wi第i個分類器對應(yīng)的權(quán)值。
3) 決策判斷。為提高樣本標(biāo)記的正確率以及新增樣本對分類器的安全性,使用判斷條件對偽標(biāo)記樣本進(jìn)行判斷,只有滿足2個判斷條件的偽標(biāo)記樣本才作為真正的標(biāo)記樣本擴充L。判斷條件1如式(3)所示,假設(shè)將新標(biāo)記樣本添加到標(biāo)記樣本集L中,形成L′,使用L′訓(xùn)練分類器,對測試集進(jìn)行測試,計算本輪循環(huán)中的分類率和標(biāo)記樣本規(guī)模,判斷是否滿足公式(3)。如果滿足,則將該樣本作為L的候選樣本,否則將該樣本直接淘汰。判斷條件1的作用和意義主要是保證候選標(biāo)記樣本加入后,本輪的錯誤率較上一輪的錯誤率在減少,標(biāo)記樣本數(shù)目在增大。該條件能保證分類器向著分類率提高的方向進(jìn)行演化,能避免因無標(biāo)記樣本的增加使分類器性能惡化的發(fā)生。
(3)
式中:et表示第t次迭代中分類器的分類誤差;et-1表示第t-1次迭代中分類器的分類誤差;Lt-1表示第t-1次迭代中標(biāo)記樣本的規(guī)模;Lt表示第t次迭代中標(biāo)記樣本的規(guī)模。
對于滿足判斷條件1的候選標(biāo)記樣本,進(jìn)入判斷條件2。判斷條件2作用在于根據(jù)各個候選標(biāo)記樣本的誤差率進(jìn)行排序,選擇誤差率最小的前k個樣本s(k)作為最終的標(biāo)記樣本,擴充標(biāo)記集L,并從無標(biāo)記樣本集U中刪除s(k)。另外,k值代表誤差率最小的樣本的數(shù)目,k的初始值隨機給出,這里設(shè)置為2。k值根據(jù)分類器分類率和正確標(biāo)記率變化情況進(jìn)行動態(tài)自動調(diào)整。如果本輪分類率提高了,k加1,否則k減1。
4) 標(biāo)記樣本分配策略。如何提高多個分類器的差異性(分歧),是基于分歧的半監(jiān)督分類中的一個非常重要問題。對于有監(jiān)督分類算法而言,提高分類器差異性的辦法一般都是通過幾個分類器對有標(biāo)記樣本進(jìn)行預(yù)測,根據(jù)預(yù)測結(jié)果和實際標(biāo)記的不同標(biāo)記樣本的數(shù)目來計算各個分類器之間的差異性。對于半監(jiān)督學(xué)習(xí)而言,有標(biāo)記樣本數(shù)目有限,存在大量的包含豐富信息的無標(biāo)記樣本,僅僅使用有標(biāo)記樣本是對無標(biāo)記樣本的巨大浪費,而且僅僅使用有標(biāo)記樣本得到精確度也不高。Safe Co-SSC充分利用無標(biāo)記樣本的信息來計算3個分類器的差異性。
Safe Co-SSC將新增加的標(biāo)記樣本添加到3個訓(xùn)練集L1、L2和L3中,以提高3個分類器的分歧。具體地講,通過幾種方案將新增加的標(biāo)記樣本分別添加進(jìn)3個分類器C1、C2和C3,按照每種方案使用分類器C1、C2和C3對無標(biāo)記樣本集進(jìn)行預(yù)測,計算此時分類器對無標(biāo)記樣本預(yù)測值不相等的值,將預(yù)測值不相等的值作為分類器差異性的判斷依據(jù),選取3個分類器預(yù)測值不相等的值最大的方案作為最終新增標(biāo)記樣本分配方案,擴充3個分類器的訓(xùn)練集。其中,通過無標(biāo)記樣本計算分類器差異性,其公式為
(4)
式中:f表示各個基分 類器使用的分類方法;S表示使用f進(jìn)行預(yù)測分類的無標(biāo)記樣本集;m表示分類器的數(shù)目(文中m=3),d(fp,fq,S)表示分類器fp和fq的差異性。 2個分類器的差異性,可以通過它們分別對無標(biāo)記樣本樣本集S進(jìn)行預(yù)測的不相等樣本數(shù)目來求出,計算公式為
(5)
式中:fp(x)表示分類器p對x的預(yù)測值;fq(x)表示分類器q對x的預(yù)測值;x表示無標(biāo)記樣本。
Safe Co-SSC的算法描述如表1所示,算法的空間復(fù)雜度為O(nl)。假定以決策樹為基分類器,假定樹的深度為d,則檢測每棵樹的計算代價為O(dInllognl),未標(biāo)記樣本標(biāo)記完需要的時間代價為O(nudInllognl), Safe Co-SSC的時間復(fù)雜度為O(nudInllognl+dI(nl+nu)log(nl+nu))。其中,I表示輸入樣本的維數(shù),nl表示有標(biāo)記樣本的數(shù)目,nu表示無標(biāo)記樣本的數(shù)目。
表1 Safe Co-SSC算法描述
與標(biāo)準(zhǔn)的Co-training[5]相比較,Safe Co-SSC不需要充分冗余視圖,也不要求使用不同類型分類器,工作條件得到弱化;與改進(jìn)的tri-training[6]算法相比較,Safe Co-SSC直接通過3個分類器協(xié)同投票工作,實現(xiàn)對無標(biāo)記樣本進(jìn)行標(biāo)記,替代了繁瑣的分類器兩兩協(xié)同交叉比較,操作得到簡化,效率得到提高。
最重要的是,Safe Co-SSC算法能充分利用無標(biāo)記樣本的信息,增強分類器之間的差異性;采用基于分類器正確率加權(quán)的策略對無標(biāo)記樣本進(jìn)行標(biāo)記,通過二次驗證保證新增加標(biāo)記樣本后,分類器能向著提高分類率的方向不斷進(jìn)行演化,較好地改善了因新標(biāo)記樣本的增加造成的分類器性能惡化。
實驗平臺選用Intel Core2 Duo CPU 2.0GHz、內(nèi)存2.0GB的PC,安裝Windows XP 操作系統(tǒng)和R2009b (v7.9.0.529)編程環(huán)境。實驗采用UCI數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/)中常用的5個數(shù)據(jù)集,如表2所示。為驗證本文提出分類方法的有效性,與其他一些經(jīng)典分類方法,如tri-training[6]進(jìn)行實驗比較。
在表2所選取的樣本中,將訓(xùn)練集和測試集的樣本數(shù)設(shè)為1∶1,即訓(xùn)練集和測試集各占列表中數(shù)據(jù)集的50%。為能正確統(tǒng)計分類方法的正確分類率,將訓(xùn)練集分為標(biāo)記樣本和無標(biāo)記樣本;為能正確統(tǒng)計出分類器對無標(biāo)記樣本的正確標(biāo)記率,按照有標(biāo)記樣本占訓(xùn)練集(包括標(biāo)記樣本和無標(biāo)記樣本)的不同數(shù)目比例進(jìn)行3類實驗:第1類實驗為有標(biāo)記樣本占訓(xùn)練集樣本的5%;第2類實驗為有標(biāo)記樣本占訓(xùn)練集樣本的10%;第3種類實驗為有標(biāo)記樣本占訓(xùn)練集樣本的20%[16]。
實驗流程圖如圖2所示,首先對數(shù)據(jù)集歸一化到[0,1]之間;接著將有標(biāo)記集分為3份,訓(xùn)練生成3個有監(jiān)督分類器,通過Safe Co-SSC對無標(biāo)記樣本進(jìn)行標(biāo)記,擴充標(biāo)記樣本集形成新的訓(xùn)練集;最后使用新訓(xùn)練集訓(xùn)練分類器,實現(xiàn)對測試集的測試,統(tǒng)計實驗結(jié)果。
圖 2 實驗流程圖
實驗分別運用tri-training算法[6]和Safe Co-SSC算法,每種半監(jiān)督算法中的3個分類器都選用相同類型的有監(jiān)督分類算法,根據(jù)選取的有監(jiān)督算法的不同分為2種實驗:第1種實驗采用SVM[17-18]算法作為有監(jiān)督分類器;第2種實驗采用RBF算法作為有監(jiān)督分類器。分別從對無標(biāo)記樣本進(jìn)行標(biāo)記的正確標(biāo)記率(rate1)、對測試集樣本預(yù)測分類的正確分類率(rate2)2個指標(biāo)進(jìn)行比較:
(6)
(7)
實驗結(jié)果如表3—8所示。在表3—5中,tri-training算法和Safe Co-SSC算法使用SVM作為有監(jiān)督分類器進(jìn)行樣本標(biāo)記預(yù)測,SVM這一列表示僅使用初始的標(biāo)記樣本訓(xùn)練分類器在測試集上進(jìn)行分類的正確分類率rate2。同樣的道理,在表6—8中,tri-training算法和Safe Co-SSC算法使用RBF作為有監(jiān)督分類器進(jìn)行樣本標(biāo)記預(yù)測,RBF這一列表示僅使用初始的標(biāo)記樣本訓(xùn)練分類器得到的分類率。
表3和表6表示第1類實驗 (有標(biāo)記樣本∶訓(xùn)練集樣本= 5%)的結(jié)果。表4和表7表示第2類實驗 (有標(biāo)記樣本∶訓(xùn)練集樣本= 10%)的結(jié)果。表5和表8表示第3類實驗 (有標(biāo)記樣本∶訓(xùn)練集樣本=20%)的結(jié)果。
從實驗結(jié)果可以看出,對于實驗中列出的所有樣本,相對tri-training算法,本文提出的Safe Co-SSC算法能非常好地提高對無標(biāo)記樣本標(biāo)記的正確標(biāo)記率rate1和正確分類率rate2,使用SVM分類效果尤其明顯。另外,在使用ionosphere樣本和Sonar樣本進(jìn)行實驗的時候,tri-training出現(xiàn)了分類性能下降的情況,但是Safe Co-SSC的分類性能效果非常好。這都表明,本文提出的Safe Co-SSC算法保證分類不斷向著分類率提高的方向演化,能大大地改善基于分歧的半監(jiān)督學(xué)習(xí)的分類性能。
表3 實驗結(jié)果(λ=5%,有監(jiān)督分類算法為SVM) %
表4 實驗結(jié)果(λ=10%,有監(jiān)督分類算法為SVM) %
表5 實驗結(jié)果(λ=20%,有監(jiān)督分類算法為SVM) %
表6 實驗結(jié)果(λ=5%,有監(jiān)督分類算法為RBF) %
表7 實驗結(jié)果(λ=10%,有監(jiān)督分類算法為RBF) %
表8 實驗結(jié)果(λ=20%,有監(jiān)督分類算法為RBF) %
本文針對經(jīng)典的協(xié)同訓(xùn)練算法Co-training和tri-training存在的弊端,提出了改進(jìn)措施,通過3個分類器加權(quán)投票的策略實現(xiàn)對無標(biāo)記樣本的標(biāo)記,挖掘無標(biāo)記樣本的隱含信息。為提高分類器的標(biāo)記正確率,充分利用大量無標(biāo)記樣本的信息增強分類器的差異性;為提高算法的安全性,保證新標(biāo)記的引入不會造成分類器性能的下降,對新增加的標(biāo)記樣本進(jìn)行了二次驗證,增強新增加樣本的可信性,保證分類器向著分類率提高的方向進(jìn)行演化。實驗驗證結(jié)果表明,該算法具有較好的安全性,較好地提高了分類率。
[1]ZHU X J. Semi-supervised Learning Literature Survey[R/OL]. University of Wisconsin, Madison Department of Computer Sciences,2012-03-15[2014-03-15]http://diqital.library.wisc.edu/1793/60444.
[2]李昆侖,曹錚,曹麗蘋,等.半監(jiān)督聚類的若干新進(jìn)展[J].模式識別與人工智能,2009,22(5):735-742.
[3]Zhou Z H, Li M. Semi-supervised Learning by Disagreement[J]. Knowledge and Information Systems, 2010, 24(3): 415-439
[4]周志華. 基于分歧的半監(jiān)督學(xué)習(xí)[J].自動化學(xué)報, 2013, 39(11): 1871-1878.
[5]Blum A, Mitchell T. Combining Labeled and Unlabeled Data with Co-training. [C]//Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT’98). Wisconsin, USA:ACM,1998:92-100.
[6]Zhou Z H,Li M. Tri-training: Exploiting Unlabeled Data using Three Classifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1529-1541.
[7]Wang W, Zhou Z H. Co-Training with Insufficient Views[C]//Asian Conference on Machine Learning. Dallas, TX, USA:IEEE, 2013: 467-482.
[8]Zhou Z H. Unlabeled Data and Multiple Views[J].Partially Supervised Learning Lecture Notes in Computer Science, 2012,7081:1-7.
[9]Darnst? dt M, Simon H U, Sz? rényi B. Supervised Learning and Co-training[J].Theoretical Computer Science, 2014, 519: 68-87.
[10]Cheng J, Wang K. Active Learning for Image Retrieval with Co-SVM[J].Pattern Recognition, 2007, 40(1): 330-334.
[11]Zhang Y, Wen J, Wang X, et al. Semi-supervised Learning Combining Co-training with Active Learning[J].Expert Systems with Applications, 2014, 41(5): 2372-2378.
[12]Li M, Wang R, Tang K. Combining Semi-Supervised and Active Learning for Hyperspectral Image Classification[C]//Computational Intelligence and Data Min ing (CIDM), 2013 . Singapore:IEEE, 2013: 89-94.
[13]于重重, 商利利, 譚勵, 等. 一種增強差異性的半監(jiān)督協(xié)同分類算法[J]. 電子學(xué)報, 2013, 41(1):35-41.
[14]趙建華, 李偉華. 一種協(xié)同半監(jiān)督分類算法 Co-S3OM[J]. 計算機應(yīng)用研究, 2013, 30(11): 3237-3239.
[15]Zhang M L, Zhou Z H. Exploiting Unlabeled Data to Enhance Ensemble Diversity[J]. Data Mining and Knowledge Discovery, 2013, 26(1): 98-129.
[16]趙建華. 一種基于交叉驗證思想的半監(jiān)督分類方法[J].西南科技大學(xué)學(xué)報:自然科學(xué)版, 2014,29(1):34-38.
[17]金珠, 馬小平. 基于蟻群聚類算法的 SVM 半監(jiān)督式訓(xùn)練方法[J]. 西華大學(xué)學(xué)報: 自然科學(xué)版, 2011, 30(1): 56-60.
[18]胡慶輝, 丁立新, 何進(jìn)榮. Lp 范數(shù)約束的多核半監(jiān)督支持向量機學(xué)習(xí)方法[J]. 軟件學(xué)報, 2013, 24(11): 2522-2534.