孟 巖,汪云云
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院/軟件學(xué)院,江蘇 南京 210000)
典型半監(jiān)督分類算法的研究分析
孟 巖,汪云云
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院/軟件學(xué)院,江蘇 南京 210000)
近年來(lái),大量半監(jiān)督分類算法被提出。然而在真實(shí)的學(xué)習(xí)任務(wù)中,研究者很難決定究竟選擇哪一種半監(jiān)督分類算法,而在這方面并沒(méi)有任何指導(dǎo)。半監(jiān)督分類算法可通過(guò)數(shù)據(jù)分布假設(shè)進(jìn)行分類。為此,在對(duì)比分析采用不同假設(shè)的半監(jiān)督分類典型算法的基礎(chǔ)上,以最小二乘方法(Least Squares,LS)為基準(zhǔn),研究比較了基于聚類假設(shè)的轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine,TSVM)和基于流行假設(shè)的正則化最小二乘法(Laplacian Regularized Least Squares Classification,LapRLSC),并同時(shí)利用兩種假設(shè)的SemiBoost以及無(wú)任何假設(shè)的蘊(yùn)含限制最小二乘法(Implicitly Constrained Least Squares,ICLS)的分類效果。得出的結(jié)論為,在已知數(shù)據(jù)樣本分布的情況下,利用相應(yīng)假設(shè)的方法可保證較高的分類正確率;在對(duì)數(shù)據(jù)分布沒(méi)有任何先驗(yàn)知識(shí)且樣本數(shù)量有限的情況下,TSVM能夠達(dá)到較高的分類精度;在較難獲得樣本標(biāo)記而又強(qiáng)調(diào)分類安全性時(shí),宜選擇ICLS,而LapRLSC也是較好的選項(xiàng)之一。
半監(jiān)督分類;數(shù)據(jù)分布;聚類假設(shè);流行假設(shè)
傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)分為兩類:監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)只利用標(biāo)記的樣本集進(jìn)行學(xué)習(xí),而無(wú)監(jiān)督學(xué)習(xí)只利用未標(biāo)記的樣本集進(jìn)行學(xué)習(xí),但在很多實(shí)際問(wèn)題中,有標(biāo)記樣本通常很難收集,而無(wú)標(biāo)記樣本很容易得到。例如,在垃圾郵件檢測(cè)中,可以自動(dòng)收集大量的郵件,卻只有少量是標(biāo)記的垃圾郵件;在生物學(xué)中,大量的未標(biāo)記數(shù)據(jù)很容易得到,而對(duì)某種蛋白質(zhì)的結(jié)構(gòu)分析或者功能鑒定,可能會(huì)花上生物學(xué)家很多年的時(shí)間。因此,同時(shí)利用標(biāo)記樣本和未標(biāo)記樣本的半監(jiān)督學(xué)習(xí)技術(shù)在近些年發(fā)展迅速[1-4]。
半監(jiān)督分類算法利用大量的無(wú)標(biāo)記樣本與有標(biāo)記樣本一同訓(xùn)練,以增強(qiáng)分類效果。為了更加有效地利用有標(biāo)記樣本,提出了一些數(shù)據(jù)分布假設(shè),常見(jiàn)的有兩種:一種是聚類假設(shè),分類邊界穿過(guò)數(shù)據(jù)低密度區(qū)域,把數(shù)據(jù)分為幾簇聚類,在一簇中的樣本具有相同的標(biāo)簽;另一種是流行假設(shè),充分利用數(shù)據(jù)在低維空間上的流行分布,并通過(guò)拉普拉斯圖構(gòu)造數(shù)據(jù)流行內(nèi)在的幾何結(jié)構(gòu),從而在這個(gè)圖中相似的樣本具有相同的標(biāo)簽。
幾乎所有的半監(jiān)督分類算法都顯式或隱式地利用了這兩種假設(shè)[1,4]。例如,轉(zhuǎn)導(dǎo)支持向量機(jī)(TSVM)[5]和其他擴(kuò)展方法[6-8]都利用了聚類假設(shè)。而那些基于圖的半監(jiān)督分類方法(graph cuts[9],label propagation[10-11])和流行正則化最小二乘法(LapRLSC)[12]都利用了流行假設(shè)。除此之外,有的方法同時(shí)利用這兩種假設(shè)來(lái)增強(qiáng)分類效果。半監(jiān)督Boosting[13-14]就是一種同時(shí)利用兩種假設(shè),并利用迭代的boosting算法[15]來(lái)增強(qiáng)分類效果的半監(jiān)督分類方法。另一種相關(guān)的算法是正則化Boosting算法[16],它同時(shí)利用boosting框架和結(jié)合了平滑性的以上兩種常用假設(shè)。上述方法都顯式地利用了一種或者兩種假設(shè)。后來(lái),Jesse提出了一種不利用任何顯式假設(shè)的奇異的半監(jiān)督分類方法—蘊(yùn)含限制的最小二乘法(ICLS)[17]。ICLS在多維情況下比全監(jiān)督最小二乘法(LS)分類更加準(zhǔn)確,且在一維情況下分類精度不會(huì)低于全監(jiān)督最小二乘法。
在已提出的大量的半監(jiān)督分類方法中,既有利用聚類假設(shè)和流行假設(shè)中的一種的方法,也有同時(shí)利用兩種的方法,甚至不利用任何假設(shè)的方法。但是很難在真實(shí)的半監(jiān)督學(xué)習(xí)任務(wù)中決定采用哪種方法或假設(shè),先前研究者們都致力于研究能夠提高分類精度的新方法[18-19],幾乎沒(méi)有把精力用于比較各個(gè)方法的分類效果[20-21]。針對(duì)真實(shí)的學(xué)習(xí)任務(wù)中選擇何種半監(jiān)督分類方法這一問(wèn)題,對(duì)典型半監(jiān)督分類方法進(jìn)行了比較。由于半監(jiān)督分類方法可以通過(guò)數(shù)據(jù)分布假設(shè)來(lái)劃分種類,因此,比較了幾種較典型的應(yīng)用不同假設(shè)的方法。以LS為基準(zhǔn),比較了TSVM、LapRLSC,同時(shí)利用兩種假設(shè)的半監(jiān)督Boosting算法,以及ICLS在真實(shí)數(shù)據(jù)集上的分類效果。
2.1轉(zhuǎn)導(dǎo)支持向量機(jī)
聚類假設(shè)是兩種常見(jiàn)的半監(jiān)督分類假設(shè)中的一種,它假設(shè)在同一簇聚類中的樣本具有相同的標(biāo)簽,分類邊界穿過(guò)低密度區(qū)域來(lái)劃分不同的簇。因此,聚類假設(shè)也被稱作低密度分離假設(shè)。TSVM是利用聚類假設(shè)的半監(jiān)督算法的典型代表。
(1)
TSVM首先通過(guò)歸納式SVM在訓(xùn)練集上訓(xùn)練得到初始分類器,然后把無(wú)標(biāo)記樣本分為正類或負(fù)類,再根據(jù)目標(biāo)函數(shù)的下降程度,轉(zhuǎn)換無(wú)標(biāo)記樣本的類別標(biāo)簽,最后通過(guò)迭代的策略解決最優(yōu)化問(wèn)題(1)。
2.2流行正則化
另一種半監(jiān)督分類學(xué)習(xí)中常用的假設(shè)是流行假設(shè),該假設(shè)設(shè)想數(shù)據(jù)在低維服從流行分布。這個(gè)數(shù)據(jù)流行內(nèi)在的幾何結(jié)構(gòu)通常由拉普拉斯圖表示,圖中的頂點(diǎn)代表樣本,圖中的邊權(quán)值代表樣本間的相似度。根據(jù)流行假設(shè)可知,圖中相似的節(jié)點(diǎn)具有相同的標(biāo)簽。流行正則化[12,22]是基于流行假設(shè)的經(jīng)典算法,該算法充分利用流行分布的幾何結(jié)構(gòu),并且將數(shù)據(jù)的幾何結(jié)構(gòu)與數(shù)據(jù)間的相似度約束相結(jié)合,作為附加的正則化項(xiàng)添加到目標(biāo)函數(shù)中。
LapRLSC求解一個(gè)帶有最小二乘損失函數(shù)的最優(yōu)化問(wèn)題:
(2)
選擇最小二乘損失作為損失函數(shù),因此,正則化最小二乘法的目標(biāo)函數(shù)可以寫(xiě)為:
(3)
(4)
其中,α=[α1,α1,…,αn]∈RC×n為拉格朗日乘子矩陣;K為n×n的核矩陣;J=diag(1,…,1,0,…,0)為對(duì)角矩陣。
對(duì)目標(biāo)函數(shù)求導(dǎo),即可求得最優(yōu)解。
2.3半監(jiān)督Boosting
SemiBoost是一種同時(shí)利用聚類假設(shè)和流行假設(shè),并且利用boosting框架訓(xùn)練分類器的半監(jiān)督分類算法。用戶可以選擇一個(gè)偏愛(ài)的全監(jiān)督分類器,然后吸收無(wú)標(biāo)記樣本來(lái)提升分類器的表現(xiàn)。對(duì)于每個(gè)無(wú)標(biāo)記樣本xj,分別計(jì)算對(duì)其分類為正類或?yàn)樨?fù)類的置信因子,其中被當(dāng)前分類器賦予置信因子最高的無(wú)標(biāo)記樣本標(biāo)簽叫做“偽標(biāo)簽”。在循環(huán)過(guò)程中,將這些帶有偽標(biāo)簽的樣本和有標(biāo)記樣本一同加入訓(xùn)練集來(lái)訓(xùn)練分類器,經(jīng)歷一定次數(shù)的循環(huán)后,形成最終的分類器。SemiBoost模型可以定義如下:
s.t.h(xi)=yi,i=1,2,…,l
(5)
該優(yōu)化問(wèn)題可以近似寫(xiě)成:
(6)
為了最小化該目標(biāo)函數(shù),將選取樣本xi賦予的最優(yōu)類別標(biāo)記為zi=sign(pi-qi),選取樣本的權(quán)重為|pi-qi|,并且參數(shù)α的取值應(yīng)為:
(7)
初始化H(x)=0,每次迭代由全監(jiān)督分類算法(LS)學(xué)習(xí)得到h(x),并且更新分類器H(x)=H(x)+αtht(x)。
2.4蘊(yùn)含限制的最小二乘法
不同于以上利用一種或兩種數(shù)據(jù)分布假設(shè)的半監(jiān)督分類算法,ICLS不利用任何明確的假設(shè),只利用已經(jīng)存在于全監(jiān)督最小二乘分類器中蘊(yùn)含的假設(shè)。ICLS通過(guò)最小化一個(gè)常規(guī)的全監(jiān)督分類的損失來(lái)得到最優(yōu)分類器,其中全監(jiān)督損失由未標(biāo)記樣本的所有可能標(biāo)簽來(lái)定義。ICLS的目標(biāo)函數(shù)可以寫(xiě)為:
(8)
ICLS實(shí)際利用無(wú)標(biāo)記樣本來(lái)最小化全監(jiān)督的損失函數(shù)。問(wèn)題(8)的解可以看作是由全監(jiān)督子集β到半監(jiān)督子集Cβ的映射,可以寫(xiě)成如下形式:
(9)
(10)
最終,可得到關(guān)于無(wú)標(biāo)記樣本的最優(yōu)解。ICLS在多維情況下比全監(jiān)督最小二乘法分類更加準(zhǔn)確,并且在一維情況下分類精度不會(huì)低于全監(jiān)督最小二乘法。
3.1數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
數(shù)據(jù)描述:真實(shí)數(shù)據(jù)集包含了13個(gè)UCI數(shù)據(jù)集和6個(gè)基準(zhǔn)數(shù)據(jù)集,具體描述見(jiàn)表1。
對(duì)于真實(shí)數(shù)據(jù)集,同樣利用PCA[23]將其映射到2維空間,發(fā)現(xiàn)一些數(shù)據(jù)集的數(shù)據(jù)分布滿足聚類假設(shè),例如Australian、Ionosphere。還有一些數(shù)據(jù)集滿足流行假設(shè),如Digit1。另外,還有一些數(shù)據(jù)集同時(shí)滿足以上兩種假設(shè),如WDBC、USPS。然而,大部分?jǐn)?shù)據(jù)集的數(shù)據(jù)分布并不明確,比如Heart、Bupa、House等。
實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)中采用高斯核函數(shù),其中高斯核的參數(shù)通過(guò)所有樣本點(diǎn)的平均距離決定。正則化參數(shù)rA和rI固定為1和0.1,設(shè)置半監(jiān)督Boosting的迭代次數(shù)為12次。
對(duì)于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn),采用十字交叉驗(yàn)證方法[24],將每個(gè)數(shù)據(jù)集隨機(jī)分割為10等份,然后循環(huán)地以一組作為測(cè)試集,其余作為訓(xùn)練集。訓(xùn)練集中的有標(biāo)記樣本個(gè)數(shù)的選取策略與ICLS[17]相同,其中有標(biāo)記樣本是隨機(jī)選擇的,并且個(gè)數(shù)為l=max{m+5,20},m為樣本特征數(shù)。將做10次十字交叉驗(yàn)證實(shí)驗(yàn),取其平均值作為結(jié)果,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表1 真實(shí)數(shù)據(jù)集的數(shù)據(jù)分布
表2 分類錯(cuò)誤率比較
3.2真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果比較
表2列出了真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
根據(jù)表2,可以得出以下結(jié)論:
(1)在已知數(shù)據(jù)集的數(shù)據(jù)分布,或者能夠通過(guò)PCA降維得到相應(yīng)數(shù)據(jù)分布的情況下,基于相應(yīng)假設(shè)的半監(jiān)督分類方法表現(xiàn)出眾。例如,對(duì)于滿足聚類假設(shè)的數(shù)據(jù)集,TSVM分類效果最好,對(duì)滿足流行假設(shè)的數(shù)據(jù)集,LapRLSC分類錯(cuò)誤率最低。另外,LapRLSC在同時(shí)滿足兩種假設(shè)的數(shù)據(jù)集上同樣有較低的錯(cuò)誤率。
(2)當(dāng)給定數(shù)據(jù)集不滿足任何數(shù)據(jù)分布假設(shè),并且強(qiáng)調(diào)分類安全性時(shí),ICLS會(huì)是明智的選擇。原因是ICLS分類精度不會(huì)低于全監(jiān)督最小二乘法,ICLS對(duì)于無(wú)標(biāo)記樣本的使用不會(huì)惡化分類效果。同時(shí),ICLS在Heart,Vehicle和Pima數(shù)據(jù)集上的分類精度是所有半監(jiān)督分類算法中最高的,而LapRLSC在這些數(shù)據(jù)集上的分類精度低于全監(jiān)督LS,TSVM和SemiBoost同樣不能保證分類效果優(yōu)于全監(jiān)督算法。
(3)SemiBoost同時(shí)利用流行假設(shè)和聚類假設(shè),并采用迭代的Boosting算法框架,但是分類效果并沒(méi)有期望的出色。因此,需要在未來(lái)的工作中尋找更有效的算法來(lái)結(jié)合這些假設(shè),并發(fā)揮它們的長(zhǎng)處。
3.3健壯性比較
從真實(shí)數(shù)據(jù)集中選擇5個(gè)數(shù)據(jù)集,在賦予不同有標(biāo)記樣本個(gè)數(shù)的情況下比較不同算法的健壯性。對(duì)于每個(gè)數(shù)據(jù)集,每次在訓(xùn)練集中隨機(jī)選取5,10,20,50,100個(gè)樣本賦予標(biāo)記,并且采用十字交叉驗(yàn)證的實(shí)驗(yàn)設(shè)置,每組實(shí)驗(yàn)重復(fù)10次,取其平均值作為結(jié)果,實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 健壯性比較
根據(jù)表3可以看出:TSVM最穩(wěn)定,健壯性最好。尤其在有標(biāo)記樣本數(shù)目較少的情況下,TSVM是分類精度最高的算法,但其精度并沒(méi)有隨著有標(biāo)記樣本數(shù)目的增加而增加。因此,TSVM適用于給定有標(biāo)記樣本數(shù)目有限的情況;ICLS和LapRLSC的分類精度明顯地隨著有標(biāo)記樣本的個(gè)數(shù)的改變而改變。當(dāng)有標(biāo)記樣本數(shù)目較少時(shí),無(wú)論是ICLS還是LapRLSC都沒(méi)有TSVM的分類精度高,但它們的分類精度隨著有標(biāo)記樣本數(shù)目的增長(zhǎng)而明顯增長(zhǎng)。所以,ICLS和LapRLSC適用于給定有標(biāo)記樣本較充裕的情況;SemiBoost無(wú)論是健壯性還是分類精度,表現(xiàn)都相對(duì)一般。
3.4分析討論
觀察以上實(shí)驗(yàn)結(jié)果,可得到一些發(fā)現(xiàn),并期望給選擇哪種半監(jiān)督分類算法做出一些指導(dǎo)。
(1)在可以明確數(shù)據(jù)集的數(shù)據(jù)分布的情況下,利用相應(yīng)假設(shè)的半監(jiān)督分類算法能保證最好的分類效果。但在現(xiàn)實(shí)應(yīng)用中很難得知數(shù)據(jù)的內(nèi)在分布信息。
(2)若對(duì)于數(shù)據(jù)的真實(shí)分布沒(méi)有任何先驗(yàn)知識(shí),將很難判斷哪種半監(jiān)督分類算法比較適合目前的學(xué)習(xí)任務(wù)。從以上實(shí)驗(yàn)結(jié)果可知,在有標(biāo)記樣本數(shù)目較少的情況下,TSVM是分類精度最高的算法。因此,TSVM適用于給定有標(biāo)記樣本數(shù)目有限的情況,即使其精度并沒(méi)有隨著有標(biāo)記樣本數(shù)目的增加而明顯增加。
(3)ICLS是不利用任何假設(shè)的半監(jiān)督分類算法。研究者們已經(jīng)證明了在假設(shè)不正確或有誤差時(shí),無(wú)標(biāo)記樣本有可能降低分類精度,而ICLS的分類精度卻從不低于全監(jiān)督LS。因此,若能獲取一定量的有標(biāo)記樣本,并強(qiáng)調(diào)分類的安全性,盡管ICLS相對(duì)于全監(jiān)督算法的精度提升不是那么明顯(尤其是在基準(zhǔn)數(shù)據(jù)集上),仍然是最合適的算法。
(4)LapRLSC在滿足流行假設(shè),甚至滿足聚類假設(shè)的數(shù)據(jù)集上的分類效果比較令人滿意。即使在某些情況下,LapRLSC的分類精度低于全監(jiān)督算法,但從總體上看,LapRLSC的分類效果最好。所以當(dāng)有標(biāo)記樣本不那么稀缺時(shí),LapRLSC是一個(gè)不錯(cuò)的選擇。
(5)盡管SemiBoost同時(shí)利用流行假設(shè)和聚類假設(shè),但在以上的實(shí)驗(yàn)中,SemiBoost并沒(méi)有令人印象深刻的表現(xiàn)。因此,其他更有效地利用多種假設(shè)的策略仍然值得研究。
大量的半監(jiān)督分類方法在理論上取得了長(zhǎng)足進(jìn)展,既有利用聚類假設(shè)或流行假設(shè)其中之一的數(shù)據(jù)分布假設(shè)的方法,也有利用兩種數(shù)據(jù)分布假設(shè)的方法,還有不利用任何假設(shè)的方法。因此,在真實(shí)的半監(jiān)督學(xué)習(xí)任務(wù)中,采用哪種方法或者假設(shè)確實(shí)是一個(gè)難題。文中比較了利用聚類假設(shè)的TSVM,利用流行假設(shè)的LapRLSC,同時(shí)利用以上兩種假設(shè)的半監(jiān)督Boosting算法,以及不利用任何假設(shè)的ICLS在真實(shí)數(shù)據(jù)集上的分類效果。
實(shí)驗(yàn)結(jié)果表明,在已知數(shù)據(jù)分布的情況下,應(yīng)該選擇利用相應(yīng)假設(shè)的半監(jiān)督分類算法來(lái)保證獲得較高的分類精度;若事先不知道樣本的數(shù)據(jù)分布,并且給定的已標(biāo)記樣本數(shù)量有限,可以優(yōu)先選擇TSVM;若具有一定數(shù)量的有標(biāo)記樣本,并且強(qiáng)調(diào)分類的安全性,不利用任何假設(shè)的ICLS是比較合適的算法;另外,LapRLSC也是一個(gè)不錯(cuò)的選擇。在真實(shí)的應(yīng)用中還存在一些滿足多種數(shù)據(jù)分布的數(shù)據(jù)集,將在未來(lái)的工作中尋找一種將多種假設(shè)結(jié)合的更有效的算法。
[1] Fujino A,Ueda N,Nagata M.Adaptive semi-supervised learning on labeled and unlabeled data with different distributions[J].Knowledge and Information Systems,2013,37(1):129-154.
[2] Sun S,Hussain Z,Shawe-Taylor J.Manifold-preserving graph reduction for sparse semi-supervised learning[J].Neurocomputing,2014,124(2):13-21.
[3] 梁吉業(yè),高嘉偉,常 瑜.半監(jiān)督學(xué)習(xí)研究進(jìn)展[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2009,32(4):528-534.
[4] Zhu S P,Huang H Z,Li Y,et al.Probabilistic modeling of damage accumulation for time-dependent fatigue reliability analysis of railway axle steels[J].Journal of Rail and Rapid Transit,2015,229(1):23-33.
[5] Joachims T.Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th international conference on machine learning.Bled,Slovenia:[s.n.],1999:200-209.
[6] Wang Y,Chen S,Zhou Z H.New semi-supervised classification method based on modified cluster assumption[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(5):689-702.
[7] 高 瀅,劉大有,齊 紅,等.一種半監(jiān)督K均值多關(guān)系數(shù)據(jù)聚類算法[J].軟件學(xué)報(bào),2008,19(11):2814-2821.
[8] 李昆侖,曹 錚,曹麗蘋(píng),等.半監(jiān)督聚類的若干新進(jìn)展[J].模式識(shí)別與人工智能,2009,22(5):735-742.
[9] Subramanya A,Talukdar P P.Graph-based semi-supervised learning[C]//Synthesis lectures on artificial intelligence and machine learning.[s.l.]:[s.n.],2014.
[10] Ugander J,Backstrom L.Balanced label propagation for partitioning massive graphs[C]//Proceedings of the sixth ACM international conference on web search and data mining.[s.l.]:ACM,2013:507-516.
[11] 肖 宇,于 劍.基于近鄰傳播算法的半監(jiān)督聚類[J].軟件學(xué)報(bào),2008,19(11):2803-2813.
[12] Belkin M,Niyogi P,Sindhwani V.Manifold regularization:a geometric framework for learning from labeled and unlabeled examples[J].Journal of Machine Learning Research,2006,7:2399-2434.
[13] Mallapragada P K,Jin R,Jain A K,et al.Semiboost:boosting for semi-supervised learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(11):2000-2014.
[14] 侯 杰,茅耀斌,孫金生.一種最大化樣本可分性半監(jiān)督Boosting算法[J].南京理工大學(xué)學(xué)報(bào):自然科學(xué)版,2014,38(5):675-681.
[15] Freund Y.Experiments with a new boosting algorithm[C]//Thirteenth international conference on machine learning.[s.l.]:[s.n.],1996:148-156.
[16] Chen K,Wang S.Semi-supervised learning via regularized boosting working on multiple semi-supervised assumptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(1):129-143.
[17] Krijthe J H,Loog M.Implicitly constrained semi-supervised least squares classification[C]//International symposium on intelligent data analysis.[s.l.]:Springer International Publishing,2015:158-169.
[18] 李亞娥,汪西莉.一種自適應(yīng)的半監(jiān)督圖像分類算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(2):112-114.
[19] 皋 軍,王士同,鄧趙紅.基于全局和局部保持的半監(jiān)督支持向量機(jī)[J].電子學(xué)報(bào),2010,38(7):1626-1633.
[20] Corollary A.A comparative study:globality versus locality for graph construction in discriminant analysis[J].Journal of Applied Mathematics,2014,2014:1-12.
[21] Qiao L,Zhang L,Chen S.An empirical study of two typical locality preserving linear discriminant analysis methods[J].Neurocomputing,2010,73(10-12):1587-1594.
[22] 柯 圣.基于樣本先驗(yàn)信息的正則化型分類器設(shè)計(jì)研究[D].上海:華東理工大學(xué),2014.
[23] Turk M,Pentland A.Eigenfaces for recognition. J Cogn Neurosci[J].Journal of Cognitive Neuroscience,1991,3(1):71-86.
[24] Refaeilzadeh P,Tang L,Liu H.Cross-validation[M]//Liu L,Zsu M T.Encyclopedia of database systems.New York:Springer,2009:532-538.
ResearchandAnalysisofTypicalSemi-supervisedClassificationAlgorithm
MENG Yan,WANG Yun-yun
(School of Computer and Software,Nanjing University of Posts & Telecommunications,Nanjing 210000,China)
Large amounts of semi-supervised classification algorithms have been proposed recently,however,it is really hard to decide which one to use in real learning tasks,and further there is no related guidance in literature.Therefore,empirical comparisons of several typical algorithms have been performed to provide some useful suggestions.In fact,semi-supervised classification algorithms can be categorized by the data distribution assumption.Therefore,typical algorithms with different assumption adoptions have been contrasted.Specifically,they are Transductive Support Vector Machine (TSVM) using the cluster assumption,Laplacian Regularized Least Squares Classification (LapRLSC) using the manifold assumption,and SemiBoost using both assumptions,and Implicitly Constrained Least Squares (ICLS) without any assumption,with the supervised least Squares Classification (LS) as the base line.Eventually it is concluded that when data distribution is given,the semi-supervised classification algorithm that adopts corresponding assumption can lead to the best performance;without any prior knowledge about data distribution,TSVM can be a good choice when the given labeled samples are extremely limited;when the labeled samples are not so scarce,and meanwhile if learning safety is emphasized,ICLS is proposed,and LapRLSC is another good choice.
semi-supervised classification;data distribution;cluster assumption;manifold assumption
TP301.6
A
1673-629X(2017)10-0043-06
2016-10-13
2017-01-19 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-07-11
國(guó)家自然科學(xué)基金資助項(xiàng)目(61300165);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金新教師類(20133223120009);南京郵電大學(xué)引進(jìn)人才基金(NY213033)
孟 巖(1992-),男,碩士研究生,研究方向?yàn)槟J阶R(shí)別與機(jī)器學(xué)習(xí);汪云云,博士,副教授,研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)、神經(jīng)計(jì)算等。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170711.1455.054.html
10.3969/j.issn.1673-629X.2017.10.010