国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半監(jiān)督學(xué)習(xí)研究的述評

2020-03-19 10:45:34韓秋弘
計算機(jī)工程與應(yīng)用 2020年6期
關(guān)鍵詞:降維標(biāo)簽聚類

韓 嵩,韓秋弘

北京物資學(xué)院 信息學(xué)院,北京101149

1 引言

機(jī)器學(xué)習(xí)的核心是從數(shù)據(jù)中學(xué)習(xí),從數(shù)據(jù)出發(fā)得到未知規(guī)律,利用規(guī)律對未來樣本進(jìn)行預(yù)測和分析?;跀?shù)據(jù)的機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)需要大量已標(biāo)記類別的訓(xùn)練樣本來保證良好的性能;無監(jiān)督學(xué)習(xí)不使用先驗信息,利用無標(biāo)簽樣本的特征分布規(guī)律,使得相似樣本聚為一起,但模型準(zhǔn)確性難以保證。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)庫中的數(shù)據(jù)呈現(xiàn)指數(shù)增長[1],獲取大量無標(biāo)記樣本相當(dāng)容易,而獲取大量有標(biāo)記樣本則困難得多,且人工標(biāo)注需要耗費大量的人力和物力。如果只使用少量的有標(biāo)記樣本進(jìn)行訓(xùn)練,往往導(dǎo)致學(xué)習(xí)器泛化性能低下,且浪費大量的無標(biāo)記樣本數(shù)據(jù)資源。因此使用少量標(biāo)記樣本作為指導(dǎo),利用大量無標(biāo)記樣本改善學(xué)習(xí)性能的半監(jiān)督學(xué)習(xí)成為研究的熱點?!鞍氡O(jiān)督學(xué)習(xí)”術(shù)語第一次于1992年被正式提出[2],其思想可追溯于自訓(xùn)練算法[3]。半監(jiān)督學(xué)習(xí)突破了傳統(tǒng)方法只考慮一種樣本類型的局限,綜合利用有標(biāo)簽與無標(biāo)簽樣本[4-6],是在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的基礎(chǔ)上進(jìn)行的研究,包括半監(jiān)督聚類、半監(jiān)督分類、半監(jiān)督降維和半監(jiān)督回歸四種學(xué)習(xí)場景。隨著半監(jiān)督學(xué)習(xí)的深入研究,近些年出現(xiàn)兩個研究熱點,不平衡數(shù)據(jù)分類問題和噪聲數(shù)據(jù)的處理問題。

因此本文采用文獻(xiàn)計量方法對半監(jiān)督學(xué)習(xí)的研究的時間、應(yīng)用領(lǐng)域和研究內(nèi)容等進(jìn)行多維度梳理,對研究的四個學(xué)習(xí)場景和兩個研究熱點進(jìn)行歸納與述評,總結(jié)現(xiàn)有成果的不足以及探討新的研究方向,為半監(jiān)督學(xué)習(xí)的理論和應(yīng)用研究提供參考。

2 國內(nèi)半監(jiān)督學(xué)習(xí)研究的總體狀況

2.1 年度分布

本文以中國知網(wǎng)(CNKI)為檢索數(shù)據(jù)庫,以“半監(jiān)督”為主題檢索,國內(nèi)外半監(jiān)督學(xué)習(xí)領(lǐng)域發(fā)表文獻(xiàn)的趨勢如圖1所示。

圖1 年度分布

從圖1 可以看出,從1983 年到2003 年文獻(xiàn)的發(fā)表量較少,2003 年到2006 年有一個較小的斜率呈現(xiàn)出上升的趨勢,2006 年到2018 年的文獻(xiàn)數(shù)量幾乎呈直線上升,平均一年的發(fā)文量大約364 篇,從發(fā)文量反映出半監(jiān)督學(xué)習(xí)的研究狀況火熱,半監(jiān)督學(xué)習(xí)憑借著自身的優(yōu)勢以及在各行業(yè)成功的應(yīng)用吸引了大量的研究人員,從而使得相關(guān)研究成果數(shù)量直線上升。

2.2 半監(jiān)督學(xué)習(xí)研究內(nèi)容

為了更加全面了解半監(jiān)督學(xué)習(xí)的研究內(nèi)容,對國內(nèi)外的半監(jiān)督學(xué)習(xí)研究領(lǐng)域出現(xiàn)較多的關(guān)鍵詞進(jìn)行統(tǒng)計分析,具體結(jié)果如圖2所示。從圖2中可以看出分類器、數(shù)據(jù)集、樣本點、半監(jiān)督聚類、支持向量機(jī)、特征提取、主動學(xué)習(xí)、協(xié)同訓(xùn)練等關(guān)鍵詞出現(xiàn)的頻率較高,這些都是半監(jiān)督學(xué)習(xí)研究的主要研究內(nèi)容,涉及到了人工智能的各個領(lǐng)域范疇,其中半監(jiān)督分類和聚類的研究相對較多。

圖2 半監(jiān)督學(xué)習(xí)關(guān)鍵詞占比

2.3 研究內(nèi)容學(xué)術(shù)關(guān)注度指數(shù)對比分析

根據(jù)學(xué)習(xí)場景的不同,半監(jiān)督可以劃分為半監(jiān)督分類、半監(jiān)督聚類、半監(jiān)督降維以及半監(jiān)督回歸,從上述四個不同類別的學(xué)術(shù)關(guān)注度指數(shù)進(jìn)行對比分析,可以看出半監(jiān)督分類的關(guān)注度最高,一方面是很多現(xiàn)實問題是分類問題,另一方面是機(jī)器學(xué)習(xí)算法中分類算法研究成果豐富,為半監(jiān)督學(xué)習(xí)提供了算法基礎(chǔ)。其次依次是半監(jiān)督聚類、半監(jiān)督降維和半監(jiān)督回歸,半監(jiān)督回歸的研究指數(shù)相對平穩(wěn)且研究關(guān)注度低,但近兩年研究關(guān)注度處于上升趨勢。

圖3 半監(jiān)督四種學(xué)習(xí)場景的研究指數(shù)對比圖

3 半監(jiān)督學(xué)習(xí)研究內(nèi)容評述

從前文的分析中可知,目前研究的主要內(nèi)容和熱點包括半監(jiān)督聚類、半監(jiān)督分類、半監(jiān)督回歸與半監(jiān)督降維,以及不平衡數(shù)據(jù)分類和減少噪聲數(shù)據(jù)六個方面。因此下文從這六個方面展開評述。

3.1 半監(jiān)督聚類

半監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的差異在于監(jiān)督信息的使用,其中監(jiān)督信息主要包含兩種類型,一種是樣本的類別標(biāo)簽,另一種是樣本的成對約束關(guān)系。

可以根據(jù)監(jiān)督信息使用的不同,對半監(jiān)督聚類方法進(jìn)行劃分,Seeded-Kmeans算法相比于Kmeans算法具有利用樣本類別標(biāo)簽指導(dǎo)k 個原始聚類中心的選擇,該算法的缺陷在于僅能利用樣本類別標(biāo)簽的監(jiān)督信息形式且很大程度上依賴于Seeds集的規(guī)模和質(zhì)量。COP-Kmeans算法將成對約束信息增添到Kmeans 聚類過程,該算法與Kmeans算法的聚類思想相同,但在樣本劃分過程中,樣本必須滿足must-link 約束和cannot-link 約束,缺陷是在求解過程中會遇到成對約束違反問題。在實際應(yīng)用中,監(jiān)督信息會以樣本標(biāo)簽和成對約束信息并存的情況,若只利用標(biāo)簽信息或?qū)?biāo)簽信息轉(zhuǎn)化為成對約束信息時,會削弱監(jiān)督信息或利用不充分,SC-Kmeans 算法綜合利用Seeds 集和成對約束集引入到Kmeans 中指導(dǎo)聚類過程,但該算法效率降低以及監(jiān)督信息的規(guī)模和質(zhì)量會影響聚類結(jié)果;常瑜等擴(kuò)大后的Seeds 集進(jìn)行優(yōu)化得到新的Seeds 集進(jìn)行聚類[7];陳志雨等將主動學(xué)習(xí)引入到SC-Kmeans中,用于選取信息含有量更高的監(jiān)督信息[8]?,F(xiàn)有的半監(jiān)督聚類算法多數(shù)是在傳統(tǒng)聚類算法基礎(chǔ)上引入監(jiān)督信息發(fā)展而來,基于不同的聚類算法可以將其擴(kuò)展成不同的半監(jiān)督聚類算法,可以對密度聚類、層次聚類、譜聚類等聚類算法進(jìn)行半監(jiān)督的擴(kuò)展;大多數(shù)的聚類方法不適用于高維稀疏數(shù)據(jù),使得擴(kuò)展的半監(jiān)督方法難以處理高維稀疏數(shù)據(jù)的聚類,因此用于高維稀疏數(shù)據(jù)的半監(jiān)督聚類算法的提出需要進(jìn)一步研究。

3.2 半監(jiān)督分類

常見的半監(jiān)督分類代表算法可以劃分為四類,包括生成式方法、半監(jiān)督支持向量機(jī)、半監(jiān)督圖算法和基于分歧的半監(jiān)督方法。下面分別介紹四種范型的半監(jiān)督學(xué)習(xí)框架,匯總對比分析結(jié)果如表1所示。

3.2.1 生成式方法

生成式方法關(guān)鍵在于對來自各個種類的樣本分布進(jìn)行假設(shè)以及對所假設(shè)模型的參數(shù)估計。常見的假設(shè)模型如混合高斯模型、混合專家模型、樸素貝葉斯模型,采用極大似然方法作為參數(shù)估計的優(yōu)化目標(biāo),選擇EM(Expectation Maximization)算法進(jìn)行參數(shù)的優(yōu)化求解。趙夫群利用狄利克雷多項式混合分布對文本進(jìn)行建模,針對EM 算法收斂速度過快以及容易陷入局部最優(yōu)的難題,引入模擬退火算法和遺傳算法進(jìn)行處理[9];董育寧等指出傳統(tǒng)的高斯分布容易受到數(shù)據(jù)樣本邊緣值和離群點噪聲的影響,改用t 分布代替原有的高斯混合模型[10]。關(guān)于生成式方法的研究,難點在于樣本分布與假設(shè)的模型不一致,即生成式方法的關(guān)鍵之處在于模型假設(shè)必須正確,而實際應(yīng)用中很難使得假設(shè)的生成模型與實際數(shù)據(jù)分布吻合,從而模型效果欠佳。

3.2.2 半監(jiān)督支持向量機(jī)

半監(jiān)督支持向量機(jī)(Semi-supervised Support Vector Machine,S3VMs)的思想最早可以追溯至Vapnik提出的猜想,無標(biāo)記數(shù)據(jù)可以有效地減少函數(shù)空間的VC 維。常見的S3VMs 方法如直推式支持向量機(jī)(Transductive Support Vector Machine,TSVM)、拉普拉斯支持向量機(jī)(Laplacian Support Vector Machine,Laplacian SVM)、均值標(biāo)簽半監(jiān)督支持向量機(jī)(meanS3VM)、安全半監(jiān)督支持向量機(jī)(Safe Semi-supervised SVM,S4VM)、基于代價敏感的半監(jiān)督支持向量機(jī)(Cost-sensitive Semi-su‐pervised SVM,CS4VM),表2列出了上述幾種典型方法的基本介紹和優(yōu)缺點。

雖然半監(jiān)督支持向量機(jī)具有適用于小樣本、利用無標(biāo)簽樣本提高模型性能的優(yōu)勢,但仍存在不足,因此,國內(nèi)外學(xué)者提出創(chuàng)新性的半監(jiān)督支持向量機(jī)方法以及對現(xiàn)有算法進(jìn)行改進(jìn),文中列舉了最新的模型、模型特點及效果,如表3所示。

半監(jiān)督支持向量機(jī)方法需要關(guān)注以下問題:(1)S3VMs在小規(guī)模數(shù)據(jù)集中能夠得到很高的分類精度,但對于大規(guī)模數(shù)據(jù)并不適用,且當(dāng)解決非線性或流形數(shù)據(jù),需要構(gòu)造核函數(shù),此時會存在更高的復(fù)雜度;(2)現(xiàn)有的模型多數(shù)屬于二分類問題,但在現(xiàn)實問題中不僅局限于二分類,在解決S3VMs的非凸二次優(yōu)化問題時需要消耗大量的存儲空間和計算時間,當(dāng)解決多分類問題時更加困難。

表1 半監(jiān)督分類四大范型對比分析

表2 半監(jiān)督支持向量機(jī)模型對比分析

表3 改進(jìn)型半監(jiān)督支持向量機(jī)的主要改進(jìn)特點以及模型效果

3.2.3 基于圖的半監(jiān)督分類

基于圖的半監(jiān)督分類方法是利用有標(biāo)簽和無標(biāo)簽樣本之間的聯(lián)系得到圖結(jié)構(gòu),利用圖結(jié)構(gòu)進(jìn)行標(biāo)簽傳播。典型的基于圖的半監(jiān)督分類方法有標(biāo)簽傳播算法、最小割算法以及流形正則化算法,三種方法的比較及優(yōu)缺點如表4所示。

近些年,學(xué)者對圖半監(jiān)督學(xué)習(xí)創(chuàng)新性研究較多,為直觀展現(xiàn)圖半監(jiān)督學(xué)學(xué)習(xí)方法的發(fā)展情況,在表5 進(jìn)行了列舉。

基于圖的半監(jiān)督學(xué)習(xí)研究成果豐富,但存在以下不足:(1)數(shù)據(jù)量大往往構(gòu)造的圖的規(guī)模大,導(dǎo)致計算的時間與空間復(fù)雜度非常大,但圖模型的大小與模型正確率相關(guān)聯(lián),如何平衡圖模型的大小和模型正確率之間的關(guān)系也需進(jìn)一步研究;(2)在構(gòu)造圖時,一般只考慮了數(shù)據(jù)之間的距離信息,忽略樣本特征空間的類別分布信息;(3)高維數(shù)據(jù)中易于含有噪聲以及冗余信息,從而構(gòu)造的圖難以對數(shù)據(jù)的幾何結(jié)構(gòu)進(jìn)行精確的探索[23]。

3.2.4 基于分歧的半監(jiān)督學(xué)習(xí)

基于分歧的半監(jiān)督學(xué)習(xí)起源于協(xié)同訓(xùn)練算法,由Zhou 和Li 命名的[24],其思想是利用多個學(xué)習(xí)器之間的差異性提高泛化能力。根據(jù)視圖個數(shù)的不同,可以劃分為多視圖和單視圖下基于分歧的半監(jiān)督學(xué)習(xí)。

Blum 和Mitchell 提出了協(xié)同訓(xùn)練框架[25],采用貪婪的方式,并在假設(shè)視圖獨立性和兼容性的情況下進(jìn)行操作。針對多視圖下協(xié)同訓(xùn)練方法的研究,如Nigam等提出協(xié)同EM 算法[26];Sindhwani 等提出協(xié)同正則化算法[27],具有非貪心、包含凸代價函數(shù)等優(yōu)點;王嬌等通過隨機(jī)子空間方法將兩視圖推廣至多視圖,同時避免了充分冗余視圖問題[28];唐煥玲等將尋找兩個滿足一致性和獨立性特征視圖的目標(biāo)轉(zhuǎn)變成尋找兩個既滿足一定的正確性,又存在較大差異性的兩個基分類器的問題[29];孫念等提出松散條件下的協(xié)同學(xué)習(xí)框架,放松了特征充分冗余假設(shè)[30]。部分學(xué)者降低數(shù)據(jù)要求并進(jìn)行了理論證明[31-32],其中Wang 和Zhou 表明若兩個分類器存在足夠大的差異,協(xié)同訓(xùn)練在單視圖上也能取得成功[33]。

表4 基于圖的半監(jiān)督分類方法的對比分析

表5 基于圖的半監(jiān)督分類方法

單視圖下的基于分歧的半監(jiān)督方法,研究重點在于如何創(chuàng)造弱學(xué)習(xí)器之間的顯著差異。Goldman 和Zhou提出的基于決策樹的協(xié)同訓(xùn)練算法[34],使用不同的學(xué)習(xí)算法來表示弱分類器之間的差異化;Zhou和Li提出的三體訓(xùn)練法(Tri-training)[35],通過不同的數(shù)據(jù)采樣訓(xùn)練使用三個具有差異化的弱分類器;Li和Zhou提出Co-forest算法[36],將Tri-training算法由三個分類器擴(kuò)展到更多分類器。

基于分歧的半監(jiān)督學(xué)習(xí)研究成果較多,包括算法的理論證明和新的算法的實證研究,但仍然存在以下問題:(1)當(dāng)具有差異的弱分類器相互之間提供偽標(biāo)記樣本進(jìn)一步豐富訓(xùn)練集,但偽標(biāo)記類別錯誤,則導(dǎo)致新的訓(xùn)練集出現(xiàn)錯誤標(biāo)記,使得訓(xùn)練出的模型性能“惡化”[37];(2)基于差異的半監(jiān)督學(xué)習(xí)重點在于使得弱分類器之間存在差異,但如何去使得弱分類器之間存在顯著的差異,以及如何衡量差異是否顯著需要進(jìn)一步的討論;(3)基于分析的半監(jiān)督學(xué)習(xí)方法中參數(shù)較多,且對于參數(shù)的選擇尚無經(jīng)驗指導(dǎo),因此如何進(jìn)行參數(shù)縮減和參數(shù)取值需要進(jìn)一步研究。

3.3 半監(jiān)督回歸

現(xiàn)有的半監(jiān)督回歸的研究成果,可以歸納為基于協(xié)同訓(xùn)練的半監(jiān)督回歸和基于流形的半監(jiān)督回歸兩類。

Zhou等提出的協(xié)同訓(xùn)練回歸,選擇k 近鄰回歸作為初始回歸器,分別采用不同階的閔可夫斯基距離[38]、不同距離度量[39]、不同k 值[39]保證兩個回歸器之間的差異。Brefeld等將協(xié)同訓(xùn)練回歸思想移植到正則化框架下,提出了協(xié)同正則化最小二乘法[40]。基于協(xié)同訓(xùn)練的半監(jiān)督回歸雖然方法簡單便于理解,但由于回歸問題中目標(biāo)變量為連續(xù)變量,存在預(yù)測值的置信度難以衡量的難題。

半監(jiān)督回歸對應(yīng)的是流形假設(shè),主要考慮模型的局部特性。對于核的半監(jiān)督回歸的研究,如Wang 等基于經(jīng)典的核回歸,提出了半監(jiān)督核回歸方法[41];Xu 等在最小二乘支持向量機(jī)回歸的基礎(chǔ)上,提出了半監(jiān)督最小二乘支持向量機(jī)回歸[42];Seok提出了半監(jiān)督局部常數(shù)估計回歸算法,但該方法為單變量回歸[43]。對于拉普拉斯正則化的半監(jiān)督回歸的研究,如Belkin 等通過構(gòu)圖,將得到的拉普拉斯矩陣作為懲罰項引入到支持向量機(jī)的正則化框架中,得到拉普拉斯正則化框架[44];楊劍等在拉普拉斯正則化框架基礎(chǔ)上,給出不同損失函數(shù)下的拉普拉斯半監(jiān)督回歸算法,并進(jìn)行了實驗分析[45]。

半監(jiān)督回歸的研究與應(yīng)用非常缺乏,其原因在于:(1)半監(jiān)督分類中的聚類假設(shè)在回歸問題中不一定成立,從而大多數(shù)的半監(jiān)督分類方法不能直接用于回歸;(2)半監(jiān)督協(xié)同訓(xùn)練回歸是半監(jiān)督回歸最常用的方法,但由于回歸問題中目標(biāo)變量為連續(xù)變量,存在預(yù)測值的置信度難以衡量的難題;(3)回歸估計本身是一個比較困難的問題,學(xué)習(xí)算法很難取得比較好的結(jié)果,且回歸問題中存在多種損失函數(shù)和評價指標(biāo),無疑增加了半監(jiān)督回歸的難度。

3.4 半監(jiān)督降維

針對半監(jiān)督降維方法的研究,包括提出新的半監(jiān)督降維框架,即對所有數(shù)據(jù)點之間的幾何關(guān)系進(jìn)行建模,以及如何將半監(jiān)督的思想應(yīng)用于傳統(tǒng)的降維算法當(dāng)中兩個方面。

Zhang 等提出一種半監(jiān)督降維方法[46],考慮了成對約束與無標(biāo)簽樣本信息,然而該方法只能保持全局協(xié)方差結(jié)構(gòu),不能同時保持局部結(jié)構(gòu);Wei 等提出了一種基于成對約束信息的半監(jiān)督線性降維方法[47],該方法既能用到成對約束信息,也可以保留數(shù)據(jù)局部結(jié)構(gòu);Zhao 等分析了跟蹤比問題,推導(dǎo)出一個正交約束半監(jiān)督學(xué)習(xí)框架[48],多種降維算法都可以在此框架進(jìn)行改進(jìn);尹學(xué)松等提出一種基于成對約束的半監(jiān)督維數(shù)約簡一般框架[49]。

將無監(jiān)督降維方法擴(kuò)展至半監(jiān)督,需要在原有的無監(jiān)督降維算法中增添監(jiān)督信息,如將類標(biāo)簽、成對約束或其他監(jiān)督信息添加到概率主成分[50]、流形方法[51]以及局部保持投影方法[52]進(jìn)行半監(jiān)督的擴(kuò)展。將有監(jiān)督降維方法推廣到半監(jiān)督方法多數(shù)是采用基于圖來完成的,通過在原有的監(jiān)督判據(jù)中加入代表數(shù)據(jù)內(nèi)部結(jié)構(gòu)信息的流形正則化項,如Cai 等將線性判別分析模型進(jìn)行半監(jiān)督擴(kuò)展[53];為了解決上述模型的噪聲敏感問題,Zhang 等采用魯棒的方法來捕獲數(shù)據(jù)的流形結(jié)構(gòu)[54];Zhao 等提出一種新的降維方法,通過無標(biāo)記的樣本來提高線性判別分析模型的性能[55];楊昔陽等針對具有少量模糊隸屬度類別的數(shù)據(jù)和大量未知類別的數(shù)據(jù)組成的數(shù)據(jù)集,提出一種結(jié)合主成分和局部費歇爾判別分析的半監(jiān)督降維方法[56]。

半監(jiān)督降維相關(guān)研究成果較多,但仍存在以下幾點問題:(1)針對于高維稀疏樣本,雖然一些行之有效的方法被提出,但一個好的降維方法應(yīng)具備一定的魯棒性和穩(wěn)定性,因此在微小擾動的情況下,半監(jiān)督降維算法如何依舊保持良好的性能需要進(jìn)一步研究;(2)現(xiàn)有的半監(jiān)督降維算法所使用的監(jiān)督信息多為標(biāo)簽信息或成對約束信息,為離散變量,但當(dāng)監(jiān)督信息為連續(xù)變量時[57],如何進(jìn)行半監(jiān)督降維是下一步的研究重點。

3.5 不平衡數(shù)據(jù)分類與半監(jiān)督學(xué)習(xí)

現(xiàn)有的半監(jiān)督學(xué)習(xí)方法假定數(shù)據(jù)集是平衡的,直接使用已有模型對不平衡數(shù)據(jù)進(jìn)行處理會造成分類性能急劇下降。不平衡數(shù)據(jù)分類的研究成果可以分為基于數(shù)據(jù)層面和基于算法層面的不平衡數(shù)據(jù)下的半監(jiān)督學(xué)習(xí)。

基于數(shù)據(jù)層面的半監(jiān)督學(xué)習(xí)是先通過一定的方法改變樣本數(shù)以達(dá)到樣本的平衡,再進(jìn)行半監(jiān)督學(xué)習(xí)。采樣是常用于平衡數(shù)據(jù)的方法,然而隨機(jī)欠采樣可能刪去了很多潛在有用的數(shù)據(jù),而隨機(jī)過采樣會增加過擬合的可能性。為此,部分學(xué)者將動態(tài)子空間[58]或優(yōu)化樣本分布方法[59]與半監(jiān)督方法結(jié)合解決數(shù)據(jù)不平衡問題,以及Zhou 等通過半監(jiān)督生成式對抗網(wǎng)絡(luò)算法在訓(xùn)練過程中只生成少數(shù)類樣本,使得少數(shù)類和多數(shù)類樣本取得平衡[60]。

基于算法層面的半監(jiān)督學(xué)習(xí)大多數(shù)是改進(jìn)已有的算法,常用的方法包括重新加權(quán)、代價敏感和集成方法。基于圖的半監(jiān)督學(xué)習(xí)解決不平衡問題主要通過重新加權(quán)的方法,如Wang等提出一種傳播算法,能更可靠地使圖上和二進(jìn)制標(biāo)簽矩陣上的函數(shù)的代價函數(shù)最小化[61],并進(jìn)行噪聲消除處理[62]?;诖鷥r敏感和集成學(xué)習(xí)的半監(jiān)督學(xué)習(xí)研究,如Zhu 等為了降低代價敏感的總成本,提出了一種基于不確定性的代價敏感半監(jiān)督學(xué)習(xí)模型[63];黃靜等提出半監(jiān)督集成模型[64],用于非平衡數(shù)據(jù)的分類;肖進(jìn)等將代價敏感學(xué)習(xí)與多分類器集成中的隨機(jī)子空間方法結(jié)合[65],結(jié)果表明與單一的半監(jiān)督模型以及半監(jiān)督集成模型相比,該方法能取得更好的效果。

解決不平衡數(shù)據(jù)的方法較多,但半監(jiān)督學(xué)習(xí)中的不平衡問題相關(guān)研究非常少,因此需要關(guān)注以下問題:(1)代價敏感學(xué)習(xí)的參數(shù)訓(xùn)練具有局限性,可以參考創(chuàng)新訓(xùn)練方式[66]進(jìn)行參數(shù)的求解來獲得優(yōu)秀的代價矩陣;(2)現(xiàn)有的成果多為解決二分類的不平衡數(shù)據(jù)集分類問題,但是多分類數(shù)據(jù)集同樣存在不平衡的問題,針對多分類不平衡問題需要進(jìn)一步研究;(3)現(xiàn)有的不平衡數(shù)據(jù)下的半監(jiān)督方法是將傳統(tǒng)的解決不平衡的方法應(yīng)用于半監(jiān)督學(xué)習(xí)當(dāng)中,而半監(jiān)督與監(jiān)督學(xué)習(xí)的數(shù)據(jù)分布環(huán)境不同,因此傳統(tǒng)的解決不平衡問題的方法是否都可以適用于半監(jiān)督學(xué)習(xí)還需要進(jìn)一步探究;(4)如何利用半監(jiān)督學(xué)習(xí)的數(shù)據(jù)集中存在大量的無標(biāo)簽數(shù)據(jù)的特點來改進(jìn)不平衡數(shù)據(jù)集的分類需要進(jìn)一步研究;(5)現(xiàn)有的半監(jiān)督集成模型大多數(shù)適用于大數(shù)據(jù)規(guī)模,而小數(shù)據(jù)量的半監(jiān)督集成如何保持較好的性能需要深入研究;(6)可以在已經(jīng)成熟的代價敏感學(xué)習(xí)方法的基礎(chǔ)上進(jìn)行半監(jiān)督的擴(kuò)展,或在半監(jiān)督學(xué)習(xí)的框架中添加代價敏感學(xué)習(xí),為如何使得半監(jiān)督學(xué)習(xí)模型具有代價敏感性提供解決思路。

3.6 可靠樣本的選取與減少噪聲數(shù)據(jù)

半監(jiān)督學(xué)習(xí)研究成果較多,但并不總是有效,一方面在于標(biāo)記樣本中提供的監(jiān)督信息存在信息含量低;其次,半監(jiān)督學(xué)習(xí)在利用無標(biāo)簽樣本的過程中,并不總能選取最具有價值的樣本,一旦選取了不可靠的無標(biāo)簽樣本,并從中挖掘數(shù)據(jù)分布信息,便會錯誤地指導(dǎo)分類邊界的形成。部分學(xué)者主要從提出高置信度評價方法以及將主動學(xué)習(xí)引入半監(jiān)督學(xué)習(xí)過程兩個方面進(jìn)行研究,主動獲取有效的監(jiān)督信息和降低偽標(biāo)記樣本的噪聲,此外,也有學(xué)者通過數(shù)據(jù)剪輯方法[67-68]對產(chǎn)生的錯誤標(biāo)記進(jìn)行修正和凈化。

部分學(xué)者致力于高置信度評估方法的研究,如Zhou 等采用投票法進(jìn)行標(biāo)記置信度計算[35],但該方法存在沒有考慮樣本的分布信息的缺陷;鄒細(xì)濤提出樣本代表性度量[69],如果某個樣本與其他很多樣本都相似,則該樣本具有所有樣本的共性,其被標(biāo)記正確的概率就很大;景陳勇等考慮偽標(biāo)記數(shù)據(jù)與實際樣本空間的分布差異,提出了采用樣本所屬某個類別的最大概率與次大概率的誤差作為基分類器的置信度[70],但該信度評估方法存在沒有充分表達(dá)樣本的隨機(jī)分布特性的缺點;尹玉等引入加權(quán)融合樣本所屬某個類別的最大概率與次大概率的誤差和樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率誤差,來確定樣本作為偽標(biāo)簽的置信度[71]。

雖然高置信度通常意味偽標(biāo)簽預(yù)測是正確的,但不能保證分類性能的提高。部分學(xué)者將主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)結(jié)合,如畢秋敏等在協(xié)同訓(xùn)練算法的基礎(chǔ)上引入主動學(xué)習(xí)思想,從低置信度樣本中選取最有價值的樣本,人為標(biāo)注完后添加到訓(xùn)練集中,重新訓(xùn)練分類器進(jìn)行分類[72];柴變芳等提出一種基于主動學(xué)習(xí)先驗的半監(jiān)督K-均值聚類算法[73]。且部分研究表明,半監(jiān)督學(xué)習(xí)與主動學(xué)習(xí)兩種策略結(jié)合的性能優(yōu)于單獨使用單一方法的性能[74-75]。

綜上所述,雖然高置信度評價方法多樣,但是缺少評價方法選取的指導(dǎo)標(biāo)準(zhǔn);將主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)結(jié)合,可以主動發(fā)現(xiàn)有效的監(jiān)督信息,但主動學(xué)習(xí)何時停止,發(fā)現(xiàn)多少有標(biāo)記樣本能夠有效地提升模型性能需要進(jìn)一步探究。

4 結(jié)論與展望

隨著數(shù)據(jù)量呈指數(shù)增長,半監(jiān)督學(xué)習(xí)相比較傳統(tǒng)的監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),具有能夠利用少量帶有標(biāo)簽的數(shù)據(jù)指導(dǎo)大量無標(biāo)簽數(shù)據(jù)的優(yōu)點,半監(jiān)督學(xué)習(xí)儼然成為機(jī)器學(xué)習(xí)研究的熱點與重點。近些年來,半監(jiān)督學(xué)習(xí)研究成果豐碩,成功應(yīng)用到經(jīng)濟(jì)、金融、醫(yī)療等各個行業(yè)。因此,本文從半監(jiān)督聚類、分類、回歸、降維以及不平衡數(shù)據(jù)分類和降低噪聲六大方面對現(xiàn)有的半監(jiān)督學(xué)習(xí)研究成果進(jìn)行歸納總結(jié),在已有研究現(xiàn)狀的基礎(chǔ)上,本文對未來的研究方向進(jìn)行以下思考:

(1)隨著半監(jiān)督學(xué)習(xí)研究的深入,學(xué)者們針對已有半監(jiān)督學(xué)習(xí)方法與框架的不足進(jìn)行改進(jìn)與補(bǔ)充,但部分新提出的方法在文獻(xiàn)中僅通過特定數(shù)據(jù)集進(jìn)行了實證,而缺少一定的理論基礎(chǔ)與證明,無法進(jìn)一步說明該方法的有效性與穩(wěn)定性。

(2)隨著數(shù)據(jù)出現(xiàn)維度高、數(shù)據(jù)稀疏、非線性以及非平衡等特點,學(xué)者們在原有半監(jiān)督學(xué)習(xí)方法的基礎(chǔ)上,進(jìn)行算法改進(jìn)以適應(yīng)復(fù)雜數(shù)據(jù),引入額外的參數(shù)雖然提高了模型性能,但同時增添了算法復(fù)雜度,帶來迭代次數(shù)增多、模型訓(xùn)練時間增長等缺陷;對于參數(shù)的取值,多數(shù)憑借經(jīng)驗或者手動調(diào)整最優(yōu)值,缺少一定的指導(dǎo)方法;當(dāng)參數(shù)取值的微小變動,導(dǎo)致模型性能發(fā)生改變,從而導(dǎo)致訓(xùn)練的模型不具有穩(wěn)定性和魯棒性。

(3)半監(jiān)督學(xué)習(xí)中需要選取少量監(jiān)督信息作為指導(dǎo),但如何確定監(jiān)督信息中信息量是否充足以及至少需要多少標(biāo)記樣本才能實現(xiàn)有效的半監(jiān)督學(xué)習(xí)還缺乏相應(yīng)的討論。

(4)監(jiān)督信息主要為類標(biāo)簽和成對約束的形式,由于基于成對約束信息的模型構(gòu)造相對容易,多數(shù)算法將類標(biāo)簽信息轉(zhuǎn)化為成對約束信息后再進(jìn)行半監(jiān)督學(xué)習(xí),但將類標(biāo)簽信息轉(zhuǎn)換為成對約束信息會使標(biāo)號信息的意義減弱,如何利用標(biāo)簽信息進(jìn)行半監(jiān)督學(xué)習(xí)以及將標(biāo)簽信息與成對約束信息結(jié)合使用形成基于混合約束的半監(jiān)督方法是下一步研究方向。

(5)監(jiān)督信息為連續(xù)變量時,相關(guān)研究甚少。機(jī)器學(xué)習(xí)中回歸和回歸意義下的維數(shù)約簡方法是以連續(xù)變量為目標(biāo)變量,而半監(jiān)督學(xué)習(xí)中的聚類假設(shè)在上述方面不一定成立,以及在置信度、損失函數(shù)和評價指標(biāo)等方面與半監(jiān)督分類、聚類等方法存在差異,使得當(dāng)監(jiān)督信息為連續(xù)變量時,半監(jiān)督學(xué)習(xí)方法的設(shè)計存在難點。

(6)半監(jiān)督學(xué)習(xí)已有的研究成果多數(shù)是在已有的監(jiān)督模型或無監(jiān)督模型的基礎(chǔ)上進(jìn)行擴(kuò)展,半監(jiān)督分類方法眾多,而對半監(jiān)督聚類、降維以及回歸研究相對較少,因此可以基于不同的聚類、降維及回歸思想,形成不同的半監(jiān)督方法,以及從減少噪聲數(shù)據(jù)、提高求解速度、提高模型精度等不同的角度對現(xiàn)有的半監(jiān)督方法進(jìn)行改進(jìn)。

猜你喜歡
降維標(biāo)簽聚類
混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
車主之友(2022年4期)2022-08-27 00:57:12
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
標(biāo)簽化傷害了誰
基于改進(jìn)的遺傳算法的模糊聚類算法
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
拋物化Navier-Stokes方程的降維仿真模型
計算物理(2014年1期)2014-03-11 17:00:18
利津县| 华安县| 三穗县| 定州市| 金塔县| 祁阳县| 石家庄市| 西丰县| 马龙县| 长垣县| 棋牌| 广德县| 丹棱县| 闻喜县| 菏泽市| 新田县| 开远市| 陕西省| 长治县| 青阳县| 登封市| 汝南县| 河源市| 化州市| 会同县| 禹城市| 铁岭县| 什邡市| 长宁区| 沧源| 鄢陵县| 新民市| 自贡市| 奈曼旗| 柘城县| 游戏| 永康市| 增城市| 四川省| 安宁市| 太康县|