国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究綜述

2020-07-16 18:27宮辰張闖王啟舟
航空兵器 2020年3期
關(guān)鍵詞:機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能

宮辰 張闖 王啟舟

摘 要:在機(jī)器學(xué)習(xí)領(lǐng)域,監(jiān)督學(xué)習(xí)算法在理論層面和工程應(yīng)用中均取得了豐碩的成果,但此類算法的效果嚴(yán)重依賴訓(xùn)練樣本的標(biāo)簽質(zhì)量,在實(shí)際問(wèn)題中獲取具有高質(zhì)量標(biāo)簽的訓(xùn)練樣本通常費(fèi)時(shí)費(fèi)力。為節(jié)省人力物力,網(wǎng)絡(luò)爬蟲(chóng)、眾包方法等替代方法被用于對(duì)訓(xùn)練數(shù)據(jù)的采集。不幸的是,這些替代方法獲取的數(shù)據(jù)往往存在大量的錯(cuò)誤標(biāo)注,即標(biāo)簽噪聲,由此帶來(lái)了很多潛在的問(wèn)題。因此,對(duì)標(biāo)簽噪聲魯棒學(xué)習(xí)算法的研究,在推廣機(jī)器學(xué)習(xí)工程應(yīng)用、降低機(jī)器學(xué)習(xí)算法部署成本方面具有重要的意義。本文對(duì)標(biāo)簽噪聲魯棒學(xué)習(xí)算法的最新研究成果進(jìn)展進(jìn)行了全面綜述,分別從標(biāo)簽噪聲的產(chǎn)生、影響、分類等方面進(jìn)行了詳細(xì)的總結(jié),對(duì)每類標(biāo)簽噪聲的處理方法進(jìn)行了介紹,并對(duì)每類處理方法的優(yōu)缺點(diǎn)進(jìn)行分析。

關(guān)鍵詞: 人工智能;機(jī)器學(xué)習(xí);弱監(jiān)督學(xué)習(xí);標(biāo)簽噪聲;深度學(xué)習(xí);魯棒學(xué)習(xí)算法

中圖分類號(hào): TJ760;TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào): 1673-5048(2020)03-0020-07

0 引言

監(jiān)督學(xué)習(xí)分類算法在醫(yī)療、金融、交通等領(lǐng)域中已經(jīng)取得了巨大的成功。此類算法通常從大量訓(xùn)練樣本中學(xué)習(xí)出一個(gè)分類模型,然后將其用于預(yù)測(cè)新樣本的標(biāo)簽。具體來(lái)說(shuō),每個(gè)訓(xùn)練樣本都對(duì)應(yīng)一個(gè)事件/對(duì)象,并由兩部分組成: 一個(gè)描述該事件/對(duì)象的特征向量(或?qū)嵗?,一個(gè)表示該事件/對(duì)象真實(shí)類別的標(biāo)簽。監(jiān)督學(xué)習(xí)分類算法利用大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)在假設(shè)空間下,尋找特定任務(wù)下的最優(yōu)分類器模型,然后將其部署用于預(yù)測(cè)新測(cè)試樣本的標(biāo)簽。但是在實(shí)際應(yīng)用場(chǎng)景中,考慮到人力、物力成本或分類任務(wù)本身具有的主觀性,實(shí)際的訓(xùn)練數(shù)據(jù)通常受到外部噪聲影響。

訓(xùn)練數(shù)據(jù)所受到的外部噪聲被定義為數(shù)據(jù)實(shí)例特征和數(shù)據(jù)標(biāo)簽錯(cuò)誤的對(duì)應(yīng)關(guān)系[1]或非系統(tǒng)錯(cuò)誤的集合[2]。外部噪聲通常分為兩類,即特征噪聲和標(biāo)簽噪聲[2-4]。對(duì)于分類問(wèn)題,特征噪聲指訓(xùn)練樣本的實(shí)例特征本身與其真實(shí)特征間的偏差。此類噪聲通常對(duì)目標(biāo)分類器性能影響較小,甚至人為引入的特征噪聲能夠提高目標(biāo)分類器泛化能力或?qū)刽敯粜?。類似地,?biāo)簽噪聲通常指分類學(xué)習(xí)算法中用于訓(xùn)練的目標(biāo)標(biāo)簽與相應(yīng)實(shí)例本身的真實(shí)標(biāo)簽的偏差。

與特征噪聲相比,許多工作從實(shí)驗(yàn)和理論的角度證明了標(biāo)簽噪聲對(duì)目標(biāo)分類器性能有著更為嚴(yán)重的負(fù)面影響。Frénay等人[5]指出,這種現(xiàn)象可能由兩個(gè)因素造成: (1)實(shí)例標(biāo)簽維度遠(yuǎn)小于其特征維度;(2)特征對(duì)模型訓(xùn)練的重要性或大或小,而標(biāo)簽總是對(duì)模型訓(xùn)練有很大的影響。Quinlan[2]的研究也得出了類似的結(jié)論: 相對(duì)于特征噪聲,標(biāo)簽噪聲對(duì)分類器的影響更大。因此,本文著重討論標(biāo)簽噪聲問(wèn)題。

標(biāo)簽噪聲在實(shí)際應(yīng)用場(chǎng)景中廣泛存在。 在軍事目標(biāo)識(shí)別場(chǎng)景中,模型的訓(xùn)練往往依賴于準(zhǔn)確的目標(biāo)標(biāo)注。但是在目標(biāo)標(biāo)注過(guò)程中,一些外觀相似的軍事目標(biāo)經(jīng)常容易被標(biāo)注錯(cuò)誤,比如坦克和自行榴彈炮等。類似地,在紅外或雷達(dá)圖像場(chǎng)景中,成像質(zhì)量或者是照射角的變化也經(jīng)常導(dǎo)致目標(biāo)標(biāo)注錯(cuò)誤,也就造成了本文所討論的標(biāo)簽噪聲,這些標(biāo)簽噪聲將不可避免地對(duì)訓(xùn)練模型帶來(lái)負(fù)面影響。因此, 標(biāo)簽噪聲魯棒學(xué)習(xí)算法的研究對(duì)機(jī)器學(xué)習(xí)應(yīng)用于實(shí)際工程領(lǐng)域具有重要意義。

為研究各類標(biāo)簽噪聲對(duì)目標(biāo)分類器/分類算法的影響,研究者通常會(huì)將噪聲標(biāo)簽、真實(shí)標(biāo)簽、實(shí)例特征三者看作隨機(jī)變量,進(jìn)而對(duì)三者的依賴關(guān)系做出假設(shè)。就有向概率圖的角度而言[5],大部分工作研究的標(biāo)簽噪聲可以分為三類: 隨機(jī)標(biāo)簽噪聲(Random Classification label Noise,RCN)、類相關(guān)標(biāo)簽噪聲(Class-Conditional label Noise,CCN)以及實(shí)例相關(guān)標(biāo)簽噪聲(Instance-Dependent label Noise,IDN)。三者分別假定標(biāo)簽錯(cuò)誤與實(shí)例特征和真實(shí)標(biāo)簽均無(wú)關(guān)、標(biāo)簽錯(cuò)誤僅與真實(shí)標(biāo)簽相關(guān)、標(biāo)簽錯(cuò)誤與實(shí)例特征相關(guān)。

三者的概率圖表示如圖1所示。其中,x表示實(shí)例特征,y表示其真實(shí)標(biāo)簽(不可觀測(cè)且完全正確的標(biāo)注),y~表示其噪聲標(biāo)簽(可觀測(cè)但不完全正確的標(biāo)注)。此外,與文獻(xiàn)[5-6]等類似,本文額外引入隱變量e用于指示該實(shí)例是否受標(biāo)簽噪聲帶來(lái)的錯(cuò)誤影響。

值得注意的是,已有工作通常限定在一種標(biāo)簽噪聲對(duì)監(jiān)督學(xué)習(xí)算法的影響,而實(shí)際場(chǎng)景下標(biāo)簽數(shù)據(jù)噪聲可能是三種情況的混合。此外,其他研究工作嘗試研究開(kāi)放情形下的標(biāo)簽噪聲問(wèn)題,即部分實(shí)例樣本真實(shí)標(biāo)簽不存在于訓(xùn)練樣本的標(biāo)簽空間中的情況。本文僅考慮RCN,CCN,IDN三種標(biāo)簽噪聲分別對(duì)目標(biāo)分類器的影響以及如何設(shè)計(jì)特定類型噪聲下的魯棒分類算法。

本文將從標(biāo)簽噪聲的產(chǎn)生和標(biāo)簽噪聲的影響闡述標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究的重要意義,并從上述標(biāo)簽噪聲的三個(gè)分類進(jìn)一步闡述處理標(biāo)簽噪聲的前沿算法,最后對(duì)標(biāo)簽噪聲學(xué)習(xí)進(jìn)行總結(jié)并展望其發(fā)展趨勢(shì)。

1 標(biāo)簽噪聲的產(chǎn)生

標(biāo)簽噪聲廣泛存在于交通、金融等多個(gè)領(lǐng)域,以及雷達(dá)目標(biāo)檢測(cè)、紅外目標(biāo)識(shí)別等關(guān)鍵應(yīng)用場(chǎng)景。很多因素可能導(dǎo)致標(biāo)簽噪聲[5-6]: (1)標(biāo)注過(guò)程中可獲取的信息不夠充分,實(shí)例特征不足以充分描述目標(biāo)類別的數(shù)據(jù)[7-9]。(2)待標(biāo)注樣本任務(wù)本身具有主觀性,不同標(biāo)注人員從不同角度出發(fā)會(huì)給出不同的標(biāo)簽[10-11]。(3)待標(biāo)記樣本自身可辨識(shí)度較低,對(duì)于一些難以標(biāo)記的樣本,即使專家也無(wú)法給出正確標(biāo)注[1]。(4)標(biāo)注算法本身質(zhì)量/精度較低[12-15]。(5)通信/編碼問(wèn)題或數(shù)據(jù)集處理過(guò)程也有可能導(dǎo)致樣本標(biāo)簽出現(xiàn)錯(cuò)誤[3, 7, 16]。(6)在大規(guī)模標(biāo)注數(shù)據(jù)中,即使標(biāo)注算法質(zhì)量較高,獲取的標(biāo)簽也可能存在噪聲問(wèn)題[17]。

2 標(biāo)簽噪聲的影響

標(biāo)簽噪聲在實(shí)際應(yīng)用中廣泛存在。為了降低機(jī)器學(xué)習(xí)算法的部署成本、保障算法的穩(wěn)定性,研究者不得不研究標(biāo)簽噪聲對(duì)分類學(xué)習(xí)算法的影響。首先,標(biāo)簽噪聲會(huì)嚴(yán)重影響分類學(xué)習(xí)算法的性能。例如,在RCN或CCN情形下,文獻(xiàn)[18-19]從理論角度證明了線性分類器及二次型分類器會(huì)受到標(biāo)簽噪聲的影響。類似地,Okamoto等人[20]證明了k-NN分類器同樣受標(biāo)簽噪聲影響。

此外,從實(shí)驗(yàn)角度來(lái)講,決策樹(shù)[2]、支持向量機(jī)[21]、AdaBoost等方法[22]效果也會(huì)受標(biāo)簽噪聲的負(fù)面影響。近年來(lái),隨著深度學(xué)習(xí)算法的廣泛應(yīng)用,標(biāo)簽噪聲對(duì)深度模型的影響也受到了廣泛的關(guān)注。例如,Zhang等人[23]發(fā)現(xiàn)深度模型可以擬合隨機(jī)標(biāo)簽,即深度模型自身不具有區(qū)分正誤標(biāo)簽樣本的能力?;谄浣Y(jié)果,文獻(xiàn)[24-25]從實(shí)驗(yàn)角度提出了深度模型的記憶/泛化性質(zhì)。

其次,標(biāo)簽噪聲會(huì)導(dǎo)致分類器需要更多的訓(xùn)練樣本才能達(dá)到指定的性能指標(biāo)[16, 26]。類似地,有標(biāo)簽噪聲的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致目標(biāo)分類器模型復(fù)雜度大大增加[2, 27]。Dawid 等人[9]則指出標(biāo)簽噪聲下觀測(cè)的類別頻率可能會(huì)改變。舉例來(lái)說(shuō),在醫(yī)學(xué)研究中,醫(yī)學(xué)研究者通常很關(guān)注某種疾病的發(fā)病率,但是發(fā)病率有很大可能性被標(biāo)簽噪聲影響。最后,對(duì)于一些其他的任務(wù),例如,特征選擇[28]以及特征排序[29]等也受標(biāo)簽噪聲的嚴(yán)重影響。

3 標(biāo)簽噪聲問(wèn)題分類

為了能夠從理論層面分析標(biāo)簽噪聲對(duì)各種分類器/分類算法的影響,研究者通常會(huì)假設(shè)標(biāo)簽噪聲的生成過(guò)程,并據(jù)此設(shè)計(jì)相應(yīng)的噪聲魯棒算法。

3.1 隨機(jī)標(biāo)簽噪聲(RCN)

RCN假設(shè)噪聲標(biāo)簽的生成過(guò)程是完全隨機(jī)的,標(biāo)簽噪聲與真實(shí)標(biāo)簽或者實(shí)例均不相關(guān)。例如,在眾包場(chǎng)景下,部分沒(méi)有責(zé)任心的標(biāo)注員會(huì)對(duì)數(shù)據(jù)胡亂標(biāo)注,得到的標(biāo)簽就是完全隨機(jī)的。該設(shè)定較為簡(jiǎn)單,相應(yīng)的研究工作也比較徹底。

針對(duì)RCN,研究者主要關(guān)注常用損失函數(shù)的固有魯棒性,或如何設(shè)計(jì)新的RCN魯棒損失函數(shù)。在理論上,文獻(xiàn)[30]證明了0-1損失函數(shù)自身對(duì)RCN問(wèn)題魯棒,而使用交叉熵?fù)p失函數(shù)(cross entropy loss)[31]和合頁(yè)損失函數(shù)(hinge loss)[32]得到的分類器將明顯受到標(biāo)簽噪聲的負(fù)面影響(見(jiàn)圖2)。此外,基于無(wú)偏估計(jì)的思想,Ghosh等人[31]提出損失函數(shù)對(duì)RCN問(wèn)題魯棒的充分條件: 對(duì)稱條件(symmetric condition)。

基于此,為得到RCN問(wèn)題下的魯棒分類器,一般建議在二分類問(wèn)題下使用非合頁(yè)損失函數(shù)(unhinged loss)[33]、斜坡?lián)p失函數(shù)(ramp loss)[30]或S型損失函數(shù)(sigmoid loss)[30];在多分類問(wèn)題下使用平均絕對(duì)誤差(mean absolute error)[31]作為損失函數(shù)。值得注意的是,對(duì)于C類分類問(wèn)題,上文所述損失函數(shù)對(duì)RCN問(wèn)題魯棒的充要條件是訓(xùn)練數(shù)據(jù)噪聲率小于1-1C。另外,從優(yōu)化的角度來(lái)講,上文所述的許多損失函數(shù)實(shí)際上難以訓(xùn)練 [34],例如,0-1損失函數(shù)和斜坡?lián)p失函數(shù)。

近期,Zhang等人[34]提出了截?cái)嗟腖q損失(Truncatedloss)。Lq損失函數(shù)可以看作平均絕對(duì)誤差和交叉熵?fù)p失的一般化,因此, 一定程度上同時(shí)繼承了平均絕對(duì)損失對(duì)RCN問(wèn)題固有的魯棒性和交叉熵?fù)p失函數(shù)收斂速度快的特點(diǎn)。此外,該方法建議在訓(xùn)練過(guò)程中動(dòng)態(tài)地剔除交叉熵?fù)p失值較大的樣本(即損失截?cái)啵?,以此得到更加緊湊的收斂性上界保證。與其他RCN損失函數(shù)相比,該方法在理論層面上對(duì)數(shù)據(jù)噪聲的類型(即RCN和CCN)要求更松馳,可以容忍更嚴(yán)重的噪聲數(shù)據(jù)比例。然而,該方法估算誤差上界并不緊湊,且本身受噪聲數(shù)據(jù)比例和超參影響。

3.2 類相關(guān)標(biāo)簽噪聲(CCN)

CCN假設(shè)觀測(cè)的噪聲標(biāo)簽與潛在真實(shí)標(biāo)簽相關(guān),但與實(shí)例特征本身無(wú)關(guān)。相較于RCN問(wèn)題,CCN的設(shè)定更符合真實(shí)數(shù)據(jù)集的情況。例如,對(duì)于圖片標(biāo)注任務(wù),由于主觀認(rèn)知上的偏差,一個(gè)真實(shí)標(biāo)簽為“狗”的圖片被誤標(biāo)為“貓”的概率會(huì)遠(yuǎn)遠(yuǎn)大于誤標(biāo)為“飛機(jī)”的概率。CCN問(wèn)題的研究也較為徹底。研究者通常使用噪聲變換矩陣(noise transition matrix)來(lái)描述特定數(shù)據(jù)集或標(biāo)注任務(wù)下的標(biāo)簽噪聲性質(zhì)。該矩陣元素表示給定真實(shí)標(biāo)簽情況下特定噪聲標(biāo)簽出現(xiàn)的概率,即

式中: T為噪聲變換矩陣,下標(biāo)i, j分別為其第i行第j列的元素取值,通常假設(shè)Ti, i>Ti, j(i≠j,i, j)。

給定噪聲變換矩陣和噪聲訓(xùn)練樣本,研究者通常利用無(wú)偏估計(jì)策略來(lái)設(shè)計(jì)滿足風(fēng)險(xiǎn)一致性(risk-consistent)條件的損失函數(shù)。針對(duì)標(biāo)簽噪聲問(wèn)題,無(wú)偏估計(jì)策略研究在僅給定有標(biāo)簽噪聲的訓(xùn)練樣本條件下,如何估計(jì)其未知的無(wú)噪聲訓(xùn)練樣本在特定損失函數(shù)下風(fēng)險(xiǎn)的期望(即無(wú)偏風(fēng)險(xiǎn))。通常來(lái)講,給定原損失函數(shù)l(s, y),希望設(shè)計(jì)新的損失函數(shù)l~(s, y)以滿足:

接著,可以通過(guò)最小化無(wú)偏風(fēng)險(xiǎn)

來(lái)訓(xùn)練對(duì)噪聲魯棒的目標(biāo)分類器s(x)。該策略通常通過(guò)對(duì)原損失函數(shù)的重加權(quán)(reweighting)方法來(lái)實(shí)現(xiàn)。例如,文獻(xiàn)[35]提出在給定噪聲變換矩陣和噪聲數(shù)據(jù)分布條件下實(shí)例相關(guān)權(quán)重的計(jì)算方法;文獻(xiàn)[36]將該策略擴(kuò)展到多分類問(wèn)題下,然而需要使用目標(biāo)分類器預(yù)測(cè)概率(干凈數(shù)據(jù)分布)而非噪聲數(shù)據(jù)分布概率。為了避免對(duì)數(shù)據(jù)分布的依賴;文獻(xiàn)[33, 37]從噪聲生成正向/反向過(guò)程角度出發(fā)設(shè)計(jì)類相關(guān)的權(quán)重計(jì)算方法,并將方法應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)框架。此外,與上述方法不同,文獻(xiàn)[38]提出了基于數(shù)據(jù)清洗的標(biāo)簽噪聲魯棒算法,證明了當(dāng)數(shù)據(jù)分布滿足特定條件下清洗后數(shù)據(jù)相應(yīng)風(fēng)險(xiǎn)的無(wú)偏一致性質(zhì)。雖然無(wú)偏估計(jì)方法流程簡(jiǎn)單,但是僅適用于較溫和的噪聲條件和較簡(jiǎn)單的分類器模型。

此類方法估算誤差上界受到標(biāo)簽噪聲程度的嚴(yán)重影響: 標(biāo)簽噪聲越嚴(yán)重,估算誤差上界越大,甚至趨近于無(wú)窮。為此,研究者從分類器一致性(classifier-consistent)角度出發(fā)研究CCN問(wèn)題下的標(biāo)簽噪聲魯棒方法,此類算法需滿足:

在標(biāo)簽噪聲問(wèn)題下,研究者通常使用噪聲變換矩陣污染目標(biāo)分類器預(yù)測(cè)標(biāo)簽概率,再使用噪聲標(biāo)簽作為污染后預(yù)測(cè)標(biāo)簽概率的優(yōu)化目標(biāo)。該方法的一致性保證可以從概率論角度[39-40]和優(yōu)化角度[37]得以證明。與風(fēng)險(xiǎn)一致性方法不同,分類器一致性方法的估算誤差上界與標(biāo)簽噪聲程度無(wú)關(guān)。不過(guò)從實(shí)驗(yàn)結(jié)果來(lái)看,即使給出精確的噪聲變換矩陣,大噪聲數(shù)據(jù)訓(xùn)練得到的分類器精度仍然很低。

在實(shí)際應(yīng)用中,還需要估計(jì)噪聲變換矩陣中元素的值。例如,文獻(xiàn)[33]中將噪聲變換矩陣中元素作為超參,并使用交叉驗(yàn)證進(jìn)行估計(jì);文獻(xiàn)[37, 41]對(duì)部分噪聲標(biāo)簽樣本重新標(biāo)注,并使用這些準(zhǔn)確標(biāo)注后的樣本估算噪聲變換矩陣。另外,文獻(xiàn)[35,37]在噪聲標(biāo)簽數(shù)據(jù)下訓(xùn)練的分類器尋找“錨點(diǎn)”,若實(shí)例為“錨點(diǎn)”,其滿足:

p(y=yi|x=xi)=1

給定類別為j的“錨點(diǎn)”(yi=j),則可以直接估計(jì)噪聲變換矩陣中第j列元素。雖然該方法省去了調(diào)參或數(shù)據(jù)標(biāo)注帶來(lái)的額外人力、物力成本,但是“錨點(diǎn)”并不總在數(shù)據(jù)集中存在。因此,文獻(xiàn)[38]首先利用噪聲數(shù)據(jù)訓(xùn)練分類器,該分類器預(yù)測(cè)概率的排序被用于估算噪聲變換矩陣。在數(shù)據(jù)滿足可分條件的前提下,可以證明其估算噪聲變換矩陣的一致性。此外,即使在溫和的標(biāo)簽噪聲條件下,估算噪聲變換矩陣中微小的誤差極有可能影響目標(biāo)魯棒分類器的性能[41]。因此,一些文獻(xiàn)[36, 40, 42-43]建議使用聯(lián)合優(yōu)化技術(shù)(joint optimization)、交替優(yōu)化方法(alternating optimization)或EM算法在訓(xùn)練目標(biāo)分類器的同時(shí),估算噪聲變換矩陣中元素的值。然而這種思路通常沒(méi)有嚴(yán)格的理論保障,且依賴參數(shù)初始化或特殊的正則化項(xiàng)以避免平凡解的出現(xiàn)。

3.3 實(shí)例相關(guān)標(biāo)簽噪聲(IDN)

IDN假設(shè)噪聲標(biāo)簽與實(shí)例本身相關(guān)。這種一般化的標(biāo)簽噪聲問(wèn)題通常難以建模,僅有的理論工作通常會(huì)對(duì)噪聲實(shí)例分布做出嚴(yán)格的限制。例如,文獻(xiàn)[44]假設(shè)任一實(shí)例標(biāo)簽錯(cuò)誤的概率有統(tǒng)一的上界;文獻(xiàn)[45]假設(shè)離決策邊界(decision boundary)越近的實(shí)例越容易錯(cuò)分。

這些假設(shè)限制了其實(shí)際工程中的應(yīng)用,因此,一些研究試圖在深度學(xué)習(xí)框架下設(shè)計(jì)啟發(fā)式算法來(lái)識(shí)別/修正潛在的錯(cuò)誤標(biāo)簽。這些方法通常不對(duì)標(biāo)簽噪聲的生成過(guò)程做出假設(shè),然而通常會(huì)隱式地處理實(shí)例相關(guān)的標(biāo)簽噪聲。

一些文獻(xiàn)嘗試為每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)重,該權(quán)重在訓(xùn)練過(guò)程中反映了學(xué)習(xí)算法對(duì)相應(yīng)樣本的重視程度。通常來(lái)講,某一實(shí)例權(quán)重越大,該實(shí)例的標(biāo)簽正確的可能性越大。權(quán)重計(jì)算的方法可以基于額外的無(wú)偏干凈數(shù)據(jù)。例如,文獻(xiàn)[46]利用有準(zhǔn)確標(biāo)注的噪聲數(shù)據(jù)訓(xùn)練額外的網(wǎng)絡(luò)模塊,用于預(yù)測(cè)訓(xùn)練樣本標(biāo)簽正確的概率;文獻(xiàn)[47-48]在嵌入空間(embedding space)下計(jì)算有標(biāo)簽噪聲的訓(xùn)練數(shù)據(jù)和干凈數(shù)據(jù)間的歐式距離或余弦相似度,并賦予小距離/大相似度的實(shí)例更大的權(quán)重;文獻(xiàn)[49]利用隨機(jī)梯度下降(SGD)優(yōu)化算法給出分類器在噪聲數(shù)據(jù)下參數(shù)的更新方向,并根據(jù)更新后分類器在干凈數(shù)據(jù)下的表現(xiàn)對(duì)更新方向進(jìn)行加權(quán)。

權(quán)重設(shè)計(jì)方法也可以不利用額外干凈數(shù)據(jù)。例如,文獻(xiàn)[50]使用基于密度的無(wú)監(jiān)督聚類算法來(lái)測(cè)量每個(gè)訓(xùn)練樣本的復(fù)雜度,然后對(duì)簡(jiǎn)單樣本賦予較小的權(quán)重,對(duì)復(fù)雜樣本賦予較大的權(quán)重;文獻(xiàn)[46, 51]假設(shè)損失值較小的樣本標(biāo)簽更有可能是正確的,據(jù)此賦予損失值較小的樣本以較大的權(quán)重。

值得注意的是,上述加權(quán)方法可以看作是數(shù)據(jù)清洗方法[52-54]的一般化,因此,此類算法或多或少存在數(shù)據(jù)分布偏差(distribution bias)的問(wèn)題。其一,某些樣本的標(biāo)簽本身正確,然而對(duì)于優(yōu)化器/分類器來(lái)講,難以訓(xùn)練的樣本(例如,處于數(shù)據(jù)分布的決策邊界附近)也可能被賦予較小權(quán)重甚至被直接刪除,顯然這會(huì)嚴(yán)重影響分類器的泛化能力。其二,即使權(quán)重的計(jì)算正確,在標(biāo)簽噪聲較為嚴(yán)重的情況下,大量的樣本在訓(xùn)練過(guò)程中幾乎不起作用(例如,錯(cuò)誤標(biāo)簽樣本權(quán)重設(shè)為零)。

為此,許多方法嘗試是否可以直接預(yù)測(cè)真實(shí)標(biāo)簽,其通常利用深度神經(jīng)網(wǎng)絡(luò)的泛化/記憶性質(zhì)。例如,文獻(xiàn)[24]指出,深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程前期主要嘗試學(xué)習(xí)抽象的/一般化的概念,而在訓(xùn)練過(guò)程后期會(huì)嘗試記住每一個(gè)訓(xùn)練樣本的輸出結(jié)果;文獻(xiàn)[25]的實(shí)驗(yàn)結(jié)果表明,在學(xué)習(xí)率足夠大時(shí),深度神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)簽噪聲有一定的抵抗能力。

據(jù)此,針對(duì)每個(gè)訓(xùn)練樣本,文獻(xiàn)[55]融合分類器的預(yù)測(cè)標(biāo)簽和原始噪聲標(biāo)簽作為優(yōu)化目標(biāo);文獻(xiàn)[56]在緩存訓(xùn)練過(guò)程中對(duì)于每個(gè)訓(xùn)練樣本分類器預(yù)測(cè)標(biāo)簽,并且使用超參從預(yù)測(cè)標(biāo)簽均值中學(xué)習(xí)和從原始噪聲標(biāo)簽中學(xué)習(xí)進(jìn)行權(quán)衡;文獻(xiàn)[57]將真實(shí)標(biāo)簽看成隨機(jī)變量,在模型訓(xùn)練過(guò)程中進(jìn)行優(yōu)化,并且作為優(yōu)化目標(biāo)。另一些方法嘗試?yán)妙~外的干凈數(shù)據(jù)對(duì)噪聲標(biāo)簽進(jìn)行修正。例如,文獻(xiàn)[58]在小規(guī)模干凈數(shù)據(jù)下訓(xùn)練額外的分類器模型,該分類器的預(yù)測(cè)標(biāo)簽和原始噪聲標(biāo)簽融合用于大規(guī)模噪聲數(shù)據(jù)下對(duì)噪聲標(biāo)簽的修正;文獻(xiàn)[59]假設(shè)預(yù)先可以得到部分有重新標(biāo)注的噪聲樣本,并且利用額外的殘差網(wǎng)絡(luò)模塊學(xué)習(xí)噪聲標(biāo)簽到干凈標(biāo)簽的映射。與上述方法不同,文獻(xiàn)[60]針對(duì)具體任務(wù)引入業(yè)務(wù)相關(guān)的先驗(yàn)知識(shí)對(duì)噪聲標(biāo)簽進(jìn)行修正。

此類方法可以避免加權(quán)方法中數(shù)據(jù)分布偏差的問(wèn)題。然而對(duì)于原本正確的標(biāo)簽,上述方法仍然會(huì)對(duì)其標(biāo)簽進(jìn)行修正。這會(huì)導(dǎo)致原本正確的標(biāo)簽質(zhì)量有所下降,進(jìn)而影響最終分類器的性能。為此,一些方法嘗試從圖論的角度出發(fā),通過(guò)探索拉普拉斯矩陣所表示的實(shí)例間鄰接關(guān)系來(lái)設(shè)計(jì)標(biāo)簽噪聲的清洗方法[41]或修正策略[61]。

3.4 小結(jié)

本節(jié)從標(biāo)簽噪聲的生成過(guò)程出發(fā),分別討論了隨機(jī)標(biāo)簽噪聲(RCN)、類相關(guān)標(biāo)簽噪聲(CCN)以及實(shí)例相關(guān)標(biāo)簽噪聲(IDN),對(duì)每類標(biāo)簽噪聲解決方案做了詳細(xì)闡述并分析了其優(yōu)缺點(diǎn)。具體來(lái)說(shuō),對(duì)于RCN,關(guān)注點(diǎn)在于分析RCN損失函數(shù)的固有魯棒性;對(duì)于CCN,關(guān)注點(diǎn)在于設(shè)計(jì)無(wú)偏估計(jì)策略進(jìn)而對(duì)損失函數(shù)重加權(quán),其中一個(gè)比較重要的參數(shù)是噪聲轉(zhuǎn)換矩陣,該參數(shù)可以通過(guò)交叉驗(yàn)證、數(shù)據(jù)重標(biāo)注等一系列方法進(jìn)行估計(jì);對(duì)于IDN,關(guān)注點(diǎn)在于對(duì)每個(gè)訓(xùn)練樣本加權(quán),從而反映學(xué)習(xí)算法對(duì)不同樣本的重視程度。此外,還有一些方法借助小規(guī)模干凈數(shù)據(jù)輔助模型訓(xùn)練,或是采用圖論的方法進(jìn)行數(shù)據(jù)清洗等。圖3詳細(xì)展示了本節(jié)所討論的標(biāo)簽噪聲前沿方法。

4 發(fā)展趨勢(shì)與展望

4.1 發(fā)展趨勢(shì)

關(guān)于標(biāo)簽噪聲學(xué)習(xí)的發(fā)展趨勢(shì),本文對(duì)近五年(2015-2019年)發(fā)表在人工智能與機(jī)器學(xué)習(xí)相關(guān)的頂級(jí)會(huì)議(NeurIPS,ICML,AAAI,IJCAI,CVPR)上的論文進(jìn)行調(diào)研,統(tǒng)計(jì)分析了研究標(biāo)簽噪聲的相關(guān)論文,統(tǒng)計(jì)結(jié)果如表1所示。

近5年來(lái),共有182篇關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文發(fā)表在上述關(guān)于機(jī)器學(xué)習(xí)的頂級(jí)國(guó)際會(huì)議中,統(tǒng)計(jì)調(diào)查后發(fā)現(xiàn):

(1) 總體而言,標(biāo)簽噪聲學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)以及人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文在2015-2017年每個(gè)學(xué)術(shù)會(huì)議僅有屈指可數(shù)的幾篇,在2018年有38篇,但在2019年卻翻倍增長(zhǎng)到了75篇。

(2) 關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究呈現(xiàn)出快速增長(zhǎng)趨勢(shì),且增長(zhǎng)速度越來(lái)越快。2015-2017年僅有少量的關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究,但隨后每年以相對(duì)于上一年成倍的速度增長(zhǎng)。2019年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究已經(jīng)達(dá)到了75篇。可以預(yù)測(cè),隨后幾年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究會(huì)越來(lái)越多。

(3) 上述在人工智能頂級(jí)會(huì)議各大機(jī)器學(xué)習(xí)的論文中,既包含了理論又包含了應(yīng)用,每年關(guān)于標(biāo)簽噪聲學(xué)習(xí)的研究論文在理論和應(yīng)用上分布都比較均勻,體現(xiàn)了標(biāo)簽噪聲學(xué)習(xí)的理論研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值,進(jìn)而從側(cè)面體現(xiàn)了標(biāo)簽噪聲學(xué)習(xí)的重要性。

4.2 展望

監(jiān)督學(xué)習(xí)算法在工程領(lǐng)域和理論層面都取得了豐碩的成果。然而,此類算法需要強(qiáng)監(jiān)督信息的支持,例如,有高質(zhì)量標(biāo)簽的訓(xùn)練樣本。但是在實(shí)際工程應(yīng)用中,高質(zhì)量標(biāo)簽難以獲取或成本較高。

根據(jù)標(biāo)簽噪聲的生成方式,本文依次介紹了處理隨機(jī)標(biāo)簽噪聲、類相關(guān)標(biāo)簽噪聲、實(shí)例相關(guān)標(biāo)簽噪聲三種問(wèn)題的前沿方法。雖然這些方法取得了一定的進(jìn)展,但是仍存在許多問(wèn)題。

(1) 本文介紹方法通常僅在標(biāo)簽噪聲程度較為溫和的條件下生效。當(dāng)標(biāo)簽錯(cuò)誤數(shù)據(jù)規(guī)模接近或大于正確數(shù)據(jù)規(guī)模時(shí),多數(shù)算法無(wú)法從訓(xùn)練樣本中學(xué)習(xí)正確的數(shù)據(jù)分布模式。此外,在理論層面下許多一致性方法在極端噪聲情形下泛化能力極差,甚至估算誤差上界可能趨近于無(wú)窮,然而在實(shí)際應(yīng)用中,極端標(biāo)簽噪聲經(jīng)常出現(xiàn)。因此,如何處理極端情形下的標(biāo)簽噪聲問(wèn)題值得深入研究。

(2) 本文介紹的三種標(biāo)簽噪聲形式并不能包含真實(shí)數(shù)據(jù)下的所有可能情況。一方面,噪聲的來(lái)源可能不唯一,真實(shí)噪聲標(biāo)簽數(shù)據(jù)中的噪聲形式可能是隨機(jī)標(biāo)簽噪聲、類相關(guān)標(biāo)簽噪聲和實(shí)例相關(guān)標(biāo)簽的混合。另一方面,特別是基于網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)的標(biāo)簽生成方法存在開(kāi)集問(wèn)題。即部分訓(xùn)練樣本的真實(shí)標(biāo)簽不在給定標(biāo)簽空間內(nèi)。

(3) 本文介紹的標(biāo)簽噪聲處理方法通常隱式地假設(shè)分類器模型有一定識(shí)別噪聲數(shù)據(jù)的能力,然而當(dāng)分類器所在假設(shè)空間足夠大時(shí),最優(yōu)分類器可能直接學(xué)習(xí)噪聲標(biāo)簽。例如,分類器/風(fēng)險(xiǎn)一致性方法和重加權(quán)方法。一個(gè)十分有潛力的替代方法是對(duì)數(shù)據(jù)分布作出假設(shè),然而此類型的已有方法太過(guò)簡(jiǎn)單且不具有一般性。如何對(duì)數(shù)據(jù)分布做出一般化假設(shè),并據(jù)此設(shè)計(jì)標(biāo)簽噪聲魯棒算法是值得深入思考的問(wèn)題。

(4) 更多標(biāo)簽噪聲問(wèn)題的應(yīng)用場(chǎng)景還有待探索。標(biāo)簽噪聲問(wèn)題在實(shí)際應(yīng)用場(chǎng)景中廣泛存在,本文討論了許多處理標(biāo)簽噪聲的前沿算法,它們?cè)卺t(yī)療、交通、金融等領(lǐng)域中已經(jīng)取得了不錯(cuò)的表現(xiàn)。接下來(lái),探索和發(fā)揮標(biāo)簽噪聲魯棒算法在軍事、材料、航空航天等關(guān)鍵領(lǐng)域的作用是標(biāo)簽噪聲學(xué)習(xí)的一個(gè)重要研究方向。

參考文獻(xiàn):

[1] Hickey R J. Noise Modelling and Evaluating Learning from Examples[J]. Artificial Intelligence, 1996, 82(1-2): 157-179.

[2] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.

[3] Zhu X Q, Wu X D. Class Noise vs. Attribute Noise: A Quantitative Study[J]. Artificial Intelligence Review, 2004, 22(3): 177-210.

[4] Wu X D. Knowledge Acquisition from Databases[M]. United States: Greenwood Publishing Group Inc., 1995.

[5] Frénay B, Verleysen M. Classification in the Presence of Label Noise: A Survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845-869.

[6] Frénay B, Kabán A. A Comprehensive Introduction to Label Noise[C]∥ European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning,Bruge, Belgium,2014.

[7] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.

[8] Brazdil P, Clark P. Learning from Imperfect Data[M]. Machine Learning, Meta-Reasoning and Logics, Boston: Springer, 1990: 207-232.

[9] Dawid A P, Skene A M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.

[10] Smyth P, Fayyad U, Burl M, et al. Inferring Ground Truth from Subjective Labelling of Venus Images [C]∥ Proceedings of the 7th International Conference on Neural Information Processing Systems, 1994: 1085-1092.

[11] Malossini A, Blanzieri E, Ng R T. Detecting Potential Labeling Errors in Microarrays by Data Perturbation[J]. Bioinformatics, 2006, 22(17): 2114-2121.

[12] Kovashka A, Russakovsky O,F(xiàn)ei-Fei L, et al. Crowdsourcing in Computer Vision[J]. Foundations and Trends in Computer Graphics and Vision, 2016, 10(3): 177-243.

[13] Li W, Wang L M, Li W, et al. WebVision Database: Visual Learning and Understanding from Web Data[EB/OL]. (2017-08-09) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1708.02862.pdf.

[14] Kittur A, Chi E H, Suh B. Crowdsourcing User Studies with Mechanical Turk[C]∥ Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,2008: 453-456.

[15] Xiao T, Xia T, Yang Y, et al. Learning from Massive Noisy Labeled Data for Image Classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015: 2691-2699.

[16] Angluin D, Laird P. Learning from Noisy Examples[J]. Machine Learning, 1988, 2(4): 343-370.

[17] Northcutt C G, Jiang L, Chuang I L. Confident Learning: Estimating Uncertainty in Dataset Labels[EB/OL].(2019- 10-31)[2020-01-15]. https:∥arxiv.sou.top/pdf/1911.00068.pdf.

[18] Heskes T. The Use of Being Stubborn and Introspective[M].Studies in Cognitive Systems,Boston: Springer, 1994:1184-1200.

[19] Lachenbruch P A. Note on Initial Misclassification Effects on the Quadratic Discriminant Function[J]. Technometrics, 1979, 21(1): 129-132.

[20] Okamoto S, Nobuhiro Y. An Average-Case Analysis of the K-Nearest Neighbor Classifier for Noisy Domains[C]∥Proceedings of 15th International Joint Conferences on Artificial Intelligence,1997: 238-245.

[21] Nettleton D F, Orriols-Puig A, Fornells A. A Study of the Effect of Different Types of Noise on the Precision of Supervised Learning Techniques[J]. Artificial Intelligence Review, 2010, 33(4): 275-306.

[22] Dietterich T G. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization[J]. Machine Learning, 2000, 40(2): 139-157.

[23] Zhang C Y, Bengio S, Hardt M, et al. Understanding Deep Learning Requires Rethinking Generalization[C]∥ International Conference on Learning Representation (ICLR), Toulon, France, 2017.

[24] Arpit D, Jastrzebski S, Ballas N, et al. A Closer Look at Memorization in Deep Networks[C]∥Proceedings of the 34th International Conference on Machine Learning, 2017: 233-242.

[25] Krueger D, Ballas N, Jastrzebski S, et al. Deep Nets Dont Learn via Memorization[C]∥International Conference on Learning Representation(ICLR), Toulon, France, 2017.

[26] Aslam J A, Decatur S E. On the Sample Complexity of Noise-Tolerant Learning[J]. Information Processing Letters, 1996, 57(4): 189-195.

[27] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.

[28] Frénay B, Doquire G, Verleysen M. Feature Selection with Imprecise Labels: Estimating Mutual Information in the Presence of Label Noise[J]. Computational Statistics & Data Analysis, 2014, 71: 832-848.

[29] Shanab A A, Khoshgoftaar T M, Wald R. Robustness of Thre-shold-Based Feature Rankers with Data Sampling on Noisy and Imbalanced Data[C]∥Proceedings of Twenty-Fifth International Florida Artificial Intelligence Research Society Conference, 2012.

[30] Ghosh A, Manwani N, Sastry P S. Making Risk Minimization To-lerant to Label Noise[J]. Neurocomputing, 2015, 160: 93-107.

[31] Ghosh A, Kumar H, Sastry P S. Robust Loss Functions under Label Noise for Deep Neural Networks[C]∥ Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017.

[32] Manwani N, Sastry P S. Noise Tolerance under Risk Minimization[J]. IEEE Transactions on Cybernetics, 2013, 43(3): 1146-1151.

[33] Natarajan N, Dhillon I S, Ravikumar P K, et al. Learning with Noisy Labels[C]∥ Proceedings of the International Conference on Neural Information Processing Systems(NIPS), 2013: 1196-1204.

[34] Zhang Z L, Sabuncu M. Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels[C]∥ Proceedings of theInternational Conference on Neural Information Processing Systems(NIPS),2018: 8778-8788.

[35] Liu T L, Tao D C. Classification with Noisy Labels by Importance Reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(3): 447-461.

[36] Xia X B, Liu T L, Wang N N, et al. Are Anchor Points Really Indispensable in Label-Noise Learning? [C]∥ Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2019.

[37] Patrini G, Rozza A, Krishna Menon A, et al. Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1944-1952.

[38] Northcutt C G, Wu T L, Chuang I L. Learning with Confident Examples: Rank Pruning for Robust Classification with Noisy Labels[EB/OL]. (2017-08-09)[2020-01-15]. https:∥arxiv.xilesou.top/pdf/1705.01936.pdf.

[39] Yu X Y, Liu T L, Gong M M, et al. Learning with Biased Complementary Labels[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 68-83.

[40] Goldberger J, Ben-Reuven E. Training Deep Neural- Networks Using a Noise Adaptation Layer[C]∥International Conference on Learning Representation (ICLR), Toulon, France, 2017.

[41] Wei Y, Gong C, Chen S, et al. Harnessing Side Information for Classification under Label Noise[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019.

[42] Jindal I, Nokleby M, Chen X. Learning Deep Networks from Noisy Labels with Dropout Regularization[C]∥ IEEE International Conference on Data Mining (ICDM), Barcelona, Spain,2016: 967-972.

[43] Khetan A, Lipton Z C, Anandkumar A. Learning from Noisy Singly-Labeled Data[EB/OL]. (2017-12-13)[2020- 01-15]. https:∥arxiv.xilesou.top/pdf/1712.04577.pdf.

[44] Cheng J C, Liu T L, Ramamohanarao K, et al. Learning with Bounded Instance-and Label-Dependent Label Noise [EB/OL]. (2017-09-12) [2020-01-15]. https:∥arxiv.xilesou. top/ pdf/ 1709.03768.pdf.

[45] Menon A K, Van Rooyen B, Natarajan N. Learning from Binary Labels with Instance-Dependent Corruption [EB/OL]. (2016-05-04) [2020-01-15]. https:∥arxiv.org/pdf/1605.00751.pdf.

[46] Jiang L, Zhou Z Y, Leung T, et al. MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels[C]∥International Conference on Machine Learning(ICML), Stockholm, Sweden, 2018.

[47] Lee K H, He X D, Zhang L, et al. CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5447-5456.

[48] Wang Y S, Liu W Y, Ma X J, et al. Iterative Learning with Open-Set Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8688- 8696.

[49] Ren M Y, Zeng W Y, Yang B, et al. Learning to Reweight Examples for Robust Deep Learning [EB/OL]. (2018-06-08) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/1803.09050.pdf.

[50] Guo S, Huang W L, Zhang H Z, et al. Curriculumnet: Weakly Supervised Learning from Large-Scale Web Images[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 135-150.

[51] Han B, Yao Q M, Yu X R, et al. Co-Teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels[C]∥ Conference on Neural Information Processing Systems(NIPS), Montreal ,Canada,2018: 8527-8537.

[52] Angelova A, Abu-Mostafam Y, Perona P. Pruning Training Sets for Learning of Object Categories[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2005: 494-501.

[53] Sun J W, Zhao F Y, Wang C J, et al. Identifying and Correcting Mislabeled Training Instances[C]∥Future Generation Communication and Networking (FGCN), Jeju-Island, Korea, 2007: 244-250.

[54] Zhu X Q, Wu X D, Chen Q J. Eliminating Class Noise in Large Datasets[C]∥Proceedings of the International Conference on Machine Learning (ICML), 2003: 920-927.

[55] Reed S, Lee H, Anguelov D, et al. Training Deep Neural Networks on Noisy Labels with Bootstrapping [EB/OL]. (2014-12-20) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1412.6596.pdf.

[56] Tanaka D, Ikami D, Yamasaki T, et al. Joint Optimization Framework for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5552-5560.

[57] Yi K, Wu J X. Probabilistic End-to-End Noise Correction for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2019.

[58] Li Y C, Yang J C, Song Y L, et al. Learning from Noisy Labels with Distillation[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2017: 1910-1918.

[59] Veit A, Alldrin N, Chechik G, et al. Learning from Noisy Large-Scale Datasets with Minimal Supervision[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017: 839-847.

[60] Gao B B, Xing C, Xie C W, et al. Deep Label Distribution Learning with Label Ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.

[61] Gong C, Zhang H M, Yang J, et al. Learning with Inadequate and Incorrect Supervision[C]∥IEEE International Conference on Data Mining (ICDM), New Orleans, LA, USA, 2017: 889-894.

A Survey of Label Noise Robust Learning Algorithms

Gong Chen 1,2*,Zhang Chuang 1,2,Wang Qizhou 1,2

(1. Key Lab of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, School of

Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;

2. Jiangsu Key Lab of Image and Video Understanding for Social Security, School of Computer Science and

Engineering, Nanjing University of Science and Technology,Nanjing 210094,China)

Abstract:

In the field of machine learning, supervised learning algorithm has achineved fruitful results both in theory and engineering application.

However, such fully supervised learning algorithms are severely dependent on the label quality of the training sample, and reliably labeled data are often expensive and time consuming to obtain in real-world applications. Some surrogate approaches such as web crawler and crowd-sourcing methods, are widely used to collect training data. Unfortunately, there are usually lots of misannotations (i.e. label noise) in the data obtained by these surrogate methods, which result in many potential negative consequences. Therefore, the research on label noise robust learning algorithm is of great significance in promoting the application of machine learning engineering and reducing the deployment cost of machine learning algorithm. In this paper, the latest research progress of label noise robust learning algorithm is comprehensively reviewed. The generation, influence and classification of label noise are summarized in detail. The processing methods of each kind of label noise are introduced, and the advantages and disadvantages of each kind of processing methods are analyzed.

Key words: artificial intelligence;machine learning;weakly supervised learning;label noise;deep learning;robust learning algorithm

收稿日期: 2020-01-15

基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61973162);江蘇省自然科學(xué)基金項(xiàng)目(BK20171430)

作者簡(jiǎn)介: 宮辰(1988- ),男,教授,吳文俊人工智能優(yōu)秀青年獎(jiǎng)獲得者, 研究方向是弱監(jiān)督機(jī)器學(xué)習(xí)。

E-mail: chen.gong@njust.edu.cn

引用格式: 宮辰,張闖,王啟舟.標(biāo)簽噪聲魯棒學(xué)習(xí)算法研究綜述[ J].

航空兵器,2020, 27( 3): 20-26.

Gong Chen, Zhang Chuang, Wang Qizhou. A Survey of Label Noise Robust Learning Algorithms[ J]. Aero Weaponry,2020, 27( 3): 20-26.( in Chinese)

猜你喜歡
機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
那曲县| 云和县| 九寨沟县| 江华| 南郑县| 镇康县| 城口县| 兴安盟| 比如县| 城步| 宁海县| 海口市| 来宾市| 乃东县| 山东| 鸡泽县| 积石山| 襄垣县| 西吉县| 邯郸市| 福海县| 白水县| 时尚| 衡东县| 阳东县| 乐平市| 芜湖市| 夹江县| 蒙城县| 滦南县| 株洲市| 磐石市| 华坪县| 辽宁省| 惠来县| 黄陵县| 和静县| 阿合奇县| 高雄县| 石渠县| 宾川县|