佟強(qiáng), 刁恩虎, 李丹, 諶彤童, 劉旭紅, 劉秀磊*
(1北京材料基因工程高精尖創(chuàng)新中心(北京信息科技大學(xué)), 北京 100101; 2 北京信息科技大學(xué), 數(shù)據(jù)與科學(xué)情報(bào)分析研究所, 北京 100101; 3 北京跟蹤與通信技術(shù)研究所, 北京 100094; 4.北京信息科技大學(xué), 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100192)
隨著機(jī)器學(xué)習(xí)的發(fā)展,計(jì)算機(jī)能夠從經(jīng)驗(yàn)中學(xué)習(xí)。機(jī)器學(xué)習(xí)在許多領(lǐng)域都取得了顯著的進(jìn)步,如圖像分類(lèi)[1]、目標(biāo)檢測(cè)[2-3]、語(yǔ)義分割[4-5]等。近年來(lái),分類(lèi)任務(wù)在機(jī)器學(xué)習(xí)中得到廣泛發(fā)展,即從標(biāo)注數(shù)據(jù)集中學(xué)習(xí)得到分類(lèi)模型,用來(lái)預(yù)測(cè)新樣本的類(lèi)別。一般來(lái)說(shuō),機(jī)器學(xué)習(xí)模型是模仿人類(lèi)大腦處理決策數(shù)據(jù)的工作方式,模型是否具有良好的決策能力取決于數(shù)據(jù)集的好壞[6]。模型訓(xùn)練過(guò)程多采用有監(jiān)督的學(xué)習(xí),其特點(diǎn)是需要大量帶標(biāo)簽數(shù)據(jù),因此需要大規(guī)模的數(shù)據(jù)集收集和煩瑣的標(biāo)注過(guò)程[7]。盡可能減少數(shù)據(jù)集中的噪聲是提高訓(xùn)練模型分類(lèi)準(zhǔn)確率的重要保障。數(shù)據(jù)中存在兩種噪聲:特征噪聲和標(biāo)簽噪聲[8]。特征噪聲影響特征的觀測(cè)值,其產(chǎn)生原因?yàn)閿?shù)據(jù)所觀察到的特征被破壞,對(duì)應(yīng)著模型的輸入。標(biāo)簽噪聲則是由于標(biāo)簽與數(shù)據(jù)真實(shí)類(lèi)別的偏差所導(dǎo)致,對(duì)應(yīng)著模型的輸出[9]。兩種噪聲都會(huì)使模型性能顯著下降,其中標(biāo)簽噪聲危害更大,嚴(yán)重影響模型的泛化性能[10-11]。數(shù)據(jù)集中噪聲的存在模糊了對(duì)象特征和其類(lèi)別之間的關(guān)系,這就增加了數(shù)據(jù)分類(lèi)的復(fù)雜性,許多研究表明有噪聲的標(biāo)簽會(huì)對(duì)分類(lèi)器的分類(lèi)精度產(chǎn)生不利影響。標(biāo)簽噪聲作為數(shù)據(jù)集收集和數(shù)據(jù)標(biāo)注的自然結(jié)果,使處理標(biāo)簽噪聲成為高效計(jì)算機(jī)分類(lèi)系統(tǒng)發(fā)展的一個(gè)重要課題[7]。
標(biāo)簽噪聲是數(shù)據(jù)集收集過(guò)程的自然結(jié)果,普遍存在于各種領(lǐng)域,如醫(yī)學(xué)成像[12-13]、語(yǔ)義分割[14]、眾包[1,15]、社交網(wǎng)絡(luò)標(biāo)簽[16]、金融分析[17]等?,F(xiàn)重點(diǎn)關(guān)注解決標(biāo)簽噪聲的各種方法,為了更好地理解這一現(xiàn)象,先要調(diào)查標(biāo)簽噪聲的原因。
首先,隨著網(wǎng)絡(luò)和社交媒體的發(fā)展,人們可以獲得海量的數(shù)據(jù),分類(lèi)系統(tǒng)可以很好地利用這些數(shù)據(jù)進(jìn)行訓(xùn)練[18-19]。但是,這些數(shù)據(jù)的標(biāo)簽來(lái)自雜亂的用戶標(biāo)簽和搜索引擎使用的自動(dòng)化系統(tǒng)。眾所周知,獲得數(shù)據(jù)集的這些過(guò)程必然會(huì)產(chǎn)生噪聲標(biāo)簽。
其次,標(biāo)簽噪聲還可能來(lái)自于領(lǐng)域?qū)<?,因?yàn)橛袝r(shí)數(shù)據(jù)過(guò)于復(fù)雜,即使對(duì)該領(lǐng)域的專(zhuān)家來(lái)說(shuō)也有可能無(wú)法正確標(biāo)注,如醫(yī)學(xué)成像。數(shù)據(jù)還可能由多個(gè)專(zhuān)家進(jìn)行標(biāo)注,從而形成多標(biāo)注的數(shù)據(jù)集。每個(gè)標(biāo)注數(shù)據(jù)的專(zhuān)家專(zhuān)業(yè)水平不同,他們的意見(jiàn)甚至可能會(huì)相互沖突,這就導(dǎo)致了標(biāo)簽噪聲問(wèn)題[20]。舉例來(lái)說(shuō),為了收集視網(wǎng)膜圖像的最標(biāo)準(zhǔn)驗(yàn)證數(shù)據(jù),通常會(huì)從6~8個(gè)不同的專(zhuān)家那里收集注釋[21-22]??紤]到疾病診斷這種至關(guān)重要的領(lǐng)域,克服標(biāo)簽噪聲是非常有意義的。
另外,通過(guò)MTurk (Amazon mechanical turk)[15]和CrowdFlowers[1]等平臺(tái),數(shù)據(jù)標(biāo)注過(guò)程可以進(jìn)行眾包。用自動(dòng)化系統(tǒng)代替人工來(lái)標(biāo)注數(shù)據(jù)也是一種廣泛使用的方法。雖然這些數(shù)據(jù)標(biāo)注方法節(jié)約了成本,但從非專(zhuān)家那里獲得的標(biāo)簽通常含有大量噪聲。由這些數(shù)據(jù)標(biāo)注方法導(dǎo)致的噪聲稱(chēng)為非專(zhuān)家標(biāo)簽噪聲。最后,數(shù)據(jù)編碼和通信問(wèn)題也可能導(dǎo)致標(biāo)簽噪聲[23]。例如,在垃圾郵件過(guò)濾中,標(biāo)簽噪聲的來(lái)源包括對(duì)反饋機(jī)制的錯(cuò)誤解讀和意外點(diǎn)擊[24]。
在實(shí)際應(yīng)用中,標(biāo)簽噪聲主要帶來(lái)負(fù)面影響,但不可否認(rèn),人工標(biāo)簽噪聲也有其潛在作用。例如,可以在統(tǒng)計(jì)研究中添加標(biāo)簽噪聲以保護(hù)人們的隱私[25]。本文主要關(guān)注標(biāo)簽噪聲的負(fù)面影響。
首先,標(biāo)簽噪聲會(huì)降低預(yù)測(cè)的性能,這一點(diǎn)在線性分類(lèi)器[26]、二次分類(lèi)器[27]和K最鄰近(K-nearest neighbor, KNN)分類(lèi)器[28]等簡(jiǎn)單模型中已經(jīng)得到了證明。許多學(xué)者在其他分類(lèi)器中也證實(shí)了這一問(wèn)題,如由C4.5[29]和支持向量機(jī)[30]誘導(dǎo)的決策樹(shù)等。除此之外,Boosting等集成方法也極易受到標(biāo)簽噪聲的影響。例如,AdaBoost算法傾向于給錯(cuò)誤標(biāo)記的實(shí)例賦予較大的權(quán)重[31]。
其次,在機(jī)器學(xué)習(xí)過(guò)程中為了減小標(biāo)簽噪聲的影響需要增加訓(xùn)練數(shù)據(jù)集,最終導(dǎo)致訓(xùn)練的模型復(fù)雜度增加,容易導(dǎo)致過(guò)擬合從而影響預(yù)測(cè)效果[32]。在概率近似正確(probably approximately correct, PAC)[33]框架中,標(biāo)簽噪聲的存在會(huì)增加PAC識(shí)別所需的必要樣本數(shù)量;在決策樹(shù)和支持向量機(jī)中,標(biāo)簽噪聲會(huì)使決策樹(shù)的節(jié)點(diǎn)數(shù)量和支持向量機(jī)中支持向量的數(shù)量增加[23]。
此外,標(biāo)簽噪聲可能會(huì)導(dǎo)致觀測(cè)頻率的失真[34]。在醫(yī)學(xué)應(yīng)用中,經(jīng)常需要通過(guò)醫(yī)學(xué)測(cè)試來(lái)進(jìn)行疾病診斷,估計(jì)一種疾病在人群中的患病率,或者估計(jì)不同人群中的患病率,標(biāo)簽噪聲會(huì)影響醫(yī)學(xué)檢測(cè)結(jié)果的觀測(cè)頻率,從而可能導(dǎo)致錯(cuò)誤的結(jié)論[35]。
本小節(jié)介紹一些對(duì)標(biāo)簽噪聲具有魯棒性的模型。當(dāng)訓(xùn)練數(shù)據(jù)包含少量的標(biāo)簽噪聲時(shí),即使標(biāo)簽噪聲沒(méi)有被凈化,這樣的模型也相對(duì)有效。不過(guò),就目前大多數(shù)分類(lèi)系統(tǒng)而言,都不具備完全的標(biāo)簽噪聲魯棒性。
3.1.1 集成學(xué)習(xí)方法
集成學(xué)習(xí)是機(jī)器學(xué)習(xí)分類(lèi)任務(wù)中的常用算法,經(jīng)典的集成學(xué)習(xí)方法有:Bagging和Boosting。Bagging每次訓(xùn)練隨機(jī)抽取訓(xùn)練集的某個(gè)子集,同時(shí)生成多個(gè)分類(lèi)器,最終的訓(xùn)練結(jié)果由多個(gè)分類(lèi)器綜合投票給出,從而使分類(lèi)模型對(duì)噪聲具有一定的魯棒性,代表算法如隨機(jī)森林。Hamsa等[36]使用隨機(jī)森林(random forest, RF)分類(lèi)器和小波包變換(wavelet packet transform, WPT)相結(jié)合,設(shè)計(jì)了一個(gè)從語(yǔ)音信號(hào)中進(jìn)行情感識(shí)別的系統(tǒng),系統(tǒng)框架如圖1所示。該系統(tǒng)由時(shí)頻分解(time-frequency decomposition)、語(yǔ)音分離(speech segregation)、特征提取(feature extraction)和分類(lèi)模塊組成,其中分類(lèi)模塊采用隨機(jī)森林分類(lèi)器。Boosting是將幾個(gè)弱分類(lèi)器組合在一起,形成一個(gè)強(qiáng)分類(lèi)器,根據(jù)每次基分類(lèi)器的錯(cuò)誤率來(lái)調(diào)整訓(xùn)練數(shù)據(jù)集的權(quán)重,即給錯(cuò)誤標(biāo)注的樣本更高的權(quán)重,代表算法如Adaboost。由于Boosting給錯(cuò)分樣本更高的權(quán)重,容易導(dǎo)致分類(lèi)模型對(duì)噪聲過(guò)擬合[37]。王友衛(wèi)等[38]提出基于合群度-隸屬度噪聲檢測(cè)和特征選擇來(lái)改進(jìn)AdaBoost,綜合考慮樣本與周?chē)鷺颖镜南嗨贫纫约芭c不同類(lèi)別樣本的隸屬關(guān)系,即合群度和隸屬度,再與動(dòng)態(tài)特征選擇方法相結(jié)合,最終在分類(lèi)性能上較傳統(tǒng)算法得到提升。Pakrashi等[39]提出一個(gè)Kalman Tune框架,將優(yōu)化訓(xùn)練得到的集成模型作為一個(gè)可以用卡爾曼濾波(Kalman filtering, KF)解決的靜態(tài)狀態(tài)估計(jì)問(wèn)題,利用KF的融合能力來(lái)減少標(biāo)簽噪聲對(duì)集成模型的影響。當(dāng)訓(xùn)練數(shù)據(jù)內(nèi)有標(biāo)簽噪聲時(shí),Kalman Tune可以顯著提高Boosting訓(xùn)練集成模型的性能。
圖1 情感識(shí)別系統(tǒng)框架[36]Fig.1 Framework of emotion recognition system[36]
動(dòng)態(tài)集成選擇 (dynamic ensemble selection, DES)策略是機(jī)器學(xué)習(xí)中處理分類(lèi)問(wèn)題最常見(jiàn)和最有效的技術(shù)之一。DES 系統(tǒng)目的是構(gòu)建一個(gè)集合,根據(jù)單個(gè)分類(lèi)器的能力水平從候選分類(lèi)器池中選擇的最合適的分類(lèi)器組成該集合。Zhang等[40]提出一個(gè)動(dòng)態(tài)加權(quán)框架(dynamic weighting framework, DWF),用于在獲取DES系統(tǒng)最后輸出期間進(jìn)行分類(lèi)融合,該方法在準(zhǔn)確性和Kappa系數(shù)上都優(yōu)于原始DES框架。
3.1.2 決策樹(shù)
決策樹(shù)涉及準(zhǔn)確性和簡(jiǎn)單性之間的權(quán)衡,好的決策樹(shù)需要同時(shí)兼顧這兩個(gè)條件。但是,在存在標(biāo)簽噪聲的情況下平衡這種權(quán)衡,會(huì)使過(guò)擬合問(wèn)題變得更加嚴(yán)重。事實(shí)上,決策樹(shù)的不穩(wěn)定性使得它非常適合于集成方法。
醫(yī)學(xué)圖像去噪是醫(yī)學(xué)圖像處理中的關(guān)鍵預(yù)處理步驟,Kumarasamy等[41]提出集成樸素貝葉斯、支持向量機(jī)、決策樹(shù)和隨機(jī)森林方法用于查找醫(yī)學(xué)圖像中損壞像素,最終分類(lèi)的結(jié)果由分類(lèi)器的輸出結(jié)果投票決定,其分類(lèi)準(zhǔn)確率能達(dá)到99.87%。
Credal決策樹(shù)(Credal decision trees, CDT)已廣泛用于不精確分類(lèi),即ICDT (imprecise Credal decision trees)。Moral等[42]提出將ICDT與Bagging相結(jié)合,以CDT作為基分類(lèi)器,最大限度地提高Bagging分類(lèi)器的精度,最終分類(lèi)器的性能明顯優(yōu)于單個(gè)ICDT。
3.1.3 其他方法
在圖像去噪任務(wù)中,Zhou等[43]提出了一個(gè)在AWGN-RVIN (additive white gaussian noise and random value impulse noise)噪聲模型上訓(xùn)練的圖像盲和非盲去噪網(wǎng)絡(luò),該網(wǎng)絡(luò)由多通道噪聲評(píng)估器和自適應(yīng)條件降噪器組成。然后采用PD (pixel-shuffle down-sampling)策略,使訓(xùn)練后的模型適應(yīng)真實(shí)噪聲。該方法在Spatially-Variant去噪和細(xì)節(jié)保護(hù)方面效果顯著。同樣針對(duì)圖像降噪任務(wù),Byun等[44]提出一種新的去噪方法FC-AIDE (fully convolutional adaptive image denoiser)。該方法設(shè)計(jì)了一種新穎的全卷積架構(gòu),以增強(qiáng)基礎(chǔ)監(jiān)督模型,同時(shí)為自適應(yīng)微調(diào)(adaptive fine-tuning)引入正則化方法,以提高其魯棒性。該方法在基準(zhǔn)數(shù)據(jù)集上的效果優(yōu)于目前基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的其他方法。
在圖像超分辨率任務(wù)中,現(xiàn)有的超分辨率方法基本都假設(shè)輸入的圖像是無(wú)噪聲的,當(dāng)輸入的圖像被噪聲污染時(shí),它們的性能會(huì)急劇下降。針對(duì)這種情況,Xin等[45]受膠囊網(wǎng)絡(luò)(capsule networks)的啟發(fā),提出一種面部信息的綜合表示模型,稱(chēng)為面部屬性膠囊(facial attribute capsule, FAC)。為了有效提高FAC對(duì)噪聲的魯棒性,采用集成學(xué)習(xí)策略,通過(guò)語(yǔ)義表示、概率分布對(duì)面部屬性進(jìn)行編碼生成FAC,由此設(shè)計(jì)出一個(gè)面部屬性膠囊網(wǎng)絡(luò)(facial attribute capsule network, FACN),在噪聲圖像的超分辨率重建方面效果顯著。
為應(yīng)對(duì)訓(xùn)練數(shù)據(jù)中存在標(biāo)簽噪聲的問(wèn)題,Luo等[46]提出一種雙層學(xué)習(xí)范式方法SCD (spectral cluster discovery)。通過(guò)真實(shí)標(biāo)簽矩陣的低秩逼近來(lái)學(xué)習(xí)一個(gè)強(qiáng)分類(lèi)器(學(xué)習(xí)階段),同時(shí)得到一個(gè)Affinity圖(聚類(lèi)階段),兩個(gè)階段相互補(bǔ)充,最終提高了模型的分類(lèi)精度。
許多研究表明特征提取有助于減少標(biāo)簽噪聲的影響。受該思想啟發(fā),劉望舒等[47]基于聚類(lèi)分析,提出了一種具有噪聲容忍能力的特征選擇框架(feature clustering with selection strategies, FECS)。
處理數(shù)據(jù)中的標(biāo)簽噪聲,最直接的方法是數(shù)據(jù)清洗,即識(shí)別錯(cuò)誤標(biāo)簽并將其更正為對(duì)應(yīng)的真實(shí)標(biāo)簽或者直接刪除錯(cuò)誤標(biāo)注的樣本,在關(guān)于標(biāo)簽噪聲的文獻(xiàn)中有很多這樣的清洗方法。如Feng等[48]提出一種稱(chēng)為ENDM (ensemble method based on the noise detection metric)的數(shù)據(jù)清洗方法。該方法首先從帶噪訓(xùn)練集中學(xué)習(xí)得到一個(gè)集成分類(lèi)器,用其導(dǎo)出四個(gè)指標(biāo)來(lái)評(píng)估樣本被錯(cuò)誤標(biāo)記可能性。對(duì)于每個(gè)指標(biāo),在使用三種不同的集成分類(lèi)器(Bagging、AdaBoost和KNN)時(shí),設(shè)置三個(gè)閾值用于識(shí)別、刪除或更正損壞的樣本,以最大化帶噪驗(yàn)證集上的分類(lèi)性能。
更正錯(cuò)誤標(biāo)簽的過(guò)程首先要將數(shù)據(jù)中的錯(cuò)誤標(biāo)簽移除,這一過(guò)程會(huì)產(chǎn)生有標(biāo)注和無(wú)標(biāo)注的數(shù)據(jù)集,可以用半監(jiān)督學(xué)習(xí)方法訓(xùn)練這個(gè)新的數(shù)據(jù)集或者對(duì)未標(biāo)注數(shù)據(jù)重新標(biāo)注[49]。為了更好地利用半監(jiān)督學(xué)習(xí),標(biāo)簽移除的過(guò)程可以通過(guò)每次迭代來(lái)完成,從而動(dòng)態(tài)地更新數(shù)據(jù)集。直接刪除錯(cuò)誤標(biāo)注的實(shí)例,其思想類(lèi)似于離群值檢測(cè)[26]和異常檢測(cè)[27]。例如,可以簡(jiǎn)單地使用基于異常的測(cè)量方法,移除高于給定閾值的樣本。還可以刪除不成比例地增加模型復(fù)雜度的樣本[28-29]。在這些刪除錯(cuò)誤標(biāo)注實(shí)例的方法中,存在移除過(guò)多數(shù)據(jù)的風(fēng)險(xiǎn)。因此,為了防止不必要的數(shù)據(jù)丟失,應(yīng)盡可能少地刪除樣本。
數(shù)據(jù)清洗的一種思想是識(shí)別錯(cuò)誤標(biāo)簽并將其更正。如果干凈的樣本足夠多,多到可以訓(xùn)練一個(gè)模型時(shí),可以通過(guò)該模型的預(yù)測(cè)來(lái)重新標(biāo)注損壞樣本[50]。基于這種思想,Jaehwan等[51]提出用給定噪聲標(biāo)簽和預(yù)測(cè)標(biāo)簽的Alpha混合來(lái)重新標(biāo)注樣本。Lee 等[52]提出一種名為CleanNet的聯(lián)合神經(jīng)嵌入網(wǎng)絡(luò)。該方法從小部分人工驗(yàn)證的類(lèi)別中總結(jié)出標(biāo)簽噪聲的知識(shí),然后進(jìn)行遷移學(xué)習(xí),將知識(shí)轉(zhuǎn)移到其他類(lèi)別以處理標(biāo)簽噪聲。Yuan等[53]提出一種迭代交叉學(xué)習(xí)策略(iterative cross learning, ICL)來(lái)處理深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的標(biāo)簽噪聲問(wèn)題。該方法將含噪數(shù)據(jù)集隨機(jī)劃分成多個(gè)單獨(dú)的子集,每個(gè)子集用于訓(xùn)練獨(dú)立的網(wǎng)絡(luò),用這些獨(dú)立的網(wǎng)絡(luò)預(yù)測(cè)原始數(shù)據(jù)的標(biāo)簽,如果它們得出預(yù)測(cè)結(jié)果一致,則將標(biāo)簽更改為預(yù)測(cè)標(biāo)簽,否則將標(biāo)簽設(shè)置為隨機(jī)標(biāo)簽。與保留噪聲標(biāo)簽不同,設(shè)置成隨機(jī)標(biāo)簽有助于打破噪聲中的結(jié)構(gòu),使噪聲在標(biāo)簽空間中的分布更加均勻。類(lèi)似地,Jiang等[49]提出一種隨機(jī)標(biāo)簽傳播算法(random label propagation algorithm, RLPA)來(lái)清除噪聲。具體來(lái)說(shuō),隨機(jī)選擇一些訓(xùn)練樣本作為“干凈”樣本,將其余樣本設(shè)置為未標(biāo)記樣本,用SSPTM (spectral-spatial probability transform matrix)將標(biāo)簽信息從“干凈”樣本傳播到未標(biāo)記樣本。重復(fù)此過(guò)程,為每個(gè)樣本生成多個(gè)標(biāo)簽,最后采用多數(shù)投票算法確定最終標(biāo)簽。Nguyen 等[54]提出使用給定標(biāo)簽和模型預(yù)測(cè)的移動(dòng)平均值之間的一致性來(lái)評(píng)估給定標(biāo)簽是否有噪聲,在下一次迭代中用干凈的樣本訓(xùn)練模型,這個(gè)過(guò)程一直持續(xù)到模型收斂到最佳估計(jì)量;基于同樣的方法,在另一項(xiàng)研究中稍作調(diào)整,不是將預(yù)測(cè)的移動(dòng)平均值與給定的標(biāo)簽進(jìn)行比較,而是與當(dāng)前epoch中的預(yù)測(cè)標(biāo)簽進(jìn)行比較[55]。
數(shù)據(jù)清洗的另一種思想是直接刪除錯(cuò)誤標(biāo)注的樣本。如通過(guò)概率分類(lèi)器可以把訓(xùn)練數(shù)據(jù)分為干凈樣本集和噪聲樣本集,根據(jù)這些子集的大小估計(jì)噪聲概率[50],之后根據(jù)基網(wǎng)絡(luò)對(duì)數(shù)據(jù)的輸出置信度和估計(jì)噪聲率去除大部分不可信數(shù)據(jù)。雖然這樣會(huì)導(dǎo)致信息丟失,但在減輕噪聲帶來(lái)的負(fù)面影響方面會(huì)取得更好的性能。Koh等[56]提出用一個(gè)影響函數(shù)來(lái)判斷哪些樣本對(duì)模型訓(xùn)練是有害的。由于該方法需要計(jì)算每個(gè)訓(xùn)練樣本對(duì)所有驗(yàn)證樣本的影響,因此不易在工業(yè)實(shí)踐中應(yīng)用。Huang等[57]提出了O2U-Net標(biāo)簽噪聲探測(cè)方法,該方法通過(guò)周期性地調(diào)整學(xué)習(xí)率,使網(wǎng)絡(luò)的狀態(tài)周期地在欠擬合和過(guò)擬合之間轉(zhuǎn)變,如圖2所示。記錄下每個(gè)樣本的平均損失值,循環(huán)訓(xùn)練結(jié)束后,實(shí)驗(yàn)者將所有樣本的平均損失降序排列,把前k%的樣本作為含有標(biāo)簽噪聲的數(shù)據(jù)從原始數(shù)據(jù)中刪除,其中k的取值取決于數(shù)據(jù)集的先驗(yàn)知識(shí)。最終實(shí)驗(yàn)結(jié)果表明,刪除這些數(shù)據(jù)之后,網(wǎng)絡(luò)的性能得到顯著提高。當(dāng)數(shù)據(jù)中含有大量噪聲時(shí),直接刪除帶噪樣本可能使訓(xùn)練集變得過(guò)小,影響最終模型的效果。針對(duì)該問(wèn)題,Zhu等[58]提出了CORES2(confidence regularized sample sieve),與前幾種方法不同的是,在區(qū)分出干凈樣本和噪聲樣本之后,該方法刪除噪聲樣本的標(biāo)簽而保留其特征,使用篩選過(guò)的數(shù)據(jù)訓(xùn)練DNN。
圖2 情感識(shí)別系統(tǒng)框架[57]Fig.2 O2U-Net cyclical training[57]
神經(jīng)網(wǎng)絡(luò)已經(jīng)在各領(lǐng)域取得很大進(jìn)展,但常出現(xiàn)對(duì)數(shù)據(jù)集中的噪聲標(biāo)簽過(guò)擬合現(xiàn)象,在訓(xùn)練過(guò)程中通過(guò)不同學(xué)習(xí)策略提高整個(gè)過(guò)程的魯棒性一直是近幾年的研究熱點(diǎn),主要包括以下幾個(gè)角度。
(1) 損失函數(shù)。Patrini等[59]先用ERM (empirical risk minimization) 訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后估計(jì)噪聲轉(zhuǎn)移矩陣,用該矩陣構(gòu)建的修正損失函數(shù)來(lái)重新訓(xùn)練模型。Xu等[60]提出了一種新的基于信息論的損失函數(shù)LDMI(determinant based mutual information),該損失函數(shù)可直接應(yīng)用于任何分類(lèi)神經(jīng)網(wǎng)絡(luò),且對(duì)instance-independent標(biāo)簽噪聲具有魯棒性。
(2) 數(shù)據(jù)集。與4.2節(jié)不同,此處并沒(méi)有對(duì)數(shù)據(jù)集的標(biāo)簽做任何處理。Zhang等[61]提出利用少量可信數(shù)據(jù)檢測(cè)離群點(diǎn)樣本和復(fù)雜訓(xùn)練集bug的方法DUTI (debugging using trusted items)。但該方法需要對(duì)目標(biāo)函數(shù)作一個(gè)強(qiáng)凸假設(shè),而這樣的假設(shè)一般情況下很難成立,所以該方法并不能適用于大多數(shù)深層神經(jīng)網(wǎng)絡(luò)。Guo等[62]提出了CurriculumNet,通過(guò)分布密度對(duì)訓(xùn)練數(shù)據(jù)的復(fù)雜度進(jìn)行排序,將訓(xùn)練數(shù)據(jù)劃分為多個(gè)子集。每個(gè)子集作為一個(gè)curriculum逐步讓模型理解標(biāo)簽噪聲。Mirzasoleiman等[63]提出一種利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練帶噪數(shù)據(jù)的新方法CRUST,該方法的核心思想是選擇干凈數(shù)據(jù)點(diǎn)的加權(quán)子集組成coresets,這些coreset可以使網(wǎng)絡(luò)參數(shù)矩陣的雅可比矩陣低秩。具體為步驟為:①利用近似低秩雅可比矩陣提取干凈子集;②進(jìn)一步減少子集中的錯(cuò)誤;③迭代降噪。為了獲得良好的泛化性能并避免過(guò)擬合,CRUST 迭代地選擇提供近似低秩雅可比矩陣的干凈數(shù)據(jù)點(diǎn)子集。
(3) 雙網(wǎng)絡(luò)。從雙網(wǎng)絡(luò)角度出發(fā)的代表性方法是Decoupling[64]和MentorNet[65]。Decoupling方法用兩個(gè)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果不同的樣本來(lái)更新模型,但噪聲標(biāo)簽仍均勻分布在樣本的整個(gè)空間中,disagreement區(qū)域存在大量噪聲標(biāo)簽,因此Decoupling方法不能很有效地處理噪聲標(biāo)簽。MentorNet方法先預(yù)訓(xùn)練一個(gè)的網(wǎng)絡(luò),用該網(wǎng)絡(luò)選擇干凈的數(shù)據(jù)來(lái)指導(dǎo)訓(xùn)練。當(dāng)無(wú)法得到干凈數(shù)據(jù)用來(lái)驗(yàn)證時(shí),MentorNet必須使用預(yù)定義的curriculum,比如self-paced curriculum,但存在因樣本選擇偏差導(dǎo)致誤差積累的缺點(diǎn)。MentorNet與上一段提到的CurriculumNet,以及O2U-Net都基于以下假設(shè):在網(wǎng)絡(luò)欠擬合時(shí),梯度計(jì)算由干凈樣本主導(dǎo)。因此,標(biāo)簽噪聲的比例和分布會(huì)對(duì)這些工作產(chǎn)生很大的影響。Han等[66]對(duì)上述問(wèn)題進(jìn)行了改進(jìn),每個(gè)網(wǎng)絡(luò)選擇干凈的數(shù)據(jù)(損失率小的樣本)并讓另一個(gè)網(wǎng)絡(luò)在其選定的干凈子集上進(jìn)行訓(xùn)練,三種網(wǎng)絡(luò)的對(duì)比如圖3所示。
圖3 MentorNet, Decoupling和 Co-teaching的誤差流向?qū)Ρ萚66]Fig.3 Comparison of error flow among MentorNet, Decoupling and Co-teaching[66]
中國(guó)也有很多從雙網(wǎng)絡(luò)的角度克服標(biāo)簽噪聲的研究,其中具有代表性的是周彧聰?shù)萚67]通過(guò)結(jié)合簡(jiǎn)單樣本挖掘和遷移學(xué)習(xí)的思想提出的互補(bǔ)學(xué)習(xí)方法。該方法同時(shí)訓(xùn)練一主一輔兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,將輔模型的知識(shí)遷移給主模型,從而減少標(biāo)簽噪聲的影響。
(4) 噪聲轉(zhuǎn)移矩陣。在標(biāo)簽噪聲學(xué)習(xí)中,噪聲轉(zhuǎn)移矩陣表示干凈標(biāo)簽轉(zhuǎn)為噪聲標(biāo)簽的概率。Xia等[68]設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的風(fēng)險(xiǎn)一致估計(jì)器(risk-consistent estimator)來(lái)準(zhǔn)確地調(diào)整轉(zhuǎn)移矩陣。Chen等[69]將交叉驗(yàn)證用于估計(jì)噪聲轉(zhuǎn)移矩陣,之后采用Co-teaching策略充分利用識(shí)別出的樣本來(lái)訓(xùn)練DNN。
將處理標(biāo)簽噪聲的方法分為標(biāo)簽噪聲魯棒模型、數(shù)據(jù)清洗、深度神經(jīng)網(wǎng)絡(luò)魯棒訓(xùn)練三種。標(biāo)簽噪聲魯棒模型旨在對(duì)傳統(tǒng)方法進(jìn)行改進(jìn)以提高其魯棒性,數(shù)據(jù)清洗主要用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的預(yù)處理階段,深度神經(jīng)網(wǎng)絡(luò)的魯棒訓(xùn)練是在不改變數(shù)據(jù)標(biāo)簽的情況下,通過(guò)改變訓(xùn)練策略來(lái)提高訓(xùn)練魯棒性的方法。圖4所示為所討論的處理標(biāo)簽噪聲的所有前沿算法。
圖4 處理標(biāo)簽噪聲前沿算法小結(jié)Fig.4 Summary of algorithms for processing label noise
對(duì)標(biāo)簽噪聲的研究可以追溯到三十多年前[70],在最近幾年仍然活躍。為研究標(biāo)簽噪聲的發(fā)展趨勢(shì),調(diào)研了2016—2020年發(fā)表在機(jī)器學(xué)習(xí)與人工智能相關(guān)的五大頂級(jí)會(huì)議AAAI、ICML、NeurIPS、CVPR、IJCAI上的論文,對(duì)研究標(biāo)簽噪聲的相關(guān)論文進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果如表1所示。
表1 2016—2020 年五大頂級(jí)會(huì)議上關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文統(tǒng)計(jì)Table 1 Papers focusing on label noise published on the top five conferences from 2016 to 2020
自2016年以來(lái),共有220篇關(guān)于標(biāo)簽噪聲學(xué)習(xí)的論文發(fā)表在上述五大頂級(jí)國(guó)際會(huì)議中,統(tǒng)計(jì)調(diào)查后得到如下結(jié)論。
(1)從論文的數(shù)量上可以看出,標(biāo)簽噪聲的研究在2019年達(dá)到了一個(gè)小高潮。同2019年相比,2020年關(guān)于標(biāo)簽噪聲的論文數(shù)量雖略有減少,但仍領(lǐng)先于前幾年,可以看出標(biāo)簽噪聲學(xué)習(xí)在機(jī)器學(xué)習(xí)以及人工智能領(lǐng)域的熱度仍居高不下。
(2)從論文的內(nèi)容上來(lái)說(shuō),關(guān)于標(biāo)簽噪聲的這220篇論文中既包括理論的研究,又包括應(yīng)用的研究,且在數(shù)量上分布比較均勻,可以看出標(biāo)簽噪聲研究在機(jī)器學(xué)習(xí)以及人工智能領(lǐng)域具有非??捎^的理論研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值。 2020年中對(duì)解決標(biāo)簽噪聲問(wèn)題的貢獻(xiàn)頗多,在此列舉幾項(xiàng)突出的貢獻(xiàn)。針對(duì)嚴(yán)重標(biāo)簽噪聲問(wèn)題,利用小的低成本、高價(jià)值可信集合來(lái)估計(jì)樣本權(quán)重和標(biāo)簽,再以有監(jiān)督的方式訓(xùn)練模型,可提高對(duì)標(biāo)簽噪聲超過(guò)90%的魯棒性[71]。針對(duì)噪聲標(biāo)簽和真實(shí)標(biāo)簽通常難以區(qū)分的問(wèn)題,LDCE (label distribution based confidence estimation)可以用來(lái)估計(jì)觀察標(biāo)簽的置信度[72],不過(guò)仍需要更有效的方法估計(jì)和利用標(biāo)簽置信度。
分類(lèi)系統(tǒng)無(wú)論是在理論方面,還是在應(yīng)用方面都獲得了巨大的成就。但是,取得這些成就離不開(kāi)強(qiáng)監(jiān)督信息的支持。目前,存在許多不同的技術(shù)來(lái)處理標(biāo)簽噪聲,雖然這些方法在一定程度上取得了較好的效果,但仍有許多問(wèn)題亟待解決。
(1)在實(shí)際的工作場(chǎng)景中,數(shù)據(jù)標(biāo)簽的質(zhì)量決定了最終分類(lèi)結(jié)果的上限,通過(guò)算法的調(diào)優(yōu)可以向該上限逼近。文中所提及的多數(shù)方法只在數(shù)據(jù)受標(biāo)簽噪聲污染程度較小情況下效率高,當(dāng)帶噪數(shù)據(jù)的規(guī)模接近或大于干凈數(shù)據(jù)規(guī)模時(shí),算法的效率會(huì)顯著下降。在工業(yè)實(shí)踐中,樣本數(shù)據(jù)中標(biāo)簽噪聲往往規(guī)模巨大且結(jié)構(gòu)復(fù)雜。因此,解決極端情況下的標(biāo)簽噪聲問(wèn)題是該研究課題的重點(diǎn),也是難點(diǎn)所在。
(2)實(shí)際數(shù)據(jù)中的標(biāo)簽噪聲可能會(huì)更加復(fù)雜。一方面,標(biāo)簽噪聲的來(lái)源可能并不唯一。另一方面,基于網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)的標(biāo)簽生成方法存在開(kāi)集問(wèn)題[7],即部分訓(xùn)練樣本的真實(shí)標(biāo)簽可能不在給定的標(biāo)簽空間內(nèi)。此外,實(shí)際數(shù)據(jù)集中可能同時(shí)存在特征噪聲和標(biāo)簽噪聲,有效利用這種低質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練也是該研究課題的重點(diǎn)和難點(diǎn)所在。
(3)將監(jiān)督學(xué)習(xí)同無(wú)監(jiān)督學(xué)習(xí)進(jìn)行結(jié)合處理標(biāo)簽噪聲是該課題的研究思路。在這種框架中,無(wú)監(jiān)督學(xué)習(xí)學(xué)習(xí)出的可信賴表示不受噪聲影響,可以提供好的度量關(guān)系并且可以對(duì)監(jiān)督學(xué)習(xí)下的表示進(jìn)行修正[73]。由于需要額外的進(jìn)行無(wú)監(jiān)督的計(jì)算,所以該方法會(huì)受到無(wú)監(jiān)督學(xué)習(xí)的瓶頸,且在大型數(shù)據(jù)集上適用度不高。隨著自監(jiān)督學(xué)習(xí)的興起,為這個(gè)問(wèn)題指明了方向,將這種框架應(yīng)用于大型數(shù)據(jù)集提高分類(lèi)任務(wù)的精度是未來(lái)該研究課題的一個(gè)方向。
(4)對(duì)標(biāo)簽噪聲的研究存在更廣闊的應(yīng)用場(chǎng)景值得探索。在計(jì)算化學(xué)領(lǐng)域,由于外部條件和實(shí)驗(yàn)成本的限制,很多數(shù)據(jù)集中含有噪聲,如何克服噪聲高效地利用這些數(shù)據(jù)進(jìn)行分類(lèi)(例如判斷化學(xué)反應(yīng)的方向)和回歸(如分子的屬性值預(yù)測(cè))任務(wù)是該研究課題的一個(gè)比較新穎的方向。多標(biāo)簽分類(lèi)是分類(lèi)問(wèn)題中的常見(jiàn)任務(wù),其在醫(yī)學(xué)、文本中的應(yīng)用較為廣泛,例如合并癥預(yù)測(cè)[74]、災(zāi)情信息檢測(cè)[75]等。將效果較好的多標(biāo)簽分類(lèi)模型應(yīng)用于一些公開(kāi)的分子數(shù)據(jù)集,為藥物研制提供幫助也是一個(gè)較為新穎的研究方向。