国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于實例相關標簽噪聲的消除算法綜述

2022-02-07 09:19:50蔡宇佳陳麗綿
智能計算機與應用 2022年12期
關鍵詞:實例標簽損失

蔡宇佳,陳 旋,覃 芹,陳麗綿,張 利,2

(1 貴州大學 大數據與信息工程學院,貴陽 550025;2 貴州大學 省部共建公共大數據國家重點實驗室,貴陽 550025)

0 引言

目前,在機器學習領域,例如圖像分類等各種視覺問題在深度學習方面相繼涌現出一批科研成果,盡管計算機硬件系統(tǒng)在圖像處理等方面得到提升,網絡訓練方面的技術也在不斷取得突破,但要獲得良好的性能卻需要大量的數據作為支撐。隨著大數據技術的蓬勃發(fā)展,各種分類系統(tǒng)也日趨成為研究熱點,這些系統(tǒng)也需要大量的標注數據才能得到充分的訓練,但標注過程困難、且昂貴。在一些分類模型中,若使用標注大量錯誤信息的數據集,則會導致其結果準確性并不高。而諸如眾包[1]等情況在現實世界中將會產生大量的標簽噪聲,盡管在數十年前就已開始對其進行研究[2-7],但迄今為止卻依然存在各種各樣的問題。

在文獻[4-5]中,將標簽噪聲分成2 種類型:特征噪聲和標簽噪聲。其中,特征噪聲影響該特征的觀測值,標簽噪聲則改變分配給實例的觀測標簽。有研究表明[5],標簽噪聲比特征噪聲更為復雜。并且,標簽噪聲問題也是當前學界面臨的重大挑戰(zhàn),比如在醫(yī)療圖像領域中,幾乎通過醫(yī)學設備診斷測試出的數據都不是完全正確的[3-4];在射電天文圖像處理模型的訓練過程中[8-9],通常會依賴正確的標簽,從而對模型訓練帶來影響。在標簽噪聲分類問題中,基于實例相關的標簽噪聲更接近于真實世界的情況,因此基于實例相關的標簽噪聲學習算法的研究具有重要意義。

現如今,基于實例標簽噪聲消除問題在深度學習領域已取得可觀研究進展,而現有的方法通常在許多實際應用中存在不實用的先驗條件,如需要干凈標簽的鋪助設備[1]或大量的先驗信息[10],這些方法耗時、耗力,較為麻煩。一般情況下,使用顯式和隱式兩種處理方式對實例標簽噪聲結構模型進行分類研究。在顯式處理方式中,主要有2 種經典方法:基于標簽分布來監(jiān)督網絡學習方法[11-13]和通過處理小損失情況[14-17]。同樣,在隱式處理方式中也有2 種經典方法:基于損失函數方法[18-19]和基于圖論的方法[20-21]。本文的工作則擬對實例標簽噪聲的消除算法展開研究綜述。

研究中僅考慮實例相關標簽噪聲對目標分類器的影響,并對其進行綜述。針對實例相關標簽噪聲消除算法加以研究,通過顯式和隱式的方法進行分析和總結,選取部分算法對其進行實驗對比,并做出展望。

1 實例相關標簽噪聲的產生及影響

在現實世界的圖像分類處理、目標識別等各類應用中廣泛存在著基于實例相關的標簽噪聲。產生標簽噪聲的因素有很多,例如數據獲取過程中通信設備本身帶有錯誤標簽[22];成像本身質量的變化也會導致標注錯誤[2];在射電天文領域,干涉儀等設備獲取天文信息數據時,傳輸過程中會不可避免地帶有嘈雜的便簽;在一些標注中,信息不足也會導致標注錯誤等[23]。

近年來,基于實例相關標簽噪聲問題在深度學習領域引發(fā)了廣泛關注[24-27]。Heskes[24]、Lachenbruch[25]證明了分類器受標簽噪聲的影響。Arpit 等人[28]提出了深度模型的泛化用于處理標簽噪聲帶來的影響。Zhang 等人[29]能夠擬合隨機標簽。Angluin 等人[30]和Wu 等人[31]證明了標簽噪聲不僅降低了分類精度,且對算法模型產生誤導性。此外,Frénay 等人[32]、Shanab 等人[33]則指出標簽噪聲影響特征選擇及排序。

Frénay 等人[32]提出了概率模型概念的方法去捕獲圖像,簡稱有向概率圖,把標簽噪聲、地面實況標簽和噪聲類型之間的關系有效聯系起來,將標簽噪聲分為隨機標簽噪聲(Random Classification label Noise,RCN)、類相關標簽噪聲(Class-Conditional label Noise,CCN)和實例相關標簽噪聲(Instance-Dependent label Noise,IDN),如圖1 所示。其中,x,y,y 分別為實例特征、真實標簽、相應的標簽噪聲,e為隨機變量[34-35]。

圖1 標簽噪聲類型圖Fig. 1 Label noise type diagram

2 相關算法

在實例標簽噪聲學習算法的國內外的各項成果中,皆是對不同的分類情況進行研究[34-36]。在一些研究中,會根據實例數據去創(chuàng)建基礎模型,或基于實例數據制定相關決策,本文主要圍繞通過顯式處理和隱式處理對實例相關噪聲結構進行分類探討,有關實例相關標簽噪聲處理算法如圖2 所示。

圖2 實例相關標簽噪聲處理算法Fig. 2 Instance-related label noise processing algorithm

2.1 顯式處理

在實例相關標簽噪聲中,顯式處理通過對實例相關標簽噪聲進行建模,通常在學習的過程中,主模型對IDN 進行清理,從而消除訓練數據中錯誤的標簽。表1 展現了顯式處理算法所存在的一些缺陷。在顯式處理方式中,主要有2 種方法對實例標簽噪聲算法進行綜述,分別是:標簽概率分布的方法和處理小損失情況的方法。對此可做闡釋分述如下。

表1 顯式處理算法的缺陷總結Tab.1 A summary of explicit processing algorithms defects

2.1.1 標簽概率分布的方法

文獻[11]提出了一種深度標簽分布學習方法(Deep Label Distribution Learning,DLDL),通過有效地利用了特征學習和分類器學習中的標簽模糊性,防止在訓練集很小的情況下產生過擬合,由于DLDL 的標簽分布較為穩(wěn)定,需要大量的先驗信息,導致無法更新的情況,且對不同的應用場景設計不同,泛化性不強。文獻[12]提出網絡參數和標簽聯合優(yōu)化的框架,通過交替更新網絡參數和標簽來糾正訓練中的標簽,對網絡噪聲數據的訓練改寫損失值,通過修改損失函數,對網絡進行更新。但在學習率較低時,得到的準確率不高。該損失函數可由如下公式進行描述:

其中,Lc為分類損失,是損失函數L的主要組成部分;le為一個正則化項;lρ為另一個正則化項;α和β為超參數。

文獻[13]提出一種端到端的框架(Probabilistic End-to-end Noise Correction for Learning with noisy labels,PENCIL),可以同時更新網絡參數和數據標簽,是DLDL 方法的變體。與文獻[12] 相似,PENCIL 同樣不需要清潔數據集或有關噪聲的先驗信息,直接利用反向傳播來概率地更新和校正圖像標簽,在訓練過程中,PENCIL 引入了損失函數(2),其中l(wèi)c沿用了KL-divergence 的形式,并將其改為對稱形式,取得不錯的性能。該函數的數學公式見如下:

PENCIL 的框架雖然能獨立于任何模型進行訓練,但對非平衡樣本的處理較為困難,在實際情況中既存在噪聲數據、又存在不均衡類別的情況也十分常見。

2.1.2 處理小損失情況的方法

文獻[14]提出一種學習數據驅動課程的新方法(M-Net),利用小批量隨機梯度下降法進行深度網絡課程學習,通過學習另一個神經網絡(Mentor Net)來監(jiān)督基礎深度網絡(Student Net)訓練的新技術,用來解決過擬合的問題,但在訓練過程中容易積累錯誤信息。文獻[15] 提出了一種簡單有效的學習范式(Co-teaching),通過同時訓練2 個深度神經網絡,并令其在每一個小批中相互教學,則能很好地解決積累的錯誤信息。Co-teaching 通過在小批量數據中過濾噪聲樣本傳遞給對等網絡來更新參數,訓練時間較長,可能會導致神經網絡記憶泛化產生誤差,使得網絡之間達成收斂,就會得到較差的訓練結果。針對Co-teaching 的問題,文獻[16]對其進行了改進,提出了一種新策略來訓練網絡(Coteaching+),能夠使得神經網絡抵御標簽噪聲的魯棒性,但該方法只適用于數據集噪聲率較低的情況,當噪聲率極高時會導致小批量訓練變得困難。而文獻[17]是在訓練之前通過利用GMM 模型將訓練數據分為有標簽數據和無標簽數據,對其進行訓練,使2個網絡彼此互斥,即解決了Co-teaching 的共識問題,在噪聲率較高的情況下,訓練效果較好,但相較而言還是不夠理想。

在每個小批量處理下的相應網絡訓練結構(MentorNet(M -Net )[14],Coteaching[15],Coteaching+[16]和Divide MIX[17])如圖3 所示。假設錯誤流來自訓練實例的偏選,網絡A和網絡B的錯誤流分別用黑色實線箭頭和虛線箭頭表示。左面板中,M-Net 只訓練一個網絡(A);中間偏左面板中,Coteaching 同時訓練2 個網絡(A和B);中間偏右面板中,Coteaching+訓練2 個網絡(A和B),當2 個網絡的預測不一致時(?。剑?,更新這2 個網絡的參數;右面板中,Divide MIX 同時訓練2 個網絡(A和B),每個網絡使用從另一個網絡的數據集劃分,以半監(jiān)督的方式進行訓練。

圖3 Mini-batch 相關網絡Fig. 3 Mini-batch related network

2.2 隱式處理

隱式處理方法利用更加通用的算法來消除噪聲的影響。該處理方法主要通過損失函數去處理標簽噪聲,使標簽噪聲訓練過程中有較好的魯棒性。由于IDN 建模困難,許多研究者們對其進行假設,但在一些實際應用中,假設的方法會產生許多限制。因此,一些研究者[18-21,37]提出了隱式地處理實例相關的標簽噪聲的方法,該方法不需要對標簽噪聲的生成過程做出假設。

在實例相關標簽噪聲中,由于一些隱式的清潔處理方法會一起處理原有的干凈標簽,最終導致分類器性能變差,圖像質量下降。為此,學者們提出從圖論方向出發(fā),通過探索矩陣所表示的實例相鄰關系來設計標簽噪聲的修正處理方法。Wei 等人[20]提出了一種通過邊緣信息的標簽噪聲處理方法(LNSI),將觀察到的標簽矩陣分解為2 部分。其中,一部分揭示真實的標簽,一部分采用行稀疏矩陣對不正確的標簽進行建模,這適用于二值分類,但需要很充分的先驗知識。在隱式處理方式中,同樣有2種方法對實例標簽噪聲算法進行綜述,分別是基于損失函數的方法和基于圖論的方法。對此可給出重點論述如下。

2.2.1 基于損失函數的方法

文獻[18]提出了一個理論上的噪聲魯棒損失函數集(GCE),一種基于理論和易于使用的噪聲魯棒損失函數類,可以很容易地應用于任何現有的DNN 體系結構和算法,同時在廣泛的標簽噪聲場景中產生良好的性能。但在噪聲率較高時,測試精度較低。

文獻[19]提出了對稱交叉熵(Symmetric cross entropy Learning,SL)的方法,該方法是反向交叉熵(Reverse Cross Entropy,RCE)和交叉熵(Cross Entropy,CE)結合體,不僅充分利用了兩者的優(yōu)點,還彌補了彼此的不足,利用噪聲魯棒對應的反向交叉熵(RCE)對稱增強CE,避免CE 存在標簽噪聲的欠學習和過度擬合問題,但在實際應用中容易產生混淆。

2.2.2 基于圖論的方法

實際數據集往往包含各種人為因素或測量誤差引起的標簽噪聲,導致訓練過程中可能產生錯誤標注,從而誤導分類器的訓練,嚴重降低分類性能?,F有的隱式處理的方法中,通常是在經驗風險最小化框架下通過各種替代損失函數去解決,但需要充分的先驗信息。

文獻[20]提出一種新的半監(jiān)督學習范式、一種基于圖的SSL 算法,稱為不充分和不正確監(jiān)督下的半監(jiān)督學習(SIIS),通過一個圖來鏈接數據點,使標簽信息可以沿著圖的邊緣從缺乏標簽的實例傳播到沒有標簽的實例。SIIS 采用圖趨勢濾波(GTF)和平滑特征基追蹤(SEP)對初始的帶噪標簽進行過濾,可以同時處理標簽不足和標簽不準確的問題。適用于圖像、文本和音頻等實例,當有限標記實例被錯誤標記過多時,訓練時則稍顯困難。

將實例特征視為邊信息,并將標簽噪聲去除問題定義為矩陣恢復問題,方法稱為通過側信息處理標簽噪聲。具體地,將觀察到的標簽矩陣分解2 兩部分之和。其中,第一部分揭示了真實的標簽,可以通過對邊信息進行低秩映射得到;第二部分采用行稀疏矩陣對不正確的標簽進行建模。分析可知,該方法的優(yōu)點體現在3 個方面:

(1)該策略具有較強的恢復能力,并通過大量的邊信息使理論工作得到了充分的論證。

(2)借助學習到的投影矩陣,可以直接處理多類情況。

(3)模型設計只需要非常弱的假設,使得LNSI適用于廣泛的實際問題。

此外,本次研究從理論上推導了LNSI 的泛化界,并證明了LNSI 的期望分類誤差是上界的。在多種數據集(包括UCI 基準數據集和實際數據集)上的實驗結果證實了LNSI 在標簽噪聲處理方面的優(yōu)越性。

文獻[21]提出一類損失函數的若干充分條件,使多類別分類問題在該損失函數下的風險最小化,能夠內在地容忍標記噪聲(LNSI),該方法通過研究深度網絡中廣泛使用的損失函數,證明其基于誤差的平均絕對值的損失函數對標記噪聲具有魯棒性,適用于任何多類分類器學習且風險最小化。但當數據集過于復雜會直接導致分類器的性能變差。表2即展示了隱式學習的去噪方法中存在的缺陷。

表2 隱式處理算法缺陷總結Tab.2 Summary of implicit processing algorithms defects

綜上所述,在實例相關標簽噪聲算法研究中,顯式和隱式方法對其處理都有各自的優(yōu)點。顯式處理會對噪聲本身進行建模,并在訓練過程中使用建模后的信息來獲得更好的性能;而隱式處理則通過圖論或魯棒性等方式對其進行研究。通過顯式和隱式處理方法可以看出,基于實例相關標簽噪聲算法的研究中還存在許多不足,在未來,對于大噪聲率的處理還需要做更進一步的探討研究。

3 不同算法的對比實驗

(1)數據集及參數設置。通過使用2 種基準數據集對實例相關標簽噪聲的算法進行對比驗證,文中使用CIFAR10 和CIFAR100,見表3。這些數據集在文獻中被廣泛用于標簽噪聲的評估。為了更好地分析和比較算法的性能,對于所有實驗,選取其動量為0.9,初始學習率為0.001,批處理大小為128,運行200epoch。由于所有數據集都是干凈的,所以本文通過手動標注錯誤標簽,噪聲率選為20%、50%和80%。

表3 數據集參數Tab.3 Data set parameters

(2)性能測試。多是使用2 種方式:測試精確度和標簽精確度。其中,測試精確度是正確預測數和測試數據集數之比,而標簽精確度則是干凈標簽數和所有選定標簽數之比。本文只使用測試精確度對所有算法進行測試,選取5 種算法進行實驗,并對比各類算法的最后50 個epoch的精確度,見表4。

表4 中展示了CIFAR-10 和CIFAR-100 基線方法的實驗對比結果。在噪聲率為0.2、0.5 和0.8的情況下,驗證了每種方法的性能。其中,顯式方法有PENCIL、Divide MIX,隱式方法包含GCE、SL。即如在2 個數據集上看到的,所有方法都不適用于高噪聲的情況,總地來看,顯式方法中Divide MIX 方法相較于顯式方法中其他2 個方法的測試精度較高,在數據集CIFAR-10 噪聲率為20%上測試精度達到94.53%。在隱式方法中,SL 方法比GCE 方法較好,但在CIFAR-10 噪聲率為80%的訓練上失效,在CIFAR-100 噪聲率為80%上的測試精度較為理想。

表4 基于實例相關標簽噪聲算法測試精度Tab.4 Test accuracy of the algorithm based on instance-related label noise %

4 結束語

本文主要討論基于實例相關標簽噪聲處理算法問題,通過顯式處理和隱式處理方法系統(tǒng)性分析可知,基于實例相關標簽噪聲問題更接近于實際應用,但也存在一些不足?,F階段,基于實例相關標簽噪聲的消除算法都不適用于數據集噪聲率較大的情況,當噪聲率極大時可能會導致無法工作。盡管標簽噪聲接近實際問題的處理,但并不能泛化為實際數據的各類情況。雖然能夠處理錯誤的標簽,但一些相鄰的正確標簽也會一并加以處理,若想得到較為干凈的標簽,過度清潔還會使得分類器性能下降。

標簽噪聲消除問題在大數據人工智能領域一直都是研究熱點,然而標簽噪聲消除研究旨在將其應用于現實生活中,基于實例相關標簽噪聲消除問題的研究能夠很好地鏈接實際應用,解決現實世界中存在的噪聲問題?,F階段,對于實例相關標簽噪聲消除的研究仍在繼續(xù),且具有廣泛性、實用性、可實現性等特點,未來有關基實例相關標簽噪聲的各類研究也會越來越多。

猜你喜歡
實例標簽損失
少問一句,損失千金
胖胖損失了多少元
玉米抽穗前倒伏怎么辦?怎么減少損失?
無懼標簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
標簽化傷害了誰
一般自由碰撞的最大動能損失
基于多進制查詢樹的多標簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
完形填空Ⅱ
完形填空Ⅰ
界首市| 屯留县| 通渭县| 丘北县| 武宁县| 瓦房店市| 巴楚县| 饶阳县| 区。| 宁武县| 中江县| 慈利县| 樟树市| 甘肃省| 博爱县| 云和县| 雷波县| 乐业县| 札达县| 阳高县| 麟游县| 清涧县| 西丰县| 安阳县| 吉安县| 太仓市| 长白| 克什克腾旗| 盱眙县| 朝阳区| 贺兰县| 福贡县| 泸溪县| 承德县| 稻城县| 莱芜市| 崇明县| 娄底市| 汉源县| 兴隆县| 崇阳县|