鄭濰雯,汪云云
(1.南京郵電大學 計算機學院、軟件學院、網絡空間安全學院;2.江蘇省大數(shù)據安全與智能處理重點實驗室,江蘇 南京 210023)
近年來,深度神經網絡在圖像識別、語義分割和自然語言處理等許多應用中取得了顯著成果。然而,相比于傳統(tǒng)的機器學習方法,現(xiàn)代深度網絡更加依賴于大規(guī)模且高質量的人工標記數(shù)據,但人為標記大量樣本費時費力,對于特定的學習任務又需要相關的專業(yè)知識且存在人為主觀因素等,會導致標簽上的誤差。如何利用少量有標簽數(shù)據,建立一個可靠的模型,幫助無標記的數(shù)據進行任務學習,這便是最近備受關注的遷移學習。本文研究重點是遷移學習中的一個重要子問題,即無監(jiān)督域適應學習(Unsupervised Domain Adaptation,UDA)[1-2]。
UDA 旨在利用相關且有標記的源域(Source Domain)的知識幫助無標記的目標域(Target Domain)學習。源域和目標域數(shù)據雖然相關但仍存在明顯的分布差異,這會導致模型遷移性能不佳?,F(xiàn)階段大多數(shù)UDA 方法主要是學習域間不變知識,從而減小域間分布差異以實現(xiàn)模型遷移,主要包括基于度量的方式[3-4]和基于對抗的方式[5-8]?;诙攘康姆绞街饕抢貌煌亩攘糠绞剑缱畲缶挡町悾∕aximum Mean Discrepancy,MMD)[4]或Wasserstein 距離[9]等以減小源域和目標域之間的邊緣或條件分布差異?;趯沟姆绞街饕峭ㄟ^特征提取器和域鑒別器之間[6]或是多分類器之間[3]的對抗學習提取出域不變特征以對齊源域和目標域的特征分布,至此便能將源域中的類判別知識遷移應用到目標域中,幫助識別目標域樣本完成分類任務。假定收集到的大量帶標記的源域數(shù)據都完全正確,而這在真實的學習任務中常常難以滿足。
在真實場景的UDA 任務中,很難收集大量帶有干凈標簽的源域樣本,從眾包平臺或互聯(lián)網媒體收集到的源域數(shù)據通常不可避免地帶有特征層面和標簽層面上的噪聲。使用帶噪的源域數(shù)據會極大降低域適應模型的泛化性能,特征噪聲會破壞原始數(shù)據分布,從而增加域對齊的難度;而標簽噪聲會惡化分類的預期風險,從而導致目標域樣本的錯誤分類,這使得以前的UDA 方法在帶噪環(huán)境中很容易失敗。最近,一些方法致力于研究噪聲域適應學習(Noisy UDA)[10-13],主要可分為兩類:一類是采用Small Loss 準則[10-11]將源域樣本分為干凈、有噪聲兩部分,然后僅利用干凈樣本將源域類判別知識遷移到目標域;另一類主要是利用多個分類器的聯(lián)合學習策略[12-13]篩選出干凈樣本用于域適應以減少標簽噪聲在知識遷移過程中的影響,這也是本文所采取的策略。但這些工作往往只關注到樣本的標簽噪聲而忽略了特征噪聲也會造成負遷移,并且大多數(shù)方法直接丟棄了噪聲樣本,僅使用干凈樣本進行訓練,因而樣本信息利用率低。Noisy UDA 方法在實際應用場景中可以幫助醫(yī)療、金融等多個領域進行相關性能提升,例如在醫(yī)學影像診斷中可應對不同機器產生的噪聲或訓練數(shù)據中的人工標記誤差完成影像判斷,并可以學習不同臟器影像中的共性并完成跨域識別。
Noisy UDA 通常有域偏移和源域特征或標簽被破壞這兩個問題導致目標域分類性能不佳,針對此學習場景,本文提出了基于多分類器差異的噪聲矯正域適應學習模型(Noise Correction Domain Adaptation based on Classifiers Discrepancy,NCDA)。首先,利用多分類器之間輸出結果的差異性,結合本文提出的精確分類方式,可將源域數(shù)據分為干凈、帶有特征噪聲、帶有標簽噪聲的樣本;其次,對兩種噪聲分別進行矯正,之后結合干凈樣本一起投入到類判別知識的學習中,并先最大化多分類器之間的差異使得類別邊界清晰,再最小化多分類器損失約束其一致性;最后,采用隨機分類器的思想[14]優(yōu)化多分類器參數(shù),將其參數(shù)看作一個分布進行優(yōu)化,避免網絡中的兩個分類器趨同,增加了多分類器對于樣本判別的多樣性,使得整個域適應網絡更加具有魯棒性。NCDA 方法的主要貢獻點可總結如下:①提出對帶噪源域樣本進行精確分類,區(qū)分特征噪聲與標簽噪聲,并針對不同噪聲種類定制矯正方案,復用矯正后的樣本,以提高樣本利用率;②利用隨機分類器的思想優(yōu)化網絡參數(shù),將分類器的參數(shù)看作一個分布去優(yōu)化,可以增加分類器的多樣性以避免兩個分類器趨同而導致模型失效的問題;③針對噪聲域適應問題,提出了NCDA,在Office-31、Office-Home、Bing-Caltech 數(shù)據集上與無監(jiān)督域適應方法和噪聲域適應方法進行對比,實驗證明了該方法的有效性和魯棒性。
無監(jiān)督域適應學習主要是利用一個或多個不同但相關且有標記的源域知識遷移到無標記的目標域。近年來,UDA 正處于蓬勃發(fā)展的階段,其方法可大致可分為3 類:基于度量的方式、基于對抗網絡的方式、基于重構的方法。在域適應發(fā)展早期階段,大多采用基于度量的方式以減小源域和目標域的數(shù)據分布差異。這類方法主要針對源域與目標域數(shù)據的邊緣分布、條件分布以及聯(lián)合分布進行對齊,以此減小域間偏移實現(xiàn)知識遷移。常用到的域間差異度量方法有最大均值差異(MMD)[4]、Wasserstein 距離[9]、相關性對齊[15]、KL 散度[16]、JS 散度[17]等。后來,受對抗學習實踐啟發(fā),文獻[6]提出一種對抗性域適應神經網絡,用特征提取器和域鑒別器之間的對抗學習提取出域不變特征并拉近源域和目標域之間的特征分布。自此開始,一系列關于對抗性學習的域適應研究[42-43]被相繼提出。文獻[7]將條件分布信息融入對抗自適應模型,文獻[18]從圖片的像素級別和特征級別分別執(zhí)行對抗與適應學習以實現(xiàn)知識遷移,文獻[3]采用多個分類器實現(xiàn)對抗學習,實現(xiàn)兩域數(shù)據在條件分布上對齊。最后一類基于重構的方法主要是受到文獻[19]的啟發(fā),采用生成的方式,使得生成器學習并能輸出類源域樣本或類目標域樣本,達到風格遷移[20]或是數(shù)據分布平衡[21]的作用,學習域間不變特征,減小域間差異,從而實現(xiàn)知識遷移。
噪聲場景下的研究由于模糊的特征及錯誤的標簽信息會嚴重影響深度神經網絡的泛化性能。先前處理噪聲的方法主要是通過設計魯棒的損失函數(shù)[22-25],或是在學習過程中過濾掉噪聲樣本[26-30]以解決噪聲。當在域適應學習中引入噪聲設定時,學習問題會變得更加復雜,因為目標域樣本偽標簽的不可靠性不僅會由于域偏移引起,還會由于源域噪聲引起。為了減小噪聲樣本的影響,目前對于噪聲域適應問題的學習策略主要分為兩類。一類策略是遵循Small Loss 準則將分類器篩選出的低置信樣本標記為標簽噪聲樣本然后剔除掉,僅收集干凈的源域樣本進行域適應。例如:文獻[10]提出一種可遷移的課程學習方式,以增強干凈源域樣本的正遷移,從而減輕噪聲帶來的負遷移影響;文獻[11]選擇保留了特征損壞的數(shù)據并在對抗網絡中使用代理分布改進課程學習方式。另一類策略是使用多個分類器的聯(lián)合學習策略過濾掉帶有噪聲標簽的源域樣本。例如:文獻[13]根據兩個同等網絡輸出的不一致性進行互樣本選擇,挑選出可靠的源域樣本進行之后的域適應學習;文獻[12]研究了目標域包含未知類的通用型域適應學習,并優(yōu)化了兩個分類器之間的差異以檢測噪聲源樣本;文獻[31]針對噪聲源域無關域適應問題,利用預生成標簽和自監(jiān)督學習中[32]自生成標簽之間的關系對預訓練模型進行微調。但以上方法都是丟棄掉檢測出的噪聲樣本,僅使用干凈樣本進行訓練,并且都忽視了特征層面噪聲對網絡帶來的負遷移影響。
不同于以往方法,本文關注到不同噪聲種類對域遷移的不同影響,實現(xiàn)了噪聲樣本的精確分類、矯正與回收。此外,本文還使用了隨機分類器的思想,減少了學習過程中雙分類器趨同對最終訓練結果的影響。
本文針對Noisy UDA 提出基于多分類器差異的噪聲矯正域適應學習模型NCDA,其整體框架如圖1所示。
Fig.1 Overall framework of NCDA圖1 NCDA整體框架
為方便描述,首先給出本文所用到的符號定義。有噪聲標簽源域數(shù)據和無標簽目標域數(shù)據分別表示為。其中,s和t分別表示源域和目標域,Ns和Nt則表示源域和目標域的樣本個數(shù),K表示源域標簽的種類數(shù)量。源域和目標域雖相關,但它們仍然有域間差異即兩域的數(shù)據分布不同,即Ps(x) ≠Pt(x)。
為解決Noisy UDA 的問題,需要訓練目標網絡使其能在源域樣本標簽帶噪聲的有監(jiān)督學習下正確分類出源域樣本,再進一步對齊源域和目標域的數(shù)據分布從而完成域遷移。本文所提出的NCDA 方法的網絡結構如圖2 所示,整體網絡主要由一個特征生成器G和兩個分類器F1、F2組成。這兩個分類器在小批量級別用相同的數(shù)據進行訓練,但它們是用不同的參數(shù)隨機初始化。帶噪源域和目標域樣本x依次進入特征生成器G和分類器F1、F2中,生成K維向量p1(y|x)和p2(y|x),它們分別表示兩個分類器對樣本K種標簽的預測概率結果。最終,以分類器對樣本預測向量的最大概率輸出pk(y|x)作為其偽標簽:
Fig.2 Network structure of NCDA圖2 NCDA的網絡結構
由于不同分類器的學習差異,對不同的帶噪樣本會生成不同的分類決策邊界。由此,本文關注到不同分類器之間的分類差異,它們對干凈無噪聲的源域樣本會有與給定標簽一致的分類結果,而對帶有特征噪聲或是標簽噪聲的樣本分類結果通常是不一致的,精確的分類方式將在下文具體介紹。因此,根據兩個分類器的分類結果是否一致,可以檢測出帶有噪聲的源域樣本,之后根據其噪聲類型作不同方式的矯正。針對特征噪聲,采用mixup[34]的方式矯正靠近最鄰近的聚類中心;針對標簽噪聲,則將標簽矯正改為最鄰近的類中心標簽,以此回收樣本利用于下一步的域適應流程。除目前流行的過濾噪聲樣本的小損失準則外,還選擇了對多分類器預測差異較小的樣本以更新每個小批量中的網絡。與文獻[3]相似,之后進一步最小化了正確標記的源樣本的差異,從而最大化了兩個分類器的一致性,以獲得更好的結果。最后為優(yōu)化網絡,本文采用隨機分類器的思想,將分類器的參數(shù)當作一個分布進行更新,避免網絡中的兩個分類器趨同,增強了魯棒性。
為了盡可能減少噪聲對域遷移過程帶來的負面影響,NCDA 使用檢測噪聲并矯正的方式,具體流程主要包括3個步驟,如圖2 所示。在本文實驗中,這3 個步驟在小批量的訓練水平下重復進行。
Step A-1:在有標記的噪聲源域樣本監(jiān)督下進行網絡預訓練。由于在訓練初始階段小損失樣本大多標簽正確[26,33],為了減少錯誤噪聲標簽對預訓練的影響,本文在此階段僅使用小損失實例訓練特征提取器和分類器。訓練過程使用常見的交叉熵損失,其定義如下:
Step A-2:噪聲精確分類準則。由于特征噪聲是在特征層面改變了樣本點的分布,使其遠離了類中心,靠近類間決策邊界,因此多分類器通常會對特征噪聲樣本有不一致的預測結果。而標簽噪聲只是錯誤標記了樣本,并沒有改變其特征分布,故在某一類聚集處出現(xiàn)的個別另一類樣本通常就是標簽噪聲樣本,多分類器對這類樣本有一致但不同于樣本原標簽的分類結果。最后,多分類器對于干凈樣本會有一致且與原標簽相同的預測結果。至此,根據原標簽與兩個分類器預測結果的關系可將源域數(shù)據集分為3類:
其中,DCL、DFN、DLN分別表示源域根據上述精確分類準則劃分出的3 個子集,即干凈源域子集、特征噪聲源域子集、標簽噪聲源域子集。
Step A-3:針對不同的噪聲類別,NCDA 根據其特性采取了不同的聚類矯正方式。首先,根據干凈源域子集DCL樣本標簽將其劃分K個類簇(k=1,...,K),每個類簇的類中心向量ck可計算如下:
對于噪聲樣本,計算其與各個類中心的最小歐式距離,以確定其最近鄰類中心ck*:
面對特征噪聲子集DFN,采用mixup 矯正方式在特征層面將樣本往其最近鄰類中心拉近。矯正后的特征計算如下:
其中,λ為擾動權重,在實踐過程中,根據當前模型的學習進度對其進行動態(tài)調整,最終將λ逐漸減小至0。由此,在訓練初期,大部分特征噪聲被弱化從而獲得更好的域對齊效果,而隨著訓練的進行,當模型趨于穩(wěn)定時,適當?shù)奶卣髟肼暱梢宰鳛閿_動提高模型魯棒性。而針對標簽噪聲子集DLN,其錯誤標簽會被修正為最近鄰類中心所屬類別k*。矯正完成之后,所有樣本將再次投入網絡中進行訓練,在每輪訓練中,最近鄰類中心ck*都由式(5)重新計算更新。
Step B:需對齊源域和目標域的分布以實現(xiàn)域適應,分為B、C 兩部分。首先固定特征生成器G,訓練F1和F2兩個分類器以最大化對目標域樣本預測的差異,如圖2 中的Step B 所示。同時,還需要最小化源域的有監(jiān)督學習損失以保證分類器決策的可靠,可使源域類邊界最大程度清晰。訓練目標如下:
其中,本文利用兩個分類器的概率輸出之間的L1距離作為差異損失(Discrepancy Loss):
Step C:固定分類器F1和F2以訓練特征生成器G,這一步驟對應圖2 中的Step C。在固定分類器的情況下,更新特征生成器以最小化兩個分類器對目標域樣本預測的差異,以此實現(xiàn)源域和目標域分布的對齊。訓練目標如下:
在本文方法中,以上A、B、C 3 個步驟交替進行,B、C兩部分實則也是形成了特征生成器和分類器之間的對抗學習以實現(xiàn)域適應。為獲得更好的域對齊效果,以上步驟會在小批量數(shù)據集下重復n次,在本文實驗中設定n=4。
在NCDA 的模型中使用兩個分類器對目標域樣本預測結果的差異進行損失計算,雖然這種方式在目前Noisy UDA 問題的各種基準上可產生相對更好的識別性能,但有幾個基本問題常被忽略,即:多分類器差異這種模型設計中的最佳分類器個數(shù)是幾個?為什么目前的方法大多使用兩個分類器而非更多?直覺上,使用更多的分類器可以多角度識別更全面的特征分布[35],但直接在網絡中添加更多個分類器的方式不僅會導致更多的網絡參數(shù)、更高的計算復雜度,還會顯著增加模型的參數(shù)量,導致模型過擬合的風險。因此,為優(yōu)化多分類器,并且規(guī)避以上問題,本文采用了隨機分類器[14]的思想,用兩個分類器模擬近似無限個分類器集成到本文目前網絡中。所要做的實則是改變分類器參數(shù)的優(yōu)化方式,不再以傳統(tǒng)方法中的具體單個變量表示參數(shù),而是學習一個分布,兩個分類器的參數(shù)是從學得的分布中采樣表示。這種采樣方式可以使兩個分類器在不增加網絡參數(shù)的前提下,盡可能多樣地得模擬多個參數(shù)組合,即多個分類器以學習模型。
在NCDA 網絡中的分類器是用高斯分布建模N(μ,σ),之后在訓練中優(yōu)化這個分布。本文將分類器權重向量視為隨機變量,分布的平均值μ用作最終分類器的權重,而方差σ表示不同分類器的差異程度。在每次訓練迭代中,從當前分布中隨機抽樣兩個不同的新分類器,最終模擬大量分類器在整個訓練過程中進行多次迭代。即分類器F1和F2可優(yōu)化為從分布N(μ,σ)中采樣的兩個獨立樣本點,再通過重參數(shù)化技巧[36],公式可簡化如下:
其中,θ1和θ2是從標準高斯中提取的兩個獨立樣本,⊙表示元素乘積,α是σ的對角線。
因此,NCDA 網絡可以用比以前多得多的分類器進行訓練。這樣的方式可以在訓練Step A 步驟中避免兩個分類器在訓練中逐漸趨同,而導致對于噪聲樣本預測一致,無法進行精確分類的情況。還可以在訓練Step B、Step C步驟中多樣化分類器的決策邊界,提升了網絡模型的精確性和魯棒性。
本文所提出的NCDA 方法在3 個數(shù)據集上展現(xiàn)了其有效性,分別是:Office-31、Office-Home 和Bing-Caltech。Office-31 是包含31 類的4 652 張圖片的標準域適應數(shù)據集,有Amazon(A)、Webcam(W)和DSLR(D)3 個域。Office-Home 是包含65 個類別、15 599 張圖片的標準域適應數(shù)據集,由Artistic(Ar)、Clipart(Cl)、Product(Pr)和Real-World(Rw)這4 個較大域差異的域組成。為了引入噪聲,本文按照文獻[11]中的規(guī)則引入了3 種噪聲,即:標簽噪聲、特征噪聲以及這兩種的混合噪聲。標簽噪聲主要根據噪聲率將圖片的標簽隨機更改為其他類,特征噪聲則是依據概率將圖片進行高斯模糊或椒鹽噪聲損壞,混合噪聲是將噪聲率的50%即標簽噪聲,50%即特征噪聲結合起來。Bing-Caltech 是一個由Bing 和Caltech-256 兩個域組成的真實噪聲數(shù)據集,它包含豐富的標簽噪聲與特征噪聲。本文將Bing 作為噪聲源域,將Caltech-256 作為干凈的目標域。在所有實驗中,依次應用模型從一個域遷移到另一個域。
將本文方法NCDA 與最先進的噪聲處理方法和標準無監(jiān)督域適應方法進行比較,包括ResNet-50[37]、Self-Paced Learning(SPL)[38]、MentorNet[28]、Deep Adaptation Network(DAN)[4]、Residual Transfer Network(RTN)[39]、Domain Adversarial Neural Network(DANN)[6]、Margin Disparity Discrepancy based algorithm(MDD)[40]、Transferable Curriculum Learning(TCL)[10]、Robust Domain Adaptation(RDA)[11]。其中,SPL 和MentorNet 是噪聲標簽處理方法,為了更好地體現(xiàn)NCDA 方法中每一步處理的具體作TCL 和RDA 是噪聲領域自適應方法,其他為標準領域自適應方法。
本文網絡結構和訓練參數(shù)參考先前噪聲域適應方法[11]的標準實驗設置,使用帶噪有標記的源域樣本和未標記的目標域樣本進行訓練時,遵循UDA[6]中的標準,所有對比方法在Pytorch 深度框架中復現(xiàn)。為公平比較,所有方法設置相同超參數(shù)、預處理和特征提取網絡。對于圖像識別任務,將所有圖像縮放至256×256。本文使用ImageNet[41]上預訓練的ResNet-50 作為特征提取器,并在分類層之前使用完全連接的瓶頸層。在預訓練階段將每輪樣本數(shù)設置為30,小損失閾值γ通常由先前文獻[10-11]中的噪聲經驗或先驗知識確定。并且,固定分離比p=0.08,將γ設置為大多數(shù)任務中第(N×p)個實例的損失。按照文獻[37]中的標準方案,本文初始學習率設置為2e-3,在網絡訓練迭代周期90輪中的每30輪中將學習率衰減0.1。
表1、表2 展示了本文方法在Office-31、Office-Home和Bing-Caltech 上的性能對比??梢园l(fā)現(xiàn):①在Office-31上,NCDA 的效果比其他噪聲域適應處理方法在混合噪聲任務上更勝一籌,平均比RDA 方法高出1.4%,比TCL 方法高出6.3%;②在Office-Home 上,NCDA 方法在Ar→Cl、Pr2→Cl、Pr→Ar、Rw→Cl 這4 個困難的域遷移任務上都取得了明顯提升,這也促使NCDA 方法在總體上優(yōu)于其他方法,說明NCDA 在遷移時更具可遷移性和魯棒性;③在Bing-Caltech 上,NCDA 方法大幅度優(yōu)于目前最先進的深度域適應方法DAN、DANN 等,因為這些方法的源域受到噪聲影響導致遷移泛化性能不佳,同時也優(yōu)于TCL、RDA 這類噪聲域適應方法,展示了本文精確分類檢測噪聲、矯正噪聲的優(yōu)勢;④NCDA 在預測精度上展示了比現(xiàn)有大多數(shù)標準無監(jiān)督域適應方法和噪聲域適應處理方法更好、更穩(wěn)定的效果,這體現(xiàn)了NCDA 方法的優(yōu)越性,也表示了本文對源域樣本噪聲的有效的精確分類檢測和矯正,提升模型的預測準確性的同時也保證了其魯棒性。用,本文在Office-31 數(shù)據集引入40%的混合噪聲,消融實驗結果如表3 所示??梢钥闯?,放棄特征噪聲與標簽噪聲的矯正均會導致性能下降。因此,在學習過程中處理標簽噪聲和特征噪聲是合理的。此外,相比傳統(tǒng)雙分類器方法,使用隨機分類器思想對于UDA 的多分類器方法的優(yōu)化也是有效的。
Table 1 Target domain classification accuracy of Office-31 in a 40%mixed noise scenario表1 Office-31在40%混合噪聲場景下的目標域分類準確率(%)
Table 2 Target domain classification accuracy of Office-Home and Bing-Caltech in a 40% mixed noise scenario表2 Office-Home、Bing-Caltech在40%混合噪聲場景下的目標域分類準確率(%)
Table 3 Ablation study of NCDA表3 NCDA消融實驗(%)
3.5.1 不同噪聲水平下的噪聲識別準確率
為了展示本文提出的對源域樣本進行精確分類檢測方式的有效性,在Office-31 數(shù)據集A→W 任務上做了不同噪聲水平下的噪聲識別實驗,如圖3 所示。從NCDA 方法檢測出的標簽噪聲、特征噪聲的準確度可以看出,經過精確分類檢測出的兩種噪聲近八成是準確的,這說明了精確分類這一步的有效性,也為后續(xù)噪聲矯正這一步打下了基礎。
Fig.3 Accuracy of NCDA detecting noisy samples圖3 NCDA識別噪聲樣本的準確率
3.5.2 不同噪聲水平下各方法的目標域分類準確率
圖4 展示了在不同噪聲比例下Office-31 數(shù)據集的A→W 任務上,不同混合噪聲比下各方法的性能。具體而言,噪聲水平從0.0 到1.6,其中0.0 表示無噪聲UDA 場景,1.6表示160%的混合噪聲,即80%的標簽噪聲混合80%的特征噪聲。從圖4 可以看出,隨著噪聲水平的增加,所有方法的性能都會降低,尤其是DANN 和ResNet 這類沒作噪聲處理的方法。NCDA 的性能隨著噪聲水平的增加而更加穩(wěn)定,并且優(yōu)于其他方法。值得注意的是,當噪聲水平為1.6時,NCDA 的性能比其他方法要好得多。原因可能是NCDA 在學習中矯正和回收噪聲,從而可以充分利用數(shù)據,尤其是在高噪聲的場景中。同時,NCDA 在噪聲水平為0 時也實現(xiàn)了最佳性能,這證明本文方法也適用于標準UDA場景。
Fig.4 Accuracy of target domain detection圖4 目標域識別準確率
NCDA 方法及其主要對比方法在Pr→Rw 任務上40%混合噪聲情境下的可視化特征比較如圖5所示。
Fig.5 The t-SNE visualization feature comparison圖5 t-SNE可視化特征比較
圖5(a)-(d)展示了學習的目標特征分布,不同顏色表示不同的類別(彩圖掃OSID 碼可見)。可以看出,DANN 學得的不同類別的特征混合在一起,其他方法雖能對目標域數(shù)據有不錯的分類效果,但是它們的類別邊界非常模糊,而NCDA 對比其他方法能夠更好地區(qū)分出類別邊界,且能實現(xiàn)一定程度上的類內緊湊、類間分離的效果,因此可見NCDA 對噪聲的處理非常有效。
本文針對極具挑戰(zhàn)的噪聲域適應學習提出了簡明有效的NCDA 方法。除標簽噪聲外,本文還關注到了特征噪聲,提出了精確分類噪聲并將其進行矯正的方式,這樣回收樣本的方式在高噪聲環(huán)境下也能有效實現(xiàn)域遷移,且采用隨機分類器思想的優(yōu)化方式也能提升域適應的效果。實驗結果表明,與現(xiàn)有的域適應和噪聲處理技術相比,NCDA 方法實現(xiàn)了顯著的性能改進。