王靜紅,韓德林,陳洋洋
(1.河北師范大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院,河北 石家莊 050024;2. 伊利諾伊大學(xué)厄巴納-香檳分校 信息科學(xué)學(xué)院,伊利諾伊 厄巴納 61801)
受益于大量已標(biāo)注的干凈數(shù)據(jù)集,在不同的領(lǐng)域[1,2]中,基于數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)已具有媲美人類的分類能力。當(dāng)數(shù)據(jù)集包含標(biāo)簽噪聲時,嚴(yán)重影響模型準(zhǔn)確率。標(biāo)簽噪聲也曾誘發(fā)數(shù)據(jù)對抗性中毒[3]。因此,進行模型訓(xùn)練前,有必要對數(shù)據(jù)集進行標(biāo)簽噪聲評估并修改錯誤標(biāo)簽[4]。
如圖1所示,在特征空間中,多個標(biāo)簽對應(yīng)特征之間互相糾纏,導(dǎo)致最終分類結(jié)果出現(xiàn)偏差。徹底解決特征糾纏需要依靠神經(jīng)網(wǎng)絡(luò)進行特征解耦,分類函數(shù)可以緩解特征糾纏。神經(jīng)網(wǎng)絡(luò)常使用Softmax和Sigmoid作為分類函數(shù)。Sigmoid函數(shù)對每個多標(biāo)簽圖像做N次判斷,其中N為類別數(shù)量,隱式的通過對關(guān)鍵特征進行組合匹配,使得在多標(biāo)簽圖像分類中的效果優(yōu)于Softmax函數(shù)。但是,Sigmoid函數(shù)具有計算成本過高、需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)、網(wǎng)絡(luò)訓(xùn)練困難等缺點。在現(xiàn)實任務(wù)中,需要一種快速且便利的線性組合方法,降低特征糾纏對分類結(jié)果的干擾。
圖1 多標(biāo)簽圖像的標(biāo)簽糾纏
多標(biāo)簽分類和多分類問題的主要區(qū)別在于,多標(biāo)簽將造成輸出空間呈現(xiàn)指數(shù)級增長。一階算法的標(biāo)簽之間相互獨立,無需考慮標(biāo)簽間相關(guān)性,直接將多標(biāo)簽問題分解為多個單標(biāo)簽子問題,為每個標(biāo)簽構(gòu)建二分類器[5]。高階算法假定標(biāo)簽具有相關(guān)性。文獻[6]提出了包含標(biāo)簽信息的最小二乘多標(biāo)簽特征選擇算法,并證明這一算法的收斂性。文獻[7]通過變精度鄰域粗糙集的多標(biāo)簽特征選擇方法實現(xiàn)集成特征子空間,使分類特征更具泛化性。文獻[8]提出一種通過使用全局和局部流形正則化,探索標(biāo)簽相關(guān)性的監(jiān)督特征選擇方法。文獻[9]假設(shè)多標(biāo)簽數(shù)據(jù)具有共享子空間,使用半監(jiān)督學(xué)習(xí)進行多標(biāo)簽特征選擇。文獻[10]更進一步,通過自適應(yīng)全局結(jié)構(gòu)學(xué)習(xí)使特征保留全局信息,通過流形學(xué)習(xí)增強局部結(jié)構(gòu)和潛在的標(biāo)簽相關(guān)性,最后將兩者有機地結(jié)合,使特征選擇達到更好的效果。文獻[11]擴展到多視圖學(xué)習(xí)領(lǐng)域,在增強視圖間的一致性和多樣性時,通過更好地捕獲多視圖間的高階關(guān)系,增強多標(biāo)簽分類性能。相比于上述效果好但耗時長的神經(jīng)網(wǎng)絡(luò)或方法,大家期望使用更加快速的預(yù)處理方法,應(yīng)對多標(biāo)簽圖像分類受到標(biāo)簽噪聲干擾的挑戰(zhàn)。
應(yīng)對標(biāo)簽噪聲問題,存在基于噪聲模型和無噪聲模型兩種方法。在基于噪聲模型的方法中,文獻[12]提出循環(huán)調(diào)整學(xué)習(xí)率,使網(wǎng)絡(luò)狀態(tài)在欠擬合和過擬合之間變化。其假設(shè)標(biāo)簽噪聲樣本的損失較大,則調(diào)整學(xué)習(xí)率會抑制噪聲樣本。但是,這個假設(shè)可能會失效,把復(fù)雜的干凈樣本也排除在外。在基于無噪聲模型的方法中,文獻[13]提出某些非凸損失函數(shù),如0-1損失,比常用的凸損失具備更強的噪聲容忍度。文獻[14]提出基于信息損失,給定標(biāo)簽和預(yù)測值之間的互信息可以被損失函數(shù)評估,但是當(dāng)噪聲樣本數(shù)量過大時,效果不佳。
為了復(fù)用已訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)參數(shù),遷移學(xué)習(xí)應(yīng)運而生。文獻[15]使用自注意力機制搭建神經(jīng)網(wǎng)絡(luò),在多個任務(wù)和多個數(shù)據(jù)集上皆取得了優(yōu)異的效果。遷移學(xué)習(xí)可分為兩種情況:當(dāng)預(yù)訓(xùn)練樣本足夠多時,源域趨近于各個目標(biāo)標(biāo)簽域族的期望,僅需有限樣本的微調(diào)就能適應(yīng)目標(biāo)域;當(dāng)預(yù)訓(xùn)練樣本數(shù)量相比于目標(biāo)域數(shù)據(jù)集數(shù)量不足時,需要通過領(lǐng)域自適應(yīng)將源域與目標(biāo)域?qū)R[16]。相對于第二種情況,第一種情況的源域和目標(biāo)域差距并不顯著。大家期望的是,大規(guī)模、準(zhǔn)確且類別公平的源域數(shù)據(jù)集模型遷移到目標(biāo)域數(shù)據(jù)集,例如ImageNet數(shù)據(jù)集就滿足源域數(shù)據(jù)集要求。
本文的主要貢獻包括3個方面:
(1)提出模塊化的通用型多標(biāo)簽圖像多分類模型(Multi-label image multi-classification model,MIMM)預(yù)處理方法,并證明源域線性組合映射至目標(biāo)域的遷移誤差上界。
(2)模塊內(nèi),提出最大關(guān)鍵特征(Maximum key feature,MKF)分類函數(shù)和關(guān)鍵秩匹配分解(Key rank matching decomposition,KRMD)算法,緩和非獨立同分布數(shù)據(jù)集引發(fā)特征糾纏的矛盾,在多標(biāo)簽圖像分類實驗中,取得準(zhǔn)確率與運行效率的最佳平衡。
(3)引入干凈的第三方數(shù)據(jù),采取隨機組合數(shù)據(jù)增廣方式,通過標(biāo)簽數(shù)量公平性和標(biāo)簽噪聲實驗,證明MIMM方法具備自動發(fā)現(xiàn)標(biāo)簽噪聲的能力。
MIMM預(yù)處理方法的全局架構(gòu)如圖2所示,主要包含3個模塊:圖像特征提取模塊、微調(diào)模塊以及匹配模塊,單標(biāo)簽圖像和多標(biāo)簽圖像分別對應(yīng)圖中的“(1)”和“(2)”。首先,圖像特征提取模塊主要使用預(yù)訓(xùn)練參數(shù),如已在ImageNet數(shù)據(jù)集訓(xùn)練的模型參數(shù),使用其參數(shù)作為圖像特征的提取器,對應(yīng)于圖中步驟①。其次,微調(diào)模塊旨在使圖像特征提取模塊的單標(biāo)簽源域適應(yīng)目標(biāo)域數(shù)據(jù),這一階段仍使用Softmax函數(shù)抑制次要特征,對應(yīng)于圖中步驟②。然后,測試階段將不同測試集,包括單標(biāo)簽圖像和多標(biāo)簽圖像,輸入至特征提取器,將提取得到的特征使用MKF函數(shù)運算,對應(yīng)于圖中步驟③。最后,圖像匹配模塊將標(biāo)準(zhǔn)集經(jīng)MKF函數(shù)得到的集合與測試集經(jīng)MKF函數(shù)得到的集合,通過Match匹配模塊,即KRMD算法,得到關(guān)鍵秩匹配最優(yōu)的類別輸出作為最終輸出,對應(yīng)于圖中步驟④。
圖2 MIMM方法架構(gòu)
圖像特征提取模塊,使用ResNet[17]網(wǎng)絡(luò)。當(dāng)訓(xùn)練集只有少量樣本時,采取將M-ways N-shot的數(shù)據(jù)作為標(biāo)準(zhǔn)集,與訓(xùn)練集類似。在此基礎(chǔ)上添加常見的背景樣本,例如草地、桌子、天空、道路、沙灘等,作為圖像背景輔助信息,幫助標(biāo)準(zhǔn)集樣本和測試集樣本排除背景信息的干擾。在實驗中,MIMM方法第一步,使用ResNet網(wǎng)絡(luò)在ImageNet上預(yù)訓(xùn)練參數(shù)作為圖像特征提取器。若多標(biāo)簽測試集含有N個類別,N<1000(1 000為ImageNet的類別數(shù)量),則有足夠的特征空間進行分類。訓(xùn)練階段使用標(biāo)準(zhǔn)集,模型將提取豐富的底層信息,更好地適應(yīng)不同域分布。
上述方案應(yīng)用于遷移學(xué)習(xí),模型使用預(yù)訓(xùn)練參數(shù),針對目標(biāo)任務(wù)采取微調(diào)的策略,在源域與目標(biāo)域關(guān)聯(lián)程度高,即有大量重復(fù)類別的前提下,使用大量樣本與少量修正樣本將源域映射至目標(biāo)域。MIMM方法不僅要實現(xiàn)單標(biāo)簽圖像之間域遷移,還要實現(xiàn)多標(biāo)簽圖像到單標(biāo)簽圖像的組合域遷移。因此需要考慮從圖像到組合圖像,也即是單標(biāo)簽到線性組合多標(biāo)簽的誤差。多標(biāo)簽圖像相互糾纏導(dǎo)致分類結(jié)果受到干擾的定義如下所示。
定義1假設(shè)存在誤差序列E,i,j∈L為標(biāo)簽集合,D′T為目標(biāo)域集合,σ為分布交集的膨脹系數(shù)算子。
(1)當(dāng)多標(biāo)簽分布標(biāo)簽變量X完全獨立時
(3)
則E=0,多標(biāo)簽遷移誤差上界問題轉(zhuǎn)為多分類遷移誤差上界問題的線性疊加。
(2)當(dāng)多標(biāo)簽分布標(biāo)簽變量存在部分糾纏時,假設(shè)infE→0,則分布遷移后與真實分布在每個標(biāo)簽分布的誤差趨近于0,則
(4)
式中:k為常數(shù)。膨脹系數(shù)σ導(dǎo)致真實混合分布與預(yù)測混合分布相差常數(shù)級。
(3)當(dāng)多標(biāo)簽分布標(biāo)簽變量存在嚴(yán)重糾纏時,假設(shè)E→+∞,分布相交區(qū)域的非線性增長與真實相交區(qū)域的非線性增長相差極大,誤差上界趨于無窮,概率趨近于0
由于神經(jīng)網(wǎng)絡(luò)的限制,導(dǎo)致誤差上界近似于神經(jīng)網(wǎng)絡(luò)隨機參數(shù)得到的標(biāo)簽預(yù)測結(jié)果。
定理1設(shè)η為從單標(biāo)簽圖像分布到組合多標(biāo)簽圖像分布的損失,σ為分布交集的膨脹系數(shù)算子,E為誤差序列,L是全體標(biāo)簽集合。其余符號與文獻[18]中定義一致,d表示分布距離,R是X→Z的固定表示函數(shù),H是二值函數(shù),對每個h∈H,單標(biāo)簽圖像分類遷移至多標(biāo)簽圖像分類的誤差上界為
(6)
式中:
h′=arg minh∈H[εs(h)+εT(h)]
λs=εs(h′),λT=εT(h′),λ=λs+λT
證明通過文獻[18]關(guān)于泛化誤差的證明可得
(7)
將各個標(biāo)簽分布疊加,則
(8)
各個標(biāo)簽分布排除域相交損失η,則
(9)
由定義可知,源域無相交損失,則
(10)
最后,將η置于不等式右側(cè)
非線性函數(shù)可使用算子σ近似。算子σ與誤差序列E未知,若知道近似的E,就可近似的求出σ。為滿足定義1中的3種情況,定義當(dāng)φ不存在時,σ(φ)=0。
實驗中,先使用標(biāo)準(zhǔn)集微調(diào)模型參數(shù),再將標(biāo)準(zhǔn)集輸入到模型中,與測試集一起使用MKF函數(shù)與KRMD算法進行處理。
神經(jīng)網(wǎng)絡(luò)對圖像進行特征提取,將纏繞著的特征通過映射到低維空間,解耦特征間的復(fù)雜關(guān)系,最后稀疏化語義層得到線性可分的結(jié)果。過度的稀疏化類似于硬注意力機制,只關(guān)注重要的語義,忽視對最終分類結(jié)果貢獻少的信息。ReLU是在AlexNet中提出的激活函數(shù),很長一段時間作為卷積神經(jīng)網(wǎng)絡(luò)的默認(rèn)激活函數(shù)。其在眾多領(lǐng)域都表現(xiàn)優(yōu)秀,數(shù)學(xué)表示為ReLU=max(0,x)。ReLU通過抑制大量無用信息并側(cè)重于關(guān)鍵信息使得網(wǎng)絡(luò)稀疏,模型便能更好地進行學(xué)習(xí)。
定義2單調(diào)序數(shù)數(shù)據(jù)定義:設(shè)D是含有維度信息dimk∈K,具有k個序數(shù)屬性值A(chǔ)i,…,Ak,并按照從大到小排列的數(shù)據(jù)集。其中,K定義為神經(jīng)網(wǎng)絡(luò)分類模型中最后一層神經(jīng)元的數(shù)量;Ai→表示按照序數(shù)排序小于Ai的下一個數(shù)值。可以表示為:D={Ai?Aj?Ai>Aj,Ai→=Aj(i,j∈K)}。
定義函數(shù)MKF
MKF=max(0AZ→ →,XAZ← ←)
(11)
式中:0AZ→ →表示將數(shù)據(jù)按照維度上的數(shù)值從大到小排序后,以AZ為分界線,小于AZ值的維度將變成為0。XAZ← ←表示大于AZ值的保持原始數(shù)值。當(dāng)不考慮維度與序列信息時,MKF將退化成ReLU函數(shù)。
MKF函數(shù)是一種降維函數(shù),關(guān)注于挑選出對分類結(jié)果影響大的維度信息,這也是無法直接使用PAC等方法的原因。卷積神經(jīng)網(wǎng)絡(luò)進行圖像分類時,各維度具體的數(shù)值并不重要,需要關(guān)注的是維度序列是否匹配[19]。多標(biāo)簽圖像分類常對每個類別使用Sigmoid函數(shù)計算,準(zhǔn)確率高,但缺點是計算量龐大且需要調(diào)節(jié)的參數(shù)復(fù)雜。作為區(qū)分?jǐn)?shù)據(jù)集是否存在標(biāo)簽噪聲而言,使用Sigmoid函數(shù)訓(xùn)練多標(biāo)簽?zāi)P途惋@得得不償失了。
MKF函數(shù)的關(guān)鍵在于找到Z值的位置,本文有如下定義。
定義3增量冪律分布:設(shè)Aa-Ab記為ξa,其中Aa→=Ab(a,b∈K);Ab-Ac記為ξb,其中Ab→=Ac(b,c∈K)。增量之間自然有序,即當(dāng)Aa>Ab>…>Ax時,ξa>ξb>…>ξx。設(shè)D′為增量的集合,則增量冪律分布可表示為D′={ξa?ξb?ξa>ξb,ξa→=ξb(a,b∈K-1)}。
定義4二階有序增量:Ai-Ad記為ξi,其中Ai→=Ad(i,d∈K);Aj-Ae記為ξj,其中Aj→=Ae(j,e∈K)。一般情況下增量之間無序,需要對增量再一次進行有序化排序。ord′={ξi?ξj?ξi>ξj,ξi→=ξj(i,j∈K-1)},使得二階增量保持從大到小有序排列。
根據(jù)定義3和定義4,Z的位置有如下可能:在對增量ξi進行由大到小排序后,(1)當(dāng)增量前Z個數(shù)值A(chǔ)Z滿足增量冪律分布,第Z+1個不滿足增量冪律分布,則認(rèn)為此點以后的數(shù)據(jù)不重要;(2)當(dāng)增量在第Z個點ξZ出現(xiàn)ξZ?ξZ→且ξZ?ξZ←,則認(rèn)為此點以后的數(shù)據(jù)不重要;(3)當(dāng)增量沒有出現(xiàn)上述兩種情況,由二階有序增量定義,對增量之間進行排序。根據(jù)數(shù)據(jù)集內(nèi)所有實例的比較得到最優(yōu)的位置。
上述3種情況有以下3種解決方式:
(12)
式中:為了有限次的計算,假定α的取值范圍,α=(1,e]。實驗時,為方便起見取值2或e,效果沒有明顯差異。
(2)顯而易見,當(dāng)某處的增量比其它處都大時,理應(yīng)選擇此位置。
(3)若沒有出現(xiàn)上述兩種情況,則根據(jù)數(shù)據(jù)集內(nèi)所有實例的統(tǒng)計規(guī)律來抉擇。實現(xiàn)二階有序增量ord′,通過最大化每個實例的二階增量并最小化所有實例期望與方差的下界來達到最優(yōu)取值。具體表示為G
G={maxord′(ξi),ξi∈ξ} and
{{min[E(ξ)]and min[Var(ξ)]}↓}
(13)
通過以上方法能夠確定Z值的位置。
小樣本或非獨立同分布數(shù)據(jù)微調(diào)模型參數(shù)時,不變動原分類網(wǎng)絡(luò)模型架構(gòu),僅需做到以下兩個匹配:(1)標(biāo)準(zhǔn)集與測試集的維度匹配;(2)標(biāo)準(zhǔn)集與測試集之間,重疊部分按照概率分布疊加,按秩序列分解的損失最小化匹配。
將以上問題描述為優(yōu)化問題,表示為
minimizelosst=imat-(imas1+imas2)
maximumRt,Rs
s.t.β1:β2→qi:qj
實驗使用多標(biāo)簽數(shù)據(jù)集Pascal VOC 2007和Microsoft COCO,具體介紹如下。
Pascal VOC 2007:包含5 011個訓(xùn)練圖像和4 952個測試圖像,共20個對象類別。本文對每一個類別從網(wǎng)絡(luò)或從原始數(shù)據(jù)集挑選10張圖像,通過數(shù)據(jù)增廣生成60張圖像,使用訓(xùn)練集與驗證集的留一法進行實驗。
Microsoft COCO數(shù)據(jù)集由微軟團隊提供,針對各種視覺任務(wù)的數(shù)據(jù)集。包含12萬張,總計80個類別的圖像及注釋。本文仍使用訓(xùn)練集與驗證集的留一法進行實驗。此數(shù)據(jù)集的圖像類別更多,背景也更豐富,因此比Pascal VOC 2007更加復(fù)雜。
在多標(biāo)簽問題中,本文選擇平均精度(Average precision,AP)作為性能的度量標(biāo)準(zhǔn)。類平均精度(Mean average precision,MAP)和類無關(guān)的平均精度(Class-agnostic average precision,APall)作為度量標(biāo)準(zhǔn),被廣泛用于多標(biāo)簽?zāi)P偷男阅茉u估。MAP計算所有二值分類問題平均精度的均值。AP是每個正標(biāo)簽的精確加權(quán)。對于每個類,計算如下
式中:m和n表示正標(biāo)簽和實例的數(shù)目。在本文的實驗中,n是測試集的大小。Presion(i,c)是c類在第i個樣本的精度。I(i,c)是指示函數(shù),當(dāng)它輸出1時表示在第i個的真實標(biāo)簽是正確的。APall忽略每個類的注釋,并將它們視為單個類。對于預(yù)測真實標(biāo)簽,其由m×n個值組成。這個度量標(biāo)準(zhǔn)平等的考慮每個注釋,這忽視了困難的直接度量類。
以下介紹另一個度量標(biāo)準(zhǔn)宏F1
式中:查準(zhǔn)率(Precision)用P表示,查全率(Recall)用R表示。N表示實例數(shù)量,TP表示真正例,TN表示真反例,都對應(yīng)混淆矩陣的真實情況與預(yù)測結(jié)果。宏F1度量傾向于P與R都優(yōu)秀的結(jié)果。
實驗工具采用顯卡Tesla T4和GTX 1060,使用TensorFlow 2.0實現(xiàn)MIMM的各個模塊。預(yù)訓(xùn)練模塊中,GPU采用Tesla T4,網(wǎng)絡(luò)架構(gòu)使用ResNet 50-v2網(wǎng)絡(luò)進行特征提取,預(yù)訓(xùn)練的批大小為64,學(xué)習(xí)速率為0.001,指數(shù)學(xué)習(xí)速率每2個epoch衰減0.9,迭代5 000次。微調(diào)模塊中,GPU采用GTX 1060,ResNet 50-v2作為骨干網(wǎng)絡(luò),損失函數(shù)仍使用交叉熵。微調(diào)的批大小為32,學(xué)習(xí)速率為0.001,指數(shù)學(xué)習(xí)速率每2個epoch衰減0.9,分別在Pascal數(shù)據(jù)集上迭代1 000次,在COCO數(shù)據(jù)集上迭代2 000次。在匹配模塊中,不再使用原始分類函數(shù),改為對標(biāo)準(zhǔn)集與測試集依次使用MKF函數(shù)和KRMD算法,得到最終的分類結(jié)果。
針對自動選擇訓(xùn)練集,被動受到標(biāo)簽噪聲數(shù)量影響的數(shù)據(jù)集公平性進行實驗。表1中,性能度量后綴的1和2,分別代表在Pascal和COCO數(shù)據(jù)集的實驗結(jié)果。
表1 標(biāo)簽數(shù)量對分類性能的影響
表1是隨機抽取滿足極端標(biāo)簽數(shù)量差樣本做5次實驗的結(jié)果。隨著極端標(biāo)簽數(shù)量差值的增大,各個度量準(zhǔn)則都有不同程度的下降,尤其是Pascal數(shù)據(jù)集的MAP下降17.1%。觀測到在COCO數(shù)據(jù)集上,標(biāo)簽數(shù)量完全一致反而不如極端樣本相差10,在APall度量差距為1.8%,但隨著極端差值增大,各個性能度量標(biāo)準(zhǔn)逐步降低的趨勢更為顯著。因此,認(rèn)為標(biāo)簽數(shù)量的公平性極大影響性能。多標(biāo)簽圖像注釋很難實現(xiàn)數(shù)量與質(zhì)量并舉,所以MIMM方法引入第三方單標(biāo)簽圖像,相對而言可減少類別不平衡現(xiàn)象的出現(xiàn),是更優(yōu)的選擇。
在表2中,對比方法是經(jīng)典的多標(biāo)簽圖像分類方法加權(quán)近似秩匹配損失(Weighted approximate-rank pairwise loss,WARP)[20]方法和卷積與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合(Convolutional neural networks-recurrent neural network,CNN-RNN)[21]方法,以及效果出色的指數(shù)求和對數(shù)匹配(Log-sum-exp pairwise,LSEP)[22]方法。此外,Best表示單純使用網(wǎng)絡(luò),未使用本文算法得到的最佳結(jié)果。為了方便對比,將WARP1方法、CNN-RNN1方法和LSEP1方法,都使用COCO數(shù)據(jù)集訓(xùn)練并使用Pascal數(shù)據(jù)集進行微調(diào),在Pascal測試集測試定義為Y遷移。WARP2方法、CNN-RNN2方法和LSEP2方法數(shù)據(jù)集訓(xùn)練與測試方式則與此相反。YY遷移在上述基礎(chǔ)上,使用與測試集標(biāo)簽完全一致,從網(wǎng)絡(luò)中搜集的多標(biāo)簽圖像數(shù)據(jù)集。不同方法使用不同的分類方式。ours方法仍使用ImageNet預(yù)訓(xùn)練參數(shù),在不同遷移方式下進行實驗。ours分類函數(shù)表示模型使用MKF函數(shù)與KRMD算法。針對訓(xùn)練效率,表2中使用t表示每張圖像的平均訓(xùn)練時間,單位是ms。受制于GPU與batch值,不同的模型訓(xùn)練時間有所差異。一些方法在不同數(shù)據(jù)增廣方式和不同遷移方式下,計算時間相差無幾,因此僅記錄首個策略的運行訓(xùn)練時間,表中使用“如上”表示。
表2 多標(biāo)簽圖像分類效果
首先,不考慮訓(xùn)練時間人為地平衡類標(biāo)簽訓(xùn)練集時,3種度量標(biāo)準(zhǔn)綜合最優(yōu)的是LSEP方法。在考慮訓(xùn)練時間時,“#3+ours+YY”在不同數(shù)據(jù)集中皆取得最優(yōu)訓(xùn)練時間和最佳度量效果。此外,ours自動保持標(biāo)簽數(shù)量的公平性,訓(xùn)練時間均在最佳的LSEP方法基礎(chǔ)上縮短大約10ms,證明本文的方法實現(xiàn)準(zhǔn)確率和運行效率的統(tǒng)一。其次,任務(wù)的難度影響訓(xùn)練時間和準(zhǔn)確率,不同的方法在提升準(zhǔn)確率時,計算的代價也相應(yīng)增加。
除本文方法外,其它方法的準(zhǔn)確率與所需時間呈現(xiàn)正比關(guān)系。經(jīng)推測由于多標(biāo)簽?zāi)P托枰葐螛?biāo)簽?zāi)P陀?xùn)練更多次,模型提取類別間最具差異的特征而忽視類別間共有特征。這需要繞過大量極值點,因此造成計算時間加長。本文方法則通過解耦特征間的糾纏,類似于從Sigmoid函數(shù)求解問題流程中采樣,間接跳過許多極值點,節(jié)省訓(xùn)練時間。最后,當(dāng)分類函數(shù)使用“ours”時,遷移方式Y(jié)Y在多數(shù)度量標(biāo)準(zhǔn)中優(yōu)于Y(6∶1)。當(dāng)分類函數(shù)使用“Sigmoid”時,遷移方式Y(jié)在多數(shù)度量標(biāo)準(zhǔn)中反而優(yōu)于YY(3∶1)。這證明遷移方式Y(jié)Y更適合跟本文方法一起使用。除數(shù)據(jù)增廣方式不同外,對比其它相關(guān)變量,#3優(yōu)于#2,說明隨機組合數(shù)據(jù)增廣方式具有平穩(wěn)性。綜上所示,經(jīng)過不同數(shù)據(jù)集實驗,認(rèn)為“#3+ours+YY”是最優(yōu)的選擇。
表3展示了一種處于相同分類函數(shù),相同數(shù)據(jù)增廣方式和相同遷移方式時的結(jié)果。其中,Rate表示添加的噪聲占總體標(biāo)簽的比例,度量標(biāo)準(zhǔn)0-1表示只關(guān)注于添加的噪聲是否正確匹配,而非全部標(biāo)簽。度量標(biāo)準(zhǔn)0-1的上綴1、2,分別表示在Pascal和COCO數(shù)據(jù)集上實驗。實驗展示MIMM方法針對標(biāo)簽噪聲識別的真實效能??梢钥吹?當(dāng)標(biāo)簽噪聲增多時,準(zhǔn)確率降低,并收斂于直接進行遷移圖像分類的性能。因此,MIMM方法最低性能與神經(jīng)網(wǎng)絡(luò)遷移優(yōu)質(zhì)微調(diào)數(shù)據(jù)的性能接近。
表3 標(biāo)簽噪聲準(zhǔn)確率判斷
本文為組合域標(biāo)簽噪聲領(lǐng)域提供一種快速、便捷、模塊化的通用型MIMM預(yù)處理方法,從理論上證明組合域的遷移誤差上界,使非獨立同分布的組合域數(shù)據(jù)參與模型訓(xùn)練,擴寬遷移學(xué)習(xí)復(fù)用同構(gòu)數(shù)據(jù)的類別。在多個多標(biāo)簽數(shù)據(jù)集的分類任務(wù)上,MIMM預(yù)處理方法被證明在含標(biāo)簽噪聲時,除了自動保證類別的公平性,還在多個度量標(biāo)準(zhǔn)中取得準(zhǔn)確率與運行效率的最佳平衡效果。