張 旭,劉 韜,杜 躍
(蘇州市職業(yè)大學(xué) a.電子信息工程學(xué)院;b.計算機工程學(xué)院,江蘇 蘇州 215104)
經(jīng)典圖像分類任務(wù)假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)源于同一個域,具有相同的分布形式,然而真實應(yīng)用情況往往無法滿足該假設(shè),測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)常具有較大類內(nèi)差距,即具有不同的分布形式,如在人臉識別過程中,將采用具有良好分辨率的正面人臉圖像訓(xùn)練獲取的識別模型應(yīng)用于側(cè)面人臉圖像或模糊人臉圖像中,由于域間差異的存在,使得人臉識別的正確率大幅下降。針對此問題,學(xué)者提出了眾多解決方法,其中域適應(yīng)方法[1]最具代表性。域適應(yīng)方法主要包括源域和目標(biāo)域兩個概念,并且源域和目標(biāo)域中的數(shù)據(jù)具有不同的分布形式。域適應(yīng)方法可被劃分為兩大類,無監(jiān)督域適應(yīng)方法和半監(jiān)督域適應(yīng)方法,在半監(jiān)督域適應(yīng)方法中目標(biāo)域中的樣本包含少量的類別標(biāo)簽,而在無監(jiān)督域適應(yīng)方法中目標(biāo)域中的樣本不包含任何類別標(biāo)簽的信息。
由于目標(biāo)域中的樣本不具有類別信息,因此相比于半監(jiān)督域適應(yīng)方法,無監(jiān)督域適應(yīng)方法更具挑戰(zhàn)性和實用性。無監(jiān)督域適應(yīng)方法的一類常用做法,是基于源域和目標(biāo)域構(gòu)建域適應(yīng)的子空間。該類方法將源域和目標(biāo)域中的樣本,通過變換和投影操作映射到一個公共子空間中,旨在減少樣本之間的分布差異[2-4]。無監(jiān)督域適應(yīng)方法的另一類常用做法,是對源域中的樣本進行加權(quán)或篩選,使得源域和目標(biāo)域中的樣本分布差異盡量減少[5-6]。上述方法充分利用了源域中樣本的類別標(biāo)簽信息,但是很少有算法在分類過程中充分利用目標(biāo)域樣本所蘊含的判別性信息。由于源域和目標(biāo)域中樣本分布差異性的存在,因此僅利用源域中樣本的類別信息并不能保留目標(biāo)域中的判別性信息。
基于自擴展的域適應(yīng)圖像分類方法直接使用源域所訓(xùn)練獲取的分類模型對目標(biāo)域中的樣本進行預(yù)測分類,并將該部分樣本添加至源域中再進行分類模型訓(xùn)練。但該類方法需要設(shè)置啟發(fā)式閾值決定適應(yīng)過程何時終止,該類方法另一個局限性是無法保證每次迭代是否有效地減少了域間的差異性。S.Bendavid等[7]實驗結(jié)果表明,直接將測試樣本應(yīng)用于具有不同分布形式的訓(xùn)練樣本所訓(xùn)練的分類模型中,分類性能較差,源域和目標(biāo)域之間的差異性是導(dǎo)致該類問題的主要原因。因此,基于域適應(yīng)解決該類問題的核心是如何保證在域適應(yīng)過程中減少域間的差異性。
真實的高維數(shù)據(jù)往往可以用低維的子空間近似表示。稀疏表示理論認為,通過選擇合適的過完備字典,存在于同一子空間中的數(shù)據(jù)信號可以表示為少量幾個原子或基的線性組合。字典學(xué)習(xí)廣泛應(yīng)用于圖像分類和域適應(yīng)算法中并表現(xiàn)出了良好的性能。本文基于在線字典學(xué)習(xí)提出一種無監(jiān)督的域適應(yīng)圖像分類方法,算法假設(shè)在源域和目標(biāo)域之間存在若干個中間域子空間,并使用字典表征各域子空間。在此過程中充分利用目標(biāo)域中的樣本數(shù)據(jù),在每次迭代過程中使得源域和目標(biāo)域之間的差異性不斷減少,并將最終獲取的分類模型應(yīng)用于目標(biāo)域。在每次迭代過程中從目標(biāo)域中尋找符合預(yù)設(shè)條件的支持向量樣本,將該部分樣本用于字典更新,將支持向量樣本添加至源域中進行模型訓(xùn)練。一方面,支持向量樣本的類別標(biāo)簽錯誤率低,利用該部分樣本訓(xùn)練分類模型使得模型錯誤率低;另一方面,基于SVM原理和理論,支持向量樣本距離源域最近,因此最具適應(yīng)性,這有利于減少源域和目標(biāo)域之間的差異性,支持向量樣本所具有的這兩個屬性對于域適應(yīng)的圖像分類方法至關(guān)重要。另外,合適的終止準則在域適應(yīng)過程中同樣具有關(guān)鍵性,本文基于域間相似性作為每次迭代過程的終止準則,這保證了在每次迭代過程中源域和目標(biāo)域之間的差異性能夠單調(diào)減小。
域適應(yīng)在模式識別與機器學(xué)習(xí)(如自然語言處理)等領(lǐng)域中被廣泛研究和應(yīng)用,近年來該方法吸引了越來越多計算機視覺研究者的關(guān)注。本文所提算法與基于自擴展的域適應(yīng)圖像分類方法[8]具有較強的相似性。該類方法首先基于源域樣本訓(xùn)練分類模型,然后基于該分類模型對目標(biāo)域樣本進行分類識別,然后從中選取分類正確率較高的樣本添加至源域中用于重新進行分類模型訓(xùn)練。L.Bruzzone等[8]選擇距離分類器邊界最近的樣本作為候選樣本添加至源域中,然而該算法可能由于目標(biāo)域中樣本標(biāo)簽的錯誤致使后續(xù)分類模型性能降低。針對此問題,C.W.Seah等[9]在后續(xù)分類模型學(xué)習(xí)過程中增加了一個正則化項,但該過程需要基于人工經(jīng)驗對大量啟發(fā)式閾值進行調(diào)節(jié)與修正,使得該類算法使用性和泛化性差,并且該類算法沒有對源域和目標(biāo)域之間的相似性進行約束,即在每次迭代過程中無法確保源域和目標(biāo)域之間的差異性單調(diào)遞減。
字典學(xué)習(xí)同樣廣泛應(yīng)用于域適應(yīng)圖像分類方法中。J.Ni[10]假設(shè)在源域和目標(biāo)域之間存在若干個中間域子空間,并且基于最小化重構(gòu)誤差,通過表征各子空間的字典可以將源域和目標(biāo)域平滑連接,該算法沒有充分利用源域中樣本的類別信息。S.Shekhar等[11]基于源域和目標(biāo)域?qū)W習(xí)兩類投影矩陣和一個公用字典,并將源域和目標(biāo)域的樣本嵌入到低維空間中。為了增加字典的判別性能,該算法在字典學(xué)習(xí)過程中利用了源域中樣本的類別信息,但在低維空間中并沒有減少域間的差異性,并且該方法并沒有利用目標(biāo)域中的判別性信息。
本文提出一種無監(jiān)督的域適應(yīng)圖像分類方法,基于目標(biāo)域中的支持向量樣本和在線字典學(xué)習(xí),將源域和目標(biāo)域相關(guān)聯(lián)并減小域間差異性。假設(shè)NS和NT分別為源域和目標(biāo)域中樣本的個數(shù),d為樣本的維度,j表示源域樣本的類別標(biāo)簽,j=1,2,…,C?;谠从驑颖緲?gòu)建的初始字典表示為D(0),表示第j類樣本所對應(yīng)的子字典,K為子字典中原子的數(shù)目。定義置信矩陣 P ∈RNt×C中的元素 pij∈ (0,1)表示目標(biāo)域中的樣本隸屬類別j的概率。定義標(biāo)記矩陣中的元素 Wij∈ (0,1)表示目標(biāo)域中的樣本是否為支持向量樣本,特別地,在第k次迭代過程中上述各變量表示為X(k),D(k),P(k),W(k)。
首先,基于源域樣本構(gòu)建初始字典D(0),選擇目標(biāo)域中的支持向量樣本并將該部分樣本視為動態(tài)數(shù)據(jù)序列;然后,基于在線字典學(xué)習(xí)的方式,獲取各中間域子空間對應(yīng)的字典D(0),D(1),…,D(n)。在當(dāng)前迭代過程中,僅從目標(biāo)域中選擇新的支持向量樣本添加到源域中,即前次迭代過程所選擇的支持向量樣本應(yīng)予以丟棄,并且在每次迭代過程中,對源域中的各類別均添加相同數(shù)量的支持向量樣本以保證類別之間的均衡?;诖?,從源域中選擇置信度最大的樣本作為支持向量樣本用于更新當(dāng)前字典D(k)直至滿足迭代終止條件,以使樣本的重構(gòu)誤差最小。
給定當(dāng)前字典對第k+1迭代過程中置信矩陣P(k+1)采用如下方式進行更新:
式(1)中:σ2為歸一化參數(shù);eij表示目標(biāo)域中樣本基于字典的重構(gòu)誤差,
式中為稀疏編碼的系數(shù)。當(dāng)樣本i以較大概率隸屬于類別j時,有p(k+1)≠0。ij
在每次迭代過程中,根據(jù)標(biāo)記矩陣W(k+1)從目標(biāo)域中選擇支持向量樣本用于更新字典,并將支持向量樣本添加至源域中,標(biāo)記矩陣采用如下方式進行更新:
由于支持向量樣本的類別標(biāo)簽存在一定的錯誤率,因此將各個支持向量樣本基于置信概率進行加權(quán)處理之后再添加至源域,以增強模型的正確性和穩(wěn)健性。
本文采用在線字典學(xué)習(xí)的方式對字典進行更新,與傳統(tǒng)批處理字典學(xué)習(xí)算法不同,在線字典學(xué)習(xí)算法在每次迭代學(xué)習(xí)過程中處理一個樣本或者少量的樣本,進而實現(xiàn)動態(tài)更新字典,字典更新過程為[12]
式中λ為正則化參數(shù),控制編碼系數(shù)的稀疏性。在字典更新過程,第k+1次迭代中采用第k次迭代過程中的字典作為初始字典。
當(dāng)測試樣本和訓(xùn)練樣本源于不同域時,將測試樣本應(yīng)用于訓(xùn)練樣本所獲取的分類模型,分類正確率較低,產(chǎn)生該問題的主要原因在于源域和目標(biāo)域之間存在較大的差異性,因此采用域適應(yīng)解決該類問題的一個主要目標(biāo)是如何衡量域間的差異性并在適應(yīng)過程中減少域間的差異性。為了衡量域間的差異性,本文采用B.Lu[13]提出的方法基于域間相似性度量域間的差異性,域間相似性越高,域間差異性越小,反之亦然。源域Xs和目標(biāo)域Xt間的相似性定義為
本文算法描述如下:
輸入:初始化字典,目標(biāo)域樣本Xt,源域和目標(biāo)域之間的相似性φ(Xs,Xt),目標(biāo)域中每類別中支持向量樣本的數(shù)目Q,參數(shù)λ;
輸出:目標(biāo)域中樣本的類別標(biāo)簽;k=0;
Repeat:
1) 對輸入樣本基于式(2)計算樣本的重構(gòu)誤差,根據(jù)式(1)對置信矩陣 P(k+1)進行更新;
2) 對于目標(biāo)域中的各類別樣本,基于最大化式(3)求解選擇固定數(shù)目的支持向量樣本;
3) 對支持向量樣本進行加權(quán)處理并根據(jù)式(4)構(gòu)建增廣源域
4) 根據(jù)式(5),采用在線字典學(xué)習(xí)的方式,在每次迭代過程中采用目標(biāo)域中的支持向量樣本更新初始字典并作為后續(xù)學(xué)習(xí)的初始字典,分別記為D(1),D(2),…,D(k)。
5) k=k+1;Until φ(X(k+1),Xt)≤φ(Xk,Xt)或目標(biāo)域中不存在符合條件的支持向量樣本。
6) 目標(biāo)域中的樣本表示為形如的增廣特征向量,并通過PAC操作生成最終用于分類識別的圖像特征。
采用域適應(yīng)圖像分類方法中常用的Office & Caltech圖像集驗證本文提出的算法,該圖像集由Office和Caltech-256圖像集構(gòu)成,Office數(shù)據(jù)集包含了Amazon、DSLR和Webcam圖像子集,Amazon中的圖像成像條件好、質(zhì)量較優(yōu),dSLR中的圖像由數(shù)字SLR相機在現(xiàn)實自然光照條件下所拍攝獲取,Webcam中的圖像由Web相機所拍攝,分辨率較低、具有大量的噪聲干擾。Amazon、dSLR以及Webcam均包括31個類別,分別包含2 790、423以及795幅圖像。Caltech-256圖像庫包含256個類、共30 607幅圖像,每類最少包含80幅圖像。因此Office & Caltech圖像集包含了四個相互獨立的域:Amazon、dSLR、Webcam和Caltech(見圖1),由于dSLR子集包含的圖像數(shù)目較少,并且與Webcam具有比較高的相似度,因此在本實驗中沒有考慮dSLR子集。選擇Caltech(C)/Amazon(A)/Webcam(W)圖像子集分別作為源域和目標(biāo)域,因此共構(gòu)建6對不同的源域和目標(biāo)域組合,實驗中在C、A和W域中各個類別分別隨機選取300、300和100個樣本并構(gòu)建源域和目標(biāo)域。
圖1 Office & Caltech示例圖像
分別與兩種傳統(tǒng)的圖像分類方法即沒有考慮域間樣本分布的差異性和四種常用的域適應(yīng)方法進行對比,其中BoVW&1-NN[14]和NBNN[15]是兩種傳統(tǒng)的圖像分類方法,SIDL(subspace interpolation via dictionary learning)[10]、SGF(sampling geodesic flow)[16]、GFK(geodesic flow kernel)[14]和DA-NBNN[17]為四種無監(jiān)督域適應(yīng)圖像分類算法。BoVW&1-NN算法采用BoVW模型表示圖像信息,采用最近鄰分類器對圖像進行分類決策;NBNN算法基于圖像—類別距離度量方式避免了特征量化所引起的量化誤差,具有較好的泛化性能。SIDL算法同樣采用字典學(xué)習(xí)的方式表征源域與目標(biāo)域之間的中間子空間,但該方法采用目標(biāo)域中的全部樣本進行字典學(xué)習(xí)。SGF算法用采樣測地流表示源域和目標(biāo)域之間的潛在子空間,GFK算法進一步擴展了SGF算法,在SGF算法的基礎(chǔ)上提出了測地流核,并且在子空間學(xué)習(xí)過程中融合幾何特征及統(tǒng)計特征。DA-NBNN是種自擴展域適應(yīng)方法,在NBNN算法的基礎(chǔ)上不斷從目標(biāo)域中選擇符合既定條件的樣本更新源域,并進行Mahlanobis距離學(xué)習(xí)。
通過實驗發(fā)現(xiàn)λ的取值大小對于最終的分類正確率影響甚微,這與文獻[12]中的結(jié)論相一致,一般情況下λ的取值在0.01~0.5。與文獻[12]相同,本實驗中設(shè)置λ=0.02,基于最大似然估計對σ2進行估計,在各個子域中設(shè)置σ2=0.05。對于域A,C,W分別設(shè)置k的取值為80,80,20。在線字典更新過程中,一般情況下采用一個樣本對字典進行更新,即Q取值為1,為了提高算法的運算效率和加快字典學(xué)習(xí)過程中的收斂速度,實驗根據(jù)A,C,W各個域的大小分別設(shè)置Q取值為8,8,2,具體實驗結(jié)果如表1所示。
表1 不同域間組合的圖像分類正確率
表1為6對不同域組合的實驗結(jié)果,各列黑色加粗字體部分的數(shù)值為各分組實驗中最高的分類正確率。由表1中可看出相比于其他算法,本文算法性能較優(yōu),特別是在域間差異較大的組中如W→C取得了最高的分類正確率,在C→A和W→A組合中也取得不錯的分類正確率。BoVW&1-NN算法基于歐式距離采用最近鄰分類器進行分類決策,由于歐式距離度量方式在高維空間中的局限性,因此該類算法在各分組實驗中分類效果最差;NBNN算法采用圖像—類別距離避免了特征量化所導(dǎo)致的誤差,在C→A和W→A實驗中表現(xiàn)出了較優(yōu)的泛化性能。DA-NBNN同樣從目標(biāo)域中選擇符合既定條件的樣本添加至源域中,基于NBNN算法原理實現(xiàn)自擴展域適應(yīng)方法,該方法在C→A和W→A實驗中取得了最優(yōu)的分類正確率,但在其余各組實驗中劣低于本文算法。本算法與SIDL和GFK具有相一致的思想,特別地與SIDL相似,通過在線字典學(xué)習(xí)的方式建模源域和目標(biāo)域之間的中間域,由于本文算法充分利用了源域樣本的判別性信息,因此分類性能優(yōu)于前兩者,特別是在W→C實驗中分類正確率較SIDL方法提高了近5.8%。
本文算法從目標(biāo)域中不斷地選擇支持向量樣本添加至源域中,因此在域適應(yīng)過程中可以不斷地減少源域和目標(biāo)域之間的分布差異性,因此在域間差異較大的各組中本文算法表現(xiàn)更為突出。相反,當(dāng)初始源域和目標(biāo)源之間的分布差異較小即域間相似性較高時,添加支持向量樣本并沒有大幅度減少域間差異,本文算法經(jīng)過少量迭代便達到終止條件,但仍取得了與其他域適應(yīng)算法相當(dāng)?shù)姆诸愓_率。
本文基于樣本選擇和在線字典學(xué)習(xí)提出一種無監(jiān)督域適應(yīng)圖像分類算法,為了減小源域和目標(biāo)域中的差異性,算法通過迭代不斷從目標(biāo)域中選擇支持向量樣本添加源域中并進行字典學(xué)習(xí)。支持向量樣本一方面減小了域間的差異性;另一方面增加了模型的判別性能,在線字典學(xué)習(xí)的方式保證了樣本的重構(gòu)誤差最小,通過迭代終止準則使得在適應(yīng)過程中源域和目標(biāo)域之間的差異性單調(diào)遞減。在Office&Caltech圖像集中本算法取得了較優(yōu)的分類正確率。
參考文獻:
[1]DAUME I N,MARCU D.Domain adaptation for statistical classifiers[J].Journal of Artificial Ietelligence Research,2006,26:101-126.
[2]BAKTASHMOTLAGH M,HARANDI M T,LOVELL B C,et al.Unsupervised domain adaptation by domain invariant projection[C]//IEEE International Conference on Computer Vision.Sydney:IEEE Computer Society,2013:769-776.
[3]FERNANDO B,HABRARD A,SEBBAN M,et al.Unsupervised visual domain adaptation using subspace alignment[C]//IEEE International Conference on Computer Vision.Sydney:IEEE Computer Society,2014:2960-2967.
[4]SHA F,SHI Y,GONG B,et al.Geodesic flow kernel for unsupervised domain adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition.Rhode Island:IEEE Computer Society,2012:2066-2073.
[5]TANG S,YE M,LIU Q,et al.Domain adaptation of image classification based on collective target nearest-neighbor representation[J].Journal of Electronic Imaging,2016,25(3):033006.
[6]LI X,F(xiàn)ANG M,ZHANG J J,et al.Sample selection for visual domain adaptation via sparse coding[J].Signal Processing Image Communication,2016,44:92-100.
[7]BENDAVID S,BLITZER J,CRAMMER K,et al.A theory of learning from different domains[J].Machine Learning,2010,79(1/2):151-175.
[8]BRUZZONE L,MARCONCINI M.Domain adaptation problems:a dasvm classification technique and a circular validation strategy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(5):770-787.
[9]SEAH C W,ONG Y S,TSANG I W.Combating negative transfer from predictive distribution differences[J].IEEE Transactions on Cybernetics,2013,43(4):1153-1165.
[10]NI J,QIU Q,CHELLAPPA R.Subspace interpolation via dictionary learning for unsupervised domain adaptation[C]//Computer Vision and Pattern Recognition.Portland:IEEE Computer Society,2013:692-699.
[11]SHEKHAR S,PATEL V M,NGUYEN H V,et al.Generalized domain-adaptive dictionaries[C]//IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE Computer Society,2013:361-368.
[12]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[13]LU B,CHELLAPPA R,NASRABADI N M.Incremental dictionary learning for unsupervised domain adaptation[C]//BMVC.Swansea:BMVA,2015:108.1-108.12.
[14]GONG B,SHI Y,SHA F,et al.Geodesic flow kernel for unsupervised domain adaptation[C]//Computer Vision and Pattern Recognition.Rhode Island:IEEE Computer Society,2012:2066-2073.
[15]BOIMAN O,SHECHTMAN E,Irani M.In defense of nearest-neighbor based image classification[C]//Computer Vision and Pattern Recognition.Anchorage:IEEE Computer Society,2008:1-8.
[16]GOPALAN R,LI R,CHELLAPPA R.Domain adaptation for object recognition:An unsupervised approach[C]//IEEE International Conference on Computer Vision.Barelona:IEEE Computer Society,2011:999-1006.
[17]TOMMASI T,CAPUTO B.Frustratingly easy nbnn domain adaptation[C]//IEEE International Conference on Computer Vision.Sydney:IEEE Computer Society,2013:897-904.