楊建偉,嚴(yán)振華,王彩玲
摘? 要: 為了提高無(wú)監(jiān)督嵌入學(xué)習(xí)對(duì)圖像特征的判別能力,提出一種基于深度聚類的無(wú)監(jiān)督學(xué)習(xí)方法。通過(guò)對(duì)圖像的嵌入特征進(jìn)行聚類,獲得圖像之間的偽類別信息,然后最小化聚類損失來(lái)優(yōu)化網(wǎng)絡(luò)模型,使得模型能夠?qū)W習(xí)到圖像的高判別性特征。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的圖像檢索性能表明了該方法的有效性,并且優(yōu)于目前大多數(shù)方法。
關(guān)鍵詞: 無(wú)監(jiān)督學(xué)習(xí); 嵌入學(xué)習(xí); 深度聚類
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)01-19-03
Unsupervised feature embedding learning via deep clustering
Yang Jianwei1, Yan Zhenhua2, Wang Cailing1
(1. School of Automation of Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu, 210023, China;
2. Wuerth Electronic Tianjin Co,.ltd.)
Abstract: In order to improve the ability of unsupervised embedding learning to distinguish image features, an unsupervised method based on deep clustering is proposed. By clustering the embedded features of images, the pseudo category information between images is obtained, and then the clustering loss is minimized to optimize the network model, so that the model can learn the high discriminant features of images. The performance of image retrieval on three standard data sets shows that the proposed method is effective and better than most of the current methods.
Key words: unsupervised learning; embedding learning; deep clustering
0 引言
深度嵌入學(xué)習(xí)旨在利用深度神經(jīng)網(wǎng)絡(luò)從圖像中學(xué)習(xí)一種具有判別性的低維嵌入特征,這種嵌入特征具有兩種屬性。①正集中:屬于同一類別的樣本的嵌入特征應(yīng)當(dāng)彼此靠近。②負(fù)分離:屬于不同類別的樣本的嵌入特征應(yīng)當(dāng)盡可能的彼此遠(yuǎn)離[1-5]。隨著深度學(xué)習(xí)的快速發(fā)展,監(jiān)督嵌入學(xué)習(xí)在許多計(jì)算機(jī)視覺任務(wù)上展現(xiàn)出了優(yōu)異的表現(xiàn),如圖像檢索[6-8],人臉識(shí)別[9],目標(biāo)跟蹤[10]以及行人重識(shí)別[11-12]等。為了獲得更好的性能表現(xiàn),監(jiān)督嵌入學(xué)習(xí)需要依賴于大規(guī)模標(biāo)記數(shù)據(jù)。然而,為不同的視覺任務(wù)收集和標(biāo)注大規(guī)模數(shù)據(jù)集耗費(fèi)了大量的人力物力,尤其對(duì)于細(xì)粒度圖像數(shù)據(jù)集的標(biāo)注,更是需要領(lǐng)域內(nèi)的專家才能完成。因此,以無(wú)監(jiān)督的方式直接、自動(dòng)地對(duì)圖像進(jìn)行特征學(xué)習(xí)是一項(xiàng)非常重要而又富有挑戰(zhàn)性的任務(wù),且已經(jīng)成為機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。
無(wú)監(jiān)督嵌入學(xué)習(xí)要求學(xué)習(xí)到的嵌入特征之間的相似性與輸入樣本的視覺相似性或類別關(guān)系保持一致。MOM[13]是最早被提出的用于無(wú)監(jiān)督嵌入學(xué)習(xí)的方法,它以完全無(wú)監(jiān)督的形式在流形空間中挖掘正負(fù)樣本。然而,這種方法嚴(yán)重依賴于網(wǎng)絡(luò)的初始化表征。AND[14]通過(guò)挖掘最近鄰樣本來(lái)改善樣本之間的相似性,但是,最近鄰?fù)诰驎?huì)不可避免的引入錯(cuò)誤樣本。最近,基于實(shí)例監(jiān)督的方法在無(wú)監(jiān)督嵌入學(xué)習(xí)中流行起來(lái)。例如,ISIF[15]和PSLR[16]把每個(gè)樣本實(shí)例及其增強(qiáng)之后的樣本看成是一個(gè)單獨(dú)的類,不同的實(shí)例看成是負(fù)樣本,在Softmax函數(shù)上直接優(yōu)化實(shí)例特征。然而,這類方法只能提供有限的監(jiān)督信號(hào),并且容易使模型發(fā)生過(guò)擬合現(xiàn)象。
本文為無(wú)監(jiān)督嵌入學(xué)習(xí)提出了一種深度聚類框架,通過(guò)對(duì)圖像嵌入特征進(jìn)行聚類,從而獲得圖像之間的偽類別信息,然后最小化聚類損失來(lái)優(yōu)化網(wǎng)絡(luò)模型,從而達(dá)到正集中和負(fù)分離的目的。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上做了大量的實(shí)驗(yàn),結(jié)果表明本文提出的方法提高了模型對(duì)圖像的判別能力,性能優(yōu)于目前大多數(shù)方法。
1 深度聚類
給定一個(gè)無(wú)標(biāo)注的圖像集合[X={x1,x2,…,xn}],我們的目標(biāo)是訓(xùn)練一個(gè)特征提取網(wǎng)絡(luò)[fθ(?)],該網(wǎng)絡(luò)將輸入圖像[xi]映射成一個(gè)具有高判別性的嵌入特征[fθ(xi)∈Rl],其中[θ]是網(wǎng)絡(luò)參數(shù),[l]是特征維度。所有的特征都被[l2]規(guī)范化,即[||fθ(xi)||=1]。良好的嵌入特征需要滿足正集中和負(fù)分離兩個(gè)特點(diǎn)。
在監(jiān)督嵌入學(xué)習(xí)中,通常采用在ImageNet[17]上預(yù)訓(xùn)練的網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),原因在于它能提供良好的監(jiān)督信號(hào)。我們的思想是利用這種信號(hào)將嵌入空間的特征聚成[k]個(gè)類。第一步,從嵌入空間[Rl]中任選一個(gè)特征[fθ(xi)]作為第一個(gè)初始化中心。第二步,為了避免空類,盡量選擇與已有的[m]個(gè)中心距離較遠(yuǎn)的特征作為下一個(gè)中心,采用歐式距離表示為:
[D(i)=minfθ(xi)-cj2,? ?j=1, 2, …, m]? ⑴
因此,一個(gè)特征被選為下一個(gè)中心的概率為:
[P(i)=D(i)2i=1nD(i)2] ⑵
第三步,重復(fù)第二個(gè)步驟直到選擇出[k]個(gè)中心[C=c1,c2,…,ck]。通過(guò)解決以下問(wèn)題來(lái)共同學(xué)習(xí)一個(gè)[l×k]的中心矩陣[C]和圖像的偽標(biāo)簽[yi]:
[minC∈Rl×k1ni=1nminyi∈{0,1}kfθ(xi)-Cyi22]
[s.t.? ? yΤi1k=1] ⑶
從而,得到了一組最優(yōu)的類中心[C*]和偽標(biāo)簽[y*i]。
在嵌入特征空間中,我們希望類內(nèi)樣本特征是緊湊的,并且類和類之間有很大的間隔。因此,對(duì)于任一特征[fθ(xi)],找到與之距離最近的類中心,記為[c+],它們之間的距離記為[d+=fθ(xi)-c+2],接著找到與之距離第二近的類中心,記為[c-],它們之間的距離記為[d-=fθ(xi)-c-2]。如果比值[d+/d-]越小,則特征更具有判別力。因此,聚類損失定義為:
[Lc=1Ni=1nfθ(xi)-c+2fθ(xi)-c-2]? ⑷
在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)和圖像特征逐步更新,聚類中心每20 Epochs 更新一次。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集介紹
本文采用CUB200[18],Cars196[19]和SOP[20]三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)評(píng)估所提出的方法。CUB200是一個(gè)包含200個(gè)類別的鳥類圖像數(shù)據(jù)集,其中前100個(gè)類用來(lái)訓(xùn)練,剩余100個(gè)類用來(lái)測(cè)試。Cars196是一個(gè)包含196個(gè)類別的汽車類圖像數(shù)據(jù)集。其中前98個(gè)類用來(lái)訓(xùn)練,其余98個(gè)類用來(lái)測(cè)試。SOP是一個(gè)包含22634個(gè)類別的大規(guī)模產(chǎn)品數(shù)據(jù)集,其中前11318個(gè)類別用來(lái)訓(xùn)練,其余11316個(gè)類別用來(lái)測(cè)試。
2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)采用在ImageNet上預(yù)訓(xùn)練后的GoogLeNet[21]作為特征提取網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。在網(wǎng)絡(luò)的全局池化層之后加上一個(gè)512維的全連接層作為輸出層。在訓(xùn)練階段,所有圖像被裁剪為227*227大小;在測(cè)試階段,每個(gè)圖像被中心裁剪之后作為測(cè)試輸入。使用0.9動(dòng)量的Adma優(yōu)化器[22]并將權(quán)重衰減設(shè)置為0.0005。對(duì)于聚類模塊,為CUB200和Cars196設(shè)置100個(gè)聚類中心,為SOP設(shè)置10000個(gè)聚類中心。整個(gè)網(wǎng)絡(luò)在NVIDIA GeForce RTX 2080Ti GPUs上訓(xùn)練,采用圖像檢索表現(xiàn)R@K作為標(biāo)準(zhǔn)的評(píng)估度量。
2.3 實(shí)驗(yàn)結(jié)果
表1至表3列舉了在CUB200,Cars196和SOP三個(gè)數(shù)據(jù)集上的定量結(jié)果,可以看出,我們提出的方法在三個(gè)基準(zhǔn)上的表現(xiàn)整體優(yōu)于其他方法。另外,在表3中可以看到,我們的方法在R@1精度指標(biāo)下超過(guò)最新的方法7.2%,進(jìn)一步說(shuō)明了所提方法在大規(guī)模數(shù)據(jù)集上的有效性。
3 結(jié)束語(yǔ)
本文提出了一種基于深度聚類的無(wú)監(jiān)督嵌入學(xué)習(xí)方法,該方法通過(guò)對(duì)圖像特征進(jìn)行聚類,從而獲得圖像間的偽類別信息,然后最小化聚類損失函數(shù),使得網(wǎng)絡(luò)模型輸出具有高判別性的圖像特征。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法有效地改善了無(wú)監(jiān)督嵌入學(xué)習(xí)能力,并且其性能優(yōu)于目前大多數(shù)方法。
參考文獻(xiàn)(References):
[1] Manmatha R, Wu C, Smola A, et, al. Sampling matters in deep embedding learning[C] // IEEE International Conference on Computer Vision (ICCV),2017:2859-2867
[2] Song H, Xiang Y, Jegelka S, and Savarese S, et, al. Deep metric learning via lifted structured feature embedding [C] //IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:4004-4012
[3] Wang X, Han X, Huang W, et, al. Multi-similarity loss with general pair weighting for deep metric learning [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2019:5022-5030
[4] Zhou T, Fu H, Gong C, et, al. Multi-mutual consistency induced transfer subspace learning for human motion segmentation[C] //IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020:10277-10286
[5] Li T, Liang Z, Zhao S, et, al. Self-learning with rectification strategy for human parsing [C] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020
[6] Woo S, Park J, Lee J, et, al. Learning descriptors for object recognition and 3d pose estimation [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:3109-3118
[7] He X, Zhou Y, Zhou Z, et, al. Triplet-center loss for multi-view 3d object retrieval [C] // IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018:1945-1954
[8] Grabner A, Roth P, Lepetit V. 3d pose estimation and 3d model retrieval for objects in the wild [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:3022-3031
[9] Wen Y, Zhang K, Li Z, et, al. A discriminative feature learning approach for deep face recognition [C] // European Conference on Computer Vision (ECCV),2016:499-515
[10] Tao R, Gavves E, Smeulders A. Siamese instance search for tracking [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:1420-1429
[11] Yu R, Dou Z, Bai S, et, al. Hard-aware point-to-set deep metric for person re-identification [C] // European Conference on Computer Vision (ECCV),2018:188-204
[12] Hermans A, Beyer L Leibe B. In defense of the triplet loss for person re-identification[EB/OL].arXiv preprint arXiv:1703.07737,2017
[13] Iscen A, ToliaS G, Avrithis Y, et, al. Mining on manifolds: metric learning without labels [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:7642-7651
[14] Huang J, Dong Q, Gong S, et, al. Unsupervised deep learning by neighbourhood discovery [C] // ACM International Conference on Machine Learning (ICML),2018:7642-7651
[15] Ye M, Zhang X, Yuen P, et, al. Unsupervised embedding learning via invariant and spreading instance feature [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2019:6210-6219
[16] Ye M, Shen J. Probabilistic structural latent representa-tion for unsupervised embedding [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2020:5457-5466
[17] Deng J, Dong W, Socher R, et, al. A large-scale hierarchical image database [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2009:248-255
[18] Wah C, Branson S, Welinder P, et, al. Caltech-UCSD birds 200[R]. California Institute of Technology,2010
[19] Krause J, Stark M, Deng J, et, al. 3D object representations for fine-grained categorization [C] // IEEE International Conference on Computer Vision Workshops (ICCVW),2013:554-561
[20] Khosla A, Jayadevaprakash N, Yao B, et, al. Novel dataset for fine-grained image categorization[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2011
[21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions [C] // IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015
[22] Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. arXiv preprint arXiv:1412.6980,2015