魏秀參,許玉燕,楊健
1.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094;2.高維信息智能感知與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,南京 210094;3.社會(huì)安全圖像與視頻理解江蘇省重點(diǎn)實(shí)驗(yàn)室,南京 210094
細(xì)粒度圖像識(shí)別是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的基礎(chǔ)研究課題,旨在對(duì)某一傳統(tǒng)語義類別下細(xì)粒度級(jí)別的不同子類類別進(jìn)行視覺識(shí)別(Wei等,2019b),如不同子類的狗、不同子類的鳥、不同車型的汽車等。細(xì)粒度圖像識(shí)別是視覺感知嵌入的基礎(chǔ)性工作(Belongie,2017),長(zhǎng)期受到計(jì)算機(jī)視覺界的高度關(guān)注,美國(guó)的斯坦福大學(xué)、加州大學(xué)伯克利分校、哥倫比亞大學(xué)、英國(guó)牛津大學(xué)等一些計(jì)算機(jī)學(xué)科的頂尖單位都是該領(lǐng)域非?;钴S的研究機(jī)構(gòu)(Berg等,2014;Jaderberg等,2016;Khosla等,2011;Zhang等,2014)。細(xì)粒度圖像識(shí)別已廣泛用于智慧零售場(chǎng)景下的商品識(shí)別(Follmann等,2018)、公共安防場(chǎng)景下的車輛(Wei等,2018)及行人重識(shí)別(Yin等,2020)、車型識(shí)別(Krause等,2013)、危險(xiǎn)品檢測(cè)和識(shí)別(Miao等,2019)以及生物多樣性監(jiān)測(cè)(Aodha等,2019)等諸多領(lǐng)域,特別是在智能新經(jīng)濟(jì)和工業(yè)互聯(lián)網(wǎng)的產(chǎn)業(yè)應(yīng)用中展現(xiàn)出巨大實(shí)用價(jià)值。
近年來,細(xì)粒度圖像識(shí)別圍繞如何發(fā)掘圖像中細(xì)微但具有分辨力的物體部件級(jí)別信息,以及獲取具備細(xì)粒度表征能力的圖像表示,發(fā)展出了一系列性能良好的識(shí)別方法,取得了深入的研究進(jìn)展和廣泛的現(xiàn)實(shí)應(yīng)用。但大規(guī)模優(yōu)質(zhì)細(xì)粒度圖像數(shù)據(jù)的獲取需要耗費(fèi)大量人力財(cái)力,尤其在某些特定任務(wù)中還需領(lǐng)域?qū)<覅⑴c圖像標(biāo)注過程,這為細(xì)粒度圖像識(shí)別的推廣和普及帶來了巨大障礙。在互聯(lián)網(wǎng)和大數(shù)據(jù)快速發(fā)展時(shí)期,網(wǎng)絡(luò)監(jiān)督圖像數(shù)據(jù)逐漸成為驅(qū)動(dòng)深度學(xué)習(xí)模型訓(xùn)練的新型數(shù)據(jù)源,網(wǎng)絡(luò)上免費(fèi)的海量數(shù)據(jù)可緩解深度學(xué)習(xí)對(duì)大規(guī)模人工標(biāo)記數(shù)據(jù)集的依賴,增加模型的易用性和推廣性。
本文以細(xì)粒度圖像識(shí)別,特別是網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度識(shí)別為重點(diǎn),介紹相關(guān)數(shù)據(jù)集、任務(wù)特點(diǎn)及挑戰(zhàn)以及基于深度學(xué)習(xí)的經(jīng)典方法和解決方案。此外,回顧了全球首屆網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)下的細(xì)粒度圖像識(shí)別競(jìng)賽,希望通過對(duì)競(jìng)賽相關(guān)情況及冠軍做法的分析,為該領(lǐng)域研究者和相關(guān)行業(yè)從業(yè)者提供一定借鑒。最后,討論和總結(jié)了細(xì)粒度圖像識(shí)別領(lǐng)域的未來發(fā)展趨勢(shì)。
領(lǐng)域內(nèi)已發(fā)布了一系列公開的細(xì)粒度圖像識(shí)別數(shù)據(jù)集,用于統(tǒng)一評(píng)測(cè)相應(yīng)方法的細(xì)粒度識(shí)別精度并推動(dòng)相關(guān)技術(shù)的發(fā)展。本節(jié)圍繞傳統(tǒng)細(xì)粒度圖像識(shí)別數(shù)據(jù)集、傳統(tǒng)網(wǎng)絡(luò)監(jiān)督圖像識(shí)別數(shù)據(jù)集和網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別數(shù)據(jù)集進(jìn)行介紹。
細(xì)粒度圖像識(shí)別是近幾年非常熱門的一個(gè)領(lǐng)域,旨在將傳統(tǒng)語義類別下的大量差異較小的子類別進(jìn)行精確分類。近幾年涌現(xiàn)出很多細(xì)粒度基準(zhǔn)數(shù)據(jù)集,這些數(shù)據(jù)集包含了各個(gè)方面,如圖1所示。其中包括鳥類(van Horn等,2015;Wah等,2011;Berg等,2014)、狗(Khosla等,2011;Sun等,2018)、車輛(Krause等,2013)、飛機(jī)(Maji等,2013)、花朵(Nilsback和Zisserman,2008)、蔬菜(Hou等,2017)、水果(Hou等,2017)、零售商品(Wei等,2019a)等。這些細(xì)粒度基準(zhǔn)數(shù)據(jù)集的建立在一定程度上顯示了當(dāng)代社會(huì)視覺智能的現(xiàn)實(shí)需求。細(xì)粒度基準(zhǔn)數(shù)據(jù)集不僅可以作為衡量模型效果的共同基礎(chǔ),還可將細(xì)粒度識(shí)別領(lǐng)域推向一個(gè)更加實(shí)用的方向。
圖1 細(xì)粒度圖像識(shí)別舉例Fig.1 Examples of fine-grained image recognition((a) car;(b) aircraft;(c) vegetable;(d) retail goods;(e) bird;(f) flower;(g) dog;(h) fruit)
此外,越來越多更實(shí)用、更具有挑戰(zhàn)性的細(xì)粒度數(shù)據(jù)集被逐漸提出。例如,針對(duì)智能零售場(chǎng)景下的細(xì)粒度商品感知的數(shù)據(jù)集(large-scale retail product checkout dataset,RPC)(Wei等,2019a),針對(duì)不同動(dòng)物和植物等自然物種的iNaturalist(van Horn等,2018)。從這些新穎且貼合實(shí)際的數(shù)據(jù)集中可以發(fā)現(xiàn)一些具體的現(xiàn)實(shí)數(shù)據(jù)分布特征,例如大規(guī)模、長(zhǎng)尾分布等。這些數(shù)據(jù)特性及分布特征可以從側(cè)面展示現(xiàn)實(shí)生活中的實(shí)際問題,促進(jìn)模型的學(xué)習(xí),使產(chǎn)生的模型具有更強(qiáng)的實(shí)用性。
為增強(qiáng)數(shù)據(jù)實(shí)用性,同時(shí)減少大規(guī)模數(shù)據(jù)集標(biāo)記帶來的高昂成本,利用網(wǎng)絡(luò)構(gòu)建的數(shù)據(jù)集逐步走進(jìn)人們的視野,經(jīng)典的網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集有WebVision(Li等,2017)、OpenImages(Krasin等,2016)和NUS-WIDE(Chua等,2007)等。其中,WebVision數(shù)據(jù)集的來源主要有兩個(gè),分別是Google和Flickr兩大搜索引擎。具體數(shù)據(jù)集構(gòu)建時(shí)根據(jù)ImageNet中1 000個(gè)類別的文本信息從網(wǎng)站上進(jìn)行圖像數(shù)據(jù)的爬取,獲得WebVision數(shù)據(jù)集中的數(shù)據(jù),即WebVision數(shù)據(jù)集的數(shù)據(jù)類別是與ImageNet完全一致的1 000個(gè)類別。WebVision數(shù)據(jù)集的訓(xùn)練集由240萬幅圖像構(gòu)成,此外,還有5萬幅圖像構(gòu)成的驗(yàn)證集和5萬幅圖像構(gòu)成的測(cè)試集(均帶有人工標(biāo)注)。WebVision數(shù)據(jù)集存在兩個(gè)比較大的挑戰(zhàn):1)數(shù)據(jù)分布不平衡,有的類別樣本數(shù)量高達(dá)11 000幅,而有的樣本數(shù)量小于400幅,這種樣本極度不平衡的現(xiàn)象會(huì)對(duì)訓(xùn)練模型產(chǎn)生較大的不利影響;2)數(shù)據(jù)集中含有大量噪聲數(shù)據(jù),即錯(cuò)誤標(biāo)記或有歧義標(biāo)記的圖像,這對(duì)深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也會(huì)產(chǎn)生較大影響。
與傳統(tǒng)網(wǎng)絡(luò)監(jiān)督圖像識(shí)別數(shù)據(jù)集相比,網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度圖像識(shí)別數(shù)據(jù)除具有網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)的特性外,還存在細(xì)粒度圖像的鮮明特征,即類內(nèi)差異大、類間差異小。在網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別數(shù)據(jù)集的驅(qū)動(dòng)下,不僅可以在一定程度上緩解細(xì)粒度圖像識(shí)別對(duì)海量高質(zhì)數(shù)據(jù)的依賴,而且還有望提高細(xì)粒度識(shí)別技術(shù)的可擴(kuò)展性和實(shí)用性。
目前,該領(lǐng)域規(guī)模最大的數(shù)據(jù)集為WebFG(the webly-supervised fine-grained image recognition)2020(Wei等,2020a),是在2020年亞洲計(jì)算機(jī)視覺會(huì)議(Asian Conference on Computer Vision,ACCV)上舉辦的全球首屆網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度圖像識(shí)別競(jìng)賽中提出的,其訓(xùn)練集和測(cè)試集數(shù)據(jù)全部來自搜索引擎Bing。為使數(shù)據(jù)集更貼合真實(shí)世界,該數(shù)據(jù)集特設(shè)定了包含動(dòng)物、植物、昆蟲的5 000個(gè)類別,訓(xùn)練集圖像有557 169幅。WebFG 2020數(shù)據(jù)集存在3個(gè)主要挑戰(zhàn):1)類內(nèi)差異大,類間差異小,類別多樣,包含廣泛,如圖2(a)所示。2)數(shù)據(jù)集中存在較多噪聲數(shù)據(jù)。因?yàn)閿?shù)據(jù)的來源是網(wǎng)絡(luò),所以存在大量不相關(guān)數(shù)據(jù)和二義性數(shù)據(jù)。此外,數(shù)據(jù)集每一類別中可能混淆其他類別數(shù)據(jù)而造成數(shù)據(jù)集中存在噪聲,如圖2(b)(c)所示。3)類別樣本分布不均衡,具有明顯的長(zhǎng)尾分布,即常見(但少量)的物體類別在視覺圖像中出現(xiàn)的頻次占主導(dǎo)地位,而罕見(卻大量)的物體類別出現(xiàn)的頻次占比微乎其微,如圖3所示。
圖2 WebFG 2020數(shù)據(jù)集Fig.2 The WebFG 2020 dataset ((a) sampled images of the WebFG 2020 dataset;(b) irrelevant/noisy images in the WebFG 2020 dataset;(c) ambiguous images in the WebFG 2020 dataset)
圖3 WebFG 2020數(shù)據(jù)集樣本分布Fig.3 Data distribution of the WebFG 2020 dataset
傳統(tǒng)細(xì)粒度圖像識(shí)別在過去十幾年間發(fā)展迅速,常用數(shù)據(jù)集有動(dòng)物種類(van Horn等,2018)、車輛(Krause等,2013)、水果(Hou等,2017)等。不僅如此,這些細(xì)粒度識(shí)別在現(xiàn)實(shí)生活中皆有廣泛應(yīng)用,細(xì)粒度識(shí)別動(dòng)物種類可以參與到生態(tài)系統(tǒng)保護(hù)中用于識(shí)別生物信息,細(xì)粒度識(shí)別水果等商品可以用于智能零售行業(yè)(Wei等,2019a,2020b)。但因?yàn)楦鱾€(gè)子類別之間區(qū)別較小,并且子類別之間還有較大差異,因此如何精確地進(jìn)行細(xì)粒度圖像識(shí)別是一個(gè)重大挑戰(zhàn)。研究者從不同方面處理細(xì)粒度圖像存在的問題。細(xì)粒度圖像識(shí)別的主要方法有3種范式:1)基于“定位—分類”子網(wǎng)絡(luò)進(jìn)行細(xì)粒度圖像識(shí)別;2)使用端到端特征編碼進(jìn)行細(xì)粒度圖像識(shí)別;3)使用額外信息進(jìn)行細(xì)粒度圖像識(shí)別。其中第1種和第2種范式通過利用細(xì)粒度圖像本身攜帶的圖像標(biāo)簽、邊界框和細(xì)粒度對(duì)象屬性等信息監(jiān)督模型訓(xùn)練。但由于細(xì)粒度的特點(diǎn)和挑戰(zhàn),為進(jìn)一步提升識(shí)別精度,研究人員逐漸嘗試?yán)酶嗟耐獠康畠r(jià)的信息(如網(wǎng)絡(luò)數(shù)據(jù)、文本描述)幫助其進(jìn)行細(xì)粒度識(shí)別,以進(jìn)一步提高準(zhǔn)確性,這就是第3種范式。
為了應(yīng)對(duì)類內(nèi)變化帶來的挑戰(zhàn),研究人員將重點(diǎn)集中在如何捕獲細(xì)粒度對(duì)象具有分辨力的語義部件(part),然后構(gòu)建與最后的分類相對(duì)應(yīng)的中層表示。具體來說,在基于“定位—分類”子網(wǎng)絡(luò)范式下,定位子網(wǎng)是為定位細(xì)粒度對(duì)象的關(guān)鍵部件設(shè)計(jì)的,而分類子網(wǎng)則用于分類,兩個(gè)子網(wǎng)協(xié)同工作最終完成細(xì)粒度識(shí)別任務(wù)。該范式如圖4所示,現(xiàn)有方法可分為3種主要類型:1)基于檢測(cè)或分割技術(shù)的細(xì)粒度識(shí)別;2)基于深度濾波器的細(xì)粒度識(shí)別;3)基于注意力機(jī)制的細(xì)粒度識(shí)別。
2.1.1 基于檢測(cè)或分割技術(shù)的細(xì)粒度識(shí)別
基于檢測(cè)或分割技術(shù)的細(xì)粒度識(shí)別是指采用檢測(cè)或分割技術(shù)定位細(xì)粒度圖像對(duì)應(yīng)的關(guān)鍵區(qū)域,比如鳥類可以定位鳥的頭部、尾巴和翅膀等。根據(jù)邊界框或分割掩碼等局部信息可以獲得更具有辨識(shí)度的中層特征表示,利用這些信息進(jìn)一步提高分類子網(wǎng)的學(xué)習(xí)能力,從而提高最終識(shí)別的準(zhǔn)確率。
這類范式中的早期工作使用了很多額外的對(duì)象部位注釋來定位細(xì)粒度對(duì)象的關(guān)鍵部件。Branson等人(2014)利用一組檢測(cè)到對(duì)象部位的關(guān)鍵點(diǎn)來計(jì)算多個(gè)圖像區(qū)域,進(jìn)一步通過位姿歸一化得到相應(yīng)的部件級(jí)特征。Zhang等人(2014)首先提出了基于部件級(jí)別的包圍框注釋,然后訓(xùn)練一個(gè)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-convolutional neural network,R-CNN)(Girshick等,2014)模型作為關(guān)鍵區(qū)域檢測(cè)器。與檢測(cè)技術(shù)相比,語義分割有更準(zhǔn)確的局部定位效果(Wei等,2018),因?yàn)榉指畲媪舜植诘倪吔缈蜃⑨?,是在更?xì)粒度的像素級(jí)水平上完成的。然而,使用傳統(tǒng)的檢測(cè)器或分割模型需要密集的部件級(jí)標(biāo)記進(jìn)行訓(xùn)練,這會(huì)嚴(yán)重影響細(xì)粒度圖像識(shí)別的可擴(kuò)展性。因此,只使用圖像級(jí)標(biāo)簽(Zhang等,2016b;He和Peng,2017;Ge等,2019;Wang等,2020;Liu等,2020)進(jìn)行準(zhǔn)確定位細(xì)粒度零件的方法相繼提出,且逐漸成為熱點(diǎn)。由于這類方法只使用圖像級(jí)標(biāo)簽,故稱為“弱監(jiān)督”細(xì)粒度圖像識(shí)別方法。除此之外,一些方法試圖通過學(xué)習(xí)部件級(jí)特征之間的相互關(guān)系來獲得更強(qiáng)大、更泛化的細(xì)粒度圖像表示,通過執(zhí)行不同的特征融合策略來聯(lián)合局部特征進(jìn)行學(xué)習(xí),例如長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Lam等,2017;Ge等,2019)、圖(Wang等,2020)或知識(shí)蒸餾(Liu等,2020),結(jié)果表明這比以往獨(dú)立的局部特征學(xué)習(xí)有更高的識(shí)別精度。
2.1.2 基于深度濾波器的細(xì)粒度識(shí)別
在深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)中,深度濾波器指的是在卷積層學(xué)習(xí)的權(quán)重。研究人員發(fā)現(xiàn),中間的CNN輸出能夠連接公共對(duì)象的語義部分(Zeiler和Fergus,2014),因此人們嘗試使用濾波器輸出作為部件探測(cè)器(Zhang等,2016a;Wang等,2018;Ding等,2019;Huang和Li,2020)。依靠它們進(jìn)行細(xì)粒度識(shí)別的一個(gè)主要優(yōu)點(diǎn)就是不需要任何部件級(jí)別的標(biāo)記。Xiao等人(2015)利用譜聚類將深度濾波器聚成多組,然后利用濾波器組作為部件檢測(cè)器。此外,為了便于檢測(cè)和分類學(xué)習(xí),還開發(fā)了統(tǒng)一的端到端訓(xùn)練的細(xì)粒度模型(Wang等,2018;Ding等,2019;Huang和Li,2020)。結(jié)果表明,該模型可顯著提升識(shí)別精度。
2.1.3 基于注意力機(jī)制的細(xì)粒度識(shí)別
雖然之前細(xì)粒度的局部化分類方法已經(jīng)表現(xiàn)出很強(qiáng)的分類性能,但其主要缺點(diǎn)在于對(duì)象的部件需要有監(jiān)督信息。而在許多現(xiàn)實(shí)應(yīng)用任務(wù)中可能很難定義某一對(duì)象的某些部件,例如非結(jié)構(gòu)化對(duì)象食物(Bossard等,2014)或花朵(Nilsback和Zisserman,2008)。相比前面的方法,更自然的尋找局部位置的解決方案就是利用注意力機(jī)制(Itti等,1998)作為子模塊。這使得CNN關(guān)注細(xì)粒度對(duì)象的定義區(qū)域,因此注意力機(jī)制成為一個(gè)有前途的方向。
眾所周知,注意力在人類的感知中起著非常重要的作用(Itti等,1998)。根據(jù)這一特點(diǎn),F(xiàn)u等人(2017)和Zheng等人(2017)率先采用注意力機(jī)制提高細(xì)粒度物體識(shí)別的準(zhǔn)確率。Peng等人(2018)和Zheng等人(2020)提出了多層級(jí)的注意力模型,從而獲得分層的注意信息(即對(duì)象級(jí)和部件級(jí))。Yan等人(2017)利用屬性引導(dǎo)的注意力機(jī)制提取圖像特征,從而提高細(xì)粒度圖像識(shí)別的準(zhǔn)確率。Sun等人(2018)合并通道注意力并進(jìn)行度量學(xué)習(xí),從而加強(qiáng)不同參與區(qū)域之間的相關(guān)性。Zheng等人(2019)開發(fā)了一種多線性注意力采樣網(wǎng)絡(luò),主要作用是在數(shù)百個(gè)關(guān)鍵區(qū)域中學(xué)習(xí)細(xì)粒度特征并有效地提取到一個(gè)CNN中。Ji等人(2020)提出了一種基于卷積二叉神經(jīng)樹的注意力機(jī)制,將注意力機(jī)制和樹結(jié)構(gòu)相結(jié)合,以方便模型由粗到細(xì)分層次進(jìn)行細(xì)粒度特征的學(xué)習(xí)。此外,Cui等人(2020)利用注意力機(jī)制獲取局部和全局的特征,并利用哈希進(jìn)行分類,對(duì)提升圖像檢索識(shí)別效率起到了促進(jìn)作用。需要指出的是,雖然注意力機(jī)制在細(xì)粒度識(shí)別中取得了很高的精度,但是它往往會(huì)過擬合,尤其對(duì)小規(guī)模數(shù)據(jù)過擬合的風(fēng)險(xiǎn)更高。
另一種細(xì)粒度識(shí)別范式是端到端特征編碼,與其他視覺任務(wù)一樣,特征學(xué)習(xí)在細(xì)粒度識(shí)別中也起著十分重要的作用。因?yàn)樽宇悇e之間的差異通常較小,用全連接層捕獲全局語義信息限制了細(xì)粒度模型的表達(dá)能力,從而影響了最終的細(xì)粒度圖像識(shí)別。基于端到端特征編碼的細(xì)粒度識(shí)別范式如圖5所示。目前提出的方法主要有以下3種:1)基于高階特征編碼的細(xì)粒度識(shí)別;2)設(shè)計(jì)新的損失函數(shù)的細(xì)粒度識(shí)別;3)其他細(xì)粒度識(shí)別方法。
圖5 基于端到端特征編碼的細(xì)粒度識(shí)別范式Fig.5 Illustration of fine-grained recognition based on end-to-end feature encoding
2.2.1 基于高階特征編碼的細(xì)粒度識(shí)別
特征學(xué)習(xí)幾乎在所有視覺任務(wù)中都扮演著至關(guān)重要的角色。深度卷積網(wǎng)絡(luò)的成功主要是因?yàn)閷W(xué)習(xí)圖像中的深度特征。在深度學(xué)習(xí)的初始階段,全連接層的特征通常用做圖像表示,之后發(fā)現(xiàn)頂部卷積層的特征映射包含更加豐富的信息(如對(duì)象的整體和局部信息),使得卷積特征(Liu等,2015;Xu等,2015)廣泛使用。與全連接輸出相比,卷積神經(jīng)網(wǎng)絡(luò)上的編碼技術(shù)顯著改善了細(xì)粒度圖像識(shí)別的結(jié)果(Cimpoi等,2015;Xu等,2015)。在某種程度上,這些改進(jìn)的編碼技術(shù)來自于最終特征的高階統(tǒng)計(jì)編碼。
基于協(xié)方差矩陣的表示(Wang等,2015)是一種具有代表性的高階特征交互技術(shù),目前已在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)中得到應(yīng)用。在過去的幾年里,通過將基于協(xié)方差矩陣的表示與深度特征表示相結(jié)合,在細(xì)粒度識(shí)別中表現(xiàn)出良好的準(zhǔn)確性。其中最具代表性的方法就是雙線性卷積神經(jīng)網(wǎng)絡(luò),它將圖像表示為兩個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),然后解碼二階統(tǒng)計(jì)編碼,該方法使細(xì)粒度識(shí)別有明顯改善。但是這個(gè)方法會(huì)導(dǎo)致過擬合,在大規(guī)模數(shù)據(jù)集上表現(xiàn)尤為突出。為了解決這個(gè)問題,Gao等人(2016)應(yīng)用Tensor Sketch來減少特征維度。Kong和Fowlkes(2017)提出了對(duì)協(xié)方差矩陣的低秩逼近和低秩雙線性分類器,由此產(chǎn)生的分類器無需顯式計(jì)算雙線性特征矩陣的參數(shù)便可進(jìn)行評(píng)估。Li等人(2017)利用低秩約束和二次變化模擬成對(duì)特征的相互作用。Yu等人(2018)在雙線性映射前采用降維投影來緩解維數(shù)爆炸問題。除了這些方法,有些方法還試圖捕獲更高階數(shù)的特征以產(chǎn)生更強(qiáng)的表示。Cui等人(2017)提出了一種通過特征映射捕獲任意有序和非線性特征的核池化方法。
2.2.2 基于新型損失函數(shù)的細(xì)粒度識(shí)別
損失函數(shù)在深度網(wǎng)絡(luò)的構(gòu)建中起著重要的作用,它可以直接影響分類結(jié)果和模型功能,因此,設(shè)計(jì)細(xì)粒度專有的損失函數(shù)也是細(xì)粒度識(shí)別的一個(gè)重要方向。
不同于一般的圖像識(shí)別,在細(xì)粒度分類中,類間樣本在視覺上可能會(huì)非常相似,遵循這一原理,Dubey等人(2018)使用兩兩混淆優(yōu)化程序,以解決過度擬合和樣本特定的細(xì)粒度識(shí)別,隨后降低其預(yù)測(cè)過度的置信度,從而提高泛化能力。人類可以通過比較圖像來有效地進(jìn)行識(shí)別,而這種對(duì)比學(xué)習(xí)在細(xì)粒度識(shí)別中也很常見。Sun等人(2018)首先學(xué)習(xí)了多個(gè)部件對(duì)應(yīng)的注意力區(qū)域,然后利用度量學(xué)習(xí)將相同注意的同類特征拉近,同時(shí)將不同注意或者不同的類特征推遠(yuǎn),此外,在訓(xùn)練過程中,Sun等人(2018)方法還可以增強(qiáng)不同對(duì)象之間的相關(guān)性。注意力成對(duì)交互網(wǎng)絡(luò)(attentive pairwise interaction net,API-Net)(Zhuang等,2020)也是建立在度量學(xué)習(xí)框架之上的一種方法,它可以自適應(yīng)地從一對(duì)圖像中發(fā)現(xiàn)對(duì)比線索,并通過兩兩注意力的交互來區(qū)分它們。除此之外,設(shè)計(jì)一個(gè)單一的損失函數(shù)定位局部區(qū)域并進(jìn)一步強(qiáng)化圖像級(jí)別的表示也逐漸成為研究熱點(diǎn)。Sun等人(2020)提出了一個(gè)基于梯度的損失函數(shù)和一個(gè)迫使網(wǎng)絡(luò)快速區(qū)分類別的模塊,可較好地分辨模糊和混淆的細(xì)粒度類別。
2.2.3 其他細(xì)粒度識(shí)別方法
除上述方法,還有其他一些提高細(xì)粒度識(shí)別準(zhǔn)確率的方法。Zhou和Lin(2016)提出將二分圖標(biāo)簽放入卷積神經(jīng)網(wǎng)絡(luò)模型中用以訓(xùn)練細(xì)粒度類別之間的重要關(guān)系。Xiong等人(2020)提出一種更直接的細(xì)粒度特征學(xué)習(xí)方法,即制定細(xì)粒度圖像的對(duì)抗性學(xué)習(xí)方式,從而直接獲得一個(gè)統(tǒng)一的粗粒度圖像表示。這種直接的特征學(xué)習(xí)方式不僅保留了生成圖像的特性也顯著提高了視覺識(shí)別性能。
除了傳統(tǒng)的識(shí)別范式,另一種范式是利用外部信息,例如網(wǎng)絡(luò)數(shù)據(jù)、多模態(tài)數(shù)據(jù)或人機(jī)交互等,以進(jìn)一步幫助細(xì)粒度識(shí)別。圖6展示了基于額外信息的細(xì)粒度識(shí)別范式,主要包括基于網(wǎng)絡(luò)數(shù)據(jù)的細(xì)粒度識(shí)別、基于多模態(tài)數(shù)據(jù)的細(xì)粒度識(shí)別和基于“人在回路”的細(xì)粒度識(shí)別。
圖6 基于額外信息的細(xì)粒度識(shí)別范式Fig.6 Illustration of fine-grained recognition based on external information
2.3.1 基于網(wǎng)絡(luò)數(shù)據(jù)的細(xì)粒度識(shí)別
為了提高細(xì)粒度圖像識(shí)別的準(zhǔn)確率,通常需要海量且標(biāo)注良好的圖像作為數(shù)據(jù)集。然而,海量高質(zhì)數(shù)據(jù)的標(biāo)注需要耗費(fèi)大量的成本。與此同時(shí),網(wǎng)絡(luò)數(shù)據(jù)在細(xì)粒度識(shí)別上展現(xiàn)出的卓越成果(Krause等,2016)讓學(xué)者們將研究目光放在了如何使用網(wǎng)絡(luò)數(shù)據(jù)上?;诰W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行細(xì)粒度圖像識(shí)別大致分為兩個(gè)方向。第一個(gè)方向是利用網(wǎng)絡(luò)上免費(fèi)卻含有噪聲的數(shù)據(jù),通過收集整理生成數(shù)據(jù)集進(jìn)行訓(xùn)練來提高細(xì)粒度圖像識(shí)別的正確率。該方法稱為網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)(webly-supervised learning)。網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)方法主要集中在消除網(wǎng)絡(luò)數(shù)據(jù)和標(biāo)注良好的標(biāo)準(zhǔn)數(shù)據(jù)集之間的差距,從而減輕網(wǎng)絡(luò)數(shù)據(jù)集中噪聲數(shù)據(jù)帶來的負(fù)面影響。為了解決因網(wǎng)絡(luò)數(shù)據(jù)集特性產(chǎn)生的問題,學(xué)者們頻繁使用對(duì)抗學(xué)習(xí)的深度學(xué)習(xí)技術(shù)(Goodfellow等,2014)和注意力機(jī)制(Zhuang等,2017)作為解決方法。第二個(gè)方向是利用標(biāo)記良好的輔助類作為訓(xùn)練集轉(zhuǎn)移知識(shí),其通常應(yīng)用于零樣本學(xué)習(xí)(Niu等,2018)或元學(xué)習(xí)(Zhang等,2018a)。
2.3.2 基于多模態(tài)數(shù)據(jù)的細(xì)粒度識(shí)別
隨著多媒體數(shù)據(jù)的快速增長(zhǎng),如何利用多媒體數(shù)據(jù)進(jìn)行細(xì)粒度識(shí)別也引起了廣泛關(guān)注。與網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)不同,基于多模態(tài)數(shù)據(jù)的細(xì)粒度識(shí)別是利用文本信息或知識(shí)圖譜等多媒體數(shù)據(jù)來幫助模型進(jìn)行細(xì)粒度識(shí)別,從而提高細(xì)粒度的識(shí)別精度。經(jīng)常使用的多模態(tài)數(shù)據(jù)包括文本描述(例如自然語言的句子和短語)和圖結(jié)構(gòu)的知識(shí)庫(kù)。與基于部分注釋的強(qiáng)監(jiān)督細(xì)粒度圖像識(shí)別相比,多模態(tài)數(shù)據(jù)屬于弱監(jiān)督類型。除此之外,多模態(tài)數(shù)據(jù)中的內(nèi)容(如文本描述)可以不需要領(lǐng)域?qū)<疫M(jìn)行標(biāo)注,普通人也可以利用自己掌握的知識(shí)進(jìn)行相對(duì)準(zhǔn)確地反饋。圖結(jié)構(gòu)的知識(shí)庫(kù)中,高階知識(shí)圖譜(high-level knowledge graphs)是一種常用的資源,其包含豐富專業(yè)知識(shí)可以為細(xì)粒度識(shí)別提供較好的輔助指導(dǎo),如DBpedia(Lehmann等,2015)。Reed等人(2016)收集文本描述,并引入了一種結(jié)構(gòu)化的聯(lián)合嵌入,通過組合文本和圖像來實(shí)現(xiàn)零樣本細(xì)粒度圖像識(shí)別。He和Peng(2017)以端到端的聯(lián)合訓(xùn)練方式將視覺和語音流結(jié)合起來,從而生成互補(bǔ)的細(xì)粒度表示。
2.3.3 基于“人在回路”的細(xì)粒度識(shí)別
“人在回路”的細(xì)粒度識(shí)別通常是一個(gè)由機(jī)器和人類用戶組成的迭代系統(tǒng),結(jié)合了人的智慧引導(dǎo)和機(jī)器的智能,要求系統(tǒng)盡可能以人類勞動(dòng)的方式工作。一般來說,對(duì)于這些類型的識(shí)別方法,每輪中的系統(tǒng)都在尋求理解人類如何執(zhí)行識(shí)別。例如,通過要求未訓(xùn)練的人類標(biāo)記圖像類別并挑選樣例(Cui等,2016),或者通過識(shí)別關(guān)鍵部位定位并選擇辨別特征(Jia等,2016)來進(jìn)行細(xì)粒度識(shí)別。
為緩解細(xì)粒度圖像識(shí)別對(duì)高質(zhì)海量數(shù)據(jù)的依賴,基于免費(fèi)網(wǎng)絡(luò)圖像的網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別逐漸引起學(xué)界和業(yè)界研究者的關(guān)注。而目前網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度圖像識(shí)別尚處于起步階段,本節(jié)將首先介紹網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別的主要特點(diǎn)及挑戰(zhàn),之后分別針對(duì)這些挑戰(zhàn)介紹相應(yīng)解決方案。
與傳統(tǒng)細(xì)粒度圖像識(shí)別一樣,因不同類別之間存在的差異較小,如何準(zhǔn)確高效地識(shí)別不同的類別依舊是一項(xiàng)非常重要的挑戰(zhàn)。除此以外,網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別還有其獨(dú)特的挑戰(zhàn)。
網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別數(shù)據(jù)集中的圖像來源于網(wǎng)絡(luò),由于網(wǎng)絡(luò)中數(shù)據(jù)查找的問題,搜尋到的數(shù)據(jù)存在嚴(yán)重的噪聲數(shù)據(jù),而深度神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的精確性與具有高質(zhì)量標(biāo)注的大規(guī)模數(shù)據(jù)集有著十分密切的關(guān)系,利用含有噪聲數(shù)據(jù)的訓(xùn)練集進(jìn)行訓(xùn)練會(huì)嚴(yán)重影響在無噪聲數(shù)據(jù)的測(cè)試集上的準(zhǔn)確率。
數(shù)據(jù)集中的噪聲數(shù)據(jù)一般分為不相關(guān)數(shù)據(jù)和二義性數(shù)據(jù)兩種。不相關(guān)數(shù)據(jù)是指該圖像與所屬類別的圖像沒有任何關(guān)系,即標(biāo)簽錯(cuò)誤的數(shù)據(jù)。例如在ACCV WebFG 2020競(jìng)賽(Wei等,2020a)中的不相關(guān)圖像(圖2(b))有地圖、表格、指示符和論文截圖等。這種情況就需要對(duì)含有噪聲的數(shù)據(jù)集進(jìn)行“清洗”,保留有用數(shù)據(jù)。二義性數(shù)據(jù)是指數(shù)據(jù)中含有多個(gè)類別物體的圖像,標(biāo)簽無法確定類屬于哪一個(gè)物體。例如在ACCV WebFG 2020競(jìng)賽中訓(xùn)練集的二義性圖像(圖2(c))中包含兩種魚類,但是圖像卻僅存在一種類別中,標(biāo)注的類別究竟指向哪一類并沒有明確說明。還有的圖包含一只昆蟲和一朵花,圖像也同樣只存在于一個(gè)類別中,標(biāo)注沒有具體說明指向的是花還是昆蟲。這樣的二義性問題會(huì)影響模型的訓(xùn)練。
網(wǎng)絡(luò)是人類創(chuàng)造的最大的公共數(shù)據(jù)集,在這個(gè)龐大的數(shù)據(jù)集中,提取到的數(shù)據(jù)必然會(huì)存在質(zhì)量上的問題,即數(shù)據(jù)偏差。在網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)是由人們以自己的意識(shí)生成的,在生成過程中必然會(huì)受到各方面因素(如文化、政治和環(huán)境等)的影響。在細(xì)粒度數(shù)據(jù)集中的表現(xiàn)尤為突出,由于細(xì)粒度數(shù)據(jù)集中各個(gè)類別區(qū)別不大,網(wǎng)絡(luò)中數(shù)據(jù)的發(fā)布者因?yàn)樽陨硪蛩貙?shù)據(jù)錯(cuò)認(rèn)從而產(chǎn)生數(shù)據(jù)偏差這一問題更是常見。此外,網(wǎng)絡(luò)數(shù)據(jù)集中數(shù)據(jù)發(fā)布者根據(jù)自身喜好,在同一環(huán)境同一角度發(fā)布同一數(shù)據(jù)的情況也經(jīng)常發(fā)生,這必將對(duì)模型訓(xùn)練產(chǎn)生影響。
長(zhǎng)尾分布是指少數(shù)類的樣本數(shù)量龐大而多數(shù)類的樣本量較小的數(shù)據(jù)分布現(xiàn)象,這一現(xiàn)象非常契合真實(shí)世界的情況。在真實(shí)世界中隨處可見的動(dòng)植物只占很少的一部分,還有很大一部分的動(dòng)植物是在正常生活中見不到的,這種情況反推到網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)集中也是一樣的道理。網(wǎng)絡(luò)中的圖像也需要人為拍攝采集,尾部數(shù)據(jù)在日常生活中稀有,拍攝的圖像少。當(dāng)利用網(wǎng)絡(luò)構(gòu)建一個(gè)類別的細(xì)粒度數(shù)據(jù)集時(shí),網(wǎng)絡(luò)中存在比較多的是日常中常見的細(xì)粒度類別,從而構(gòu)造時(shí)會(huì)產(chǎn)生存在長(zhǎng)尾分布的網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)集。直接利用呈現(xiàn)長(zhǎng)尾分布的網(wǎng)絡(luò)數(shù)據(jù)來訓(xùn)練模型往往會(huì)對(duì)頭部數(shù)據(jù)過擬合,從而在預(yù)測(cè)時(shí)忽略尾部的類別,影響模型的準(zhǔn)確率。
由以上分析可知,網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度圖像識(shí)別主要挑戰(zhàn)有以下幾個(gè)方面:1)細(xì)粒度圖像普遍存在類間差異小、類內(nèi)差異大的特點(diǎn),如何準(zhǔn)確地對(duì)細(xì)粒度類別進(jìn)行精準(zhǔn)的判定,在當(dāng)前仍是一個(gè)極大挑戰(zhàn)。2)網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)集中存在較多的噪聲數(shù)據(jù),過多的噪聲數(shù)據(jù)會(huì)影響模型的訓(xùn)練,從而影響結(jié)果的判定。如何去除噪聲數(shù)據(jù)的影響,使模型較好地完成識(shí)別任務(wù)是目前存在的另一大挑戰(zhàn)。3)網(wǎng)絡(luò)中的數(shù)據(jù)會(huì)因人的主觀因素產(chǎn)生數(shù)據(jù)偏差,存在偏差的數(shù)據(jù)加上細(xì)粒度類別之間相似程度高的特性,在很大程度上影響細(xì)粒度圖像的識(shí)別。4)自然界存在的長(zhǎng)尾分布特點(diǎn)會(huì)映射到網(wǎng)絡(luò)中,使網(wǎng)絡(luò)中的數(shù)據(jù)存在長(zhǎng)尾分布,從而導(dǎo)致數(shù)據(jù)存在過擬合問題,影響模型的識(shí)別精度。
解決數(shù)據(jù)集中存在的噪聲數(shù)據(jù)問題主要有兩種方式,分別是聚類和交叉驗(yàn)證。
3.2.1 聚類
聚類就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)將一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí),不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能大。根據(jù)這一特性可以將數(shù)據(jù)集中的噪聲數(shù)據(jù)與真實(shí)數(shù)據(jù)分開,從而達(dá)到清洗數(shù)據(jù)集的效果。聚類方法分為傳統(tǒng)聚類方法和現(xiàn)代聚類方法。傳統(tǒng)聚類方法主要有基于劃分的聚類、基于層次的聚類、基于密度的聚類、基于網(wǎng)格的聚類、基于分形理論的聚類和基于模型的聚類?,F(xiàn)代聚類方法主要有核聚類算法和大規(guī)模數(shù)據(jù)的聚類等。
基于劃分的聚類算法(MacQueen,1967)的基本思想是將數(shù)據(jù)點(diǎn)的中心作為對(duì)應(yīng)聚類的中心。但是該算法對(duì)離群值相對(duì)敏感,容易陷入局部最優(yōu),且聚類數(shù)需要預(yù)設(shè),聚類結(jié)果對(duì)聚類數(shù)敏感,不適合網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)的“清洗”工作。
基于層次的聚類算法(Guha等,1998;Jafarzadegan等,2019)的基本思想是構(gòu)造數(shù)據(jù)之間的層次關(guān)系,以便進(jìn)行聚類。假設(shè)每個(gè)數(shù)據(jù)點(diǎn)一開始代表一個(gè)單獨(dú)的簇,然后,最相鄰的兩個(gè)簇合并成一個(gè)新的簇,直到只剩下一個(gè)簇,或者構(gòu)造其反向過程。該算法適用于任意形狀和任意類型屬性的數(shù)據(jù)集,聚類之間的層次關(guān)系容易檢測(cè),一般可擴(kuò)展性較高,但是時(shí)間復(fù)雜度相對(duì)較高,集群數(shù)量一般需要預(yù)設(shè)。
基于密度的聚類算法(Kriegel等,2011)的基本思想是認(rèn)為位于數(shù)據(jù)空間高密度區(qū)域的數(shù)據(jù)屬于同一個(gè)聚類。Corizzo等人(2019)利用密度聚類實(shí)現(xiàn)了一種分布式算法,從而利用已識(shí)別的聚類解決單目標(biāo)和多目標(biāo)的回歸任務(wù)。Li等人(2020a)提出了一種利用最近鄰圖的固有性質(zhì)識(shí)別局部高密度樣本的方法。該類算法高效,適用于任何形狀的數(shù)據(jù),對(duì)數(shù)據(jù)集發(fā)現(xiàn)噪聲數(shù)據(jù)并進(jìn)行數(shù)據(jù)集“清洗工作”有明顯效果,但數(shù)據(jù)量大時(shí)需要更大的內(nèi)存。
基于網(wǎng)格聚類算法(Wang等,1997)的基本思想是將原始數(shù)據(jù)空間轉(zhuǎn)化為一定大小的網(wǎng)格結(jié)構(gòu)進(jìn)行聚類。
基于分形理論的聚類算法(Mandelbrot,1983;Barbar和Chen,2000)認(rèn)為對(duì)象的部分和整體是有一些共同特征的。整體可以分成幾個(gè)部分的幾何圖形。這種聚類算法的核心思想是任何內(nèi)部數(shù)據(jù)的變化對(duì)分形維度上的內(nèi)在質(zhì)量都沒有任何影響。
基于模型的聚類算法(Fisher,1987)的基本思想是為每個(gè)簇選擇一個(gè)最合適的模型?;谀P偷木垲愃惴ㄖ饕袃煞N,一種基于統(tǒng)計(jì)學(xué)習(xí)方法,另一種基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,該方法計(jì)算復(fù)雜度高。
核聚類算法(Sch?lkopf等,1998)的基本思想是通過非線性映射將輸入空間中的數(shù)據(jù)轉(zhuǎn)換到高維特征空間中進(jìn)行聚類分析。該算法在一定程度上分擔(dān)了計(jì)算的局限性,與此同時(shí)可以推廣到多標(biāo)簽聚類問題。Ren和Sun(2021)提出的結(jié)構(gòu)保持多核聚類方法采用一種新的核仿射權(quán)重策略,該策略可以自動(dòng)為每個(gè)基本核分配合適的權(quán)重。
大數(shù)據(jù)有4個(gè)主要特點(diǎn),即容量大、種類多、速度快和準(zhǔn)確性存疑。大數(shù)據(jù)聚類按基本思想可以歸納為4類:1)樣本聚類(MacQueen,1967);2)數(shù)據(jù)合并聚類(Steinbach等,2000);3)降維聚類(Kriegel等,2009);4)并行聚類(Tasoulis和Vrahatis,2004)。
從上述介紹可以看出,劃分聚類和層次聚類的類別數(shù)量需要預(yù)設(shè),不適合大規(guī)模數(shù)據(jù)集的清洗;網(wǎng)格聚類和分形聚類因其特性不利于網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集中噪聲數(shù)據(jù)的去除;模型聚類可以進(jìn)行清除但是需要的計(jì)算成本太高。根據(jù)數(shù)據(jù)的無序和數(shù)據(jù)量大的特性,密度聚類、核聚類和大數(shù)據(jù)聚類在一定程度上可以對(duì)網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集進(jìn)行噪聲數(shù)據(jù)的清除。
3.2.2 交叉驗(yàn)證
交叉驗(yàn)證本是用來驗(yàn)證分類器性能的一種統(tǒng)計(jì)分析方法,在這里可以進(jìn)行細(xì)粒度數(shù)據(jù)集中噪聲數(shù)據(jù)的篩選工作。常見的交叉驗(yàn)證形式大致分為4種,即保持法(holdout驗(yàn)證)、2折交叉驗(yàn)證、K折交叉驗(yàn)證和留一法。
保持法(Kohavi,1995)將原始數(shù)據(jù)隨機(jī)分為訓(xùn)練集和驗(yàn)證集兩組,利用訓(xùn)練集訓(xùn)練模型,然后利用驗(yàn)證集驗(yàn)證。嚴(yán)格來說,保持法并不能算是交叉驗(yàn)證,因?yàn)檫@種方法沒有達(dá)到交叉的思想,并且保持法有一定的缺點(diǎn),由于原始數(shù)據(jù)是隨機(jī)分成兩組,最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大關(guān)系,所以該方法得到的結(jié)果不穩(wěn)定,沒有較強(qiáng)的說服力。
2折交叉驗(yàn)證(Cudeck和Browne,1983)是將數(shù)據(jù)集劃分為兩個(gè)大小相同的子集進(jìn)行兩次模型訓(xùn)練。第1次訓(xùn)練時(shí),一個(gè)子集做訓(xùn)練集,另一個(gè)子集做測(cè)試集;第2次訓(xùn)練時(shí),做訓(xùn)練集和做測(cè)試集的子集調(diào)換,再對(duì)模型進(jìn)行訓(xùn)練。該方法中因?yàn)閯澐肿蛹碾S機(jī)性,導(dǎo)致數(shù)據(jù)子集變異度大,實(shí)驗(yàn)過程不可復(fù)制,所以得到的結(jié)果不穩(wěn)定。
K折交叉驗(yàn)證(Stone,1974)本是防止模型過于復(fù)雜而引起過擬合所產(chǎn)生的一種評(píng)價(jià)訓(xùn)練數(shù)據(jù)泛化能力的統(tǒng)計(jì)方法。該方法可以有效避免過擬合以及欠擬合狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性。具體操作是將數(shù)據(jù)集等比例劃分成K份,以其中的一份作為測(cè)試集,其他的K-1份數(shù)據(jù)作為訓(xùn)練集。如此操作進(jìn)行K次結(jié)束,也即實(shí)驗(yàn)重復(fù)了K次,每一次都從這K份中選取沒有當(dāng)做測(cè)試集的數(shù)據(jù)作為測(cè)試集,余下的K-1份數(shù)據(jù)集作為訓(xùn)練集,K次進(jìn)行完畢后,所有的數(shù)據(jù)都有一次當(dāng)做測(cè)試集。該方法對(duì)數(shù)據(jù)清洗還有著十分顯著的效果,具體過程是將數(shù)據(jù)劃分為K部分,每一部分都輪流做“清洗對(duì)象”即測(cè)試集,將當(dāng)前沒有被正確識(shí)別的數(shù)據(jù)稱為負(fù)樣本,負(fù)樣本中含有大量的噪聲數(shù)據(jù),根據(jù)多次篩選,在測(cè)試集中沒有被正確識(shí)別的數(shù)據(jù)(即負(fù)樣本)會(huì)被當(dāng)做噪聲數(shù)據(jù)最后從數(shù)據(jù)集中刪除。由于通過K折交叉驗(yàn)證可能會(huì)刪去過多的真實(shí)數(shù)據(jù),根據(jù)ACCV WebFG 2020參賽選手的做法,此處的K折交叉驗(yàn)證還可以設(shè)置一個(gè)“回?fù)啤辈襟E,即將K次測(cè)試過程中測(cè)試集中較高正確率的數(shù)據(jù)進(jìn)行收集,這些數(shù)據(jù)稱為正樣本。收集完畢后,將正樣本投入到模型中對(duì)模型進(jìn)行再次訓(xùn)練。訓(xùn)練完成的模型對(duì)所有的負(fù)樣本進(jìn)行測(cè)試,將預(yù)測(cè)正確的數(shù)據(jù)再放回?cái)?shù)據(jù)集中,該步驟可以重復(fù)多次進(jìn)行,直到?jīng)]有正樣本產(chǎn)生,從而結(jié)束“回?fù)啤薄?/p>
留一法就是將每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以留一法會(huì)得到N個(gè)模型。相比于K折交叉驗(yàn)證,留一法有兩個(gè)明顯優(yōu)點(diǎn)。一是每次訓(xùn)練幾乎都是所有的樣本都用于模型訓(xùn)練,因此最接近原始樣本的分布,這樣評(píng)估的結(jié)果比較可靠;二是實(shí)驗(yàn)過程中沒有隨機(jī)因素影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過程是可以復(fù)制的。但留一法計(jì)算成本高,當(dāng)原始數(shù)據(jù)樣本數(shù)量相當(dāng)多時(shí),留一法幾乎不可能使用,由于網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集中數(shù)據(jù)非常多,進(jìn)行噪聲數(shù)據(jù)的清除工作時(shí)間成本太大,使用留一法不太現(xiàn)實(shí)。
網(wǎng)絡(luò)中的數(shù)據(jù)是發(fā)布者以自己的意識(shí)生成/上傳的,過程中會(huì)受到文化、政治和環(huán)境等各方面因素的影響,于是便會(huì)產(chǎn)生數(shù)據(jù)偏差。由于細(xì)粒度類別之間的相似性,數(shù)據(jù)偏差問題在細(xì)粒度數(shù)據(jù)集中的表現(xiàn)尤為突出。解決數(shù)據(jù)集中存在的數(shù)據(jù)偏差問題的主要方式有知識(shí)蒸餾、標(biāo)簽平滑和數(shù)據(jù)增強(qiáng)。
3.3.1 知識(shí)蒸餾
網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集中存在的數(shù)據(jù)偏差會(huì)對(duì)模型的訓(xùn)練產(chǎn)生影響,知識(shí)蒸餾中產(chǎn)生的暗知識(shí)可以在一定程度上緩解數(shù)據(jù)偏差帶來的消極作用。
知識(shí)蒸餾(Hinton等,2015)即將大模型中的暗知識(shí)提取出來供小模型進(jìn)行學(xué)習(xí)。知識(shí)蒸餾中的暗知識(shí)有3種。1)基于結(jié)果反饋的知識(shí)(Hinton等,2015),通常是指教師模型最后一個(gè)輸出層的神經(jīng)反饋,即直接模仿教師模型的最終預(yù)測(cè);2)基于特征的知識(shí)(Romero等,2015),即利用中間層的特征和最后輸出層的結(jié)果共同對(duì)學(xué)生模型進(jìn)行訓(xùn)練;3)基于關(guān)系的知識(shí)(Yim等,2017),前兩種方法是使用教師模型中特定層的輸出,基于關(guān)系的知識(shí)是進(jìn)一步探索不同層或數(shù)據(jù)樣本之間的關(guān)系,并作為知識(shí)對(duì)學(xué)生模型進(jìn)行訓(xùn)練。
知識(shí)蒸餾的學(xué)習(xí)方案大致也分為3種,即離線蒸餾、在線蒸餾和自蒸餾。
早期的知識(shí)蒸餾方法大多是離線蒸餾。Hinton等人(2015)提出的方法中知識(shí)是從預(yù)先訓(xùn)練的教師模型轉(zhuǎn)移到學(xué)生模型。整個(gè)訓(xùn)練過程分為兩個(gè)階段,一是先在一組訓(xùn)練樣本上訓(xùn)練教師模型,然后進(jìn)行蒸餾;二是教師模型以邏輯或中間特征的形式提取知識(shí),然后將提取的知識(shí)用于指導(dǎo)學(xué)生模型的訓(xùn)練。在離線蒸餾過程中,研究人員主要對(duì)知識(shí)轉(zhuǎn)移進(jìn)行了不同角度的研究。Romero等人(2015)和Hinton等人(2015)對(duì)產(chǎn)生的知識(shí)進(jìn)行了設(shè)計(jì)。除此之外,還有用于改善匹配特征或分布匹配的損失函數(shù)(Passalis和Tefas,2018;Li等,2020b)。離線蒸餾簡(jiǎn)單且易于實(shí)現(xiàn),但是教師模型訓(xùn)練時(shí)間消耗巨大,學(xué)生模型在一定程度上高度依賴教師模型。
針對(duì)離線蒸餾的不足之處,Zhang等人(2018b)提出在線蒸餾,在沒有大容量高性能教師模型的情況下提高學(xué)生模型的性能。在線蒸餾過程中,教師模型和學(xué)生模型可以同步更新。Lan等人(2018)提出了一種多分支架構(gòu),其中每個(gè)分支表示一個(gè)學(xué)生模型,不同的分支共享同一個(gè)主干網(wǎng)絡(luò)。
在自蒸餾中,相同的網(wǎng)絡(luò)用于教師和學(xué)生模型。這可以看做是在線蒸餾的特例。Zhang等人(2019)提出了一種新的自蒸餾方法,來自網(wǎng)絡(luò)較深部分的知識(shí)被蒸餾到其較淺部分。Snapshot 蒸餾(Yang等,2019)是自蒸餾的一種特殊變體,網(wǎng)絡(luò)早期(教師)的知識(shí)被轉(zhuǎn)移到網(wǎng)絡(luò)后期(學(xué)生)以支持同一網(wǎng)絡(luò)內(nèi)的監(jiān)督訓(xùn)練過程。
3.3.2 標(biāo)簽平滑
標(biāo)簽平滑(label smoothing)是分類問題中用來緩解數(shù)據(jù)集含有錯(cuò)誤標(biāo)簽的一種解決方法。對(duì)于分類問題來說,常常會(huì)將分類的預(yù)測(cè)結(jié)果向量轉(zhuǎn)換成one-hot向量,對(duì)于損失函數(shù)來說需要用預(yù)測(cè)的結(jié)果來擬合真實(shí)概率,而擬合one-hot的真實(shí)概率函數(shù)會(huì)產(chǎn)生兩個(gè)問題:1)模型的泛化能力無法保證,大概率會(huì)出現(xiàn)過擬合現(xiàn)象;2)one-hot向量會(huì)使模型過于相信預(yù)測(cè)的類別,那么如果數(shù)據(jù)集內(nèi)的數(shù)據(jù)錯(cuò)誤,對(duì)訓(xùn)練的模型將會(huì)有較大影響。尤其是網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)集中存在較為突出的數(shù)據(jù)偏差問題,數(shù)據(jù)集中數(shù)據(jù)標(biāo)簽并非完全正確。為了減少數(shù)據(jù)偏差帶來的影響,使訓(xùn)練模型不要過度擬合數(shù)據(jù)集標(biāo)簽,產(chǎn)生了標(biāo)簽平滑機(jī)制。即
(1)
式中,Pi表示第i類的概率,ε是一個(gè)較小的超參數(shù),K表示多分類的類別總數(shù),i表示預(yù)測(cè)向量中的類別,y表示樣本標(biāo)簽。利用式(1)可以使模型不會(huì)過于相信標(biāo)簽,保證在數(shù)據(jù)中真的出現(xiàn)錯(cuò)誤數(shù)據(jù)時(shí),也能緩解錯(cuò)誤數(shù)據(jù)對(duì)模型訓(xùn)練產(chǎn)生的影響。
3.3.3 數(shù)據(jù)增強(qiáng)
由于數(shù)據(jù)偏差導(dǎo)致數(shù)據(jù)數(shù)量和質(zhì)量得不到保障,緩解數(shù)據(jù)集中數(shù)據(jù)偏差的一個(gè)有效方法就是增加數(shù)據(jù)集中樣本的數(shù)量,但是由于細(xì)粒度類別之間差別不大,人工引入數(shù)據(jù)的正確率得不到保障,如何能在現(xiàn)有數(shù)據(jù)集數(shù)據(jù)上進(jìn)行數(shù)據(jù)擴(kuò)充就顯得十分重要,于是數(shù)據(jù)增強(qiáng)便成為解決網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)集中數(shù)據(jù)問題的有效方法。
Krizhevsky等人(2012)在實(shí)驗(yàn)中使用了數(shù)據(jù)擴(kuò)充,是通過在原始圖像中隨機(jī)裁剪,并使用主成分分析顏色增強(qiáng)改變RGB通道的強(qiáng)度實(shí)現(xiàn)的。數(shù)據(jù)增強(qiáng)的基礎(chǔ)方法是通過各種幾何變換和色彩抖動(dòng)在數(shù)據(jù)集中的樣本上進(jìn)行數(shù)據(jù)擴(kuò)充。除此之外,數(shù)據(jù)增強(qiáng)還有一些新穎的方法。Kang等人(2017)用一種獨(dú)特的核濾波器進(jìn)行實(shí)驗(yàn),該濾波器在n×n滑動(dòng)窗口中隨機(jī)交換像素值。Inoue(2018)提出了將樣本配對(duì)發(fā)展成有效的擴(kuò)增方法。在實(shí)驗(yàn)中,兩幅圖像隨機(jī)裁剪并隨機(jī)水平翻轉(zhuǎn),然后通過平均每個(gè)RGB通道的像素值來混合這些圖像。Liang等人(2018)使用生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)產(chǎn)生混合圖像。他們發(fā)現(xiàn)在訓(xùn)練數(shù)據(jù)中包含混合圖像減少了訓(xùn)練時(shí)間,并增加了GAN樣本的多樣性。GAN可以精細(xì)化地進(jìn)行數(shù)據(jù)擴(kuò)充,Zhu等人(2017)提出的CycleGAN引入了一個(gè)額外的損失函數(shù),以幫助穩(wěn)定GAN訓(xùn)練。Wang和Perez(2017)提出了一種元學(xué)習(xí)的神經(jīng)擴(kuò)增方式,從同一個(gè)類中隨機(jī)選取兩幅圖像。通過卷積神經(jīng)網(wǎng)絡(luò)將它們映射成一幅新圖像。Zhang等人(2018c)提出一種簡(jiǎn)單且數(shù)據(jù)無關(guān)的數(shù)據(jù)增強(qiáng)方式mixup,構(gòu)建了虛擬的訓(xùn)練樣本,構(gòu)建方法為
(2)
(3)
對(duì)于細(xì)粒度來說,只有一小部分的類別是日常生活中普遍見到的,而且數(shù)量眾多,還有很多細(xì)粒度類別在日常生活中見不到,網(wǎng)絡(luò)可以真實(shí)反映自然生活的狀態(tài),所以網(wǎng)絡(luò)上的數(shù)據(jù)分布亦是如此。網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集存在明顯的長(zhǎng)尾分布,主要解決方法有重采樣、重加權(quán)和新型網(wǎng)絡(luò)結(jié)構(gòu)。
3.4.1 重采樣
重采樣(re-sampling)是指對(duì)不同類別的圖像根據(jù)樣本數(shù)量進(jìn)行反向加權(quán),這樣就產(chǎn)生了欠采樣和過采樣兩種方法。重采樣中最常見的策略稱為類別均衡采樣(Kang等,2020),采樣公式為
(4)
式中,K為數(shù)據(jù)集的類別數(shù)量,ni為類別i的樣本總數(shù),pj為從j類別中采樣一幅圖像的概率。在傳統(tǒng)的均衡采樣策略中q=1,這時(shí)可以看出在采樣過程中,選取頭部樣本的概率要大于選取尾部樣本的概率。在這種情況下沒有辦法產(chǎn)生數(shù)據(jù)的完全均衡分布,于是在類別均衡采樣中q=0,這樣會(huì)使所有的類別都會(huì)采集到相同數(shù)量的樣本。
過采樣是對(duì)少數(shù)類中的樣本進(jìn)行隨機(jī)復(fù)制以增加尾部類別的樣本數(shù),研究表明過采樣對(duì)圖像識(shí)別有明顯效果(Jaccard等,2017),但是簡(jiǎn)單的過采樣會(huì)導(dǎo)致過擬合。SMOTE(synthetic minority over-sampling technique)(Chawla等,2002)是一種克服長(zhǎng)尾分布問題的采樣方法,通過插值相鄰創(chuàng)建數(shù)據(jù)點(diǎn)從而增加人工示例。Jo和Japkowicz(2004)提出了基于聚類的過采樣,首先對(duì)數(shù)據(jù)集進(jìn)行聚類,然后分別對(duì)每個(gè)聚類進(jìn)行過采樣,這樣可以減少類間和類內(nèi)的不平衡。Shen等人(2016)提出了一種類感知采樣,是一種針對(duì)隨機(jī)梯度優(yōu)化神經(jīng)網(wǎng)絡(luò)的過采樣,主要是保證每一批的類分布均勻,控制每個(gè)類中選擇實(shí)例的數(shù)量。
與過采樣相反,欠采樣是從多數(shù)類中隨機(jī)移除樣本,直到所有類都具有相同數(shù)量的數(shù)據(jù)樣本。欠采樣一個(gè)顯著的缺點(diǎn)就是丟棄了一部分可用數(shù)據(jù),為了保證丟棄的數(shù)據(jù)不對(duì)模型產(chǎn)生較大的影響,Kubat和Matwin(1997)提出選擇識(shí)別類之間邊界冗余的樣本數(shù)據(jù)。
3.4.2 重加權(quán)
重加權(quán)(re-weighting)主要體現(xiàn)在損失函數(shù)上,但也有其他的改進(jìn)方法。
Cui等人(2019)提出了一種在模型和損失不可知的情況下計(jì)算樣本的有效數(shù)量,并利用有效樣本數(shù)量來設(shè)置懲罰權(quán)重的方法,該方法在長(zhǎng)尾分布數(shù)據(jù)集上取得了較好效果。具體計(jì)算為
(5)
Cao等人(2019)提出一種基于margin的重權(quán)重方法,表明不同樣本數(shù)量的類別應(yīng)對(duì)應(yīng)不同的margin,希望提高樣本數(shù)量較少類別的泛化能力,使更少樣本數(shù)量的類別有更大的margin。
3.4.3 新型網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)的圖像分類任務(wù)通常將分類器部分和特征提取部分耦合在一起進(jìn)行模型訓(xùn)練,但是常見的處理長(zhǎng)尾分布的方法(例如重采樣和重加權(quán))是通過提高分類器的學(xué)習(xí)能力來緩解長(zhǎng)尾分布帶來的影響。修改類別的樣本數(shù)量的重采樣和扭曲數(shù)據(jù)分布的重加權(quán)都會(huì)在一定程度上影響模型的特征提取。于是,研究人員將網(wǎng)絡(luò)解耦,然后分別進(jìn)行訓(xùn)練。Kang等人(2020)將學(xué)習(xí)過程分解為表征學(xué)習(xí)和分類,并系統(tǒng)地探索不同的平衡策略如何影響長(zhǎng)尾識(shí)別。實(shí)驗(yàn)表明,該方法有可能優(yōu)于設(shè)計(jì)的重采樣和重加權(quán)策略。雙分支神經(jīng)網(wǎng)絡(luò)(Zhou等,2020)構(gòu)建了兩條分支,分別訓(xùn)練分類能力和特征提取能力,雙分支神經(jīng)網(wǎng)絡(luò)將這兩個(gè)重要模塊進(jìn)行解耦,保證這兩個(gè)方面相互不影響,從而達(dá)到各自的最優(yōu)效果,該模型的雙分支共享參數(shù),然后對(duì)這兩個(gè)分支進(jìn)行動(dòng)態(tài)加權(quán),二者協(xié)同促進(jìn)深度學(xué)習(xí)在長(zhǎng)尾分布上的泛化能力。實(shí)驗(yàn)結(jié)果表明,雙分支神經(jīng)網(wǎng)絡(luò)在iNaturalist 2017/2018、CIFAR-10-LT和CIFAR-100-LT等多個(gè)長(zhǎng)尾分布的標(biāo)準(zhǔn)數(shù)據(jù)集上均達(dá)到了目前最佳的表現(xiàn)效果。
本節(jié)介紹和回顧全球首屆網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別競(jìng)賽情況和冠軍做法,以期對(duì)該領(lǐng)域研究者和從業(yè)人員提供一定實(shí)踐方面的借鑒。
在2020年亞洲計(jì)算機(jī)視覺會(huì)議(ACCV 2020)上,進(jìn)行了首屆網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別國(guó)際性挑戰(zhàn)賽WebFG 2020,主要解決網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度圖像識(shí)別問題。這項(xiàng)挑戰(zhàn)期望參賽者能夠開發(fā)網(wǎng)絡(luò)監(jiān)督細(xì)粒度識(shí)別模型并利用網(wǎng)絡(luò)圖像進(jìn)行模型訓(xùn)練,以緩解深度學(xué)習(xí)方法大規(guī)模人工標(biāo)記數(shù)據(jù)集的極端依賴,增強(qiáng)模型的實(shí)用性和可擴(kuò)展性。
WebFG 2020競(jìng)賽吸引了來自全球的54支參賽隊(duì)伍(Wei等,2020a),前10名成績(jī)?nèi)绫?所示,其中測(cè)試數(shù)據(jù)集按均勻分布劃分為A榜和B榜,A榜占總測(cè)試集40%,B榜占總測(cè)試集60%。NetEase Games AI Lab團(tuán)隊(duì)獲得冠軍,其解決方法主要包括兩方面。首先是清理噪聲數(shù)據(jù)。比賽的訓(xùn)練集數(shù)據(jù)中包含樣本標(biāo)簽錯(cuò)誤的噪聲數(shù)據(jù),該隊(duì)使用聚類和知識(shí)蒸餾對(duì)數(shù)據(jù)進(jìn)行清理,因?yàn)閿?shù)據(jù)存在長(zhǎng)尾分布,清理時(shí)注意保持類間樣本平衡。其次是模型的選擇。主干網(wǎng)絡(luò)對(duì)模型的表現(xiàn)至關(guān)重要,帶注意力機(jī)制的主干網(wǎng)絡(luò)能夠聚焦于關(guān)鍵細(xì)節(jié),帶來更好的表現(xiàn)。該隊(duì)使用EfficientNet(Tan和Le,2019)、ResNet(He等,2016)和雙分支網(wǎng)絡(luò)(bilateral-branch network,BBN)(Zhou等,2020)作為主干網(wǎng)絡(luò)。
表1 WebFG 2020前10名隊(duì)伍成績(jī)展示Table 1 Display of the WebFG 2020 top-10 team performance
除此之外,參賽隊(duì)伍中有很多優(yōu)秀方法值得借鑒(Wei等,2020a)。例如,利用數(shù)據(jù)擴(kuò)充方法緩解數(shù)據(jù)集中的數(shù)據(jù)偏差和長(zhǎng)尾分布問題;利用尺寸調(diào)節(jié)解決數(shù)據(jù)集中物體較小的問題;利用標(biāo)簽平滑增強(qiáng)模型的泛化能力等。這些方法在一定程度上解決了網(wǎng)絡(luò)數(shù)據(jù)集中存在的問題,但是有些方法在比賽中沒有展現(xiàn)出效果。例如,利用邊緣排序下的區(qū)域(area under the margin ranking,AUM)統(tǒng)計(jì)識(shí)別錯(cuò)誤標(biāo)記的數(shù)據(jù)(Pleiss等,2020),根據(jù)AUM的輸出刪除部分圖像時(shí)會(huì)造成顯著的精度下降。還有一些訓(xùn)練后的模型在單獨(dú)進(jìn)行測(cè)試時(shí)精度很高,但是進(jìn)行多個(gè)模型融合后精度并沒有提高。
網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別主要依賴網(wǎng)絡(luò)細(xì)粒度圖像數(shù)據(jù)進(jìn)行模型訓(xùn)練,再對(duì)測(cè)試圖像進(jìn)行識(shí)別。根據(jù)上述網(wǎng)絡(luò)監(jiān)督細(xì)粒度數(shù)據(jù)的特點(diǎn),總體來說有如下幾方面的展望及挑戰(zhàn):
1)針對(duì)數(shù)據(jù)集中類別之間差異較小的特性,如何高效準(zhǔn)確地進(jìn)行圖像識(shí)別是所有細(xì)粒度類數(shù)據(jù)集最基礎(chǔ)且重要的問題。基于自監(jiān)督、弱監(jiān)督和無監(jiān)督等學(xué)習(xí)范式在圖像識(shí)別領(lǐng)域均取得了不錯(cuò)的進(jìn)展,在保證細(xì)粒度圖像識(shí)別準(zhǔn)確率的基礎(chǔ)上,逐漸使網(wǎng)絡(luò)監(jiān)督與自監(jiān)督相結(jié)合、網(wǎng)絡(luò)監(jiān)督與弱監(jiān)督相結(jié)合或者網(wǎng)絡(luò)監(jiān)督與無監(jiān)督相結(jié)合,是下一階段可能的發(fā)展方向。但網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集一般規(guī)模龐大且含有較多噪聲,如何結(jié)合自監(jiān)督等方式在不受噪聲數(shù)據(jù)影響的情況下提高識(shí)別精度是一個(gè)新穎且充滿挑戰(zhàn)的任務(wù)。
2)網(wǎng)絡(luò)數(shù)據(jù)沒有具有專業(yè)知識(shí)的專家進(jìn)行標(biāo)注,其數(shù)據(jù)“純度”不能保證,數(shù)據(jù)集中存在一定的噪聲數(shù)據(jù)。如何在確保數(shù)據(jù)集純度較高的同時(shí)高效清除數(shù)據(jù)集中的噪聲數(shù)據(jù),在現(xiàn)有方法上進(jìn)行創(chuàng)新和總結(jié),或設(shè)計(jì)專門應(yīng)用于數(shù)據(jù)集去噪的模型是下一階段可能的發(fā)展趨勢(shì)。對(duì)于伴有噪聲數(shù)據(jù)的網(wǎng)絡(luò)監(jiān)督識(shí)別問題,能否通過純度較高的少樣本甚至零樣本從根源上解決這一問題尚待進(jìn)一步考證。
3)網(wǎng)絡(luò)中的數(shù)據(jù)在各種因素下會(huì)存在數(shù)據(jù)偏差問題,這個(gè)問題是必然存在的。除了通過上述標(biāo)簽修改手段和數(shù)據(jù)增強(qiáng)措施緩解數(shù)據(jù)偏差外,在數(shù)據(jù)集構(gòu)建中,如何建立一個(gè)穩(wěn)健的采集系統(tǒng)進(jìn)行數(shù)據(jù)的合理收集也是構(gòu)建網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集下一步需要研究的問題。
4)網(wǎng)絡(luò)數(shù)據(jù)是對(duì)真實(shí)世界的映射,其數(shù)據(jù)分布和真實(shí)世界中細(xì)粒度類別的數(shù)據(jù)分布非常相似,即存在長(zhǎng)尾分布現(xiàn)象。解決長(zhǎng)尾分布目前主要有3類方法,其中對(duì)模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,即將特征學(xué)習(xí)和分類器學(xué)習(xí)進(jìn)行解耦分治,是較為新穎有效的解決方案。若能將目前長(zhǎng)尾分布中發(fā)現(xiàn)的規(guī)律應(yīng)用于網(wǎng)絡(luò)監(jiān)督細(xì)粒度,也會(huì)對(duì)未來這一方向有著深遠(yuǎn)的影響。
5)目前網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別方法是對(duì)數(shù)據(jù)不同方面的問題逐一處理后再進(jìn)行模型訓(xùn)練。未來能否設(shè)計(jì)出一個(gè)統(tǒng)一框架的網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別范式也是值得深入探索的問題。此外,基于Transformer(Dosovitskiy等,2021)的模型在細(xì)粒度圖像識(shí)別中展現(xiàn)出不俗的實(shí)力(He等,2021),Transformer與網(wǎng)絡(luò)監(jiān)督下的細(xì)粒度識(shí)別相結(jié)合也是極具研究?jī)r(jià)值的方向。
細(xì)粒度圖像識(shí)別是計(jì)算機(jī)視覺和模式識(shí)別的長(zhǎng)期熱門領(lǐng)域,隨著深度學(xué)習(xí)的發(fā)展,細(xì)粒度圖像識(shí)別取得了長(zhǎng)足進(jìn)步。但由于深度學(xué)習(xí)需要擁有高質(zhì)量標(biāo)簽的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)用性和擴(kuò)展性受到了一定約束。為了解決這一問題,利用網(wǎng)絡(luò)上的免費(fèi)數(shù)據(jù)訓(xùn)練細(xì)粒度識(shí)別模型成為可行的研究方向,希望借此緩解深度學(xué)習(xí)對(duì)大規(guī)模人工標(biāo)記數(shù)據(jù)集的依賴,在降低成本的同時(shí)以期提高細(xì)粒度識(shí)別技術(shù)的實(shí)用性。
本文通過介紹細(xì)粒度圖像識(shí)別引出網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別,對(duì)傳統(tǒng)細(xì)粒度圖像識(shí)別數(shù)據(jù)集、傳統(tǒng)網(wǎng)絡(luò)監(jiān)督圖像識(shí)別數(shù)據(jù)集和目前網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別的數(shù)據(jù)集進(jìn)行介紹,對(duì)比得出當(dāng)前網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別的特點(diǎn)和使用網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)進(jìn)行細(xì)粒度圖像識(shí)別的意義。此外,介紹了傳統(tǒng)細(xì)粒度圖像識(shí)別的概念及多種范式,詳細(xì)闡述了網(wǎng)絡(luò)監(jiān)督下細(xì)粒度圖像數(shù)據(jù)的主要特點(diǎn)和問題,并總結(jié)了目前相應(yīng)的解決方案。最后介紹了全球首屆網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別競(jìng)賽WebFG 2020的相關(guān)情況。
可以預(yù)見的是,隨著深度學(xué)習(xí)在細(xì)粒度識(shí)別領(lǐng)域的深入發(fā)展,網(wǎng)絡(luò)監(jiān)督細(xì)粒度圖像識(shí)別的研究與應(yīng)用必將越來越多,涉及的范圍也將越來越廣,發(fā)揮的作用亦將越來越大。本文對(duì)目前網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)細(xì)粒度圖像識(shí)別進(jìn)行了簡(jiǎn)要介紹,總結(jié)其大體框架。對(duì)未來而言,從理論研究走向落地應(yīng)用定會(huì)遇到很多現(xiàn)實(shí)問題與挑戰(zhàn),如何克服這些困難并且探索更加實(shí)用的解決方法將是下一階段需要著重展開的研究工作。