細(xì)粒度圖像分類(lèi)的深度學(xué)習(xí)方法

2021-10-12 08:49李祥霞吉曉慧

計(jì)算機(jī)與生活 2021年10期

李祥霞，吉曉慧，李彬

1.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院，廣州 510320

2.華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院，廣州 510641

傳統(tǒng)的圖像分類(lèi)分為語(yǔ)義級(jí)圖像和實(shí)例級(jí)圖像這兩大類(lèi)[1]。語(yǔ)義級(jí)包括對(duì)象識(shí)別、場(chǎng)景識(shí)別等任務(wù)，旨在識(shí)別不同類(lèi)別的圖像，如汽車(chē)和飛機(jī)等，隨著神經(jīng)網(wǎng)絡(luò)的數(shù)輪更新，研究者們發(fā)展出了分類(lèi)準(zhǔn)確率更高的、結(jié)構(gòu)更復(fù)雜的網(wǎng)絡(luò)用在ImageNet 為代表的語(yǔ)義級(jí)圖像分類(lèi)中。而實(shí)例級(jí)是對(duì)不同的個(gè)體進(jìn)行分類(lèi)，其中最重要的研究?jī)?nèi)容當(dāng)屬人臉識(shí)別和指紋識(shí)別。其中，人臉識(shí)別已經(jīng)被大量應(yīng)用到人們的生活中，但仍存在表情變化引起的類(lèi)內(nèi)差距增大、遮擋引起的局部特征缺失等問(wèn)題。而細(xì)粒度圖像處于這兩者的中間狀態(tài)，兼具了語(yǔ)義級(jí)圖像分類(lèi)特征難以提取和定位以及實(shí)例級(jí)圖像分類(lèi)中類(lèi)間差異小而類(lèi)內(nèi)差異大的問(wèn)題，但同時(shí)該領(lǐng)域的研究往往會(huì)大量借鑒前兩個(gè)領(lǐng)域的研究成果。

細(xì)粒度圖像分類(lèi)旨在區(qū)分同一類(lèi)別的子類(lèi)別，如識(shí)別出車(chē)的品牌、鳥(niǎo)的種類(lèi)、貓的品種等，也可叫作子類(lèi)別分類(lèi)。相較于對(duì)象識(shí)別等語(yǔ)義級(jí)圖像分類(lèi)任務(wù)，細(xì)粒度圖像往往需要借助非常微小的局部差異才能區(qū)分出不同的類(lèi)別。和人臉識(shí)別等實(shí)例級(jí)分類(lèi)任務(wù)相比，細(xì)粒度圖像的類(lèi)內(nèi)差異更加巨大，并且受到姿勢(shì)、背景干擾、遮擋以及拍攝角度等因素的影響[2]，加上細(xì)粒度數(shù)據(jù)集類(lèi)內(nèi)差異大而類(lèi)間差異小的特點(diǎn)，使得細(xì)粒度圖像分類(lèi)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)極具挑戰(zhàn)力的任務(wù)。鑒于類(lèi)內(nèi)差異大而類(lèi)間差異小導(dǎo)致的分類(lèi)準(zhǔn)確率的下降的問(wèn)題和更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)的計(jì)算復(fù)雜度的提升，提升細(xì)粒度圖像分類(lèi)的分類(lèi)準(zhǔn)確率和減少計(jì)算成本成了當(dāng)前圖像分類(lèi)領(lǐng)域的兩個(gè)重要的研究方向。

傳統(tǒng)的基于特征提取的細(xì)粒度圖像分類(lèi)算法主要是利用人工構(gòu)建的算子進(jìn)行圖像特征提取，但是其提取特征能力較弱，并且提取到的特征表達(dá)能力比較有限，因此該算法具有一定的局限性。隨著計(jì)算機(jī)硬件的發(fā)展以及互聯(lián)網(wǎng)的發(fā)展帶來(lái)的信息爆炸，研究者們發(fā)現(xiàn)Hinton 在1986 年提出的基于反向傳播的神經(jīng)網(wǎng)絡(luò)方法在海量數(shù)據(jù)以及巨大計(jì)算能力的支持下，能夠?qū)崿F(xiàn)自動(dòng)提取特征并根據(jù)這些特征實(shí)現(xiàn)圖片的準(zhǔn)確分類(lèi)。從此，圖像分類(lèi)任務(wù)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)的時(shí)代，深度學(xué)習(xí)也被越來(lái)越多地提及。近年來(lái)，隨著深度學(xué)習(xí)的興起，基于深度學(xué)習(xí)的圖像分類(lèi)逐步成為研究熱點(diǎn)，細(xì)粒度圖像分類(lèi)也得到了長(zhǎng)足的發(fā)展。深度學(xué)習(xí)在特征提取方面展現(xiàn)出其獨(dú)特的優(yōu)勢(shì)和潛力，在使用的過(guò)程中，需要順應(yīng)細(xì)粒度圖像數(shù)據(jù)庫(kù)本身的特點(diǎn)，同時(shí)參考研究者們?cè)谙嗨频臄?shù)據(jù)庫(kù)中用到的方法以構(gòu)建合適的分類(lèi)框架，才能獲得更好的分類(lèi)性能，而不是一味擴(kuò)充數(shù)據(jù)庫(kù)以及構(gòu)建更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。

本文首先概述了細(xì)粒度圖像分類(lèi)，并介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫(kù)。然后，從基于強(qiáng)監(jiān)督和弱監(jiān)督學(xué)習(xí)這兩方面，分別介紹了幾種典型的細(xì)粒度圖像分類(lèi)算法以及研究現(xiàn)狀。最后，討論了基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法的未來(lái)研究方向和面臨的挑戰(zhàn)。

1 細(xì)粒度圖像分類(lèi)

1.1 細(xì)粒度圖像分類(lèi)

細(xì)粒度圖像分類(lèi)實(shí)質(zhì)是定位到目標(biāo)及局部區(qū)域，對(duì)局部區(qū)域進(jìn)行特征提取，對(duì)提取到的特征進(jìn)行處理，來(lái)完成分類(lèi)器的訓(xùn)練和檢測(cè)。這種分類(lèi)任務(wù)最大的難點(diǎn)在于細(xì)粒度圖像的信噪比很小，類(lèi)別差異通常只存在于很細(xì)小的局部區(qū)域中，而找到這些細(xì)小的局部區(qū)域，對(duì)其進(jìn)行準(zhǔn)確的區(qū)分是算法成功的關(guān)鍵。

細(xì)粒度圖像分類(lèi)在許多領(lǐng)域都有著非常普遍的研究需求和應(yīng)用場(chǎng)景。例如，胸部病灶的病理形態(tài)、位置、大小等具有多樣性和較大的差異性，并且一些疾病樣本的比例也不平衡，因而不同類(lèi)型的胸部疾病分類(lèi)也屬于細(xì)粒度圖像分類(lèi)問(wèn)題。目前，此類(lèi)工作主要依賴(lài)于放射科醫(yī)生的人工觀察，易受到胸部病理特征臨床表現(xiàn)多樣性、放射科醫(yī)師閱片疲勞和缺乏臨床經(jīng)驗(yàn)等因素影響，會(huì)造成誤診、漏診的現(xiàn)象。

在細(xì)粒度圖像分類(lèi)任務(wù)中，許多算法過(guò)分依賴(lài)于人工標(biāo)注信息。常用的標(biāo)注信息主要是指標(biāo)注框（bounding box）以及局部區(qū)域位置信息（part locations）等，在檢測(cè)前景對(duì)象時(shí)使用標(biāo)注框，可以消除背景噪聲的干擾；局部區(qū)域位置信息可以用來(lái)實(shí)現(xiàn)局部區(qū)域的定位，或是姿態(tài)對(duì)齊等操作，以完成局部特征的提取。這些人工標(biāo)注信息由于獲取不易，算法的實(shí)用性較弱?，F(xiàn)在越來(lái)越多的算法傾向于使用類(lèi)別標(biāo)簽等來(lái)完成分類(lèi)任務(wù)。

近幾年來(lái)，細(xì)粒度圖像分類(lèi)取得了飛速的發(fā)展，從傳統(tǒng)的人工提取特征及分類(lèi)器設(shè)計(jì)，逐漸朝著基于端到端的神經(jīng)網(wǎng)絡(luò)的方向發(fā)展。傳統(tǒng)的細(xì)粒度圖像分類(lèi)算法主要包括三個(gè)步驟：特征定位、特征提取和分類(lèi)器。這類(lèi)算法通常先是在訓(xùn)練集中找到特征點(diǎn)的位置信息，再用這些特征點(diǎn)的位置信息去提取測(cè)試圖片的局部區(qū)域，然后用人工提取的特征對(duì)局部區(qū)域進(jìn)行特征提取，最后將提取到的特征放到分類(lèi)器中。端到端細(xì)粒度圖像分類(lèi)算法也可以分為三個(gè)步驟：特征區(qū)域定位、局部特征切割和分類(lèi)神經(jīng)網(wǎng)絡(luò)。圖1 是端到端的細(xì)粒度圖像分類(lèi)算法的典型流程圖。該算法采用共享的卷積層神經(jīng)網(wǎng)絡(luò)的底層提取圖片中的信息，將提取到的特征送入?yún)^(qū)域檢測(cè)子網(wǎng)絡(luò)和分類(lèi)子網(wǎng)絡(luò)，然后在檢測(cè)子網(wǎng)絡(luò)中利用選擇性搜索、K-近鄰等算法進(jìn)行候選區(qū)域的篩選，然后在這些區(qū)域中利用Fast R-CNN（fast region-convolutional neural network）等算法挑選出置信度最高的局部區(qū)域，將這些局部區(qū)域的位置信息送入到分類(lèi)子網(wǎng)絡(luò)中，然后利用特征圖切割的方式將對(duì)應(yīng)位置的特征提取出來(lái)送入到全連接層從而得到最終的分類(lèi)結(jié)果。

Fig.1 Typical flowchart of end-to-end fine-grained image classification algorithm圖1 端到端的細(xì)粒度圖像分類(lèi)算法的典型流程圖

與傳統(tǒng)細(xì)粒度圖像分類(lèi)算法相比，端到端的分類(lèi)算法特殊在于特征提取的部分，神經(jīng)網(wǎng)絡(luò)對(duì)圖片的特征信息的提取能力遠(yuǎn)遠(yuǎn)超過(guò)人工構(gòu)建的特征，神經(jīng)網(wǎng)絡(luò)在分類(lèi)任務(wù)中是一個(gè)前后相同的整體，低層的特征受到分類(lèi)結(jié)果反向傳播的影響，因此趨向于尋找最有判別能力的特征。神經(jīng)網(wǎng)絡(luò)的特征提取都是經(jīng)過(guò)了大量的計(jì)算被證實(shí)對(duì)分類(lèi)結(jié)果有顯著影響的特征，因此自然比人工構(gòu)建的特征提取算法提取到的特征更有判別能力?，F(xiàn)在最常用的是卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）對(duì)圖像進(jìn)行特征提取。卷積神經(jīng)網(wǎng)絡(luò)無(wú)需復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程，且提取到的特征更具有特征表達(dá)和判別能力，已經(jīng)廣泛應(yīng)用于圖像分類(lèi)[3-4]、行為識(shí)別[5-6]、圖像描述[7-8]、圖像檢索[9-10]等領(lǐng)域。

1.2 細(xì)粒度圖像數(shù)據(jù)庫(kù)

細(xì)粒度圖像數(shù)據(jù)集通常需要專(zhuān)業(yè)領(lǐng)域的專(zhuān)家知識(shí)才能完成數(shù)據(jù)的采集和標(biāo)注，因此數(shù)據(jù)集的獲取難度更大。本節(jié)介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫(kù)，并在表1 展示了這些數(shù)據(jù)庫(kù)的具體類(lèi)別和大小。

Table 1 Fine-grained image datasets表1 常用細(xì)粒度圖像數(shù)據(jù)庫(kù)

CUB-200-2011[11]數(shù)據(jù)庫(kù)：此數(shù)據(jù)庫(kù)是2011 年加利福尼亞理工學(xué)院推出的鳥(niǎo)類(lèi)細(xì)粒度圖像分類(lèi)數(shù)據(jù)庫(kù)。CUB-200-2011 是細(xì)粒度圖像分類(lèi)任務(wù)中最常用的數(shù)據(jù)庫(kù)。

Car-196[12]數(shù)據(jù)庫(kù)：Car-196 是2013 年Stanford University 在ICCV 會(huì)議上推出的汽車(chē)類(lèi)細(xì)粒度圖像分類(lèi)數(shù)據(jù)庫(kù)，車(chē)的品牌、型號(hào)以及年份都會(huì)影響對(duì)車(chē)輛類(lèi)別的劃分。提供了196 類(lèi)車(chē)輛圖像數(shù)據(jù)，只提供了標(biāo)注框信息。

FGVC-Aircraft[13]數(shù)據(jù)庫(kù)：FGVC-Aircraft 是2013年ICCV 上作為在ImageNet 細(xì)粒度分類(lèi)挑戰(zhàn)大賽的一部分推出的。提供了102 類(lèi)不同的飛機(jī)照片，整個(gè)數(shù)據(jù)庫(kù)包含10 200 張圖片，只提供了標(biāo)注框信息。此數(shù)據(jù)庫(kù)的分類(lèi)難度較大，由于外觀相似，飛機(jī)類(lèi)別的劃分依賴(lài)于噴漆或是細(xì)微的外形差異。

2 基于深度學(xué)習(xí)的細(xì)粒度分類(lèi)

目前，基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法主要采用卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)是由LeCun于1998 年提出的，設(shè)計(jì)靈感來(lái)源于對(duì)動(dòng)物神經(jīng)元的研究，其本質(zhì)是多層感知機(jī)的變種，它采用局部連接和共享權(quán)值的方式，不但減少了權(quán)值的數(shù)量使得網(wǎng)絡(luò)易于優(yōu)化，同時(shí)降低了過(guò)擬合的風(fēng)險(xiǎn)。

目前，常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要有AlexNet、VGGNet、GoogleNet 和ResNet。2012 年，Alex 等人提出了AlexNet 模型[14]，使得卷積神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)逐漸在圖像、語(yǔ)音等領(lǐng)域大放異彩。AlexNet 網(wǎng)絡(luò)使用層疊的卷積層，解決了網(wǎng)絡(luò)深度問(wèn)題，使得網(wǎng)絡(luò)學(xué)習(xí)到更有判別能力的圖像特征。牛津大學(xué)視覺(jué)幾何組和谷歌DeepMind 公司的研究院共同提出了VGGNet 模型[15]，其中最為廣泛應(yīng)用的是VGG-16 和VGG-19 網(wǎng)絡(luò)。2014 年，Szegedy 等人提出GoogleNet模型[16-18]，利用多種卷積運(yùn)算進(jìn)行組合的方法，形成一個(gè)個(gè)功能單元，以便在相同的計(jì)算量下獲得更多的特征。ResNet 模型[19]是由微軟人工智能團(tuán)隊(duì)提出的新型深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其通過(guò)層與層的跳躍連接，訓(xùn)練出更深的網(wǎng)絡(luò)，緩解了梯度消失問(wèn)題。

基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法主要分為兩種：基于強(qiáng)監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)分類(lèi)算法。

2.1 基于強(qiáng)監(jiān)督的細(xì)粒度圖像分類(lèi)

基于強(qiáng)監(jiān)督學(xué)習(xí)指的是利用數(shù)據(jù)集中給出的所有標(biāo)注（邊框以及全部特征點(diǎn)信息）來(lái)對(duì)測(cè)試集中圖片的特征點(diǎn)進(jìn)行定位，再對(duì)定位到的特征區(qū)域進(jìn)行進(jìn)一步的處理，進(jìn)而得到最終的分類(lèi)結(jié)果，能夠提高分類(lèi)的準(zhǔn)確率和有效性。

Zhang等人[20]在2014年提出了基于局部的R-CNN（Part-based R-CNNs）細(xì)粒度圖像分類(lèi)算法，通過(guò)自底向上的候選區(qū)域生成方法和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法相配合進(jìn)行物體檢測(cè)，然后將這些目標(biāo)區(qū)域進(jìn)行姿態(tài)歸一化并提取特征，最后將提取到的特征送入支持向量機(jī)（support vector machine，SVM）分類(lèi)器進(jìn)行分類(lèi)。該分類(lèi)框架的分類(lèi)準(zhǔn)確率超越了先前所提出的基于中層表征的、基于姿態(tài)標(biāo)準(zhǔn)化描述符的細(xì)粒度圖形分類(lèi)方法等。該算法也奠定了其后幾年的細(xì)粒度圖像分類(lèi)的基礎(chǔ)，使得其后的基于“強(qiáng)監(jiān)督”的細(xì)粒度圖像分類(lèi)算法基本都是遵從這樣一個(gè)局部區(qū)域檢測(cè)、局部區(qū)域特征點(diǎn)提取以及最后的特征分類(lèi)這種流程。然而，該算法也存在著一些缺點(diǎn)，自底向上的區(qū)域定位方法，會(huì)產(chǎn)生大量的無(wú)關(guān)區(qū)域，大幅度限制了算法的速度。由于姿態(tài)問(wèn)題會(huì)對(duì)分類(lèi)造成極大干擾。為了解決這個(gè)問(wèn)題，Branson 等人[21]提出了姿態(tài)歸一化的CNN（pose normalized CNN）模型，針對(duì)提取的不同層次的局部信息，進(jìn)行姿態(tài)對(duì)齊操作，提取到不同層的卷積特征。

Part-based R-CNNs 模型自下而上的區(qū)域合并方法學(xué)習(xí)部位檢測(cè)器，會(huì)產(chǎn)生大量的無(wú)關(guān)區(qū)域。在常見(jiàn)的鳥(niǎo)類(lèi)目標(biāo)分類(lèi)任務(wù)中，“Part-based R-CNNs”利用姿態(tài)歸一化，通過(guò)不同的網(wǎng)絡(luò)檢測(cè)鳥(niǎo)的頭、身體等部位并合成一個(gè)特征向量，再使用SVM 進(jìn)行訓(xùn)練，這種檢測(cè)辦法損失了各個(gè)部位的相關(guān)性。為了解決這個(gè)問(wèn)題，Zhang 等人[22]提出了SPDA-CNN（semantic part detection and abstraction-CNN），分別從候選區(qū)域生成、局部區(qū)域的增加、特征提取及改變最終分類(lèi)網(wǎng)對(duì)原網(wǎng)絡(luò)進(jìn)行了改進(jìn)。該算法包含兩個(gè)網(wǎng)絡(luò)：檢測(cè)子網(wǎng)絡(luò)和分類(lèi)子網(wǎng)絡(luò)。檢測(cè)子網(wǎng)絡(luò)是用自上而下的候選區(qū)域方法生成小的語(yǔ)義區(qū)域的候選。分類(lèi)子網(wǎng)絡(luò)是在檢測(cè)子網(wǎng)絡(luò)生成的候選區(qū)域中進(jìn)行特征提取，然后進(jìn)行分類(lèi)。為了檢測(cè)到語(yǔ)義對(duì)象的細(xì)小候選區(qū)域，該算法利用K-近鄰生成候選區(qū)域的方法，通過(guò)添加幾何限制來(lái)減小生成候選區(qū)域的數(shù)量，生成包含更有效的局部信息的候選區(qū)域。檢測(cè)網(wǎng)絡(luò)將K-近鄰給出的候選區(qū)域用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法（Fast R-CNN）進(jìn)行區(qū)域回歸。SPDA-CNN 添加到幾何限制在更細(xì)小的語(yǔ)義級(jí)的局部區(qū)域中生成了候選區(qū)域，比Part-based R-CNNs 生成候選區(qū)域用到的選擇性搜索[23]生成的區(qū)域數(shù)量降低了一個(gè)數(shù)量級(jí)。在CUB-200-2011 數(shù)據(jù)集上取得了85.14%的分類(lèi)結(jié)果。

Wei 等人[24]提出了Mask-CNN 模型，不同于Partbased R-CNNs 的細(xì)粒度分類(lèi)算法直接利用卷積特征的做法，Mask-CNN 模型對(duì)深度卷積特征進(jìn)行了評(píng)估和篩選，它是第一個(gè)端到端的選擇深度卷積描述符（deep descriptor）模型。很多基于局部定位的算法，如Part-based R-CNNs[20]、Part-stacked CNN[25]等，都是直接使用深度卷積描述符，然后將其編碼到單個(gè)的特征表示中，而沒(méi)有對(duì)這些獲得的深度卷積描述符進(jìn)行評(píng)估。Mask-CNN 模型通過(guò)使用CNN，可以不用像對(duì)人工提取的特征一樣在特征向量中篩選出有效特征，但是需要選出有用的卷積描述符。Mask-CNN 模型丟棄了全連接層，利用了更少的特征維數(shù)，提升了推理速度，使得網(wǎng)絡(luò)計(jì)算效率更高。在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)，不需要標(biāo)注框信息，僅依靠局部標(biāo)注信息（part annotations）和類(lèi)別標(biāo)簽（image-level labels）就在CUB-200-2011 數(shù)據(jù)集上獲得了較好的分類(lèi)性能。

這些基于強(qiáng)監(jiān)督學(xué)習(xí)方法雖然獲得了較好的分類(lèi)結(jié)果，但是它們往往嚴(yán)重依賴(lài)于大量的人工標(biāo)注信息來(lái)完成建模和分類(lèi)預(yù)測(cè)，人工標(biāo)注的數(shù)據(jù)很難獲取且所付出的代價(jià)昂貴，這將會(huì)影響細(xì)粒度圖像分類(lèi)在應(yīng)用領(lǐng)域的使用和發(fā)展。

2.2 基于弱監(jiān)督的細(xì)粒度圖像分類(lèi)

近幾年，基于弱監(jiān)督學(xué)習(xí)已經(jīng)成為基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)方法的研究趨勢(shì)，其舍棄了數(shù)據(jù)庫(kù)中提供的人工標(biāo)注信息，轉(zhuǎn)而依靠注意力模型、雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)等方法去定位圖片中的關(guān)鍵區(qū)域，通過(guò)多尺度的方法來(lái)獲得較為完整的全局和局部區(qū)域的特征，不但減少了人工標(biāo)注的格外數(shù)據(jù)成本，同時(shí)更加符合實(shí)際應(yīng)用需求。

2.2.1 基于注意力模型的細(xì)粒度圖像分類(lèi)

兩級(jí)注意力算法[26]是第一個(gè)嘗試不利用人工標(biāo)注信息，只使用類(lèi)別標(biāo)簽的細(xì)粒度圖像分類(lèi)方法。此算法主要關(guān)注對(duì)象級(jí)和局部級(jí)兩個(gè)層次的特征，其實(shí)也就是強(qiáng)監(jiān)督模型中的標(biāo)注框和局部區(qū)域位置信息。其中對(duì)象級(jí)模型是針對(duì)對(duì)象級(jí)圖像進(jìn)行分類(lèi)。將經(jīng)過(guò)預(yù)處理得到的包含多個(gè)候選區(qū)域的圖片，用來(lái)從頭開(kāi)始訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。經(jīng)過(guò)卷積網(wǎng)絡(luò)之后，得到一個(gè)Softmax 層的輸出，對(duì)所有區(qū)域的輸出進(jìn)行平均，作為Softmax 層的最終輸出。在獲得局部區(qū)域特征后，將其連在一起得到一個(gè)特征向量，用來(lái)訓(xùn)練SVM 分類(lèi)，最后結(jié)合對(duì)象級(jí)模型的預(yù)測(cè)結(jié)果和局部級(jí)模型的結(jié)果，作為兩級(jí)注意力模型的最終輸出。該算法在Alex-Net 網(wǎng)絡(luò)結(jié)構(gòu)上準(zhǔn)確率達(dá)到了69.7%，若采用網(wǎng)絡(luò)深度和通道數(shù)量更多的VGG-Net 構(gòu)架，分類(lèi)的準(zhǔn)確率能提升到77.9%。由于兩級(jí)注意力模型局部區(qū)域的檢測(cè)是通過(guò)聚類(lèi)算法得到的，分類(lèi)精度低于同樣使用AlexNet 的強(qiáng)監(jiān)督的Part-based R-CNNs算法。

許多弱監(jiān)督分類(lèi)方法[27-32]雖然訓(xùn)練時(shí)只需要類(lèi)別標(biāo)簽，但是這些方法在執(zhí)行過(guò)程中，在對(duì)象定位任務(wù)中出現(xiàn)錯(cuò)誤，就會(huì)嚴(yán)重影響到分類(lèi)效果。由于這些方法無(wú)法利用GPUs 進(jìn)行并行計(jì)算，計(jì)算速度較慢?；趦?yōu)化特征表示的方法也有很多優(yōu)秀的算法，比如通過(guò)優(yōu)化主干網(wǎng)絡(luò)[33]、特征提取結(jié)構(gòu)[34]、數(shù)據(jù)增強(qiáng)[35]、遷移學(xué)習(xí)[36]等來(lái)獲得更好的特征表示的方法。但這些方法也存在缺點(diǎn)，首先一個(gè)有效的方法是應(yīng)該將不同的中級(jí)信息與最后輸出融合起來(lái)，在不同情況下都應(yīng)該完全利用到不同的輸出結(jié)果。其次，一般的預(yù)訓(xùn)練遷移學(xué)習(xí)可能表現(xiàn)較差，而在特定領(lǐng)域遷移學(xué)習(xí)表現(xiàn)較好，但需要花費(fèi)大量時(shí)間對(duì)每個(gè)細(xì)粒度數(shù)據(jù)集在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。

Zhu 等人[37]提出了一種新型的基于CNN 的級(jí)聯(lián)注意力網(wǎng)絡(luò)模型。這個(gè)方法利用了空間混淆注意力來(lái)區(qū)分輸入圖像的模糊區(qū)域。這個(gè)模型包括三部分：空間混淆注意力模塊、交叉網(wǎng)絡(luò)注意力和網(wǎng)絡(luò)融合注意力模塊。所有的模塊可以一起工作，進(jìn)行端到端的訓(xùn)練優(yōu)化，其中利用到了全局注意力池化來(lái)使用空間混淆注意力，其收到來(lái)自CNN1 的注意力二進(jìn)制掩膜，然后把它當(dāng)作過(guò)濾器，從而讓CNN2 去注意已篩選過(guò)的區(qū)域。不同于之前所提出的注意力機(jī)制方法[27,29,32]，這個(gè)方法的骨干網(wǎng)絡(luò)是完全并行運(yùn)行的，使其獲得了更好的泛化能力和更快的計(jì)算速度。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了90.8%的準(zhǔn)確率。

Fig.2 Architecture of attribute guided attention network圖2 屬性引導(dǎo)的注意力網(wǎng)絡(luò)結(jié)構(gòu)

Yan 等人[38]利用漸進(jìn)特征學(xué)習(xí)的方法來(lái)對(duì)細(xì)粒度進(jìn)行分類(lèi)，其網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩個(gè)階段：第一個(gè)階段設(shè)計(jì)了一個(gè)屬性指導(dǎo)的注意力網(wǎng)絡(luò)，用來(lái)發(fā)現(xiàn)和對(duì)齊有區(qū)分度的局部特征；第二個(gè)階段采用一個(gè)多尺度主動(dòng)融合網(wǎng)絡(luò)來(lái)分類(lèi)，聚合注意力區(qū)域中有區(qū)別的特征。與傳統(tǒng)融合算法相比，所提出的主動(dòng)漸進(jìn)融合網(wǎng)絡(luò)對(duì)候選噪聲區(qū)域具有較強(qiáng)的魯棒性，并且融合的圖像表示的判別能力并沒(méi)有降低。同時(shí)，將這兩個(gè)階段集成到一個(gè)單一的框架中，使整個(gè)系統(tǒng)可以共同訓(xùn)練。很多模型[39-43]使用了局部檢測(cè)網(wǎng)絡(luò)算法，提取大量的局部區(qū)域來(lái)訓(xùn)練CNN 網(wǎng)絡(luò)，針對(duì)復(fù)雜的問(wèn)題擴(kuò)展性不好，并且需要大量的人工標(biāo)注信息訓(xùn)練局部檢測(cè)網(wǎng)絡(luò)，而該模型不存在這種局限。一些使用Fisher Vector 或者最大/平均池化進(jìn)行對(duì)齊的算法也存在丟失大量語(yǔ)義和空間關(guān)系信息的缺點(diǎn)。相比于傳統(tǒng)的注意力模型，兩級(jí)注意力[26]缺乏強(qiáng)監(jiān)督信息的指導(dǎo)，因此在很多情況下也不能準(zhǔn)確定位到有用的局部區(qū)域。而Yan 等人[38]設(shè)計(jì)的由屬性引導(dǎo)的注意力網(wǎng)絡(luò)采用了循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN），比如LSTM（long short-term memory）[44]，將判別信息從第一個(gè)節(jié)點(diǎn)累積到最深層的節(jié)點(diǎn)，從而產(chǎn)生具有高度判別力的對(duì)象級(jí)特征表示。如果當(dāng)前局部區(qū)域不能提供足夠的有區(qū)分的信息，就轉(zhuǎn)向?qū)ο蟮南乱粋€(gè)局部區(qū)域。該算法僅僅依靠標(biāo)簽屬性，在CUB-200-2011 數(shù)據(jù)集上獲得了85.1%的分類(lèi)結(jié)果。圖2 是Yan 等人提出的網(wǎng)絡(luò)結(jié)構(gòu)。

2.2.2 雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)

Lin 等人[45]設(shè)計(jì)了一種雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型，在整體上實(shí)現(xiàn)了端到端的訓(xùn)練優(yōu)化。圖3 是雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型，其包含了兩個(gè)特征提取器，輸出后經(jīng)過(guò)外積相乘，進(jìn)行池化后得到圖像描述算符。

Fig.3 Bilinear CNN model圖3 雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型

從圖3 中可以看出，模型的前半部分是普通的卷積層和池化層，只需求得后半部分的梯度值，即可完成整個(gè)模型端到端訓(xùn)練。雙線(xiàn)性CNN 模型中CNN網(wǎng)絡(luò)A 的作用是對(duì)物體進(jìn)行定位，也就是檢測(cè)前景對(duì)象和局部區(qū)域，而CNN 網(wǎng)絡(luò)B 是對(duì)CNN 網(wǎng)絡(luò)A 定位到的物體位置進(jìn)行特征提取。兩個(gè)網(wǎng)絡(luò)之間相互協(xié)調(diào)作用，在整體上完成了模型端到端的訓(xùn)練過(guò)程。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了84.1%的分類(lèi)精度。雙線(xiàn)性CNN 模型是第一個(gè)可以端到端訓(xùn)練的協(xié)方差池化網(wǎng)絡(luò)模型，它對(duì)協(xié)方差矩陣進(jìn)行L2 歸一化處理之后采用了元素平方根歸一化，沒(méi)有直接使用卷積特征，而是利用卷積特征和自己的外積作為其圖像表示，有力地推動(dòng)了細(xì)粒度分類(lèi)的進(jìn)步。而它的缺點(diǎn)是最后的圖像表示的維數(shù)過(guò)高，降低了雙線(xiàn)性CNN 模型的實(shí)用性。針對(duì)這個(gè)問(wèn)題，Gao 等人[46]提出了一種壓縮雙線(xiàn)性池化（compact bilinear pooling）模型，降低了特征向量的維數(shù)，并同時(shí)確保了分類(lèi)的準(zhǔn)確率。

由于雙線(xiàn)性CNN 未能捕捉特征圖通道之間的非線(xiàn)性關(guān)系，使得卷積網(wǎng)絡(luò)的表達(dá)能力得不到充分利用。為了解決這個(gè)問(wèn)題，葛疏雨等人[47]提出了一種核化雙線(xiàn)性卷積網(wǎng)絡(luò)模型，利用核函數(shù)建模通道間的非線(xiàn)性關(guān)系，卷積網(wǎng)絡(luò)的表達(dá)能力大幅度提高，在數(shù)據(jù)集CUB-200-2011、Car-196、FGVC-Aircraft 上都獲得了優(yōu)異的分類(lèi)性能。

2.2.3 基于空間關(guān)系的模型

現(xiàn)在主流的細(xì)粒度圖像分類(lèi)主要分成基于局部定位和特征表示這兩種類(lèi)型?；诰植慷ㄎ坏姆椒▋H僅試圖定位圖像有用的局部區(qū)域，然后對(duì)這些區(qū)域提取特征，其難點(diǎn)就在于這些局部區(qū)域的標(biāo)注信息難以獲得。Krause 等人[48]提出的方法沒(méi)有直接使用這些局部定位，而是利用了局部區(qū)域中高度有序的空間信息，獲得了更多區(qū)分度的線(xiàn)索。而基于特征表示的方法需要產(chǎn)生有效的圖像表示，依賴(lài)深度卷積神經(jīng)網(wǎng)絡(luò)模型才能夠獲得良好的性能。在這些方法中，都沒(méi)有用到局部區(qū)域的空間關(guān)系。

Qi 等人[49]利用空間關(guān)系來(lái)對(duì)細(xì)粒度圖像進(jìn)行分類(lèi)，主要分為兩部分：局部區(qū)域選擇和特征表示。前者利用局部區(qū)域之間的固有空間關(guān)系來(lái)選擇具有高判別力的局部區(qū)域?qū)Γ笳咛剿骶植繀^(qū)域之間的相互作用來(lái)描述選擇后的局部區(qū)域，并為細(xì)粒度圖像分類(lèi)構(gòu)建一個(gè)語(yǔ)義圖像級(jí)別的特征表示。

空間關(guān)系可以提供一個(gè)有用的語(yǔ)義特征來(lái)豐富特征表示的信息，同時(shí)幫助區(qū)分對(duì)象和背景。在以前的研究中，通?？臻g關(guān)系是由人工來(lái)定義的，比如Bloch[50]拓?fù)潢P(guān)系和幾何關(guān)系的考慮。而Qi 等人[49]的研究是使用的局部區(qū)域之間的距離，利用空間關(guān)系就能捕獲局部區(qū)域更多有區(qū)分度的特征，并且不需要任何局部定位的人工標(biāo)注信息。圖4 顯示了不同特征維數(shù)對(duì)分類(lèi)準(zhǔn)確率的影響。從圖4 中可以看出，在維數(shù)達(dá)到6 000 之前，隨著特征表示維數(shù)的增加，分類(lèi)準(zhǔn)確率顯著提高，在超過(guò)6 000 之后趨于穩(wěn)定。相比于前面提到的雙線(xiàn)性CNN 和Compact 雙線(xiàn)性CNN 模型，該方法所用到的圖像特征維數(shù)顯著減少，在保證分類(lèi)精度的基礎(chǔ)上，提高了運(yùn)算速度。該算法在數(shù)據(jù)集CUB-200-2011 上獲得了85.5%的準(zhǔn)確率。

Fig.4 Influence of different dimensions on classification accuracy圖4 不同的特征維數(shù)對(duì)分類(lèi)準(zhǔn)確率的影響

2.2.4 其他模型

大多數(shù)的細(xì)粒度圖像算法都是針對(duì)輪廓清晰、有相對(duì)固定的外觀特征和明顯的部件構(gòu)成的對(duì)象。針對(duì)一些特定領(lǐng)域的沒(méi)有可分離的部件的子類(lèi)別圖像的研究，目前還比較少。Won 等人[51]提出了一個(gè)以對(duì)象級(jí)CNN 為基礎(chǔ)模型和多個(gè)局部級(jí)CNN 模型結(jié)合的多尺度CNN 算法，針對(duì)的識(shí)別對(duì)象是沒(méi)有可分離局部特征的圖像。該算法在多個(gè)食物數(shù)據(jù)集的圖像上進(jìn)行細(xì)粒度分類(lèi)，利用不同的層次的食物細(xì)節(jié)來(lái)訓(xùn)練多個(gè)CNN。首先對(duì)象級(jí)CNN 通過(guò)使用對(duì)象級(jí)縮放因子對(duì)訓(xùn)練圖像進(jìn)行調(diào)整，將對(duì)象的外觀作為一個(gè)整體進(jìn)行學(xué)習(xí)。然后使用經(jīng)過(guò)訓(xùn)練的對(duì)象級(jí)CNN，根據(jù)調(diào)整后的圖像在不同的局部級(jí)尺度對(duì)局部級(jí)CNN 進(jìn)行微調(diào)。其中局部級(jí)CNN 的圖像調(diào)整需要更多的修剪，利用線(xiàn)性尺度隨機(jī)裁剪法，根據(jù)尺度可控參數(shù)的公式，設(shè)置合適的參數(shù)，采用不同的尺度為局部級(jí)CNN 調(diào)整圖像的大小。該研究表明，通過(guò)尺度可控圖像調(diào)整方法訓(xùn)練的多尺度CNN 可以顯著提高食物數(shù)據(jù)集的識(shí)別性能，證明在不同尺度上調(diào)整圖像大小有助于多尺度CNN 學(xué)習(xí)不同層次的目標(biāo)細(xì)節(jié)，而無(wú)需明確地將目標(biāo)分割成部分。

近些年生成對(duì)抗網(wǎng)絡(luò)（generative adversarial networks，GAN）在圖像的多個(gè)領(lǐng)域取得了優(yōu)異的成果。其中，Xie 等人[52]將CNN 和GAN 結(jié)合在一起，利用GAN 來(lái)增強(qiáng)數(shù)據(jù)集。算法使用預(yù)先訓(xùn)練好的YOLO v2[53]對(duì)象檢測(cè)模型對(duì)原始數(shù)據(jù)集上的粗粒度對(duì)象進(jìn)行檢測(cè)和裁剪。其次，將裁剪后的圖像發(fā)送給GAN的生成器以生成更多的數(shù)據(jù)，并為生成的圖像分配統(tǒng)一的標(biāo)簽，混合這些原始的真實(shí)圖像和生成的圖像后，將這些混合圖像輸入到一個(gè)CNN 分類(lèi)器和一個(gè)特征融合的CNN 分類(lèi)器中。如此，CNN 分類(lèi)器可以同時(shí)訓(xùn)練帶有真實(shí)標(biāo)簽和生成標(biāo)簽的圖像，實(shí)現(xiàn)了細(xì)粒度識(shí)別的良好正則化并且獲得了更有競(jìng)爭(zhēng)力的分類(lèi)性能。佘海龍等人[54]提出了三維CNN 模型應(yīng)用于高光譜遙感圖像分類(lèi)，使用大步距卷積層替代池化層，引入L2 正則化、批量歸一化、Dropout等一系列的策略，在減少網(wǎng)絡(luò)參數(shù)的同時(shí)有效防止過(guò)擬合現(xiàn)象。引入圖像分類(lèi)中，并獲得了一定成果，大幅度降低了網(wǎng)絡(luò)模型的參數(shù)、計(jì)算量并提高了分類(lèi)的精度。此深度網(wǎng)絡(luò)方法可以思考引入到其他細(xì)粒度識(shí)別任務(wù)中，可以更好地提高分類(lèi)的準(zhǔn)確性和有效性。徐可文等人[55]綜述了近年來(lái)機(jī)器學(xué)習(xí)算法在超聲圖像領(lǐng)域的研究和應(yīng)用進(jìn)展，指出了深度學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域開(kāi)展研究所面臨的困難與挑戰(zhàn)。

2.3 基于數(shù)據(jù)增強(qiáng)的細(xì)粒度圖像分類(lèi)

數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)的有效方法之一，可以有效地提高細(xì)粒度圖像分類(lèi)模型準(zhǔn)確率。Hu 等人[56]基于雙線(xiàn)性CNN 提出了雙線(xiàn)性注意力池化方法，對(duì)原圖進(jìn)行注意力式剪切、注意力式丟棄，以此得到隨著模型迭代更新變動(dòng)的增強(qiáng)數(shù)據(jù)，這些新數(shù)據(jù)和原圖一起提高模型準(zhǔn)確率。該算法采用的是單一語(yǔ)義的數(shù)據(jù)增強(qiáng)方式，處理更復(fù)雜的細(xì)粒度識(shí)別任務(wù)存在缺少有效分類(lèi)信息的問(wèn)題。對(duì)此，譚潤(rùn)等人[57]結(jié)合雙線(xiàn)性注意力池化的優(yōu)勢(shì)構(gòu)建模塊提取雙語(yǔ)義數(shù)據(jù)，和原圖一起以雙語(yǔ)義數(shù)據(jù)增強(qiáng)的方式提高模型分類(lèi)準(zhǔn)確率，在CUB-200-2011 數(shù)據(jù)集上獲得了89.5%的分類(lèi)準(zhǔn)確率。雖然該算法提升了分類(lèi)精度，但提升了模型復(fù)雜度，可能限制了模型在移動(dòng)端的應(yīng)用。丁文謙等人[58]在雙線(xiàn)性注意力池化模型的基礎(chǔ)上，提出了一種基于Xception 網(wǎng)絡(luò)的弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)，用Xception 網(wǎng)絡(luò)替代原模型采用的Inception v3 作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)，利用深度可分離卷積替代普通CNN 生成注意力圖來(lái)引導(dǎo)數(shù)據(jù)增強(qiáng)，然后將增強(qiáng)后的圖像返回網(wǎng)絡(luò)作為輸入圖像來(lái)增強(qiáng)網(wǎng)絡(luò)的泛化能力，在CUB-200-2011 數(shù)據(jù)集上獲得了89.28%的分類(lèi)精度。Li等人[59]提出了屬性混合（atrribute mix），一種屬性級(jí)的數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)充細(xì)粒度樣本，其原理是在細(xì)粒度子類(lèi)別之間共享屬性特征，并且可以在圖像之間無(wú)縫傳輸。屬性混合是一種簡(jiǎn)單但有效的增強(qiáng)策略，可以在不增加推理預(yù)算的基礎(chǔ)上顯著提高識(shí)別性能，若與最先進(jìn)的細(xì)粒度識(shí)別方法相結(jié)合，可以進(jìn)一步提高性能。Xie 等人[52]提出了使用GAN 來(lái)擴(kuò)充數(shù)據(jù)集，也是常用的一種數(shù)據(jù)增強(qiáng)策略，將GAN 生成的圖像與原始的訓(xùn)練數(shù)據(jù)結(jié)合，更好地執(zhí)行細(xì)粒度圖像分類(lèi)任務(wù)，獲得更好的分類(lèi)性能。

2.4 在復(fù)雜場(chǎng)景下的細(xì)粒度圖像分類(lèi)

在復(fù)雜場(chǎng)景下的細(xì)粒度圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究方向，并已經(jīng)取得了一定的研究成果。行人重識(shí)別任務(wù)是常見(jiàn)的復(fù)雜場(chǎng)景下的細(xì)粒度分類(lèi)的應(yīng)用。大多數(shù)先進(jìn)的行人重識(shí)別方法，通常由三重?fù)p失驅(qū)動(dòng)組成，不能有效地學(xué)習(xí)細(xì)粒度特征，因?yàn)檫@些方法更關(guān)注區(qū)分巨大的外觀差異。為了解決這個(gè)問(wèn)題，Yan 等人[60]引入了一個(gè)新的成對(duì)損失函數(shù)，通過(guò)自適應(yīng)地對(duì)差異小的圖像強(qiáng)制指數(shù)懲罰和對(duì)差異大的圖像強(qiáng)制有界懲罰，使得模型能夠更好地學(xué)習(xí)細(xì)粒度特征。在數(shù)據(jù)集[61-63]上的實(shí)驗(yàn)結(jié)果表明，所提出的損失函數(shù)在很大程度上優(yōu)于常用的損失函數(shù)，并且顯著地提升了學(xué)習(xí)效率。Han 等人[64]提出了一種補(bǔ)充強(qiáng)化注意網(wǎng)絡(luò)，在行人重識(shí)別任務(wù)中學(xué)習(xí)多種判別特征的嵌入。作者們提出的空間互補(bǔ)性和特征空間互補(bǔ)性保證了多樣行動(dòng)特征可以通過(guò)不同的分支學(xué)習(xí)，此外還采用自適應(yīng)加權(quán)策略進(jìn)行特征融合，在低維特征下得到了比高維特征更有競(jìng)爭(zhēng)力的結(jié)果。該方法的優(yōu)越性在數(shù)據(jù)集[61-63]上得到了證明。謝彭宇等人[65]提出了一種基于多尺度聯(lián)合學(xué)習(xí)的行人重識(shí)別方法，通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，由于細(xì)粒度局部分支充分利用了不相鄰部件間的相關(guān)性，比起兩種不同粒度的全局分支，細(xì)粒度局部分支顯著地提升了模型的魯棒性，并且對(duì)模型的性能有更大的提升。通過(guò)對(duì)各個(gè)部件之間不同尺度下的潛在關(guān)系的挖掘，結(jié)合全局特征形成了更有判別力的行人特征，該方法在三個(gè)主流的行人重識(shí)別數(shù)據(jù)集[61-63]上實(shí)現(xiàn)了先進(jìn)的性能。

細(xì)粒度動(dòng)作識(shí)別任務(wù)中，針對(duì)視頻舞蹈動(dòng)作的識(shí)別，韓婷婷[66]提出了一種動(dòng)作顯著約束的深度卷積特征描述子，同時(shí)將視覺(jué)關(guān)注機(jī)制引入到細(xì)粒度動(dòng)作的表示方法中。研究證明，該方法能從更有分辨力的空間區(qū)域進(jìn)行特征提取，使得特征描述子對(duì)于局部的表現(xiàn)和運(yùn)動(dòng)模式中存在的微小差異更加敏銳，對(duì)比傳統(tǒng)的網(wǎng)絡(luò)表示方法，識(shí)別性能大幅度提高。

細(xì)粒度圖像分類(lèi)也已經(jīng)廣泛應(yīng)用于復(fù)雜場(chǎng)景下的車(chē)輛識(shí)別任務(wù)。李寬寬等人[67]提出了雙線(xiàn)性聚合殘差注意力的細(xì)粒度圖像分類(lèi)模型。在原雙線(xiàn)性CNN基礎(chǔ)上，把原有特征提取子網(wǎng)絡(luò)轉(zhuǎn)變?yōu)楦邔W(xué)習(xí)能力的聚合殘差網(wǎng)絡(luò)，來(lái)提升網(wǎng)絡(luò)的特征捕獲能力，方法在Stanford Cars 細(xì)粒度圖像數(shù)據(jù)集上分類(lèi)精度達(dá)到94.70%，性能優(yōu)于大多數(shù)主流模型方法。Xiang 等人[68]提出了一種用于細(xì)粒度車(chē)輛識(shí)別的全局拓?fù)浼s束網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用了全局拓?fù)潢P(guān)系約束來(lái)描述零件之間的相互作用，并將其集成到CNN 中。零件之間的拓?fù)潢P(guān)系被編碼為深度卷積層，從訓(xùn)練中學(xué)到圖片，通過(guò)培訓(xùn)整個(gè)網(wǎng)絡(luò)，核的梯度信息的反向傳播全局拓?fù)潢P(guān)系將引導(dǎo)前幾層變得更好檢測(cè)有用的零件，從而提高車(chē)輛識(shí)別能力。該網(wǎng)絡(luò)在Stanford Cars和CompCars 數(shù)據(jù)集上，均達(dá)到了較好的性能。Fang等人[69]提出了細(xì)粒度的卷積神經(jīng)網(wǎng)絡(luò)框架對(duì)車(chē)輛進(jìn)行識(shí)別。該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖，從特征圖映射到輸入圖像來(lái)定位區(qū)域，區(qū)域重復(fù)被細(xì)化提煉，最后在ComCars 數(shù)據(jù)集上達(dá)到98.29%的識(shí)別精度。Li 等人[70]提出了一種新的雙重交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)證明所提出的損失函數(shù)改善了細(xì)粒度車(chē)輛分類(lèi)性能，在Stanford Cars-196 數(shù)據(jù)集獲得了較好的性能。Huang 等人[71]結(jié)合了顏色和模型，以及三重分類(lèi)損失提出了雙重域多任務(wù)模型，實(shí)現(xiàn)細(xì)粒度距離測(cè)量，提高了車(chē)輛識(shí)別準(zhǔn)確性。

3 總結(jié)與展望

本文從細(xì)粒度圖像分類(lèi)的意義出發(fā)，介紹了細(xì)粒度圖像分類(lèi)算法的研究現(xiàn)狀。從基于強(qiáng)監(jiān)督和弱監(jiān)督兩個(gè)角度，介紹了幾種典型的基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法。表2 總結(jié)了上述典型的算法在數(shù)據(jù)集CUB-200-2011 上的性能表現(xiàn)，并說(shuō)明了算法所需要的標(biāo)注信息。

基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)雖然已經(jīng)取得了突破性的進(jìn)展，但是依然面臨以下挑戰(zhàn)：

（1）數(shù)據(jù)集規(guī)模小，標(biāo)注與類(lèi)別數(shù)量有限。

（2）在自然環(huán)境下，在光照、遮擋、模糊和低分辨率等復(fù)雜場(chǎng)景下的圖像識(shí)別在當(dāng)前的學(xué)術(shù)研究中較為欠缺，影響到細(xì)粒度分類(lèi)的現(xiàn)實(shí)應(yīng)用。

Table 2 Performance of different algorithms on CUB-200-2011 dataset表2 CUB-200-2011 數(shù)據(jù)庫(kù)上的算法性能比較

對(duì)于未來(lái)的發(fā)展方向，可以從以下幾方面考慮：

（1）對(duì)自然環(huán)境中輪廓不清晰、無(wú)明顯對(duì)象的研究。細(xì)粒度圖像算法的研究對(duì)象一般為鳥(niǎo)類(lèi)、汽車(chē)、飛機(jī)等具有明顯形態(tài)或輪廓的物體，這類(lèi)研究對(duì)象具有相對(duì)固定的外觀特征。但是針對(duì)自然環(huán)境中的巖石標(biāo)本、植物圖像標(biāo)本等輪廓不明確、無(wú)明顯部件構(gòu)成的對(duì)象，很少有細(xì)粒度圖像分類(lèi)的相關(guān)研究。

（2）細(xì)粒度的小樣本學(xué)習(xí)。細(xì)粒度圖像分類(lèi)對(duì)訓(xùn)練集的要求很高，需要大量可靠的標(biāo)簽數(shù)據(jù)集，因此需要相應(yīng)領(lǐng)域?qū)＜业氖止?biāo)記，這一過(guò)程耗時(shí)且成本高，因此面對(duì)標(biāo)記數(shù)據(jù)缺乏的挑戰(zhàn)，如何高效利用小樣本進(jìn)行學(xué)習(xí)具有一定的發(fā)展意義。

（3）將遷移學(xué)習(xí)引入到細(xì)粒度圖像分類(lèi)中。目前，在數(shù)據(jù)庫(kù)中，針對(duì)前景對(duì)象突出，背景單一的圖像，細(xì)粒度圖像分類(lèi)算法實(shí)現(xiàn)了良好的分類(lèi)性能，但其在自然環(huán)境下存在一定的局限性。引入遷移學(xué)習(xí)，研究一些域自適應(yīng)的模型算法，在更現(xiàn)實(shí)的環(huán)境中進(jìn)行細(xì)粒度分析，以滿(mǎn)足細(xì)粒度圖像分類(lèi)的現(xiàn)實(shí)應(yīng)用的需求。

（4）有效利用細(xì)粒度圖像的多級(jí)標(biāo)簽體系蘊(yùn)含的豐富信息，可以提升細(xì)粒度圖像的分類(lèi)精度。在對(duì)細(xì)粒度圖像進(jìn)行子類(lèi)別劃分時(shí)，有時(shí)需要進(jìn)行多級(jí)劃分，同一細(xì)粒度對(duì)象包含不同層級(jí)的多個(gè)標(biāo)簽。

（5）自動(dòng)細(xì)粒度模型。自動(dòng)機(jī)器學(xué)習(xí)（auto machine learning，AutoML）和神經(jīng)架構(gòu)搜索（neural architecture searching，NAS）在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了研究者們的熱切關(guān)注。通過(guò)AutoML 和NAS 技術(shù)開(kāi)發(fā)的自動(dòng)細(xì)粒度模型可以找到更好的深度模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡