李祥霞,吉曉慧,李 彬
1.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院,廣州 510320
2.華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣州 510641
傳統(tǒng)的圖像分類(lèi)分為語(yǔ)義級(jí)圖像和實(shí)例級(jí)圖像這兩大類(lèi)[1]。語(yǔ)義級(jí)包括對(duì)象識(shí)別、場(chǎng)景識(shí)別等任務(wù),旨在識(shí)別不同類(lèi)別的圖像,如汽車(chē)和飛機(jī)等,隨著神經(jīng)網(wǎng)絡(luò)的數(shù)輪更新,研究者們發(fā)展出了分類(lèi)準(zhǔn)確率更高的、結(jié)構(gòu)更復(fù)雜的網(wǎng)絡(luò)用在ImageNet 為代表的語(yǔ)義級(jí)圖像分類(lèi)中。而實(shí)例級(jí)是對(duì)不同的個(gè)體進(jìn)行分類(lèi),其中最重要的研究?jī)?nèi)容當(dāng)屬人臉識(shí)別和指紋識(shí)別。其中,人臉識(shí)別已經(jīng)被大量應(yīng)用到人們的生活中,但仍存在表情變化引起的類(lèi)內(nèi)差距增大、遮擋引起的局部特征缺失等問(wèn)題。而細(xì)粒度圖像處于這兩者的中間狀態(tài),兼具了語(yǔ)義級(jí)圖像分類(lèi)特征難以提取和定位以及實(shí)例級(jí)圖像分類(lèi)中類(lèi)間差異小而類(lèi)內(nèi)差異大的問(wèn)題,但同時(shí)該領(lǐng)域的研究往往會(huì)大量借鑒前兩個(gè)領(lǐng)域的研究成果。
細(xì)粒度圖像分類(lèi)旨在區(qū)分同一類(lèi)別的子類(lèi)別,如識(shí)別出車(chē)的品牌、鳥(niǎo)的種類(lèi)、貓的品種等,也可叫作子類(lèi)別分類(lèi)。相較于對(duì)象識(shí)別等語(yǔ)義級(jí)圖像分類(lèi)任務(wù),細(xì)粒度圖像往往需要借助非常微小的局部差異才能區(qū)分出不同的類(lèi)別。和人臉識(shí)別等實(shí)例級(jí)分類(lèi)任務(wù)相比,細(xì)粒度圖像的類(lèi)內(nèi)差異更加巨大,并且受到姿勢(shì)、背景干擾、遮擋以及拍攝角度等因素的影響[2],加上細(xì)粒度數(shù)據(jù)集類(lèi)內(nèi)差異大而類(lèi)間差異小的特點(diǎn),使得細(xì)粒度圖像分類(lèi)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)極具挑戰(zhàn)力的任務(wù)。鑒于類(lèi)內(nèi)差異大而類(lèi)間差異小導(dǎo)致的分類(lèi)準(zhǔn)確率的下降的問(wèn)題和更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)帶來(lái)的計(jì)算復(fù)雜度的提升,提升細(xì)粒度圖像分類(lèi)的分類(lèi)準(zhǔn)確率和減少計(jì)算成本成了當(dāng)前圖像分類(lèi)領(lǐng)域的兩個(gè)重要的研究方向。
傳統(tǒng)的基于特征提取的細(xì)粒度圖像分類(lèi)算法主要是利用人工構(gòu)建的算子進(jìn)行圖像特征提取,但是其提取特征能力較弱,并且提取到的特征表達(dá)能力比較有限,因此該算法具有一定的局限性。隨著計(jì)算機(jī)硬件的發(fā)展以及互聯(lián)網(wǎng)的發(fā)展帶來(lái)的信息爆炸,研究者們發(fā)現(xiàn)Hinton 在1986 年提出的基于反向傳播的神經(jīng)網(wǎng)絡(luò)方法在海量數(shù)據(jù)以及巨大計(jì)算能力的支持下,能夠?qū)崿F(xiàn)自動(dòng)提取特征并根據(jù)這些特征實(shí)現(xiàn)圖片的準(zhǔn)確分類(lèi)。從此,圖像分類(lèi)任務(wù)進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)的時(shí)代,深度學(xué)習(xí)也被越來(lái)越多地提及。近年來(lái),隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的圖像分類(lèi)逐步成為研究熱點(diǎn),細(xì)粒度圖像分類(lèi)也得到了長(zhǎng)足的發(fā)展。深度學(xué)習(xí)在特征提取方面展現(xiàn)出其獨(dú)特的優(yōu)勢(shì)和潛力,在使用的過(guò)程中,需要順應(yīng)細(xì)粒度圖像數(shù)據(jù)庫(kù)本身的特點(diǎn),同時(shí)參考研究者們?cè)谙嗨频臄?shù)據(jù)庫(kù)中用到的方法以構(gòu)建合適的分類(lèi)框架,才能獲得更好的分類(lèi)性能,而不是一味擴(kuò)充數(shù)據(jù)庫(kù)以及構(gòu)建更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。
本文首先概述了細(xì)粒度圖像分類(lèi),并介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫(kù)。然后,從基于強(qiáng)監(jiān)督和弱監(jiān)督學(xué)習(xí)這兩方面,分別介紹了幾種典型的細(xì)粒度圖像分類(lèi)算法以及研究現(xiàn)狀。最后,討論了基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法的未來(lái)研究方向和面臨的挑戰(zhàn)。
細(xì)粒度圖像分類(lèi)實(shí)質(zhì)是定位到目標(biāo)及局部區(qū)域,對(duì)局部區(qū)域進(jìn)行特征提取,對(duì)提取到的特征進(jìn)行處理,來(lái)完成分類(lèi)器的訓(xùn)練和檢測(cè)。這種分類(lèi)任務(wù)最大的難點(diǎn)在于細(xì)粒度圖像的信噪比很小,類(lèi)別差異通常只存在于很細(xì)小的局部區(qū)域中,而找到這些細(xì)小的局部區(qū)域,對(duì)其進(jìn)行準(zhǔn)確的區(qū)分是算法成功的關(guān)鍵。
細(xì)粒度圖像分類(lèi)在許多領(lǐng)域都有著非常普遍的研究需求和應(yīng)用場(chǎng)景。例如,胸部病灶的病理形態(tài)、位置、大小等具有多樣性和較大的差異性,并且一些疾病樣本的比例也不平衡,因而不同類(lèi)型的胸部疾病分類(lèi)也屬于細(xì)粒度圖像分類(lèi)問(wèn)題。目前,此類(lèi)工作主要依賴(lài)于放射科醫(yī)生的人工觀察,易受到胸部病理特征臨床表現(xiàn)多樣性、放射科醫(yī)師閱片疲勞和缺乏臨床經(jīng)驗(yàn)等因素影響,會(huì)造成誤診、漏診的現(xiàn)象。
在細(xì)粒度圖像分類(lèi)任務(wù)中,許多算法過(guò)分依賴(lài)于人工標(biāo)注信息。常用的標(biāo)注信息主要是指標(biāo)注框(bounding box)以及局部區(qū)域位置信息(part locations)等,在檢測(cè)前景對(duì)象時(shí)使用標(biāo)注框,可以消除背景噪聲的干擾;局部區(qū)域位置信息可以用來(lái)實(shí)現(xiàn)局部區(qū)域的定位,或是姿態(tài)對(duì)齊等操作,以完成局部特征的提取。這些人工標(biāo)注信息由于獲取不易,算法的實(shí)用性較弱?,F(xiàn)在越來(lái)越多的算法傾向于使用類(lèi)別標(biāo)簽等來(lái)完成分類(lèi)任務(wù)。
近幾年來(lái),細(xì)粒度圖像分類(lèi)取得了飛速的發(fā)展,從傳統(tǒng)的人工提取特征及分類(lèi)器設(shè)計(jì),逐漸朝著基于端到端的神經(jīng)網(wǎng)絡(luò)的方向發(fā)展。傳統(tǒng)的細(xì)粒度圖像分類(lèi)算法主要包括三個(gè)步驟:特征定位、特征提取和分類(lèi)器。這類(lèi)算法通常先是在訓(xùn)練集中找到特征點(diǎn)的位置信息,再用這些特征點(diǎn)的位置信息去提取測(cè)試圖片的局部區(qū)域,然后用人工提取的特征對(duì)局部區(qū)域進(jìn)行特征提取,最后將提取到的特征放到分類(lèi)器中。端到端細(xì)粒度圖像分類(lèi)算法也可以分為三個(gè)步驟:特征區(qū)域定位、局部特征切割和分類(lèi)神經(jīng)網(wǎng)絡(luò)。圖1 是端到端的細(xì)粒度圖像分類(lèi)算法的典型流程圖。該算法采用共享的卷積層神經(jīng)網(wǎng)絡(luò)的底層提取圖片中的信息,將提取到的特征送入?yún)^(qū)域檢測(cè)子網(wǎng)絡(luò)和分類(lèi)子網(wǎng)絡(luò),然后在檢測(cè)子網(wǎng)絡(luò)中利用選擇性搜索、K-近鄰等算法進(jìn)行候選區(qū)域的篩選,然后在這些區(qū)域中利用Fast R-CNN(fast region-convolutional neural network)等算法挑選出置信度最高的局部區(qū)域,將這些局部區(qū)域的位置信息送入到分類(lèi)子網(wǎng)絡(luò)中,然后利用特征圖切割的方式將對(duì)應(yīng)位置的特征提取出來(lái)送入到全連接層從而得到最終的分類(lèi)結(jié)果。
Fig.1 Typical flowchart of end-to-end fine-grained image classification algorithm圖1 端到端的細(xì)粒度圖像分類(lèi)算法的典型流程圖
與傳統(tǒng)細(xì)粒度圖像分類(lèi)算法相比,端到端的分類(lèi)算法特殊在于特征提取的部分,神經(jīng)網(wǎng)絡(luò)對(duì)圖片的特征信息的提取能力遠(yuǎn)遠(yuǎn)超過(guò)人工構(gòu)建的特征,神經(jīng)網(wǎng)絡(luò)在分類(lèi)任務(wù)中是一個(gè)前后相同的整體,低層的特征受到分類(lèi)結(jié)果反向傳播的影響,因此趨向于尋找最有判別能力的特征。神經(jīng)網(wǎng)絡(luò)的特征提取都是經(jīng)過(guò)了大量的計(jì)算被證實(shí)對(duì)分類(lèi)結(jié)果有顯著影響的特征,因此自然比人工構(gòu)建的特征提取算法提取到的特征更有判別能力?,F(xiàn)在最常用的是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)圖像進(jìn)行特征提取。卷積神經(jīng)網(wǎng)絡(luò)無(wú)需復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程,且提取到的特征更具有特征表達(dá)和判別能力,已經(jīng)廣泛應(yīng)用于圖像分類(lèi)[3-4]、行為識(shí)別[5-6]、圖像描述[7-8]、圖像檢索[9-10]等領(lǐng)域。
細(xì)粒度圖像數(shù)據(jù)集通常需要專(zhuān)業(yè)領(lǐng)域的專(zhuān)家知識(shí)才能完成數(shù)據(jù)的采集和標(biāo)注,因此數(shù)據(jù)集的獲取難度更大。本節(jié)介紹了幾種常用的細(xì)粒度圖像數(shù)據(jù)庫(kù),并在表1 展示了這些數(shù)據(jù)庫(kù)的具體類(lèi)別和大小。
Table 1 Fine-grained image datasets表1 常用細(xì)粒度圖像數(shù)據(jù)庫(kù)
CUB-200-2011[11]數(shù)據(jù)庫(kù):此數(shù)據(jù)庫(kù)是2011 年加利福尼亞理工學(xué)院推出的鳥(niǎo)類(lèi)細(xì)粒度圖像分類(lèi)數(shù)據(jù)庫(kù)。CUB-200-2011 是細(xì)粒度圖像分類(lèi)任務(wù)中最常用的數(shù)據(jù)庫(kù)。
Car-196[12]數(shù)據(jù)庫(kù):Car-196 是2013 年Stanford University 在ICCV 會(huì)議上推出的汽車(chē)類(lèi)細(xì)粒度圖像分類(lèi)數(shù)據(jù)庫(kù),車(chē)的品牌、型號(hào)以及年份都會(huì)影響對(duì)車(chē)輛類(lèi)別的劃分。提供了196 類(lèi)車(chē)輛圖像數(shù)據(jù),只提供了標(biāo)注框信息。
FGVC-Aircraft[13]數(shù)據(jù)庫(kù):FGVC-Aircraft 是2013年ICCV 上作為在ImageNet 細(xì)粒度分類(lèi)挑戰(zhàn)大賽的一部分推出的。提供了102 類(lèi)不同的飛機(jī)照片,整個(gè)數(shù)據(jù)庫(kù)包含10 200 張圖片,只提供了標(biāo)注框信息。此數(shù)據(jù)庫(kù)的分類(lèi)難度較大,由于外觀相似,飛機(jī)類(lèi)別的劃分依賴(lài)于噴漆或是細(xì)微的外形差異。
目前,基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法主要采用卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)是由LeCun于1998 年提出的,設(shè)計(jì)靈感來(lái)源于對(duì)動(dòng)物神經(jīng)元的研究,其本質(zhì)是多層感知機(jī)的變種,它采用局部連接和共享權(quán)值的方式,不但減少了權(quán)值的數(shù)量使得網(wǎng)絡(luò)易于優(yōu)化,同時(shí)降低了過(guò)擬合的風(fēng)險(xiǎn)。
目前,常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要有AlexNet、VGGNet、GoogleNet 和ResNet。2012 年,Alex 等人提出了AlexNet 模型[14],使得卷積神經(jīng)網(wǎng)絡(luò)以及深度學(xué)習(xí)逐漸在圖像、語(yǔ)音等領(lǐng)域大放異彩。AlexNet 網(wǎng)絡(luò)使用層疊的卷積層,解決了網(wǎng)絡(luò)深度問(wèn)題,使得網(wǎng)絡(luò)學(xué)習(xí)到更有判別能力的圖像特征。牛津大學(xué)視覺(jué)幾何組和谷歌DeepMind 公司的研究院共同提出了VGGNet 模型[15],其中最為廣泛應(yīng)用的是VGG-16 和VGG-19 網(wǎng)絡(luò)。2014 年,Szegedy 等人提出GoogleNet模型[16-18],利用多種卷積運(yùn)算進(jìn)行組合的方法,形成一個(gè)個(gè)功能單元,以便在相同的計(jì)算量下獲得更多的特征。ResNet 模型[19]是由微軟人工智能團(tuán)隊(duì)提出的新型深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其通過(guò)層與層的跳躍連接,訓(xùn)練出更深的網(wǎng)絡(luò),緩解了梯度消失問(wèn)題。
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法主要分為兩種:基于強(qiáng)監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)分類(lèi)算法。
基于強(qiáng)監(jiān)督學(xué)習(xí)指的是利用數(shù)據(jù)集中給出的所有標(biāo)注(邊框以及全部特征點(diǎn)信息)來(lái)對(duì)測(cè)試集中圖片的特征點(diǎn)進(jìn)行定位,再對(duì)定位到的特征區(qū)域進(jìn)行進(jìn)一步的處理,進(jìn)而得到最終的分類(lèi)結(jié)果,能夠提高分類(lèi)的準(zhǔn)確率和有效性。
Zhang等人[20]在2014年提出了基于局部的R-CNN(Part-based R-CNNs)細(xì)粒度圖像分類(lèi)算法,通過(guò)自底向上的候選區(qū)域生成方法和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法相配合進(jìn)行物體檢測(cè),然后將這些目標(biāo)區(qū)域進(jìn)行姿態(tài)歸一化并提取特征,最后將提取到的特征送入支持向量機(jī)(support vector machine,SVM)分類(lèi)器進(jìn)行分類(lèi)。該分類(lèi)框架的分類(lèi)準(zhǔn)確率超越了先前所提出的基于中層表征的、基于姿態(tài)標(biāo)準(zhǔn)化描述符的細(xì)粒度圖形分類(lèi)方法等。該算法也奠定了其后幾年的細(xì)粒度圖像分類(lèi)的基礎(chǔ),使得其后的基于“強(qiáng)監(jiān)督”的細(xì)粒度圖像分類(lèi)算法基本都是遵從這樣一個(gè)局部區(qū)域檢測(cè)、局部區(qū)域特征點(diǎn)提取以及最后的特征分類(lèi)這種流程。然而,該算法也存在著一些缺點(diǎn),自底向上的區(qū)域定位方法,會(huì)產(chǎn)生大量的無(wú)關(guān)區(qū)域,大幅度限制了算法的速度。由于姿態(tài)問(wèn)題會(huì)對(duì)分類(lèi)造成極大干擾。為了解決這個(gè)問(wèn)題,Branson 等人[21]提出了姿態(tài)歸一化的CNN(pose normalized CNN)模型,針對(duì)提取的不同層次的局部信息,進(jìn)行姿態(tài)對(duì)齊操作,提取到不同層的卷積特征。
Part-based R-CNNs 模型自下而上的區(qū)域合并方法學(xué)習(xí)部位檢測(cè)器,會(huì)產(chǎn)生大量的無(wú)關(guān)區(qū)域。在常見(jiàn)的鳥(niǎo)類(lèi)目標(biāo)分類(lèi)任務(wù)中,“Part-based R-CNNs”利用姿態(tài)歸一化,通過(guò)不同的網(wǎng)絡(luò)檢測(cè)鳥(niǎo)的頭、身體等部位并合成一個(gè)特征向量,再使用SVM 進(jìn)行訓(xùn)練,這種檢測(cè)辦法損失了各個(gè)部位的相關(guān)性。為了解決這個(gè)問(wèn)題,Zhang 等人[22]提出了SPDA-CNN(semantic part detection and abstraction-CNN),分別從候選區(qū)域生成、局部區(qū)域的增加、特征提取及改變最終分類(lèi)網(wǎng)對(duì)原網(wǎng)絡(luò)進(jìn)行了改進(jìn)。該算法包含兩個(gè)網(wǎng)絡(luò):檢測(cè)子網(wǎng)絡(luò)和分類(lèi)子網(wǎng)絡(luò)。檢測(cè)子網(wǎng)絡(luò)是用自上而下的候選區(qū)域方法生成小的語(yǔ)義區(qū)域的候選。分類(lèi)子網(wǎng)絡(luò)是在檢測(cè)子網(wǎng)絡(luò)生成的候選區(qū)域中進(jìn)行特征提取,然后進(jìn)行分類(lèi)。為了檢測(cè)到語(yǔ)義對(duì)象的細(xì)小候選區(qū)域,該算法利用K-近鄰生成候選區(qū)域的方法,通過(guò)添加幾何限制來(lái)減小生成候選區(qū)域的數(shù)量,生成包含更有效的局部信息的候選區(qū)域。檢測(cè)網(wǎng)絡(luò)將K-近鄰給出的候選區(qū)域用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法(Fast R-CNN)進(jìn)行區(qū)域回歸。SPDA-CNN 添加到幾何限制在更細(xì)小的語(yǔ)義級(jí)的局部區(qū)域中生成了候選區(qū)域,比Part-based R-CNNs 生成候選區(qū)域用到的選擇性搜索[23]生成的區(qū)域數(shù)量降低了一個(gè)數(shù)量級(jí)。在CUB-200-2011 數(shù)據(jù)集上取得了85.14%的分類(lèi)結(jié)果。
Wei 等人[24]提出了Mask-CNN 模型,不同于Partbased R-CNNs 的細(xì)粒度分類(lèi)算法直接利用卷積特征的做法,Mask-CNN 模型對(duì)深度卷積特征進(jìn)行了評(píng)估和篩選,它是第一個(gè)端到端的選擇深度卷積描述符(deep descriptor)模型。很多基于局部定位的算法,如Part-based R-CNNs[20]、Part-stacked CNN[25]等,都是直接使用深度卷積描述符,然后將其編碼到單個(gè)的特征表示中,而沒(méi)有對(duì)這些獲得的深度卷積描述符進(jìn)行評(píng)估。Mask-CNN 模型通過(guò)使用CNN,可以不用像對(duì)人工提取的特征一樣在特征向量中篩選出有效特征,但是需要選出有用的卷積描述符。Mask-CNN 模型丟棄了全連接層,利用了更少的特征維數(shù),提升了推理速度,使得網(wǎng)絡(luò)計(jì)算效率更高。在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),不需要標(biāo)注框信息,僅依靠局部標(biāo)注信息(part annotations)和類(lèi)別標(biāo)簽(image-level labels)就在CUB-200-2011 數(shù)據(jù)集上獲得了較好的分類(lèi)性能。
這些基于強(qiáng)監(jiān)督學(xué)習(xí)方法雖然獲得了較好的分類(lèi)結(jié)果,但是它們往往嚴(yán)重依賴(lài)于大量的人工標(biāo)注信息來(lái)完成建模和分類(lèi)預(yù)測(cè),人工標(biāo)注的數(shù)據(jù)很難獲取且所付出的代價(jià)昂貴,這將會(huì)影響細(xì)粒度圖像分類(lèi)在應(yīng)用領(lǐng)域的使用和發(fā)展。
近幾年,基于弱監(jiān)督學(xué)習(xí)已經(jīng)成為基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)方法的研究趨勢(shì),其舍棄了數(shù)據(jù)庫(kù)中提供的人工標(biāo)注信息,轉(zhuǎn)而依靠注意力模型、雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)等方法去定位圖片中的關(guān)鍵區(qū)域,通過(guò)多尺度的方法來(lái)獲得較為完整的全局和局部區(qū)域的特征,不但減少了人工標(biāo)注的格外數(shù)據(jù)成本,同時(shí)更加符合實(shí)際應(yīng)用需求。
2.2.1 基于注意力模型的細(xì)粒度圖像分類(lèi)
兩級(jí)注意力算法[26]是第一個(gè)嘗試不利用人工標(biāo)注信息,只使用類(lèi)別標(biāo)簽的細(xì)粒度圖像分類(lèi)方法。此算法主要關(guān)注對(duì)象級(jí)和局部級(jí)兩個(gè)層次的特征,其實(shí)也就是強(qiáng)監(jiān)督模型中的標(biāo)注框和局部區(qū)域位置信息。其中對(duì)象級(jí)模型是針對(duì)對(duì)象級(jí)圖像進(jìn)行分類(lèi)。將經(jīng)過(guò)預(yù)處理得到的包含多個(gè)候選區(qū)域的圖片,用來(lái)從頭開(kāi)始訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。經(jīng)過(guò)卷積網(wǎng)絡(luò)之后,得到一個(gè)Softmax 層的輸出,對(duì)所有區(qū)域的輸出進(jìn)行平均,作為Softmax 層的最終輸出。在獲得局部區(qū)域特征后,將其連在一起得到一個(gè)特征向量,用來(lái)訓(xùn)練SVM 分類(lèi),最后結(jié)合對(duì)象級(jí)模型的預(yù)測(cè)結(jié)果和局部級(jí)模型的結(jié)果,作為兩級(jí)注意力模型的最終輸出。該算法在Alex-Net 網(wǎng)絡(luò)結(jié)構(gòu)上準(zhǔn)確率達(dá)到了69.7%,若采用網(wǎng)絡(luò)深度和通道數(shù)量更多的VGG-Net 構(gòu)架,分類(lèi)的準(zhǔn)確率能提升到77.9%。由于兩級(jí)注意力模型局部區(qū)域的檢測(cè)是通過(guò)聚類(lèi)算法得到的,分類(lèi)精度低于同樣使用AlexNet 的強(qiáng)監(jiān)督的Part-based R-CNNs算法。
許多弱監(jiān)督分類(lèi)方法[27-32]雖然訓(xùn)練時(shí)只需要類(lèi)別標(biāo)簽,但是這些方法在執(zhí)行過(guò)程中,在對(duì)象定位任務(wù)中出現(xiàn)錯(cuò)誤,就會(huì)嚴(yán)重影響到分類(lèi)效果。由于這些方法無(wú)法利用GPUs 進(jìn)行并行計(jì)算,計(jì)算速度較慢?;趦?yōu)化特征表示的方法也有很多優(yōu)秀的算法,比如通過(guò)優(yōu)化主干網(wǎng)絡(luò)[33]、特征提取結(jié)構(gòu)[34]、數(shù)據(jù)增強(qiáng)[35]、遷移學(xué)習(xí)[36]等來(lái)獲得更好的特征表示的方法。但這些方法也存在缺點(diǎn),首先一個(gè)有效的方法是應(yīng)該將不同的中級(jí)信息與最后輸出融合起來(lái),在不同情況下都應(yīng)該完全利用到不同的輸出結(jié)果。其次,一般的預(yù)訓(xùn)練遷移學(xué)習(xí)可能表現(xiàn)較差,而在特定領(lǐng)域遷移學(xué)習(xí)表現(xiàn)較好,但需要花費(fèi)大量時(shí)間對(duì)每個(gè)細(xì)粒度數(shù)據(jù)集在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
Zhu 等人[37]提出了一種新型的基于CNN 的級(jí)聯(lián)注意力網(wǎng)絡(luò)模型。這個(gè)方法利用了空間混淆注意力來(lái)區(qū)分輸入圖像的模糊區(qū)域。這個(gè)模型包括三部分:空間混淆注意力模塊、交叉網(wǎng)絡(luò)注意力和網(wǎng)絡(luò)融合注意力模塊。所有的模塊可以一起工作,進(jìn)行端到端的訓(xùn)練優(yōu)化,其中利用到了全局注意力池化來(lái)使用空間混淆注意力,其收到來(lái)自CNN1 的注意力二進(jìn)制掩膜,然后把它當(dāng)作過(guò)濾器,從而讓CNN2 去注意已篩選過(guò)的區(qū)域。不同于之前所提出的注意力機(jī)制方法[27,29,32],這個(gè)方法的骨干網(wǎng)絡(luò)是完全并行運(yùn)行的,使其獲得了更好的泛化能力和更快的計(jì)算速度。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了90.8%的準(zhǔn)確率。
Fig.2 Architecture of attribute guided attention network圖2 屬性引導(dǎo)的注意力網(wǎng)絡(luò)結(jié)構(gòu)
Yan 等人[38]利用漸進(jìn)特征學(xué)習(xí)的方法來(lái)對(duì)細(xì)粒度進(jìn)行分類(lèi),其網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩個(gè)階段:第一個(gè)階段設(shè)計(jì)了一個(gè)屬性指導(dǎo)的注意力網(wǎng)絡(luò),用來(lái)發(fā)現(xiàn)和對(duì)齊有區(qū)分度的局部特征;第二個(gè)階段采用一個(gè)多尺度主動(dòng)融合網(wǎng)絡(luò)來(lái)分類(lèi),聚合注意力區(qū)域中有區(qū)別的特征。與傳統(tǒng)融合算法相比,所提出的主動(dòng)漸進(jìn)融合網(wǎng)絡(luò)對(duì)候選噪聲區(qū)域具有較強(qiáng)的魯棒性,并且融合的圖像表示的判別能力并沒(méi)有降低。同時(shí),將這兩個(gè)階段集成到一個(gè)單一的框架中,使整個(gè)系統(tǒng)可以共同訓(xùn)練。很多模型[39-43]使用了局部檢測(cè)網(wǎng)絡(luò)算法,提取大量的局部區(qū)域來(lái)訓(xùn)練CNN 網(wǎng)絡(luò),針對(duì)復(fù)雜的問(wèn)題擴(kuò)展性不好,并且需要大量的人工標(biāo)注信息訓(xùn)練局部檢測(cè)網(wǎng)絡(luò),而該模型不存在這種局限。一些使用Fisher Vector 或者最大/平均池化進(jìn)行對(duì)齊的算法也存在丟失大量語(yǔ)義和空間關(guān)系信息的缺點(diǎn)。相比于傳統(tǒng)的注意力模型,兩級(jí)注意力[26]缺乏強(qiáng)監(jiān)督信息的指導(dǎo),因此在很多情況下也不能準(zhǔn)確定位到有用的局部區(qū)域。而Yan 等人[38]設(shè)計(jì)的由屬性引導(dǎo)的注意力網(wǎng)絡(luò)采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),比如LSTM(long short-term memory)[44],將判別信息從第一個(gè)節(jié)點(diǎn)累積到最深層的節(jié)點(diǎn),從而產(chǎn)生具有高度判別力的對(duì)象級(jí)特征表示。如果當(dāng)前局部區(qū)域不能提供足夠的有區(qū)分的信息,就轉(zhuǎn)向?qū)ο蟮南乱粋€(gè)局部區(qū)域。該算法僅僅依靠標(biāo)簽屬性,在CUB-200-2011 數(shù)據(jù)集上獲得了85.1%的分類(lèi)結(jié)果。圖2 是Yan 等人提出的網(wǎng)絡(luò)結(jié)構(gòu)。
2.2.2 雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)
Lin 等人[45]設(shè)計(jì)了一種雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型,在整體上實(shí)現(xiàn)了端到端的訓(xùn)練優(yōu)化。圖3 是雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型,其包含了兩個(gè)特征提取器,輸出后經(jīng)過(guò)外積相乘,進(jìn)行池化后得到圖像描述算符。
Fig.3 Bilinear CNN model圖3 雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)模型
從圖3 中可以看出,模型的前半部分是普通的卷積層和池化層,只需求得后半部分的梯度值,即可完成整個(gè)模型端到端訓(xùn)練。雙線(xiàn)性CNN 模型中CNN網(wǎng)絡(luò)A 的作用是對(duì)物體進(jìn)行定位,也就是檢測(cè)前景對(duì)象和局部區(qū)域,而CNN 網(wǎng)絡(luò)B 是對(duì)CNN 網(wǎng)絡(luò)A 定位到的物體位置進(jìn)行特征提取。兩個(gè)網(wǎng)絡(luò)之間相互協(xié)調(diào)作用,在整體上完成了模型端到端的訓(xùn)練過(guò)程。該算法在CUB-200-2011 數(shù)據(jù)集上獲得了84.1%的分類(lèi)精度。雙線(xiàn)性CNN 模型是第一個(gè)可以端到端訓(xùn)練的協(xié)方差池化網(wǎng)絡(luò)模型,它對(duì)協(xié)方差矩陣進(jìn)行L2 歸一化處理之后采用了元素平方根歸一化,沒(méi)有直接使用卷積特征,而是利用卷積特征和自己的外積作為其圖像表示,有力地推動(dòng)了細(xì)粒度分類(lèi)的進(jìn)步。而它的缺點(diǎn)是最后的圖像表示的維數(shù)過(guò)高,降低了雙線(xiàn)性CNN 模型的實(shí)用性。針對(duì)這個(gè)問(wèn)題,Gao 等人[46]提出了一種壓縮雙線(xiàn)性池化(compact bilinear pooling)模型,降低了特征向量的維數(shù),并同時(shí)確保了分類(lèi)的準(zhǔn)確率。
由于雙線(xiàn)性CNN 未能捕捉特征圖通道之間的非線(xiàn)性關(guān)系,使得卷積網(wǎng)絡(luò)的表達(dá)能力得不到充分利用。為了解決這個(gè)問(wèn)題,葛疏雨等人[47]提出了一種核化雙線(xiàn)性卷積網(wǎng)絡(luò)模型,利用核函數(shù)建模通道間的非線(xiàn)性關(guān)系,卷積網(wǎng)絡(luò)的表達(dá)能力大幅度提高,在數(shù)據(jù)集CUB-200-2011、Car-196、FGVC-Aircraft 上都獲得了優(yōu)異的分類(lèi)性能。
2.2.3 基于空間關(guān)系的模型
現(xiàn)在主流的細(xì)粒度圖像分類(lèi)主要分成基于局部定位和特征表示這兩種類(lèi)型?;诰植慷ㄎ坏姆椒▋H僅試圖定位圖像有用的局部區(qū)域,然后對(duì)這些區(qū)域提取特征,其難點(diǎn)就在于這些局部區(qū)域的標(biāo)注信息難以獲得。Krause 等人[48]提出的方法沒(méi)有直接使用這些局部定位,而是利用了局部區(qū)域中高度有序的空間信息,獲得了更多區(qū)分度的線(xiàn)索。而基于特征表示的方法需要產(chǎn)生有效的圖像表示,依賴(lài)深度卷積神經(jīng)網(wǎng)絡(luò)模型才能夠獲得良好的性能。在這些方法中,都沒(méi)有用到局部區(qū)域的空間關(guān)系。
Qi 等人[49]利用空間關(guān)系來(lái)對(duì)細(xì)粒度圖像進(jìn)行分類(lèi),主要分為兩部分:局部區(qū)域選擇和特征表示。前者利用局部區(qū)域之間的固有空間關(guān)系來(lái)選擇具有高判別力的局部區(qū)域?qū)Γ笳咛剿骶植繀^(qū)域之間的相互作用來(lái)描述選擇后的局部區(qū)域,并為細(xì)粒度圖像分類(lèi)構(gòu)建一個(gè)語(yǔ)義圖像級(jí)別的特征表示。
空間關(guān)系可以提供一個(gè)有用的語(yǔ)義特征來(lái)豐富特征表示的信息,同時(shí)幫助區(qū)分對(duì)象和背景。在以前的研究中,通??臻g關(guān)系是由人工來(lái)定義的,比如Bloch[50]拓?fù)潢P(guān)系和幾何關(guān)系的考慮。而Qi 等人[49]的研究是使用的局部區(qū)域之間的距離,利用空間關(guān)系就能捕獲局部區(qū)域更多有區(qū)分度的特征,并且不需要任何局部定位的人工標(biāo)注信息。圖4 顯示了不同特征維數(shù)對(duì)分類(lèi)準(zhǔn)確率的影響。從圖4 中可以看出,在維數(shù)達(dá)到6 000 之前,隨著特征表示維數(shù)的增加,分類(lèi)準(zhǔn)確率顯著提高,在超過(guò)6 000 之后趨于穩(wěn)定。相比于前面提到的雙線(xiàn)性CNN 和Compact 雙線(xiàn)性CNN 模型,該方法所用到的圖像特征維數(shù)顯著減少,在保證分類(lèi)精度的基礎(chǔ)上,提高了運(yùn)算速度。該算法在數(shù)據(jù)集CUB-200-2011 上獲得了85.5%的準(zhǔn)確率。
Fig.4 Influence of different dimensions on classification accuracy圖4 不同的特征維數(shù)對(duì)分類(lèi)準(zhǔn)確率的影響
2.2.4 其他模型
大多數(shù)的細(xì)粒度圖像算法都是針對(duì)輪廓清晰、有相對(duì)固定的外觀特征和明顯的部件構(gòu)成的對(duì)象。針對(duì)一些特定領(lǐng)域的沒(méi)有可分離的部件的子類(lèi)別圖像的研究,目前還比較少。Won 等人[51]提出了一個(gè)以對(duì)象級(jí)CNN 為基礎(chǔ)模型和多個(gè)局部級(jí)CNN 模型結(jié)合的多尺度CNN 算法,針對(duì)的識(shí)別對(duì)象是沒(méi)有可分離局部特征的圖像。該算法在多個(gè)食物數(shù)據(jù)集的圖像上進(jìn)行細(xì)粒度分類(lèi),利用不同的層次的食物細(xì)節(jié)來(lái)訓(xùn)練多個(gè)CNN。首先對(duì)象級(jí)CNN 通過(guò)使用對(duì)象級(jí)縮放因子對(duì)訓(xùn)練圖像進(jìn)行調(diào)整,將對(duì)象的外觀作為一個(gè)整體進(jìn)行學(xué)習(xí)。然后使用經(jīng)過(guò)訓(xùn)練的對(duì)象級(jí)CNN,根據(jù)調(diào)整后的圖像在不同的局部級(jí)尺度對(duì)局部級(jí)CNN 進(jìn)行微調(diào)。其中局部級(jí)CNN 的圖像調(diào)整需要更多的修剪,利用線(xiàn)性尺度隨機(jī)裁剪法,根據(jù)尺度可控參數(shù)的公式,設(shè)置合適的參數(shù),采用不同的尺度為局部級(jí)CNN 調(diào)整圖像的大小。該研究表明,通過(guò)尺度可控圖像調(diào)整方法訓(xùn)練的多尺度CNN 可以顯著提高食物數(shù)據(jù)集的識(shí)別性能,證明在不同尺度上調(diào)整圖像大小有助于多尺度CNN 學(xué)習(xí)不同層次的目標(biāo)細(xì)節(jié),而無(wú)需明確地將目標(biāo)分割成部分。
近些年生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)在圖像的多個(gè)領(lǐng)域取得了優(yōu)異的成果。其中,Xie 等人[52]將CNN 和GAN 結(jié)合在一起,利用GAN 來(lái)增強(qiáng)數(shù)據(jù)集。算法使用預(yù)先訓(xùn)練好的YOLO v2[53]對(duì)象檢測(cè)模型對(duì)原始數(shù)據(jù)集上的粗粒度對(duì)象進(jìn)行檢測(cè)和裁剪。其次,將裁剪后的圖像發(fā)送給GAN的生成器以生成更多的數(shù)據(jù),并為生成的圖像分配統(tǒng)一的標(biāo)簽,混合這些原始的真實(shí)圖像和生成的圖像后,將這些混合圖像輸入到一個(gè)CNN 分類(lèi)器和一個(gè)特征融合的CNN 分類(lèi)器中。如此,CNN 分類(lèi)器可以同時(shí)訓(xùn)練帶有真實(shí)標(biāo)簽和生成標(biāo)簽的圖像,實(shí)現(xiàn)了細(xì)粒度識(shí)別的良好正則化并且獲得了更有競(jìng)爭(zhēng)力的分類(lèi)性能。佘海龍等人[54]提出了三維CNN 模型應(yīng)用于高光譜遙感圖像分類(lèi),使用大步距卷積層替代池化層,引入L2 正則化、批量歸一化、Dropout等一系列的策略,在減少網(wǎng)絡(luò)參數(shù)的同時(shí)有效防止過(guò)擬合現(xiàn)象。引入圖像分類(lèi)中,并獲得了一定成果,大幅度降低了網(wǎng)絡(luò)模型的參數(shù)、計(jì)算量并提高了分類(lèi)的精度。此深度網(wǎng)絡(luò)方法可以思考引入到其他細(xì)粒度識(shí)別任務(wù)中,可以更好地提高分類(lèi)的準(zhǔn)確性和有效性。徐可文等人[55]綜述了近年來(lái)機(jī)器學(xué)習(xí)算法在超聲圖像領(lǐng)域的研究和應(yīng)用進(jìn)展,指出了深度學(xué)習(xí)在醫(yī)學(xué)影像領(lǐng)域開(kāi)展研究所面臨的困難與挑戰(zhàn)。
數(shù)據(jù)增強(qiáng)是擴(kuò)充數(shù)據(jù)的有效方法之一,可以有效地提高細(xì)粒度圖像分類(lèi)模型準(zhǔn)確率。Hu 等人[56]基于雙線(xiàn)性CNN 提出了雙線(xiàn)性注意力池化方法,對(duì)原圖進(jìn)行注意力式剪切、注意力式丟棄,以此得到隨著模型迭代更新變動(dòng)的增強(qiáng)數(shù)據(jù),這些新數(shù)據(jù)和原圖一起提高模型準(zhǔn)確率。該算法采用的是單一語(yǔ)義的數(shù)據(jù)增強(qiáng)方式,處理更復(fù)雜的細(xì)粒度識(shí)別任務(wù)存在缺少有效分類(lèi)信息的問(wèn)題。對(duì)此,譚潤(rùn)等人[57]結(jié)合雙線(xiàn)性注意力池化的優(yōu)勢(shì)構(gòu)建模塊提取雙語(yǔ)義數(shù)據(jù),和原圖一起以雙語(yǔ)義數(shù)據(jù)增強(qiáng)的方式提高模型分類(lèi)準(zhǔn)確率,在CUB-200-2011 數(shù)據(jù)集上獲得了89.5%的分類(lèi)準(zhǔn)確率。雖然該算法提升了分類(lèi)精度,但提升了模型復(fù)雜度,可能限制了模型在移動(dòng)端的應(yīng)用。丁文謙等人[58]在雙線(xiàn)性注意力池化模型的基礎(chǔ)上,提出了一種基于Xception 網(wǎng)絡(luò)的弱監(jiān)督數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò),用Xception 網(wǎng)絡(luò)替代原模型采用的Inception v3 作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò),利用深度可分離卷積替代普通CNN 生成注意力圖來(lái)引導(dǎo)數(shù)據(jù)增強(qiáng),然后將增強(qiáng)后的圖像返回網(wǎng)絡(luò)作為輸入圖像來(lái)增強(qiáng)網(wǎng)絡(luò)的泛化能力,在CUB-200-2011 數(shù)據(jù)集上獲得了89.28%的分類(lèi)精度。Li等人[59]提出了屬性混合(atrribute mix),一種屬性級(jí)的數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)充細(xì)粒度樣本,其原理是在細(xì)粒度子類(lèi)別之間共享屬性特征,并且可以在圖像之間無(wú)縫傳輸。屬性混合是一種簡(jiǎn)單但有效的增強(qiáng)策略,可以在不增加推理預(yù)算的基礎(chǔ)上顯著提高識(shí)別性能,若與最先進(jìn)的細(xì)粒度識(shí)別方法相結(jié)合,可以進(jìn)一步提高性能。Xie 等人[52]提出了使用GAN 來(lái)擴(kuò)充數(shù)據(jù)集,也是常用的一種數(shù)據(jù)增強(qiáng)策略,將GAN 生成的圖像與原始的訓(xùn)練數(shù)據(jù)結(jié)合,更好地執(zhí)行細(xì)粒度圖像分類(lèi)任務(wù),獲得更好的分類(lèi)性能。
在復(fù)雜場(chǎng)景下的細(xì)粒度圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域重要的研究方向,并已經(jīng)取得了一定的研究成果。行人重識(shí)別任務(wù)是常見(jiàn)的復(fù)雜場(chǎng)景下的細(xì)粒度分類(lèi)的應(yīng)用。大多數(shù)先進(jìn)的行人重識(shí)別方法,通常由三重?fù)p失驅(qū)動(dòng)組成,不能有效地學(xué)習(xí)細(xì)粒度特征,因?yàn)檫@些方法更關(guān)注區(qū)分巨大的外觀差異。為了解決這個(gè)問(wèn)題,Yan 等人[60]引入了一個(gè)新的成對(duì)損失函數(shù),通過(guò)自適應(yīng)地對(duì)差異小的圖像強(qiáng)制指數(shù)懲罰和對(duì)差異大的圖像強(qiáng)制有界懲罰,使得模型能夠更好地學(xué)習(xí)細(xì)粒度特征。在數(shù)據(jù)集[61-63]上的實(shí)驗(yàn)結(jié)果表明,所提出的損失函數(shù)在很大程度上優(yōu)于常用的損失函數(shù),并且顯著地提升了學(xué)習(xí)效率。Han 等人[64]提出了一種補(bǔ)充強(qiáng)化注意網(wǎng)絡(luò),在行人重識(shí)別任務(wù)中學(xué)習(xí)多種判別特征的嵌入。作者們提出的空間互補(bǔ)性和特征空間互補(bǔ)性保證了多樣行動(dòng)特征可以通過(guò)不同的分支學(xué)習(xí),此外還采用自適應(yīng)加權(quán)策略進(jìn)行特征融合,在低維特征下得到了比高維特征更有競(jìng)爭(zhēng)力的結(jié)果。該方法的優(yōu)越性在數(shù)據(jù)集[61-63]上得到了證明。謝彭宇等人[65]提出了一種基于多尺度聯(lián)合學(xué)習(xí)的行人重識(shí)別方法,通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),由于細(xì)粒度局部分支充分利用了不相鄰部件間的相關(guān)性,比起兩種不同粒度的全局分支,細(xì)粒度局部分支顯著地提升了模型的魯棒性,并且對(duì)模型的性能有更大的提升。通過(guò)對(duì)各個(gè)部件之間不同尺度下的潛在關(guān)系的挖掘,結(jié)合全局特征形成了更有判別力的行人特征,該方法在三個(gè)主流的行人重識(shí)別數(shù)據(jù)集[61-63]上實(shí)現(xiàn)了先進(jìn)的性能。
細(xì)粒度動(dòng)作識(shí)別任務(wù)中,針對(duì)視頻舞蹈動(dòng)作的識(shí)別,韓婷婷[66]提出了一種動(dòng)作顯著約束的深度卷積特征描述子,同時(shí)將視覺(jué)關(guān)注機(jī)制引入到細(xì)粒度動(dòng)作的表示方法中。研究證明,該方法能從更有分辨力的空間區(qū)域進(jìn)行特征提取,使得特征描述子對(duì)于局部的表現(xiàn)和運(yùn)動(dòng)模式中存在的微小差異更加敏銳,對(duì)比傳統(tǒng)的網(wǎng)絡(luò)表示方法,識(shí)別性能大幅度提高。
細(xì)粒度圖像分類(lèi)也已經(jīng)廣泛應(yīng)用于復(fù)雜場(chǎng)景下的車(chē)輛識(shí)別任務(wù)。李寬寬等人[67]提出了雙線(xiàn)性聚合殘差注意力的細(xì)粒度圖像分類(lèi)模型。在原雙線(xiàn)性CNN基礎(chǔ)上,把原有特征提取子網(wǎng)絡(luò)轉(zhuǎn)變?yōu)楦邔W(xué)習(xí)能力的聚合殘差網(wǎng)絡(luò),來(lái)提升網(wǎng)絡(luò)的特征捕獲能力,方法在Stanford Cars 細(xì)粒度圖像數(shù)據(jù)集上分類(lèi)精度達(dá)到94.70%,性能優(yōu)于大多數(shù)主流模型方法。Xiang 等人[68]提出了一種用于細(xì)粒度車(chē)輛識(shí)別的全局拓?fù)浼s束網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用了全局拓?fù)潢P(guān)系約束來(lái)描述零件之間的相互作用,并將其集成到CNN 中。零件之間的拓?fù)潢P(guān)系被編碼為深度卷積層,從訓(xùn)練中學(xué)到圖片,通過(guò)培訓(xùn)整個(gè)網(wǎng)絡(luò),核的梯度信息的反向傳播全局拓?fù)潢P(guān)系將引導(dǎo)前幾層變得更好檢測(cè)有用的零件,從而提高車(chē)輛識(shí)別能力。該網(wǎng)絡(luò)在Stanford Cars和CompCars 數(shù)據(jù)集上,均達(dá)到了較好的性能。Fang等人[69]提出了細(xì)粒度的卷積神經(jīng)網(wǎng)絡(luò)框架對(duì)車(chē)輛進(jìn)行識(shí)別。該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖,從特征圖映射到輸入圖像來(lái)定位區(qū)域,區(qū)域重復(fù)被細(xì)化提煉,最后在ComCars 數(shù)據(jù)集上達(dá)到98.29%的識(shí)別精度。Li 等人[70]提出了一種新的雙重交叉熵?fù)p失函數(shù)。實(shí)驗(yàn)證明所提出的損失函數(shù)改善了細(xì)粒度車(chē)輛分類(lèi)性能,在Stanford Cars-196 數(shù)據(jù)集獲得了較好的性能。Huang 等人[71]結(jié)合了顏色和模型,以及三重分類(lèi)損失提出了雙重域多任務(wù)模型,實(shí)現(xiàn)細(xì)粒度距離測(cè)量,提高了車(chē)輛識(shí)別準(zhǔn)確性。
本文從細(xì)粒度圖像分類(lèi)的意義出發(fā),介紹了細(xì)粒度圖像分類(lèi)算法的研究現(xiàn)狀。從基于強(qiáng)監(jiān)督和弱監(jiān)督兩個(gè)角度,介紹了幾種典型的基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)算法。表2 總結(jié)了上述典型的算法在數(shù)據(jù)集CUB-200-2011 上的性能表現(xiàn),并說(shuō)明了算法所需要的標(biāo)注信息。
基于深度學(xué)習(xí)的細(xì)粒度圖像分類(lèi)雖然已經(jīng)取得了突破性的進(jìn)展,但是依然面臨以下挑戰(zhàn):
(1)數(shù)據(jù)集規(guī)模小,標(biāo)注與類(lèi)別數(shù)量有限。
(2)在自然環(huán)境下,在光照、遮擋、模糊和低分辨率等復(fù)雜場(chǎng)景下的圖像識(shí)別在當(dāng)前的學(xué)術(shù)研究中較為欠缺,影響到細(xì)粒度分類(lèi)的現(xiàn)實(shí)應(yīng)用。
Table 2 Performance of different algorithms on CUB-200-2011 dataset表2 CUB-200-2011 數(shù)據(jù)庫(kù)上的算法性能比較
對(duì)于未來(lái)的發(fā)展方向,可以從以下幾方面考慮:
(1)對(duì)自然環(huán)境中輪廓不清晰、無(wú)明顯對(duì)象的研究。細(xì)粒度圖像算法的研究對(duì)象一般為鳥(niǎo)類(lèi)、汽車(chē)、飛機(jī)等具有明顯形態(tài)或輪廓的物體,這類(lèi)研究對(duì)象具有相對(duì)固定的外觀特征。但是針對(duì)自然環(huán)境中的巖石標(biāo)本、植物圖像標(biāo)本等輪廓不明確、無(wú)明顯部件構(gòu)成的對(duì)象,很少有細(xì)粒度圖像分類(lèi)的相關(guān)研究。
(2)細(xì)粒度的小樣本學(xué)習(xí)。細(xì)粒度圖像分類(lèi)對(duì)訓(xùn)練集的要求很高,需要大量可靠的標(biāo)簽數(shù)據(jù)集,因此需要相應(yīng)領(lǐng)域?qū)<业氖止?biāo)記,這一過(guò)程耗時(shí)且成本高,因此面對(duì)標(biāo)記數(shù)據(jù)缺乏的挑戰(zhàn),如何高效利用小樣本進(jìn)行學(xué)習(xí)具有一定的發(fā)展意義。
(3)將遷移學(xué)習(xí)引入到細(xì)粒度圖像分類(lèi)中。目前,在數(shù)據(jù)庫(kù)中,針對(duì)前景對(duì)象突出,背景單一的圖像,細(xì)粒度圖像分類(lèi)算法實(shí)現(xiàn)了良好的分類(lèi)性能,但其在自然環(huán)境下存在一定的局限性。引入遷移學(xué)習(xí),研究一些域自適應(yīng)的模型算法,在更現(xiàn)實(shí)的環(huán)境中進(jìn)行細(xì)粒度分析,以滿(mǎn)足細(xì)粒度圖像分類(lèi)的現(xiàn)實(shí)應(yīng)用的需求。
(4)有效利用細(xì)粒度圖像的多級(jí)標(biāo)簽體系蘊(yùn)含的豐富信息,可以提升細(xì)粒度圖像的分類(lèi)精度。在對(duì)細(xì)粒度圖像進(jìn)行子類(lèi)別劃分時(shí),有時(shí)需要進(jìn)行多級(jí)劃分,同一細(xì)粒度對(duì)象包含不同層級(jí)的多個(gè)標(biāo)簽。
(5)自動(dòng)細(xì)粒度模型。自動(dòng)機(jī)器學(xué)習(xí)(auto machine learning,AutoML)和神經(jīng)架構(gòu)搜索(neural architecture searching,NAS)在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了研究者們的熱切關(guān)注。通過(guò)AutoML 和NAS 技術(shù)開(kāi)發(fā)的自動(dòng)細(xì)粒度模型可以找到更好的深度模型。