張志林,李玉鑑,劉兆英,張 婷
(1.北京工業(yè)大學(xué)信息學(xué)部,北京 100124;2.桂林電子科技大學(xué)人工智能學(xué)院,廣西 桂林 541004)
深度學(xué)習(xí)(deep learning)技術(shù)近些年來在圖像處理的許多分支任務(wù)中取得卓越的性能和表現(xiàn),特別是在2012年,由Hinton等[1]設(shè)計的著名的AlexNet網(wǎng)絡(luò),在大規(guī)模視覺識別挑戰(zhàn)賽中首次取得超過人類識別準(zhǔn)確率的優(yōu)異成績后,深度學(xué)習(xí)的發(fā)展自此迎來重要拐點,從此深度學(xué)習(xí)逐步開始應(yīng)用到多個領(lǐng)域,并且深度學(xué)習(xí)模型及變體在多個領(lǐng)域均保持了最前沿水平(state of the art,SOTA).在經(jīng)典的計算機(jī)圖像處理研究任務(wù)中,圖像識別的目標(biāo)對象類別通常是粗粒度的大類別,如“狗”“水果”“鳥”.然而,細(xì)粒度圖像識別(fine-grained image recognition,F(xiàn)GIR)則是針對同一大類別下的不同子類別給予識別,比如對不同子類別的“狗”的識別.
相對圖像識別技術(shù),細(xì)粒度識別的準(zhǔn)確率還有較大的提升空間,事實上,細(xì)粒度識別任務(wù)的挑戰(zhàn)性比較大,主要是由于來自不同子類的目標(biāo)之間的零部件構(gòu)成普遍相同,相同子類的各個零部件之間卻又有豐富的多樣性,這些因素導(dǎo)致機(jī)器很難準(zhǔn)確識別這些目標(biāo)圖像的類別,甚至導(dǎo)致普通人類也很難辨別這些差異和多樣性,只有通過豐富的專家知識才能夠準(zhǔn)確識別.
綜合各方面因素發(fā)現(xiàn),細(xì)粒度識別圖像主要存在以下特點:1)細(xì)粒度類別之間存在大的類內(nèi)差異和小的類間差異.如CUB數(shù)據(jù)集[2]中,同一種海鷗的姿勢、背景和視角變換很大,不同種類的海鷗卻又表現(xiàn)出高度的相似性,它們之間的差別只存在于某些細(xì)微的區(qū)域,如喙或者翅膀等;2)細(xì)粒度圖像具有復(fù)雜的背景信息.細(xì)粒度數(shù)據(jù)集中復(fù)雜的背景信息不能夠提供有利于識別的有效價值信息,反而會提高準(zhǔn)確識別的難度.例如,在樹叢中的鳥,背景通常由樹枝和樹葉組成,鳥和背景邊界難以區(qū)分.隨著時間或角度的不同,亮度會產(chǎn)生很大差異,遮擋使得只有部分對象在圖像中.由于拍攝設(shè)備的不同,圖像可能具有分辨率低、模糊不清晰等問題.
雖然細(xì)粒度任務(wù)存在諸多難點,但是極具研究意義,并且諸多研究成果也開始出現(xiàn)在實際的人類生活中.例如以下一些比較常見的應(yīng)用實例:1)在線精細(xì)化識別.在實際環(huán)境中,將拍攝的花朵照片上傳,就可以立即獲取有關(guān)花朵的名稱、屬性等更多信息.2)商品識別.細(xì)粒度識別的研究有助于推動相似商品識別技術(shù)的發(fā)展,并將該技術(shù)應(yīng)用于大型商場中,有助于實現(xiàn)物品的準(zhǔn)確識別和統(tǒng)計等功能[3].3)車輛識別.智能交通需要對公路上高速行駛的車輛進(jìn)行快速識別等,細(xì)粒度圖像識別可以利用一些車輛輔助屬性信息解決車輛識別的關(guān)鍵問題,提高車輛識別的準(zhǔn)確性[4].
本文根據(jù)近年來細(xì)粒度圖像識別的多種模型方法及其變形方法的一些特點,將這些主流方法總結(jié)為3類:基于定位-分類子網(wǎng)絡(luò)的方法、基于端到端的特征編碼方法、利用外部輔助信息的方法.對這些分類方法進(jìn)行概述,并將選擇有代表性的工作給予詳細(xì)的介紹.
根據(jù)對細(xì)粒度圖像數(shù)據(jù)集的分析可知,細(xì)粒度不同類別之間的差異往往存在于判別對象之間的某些特定的部位,比如鳥類嘴部的形狀或腹部毛色等.因此,找到不同類別中具有區(qū)分性的局部零件,不僅可以定位對象中的局部零件,有利于建立零件與對象實例之間的關(guān)系,還可以消除對象不同姿勢變換、復(fù)雜背景和相機(jī)不同視覺位置的影響.因此基于定位-分類子網(wǎng)絡(luò)的方法都具有類似的處理步驟:首先,使用定位子網(wǎng)絡(luò)探測得到圖像中有區(qū)分性的局部零件的位置;然后,在圖像的局部位置上提取有區(qū)分性的局部特征;最后,使用分類子網(wǎng)絡(luò)根據(jù)局部或全局特征進(jìn)行細(xì)粒度圖像識別.
現(xiàn)有的細(xì)粒度圖像數(shù)據(jù)集均存在圖像級的類別標(biāo)簽,部分?jǐn)?shù)據(jù)集還具有對象級的物體標(biāo)注框和部位級的局部標(biāo)注點等更多人工標(biāo)注信息,例如,CUB鳥類數(shù)據(jù)集的物體級的邊界標(biāo)注框和部位級的部位標(biāo)注點信息,如圖1所示.由于細(xì)粒度數(shù)據(jù)集存在較多的圖像信息,因此,早期一些的定位-分類子網(wǎng)絡(luò)的方法在訓(xùn)練過程中使用較多的標(biāo)注信息,利用圖像的部位級和對象級的具體信息參與訓(xùn)練來獲得局部零件定位,這些方法可以稱為利用強(qiáng)監(jiān)督信息的定位-分類子網(wǎng)絡(luò)方法.之后隨著深度學(xué)習(xí)技術(shù)的深入發(fā)展,更多的方法開始使用較少的標(biāo)注信息就可以完成定位和分類的任務(wù),這些方法可以稱為利用弱監(jiān)督信息的定位-分類子網(wǎng)絡(luò)方法.
圖1 鳥類數(shù)據(jù)集標(biāo)注信息Fig.1 Bird dataset annotation information
利用強(qiáng)監(jiān)督信息的定位-分類子網(wǎng)絡(luò)方法在使用圖像的圖像級類別標(biāo)簽外,還利用對象級標(biāo)注框或部位級標(biāo)注點等更多的人工標(biāo)注信息.Zhang等[5]提出基于部位的區(qū)域卷積網(wǎng)絡(luò)(part-based region-convolutional neural network,PB R-CNN),通過自下而上區(qū)域推薦來學(xué)習(xí)部位檢測器,并添加幾何先驗知識來提高定位準(zhǔn)確度.文獻(xiàn)[6]中利用全卷積網(wǎng)絡(luò)(full convolutional network,F(xiàn)CN)來定位每個局部區(qū)域的中心位置,使用對象級標(biāo)簽來學(xué)習(xí)提取物體級別的語義信息,最后將2個結(jié)果堆積起來用于分類.文獻(xiàn)[7]中使用一個網(wǎng)絡(luò)完成目標(biāo)零件定位、部位對齊等操作,利用閥門連接函數(shù)、反向傳播分類和對齊的誤差,逐步精確定位結(jié)果.文獻(xiàn)[8]借助FCN學(xué)習(xí)部位分割模型,對特定構(gòu)建的部位定位后,通過從原圖像上裁剪相關(guān)圖像塊,將多個特征級聯(lián)后作為表示用來分類.下面詳細(xì)介紹利用強(qiáng)監(jiān)督信息的2種基于定位-分類子網(wǎng)絡(luò)的方法.
1.1.1 基于部位的區(qū)域卷積網(wǎng)絡(luò)
基于部位的區(qū)域卷積網(wǎng)絡(luò)[5]的方法設(shè)計靈感來自于R-CNN[9],它利用自下而上的建議區(qū)域的深度卷積特征,使用對象級和局部級的標(biāo)注信息,在訓(xùn)練過程中學(xué)習(xí)針對對象和局部零件的檢測器,整體過程如圖2所示.
圖2 基于局部定位的區(qū)域卷積網(wǎng)絡(luò)[5]Fig.2 Part-based R-CNN[5]
在訓(xùn)練階段,對象邊界標(biāo)注框和一組固定的局部標(biāo)注框?qū)⒈蛔鳛榈孛嬲鎸?ground truth,GT)數(shù)據(jù),將所有對象及其每個部分作為獨立的對象類別進(jìn)行處理,首先使用選擇性搜索方法提出區(qū)域建議框,在每個區(qū)域建議框上提取特征表示并用于訓(xùn)練目標(biāo)和局部檢測器.但由于單個部件檢測器不準(zhǔn)確,使得單個檢測器得分最高的推薦區(qū)域也不一定是正確的,尤其是存在遮擋的情況下,因此需要考慮使用相對目標(biāo)的零件布局的非參數(shù)幾何約束規(guī)則來過濾不正確的檢測器.在測試階段中,由所有檢測器對自下而上的區(qū)域建議框進(jìn)行判別評分,并使用非參數(shù)幾何合約束方法對建議框進(jìn)行重新篩選,選擇概率最大的局部零件.最后一步是對特定整體對象或部分區(qū)域進(jìn)行姿態(tài)歸一化特征表示,并訓(xùn)練分類器得到最終分類.
1.1.2 掩膜卷積神經(jīng)網(wǎng)絡(luò)
Wei等設(shè)計掩膜卷積神經(jīng)網(wǎng)絡(luò)(mask-CNN)模型[8],如圖3所示,該模型由2個模塊組成,模塊一的功能是局部零件的定位,模塊二的功能是局部區(qū)域和全局圖像的特征提取.部件定位模塊是借助FCN學(xué)習(xí)頭部和軀干部位的分割模型,模塊如圖4所示.特別是在訓(xùn)練過程中,需要將若干個部位標(biāo)注點預(yù)處理得到的頭部和軀干部位組成的最小外接矩形,作為真實掩膜標(biāo)注信息來進(jìn)行訓(xùn)練定位模塊.經(jīng)過這樣的處理,部件定位模塊就可以等同于三分類分割問題.部件定位模塊訓(xùn)練完成后,可以對細(xì)粒度圖像進(jìn)行比較精確的部件定位,并將預(yù)測得到的部位的分割結(jié)果和部位掩膜.圖5展示了一些分割效果圖,對鳥類數(shù)據(jù)集進(jìn)行了較好的頭部和軀干定位.
圖3 掩膜卷積神經(jīng)網(wǎng)絡(luò)[8]Fig.3 Mask-CNN[8]
圖4 通過全卷積網(wǎng)絡(luò)學(xué)習(xí)掩膜過程[8]Fig.4 Mask learning procedure by FCN[8]
圖5 分割結(jié)果展示[8]Fig.5 Segmentation results display[8]
在得到頭部和軀干的部位掩膜后,組合可以得到對象分割掩膜,通過裁剪方式從原圖像上裁剪得到對應(yīng)的兩部分有區(qū)分性的部位以及完整的對象圖像塊.之后模型在這三部分圖像塊進(jìn)一步訓(xùn)練3個特征提取子網(wǎng)絡(luò).在每個子網(wǎng)絡(luò)處理過程中,使用上一個步驟中學(xué)到的部位或?qū)ο蟮难谀ぷ鳛楹Y選卷積特征描述符,之后需要篩選并保留表示部分或?qū)ο蟮那熬懊枋龇?,除去表示背景的卷積特征描述符,降低背景的干擾.之后,將保留下來的前景卷積特征描述符進(jìn)行全局平均或最大池化操作,將3個特征描述符變形為特征向量分別作為子網(wǎng)絡(luò)的特征表示,按照順序級聯(lián)起來作為整張圖像的特征表示.
利用強(qiáng)監(jiān)督信息的定位-分類子網(wǎng)絡(luò)方法的識別準(zhǔn)確度得到了大幅度提高,但由于對象級和部位級標(biāo)注信息的獲取難度比較大,導(dǎo)致這類方法在實際中大量應(yīng)用比較困難.因此,目前基于定位-分類子網(wǎng)絡(luò)方法的趨勢是,在訓(xùn)練過程中僅使用圖像級的標(biāo)簽,訓(xùn)練并構(gòu)建定位子網(wǎng)絡(luò)去自動捕捉有利于分類的對象級和部位級的可區(qū)分性信息來促進(jìn)細(xì)粒度圖像識別,這些方法可以稱為利用弱監(jiān)督信息的方法.例如,Ye等[9]提出了一種跨層非局部模塊,能夠通過2種操作實現(xiàn)多尺度感受野的關(guān)聯(lián),建立多層次之間的空間依賴關(guān)系,學(xué)習(xí)更多的判別特征用于細(xì)粒度分類.Yang等[10]利用類似區(qū)域推薦網(wǎng)絡(luò)結(jié)構(gòu),在原圖上生成錨框,然后利用rank loss選擇出最具有判別性的候選區(qū)域,把這些區(qū)域截選出來和原圖聯(lián)合決策.Wang等[11]提出以發(fā)現(xiàn)判別特征為導(dǎo)向的高斯混合物模型,更好地解決了局部區(qū)域擴(kuò)散問題,更精確地定位了可判別區(qū)域,找到更好的細(xì)粒度細(xì)節(jié).Du等[12]利用簡單的拼圖生成器生成不同粒度級別的信息圖像,并使用漸進(jìn)式訓(xùn)練策略在不同階段根據(jù)細(xì)粒度信息添加新的模型提取層,可以查找到更多的細(xì)粒度部分和互補(bǔ)信息,解決了跨粒度的信息融合問題.文獻(xiàn)[13]提出一種過濾和蒸餾學(xué)習(xí)模型,基于對象的特征學(xué)習(xí)和基于區(qū)域的特征學(xué)習(xí)是以“老師”和“學(xué)生”的形式交替進(jìn)行的,可以為基于區(qū)域的特征學(xué)習(xí)提供更好的監(jiān)督,有效提高區(qū)域的關(guān)注度,可以在只使用圖像標(biāo)簽的情況下進(jìn)行訓(xùn)練.文獻(xiàn)[14]提出了基于圖傳播的關(guān)聯(lián)學(xué)習(xí)模型,可以學(xué)習(xí)到區(qū)域的區(qū)別性特性,同時考慮全局圖像級上下文和局部空間上下文,探索了區(qū)域特征向量之間的內(nèi)部語義相關(guān)性,獲得更好的判別能力.
另外,注意力機(jī)制源自于人類視覺系統(tǒng)的研究,它能夠選擇視覺區(qū)域中的特定部分,并集中注意力予以關(guān)注.在圖像中應(yīng)用注意力機(jī)制,可以對有區(qū)分性的重要細(xì)粒度特征區(qū)域給予更多關(guān)注,提高細(xì)粒度圖像識別的準(zhǔn)確率.目前,許多定位-分類子網(wǎng)絡(luò)方法應(yīng)用了注意力機(jī)制去發(fā)現(xiàn)有區(qū)分性的部位,提高分類準(zhǔn)確率.例如,Lopez等[15]提出多尺度的注意力方法,針對不同的網(wǎng)絡(luò)深度提取不同抽象等級的注意信息,在輸出層融合得到注意力特征圖.Peng等[16]利用多尺度和多視角的特征融合方式,通過對象級和局部級注意力機(jī)制來增強(qiáng)圖像特征表示能力.Zheng等[17]提出三線性注意力采樣網(wǎng)絡(luò):1)采用自注意力機(jī)制,定位細(xì)粒度可區(qū)分的圖像塊;2)根據(jù)注意力對輸入進(jìn)行采樣,放大注意力權(quán)重高的圖像部位,提取更多的細(xì)節(jié);3)使用放大后的圖像塊來蒸餾原模型,優(yōu)化細(xì)節(jié).文獻(xiàn)[18]提出一種注意力卷積二元神經(jīng)樹架構(gòu),在樹結(jié)構(gòu)的邊緣加入卷積運(yùn)算,使用注意力變換模塊來強(qiáng)制網(wǎng)絡(luò)捕捉判別性特征,節(jié)點間路由函數(shù)作為決策路徑,表現(xiàn)出從粗到細(xì)的層次化特征學(xué)習(xí)過程.文獻(xiàn)[19]設(shè)計了漸進(jìn)式共同注意力網(wǎng)絡(luò),認(rèn)為互補(bǔ)信息對于識別也很重要,消除通道交互增強(qiáng)的突出區(qū)域,迫使網(wǎng)絡(luò)將注意力集中在其他判別區(qū)域.下面介紹3種利用弱監(jiān)督信息的定位-分類子網(wǎng)絡(luò)方法的代表模型.
1.2.1 漸進(jìn)式注意力網(wǎng)絡(luò)
Zheng等[20]設(shè)計了漸進(jìn)式注意力網(wǎng)絡(luò)(progressive attention CNN,PA-CNN),通過2個模塊實現(xiàn)零件的定位,其中零件建議網(wǎng)絡(luò)(part proposal network,PPN)生成多個定位注意力圖,零件矯正網(wǎng)絡(luò)(part rectification network,PRN)從每個提議中學(xué)習(xí)零件,并為PPN提供更精確的零件位置,其具體架構(gòu)如圖6所示.
圖6 漸進(jìn)式注意力卷積神經(jīng)網(wǎng)絡(luò)[20]Fig.6 Progressive attention convolutional neural network[20]
PPN對輸入的圖像使用多注意力模塊[21](multi attention module),多注意力模塊可以分別通過通道池權(quán)重和空間池權(quán)重的加權(quán),合并類別損失和通道分組損失優(yōu)化關(guān)注模塊,為每個圖6(c)中產(chǎn)生多個帶有注意力的建議零件部位,將這些部位裁剪得到圖6(d)中的建議零件圖像塊.之后,這些建議零件將被作為PRN的輸入,PRN擁有這些建議圖像塊中獨立的學(xué)習(xí)細(xì)粒度特征的功能,從而在圖6(f)中產(chǎn)生更精確的位置注意力圖.來自PRN的這些經(jīng)過糾正的注意力圖用于通過糾正損失來改善PRN的注意力,并且通過網(wǎng)絡(luò)的這種耦合可以以相互增強(qiáng)的方式共同訓(xùn)練PPN和PRN,從而改善細(xì)粒度零件的精確定位.然后將多注意力模塊參數(shù)從PRN傳遞到PPN中,并重復(fù)進(jìn)行零件學(xué)習(xí)過程,以逐步生成層次模型中更細(xì)粒度的零件和特征.
1.2.2 基于圖傳播的相關(guān)學(xué)習(xí)模型
Wang等[14]認(rèn)為獨立地提取有區(qū)分性的區(qū)域及其特征,容易忽略區(qū)域之間的相關(guān)性,因此設(shè)計了基于圖傳播的相關(guān)學(xué)習(xí)(graph propagation-based correlation learning,GCL)模型來充分挖掘和利用區(qū)域相關(guān)性來提高識別能力.
該模型主要包括十字交叉圖傳播(criss-cross graph propagation,CGP)子網(wǎng)絡(luò)和相關(guān)特征增強(qiáng)(correlation feature strength,CFS)子網(wǎng)絡(luò),在區(qū)域定位階段,CGP子網(wǎng)絡(luò)通過在對每個位置的水平和垂直的特征值,以交叉方式迭代計算區(qū)域之間的相關(guān)性,并通過相關(guān)加權(quán)聚合其他區(qū)域來增強(qiáng)每個區(qū)域,使得對每個區(qū)域的表示同時對全局圖像級上下文和局部空間上下文進(jìn)行編碼,從而引導(dǎo)網(wǎng)絡(luò)隱含地發(fā)現(xiàn)更強(qiáng)大的區(qū)分性區(qū)域組.在特征表示階段,通過對上個步驟中選定的區(qū)域特征向量構(gòu)造一個圖,使用CFS子網(wǎng)絡(luò)探索區(qū)域特征向量之間的內(nèi)在的語義關(guān)系,聯(lián)合學(xué)習(xí)向量節(jié)點之間的相互依賴關(guān)系,指導(dǎo)有區(qū)分性信息的傳播,并通過迭代增強(qiáng)信息向量,抑制無意義向量,來挖掘判別特征向量之間的內(nèi)在語義相關(guān)性,提高判別能力.
1.2.3 基于區(qū)域分割的網(wǎng)絡(luò)
Huang等[22]利用物體零件是否存在先驗知識,結(jié)合基于區(qū)域分割的零件發(fā)現(xiàn),設(shè)計的面向可解釋的深層模型,能夠識別和分割出零件,提高準(zhǔn)確度和可解釋性.該方法的核心思想是假設(shè)部分和整體存在一定的先驗知識:給定一個圖像,一個部分的出現(xiàn)遵循一個U形分布,例如鳥的頭部可能出現(xiàn)大部分鳥的圖像中,而鳥的腿可能只出現(xiàn)在某些鳥類圖像中,模型的訓(xùn)練過程就是識別對象的零件字典的建立過程.
該網(wǎng)絡(luò)主要分為3個模塊:零件分割和發(fā)現(xiàn)模塊、區(qū)域特征表示模塊、基于注意力的加權(quán)分類模塊.在零件分割和發(fā)現(xiàn)模塊,使用圖形卷積單元[23],通過將特征映射與零件字典進(jìn)行比較,可以產(chǎn)生一個將2D特征映射投影到零件的加權(quán)分配圖.在基于注意力的分類模塊中,多個區(qū)域特征由區(qū)域注意向量重新加權(quán),然后由分類器決定分類結(jié)果.在訓(xùn)練過程中,作者只使用對象級標(biāo)簽,對每個部分級零件的存在情況假設(shè)U形先驗分布,通過最小化先驗分布和經(jīng)驗分布之間的EMD距離來實現(xiàn)零件部位的分割.在測試過程中,模型輸出零件部分的表示特征、零件部分的重要性以及預(yù)測的標(biāo)簽.
基于端到端的特征編碼方法明顯特點是,在訓(xùn)練過程中只使用圖像級標(biāo)簽,與定位-分類子網(wǎng)絡(luò)的分類方式不同之處在于,端到端的方法更傾向于通過設(shè)計細(xì)粒度特征提取能力更強(qiáng)大的模型,挖掘得到更具有區(qū)分性的細(xì)粒度特征表示.雙線性卷積網(wǎng)絡(luò)模型[24](bilinear CNN,BCNN)是近幾年來非常經(jīng)典的端到端的特征編碼模型,如圖7所示.
圖7 雙線性卷積網(wǎng)絡(luò)[24]Fig.7 Bilinear CNN[24]
它使用2個特征提取器分別輸出圖像的特征表示向量,并使用向量外積相乘得到表達(dá)能力更強(qiáng)大的特征表示向量.由于BCNN有比較高的模型表達(dá)能力,實現(xiàn)了顯著的細(xì)粒度識別性能,從而產(chǎn)生了很多BCNN的變體模型.Li等[25]提出語義雙線性池化,設(shè)計一個廣義交叉熵?fù)p失,通過考慮相鄰特征層間的相關(guān)性來充分利用語義信息.Huang等[26]設(shè)計低階對偶雙線性池化操作和對齊層,捕捉圖像對之間的細(xì)微差異,學(xué)習(xí)有效的距離度量.Zheng等[27]設(shè)計深度雙線性轉(zhuǎn)化網(wǎng)絡(luò),通過通道語義分組和雙線性操作獲取特征表示.
其他的工作,如Dubey等[28]設(shè)計了一個針對細(xì)粒度圖像識別的特定損失函數(shù),能夠驅(qū)動整個深度模型來學(xué)習(xí)區(qū)分性特征的細(xì)粒度表示.Zhuang等[29]提出一種簡單有效的專注成對交互網(wǎng)絡(luò)(attentive pairwise interaction network,API-Net),2張圖像首先學(xué)習(xí)一個共同特征向量,以捕獲輸入對中的語義差異,將這個共同向量與單個向量進(jìn)行比較,通過交互學(xué)習(xí)逐步識別出一對細(xì)粒度圖像的對比線索.Gao等[30]設(shè)計了通道交互網(wǎng)絡(luò),使用自通道交互網(wǎng)絡(luò)捕捉一個圖像中的通道間的聯(lián)系,使用對比通道交互網(wǎng)絡(luò)對一組圖像使用度量學(xué)習(xí)尋找到跨樣本之間的細(xì)粒度微小差異.Xiong等[31]利用生成對抗網(wǎng)絡(luò)模型對圖像進(jìn)行變形轉(zhuǎn)換,提取圖像主要特征合成新的圖像,在變形的過程中保留輸入圖像的細(xì)粒度上下文信息,可以顯著提高視覺識別性能.
Zheng等[27]設(shè)計深度雙線性轉(zhuǎn)化網(wǎng)絡(luò)(deep bilinear transformer,DBT),通過引入基于部位特征表示的語義分組信息,用語義約束來將卷積特征的各個通道分組,之后對通道組內(nèi)特征進(jìn)行雙線性操作,通道組間特征進(jìn)行整合,最后得到低維的雙線性特征表示.
作者認(rèn)為卷積中的某些通道對特定語義的響應(yīng)比較高,描述特定語義的卷積通道的響應(yīng)會集中在特定的空間區(qū)域,首先設(shè)計一個語義分組約束模塊,將卷積特征的各個通道約束并進(jìn)行分組,要求將響應(yīng)在特定區(qū)域的卷積通道之間盡可能大的空間重疊,通過逐對的分組約束得到更多的細(xì)節(jié)特征.DBT網(wǎng)絡(luò)對輸入圖像提取特征以后得到卷積特征,使用語義分組約束模塊,得到各個通道分組特征,得到每個位置的同一個通道組內(nèi)卷積特征向量,對特征向量進(jìn)行雙線性操作,得到針對特定部位的更多的表達(dá)細(xì)節(jié)的特征表示,將不同組之間的雙線性特征融合得到低維度的聚合特征矩陣,之后將特征矩陣向量化并用于圖像識別.
Gao等[30]認(rèn)為通道之間的細(xì)微差別可以幫助捕獲細(xì)粒度圖像識別,設(shè)計了通道交互網(wǎng)絡(luò)(channel interaction network,CIN),可以得到圖像之間的通道差距信息.該網(wǎng)絡(luò)主要由自通道交互(self-channel interaction,SCI)和對比通道交互(contrastive channel interaction,CCI)2個模塊組成.
模型輸入一對圖像,通過一個共享主干網(wǎng)絡(luò),比如ResNet50,處理生成一對卷積特征映射圖,之后在每張映射圖上通過SCI模塊建立不同通道間的相關(guān)性模型,可以捕捉到通道之間的互補(bǔ)信息,將原始特征圖中提取的判別性特征和互補(bǔ)信息聯(lián)合起來,增強(qiáng)每個通道學(xué)習(xí)到的鑒別特征,并且該模塊是一個輕量級模型,可以無縫地集成到現(xiàn)有網(wǎng)絡(luò)中.最后再采用具有對比損失的CCI模塊模型化2個圖像之間的通道關(guān)系,能夠從2幅比較的圖像中動態(tài)的識別出不同的區(qū)域,聚焦于不同的區(qū)域,再應(yīng)用一個對比損失計算CCI模塊的特征,做到推離不同類別的樣本,拉近同類樣本.
深度學(xué)習(xí)模型需要使用海量的標(biāo)記準(zhǔn)確的圖像去訓(xùn)練才能夠?qū)W習(xí)到類別之間的細(xì)微差異,由于大部分研究者缺乏領(lǐng)域?qū)<抑R,導(dǎo)致獲取準(zhǔn)確的細(xì)粒度圖像的標(biāo)注信息比較困難.因此,一些方法開始引入一些外部輔助信息來進(jìn)一步協(xié)助細(xì)粒度圖像的識別,這些方法可以分為利用web數(shù)據(jù)和其他多媒體數(shù)據(jù)等信息的2種方法.
部分細(xì)粒度圖像識別方法從多種渠道獲取帶有噪聲和標(biāo)簽的web數(shù)據(jù)來輔助提高識別精度,這些工作可以分為2種類型.第1種類型是利用web數(shù)據(jù)來訓(xùn)練模型,稱為webly監(jiān)督學(xué)習(xí)[31].這些方法使用度量學(xué)習(xí)[32]、自監(jiān)督學(xué)習(xí)[33]、對抗學(xué)習(xí)[34]等技術(shù),合理利用web類的數(shù)據(jù),并縮小有精確標(biāo)簽數(shù)據(jù)集與帶有噪聲的web圖像數(shù)據(jù)集間的差異,提高web數(shù)據(jù)的準(zhǔn)確利用.第2種類型的方法是,通過采用零樣本學(xué)習(xí)(zero-shot learning)[35]、蒸餾學(xué)習(xí)[36-37]、元學(xué)習(xí)(meta learning)[38],實現(xiàn)將帶有精確標(biāo)簽的數(shù)據(jù)集的輔助知識轉(zhuǎn)移到web類數(shù)據(jù)中,從而利用web類數(shù)據(jù)來實現(xiàn)細(xì)粒度圖像識別.零樣本學(xué)習(xí)將學(xué)習(xí)看作圖像和補(bǔ)充信息的聯(lián)合問題,認(rèn)為對圖像特征最有效地補(bǔ)充信息是屬性編碼向量,這些向量會描述類與類之間的共享特征.
移動互聯(lián)時代的到來,文本、視頻、知識庫等多媒體數(shù)據(jù)大量積累,輔助使用多媒體數(shù)據(jù)建立聯(lián)合特征表示,合并得到多模態(tài)信息,能夠有效地提升識別的準(zhǔn)確率.Zhu等[39]利用視頻和文字學(xué)習(xí)數(shù)據(jù)來源,設(shè)計全局動作、局部區(qū)域和語言描述3種模態(tài)輸入,進(jìn)行多模態(tài)特征學(xué)習(xí),展示了自監(jiān)督視頻文字建模強(qiáng)大的特征學(xué)習(xí)能力,提高在人體細(xì)粒度動作圖像識別上的準(zhǔn)確率.已有的知識圖譜包含詳細(xì)的專業(yè)知識信息,作為額外的指導(dǎo)和輔助模型進(jìn)行表示學(xué)習(xí),例如DBpedia[40].Chen等[41]提出知識內(nèi)嵌表示學(xué)習(xí)框架,用知識圖的形式表示部分概念,使用圖傳播節(jié)點消息來增強(qiáng)生成圖像的特征表示,該框架可以學(xué)習(xí)到有區(qū)分性區(qū)域與知識圖的屬性節(jié)點的一致性.Li等[42]設(shè)計視覺-語義嵌入框架來學(xué)習(xí)類別與圖像之間的關(guān)系,利用結(jié)構(gòu)化或非結(jié)構(gòu)化文本信息的一些先驗知識,將圖像特征空間映射到嵌入空間中,得到圖像的聯(lián)合特征表示.文獻(xiàn)[43]利用有關(guān)類標(biāo)簽引起的語義層次結(jié)構(gòu)信息,使用自然語言處理普遍使用的基于順序的嵌入模型,更明確地對標(biāo)簽-標(biāo)簽和標(biāo)簽-圖像之間進(jìn)行交互建模,將外部語義和圖像的視覺語義結(jié)合起來提高整體性能和正確率.文獻(xiàn)[44]融合了多模態(tài)推理模塊,結(jié)合文字和視覺特征,且不依賴于集合模型或預(yù)先計算的特征.
本文介紹細(xì)粒度圖像識別中常用的5種數(shù)據(jù)集:鳥類(CUB200)數(shù)據(jù)集[2]、汽車類(Cars)數(shù)據(jù)集[45]、狗類(Dogs)數(shù)據(jù)集[46]、花朵類(Flowers)數(shù)據(jù)集[47]、飛機(jī)類(Aircraft)數(shù)據(jù)集[48].CUB200數(shù)據(jù)集含有200種鳥類的11 788張圖像,其中每個類別中比較均衡地包含30張訓(xùn)練圖像和29張測試圖像,每張圖像除圖像級標(biāo)簽外,還會有一個對象級的鳥類位置邊界框、15個零件部位標(biāo)注點等標(biāo)注信息.Cars數(shù)據(jù)集包含196類汽車的16 185張圖像,其中關(guān)鍵特征包括車輛制造商、汽車品牌、車型等,每個類別及其訓(xùn)練圖像和測試圖像的數(shù)量比較均勻.Dogs數(shù)據(jù)集包含有120類狗的圖像,其中每個類別中有100張圖片(總計12 000張)圖像作為訓(xùn)練數(shù)據(jù)集,每個類別中至少超過50張圖片(共8 589張)圖像用來測試.Aircraft數(shù)據(jù)集包含有102類飛機(jī),每一類均有100張圖像,其中2/3的圖像用來訓(xùn)練,另外的圖像用來測試.Flowers數(shù)據(jù)集包含有102類不同花卉的共8 189張圖像,其中6 149張圖像用來訓(xùn)練,剩余的作為測試和驗證.
此外,近年來,越來越多的人提出了更具挑戰(zhàn)性和實用性的細(xì)粒度數(shù)據(jù)集,例如,Horn等[49]提出針對植物的自然物種的數(shù)據(jù)集iNat2017數(shù)據(jù)集,Wei等[50]在2019年提出用于日常零售產(chǎn)品數(shù)據(jù)RPC數(shù)據(jù)集.這些數(shù)據(jù)集衍生出許多新穎的特征,如大尺度、層次結(jié)構(gòu)、域間隙和長尾分布等,比較符合現(xiàn)實世界中的實際情況.
由于CUB200數(shù)據(jù)集擁有非常詳細(xì)和準(zhǔn)確的標(biāo)注信息,使得大量的細(xì)粒度識別方法采用了鳥類數(shù)據(jù)去進(jìn)行構(gòu)建和訓(xùn)練,因此,本文中基于鳥類數(shù)據(jù)集進(jìn)行多種方法的評估實驗,并在表1中列出它們的Top-1識別精度.
從表1中可以看出,這些方法分為3組.第1組中的方法屬于基于定位-分類子網(wǎng)絡(luò)的方法,不同的方法使用的標(biāo)注信息種類不同.第2組方法屬于基于端到端的方法,主要是BCNN及其變種方法,以及其他的端到端的方法.第3組方法屬于利用外部輔助的一些方法.從結(jié)果中可以發(fā)現(xiàn),在定位-分類子網(wǎng)絡(luò)方法中利用強(qiáng)監(jiān)督信息的方法隨著標(biāo)注信息的增加,準(zhǔn)確率逐步提高,但是還是偏低于利用弱監(jiān)督的方法,分析認(rèn)為,在應(yīng)用注意力機(jī)制后,網(wǎng)絡(luò)更主動去發(fā)現(xiàn)更豐富和有區(qū)分性的視覺信息,能夠在僅使用圖像級信息的情況下,準(zhǔn)確地定位有區(qū)分性的區(qū)域,辨別細(xì)小的類別間的差異.基于端到端的特征編碼方法往往有更好的特征表示能力和模型泛化能力,能發(fā)現(xiàn)更多有利于分類的細(xì)節(jié),在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異,且由于端到端訓(xùn)練過程中不存在區(qū)域檢測的子過程,使得模型方法的訓(xùn)練策略簡單,訓(xùn)練速度快.如表1中所示,最新的FVE方法[51]達(dá)到了鳥類數(shù)據(jù)集的最高準(zhǔn)確率,并且該方法容易遷移到很多其他任務(wù)中.
表1 多種方法在鳥類數(shù)據(jù)集上的識別準(zhǔn)確率Table 1 The recognition accuracy of different methods on bird data sets
本文通過對近幾年來細(xì)粒度圖像識別的多種方法進(jìn)行調(diào)研,主要分析了細(xì)粒度識別現(xiàn)階段的相關(guān)發(fā)展及面臨的挑戰(zhàn),介紹了一些比較前沿的有代表性的方法.盡管細(xì)粒度識別領(lǐng)域取得了比較大的成功,但仍有很多未解決的問題,以下將介紹該領(lǐng)域一些未來的研究趨勢,未來有以下幾個研究熱點:
1)細(xì)粒度的少樣本學(xué)習(xí).深度學(xué)習(xí)的細(xì)粒度模型需要大量的數(shù)據(jù)標(biāo)注才能夠獲得比較好的效果,但是對細(xì)粒度圖像進(jìn)行標(biāo)注的代價非常昂貴,并且需要相關(guān)領(lǐng)域的諸多專家知識,因此,開發(fā)基于少量樣本[54-58]的細(xì)粒度圖像識別學(xué)習(xí)算法有著迫切與廣泛的需求.
2)自動細(xì)粒度識別模型.自動機(jī)器學(xué)習(xí)(AutoML)[59]、對比學(xué)習(xí)(Contrastive Learning)、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural architecture searching,NAS)[60]等新技術(shù)逐漸在人工智能領(lǐng)域的發(fā)揮出更大的作用.最近發(fā)展比較火熱的自動機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法在計算機(jī)視覺應(yīng)用中產(chǎn)生一系列優(yōu)于手工設(shè)計的網(wǎng)絡(luò)模型架構(gòu)[61],對比學(xué)習(xí)可以通過無標(biāo)簽圖像數(shù)據(jù)之間的對比學(xué)習(xí),學(xué)習(xí)到圖像之間的潛在分類模式[62].因此,未來可以通過這些新技術(shù)設(shè)計和開發(fā)出更多的細(xì)粒度識別模型和方法,推動細(xì)粒度識別領(lǐng)域的發(fā)展.
3)在更真實的環(huán)境中進(jìn)行細(xì)粒度識別.目前常見的細(xì)粒度圖像識別技術(shù)的成功主要局限于在現(xiàn)有的常見數(shù)據(jù)集上,但是,僅在這些數(shù)據(jù)集上獲得成功無法滿足當(dāng)前各種日常的現(xiàn)實需求.例如,文獻(xiàn)[63]直接從互聯(lián)網(wǎng)中收集帶有噪聲的文本和圖像集合,在訓(xùn)練過程中從真實世界的網(wǎng)絡(luò)圖像中去除不相關(guān)的樣本,只利用有用的圖像來更新訓(xùn)練網(wǎng)絡(luò),可以減輕不相關(guān)的噪聲網(wǎng)絡(luò)圖像對模型的有害影響,達(dá)到更好的性能.