融合多粒度特征的細(xì)粒度圖像分類網(wǎng)絡(luò)

2023-04-19 05:17楊祺,孫俊,2

小型微型計(jì)算機(jī)系統(tǒng) 2023年4期

楊祺,孫俊,2

1(江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇無錫 214122)2(江南大學(xué) 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇無錫 214122) E-mail：6191914068@stu.jiangnan.edu.cn

1 引言

細(xì)粒度圖像分類旨在識(shí)別給定對(duì)象類別的子類,例如不同種類的鳥類[1]以及飛機(jī)[2]和汽車[3].由于這些子類存在細(xì)微的類間差異和顯著的類內(nèi)變化,細(xì)粒度圖像分類比傳統(tǒng)分類問題更具挑戰(zhàn)性.迄今為止,最有效的解決方案依賴于從局部區(qū)域提取辨別性的細(xì)粒度特征表示,這種局部辨別性特征被集中融合以進(jìn)行最終分類.早期工作中辨別性特征絕大多數(shù)來自于相關(guān)領(lǐng)域?qū)＜业娜斯ぷ⑨孾4-6].然而由于專業(yè)性限制使得人工注釋獲取代價(jià)高昂且有一定誤差.因此,近年來的研究重點(diǎn)已經(jīng)轉(zhuǎn)移到僅使用類別標(biāo)簽的弱監(jiān)督訓(xùn)練模型[7-9].這些模型擁有能夠定位更具辨別性的局部區(qū)域的能力,這使得它們能夠在不使用額外人工注釋的情況下獲得不俗的性能.

然而,盡管依靠定位局部辨別性區(qū)域的弱監(jiān)督細(xì)粒度分類研究取得了很多進(jìn)展,但普遍來說它們都很少關(guān)注以下兩個(gè)問題：第一,提取的具有辨別性的局部區(qū)域在哪些粒度上最具辨別性,例如鳥的頭部或爪兩個(gè)辨別性區(qū)域中哪個(gè)對(duì)分類結(jié)果幫助更大,第二,用什么方式可以將不同粒度上的信息融合在一起以提高分類精度,換句話說就是頭部和爪的兩個(gè)不同辨別性區(qū)域如何能夠更好地協(xié)同工作來提升分類結(jié)果.由于跨不同粒度的信息有助于避免大的類內(nèi)變化的影響,例如,鳥類鑒別專家有時(shí)需要使用鳥頭部的整體結(jié)構(gòu)和更精細(xì)的細(xì)節(jié),如鳥喙的形狀來識(shí)別一只鳥.因此本文認(rèn)為,模型不僅需要找到最具區(qū)別性的粒度,同時(shí)還需要考慮不同粒度的局部如何有效地合并.

本文提出了一個(gè)融合多粒度特征的網(wǎng)絡(luò)框架,該框架通過迭代學(xué)習(xí)方式引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)由低到高的不同粒度及不同粒度之間的互補(bǔ)信息,同時(shí)將多粒度特征融合在一起,從而提高分類準(zhǔn)確率.具體地說,這是通過以下幾個(gè)相互協(xié)同工作的組件來實(shí)現(xiàn)的：1)限定輸入圖像粒度的局部錯(cuò)位模塊,它能夠迫使網(wǎng)絡(luò)學(xué)習(xí)限定粒度下圖像的局部信息;2)注意力模塊,因?yàn)閳D像的背景中存在噪聲,所以有必要先通過注意力來定位辨別性的局部,同時(shí)有選擇地增強(qiáng)其中具有豐富信息的特征,并抑制那些語義無關(guān)的特征;3)迭代學(xué)習(xí)方式,具體來說,該方式從更細(xì)的粒度開始訓(xùn)練,逐漸轉(zhuǎn)向更粗的粒度,當(dāng)每個(gè)迭代步驟結(jié)束時(shí),在當(dāng)前迭代步驟訓(xùn)練的參數(shù)將作為下一迭代步驟的初始化參數(shù),這種傳遞使網(wǎng)絡(luò)能夠基于上一迭代步驟的經(jīng)驗(yàn)來挖掘更大粒度的信息;4)有效融合多粒度特征的可變形卷積模塊,在迭代學(xué)習(xí)完成后,利用原始圖像進(jìn)行新一輪訓(xùn)練,并將提取到的多粒度進(jìn)行融合,以更進(jìn)一步提升效果.

本文的主要貢獻(xiàn)如下：

1)本文提出了一種融合多粒度特征的細(xì)粒度分類網(wǎng)絡(luò),它能夠通過局部錯(cuò)位模塊生成不同粒度的圖像并通過迭代學(xué)習(xí)方式學(xué)習(xí)不同粒度之間的互補(bǔ)信息.

2)本文引入了注意力機(jī)制,它融合了空間注意力和通道注意力,它能夠適應(yīng)不同粒度特征,實(shí)現(xiàn)細(xì)粒度辨別性局部定位功能.

3)本文在3個(gè)廣泛使用的細(xì)粒度圖像分類數(shù)據(jù)集(CUB-200-2011、Stanford-Cars和FGVC-Aircraft)上進(jìn)行對(duì)比和消融實(shí)驗(yàn),證明本文方法擁有優(yōu)秀的分類性能.

2 相關(guān)工作

2.1 細(xì)粒度圖像分類

現(xiàn)有的細(xì)粒度圖像分類算法大致分為基于強(qiáng)監(jiān)督學(xué)習(xí)和基于弱監(jiān)督學(xué)習(xí)的算法研究,在強(qiáng)監(jiān)督場(chǎng)景下,算法主要借助額外標(biāo)注信息(如邊界框、部件語義信息)來提升分類效果,Zhang等[10]提出了基于局部區(qū)域的R-CNN分類算法,該方法借助額外標(biāo)注的邊界框來訓(xùn)練一個(gè)檢測(cè)器以定位物體整體位置及局部位置,并用若干個(gè)獨(dú)立的CNN網(wǎng)絡(luò)提取其中的特征,再用全連接層聯(lián)接物體整體及局部的特征表示,最后用SVM對(duì)聯(lián)接后的特征進(jìn)行分類.該方法取得了卓越的效果提升,并且奠定了接下來幾年的研究基礎(chǔ),其后的一系列研究基本都是遵循定位局部區(qū)域,局部區(qū)域特征提取,利用提取的特征表示進(jìn)行分類這套流程.然而該類方法對(duì)于額外標(biāo)注的信息依賴度很高,為了提高測(cè)試準(zhǔn)確率,甚至需要測(cè)試集數(shù)據(jù)提供相應(yīng)的額外標(biāo)注信息,這大大限制了強(qiáng)監(jiān)督學(xué)習(xí)在實(shí)際場(chǎng)景下的應(yīng)用.因此,近年來有關(guān)細(xì)粒度圖像分類的研究已經(jīng)從帶有額外標(biāo)注信息的強(qiáng)監(jiān)督場(chǎng)景發(fā)展到只使用類別標(biāo)簽的弱監(jiān)督場(chǎng)景.在弱監(jiān)督場(chǎng)景下,細(xì)粒度分類舍棄了對(duì)額外標(biāo)注信息的利用,為了模擬額外標(biāo)注信息帶來的分類效果提升,最近的研究主要集中在定位目標(biāo)物體中最有辨別性的部分和不同粒度特征的部分.Wang等[11]人提出多粒度CNN,該方法通過自底向上的區(qū)域生成方法生成與粒度相關(guān)的辨別性區(qū)域,其中細(xì)粒度的辨別性區(qū)域通常是由粗粒度的辨別性區(qū)域采樣而來.之后,訓(xùn)練一組并行的CNN網(wǎng)絡(luò)來對(duì)各個(gè)粒度的辨別性區(qū)域進(jìn)行特征提取,最后將提取到的多粒度特征合并后送入分類器,產(chǎn)生最終的分類結(jié)果.

2.2 特征融合

盡管在弱監(jiān)督場(chǎng)景下,很多研究通過定位圖像中最有辨別性的局部和利用多粒度的特征取得了進(jìn)展.然而,很少有人考慮如何更好地將這些辨別性的局部以及不同粒度的信息融合在一起,目前的融合技術(shù)大致可以分為兩類.第一種方法將從不同部分提取的特征連接在一起,之后放入一個(gè)分類器進(jìn)行預(yù)測(cè).Fu等[12]發(fā)現(xiàn)局部區(qū)域檢測(cè)和細(xì)粒度特征學(xué)習(xí)可以相互加強(qiáng),并構(gòu)建了一系列網(wǎng)絡(luò),這些網(wǎng)絡(luò)在進(jìn)行預(yù)測(cè)時(shí)為下一個(gè)網(wǎng)絡(luò)找到有辨別性的局部區(qū)域,最后通過訓(xùn)練一個(gè)全連接層來融合所有被找到的辨別性區(qū)域,該方法旨在通過充分挖掘某一具有辨別性區(qū)域的細(xì)節(jié)信息以提高分類效果,但忽略了其他具有互補(bǔ)信息的局部區(qū)域,并且每一次循環(huán)都會(huì)訓(xùn)練一個(gè)具有全新參數(shù)的子網(wǎng)絡(luò),導(dǎo)致整體網(wǎng)絡(luò)的參數(shù)量成倍的增長.Ge等[13]運(yùn)用目標(biāo)檢測(cè)的方法捕獲目標(biāo)核心區(qū)域,然后通過建立的互補(bǔ)零件模型挖掘核心目標(biāo)周圍蘊(yùn)含互補(bǔ)信息的多個(gè)零件,最后使用雙向LSTM對(duì)多個(gè)零件的互補(bǔ)信息進(jìn)行編碼并進(jìn)行分類,然而該方法不足之處在于互補(bǔ)零件間存在高冗余且對(duì)細(xì)節(jié)信息提取不充分,因此如何制定更加有效和準(zhǔn)確的互補(bǔ)信息提取策略尤為重要.第二種技術(shù)基于不同的部分進(jìn)行預(yù)測(cè),每個(gè)部分用一個(gè)分類器得出預(yù)測(cè)結(jié)果,然后直接將它們的預(yù)測(cè)結(jié)合在一起.Zhang等[14]訓(xùn)練了幾個(gè)集中于不同粒度特征的網(wǎng)絡(luò),以產(chǎn)生不同的預(yù)測(cè)分布,然后通過加權(quán)的方式將基于不同粒度特征得到的預(yù)測(cè)結(jié)果組合在一起以得到最終的分類結(jié)果,然而如何找到合適的權(quán)重來充分發(fā)揮各個(gè)粒度特征間的互補(bǔ)作用仍是一大挑戰(zhàn).

2.3 注意力機(jī)制

注意力機(jī)制是近幾年在圖像、語音、自然語言處理方面應(yīng)用比較廣泛的方法,一些弱監(jiān)督的細(xì)粒度分類方法嘗試引入注意力機(jī)制來定位圖像中的辨別性區(qū)域,Liu等[15]提出了一種基于強(qiáng)化學(xué)習(xí)的全卷積注意力定位網(wǎng)絡(luò),該網(wǎng)絡(luò)由部件定位模塊和分類模塊組成,部件定位模塊以VGG提取的卷積特征圖為基礎(chǔ),通過兩個(gè)堆疊的卷積層和一個(gè)softmax層生成一個(gè)單通道的置信圖作為每個(gè)部件的得分圖,然后根據(jù)得分圖選擇最佳的注意力區(qū)域送入分類模塊.該網(wǎng)絡(luò)可以同時(shí)提取多個(gè)注意力區(qū)域并為每個(gè)區(qū)域訓(xùn)練單獨(dú)的分類器,最后平均各獨(dú)立分類器的結(jié)果作為最終分類結(jié)果,此方法雖取得了分類效果的提升,但對(duì)于大量的冗余信息并未進(jìn)行有效的優(yōu)化,且平均各分類器的結(jié)果的操作無法體現(xiàn)各不同注意力區(qū)域?qū)ψ罱K分類結(jié)果的貢獻(xiàn).Zheng等[16]提出了漸進(jìn)注意力卷積神經(jīng)網(wǎng)絡(luò),該方法主要包含局部建議子網(wǎng)絡(luò)和局部校正子網(wǎng)絡(luò),兩個(gè)子網(wǎng)絡(luò)都包含一個(gè)或多個(gè)注意力模塊,局部建議子網(wǎng)絡(luò)首先通過注意力模塊生成多個(gè)局部注意力圖并將其作為局部校正子網(wǎng)絡(luò)的輸入,之后局部校正子網(wǎng)絡(luò)進(jìn)一步提取每個(gè)局部的特征,并為局部建議子網(wǎng)絡(luò)提供修正后的注意力圖.借由此機(jī)制,兩個(gè)子網(wǎng)絡(luò)在不斷循環(huán)作用下相互加強(qiáng),最終獲取多個(gè)局部細(xì)粒度特征.該網(wǎng)絡(luò)會(huì)為每個(gè)局部訓(xùn)練一個(gè)CNN來進(jìn)行分類,而對(duì)于不同圖片網(wǎng)絡(luò)提取的局部數(shù)量并不一致,這會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)量的暴增及訓(xùn)練速度、推理速度的降低.

3 本文方法

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

圖1 多粒度特征融合網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Architecture of multi-granularity feature fusion

3.2 局部錯(cuò)位模塊

在自然語言處理的任務(wù)中,G. Lample等[17]人將句子中單詞打亂語序從而迫使神經(jīng)網(wǎng)絡(luò)專注于有區(qū)別的單詞而忽略不相關(guān)的單詞.在最近的細(xì)粒度圖像分類研究中,DCL[18]通過破壞全局結(jié)構(gòu)來強(qiáng)調(diào)局部細(xì)節(jié),它們將圖像分割成若干區(qū)域并重構(gòu)圖像來學(xué)習(xí)局部區(qū)域之間的語義相關(guān)性.

如圖2所示,輸入圖像的位置矩陣被隨機(jī)打亂并生成新的位置矩陣,這些被劃分的局部會(huì)根據(jù)新的位置矩陣重新合并為新圖像B(p,n).這里,局部的粒度由超參數(shù)n控制.超參數(shù)n需要滿足兩個(gè)條件：1)所劃分局部的大小要小于對(duì)應(yīng)階段的感受野,否則會(huì)降低局部錯(cuò)位模塊的性能;2)所劃分局部的大小應(yīng)隨著不同迭代步驟感受野的增加而成比例地增加.通常,每個(gè)迭代步驟的感受野大約是后面一個(gè)迭代步驟的兩倍.因此,對(duì)于第l個(gè)迭代步驟n設(shè)置為2L-l+1.其中l(wèi)∈{1,2,…,s},s為迭代學(xué)習(xí)的總步驟數(shù).

圖2 局部錯(cuò)位模塊Fig.2 Part dislocation module

在迭代學(xué)習(xí)的過程中,對(duì)于單一的迭代步驟s而言,訓(xùn)練數(shù)據(jù)p將首先被通過局部錯(cuò)位模塊擴(kuò)充獲得B(p,n),其中n=2L-l+1,它與p共享相同的標(biāo)簽y.該模塊為每個(gè)不同的迭代步驟生成不同粒度的輸入圖像B(p,n)以替代單一粒度的輸入p,這種做法的優(yōu)勢(shì)在于它能夠選擇輸入圖像的粒度級(jí)別,從而迫使模型的其他部分在特定的粒度級(jí)別中找到更多具有辨別性的局部.

3.3 注意力模塊

3.3.1 空間注意力

(1)

其中APi代表特征圖通過壓縮得到的全局平均池化圖,c代表特征圖的通道數(shù),Fi(k)代表特征圖在每個(gè)通道對(duì)應(yīng)空間位置的局部像素值.

(2)

(3)

(4)

(5)

3.3.2 通道注意力

(6)

(7)

其中σ和ReLU分別代表sigmoid函數(shù)和ReLU函數(shù),W1和W2為兩個(gè)全連接層的權(quán)重矩陣,GAP(·)是全局平均池化函數(shù),Wi和Hi代表Fi的空間維度,(m,n)表示空間維度中的像素位置.

圖3 注意力模塊Fig. 3 Attention module

(8)

其中?代表對(duì)應(yīng)元素相乘,⊕表示對(duì)應(yīng)元素相加.

3.4 迭代學(xué)習(xí)方式

本文采用迭代學(xué)習(xí)方式來增量地學(xué)習(xí)多粒度特征,旨在尋找多粒度特征間的互補(bǔ)信息,首先訓(xùn)練ResNet50特征提取的低層階段,然后逐步增加新的迭代步驟訓(xùn)練特征提取的高層階段.這是因?yàn)槿绻屇Ｐ屯瑫r(shí)學(xué)習(xí)所有的粒度,那么模型提取出的多粒度局部特征會(huì)有相當(dāng)高的相似性,與直接訓(xùn)練整個(gè)網(wǎng)絡(luò)相比,迭代學(xué)習(xí)允許模型在圖像粒度逐漸增大的過程中將低層階段的權(quán)重系數(shù)帶到高層階段,從而學(xué)習(xí)到多粒度特征間的互補(bǔ)信息.為了實(shí)現(xiàn)這一目的,本文采用交叉熵函數(shù)來計(jì)算真實(shí)標(biāo)簽y和預(yù)測(cè)概率分布之間的損失,并通過反向傳播來更新系數(shù).對(duì)于第l個(gè)迭代學(xué)習(xí)步驟的預(yù)測(cè)值yl,損失函數(shù)如下：

(9)

3.5 可變形卷積模塊

為了融合多粒度特征,本文引入可變形卷積[19],可變形卷積的思想是將原來固定形狀的卷積核變成可變的,如圖4所示,與標(biāo)準(zhǔn)卷積不同,可變形卷積的位置隨位移變化而變化,它能夠自適應(yīng)的調(diào)整感受野和采樣位置.

圖4 普通卷積與可變形卷積比較圖Fig.4 Comparison of convolution and Deformable convolution

FVc=concat[FVL-s+1,…,FVL-1,FVL]

(10)

其中L代表主干網(wǎng)絡(luò)特征提取過程中的階段數(shù),s代表本文迭代學(xué)習(xí)的總迭代步驟數(shù),concat代表向量連接操作.

然后本文將融合特征FVc輸入一個(gè)額外的分類器得到最終預(yù)測(cè)值yc.并對(duì)yc施加交叉熵?fù)p失來進(jìn)一步優(yōu)化網(wǎng)絡(luò)參數(shù)：

(11)

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

本文所有的實(shí)驗(yàn)均在一個(gè)擁有4張1080Ti GPU資源的服務(wù)器集群上運(yùn)行,pytorch框架版本為1.4,python版本為3.6.為全面衡量本文方法的性能,本文在3個(gè)廣泛使用的細(xì)粒度圖像分類領(lǐng)域的數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),如表1所示,這些數(shù)據(jù)集分別是CUB-200-2011,FGVC-Aircraft和Stanford Cars.

表1 數(shù)據(jù)集信息匯總表Table 1 Datasets information

本文用分類準(zhǔn)確率Accuracy來評(píng)價(jià)細(xì)粒度圖像分類方法的性能,公式如下：

(12)

其中N表示測(cè)試集圖片數(shù)量,NT表示測(cè)試集圖片中分類正確的圖片數(shù)量.

4.2 實(shí)驗(yàn)細(xì)節(jié)及參數(shù)設(shè)置

整個(gè)實(shí)驗(yàn)過程中本文只使用圖像的類別標(biāo)簽而不使用任何額外標(biāo)注.本文使用預(yù)訓(xùn)練的ResNet50作為特征提取器,在訓(xùn)練過程中,本文將輸入圖像大小調(diào)整到550×550,并將其隨機(jī)裁剪成448×448大小,并運(yùn)用隨機(jī)水平翻轉(zhuǎn)做數(shù)據(jù)增強(qiáng).在測(cè)試過程中,輸入圖像被調(diào)整到550×550的大小,后被中心裁剪成448×448大小.本文使用隨機(jī)梯度下降優(yōu)化器和批量歸一化作為正則化器.同時(shí),本文添加的可變形卷積層和全連接層的學(xué)習(xí)速率分別被初始化為0.002.本文進(jìn)行了200個(gè)Epoch的訓(xùn)練,批次大小為32,使用的權(quán)重衰減為0.0005,動(dòng)量為0.9.

在迭代學(xué)習(xí)步數(shù)選擇上,本文設(shè)置迭代步數(shù)從1變化到5,如表2所示,當(dāng)s<4時(shí),s的增加顯著提高了模型的性能.然而,當(dāng)s=4時(shí),模型準(zhǔn)確率開始下降,當(dāng)s=5時(shí),準(zhǔn)確率下降更為明顯.實(shí)驗(yàn)證明,迭代步數(shù)為3時(shí)效果最佳.

表2 不同迭代步數(shù)下的準(zhǔn)確率Table 2 Accuracy under different iterations

4.3 對(duì)比實(shí)驗(yàn)

本文的方法與其他最先進(jìn)方法在CUB200-2011、Stanford Cars和FGVC-Aircraft數(shù)據(jù)集上的比較見表3,其中列出了基礎(chǔ)模型和分類準(zhǔn)確率.

4.3.1 CUB-200-2011數(shù)據(jù)集分類結(jié)果

本文方法在CUB-200-2011數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果都優(yōu)于其他所有的對(duì)比方法.在所有的方法中,MSEC具有較高的準(zhǔn)確率,它首先將輸入圖像劃分為若干子區(qū)域,通過置信度函數(shù)計(jì)算這些子區(qū)域的置信度得分.然后擦除具有較低置信度分?jǐn)?shù)的子區(qū)域,之后用多粒度區(qū)域模塊分別對(duì)被擦除子區(qū)域和置信度較高的子區(qū)域分別進(jìn)行劃分和混淆,生成具有多粒度信息的圖像.最后,骨干網(wǎng)絡(luò)分別提取上述兩份圖像中的特征,利用多損失函數(shù)優(yōu)化整個(gè)網(wǎng)絡(luò),實(shí)現(xiàn)分類任務(wù).與它不同的是,本文所提方法并沒有放棄一些相關(guān)度不高的特征,而是挖掘出多粒度特征間的互補(bǔ)信息并對(duì)多粒度特征進(jìn)行了融合,這有利于提高分類的準(zhǔn)確率.最終本文方法獲得了88.6%的分類準(zhǔn)確率.

表3 不同方法在3個(gè)數(shù)據(jù)集中分類準(zhǔn)確率的對(duì)比結(jié)果Table 3 Comparisons of different methods on three datasets

4.3.2 FGVC-Aircraft數(shù)據(jù)集分類結(jié)果

同樣的,本文方法在FGVC-Aircraft數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)并于其他方法進(jìn)行比較.顯然,本文方法取得了領(lǐng)先的性能,準(zhǔn)確率為93.6%.BAM B-CNN用一個(gè)基于注意力的雙線性卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行分類,具體來說,它將原始圖像、物體圖像、局部圖像分別輸入網(wǎng)絡(luò)得到特征后將其融合起來用作分類,這和本文中融合多粒度特征的想法有些許類似,但不同的是本文用迭代學(xué)習(xí)的方式來挖掘不用粒度之間的互補(bǔ)信息從而增強(qiáng)分類效果,實(shí)驗(yàn)表明在FGVC-Aircraft數(shù)據(jù)集上本文的分類準(zhǔn)確率對(duì)比BAM B-CNN提升了4.6%,這印證了本文方法的優(yōu)越性.

4.3.3 Stanford Cars數(shù)據(jù)集分類結(jié)果

從表2中可以看出,本文方法以ResNet50為基礎(chǔ)模型獲得了94.8%的準(zhǔn)確率,優(yōu)于其他的方法,Corss-X認(rèn)為相同語義部分的特征應(yīng)該比不同語義部分的特征相關(guān)性大,盡管這些相同語義特征來自同類別的其他圖像或不同類別的圖像,所以Corss-X利用來自不同圖像和不同網(wǎng)絡(luò)層的特征之間的關(guān)系來學(xué)習(xí)強(qiáng)大的細(xì)粒度特征,并取得了優(yōu)秀的效果.與它不同的是本文讓網(wǎng)絡(luò)學(xué)習(xí)同一圖像下的多粒度特征及其互補(bǔ)信息,這一差異使得本文方法在Stanford Cars數(shù)據(jù)集上的準(zhǔn)確率比Corss-X提升了0.2%.ACNet構(gòu)建了一個(gè)結(jié)合注意力的二叉神經(jīng)樹結(jié)構(gòu),它通過從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的計(jì)算方式來學(xué)習(xí)從細(xì)到粗粒度的特征,并在每個(gè)葉子節(jié)點(diǎn)利用特征進(jìn)行預(yù)測(cè),最后將結(jié)合所有葉子節(jié)點(diǎn)的預(yù)測(cè)得到最終預(yù)測(cè)值.與它相比,本文方法不僅循序漸進(jìn)的學(xué)習(xí)了由細(xì)到粗的多粒度特征,并且還將他們?nèi)诤显谝黄?從而在效果上比ACNet提升了0.2%.盡管相對(duì)上述兩個(gè)方法來說,本文方法得到的效果提升并不顯著,但是考慮到Stanford Cars數(shù)據(jù)集中的汽車數(shù)據(jù)相似度極高,取得的微弱優(yōu)勢(shì)仍然足以證明本文方法具有強(qiáng)大的競(jìng)爭(zhēng)力.

4.4 消融實(shí)驗(yàn)

本文在CUB-200-2011數(shù)據(jù)集上進(jìn)行了一些消融實(shí)驗(yàn),來探究局部錯(cuò)位模塊,注意力模塊以及可變形卷積在本文方法中的實(shí)用性.實(shí)驗(yàn)中設(shè)置迭代學(xué)習(xí)步數(shù)S=3,各模塊消融實(shí)驗(yàn)的準(zhǔn)確率比較如表4所示,精度-召回率(PR)曲線以及平均精度mAP如圖5所示,其中PDM代表局部錯(cuò)位模塊,A代表注意力模塊,D代表可變形卷積模塊.

表4 在CUB-200-2011數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果表Table 4 Result of ablation study on CUB-200-2011

圖5 數(shù)據(jù)集CUB-200-2011上的PR曲線圖Fig.5 PR curves on CUB-200-2011 datasets

在只加入局部錯(cuò)位模塊的情況下,模型的準(zhǔn)確率提高了0.7%,這是因?yàn)榫植垮e(cuò)位模塊能夠生成不同粒度的輸入圖像,有助于網(wǎng)絡(luò)利用不同粒度的特征來彌補(bǔ)只使用相同粒度特征的劣勢(shì),實(shí)驗(yàn)結(jié)果顯示,加入局部錯(cuò)位模塊后的PR曲線明顯優(yōu)于添加該模塊之前,平均精度提高0.7,說明局部錯(cuò)位模塊對(duì)模型的性能提升有幫助.同時(shí)注意力模塊也給模型的效果帶來了穩(wěn)定的提升,加入注意力模塊的情況比只使用局部錯(cuò)位模塊提升了0.9%的模型準(zhǔn)確率,并且平均精度mAP也提升了0.8,這是因?yàn)橐氲淖⒁饬δK可以更好地定位特征中具有辨別性的區(qū)域.可形變卷積模塊能夠?qū)⒑谢パa(bǔ)信息的多粒度特征融合在一起,貢獻(xiàn)了1.3%的準(zhǔn)確率提升和1.1的平均精度提升,同時(shí)PR曲線也更優(yōu),這有力的印證了可變性卷積模塊的有效性.實(shí)驗(yàn)表明,上述3個(gè)模塊都對(duì)模型性能做出了貢獻(xiàn),并且由于它們作用的內(nèi)在聯(lián)系,3個(gè)模塊的協(xié)同合作的效果遠(yuǎn)遠(yuǎn)大于單個(gè)模塊給模型帶來的提升,在加入3個(gè)模塊的情況下,準(zhǔn)確率整整比只是用ResNet50時(shí)增長了2.8%,PR曲線相較ResNet50有明顯優(yōu)勢(shì),且平均精度也在ResNet50基礎(chǔ)上有明顯提升,這再一次驗(yàn)證了本文使用的模塊的有效性.

4.5 模型復(fù)雜度分析

本節(jié)使用FLOPs和推理時(shí)間來衡量模型的時(shí)間復(fù)雜度,使用參數(shù)量來描述模型的空間復(fù)雜度,FLOPs指代浮點(diǎn)運(yùn)算數(shù)量,能夠借由該指標(biāo)表示模型的計(jì)算量,推理時(shí)間代表模型在推理單張圖片的分類結(jié)果所需要的時(shí)間.參數(shù)量描述模型每一層的參數(shù)數(shù)量之和,用來衡量模型所占空間.

表5 模型復(fù)雜度Table 5 Model complexity

如表5所示,PDM模塊在沒有帶來額外的計(jì)算量與參數(shù)量的基礎(chǔ)上得到了準(zhǔn)確率的提高,增加的注意力模塊和可變形卷積模塊用少量的計(jì)算量和參數(shù)量的提升以及少量推理速度的犧牲,換取了模型可觀的效果提升.

5 結(jié)束語

本文面向細(xì)粒度圖像分類,提出了一種融合多粒度特征的網(wǎng)絡(luò),該網(wǎng)絡(luò)通過局部錯(cuò)位模塊、注意力模塊、迭代學(xué)習(xí)方式和可變形卷積模塊的協(xié)同合作,使網(wǎng)絡(luò)逐步學(xué)習(xí)粒度從細(xì)到粗的特征表示并將提取到不同粒度的特征進(jìn)行融合,目的是利用不同粒度特征之間的互補(bǔ)信息來提高分類網(wǎng)絡(luò)的準(zhǔn)確率.本文在CUB-200-2011、FGVC-Aircraft和Stanford Cars 3個(gè)數(shù)據(jù)集上的進(jìn)行了一系列的實(shí)驗(yàn),證明了本文方法的優(yōu)越性.在未來的工作計(jì)劃中,將致力于通過去除多粒度特征的冗余信息以及解決過擬合現(xiàn)象的方式,來提高細(xì)粒度圖像分類方法的性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡