李明悅,何樂生,雷 晨,龔友梅
(云南大學(xué) 信息學(xué)院,云南 昆明 650500)
細(xì)粒度圖像分類問題的目標(biāo)是對(duì)子類進(jìn)行識(shí)別,如區(qū)分不同種類的狗、鳥、飛機(jī)等,是計(jì)算機(jī)視覺領(lǐng)域一項(xiàng)具有挑戰(zhàn)性的研究課題. 細(xì)粒度圖像分類難點(diǎn)在于子類別間細(xì)微的類間差異和較大的內(nèi)類差異. 傳統(tǒng)的分類算法不得不依賴于大量的人工標(biāo)注信息,但隨著深度學(xué)習(xí)的發(fā)展,基于深度卷積特征的算法被大量提出,深度卷積神經(jīng)網(wǎng)絡(luò)為細(xì)粒度圖像分類帶來了許多新的機(jī)遇,促進(jìn)了該領(lǐng)域的快速發(fā)展.
文獻(xiàn)[1]提出的姿態(tài)規(guī)范化細(xì)粒度識(shí)別框架,首先使用可變形部件模型通過語義部件的特征點(diǎn)計(jì)算物體級(jí)別和部件級(jí)別的包圍盒,然后對(duì)語義部位圖像塊進(jìn)行姿態(tài)對(duì)齊操作. 文獻(xiàn)[2]提出的Deep LAC 模型將語義部件定位、對(duì)齊和分類3 個(gè)組件統(tǒng)一到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中. Zhang 等[3]提出的PS-CNN (Part-Stacked CNN)也是一個(gè)利用語義部件進(jìn)行細(xì)粒度分類的框架. Wei等[4]提出的Mask-CNN 框架在細(xì)粒度圖像語義部件定位和分類方面都取得了較好的結(jié)果. 以上的分類方法需要利用物體標(biāo)注框、部位標(biāo)注點(diǎn)等額外的人工標(biāo)注信息. 基于弱監(jiān)督學(xué)習(xí)的細(xì)粒度圖像分類模型能有效克服大量標(biāo)注帶來的成本. 如Lin 等[5]提出的雙線性模型,該模型包括兩個(gè)超分辨率測試序列(Visual Geometry Group,VGG)網(wǎng)絡(luò),其中一個(gè)VGG 用于定位物體,另一個(gè)VGG 用于對(duì)定位物體進(jìn)行特征提取,但一個(gè)VGG 網(wǎng)絡(luò)有近一百多萬個(gè)參數(shù),使模型計(jì)算量變大. 文獻(xiàn)[6]提出的用深度殘差網(wǎng)絡(luò)提取細(xì)粒度圖像的卷積特征,然后挑選強(qiáng)區(qū)分性區(qū)域,并額外引入了特征金字塔網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí),雖實(shí)現(xiàn)了較高的分類準(zhǔn)確率,但是網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,并且在挑選強(qiáng)區(qū)分性區(qū)域時(shí)增加了網(wǎng)絡(luò)的計(jì)算消耗.
因此,本文提出用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)代替以往細(xì)粒度圖像分類模型中的特征提取網(wǎng)絡(luò). 首先使用在ImageNet 預(yù)訓(xùn)練好的3 個(gè)典型的輕量級(jí)卷積網(wǎng)絡(luò)在常用的3 個(gè)公開的細(xì)粒度數(shù)據(jù)上進(jìn)行驗(yàn)證,通過對(duì)網(wǎng)絡(luò)的微調(diào)得出了3 種輕量級(jí)模型的平均識(shí)別率、模型參數(shù)量、模型內(nèi)存大小和運(yùn)行速度,其中SqueezeNet 模型運(yùn)行速度快、參數(shù)最少,使用SqueezeNet 作為特征提取網(wǎng)絡(luò)能解決現(xiàn)有細(xì)粒度算法中模型龐大、結(jié)構(gòu)復(fù)雜等問題;然后針對(duì)網(wǎng)絡(luò)分類時(shí)存在識(shí)別圖像判別性特征較差的問題,將Convolution Block Attention Module( CBAM) 和Squeeze-and-Excitation(SE)這兩個(gè)注意力機(jī)制模塊嵌入到SqueezeNet 結(jié)構(gòu)中,使改進(jìn)后的網(wǎng)絡(luò)自動(dòng)識(shí)別到更具區(qū)分的判別性區(qū)域;接著將嵌入了注意力機(jī)制的Fire4 和Fire8 的特征進(jìn)行融合得到注意力特征圖,與網(wǎng)絡(luò)最后一層特征圖進(jìn)行雙線性融合,提高模型對(duì)具有判別性特征的識(shí)別能力;最后將本文的模型在3 個(gè)訓(xùn)練集上訓(xùn)練至收斂后,最終在測試集上嵌入CBAM 模塊的分識(shí)別率分別提高了8.96%、4.89%和5.85%,嵌入SE 模塊分別提高了9.81%、4.52%、和2.30%. 將本文的模型進(jìn)一步與InceptionV3[10]等其他細(xì)粒度算法進(jìn)行比較,得出本文提出的模型能達(dá)到目前優(yōu)秀細(xì)粒度圖像分類算法的識(shí)別率的同時(shí),模型內(nèi)存只有15 MB,參數(shù)量只有200 萬左右,在性能上有一定的優(yōu)勢.
本文首先將輸入的原始圖像進(jìn)行預(yù)處理. 預(yù)處理包括將圖像裁剪到 448×448 像素,并對(duì)裁剪后的圖像進(jìn)行旋轉(zhuǎn)、縮放等幾何變換,然后將預(yù)處理后的圖像送入本文改進(jìn)后的SqueezeNet 進(jìn)行特征提取. 為了提升網(wǎng)絡(luò)對(duì)細(xì)粒度圖像局部判別性區(qū)域的識(shí)別能力,在原始SqueezeNet 的每個(gè)Fire 模塊中嵌入注意力機(jī)制模塊,原始Fire 模塊的特征矩陣會(huì)經(jīng)過注意力機(jī)制模塊并預(yù)測出一定的注意區(qū)域.注意力機(jī)制模塊中生成的注意力特征與網(wǎng)絡(luò)最后一層卷積層輸出的全局特征進(jìn)行雙線性融合,以此來增強(qiáng)特征,最后經(jīng)過Softmax 層進(jìn)行分類,與Ground Truth 作Loss 計(jì)算,使模型不斷迭代優(yōu)化網(wǎng)絡(luò). 本文方法的算法總框圖如圖1 所示.
圖1 本文方法總框圖Fig. 1 The general block diagram of the method in this paper
1.1 SqueezeNet輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)前深度學(xué)習(xí)發(fā)展的重要研究方向之一,目的是為了解決如何將神經(jīng)網(wǎng)絡(luò)部署到嵌入式設(shè)備的問題. 目前主流的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)有SqueezeNet,MobileNet和ShuffleNet 以及它們的變種. MobileNet 采 用了傳統(tǒng)網(wǎng)絡(luò)中的Group 思想,即限制濾波器的卷積計(jì)算只針對(duì)特定的Group 中的輸入降低卷積計(jì)算量,提高了移動(dòng)端前向計(jì)算的速度. ShuffleNet 采用了channel shuffle 操作解決信息流通不暢問題,增強(qiáng)了模型的學(xué)習(xí)能力.
SqueezeNet 最主要的結(jié)構(gòu)就是類似Inception網(wǎng)絡(luò)結(jié)構(gòu)的Fire 模塊(Fire module). 一個(gè)Fire module包含一個(gè)squeeze 卷積層和一個(gè)expand 卷積層,如圖2 所示. SqueezeNet 模型首先將3×3 卷積核替換為1×1 卷積核,然后減小輸入到3×3 卷積核的輸入通道數(shù),盡可能將下采樣放在網(wǎng)絡(luò)后面的層中.SqueezeNet 還采用了平均池化層代替?zhèn)鹘y(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層,有效減少了模型的參數(shù). 正是以上的優(yōu)點(diǎn),使得SqueezeNet 計(jì)算效率提高,F(xiàn)ire 模塊也能很好地提高識(shí)別性能.
圖2 SqueezeNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 The network structure of SqueezeNet
1.2 改進(jìn) 的SqueezeNet在細(xì)粒 度圖像分 類中,不同類別之間的差異是非常細(xì)微的,包含具有判別性的區(qū)分信息往往是存在于圖像的局部區(qū)域中. 例如區(qū)分赫里氏帶鹀和金帝沙鹀,鳥類專家可能會(huì)通過鳥嘴巴的形狀、腹部、羽毛的顏色;區(qū)分紅色奧迪和紅色雪弗蘭,可能需要通過車牌、車燈樣式等;區(qū)分兩架不同種類的飛機(jī)可能需要通過飛機(jī)的機(jī)頭、機(jī)尾,甚至是飛機(jī)窗口的數(shù)量. 因此對(duì)于細(xì)粒度分類問題,識(shí)別到具有區(qū)分度的局部特征是至關(guān)重要的.
在識(shí)別細(xì)粒度圖像局部細(xì)節(jié)方面,Lin 等[5]提出的雙線性網(wǎng)絡(luò)(Bilinear-CNN)是最早引入注意力機(jī)制的模型,利用2 個(gè)相同的卷積神經(jīng)網(wǎng)絡(luò)分支關(guān)注不同區(qū)域的特征,卷積網(wǎng)絡(luò)A 用于對(duì)識(shí)別目標(biāo)的部件進(jìn)行定位,網(wǎng)絡(luò)B 用于對(duì)網(wǎng)絡(luò)A 檢測到的部件與局部區(qū)域的位置進(jìn)行特征提取,通過向量外積的方式聚合2 個(gè)分支的特征得到最后的特征表示. Fu 等提出循環(huán)注意力網(wǎng)絡(luò)(Residual Attention Networks)[11],采用一個(gè)編解碼結(jié)構(gòu)的注意力模塊,對(duì)中間特征圖通過Enconder-Decoder 方式得到一個(gè)3 維的attention map,如下所示:
其中,H(x) 表示經(jīng)過網(wǎng)絡(luò)分支后輸出的特征圖,掩膜分支的輸出特征圖為M(x),F(xiàn)(x) 是由一個(gè)深層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)擬合,學(xué)習(xí)的是輸出和輸入之間的殘差結(jié)果.
從式(1)可以看出以往細(xì)粒度算法中的注意力方法通常是輸入特征圖的所有通道進(jìn)行融合. 而本文使用的注意力方式是將注意力機(jī)制模塊嵌入到原網(wǎng)絡(luò)的結(jié)構(gòu)中. 本文提出的第1 種嵌入方式是使用CBAM[12],該模塊是一個(gè)注意模塊的前饋卷積神經(jīng)網(wǎng)絡(luò). 為減少計(jì)算量,CBAM 不直接計(jì)算3 維的attention map,將CBAM 嵌入原SqueezeNet 的每個(gè)Fire 模塊之后,原始Fire 模塊中的特征圖會(huì)分別經(jīng)過全局最大池化和全局平均池化,輸出兩個(gè)通道又分別經(jīng)過多層感知機(jī),將多層感知機(jī)輸出的特征進(jìn)行逐元素相加,再用sigmoid 函數(shù)激活,生成最終的通道注意力(channel attention)特征圖Mc(F),如下所示:
本文提出的第2 種嵌入方式是將SE(Squeezeand-Excitation)模塊[13]嵌入到SqueezeNet 的Fire模塊,其生成注意力特征的過程如下:
步驟 1 原始Fire 模塊層的特征矩陣會(huì)經(jīng)過SE 模塊,將一個(gè)通道上的空間特征編碼為一個(gè)全局特征,采用全局平均池化輸出該層c個(gè)特征圖的數(shù)值分布情況,如下所示:
其中 ,uc表示第c個(gè)通道的特征,F(xiàn)GAP(·) 表示全局平均池化.
步驟 2 采用
sigmoid 形式的門機(jī)制讓網(wǎng)絡(luò)學(xué)習(xí)各個(gè)通道間的非線性關(guān)系. 其中W是網(wǎng)絡(luò)的權(quán)重,函數(shù)g(·) 是池化函數(shù), σ (·)是sigmoid 函數(shù) .
步驟 3 為了降低模型復(fù)雜度以及提高泛化能力,采用包含兩個(gè)全連接的瓶頸(bottleneck)結(jié)構(gòu)將特征降維,降維系數(shù)r是超參數(shù),本文將r設(shè)為12,然后用ReLU 函數(shù)激活,最后將學(xué)習(xí)到的各個(gè)通道的激活值乘以原始特征得到最終的注意力特征圖y:
加入SE 結(jié)構(gòu)的注意力機(jī)制可以讓模型更加關(guān)注信息量最大的通道特征,抑制那些不重要的通道特征;CBAM 結(jié)構(gòu)的注意力則是既考慮到不同像素的重要性,又考慮到了同一通道不同位置像素的重要性. 這兩種注意力機(jī)制模塊都可以無縫集成到現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)里,與網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練,并且只會(huì)增加很小的計(jì)算消耗. 嵌入注意機(jī)制的Fire 模塊結(jié)構(gòu)如圖3 所示. 圖3(a)是在Fire 后嵌入CBAM 模塊,是本文的第1 種嵌入方式,圖3(b)是本文提出的第2 種嵌入方式. 將原始的SqueezeNet 中的Fire 模塊分別替換成由圖3 兩種方式改進(jìn)的Fire 模塊,使網(wǎng)絡(luò)整個(gè)具有注意力機(jī)制,對(duì)原始的特征進(jìn)行權(quán)值重標(biāo)定.
圖3 Fire 模塊引入注意力機(jī)制Fig. 3 The Fire module introduced attention mechanism
1.3 注意力特征融合雙線性網(wǎng)絡(luò)只考慮了最后一層卷積特征作為特征表示,這對(duì)于細(xì)粒度圖像分類來說是不夠的,因?yàn)橹虚g卷積特征同樣包含物體局部特征屬性,這使得有利于細(xì)粒度圖像分類的信息丟失.
如圖4 所示,為了增強(qiáng)網(wǎng)絡(luò)對(duì)局部判別性特征的識(shí)別能力,本文提出將SqueezeNet 原始的Fire模塊替換成基于注意力機(jī)制的Fire 模塊. 首先將改進(jìn)后的Fire4 和Fire8 輸出的特征提取出來,采用雙線性池化的方式得到一個(gè)融合后的新的注意力特征圖;然后將新的注意力特征圖與網(wǎng)絡(luò)最后輸出的全局特征按元素相乘后,得到局部特征圖;最后再進(jìn)行全局平均池化及拼接,得到一個(gè)新的張量,作為線性分類層的輸入進(jìn)行分類. 注意力機(jī)制融合的具體過程如下:
圖4 細(xì)粒度圖像分類網(wǎng)絡(luò)的總體結(jié)構(gòu)Fig. 4 The overall structure of fine - grained image classification network
步驟 1 首先設(shè)Fa1和Fa2分別是帶有注意力機(jī)制的Fire4 層和帶有注意力機(jī)制的Fire8 層的輸出特征,將特征Fa1的所有通道的值形成一個(gè)1×D1的向量ma1, 特征Ca2的所有通道的值形成1×D2的向量ma2,按
計(jì)算兩個(gè)Fire 層融合后的融合特征.
步驟 2 采用全局平均池化或全局最大池化函數(shù)對(duì)融合特征按公式(5~7)匯聚成一個(gè)新的注意力特征:
2.1 實(shí)驗(yàn)數(shù)據(jù)集實(shí)驗(yàn)用到的數(shù)據(jù)集是3 個(gè)公開的細(xì)粒度數(shù)據(jù)集. CUB-200-2011 鳥類數(shù)據(jù)集包括200 種鳥類,其中有5 994 張訓(xùn)練圖像和5 794 張測試圖像[14]. Stanford Cars 汽車數(shù)據(jù)集包含196 種車輛,訓(xùn)練集有8 144 張,測試集有8 041 張,關(guān)鍵特征包括車輛制造商、款式、生產(chǎn)日期. FGVC-Aircraft Benchmark 飛機(jī)數(shù)據(jù)集有102 種不同的飛機(jī),一共10 200 張飛機(jī)圖像[15].
2.2 訓(xùn)練過程和評(píng)價(jià)指標(biāo)實(shí)驗(yàn)使用Windows 系統(tǒng)和基于Pytorch 框架,在NVIDIA GeForce RTX2080 GPU 上進(jìn)行.
實(shí)驗(yàn)1:先將典型的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet 上進(jìn)行訓(xùn)練,得到的預(yù)訓(xùn)練模型遷移到細(xì)粒度數(shù)據(jù)上繼續(xù)訓(xùn)練. 預(yù)訓(xùn)練網(wǎng)絡(luò)訓(xùn)練時(shí),先把每張圖片縮放到500×500 像素,然后隨機(jī)裁剪448×448 像素并進(jìn)行數(shù)據(jù)增強(qiáng)后輸入到網(wǎng)絡(luò)中,對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào):采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)對(duì)網(wǎng)絡(luò)進(jìn)行權(quán)值優(yōu)化更新[16],即每次用一小批樣本計(jì)算. 根據(jù)本文算法中的數(shù)據(jù)特征,選取學(xué)習(xí)速率為0.001. 對(duì)于ShuffleNet、MobileNet 兩個(gè)網(wǎng)絡(luò)采用全連接層分類,SqueezeNet 使用自適應(yīng)平均池化函數(shù)進(jìn)行分類. 測試時(shí)將中心裁剪448×448 像素的圖片輸入網(wǎng)絡(luò)中,并對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),最后選取網(wǎng)絡(luò)性能最佳的SqueezeNet 模型進(jìn)行改進(jìn),進(jìn)一步提高識(shí)別率.
實(shí)驗(yàn)2:將本文改進(jìn)的SqueezeNet 模型又一次在細(xì)粒度數(shù)據(jù)集上進(jìn)行驗(yàn)證. 訓(xùn)練過程中先把每張圖片縮放到500×500 像素,然后隨機(jī)裁剪448×448 像素輸入到網(wǎng)絡(luò)中,每張圖像均進(jìn)行歸一化操作,損失函數(shù)采用Softmax-Loss,網(wǎng)絡(luò)權(quán)值優(yōu)化更新依然采用SGD 優(yōu)化器,經(jīng)過衰減步長次迭代后更新學(xué)習(xí)速率 γ 乘以衰減系數(shù) α. 基礎(chǔ)學(xué)習(xí)速率設(shè)為0.01,衰減系數(shù)設(shè)為0.1,動(dòng)量(momentum)設(shè)為0.9,迭代次數(shù)設(shè)為200 次[17]. 測試時(shí)將中心裁剪448×448 像素的圖片輸入網(wǎng)絡(luò)中,最后將識(shí)別結(jié)果與改進(jìn)前的網(wǎng)絡(luò)進(jìn)行對(duì)比,并與其他細(xì)粒度模型進(jìn)行網(wǎng)絡(luò)性能的對(duì)比.
本文使用分類準(zhǔn)確率、模型參數(shù)量、模型內(nèi)存大小,以及在測試集上消耗的時(shí)間作為評(píng)價(jià)指標(biāo).為了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,采用十折交叉驗(yàn)證(10-fold cross-validation)并取平均值作為最后的結(jié)果.
2.3 實(shí)驗(yàn)結(jié)果分析本文首先使用預(yù)訓(xùn)練好的輕量級(jí)網(wǎng)絡(luò)在3 個(gè)常用的細(xì)粒度數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,為了分析網(wǎng)絡(luò)的性能,將3 種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)在測試集上的識(shí)別率、運(yùn)行時(shí)間做了如表1~3 詳細(xì)的對(duì)比,其中運(yùn)行時(shí)間指的是模型在測試集上運(yùn)行的速度. 參數(shù)量和模型內(nèi)存大小的對(duì)比如圖5 所示.
從表1~3 的結(jié)果中可以看出,輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)也可以用于細(xì)粒度圖像的分類識(shí)別,而且SqueezeNet 在飛機(jī)類和汽車類數(shù)據(jù)測試集上的運(yùn)行時(shí)間都在30 s 以內(nèi),網(wǎng)絡(luò)運(yùn)行效率更快. 從圖5可以看出,SqueezeNet 網(wǎng)絡(luò)相比于其他兩種輕量級(jí)卷積網(wǎng)絡(luò),以及相較于如VGG、ResNet 這種傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)都具有模型性能上的優(yōu)勢,只有約100 萬個(gè)參數(shù),模型大小也是最輕量的. 但未改進(jìn)的SqueezeNet 在細(xì)粒度數(shù)據(jù)集上的分類準(zhǔn)確率還比較低,這是因?yàn)榧?xì)粒度的分類難點(diǎn)在于具有判別性的特征存在于圖像的局部細(xì)節(jié)中,直接使用典型的卷積網(wǎng)絡(luò)不能較好地克服這個(gè)難點(diǎn),因此本文的第2 個(gè)實(shí)驗(yàn)將模型性能較好的SqueezeNet進(jìn)行改進(jìn),在原網(wǎng)絡(luò)的Fire 模塊中嵌入了兩種注意力機(jī)制模塊,第1 次嵌入CBAM 注意力模塊,第2次嵌入SE 模塊,將改進(jìn)后的網(wǎng)絡(luò)在3 個(gè)細(xì)粒度數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證和對(duì)比.
圖5 網(wǎng)絡(luò)參數(shù)量和內(nèi)存對(duì)比Fig. 5 Network performance comparison on parameters and memory
表1 CUB-200-2011 實(shí)驗(yàn)結(jié)果Tab. 1 Experimental results of CUB-200-2011
表4 展現(xiàn)了網(wǎng)絡(luò)模型改進(jìn)前后在3 個(gè)數(shù)據(jù)集的測試集上分類準(zhǔn)確率的結(jié)果比較. 改進(jìn)后的SqueezeNet 細(xì)粒度圖像分類模型,由于對(duì)原始SqueezeNet 網(wǎng)絡(luò)進(jìn)行了注意力模塊的嵌入,讓模型能夠定位到更具有判別性的局部區(qū)域. 受雙線性模型的啟發(fā),對(duì)注意力模塊的特征進(jìn)行了雙線性融合,增強(qiáng)了對(duì)圖像特征的識(shí)別能力. 因此,因此改進(jìn)后的模型在鳥類、飛機(jī)類和汽車類數(shù)據(jù)集上取得了相對(duì)較好的效果,嵌入CBAM 模塊,準(zhǔn)確率在3 個(gè)數(shù)據(jù)集上依次提高了8.96%、4.89%、5.85%;嵌入SE 模塊,準(zhǔn)確率依次提高了9.81%、4.52%、2.30%.圖6 的熱力圖效果對(duì)比展示了SqueezeNet 網(wǎng)絡(luò)嵌入注意力機(jī)制后,模型能更加集中到目標(biāo)對(duì)象更具有判別力的區(qū)域. 如圖6 第1 列對(duì)鳥的識(shí)別中,原網(wǎng)絡(luò)能識(shí)別到鳥的整個(gè)軀體,但加入注意力機(jī)制后,CBAM 模塊能幫助網(wǎng)絡(luò)定位到鳥尾部區(qū)域,SE 模塊能定位到尾部和頭部眼睛的區(qū)域;第2 列對(duì)汽車識(shí)別中,嵌入的CBAM 模塊能幫助模型更好地識(shí)別到車燈上;在飛機(jī)識(shí)別中,兩個(gè)注意力機(jī)制模塊不僅增強(qiáng)了模型對(duì)機(jī)頭、機(jī)尾的識(shí)別能力,CBAM模塊還能識(shí)別到飛機(jī)的機(jī)翼部分,體現(xiàn)了本文的改進(jìn)方法能夠提高模型強(qiáng)化注意力特征區(qū)域的能力,而特征融合也能進(jìn)一步增強(qiáng)圖像的特征,提高模型對(duì)特征的識(shí)別能力.
圖6 注意力機(jī)制嵌入效果對(duì)比Fig. 6 The effects comparison of the attention embeddingmechanism
表2 Stanford Cars 實(shí)驗(yàn)結(jié)果Tab. 2 Experimental results of Stanford Cars
表3 FGVC-Aircraft Benchmark 實(shí)驗(yàn)結(jié)果Tab. 3 Experimental results of FGVC-Aircraft
表4 改進(jìn)前后模型的準(zhǔn)確率對(duì)比Tab. 4 Comparison of the model accuracy before and after improvement %
表5 是不同的細(xì)粒度圖像分類算法在3 個(gè)細(xì)粒度數(shù)據(jù)集上分類準(zhǔn)確率的結(jié)果比較. 從表5 可以看出,本文提出的嵌入注意力機(jī)制模塊和特征融合的SqueezeNet 細(xì)粒度圖像分類模型,在3 個(gè)細(xì)粒度數(shù)據(jù)集上的識(shí)別準(zhǔn)確率上取得了相對(duì)較好的分類準(zhǔn)確率. 其中,嵌入CBAM 模塊和特征融合后,模型在鳥類、汽車類、飛機(jī)類數(shù)據(jù)上的準(zhǔn)確率分別達(dá)到了83.36%、91.20%、87.85%;嵌入SE 模塊,模型的分類準(zhǔn)確率分別是84.21%、90.83%、84.30%,均高于VGG-19 網(wǎng)絡(luò),并且本文提出的基于注意力特征融合的SqueezeNet 模型在與其他深度網(wǎng)絡(luò)的識(shí)別率相當(dāng)?shù)那闆r下,改進(jìn)后的模型內(nèi)存大小只有15 MB,只是IinceptionV3 網(wǎng)絡(luò)的
表5 各模型的實(shí)驗(yàn)結(jié)果對(duì)比Tab. 5 The experimental results comparison of each model
本文首先提出使用3 種典型的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)用于細(xì)粒度圖像分類,并進(jìn)行了兩次實(shí)驗(yàn).實(shí)驗(yàn)1 通過對(duì)預(yù)訓(xùn)練的網(wǎng)絡(luò)模型進(jìn)行微調(diào),得出輕量級(jí)網(wǎng)絡(luò)能用于細(xì)粒度圖像分類,并且選擇了模型參數(shù)、內(nèi)存大小和運(yùn)行速度都比其他神經(jīng)網(wǎng)絡(luò)更有優(yōu)勢的SqueezeNet 作為圖像特征提取網(wǎng)絡(luò),可以解決現(xiàn)有細(xì)粒度圖像分類算法用傳統(tǒng)較深的卷積網(wǎng)絡(luò)識(shí)別時(shí)帶來的參數(shù)多、模型龐大等問題. 針對(duì)細(xì)粒度識(shí)別的難點(diǎn)進(jìn)行改進(jìn),在原SqueezeNet結(jié)構(gòu)中嵌入了兩種注意力機(jī)制模塊,增強(qiáng)網(wǎng)絡(luò)對(duì)識(shí)別對(duì)象的局部判別性區(qū)域的能力,并將嵌入注意力機(jī)制的網(wǎng)絡(luò)的中間層輸出的特征圖與網(wǎng)絡(luò)的最后一層輸出的特征圖進(jìn)行特征融合,全局平均池化后分類. 實(shí)驗(yàn)結(jié)果證明了改進(jìn)后的網(wǎng)絡(luò)相比于改進(jìn)前的網(wǎng)絡(luò),其準(zhǔn)確率有了明顯的提高,并且與其他細(xì)粒度算法相比,本文提出的細(xì)粒度分類模型大小只有15 MB,屬于較輕量的分類模型,未來的研究方向?qū)⒖紤]用目標(biāo)檢測中多尺度[20]的方法,提高網(wǎng)絡(luò)的特征提取能力.