基于注意力特征融合的SqueezeNet 細(xì)粒度圖像分類模型

2021-10-14 08:26:56李明悅何樂生龔友梅

云南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2021年5期

李明悅，何樂生，雷晨，龔友梅

(云南大學(xué) 信息學(xué)院，云南昆明 650500)

細(xì)粒度圖像分類問題的目標(biāo)是對(duì)子類進(jìn)行識(shí)別，如區(qū)分不同種類的狗、鳥、飛機(jī)等，是計(jì)算機(jī)視覺領(lǐng)域一項(xiàng)具有挑戰(zhàn)性的研究課題. 細(xì)粒度圖像分類難點(diǎn)在于子類別間細(xì)微的類間差異和較大的內(nèi)類差異. 傳統(tǒng)的分類算法不得不依賴于大量的人工標(biāo)注信息，但隨著深度學(xué)習(xí)的發(fā)展，基于深度卷積特征的算法被大量提出，深度卷積神經(jīng)網(wǎng)絡(luò)為細(xì)粒度圖像分類帶來了許多新的機(jī)遇，促進(jìn)了該領(lǐng)域的快速發(fā)展.

文獻(xiàn)[1]提出的姿態(tài)規(guī)范化細(xì)粒度識(shí)別框架，首先使用可變形部件模型通過語義部件的特征點(diǎn)計(jì)算物體級(jí)別和部件級(jí)別的包圍盒，然后對(duì)語義部位圖像塊進(jìn)行姿態(tài)對(duì)齊操作. 文獻(xiàn)[2]提出的Deep LAC 模型將語義部件定位、對(duì)齊和分類3 個(gè)組件統(tǒng)一到一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中. Zhang 等[3]提出的PS-CNN （Part-Stacked CNN）也是一個(gè)利用語義部件進(jìn)行細(xì)粒度分類的框架. Wei等[4]提出的Mask-CNN 框架在細(xì)粒度圖像語義部件定位和分類方面都取得了較好的結(jié)果. 以上的分類方法需要利用物體標(biāo)注框、部位標(biāo)注點(diǎn)等額外的人工標(biāo)注信息. 基于弱監(jiān)督學(xué)習(xí)的細(xì)粒度圖像分類模型能有效克服大量標(biāo)注帶來的成本. 如Lin 等[5]提出的雙線性模型，該模型包括兩個(gè)超分辨率測試序列(Visual Geometry Group，VGG)網(wǎng)絡(luò)，其中一個(gè)VGG 用于定位物體，另一個(gè)VGG 用于對(duì)定位物體進(jìn)行特征提取，但一個(gè)VGG 網(wǎng)絡(luò)有近一百多萬個(gè)參數(shù)，使模型計(jì)算量變大. 文獻(xiàn)[6]提出的用深度殘差網(wǎng)絡(luò)提取細(xì)粒度圖像的卷積特征，然后挑選強(qiáng)區(qū)分性區(qū)域，并額外引入了特征金字塔網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)，雖實(shí)現(xiàn)了較高的分類準(zhǔn)確率，但是網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，并且在挑選強(qiáng)區(qū)分性區(qū)域時(shí)增加了網(wǎng)絡(luò)的計(jì)算消耗.

因此，本文提出用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)代替以往細(xì)粒度圖像分類模型中的特征提取網(wǎng)絡(luò). 首先使用在ImageNet 預(yù)訓(xùn)練好的3 個(gè)典型的輕量級(jí)卷積網(wǎng)絡(luò)在常用的3 個(gè)公開的細(xì)粒度數(shù)據(jù)上進(jìn)行驗(yàn)證，通過對(duì)網(wǎng)絡(luò)的微調(diào)得出了3 種輕量級(jí)模型的平均識(shí)別率、模型參數(shù)量、模型內(nèi)存大小和運(yùn)行速度，其中SqueezeNet 模型運(yùn)行速度快、參數(shù)最少，使用SqueezeNet 作為特征提取網(wǎng)絡(luò)能解決現(xiàn)有細(xì)粒度算法中模型龐大、結(jié)構(gòu)復(fù)雜等問題；然后針對(duì)網(wǎng)絡(luò)分類時(shí)存在識(shí)別圖像判別性特征較差的問題，將Convolution Block Attention Module（ CBAM）和Squeeze-and-Excitation（SE）這兩個(gè)注意力機(jī)制模塊嵌入到SqueezeNet 結(jié)構(gòu)中，使改進(jìn)后的網(wǎng)絡(luò)自動(dòng)識(shí)別到更具區(qū)分的判別性區(qū)域；接著將嵌入了注意力機(jī)制的Fire4 和Fire8 的特征進(jìn)行融合得到注意力特征圖，與網(wǎng)絡(luò)最后一層特征圖進(jìn)行雙線性融合，提高模型對(duì)具有判別性特征的識(shí)別能力；最后將本文的模型在3 個(gè)訓(xùn)練集上訓(xùn)練至收斂后，最終在測試集上嵌入CBAM 模塊的分識(shí)別率分別提高了8.96%、4.89%和5.85%，嵌入SE 模塊分別提高了9.81%、4.52%、和2.30%. 將本文的模型進(jìn)一步與InceptionV3[10]等其他細(xì)粒度算法進(jìn)行比較，得出本文提出的模型能達(dá)到目前優(yōu)秀細(xì)粒度圖像分類算法的識(shí)別率的同時(shí)，模型內(nèi)存只有15 MB，參數(shù)量只有200 萬左右，在性能上有一定的優(yōu)勢.

1 本文方法

本文首先將輸入的原始圖像進(jìn)行預(yù)處理. 預(yù)處理包括將圖像裁剪到 448×448 像素，并對(duì)裁剪后的圖像進(jìn)行旋轉(zhuǎn)、縮放等幾何變換，然后將預(yù)處理后的圖像送入本文改進(jìn)后的SqueezeNet 進(jìn)行特征提取. 為了提升網(wǎng)絡(luò)對(duì)細(xì)粒度圖像局部判別性區(qū)域的識(shí)別能力，在原始SqueezeNet 的每個(gè)Fire 模塊中嵌入注意力機(jī)制模塊，原始Fire 模塊的特征矩陣會(huì)經(jīng)過注意力機(jī)制模塊并預(yù)測出一定的注意區(qū)域.注意力機(jī)制模塊中生成的注意力特征與網(wǎng)絡(luò)最后一層卷積層輸出的全局特征進(jìn)行雙線性融合，以此來增強(qiáng)特征，最后經(jīng)過Softmax 層進(jìn)行分類，與Ground Truth 作Loss 計(jì)算，使模型不斷迭代優(yōu)化網(wǎng)絡(luò). 本文方法的算法總框圖如圖1 所示.

圖1 本文方法總框圖Fig. 1 The general block diagram of the method in this paper

1.1 SqueezeNet輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)前深度學(xué)習(xí)發(fā)展的重要研究方向之一，目的是為了解決如何將神經(jīng)網(wǎng)絡(luò)部署到嵌入式設(shè)備的問題. 目前主流的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)有SqueezeNet，MobileNet和ShuffleNet 以及它們的變種. MobileNet 采用了傳統(tǒng)網(wǎng)絡(luò)中的Group 思想，即限制濾波器的卷積計(jì)算只針對(duì)特定的Group 中的輸入降低卷積計(jì)算量，提高了移動(dòng)端前向計(jì)算的速度. ShuffleNet 采用了channel shuffle 操作解決信息流通不暢問題，增強(qiáng)了模型的學(xué)習(xí)能力.

SqueezeNet 最主要的結(jié)構(gòu)就是類似Inception網(wǎng)絡(luò)結(jié)構(gòu)的Fire 模塊（Fire module）. 一個(gè)Fire module包含一個(gè)squeeze 卷積層和一個(gè)expand 卷積層，如圖2 所示. SqueezeNet 模型首先將3×3 卷積核替換為1×1 卷積核，然后減小輸入到3×3 卷積核的輸入通道數(shù)，盡可能將下采樣放在網(wǎng)絡(luò)后面的層中.SqueezeNet 還采用了平均池化層代替?zhèn)鹘y(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層，有效減少了模型的參數(shù). 正是以上的優(yōu)點(diǎn)，使得SqueezeNet 計(jì)算效率提高，F(xiàn)ire 模塊也能很好地提高識(shí)別性能.

圖2 SqueezeNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 The network structure of SqueezeNet

1.2 改進(jìn) 的SqueezeNet在細(xì)粒度圖像分類中，不同類別之間的差異是非常細(xì)微的，包含具有判別性的區(qū)分信息往往是存在于圖像的局部區(qū)域中. 例如區(qū)分赫里氏帶鹀和金帝沙鹀，鳥類專家可能會(huì)通過鳥嘴巴的形狀、腹部、羽毛的顏色；區(qū)分紅色奧迪和紅色雪弗蘭，可能需要通過車牌、車燈樣式等；區(qū)分兩架不同種類的飛機(jī)可能需要通過飛機(jī)的機(jī)頭、機(jī)尾，甚至是飛機(jī)窗口的數(shù)量. 因此對(duì)于細(xì)粒度分類問題，識(shí)別到具有區(qū)分度的局部特征是至關(guān)重要的.

在識(shí)別細(xì)粒度圖像局部細(xì)節(jié)方面，Lin 等[5]提出的雙線性網(wǎng)絡(luò)（Bilinear-CNN）是最早引入注意力機(jī)制的模型，利用2 個(gè)相同的卷積神經(jīng)網(wǎng)絡(luò)分支關(guān)注不同區(qū)域的特征，卷積網(wǎng)絡(luò)A 用于對(duì)識(shí)別目標(biāo)的部件進(jìn)行定位，網(wǎng)絡(luò)B 用于對(duì)網(wǎng)絡(luò)A 檢測到的部件與局部區(qū)域的位置進(jìn)行特征提取，通過向量外積的方式聚合2 個(gè)分支的特征得到最后的特征表示. Fu 等提出循環(huán)注意力網(wǎng)絡(luò)（Residual Attention Networks）[11]，采用一個(gè)編解碼結(jié)構(gòu)的注意力模塊，對(duì)中間特征圖通過Enconder-Decoder 方式得到一個(gè)3 維的attention map，如下所示：

其中，H(x) 表示經(jīng)過網(wǎng)絡(luò)分支后輸出的特征圖，掩膜分支的輸出特征圖為M(x)，F(xiàn)(x) 是由一個(gè)深層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)擬合，學(xué)習(xí)的是輸出和輸入之間的殘差結(jié)果.

從式（1）可以看出以往細(xì)粒度算法中的注意力方法通常是輸入特征圖的所有通道進(jìn)行融合. 而本文使用的注意力方式是將注意力機(jī)制模塊嵌入到原網(wǎng)絡(luò)的結(jié)構(gòu)中. 本文提出的第1 種嵌入方式是使用CBAM[12]，該模塊是一個(gè)注意模塊的前饋卷積神經(jīng)網(wǎng)絡(luò). 為減少計(jì)算量，CBAM 不直接計(jì)算3 維的attention map，將CBAM 嵌入原SqueezeNet 的每個(gè)Fire 模塊之后，原始Fire 模塊中的特征圖會(huì)分別經(jīng)過全局最大池化和全局平均池化，輸出兩個(gè)通道又分別經(jīng)過多層感知機(jī)，將多層感知機(jī)輸出的特征進(jìn)行逐元素相加，再用sigmoid 函數(shù)激活，生成最終的通道注意力（channel attention）特征圖Mc(F)，如下所示：

本文提出的第2 種嵌入方式是將SE（Squeezeand-Excitation）模塊[13]嵌入到SqueezeNet 的Fire模塊，其生成注意力特征的過程如下：

步驟 1 原始Fire 模塊層的特征矩陣會(huì)經(jīng)過SE 模塊，將一個(gè)通道上的空間特征編碼為一個(gè)全局特征，采用全局平均池化輸出該層c個(gè)特征圖的數(shù)值分布情況，如下所示：

其中，uc表示第c個(gè)通道的特征，F(xiàn)GAP(·) 表示全局平均池化.

步驟 2 采用

sigmoid 形式的門機(jī)制讓網(wǎng)絡(luò)學(xué)習(xí)各個(gè)通道間的非線性關(guān)系. 其中W是網(wǎng)絡(luò)的權(quán)重，函數(shù)g(·) 是池化函數(shù)， σ (·)是sigmoid 函數(shù) .

步驟 3 為了降低模型復(fù)雜度以及提高泛化能力，采用包含兩個(gè)全連接的瓶頸（bottleneck）結(jié)構(gòu)將特征降維，降維系數(shù)r是超參數(shù)，本文將r設(shè)為12，然后用ReLU 函數(shù)激活，最后將學(xué)習(xí)到的各個(gè)通道的激活值乘以原始特征得到最終的注意力特征圖y：

加入SE 結(jié)構(gòu)的注意力機(jī)制可以讓模型更加關(guān)注信息量最大的通道特征，抑制那些不重要的通道特征；CBAM 結(jié)構(gòu)的注意力則是既考慮到不同像素的重要性，又考慮到了同一通道不同位置像素的重要性. 這兩種注意力機(jī)制模塊都可以無縫集成到現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)里，與網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練，并且只會(huì)增加很小的計(jì)算消耗. 嵌入注意機(jī)制的Fire 模塊結(jié)構(gòu)如圖3 所示. 圖3（a）是在Fire 后嵌入CBAM 模塊，是本文的第1 種嵌入方式，圖3（b）是本文提出的第2 種嵌入方式. 將原始的SqueezeNet 中的Fire 模塊分別替換成由圖3 兩種方式改進(jìn)的Fire 模塊，使網(wǎng)絡(luò)整個(gè)具有注意力機(jī)制，對(duì)原始的特征進(jìn)行權(quán)值重標(biāo)定.

圖3 Fire 模塊引入注意力機(jī)制Fig. 3 The Fire module introduced attention mechanism

1.3 注意力特征融合雙線性網(wǎng)絡(luò)只考慮了最后一層卷積特征作為特征表示，這對(duì)于細(xì)粒度圖像分類來說是不夠的，因?yàn)橹虚g卷積特征同樣包含物體局部特征屬性，這使得有利于細(xì)粒度圖像分類的信息丟失.

如圖4 所示，為了增強(qiáng)網(wǎng)絡(luò)對(duì)局部判別性特征的識(shí)別能力，本文提出將SqueezeNet 原始的Fire模塊替換成基于注意力機(jī)制的Fire 模塊. 首先將改進(jìn)后的Fire4 和Fire8 輸出的特征提取出來，采用雙線性池化的方式得到一個(gè)融合后的新的注意力特征圖；然后將新的注意力特征圖與網(wǎng)絡(luò)最后輸出的全局特征按元素相乘后，得到局部特征圖；最后再進(jìn)行全局平均池化及拼接，得到一個(gè)新的張量，作為線性分類層的輸入進(jìn)行分類. 注意力機(jī)制融合的具體過程如下：

圖4 細(xì)粒度圖像分類網(wǎng)絡(luò)的總體結(jié)構(gòu)Fig. 4 The overall structure of fine - grained image classification network

步驟 1 首先設(shè)Fa1和Fa2分別是帶有注意力機(jī)制的Fire4 層和帶有注意力機(jī)制的Fire8 層的輸出特征，將特征Fa1的所有通道的值形成一個(gè)1×D1的向量ma1，特征Ca2的所有通道的值形成1×D2的向量ma2，按

計(jì)算兩個(gè)Fire 層融合后的融合特征.

步驟 2 采用全局平均池化或全局最大池化函數(shù)對(duì)融合特征按公式（5～7）匯聚成一個(gè)新的注意力特征：

2 實(shí)驗(yàn)方法與結(jié)果

2.1 實(shí)驗(yàn)數(shù)據(jù)集實(shí)驗(yàn)用到的數(shù)據(jù)集是3 個(gè)公開的細(xì)粒度數(shù)據(jù)集. CUB-200-2011 鳥類數(shù)據(jù)集包括200 種鳥類，其中有5 994 張訓(xùn)練圖像和5 794 張測試圖像[14]. Stanford Cars 汽車數(shù)據(jù)集包含196 種車輛，訓(xùn)練集有8 144 張，測試集有8 041 張，關(guān)鍵特征包括車輛制造商、款式、生產(chǎn)日期. FGVC-Aircraft Benchmark 飛機(jī)數(shù)據(jù)集有102 種不同的飛機(jī)，一共10 200 張飛機(jī)圖像[15].

2.2 訓(xùn)練過程和評(píng)價(jià)指標(biāo)實(shí)驗(yàn)使用Windows 系統(tǒng)和基于Pytorch 框架，在NVIDIA GeForce RTX2080 GPU 上進(jìn)行.

實(shí)驗(yàn)1：先將典型的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet 上進(jìn)行訓(xùn)練，得到的預(yù)訓(xùn)練模型遷移到細(xì)粒度數(shù)據(jù)上繼續(xù)訓(xùn)練. 預(yù)訓(xùn)練網(wǎng)絡(luò)訓(xùn)練時(shí)，先把每張圖片縮放到500×500 像素，然后隨機(jī)裁剪448×448 像素并進(jìn)行數(shù)據(jù)增強(qiáng)后輸入到網(wǎng)絡(luò)中，對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)：采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）對(duì)網(wǎng)絡(luò)進(jìn)行權(quán)值優(yōu)化更新[16]，即每次用一小批樣本計(jì)算. 根據(jù)本文算法中的數(shù)據(jù)特征，選取學(xué)習(xí)速率為0.001. 對(duì)于ShuffleNet、MobileNet 兩個(gè)網(wǎng)絡(luò)采用全連接層分類，SqueezeNet 使用自適應(yīng)平均池化函數(shù)進(jìn)行分類. 測試時(shí)將中心裁剪448×448 像素的圖片輸入網(wǎng)絡(luò)中，并對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，最后選取網(wǎng)絡(luò)性能最佳的SqueezeNet 模型進(jìn)行改進(jìn)，進(jìn)一步提高識(shí)別率.

實(shí)驗(yàn)2：將本文改進(jìn)的SqueezeNet 模型又一次在細(xì)粒度數(shù)據(jù)集上進(jìn)行驗(yàn)證. 訓(xùn)練過程中先把每張圖片縮放到500×500 像素，然后隨機(jī)裁剪448×448 像素輸入到網(wǎng)絡(luò)中，每張圖像均進(jìn)行歸一化操作，損失函數(shù)采用Softmax-Loss，網(wǎng)絡(luò)權(quán)值優(yōu)化更新依然采用SGD 優(yōu)化器，經(jīng)過衰減步長次迭代后更新學(xué)習(xí)速率 γ 乘以衰減系數(shù) α. 基礎(chǔ)學(xué)習(xí)速率設(shè)為0.01，衰減系數(shù)設(shè)為0.1，動(dòng)量（momentum）設(shè)為0.9，迭代次數(shù)設(shè)為200 次[17]. 測試時(shí)將中心裁剪448×448 像素的圖片輸入網(wǎng)絡(luò)中，最后將識(shí)別結(jié)果與改進(jìn)前的網(wǎng)絡(luò)進(jìn)行對(duì)比，并與其他細(xì)粒度模型進(jìn)行網(wǎng)絡(luò)性能的對(duì)比.

本文使用分類準(zhǔn)確率、模型參數(shù)量、模型內(nèi)存大小，以及在測試集上消耗的時(shí)間作為評(píng)價(jià)指標(biāo).為了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性，采用十折交叉驗(yàn)證（10-fold cross-validation）并取平均值作為最后的結(jié)果.

2.3 實(shí)驗(yàn)結(jié)果分析本文首先使用預(yù)訓(xùn)練好的輕量級(jí)網(wǎng)絡(luò)在3 個(gè)常用的細(xì)粒度數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，為了分析網(wǎng)絡(luò)的性能，將3 種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)在測試集上的識(shí)別率、運(yùn)行時(shí)間做了如表1～3 詳細(xì)的對(duì)比，其中運(yùn)行時(shí)間指的是模型在測試集上運(yùn)行的速度. 參數(shù)量和模型內(nèi)存大小的對(duì)比如圖5 所示.

從表1～3 的結(jié)果中可以看出，輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)也可以用于細(xì)粒度圖像的分類識(shí)別，而且SqueezeNet 在飛機(jī)類和汽車類數(shù)據(jù)測試集上的運(yùn)行時(shí)間都在30 s 以內(nèi)，網(wǎng)絡(luò)運(yùn)行效率更快. 從圖5可以看出，SqueezeNet 網(wǎng)絡(luò)相比于其他兩種輕量級(jí)卷積網(wǎng)絡(luò)，以及相較于如VGG、ResNet 這種傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)都具有模型性能上的優(yōu)勢，只有約100 萬個(gè)參數(shù)，模型大小也是最輕量的. 但未改進(jìn)的SqueezeNet 在細(xì)粒度數(shù)據(jù)集上的分類準(zhǔn)確率還比較低，這是因?yàn)榧?xì)粒度的分類難點(diǎn)在于具有判別性的特征存在于圖像的局部細(xì)節(jié)中，直接使用典型的卷積網(wǎng)絡(luò)不能較好地克服這個(gè)難點(diǎn)，因此本文的第2 個(gè)實(shí)驗(yàn)將模型性能較好的SqueezeNet進(jìn)行改進(jìn)，在原網(wǎng)絡(luò)的Fire 模塊中嵌入了兩種注意力機(jī)制模塊，第1 次嵌入CBAM 注意力模塊，第2次嵌入SE 模塊，將改進(jìn)后的網(wǎng)絡(luò)在3 個(gè)細(xì)粒度數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證和對(duì)比.

圖5 網(wǎng)絡(luò)參數(shù)量和內(nèi)存對(duì)比Fig. 5 Network performance comparison on parameters and memory

表1 CUB-200-2011 實(shí)驗(yàn)結(jié)果Tab. 1 Experimental results of CUB-200-2011

表4 展現(xiàn)了網(wǎng)絡(luò)模型改進(jìn)前后在3 個(gè)數(shù)據(jù)集的測試集上分類準(zhǔn)確率的結(jié)果比較. 改進(jìn)后的SqueezeNet 細(xì)粒度圖像分類模型，由于對(duì)原始SqueezeNet 網(wǎng)絡(luò)進(jìn)行了注意力模塊的嵌入，讓模型能夠定位到更具有判別性的局部區(qū)域. 受雙線性模型的啟發(fā)，對(duì)注意力模塊的特征進(jìn)行了雙線性融合，增強(qiáng)了對(duì)圖像特征的識(shí)別能力. 因此，因此改進(jìn)后的模型在鳥類、飛機(jī)類和汽車類數(shù)據(jù)集上取得了相對(duì)較好的效果，嵌入CBAM 模塊，準(zhǔn)確率在3 個(gè)數(shù)據(jù)集上依次提高了8.96%、4.89%、5.85%；嵌入SE 模塊，準(zhǔn)確率依次提高了9.81%、4.52%、2.30%.圖6 的熱力圖效果對(duì)比展示了SqueezeNet 網(wǎng)絡(luò)嵌入注意力機(jī)制后，模型能更加集中到目標(biāo)對(duì)象更具有判別力的區(qū)域. 如圖6 第1 列對(duì)鳥的識(shí)別中，原網(wǎng)絡(luò)能識(shí)別到鳥的整個(gè)軀體，但加入注意力機(jī)制后，CBAM 模塊能幫助網(wǎng)絡(luò)定位到鳥尾部區(qū)域，SE 模塊能定位到尾部和頭部眼睛的區(qū)域；第2 列對(duì)汽車識(shí)別中，嵌入的CBAM 模塊能幫助模型更好地識(shí)別到車燈上；在飛機(jī)識(shí)別中，兩個(gè)注意力機(jī)制模塊不僅增強(qiáng)了模型對(duì)機(jī)頭、機(jī)尾的識(shí)別能力，CBAM模塊還能識(shí)別到飛機(jī)的機(jī)翼部分，體現(xiàn)了本文的改進(jìn)方法能夠提高模型強(qiáng)化注意力特征區(qū)域的能力，而特征融合也能進(jìn)一步增強(qiáng)圖像的特征，提高模型對(duì)特征的識(shí)別能力.

圖6 注意力機(jī)制嵌入效果對(duì)比Fig. 6 The effects comparison of the attention embeddingmechanism

表2 Stanford Cars 實(shí)驗(yàn)結(jié)果Tab. 2 Experimental results of Stanford Cars

表3 FGVC-Aircraft Benchmark 實(shí)驗(yàn)結(jié)果Tab. 3 Experimental results of FGVC-Aircraft

表4 改進(jìn)前后模型的準(zhǔn)確率對(duì)比Tab. 4 Comparison of the model accuracy before and after improvement %

表5 是不同的細(xì)粒度圖像分類算法在3 個(gè)細(xì)粒度數(shù)據(jù)集上分類準(zhǔn)確率的結(jié)果比較. 從表5 可以看出，本文提出的嵌入注意力機(jī)制模塊和特征融合的SqueezeNet 細(xì)粒度圖像分類模型，在3 個(gè)細(xì)粒度數(shù)據(jù)集上的識(shí)別準(zhǔn)確率上取得了相對(duì)較好的分類準(zhǔn)確率. 其中，嵌入CBAM 模塊和特征融合后，模型在鳥類、汽車類、飛機(jī)類數(shù)據(jù)上的準(zhǔn)確率分別達(dá)到了83.36%、91.20%、87.85%；嵌入SE 模塊，模型的分類準(zhǔn)確率分別是84.21%、90.83%、84.30%，均高于VGG-19 網(wǎng)絡(luò)，并且本文提出的基于注意力特征融合的SqueezeNet 模型在與其他深度網(wǎng)絡(luò)的識(shí)別率相當(dāng)?shù)那闆r下，改進(jìn)后的模型內(nèi)存大小只有15 MB，只是IinceptionV3 網(wǎng)絡(luò)的

表5 各模型的實(shí)驗(yàn)結(jié)果對(duì)比Tab. 5 The experimental results comparison of each model

3 結(jié)束語

本文首先提出使用3 種典型的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)用于細(xì)粒度圖像分類，并進(jìn)行了兩次實(shí)驗(yàn).實(shí)驗(yàn)1 通過對(duì)預(yù)訓(xùn)練的網(wǎng)絡(luò)模型進(jìn)行微調(diào)，得出輕量級(jí)網(wǎng)絡(luò)能用于細(xì)粒度圖像分類，并且選擇了模型參數(shù)、內(nèi)存大小和運(yùn)行速度都比其他神經(jīng)網(wǎng)絡(luò)更有優(yōu)勢的SqueezeNet 作為圖像特征提取網(wǎng)絡(luò)，可以解決現(xiàn)有細(xì)粒度圖像分類算法用傳統(tǒng)較深的卷積網(wǎng)絡(luò)識(shí)別時(shí)帶來的參數(shù)多、模型龐大等問題. 針對(duì)細(xì)粒度識(shí)別的難點(diǎn)進(jìn)行改進(jìn)，在原SqueezeNet結(jié)構(gòu)中嵌入了兩種注意力機(jī)制模塊，增強(qiáng)網(wǎng)絡(luò)對(duì)識(shí)別對(duì)象的局部判別性區(qū)域的能力，并將嵌入注意力機(jī)制的網(wǎng)絡(luò)的中間層輸出的特征圖與網(wǎng)絡(luò)的最后一層輸出的特征圖進(jìn)行特征融合，全局平均池化后分類. 實(shí)驗(yàn)結(jié)果證明了改進(jìn)后的網(wǎng)絡(luò)相比于改進(jìn)前的網(wǎng)絡(luò)，其準(zhǔn)確率有了明顯的提高，并且與其他細(xì)粒度算法相比，本文提出的細(xì)粒度分類模型大小只有15 MB，屬于較輕量的分類模型，未來的研究方向?qū)⒖紤]用目標(biāo)檢測中多尺度[20]的方法，提高網(wǎng)絡(luò)的特征提取能力.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于注意力特征融合的SqueezeNet 細(xì)粒度圖像分類模型

1 本文方法

2 實(shí)驗(yàn)方法與結(jié)果

3 結(jié)束語