何?凱,馮?旭,高圣楠,馬希濤
基于多尺度特征融合與反復注意力機制的細粒度圖像分類算法
何?凱,馮?旭,高圣楠,馬希濤
(天津大學電氣自動化與信息工程學院,天津 300072)
細粒度圖像分類是對某一類別下的圖像子類進行精確劃分.細粒度圖像分類以其特征相似、姿態(tài)各異、背景干擾等特點,一直是計算機視覺和模式識別領域的研究熱點和難點,具有重要的研究價值.細粒度圖像分類的關鍵在于如何實現(xiàn)對圖像判別性區(qū)域的精確提取,已有的基于神經網絡算法在精細特征提取方面仍有不足.為解決這一問題,本文提出了一種多尺度反復注意力機制下的細粒度圖像分類算法.考慮到高、低層級的特征分別具有豐富的語義、紋理信息,分別將注意力機制嵌入到不同尺度當中,以獲取更加豐富的特征信息.此外,對輸入特征圖先后采取通道和空間注意,該過程可以看作是對特征矩陣的反復注意力(re-attention);最后以殘差的方式,將注意力結果與原始輸入特征相結合,將不同尺度特征圖的注意結果拼接起來送入全連接層,以更加精確地提取顯著性特征.在國際上公開的細粒度數(shù)據集(CUB-200-2011、FGVC Aircraft和Stanford Cars)上進行實驗仿真,分類準確率分別達到86.16%、92.26%和93.40%;與只使用ResNet50結構相比,分別提高了1.66%、1.46%和1.10%;明顯高于現(xiàn)有經典算法,也高于人類表現(xiàn),驗證了本文算法的有效性.
細粒度圖像分類;多尺度特征融合;反復注意力機制;ResNet50
圖像分類是計算機視覺領域的重要研究內容,傳統(tǒng)的圖像分類主要采用決策樹[1]、K近鄰算法(K nearest neighbors,KNN)[2]、支持向量機(support vector machine,SVM)[3],以及多層感知機(multilayer perceptron,MLP)[4]方法.2012年,AlexNet[5]神經網絡在ImageNet數(shù)據集上獲得成功,為圖像分類領域的發(fā)展帶來了新的機遇.此后,各種神經網絡模型[6-10]層出不窮.
隨著圖像分類技術的發(fā)展,細粒度圖像分類技術應運而生.細粒度圖像分類指的是:在同一類別下對各個子類別進行精細劃分,例如:對飛機、汽車、鳥類等圖像進行精細劃分,以判斷其具體型號和種類.上述圖像具有類間差異小、類內差異大的特點,因此在精確提取判別性特征,以及定位顯著性區(qū)域方面難度較大.此外,細粒度數(shù)據集都需要專業(yè)人士進行標簽標注,成本較高,這就導致每種類別的樣本數(shù)遠小于粗分類樣本數(shù),容易導致過擬合的現(xiàn)象.由于子類別圖像特征過于近似、姿態(tài)各異、背景干擾等因素的存在,傳統(tǒng)神經網絡模型遇到了很大困難,已成為限制該領域發(fā)展的主要瓶頸.
為解決上述問題,本文提出了一種基于多尺度特征融合與反復注意力機制的細粒度圖像分類算法.其中,多尺度主要是考慮到高、低層級分別具有豐富的語義特征和紋理信息,將注意力機制嵌入到不同尺度,有助于獲取更加復雜的特征信息.反復指的是對輸入特征圖先后采取通道和空間注意,該過程可以看作是對特征矩陣的反復注意力(re-attention).對輸入特征圖進行權重分配,以矩陣對應元素相乘的方式,將注意力機制得到的權重矩陣先后作用于輸入特征矩陣.通道注意力可以讓網絡重點關注某幅特征圖,空間注意力可讓網絡重點關注某個主要特征,有助于提高細粒度圖像分類的準確率.
2012年,Yao等[11]提出一種無碼本和無注釋的方法,實現(xiàn)了細粒度圖像分類.2013年,Berg等[12]基于局部區(qū)域的一對一特征表示方法,實現(xiàn)了細粒度圖像分類.鑒于傳統(tǒng)算法對細粒度圖像分類準確率低,模型泛化能力差,基于深度學習實現(xiàn)細粒度圖像分類逐漸成為當前的主流,算法主要分為強監(jiān)督算法和弱監(jiān)督算法2大類.其中,強監(jiān)督算法需要基于人工標注特征完成[13-15].與之相比,基于弱監(jiān)督算法生成的特征矩陣具有更好的表現(xiàn)力.例如:2015年,Xiao?等[16]提出一種基于深度卷積神經網絡的兩級注意力模型.2017年,Cui等[17]提出了一種通用的池化框架,以核函數(shù)的形式來捕捉特征之間的高階關系.
上述方法由于對判別性特征提取能力不足,分類準確率較低.為此,人們提出了一些改進算法.例如:2015年,Lin等[18]提出利用雙線性網絡結構來實現(xiàn)特征提取,提高了分類精度.同年,Jaderberg等[19]提出了一種空間變換網絡,先對輸入數(shù)據的特征圖進行變換,再進行識別分類.冀中等[20]將空間變換網絡與雙線性網絡相結合[18],在細粒度魚的數(shù)據集上取得了較好的分類效果.2018年,Peng等[21]提出一種目標-局部注意力機制,利用兩種模型分別獲取目標區(qū)域和局部特征,再分別送入分類器進行分類.2018年,Dubey等[22]采用混淆矩陣的方法來防止過擬合,有效地解決了細粒度圖像類間差異過小的問題.同年,Wang等[23]在VGG16網絡結構上增加了一條支路,用于提取局部信息,形成了一個雙流的非對稱網絡,綜合考慮全局和局部特征來實現(xiàn)細粒度圖像分類.2019年,Chen等[24]提出一種破壞重建學習方法,通過對輸入特征矩陣的局部信息進行破壞,來增強網絡提取顯著性細節(jié)的能力.
在提取顯著性特征與去除冗余信息方面,現(xiàn)有細粒度分類算法仍有較大的改進空間.為此,本文提出一種反復注意力機制,如圖1所示.輸入圖像經ResNet基本網絡提取相關特征后,將注意力機制以多尺度的方式嵌入到特征提取器當中,將ResNet網絡結構的多尺度輸出作為本文注意力機制的輸入特征矩陣,經過本文注意力機制后,特征圖的維度信息不發(fā)生變化,由此獲取豐富準確的判別性特征.
圖1 本文提出的具有多尺度特征融合與反復注意力機制的網絡結構
已有的一些注意力機制:如卷積塊注意模塊(convolutional block attention module,CBAM)[25],采用通道注意力支路和空間注意力支路串行的結構,瓶頸注意模塊(bottleneck attention module,BAM)[26]則是將通道維度和空間維度的注意力結果直接相加.為了更好地提取特征,融合不同維度的特征信息,本文提出了一種反復注意力機制,如圖2所示.
圖2?本文反復注意力機制網絡結構
具體做法是:先將某一層級的特征矩陣,并行經過通道和空間注意力支路,分別得到通道和空間權重矩陣;再將特征矩陣與通道權重矩陣相乘,網絡能夠按重要程度,對輸入圖像的不同特征圖進行權重賦值,重要的特征圖具有較大的權重值;在此基礎上,再與空間權重矩陣相乘,使網絡能夠學習到每張?zhí)卣鲌D顯著性區(qū)域的位置信息,以去除無關背景的干擾,在此過程中,將兩條支路的注意力支路結果先后作用于輸入特征矩陣上,這一過程體現(xiàn)了本文注意力機制的反復操作;最后以殘差的方式,將注意力結果與輸入特征結合.具體過程可表述為
傳統(tǒng)算法壓縮激活網絡(squeeze and excitation networks,SENet)[27]、BAM[26]在通道注意力支路采用平均池化對空間維度進行壓縮,未能充分提取紋理特征;CBAM[25]將平均池化結果與最大池化結果直接相加,結合方式過于簡單.為了充分保留背景和紋理信息,本文采取將兩個池化結果進行拼接的方法,如圖3所示.
圖3?本文通道注意力支路網絡
式中:為圖4中上面一條支路得到的特征矩陣;為下面一條支路得到的特征矩陣;Fb為空間特征描述子;代表矩陣對應元素相乘.為保證特征矩陣的大小不變,使用時padding設為0,使用和時,padding分別設為(0,1)和(1,0).
為了驗證本文算法的有效性,將提出的多尺度特征融合與反復注意力機制嵌入到標準的ResNet50網絡當中,在國際標準細粒度圖像數(shù)據集上進行測試,并與經典的細粒度分類方法進行比較,以驗證算法的有效性.
本文選取3個標準的國際細粒度數(shù)據集:CUB-200-2011、FGVC-Aircraft和Stanford Cars,進行分類實驗測試.①CUB-200-2011數(shù)據集由加利福尼亞理工學院頒布和維護,包含200類,共10000余張鳥類圖像,其中,5994張用作訓練集,5794張用作測試集.②FGVC-Aircraft數(shù)據集包含100種飛機類型,共10000個飛機圖像;其中,訓練集和測試集按2∶1的比率進行劃分.③Stanford Cars數(shù)據集由斯坦福大學發(fā)布,包含196類,共16185張汽車圖片;其中8144張為訓練數(shù)據,8041張為測試數(shù)據;每個類別按照年份、制造商、型號進行區(qū)分.
圖5展示了FGVC-Aircraft數(shù)據集的部分訓練樣本,其中,不同行的飛機圖像分屬不同類別,由上到下依次為:Boeing 737-200、Boeing 737-300、Boeing 737-400、Boeing 737-500和Boeing 737-600.從圖中可以看出:①目標在整幅圖片中只占據了較小一部分區(qū)域,且背景信息復雜;②不同類別圖像之間差別很小;③同一類別圖像受不同的光照條件和拍攝角度的影響,大小、形狀、色差都有很大差別.這些因素的存在,使得該數(shù)據集的細粒度分類十分困難,除非是專業(yè)人士,普通人也很難區(qū)分.
圖5?FGVC-Aircraft數(shù)據集示例
實驗所用計算機配置為:Intel Core i7-7800X的CPU,64G的內存,兩塊GTX 1080Ti的GPU,每塊11G的顯存;在Linux16.04系統(tǒng)、python編程環(huán)境下運行,使用pytorch框架,對細粒度數(shù)據集分類.由于每個類別中的樣本數(shù)較少,直接訓練容易產生過擬合;為此,本文采用權重遷移學習[28],將在ImageNet數(shù)據集上訓練好的權重參數(shù)作為本任務的參數(shù)初始化值,使得網絡能夠快速收斂;同時對訓練數(shù)據集進行隨機裁剪、水平翻轉等操作來增強數(shù)據集.
為驗證不同參數(shù)對分類精度的影響,分別選取不同學習率和batch_size進行分類,分類準確率如表1所示.其中,3組實驗的參數(shù)設置分別為:①訓練樣本的batch_size設為24,改變學習率變化步長和衰減程度,每20個迭代次數(shù)(epoch),學習率乘以0.5;②訓練樣本的batch_size設為20,每15個epoch,學習率乘以0.8;③訓練樣本的batch_size設為24,每15個epoch,學習率乘以0.8.
表1?不同參數(shù)下的識別準確率對比
Tab.1 Comparison of identification accuracy under dif-ferent parameters %
利用本文算法,在3種國際標準細粒度圖像庫上進行訓練和分類,訓練和測試準確率,以及對應的損失函數(shù)曲線如圖6所示.從圖6中可以看出:epoch介于0~25時,準確率有顯著提升,損失函數(shù)也有明顯下降;在經歷25個epoch后,準確率和損失函數(shù)曲線有微小變化并逐漸趨于平滑;由此可見,本文算法模型的收斂速度較快,在不同數(shù)據集上均能取得較好效果,具有較強的泛化能力.
圖6?不同數(shù)據庫的準確率和損失函數(shù)
為驗證本文多尺度特征融合與反復注意力機制的有效性,分別采用 ResNet50基本模型,引入多尺度的ResNet50模型,以及本文算法模型,在3個國際標準圖像數(shù)據庫上進行細粒度分類,其top-1結果如表2所示.從表中可以看出,將反復注意力機制以多尺度的方式與ResNet50結合起來,可以顯著提升分類精度,在3個標準圖像庫上均取得了最高分類精度,證明了本文多尺度反復注意機制的有效性.
采取不同特征提取模型獲得的反向傳播顯著圖如圖7所示.其中,圖7(a)為原始輸入圖片,圖7(b)、圖7(c)、圖7(d)分別為采用ResNet50、基于多尺度的ResNet50、以及本文算法提取特征所獲得的反向傳播顯著圖.從圖中可以看出,圖7(b)由于只使用ResNet50提取特征圖,不能有效提取判別性區(qū)域,也無法有效過濾背景的干擾信息;圖7(c)由于充分考慮了多尺度的特征,與圖7(b)相比可以獲得更多的特征信息作為分類依據;圖7(d)在圖7(c)的基礎上采取了反復注意力機制,使網絡能夠重點關注顯著性的特征和更具判別性的特征,同時能夠有效去除冗余信息,節(jié)約計算成本,效果良好.
表2?不同特征提取模型識別準確率對比
Tab.2 Comparison of identification accuracy under dif-ferent feature extract models????????%
為了測試本文模型在細粒度分類方面的準確性,分別在3個國際標準細粒度圖像庫上,與當前經典細粒度分類算法進行比較.其中,雙線性卷積神經網絡(bilinear convolutional neural network,B-CNN)[18]利用雙線性網絡結構實現(xiàn)特征提取,循環(huán)注意卷積神經網絡(recurrent attention convolutional neural network,RA-CNN)[29]采用遞歸注意網絡學習判別性特征,動態(tài)計算時間(dynamic computational time,DCT)[30]在已有的注意力模型基礎上引入了啟止動作,來學習最佳注意區(qū)域.top-1分類結果如表3所示.
圖7?采取不同模型獲得的反向傳播顯著圖
從表3中可以看出,與只使用ResNet50相比,在CUB-200-2011、FGVC-Aircraft和Stanford-Cars數(shù)據集上,本文算法的分類準確率分別提高了1.66%、1.46%和1.10%.與經典的雙線性算法相比,本文算法在CUB-200-2011、FGVC-Aircraft和Stanford-Cars數(shù)據集上,分別提高了2.06%、8.16%和2.10%;與其他經典方法相比,也有不同程度的提高,均獲得了最高的分類精度,證明了本文算法的有效性.鑒于目標局部注意模型(object-part attention model,OPAM)算法[22]和DCT算法[30]僅在數(shù)據集CUB-200-2011和Stanford-Cars上進行了實驗;為公平起見,本文僅給出了上述兩種算法在相關數(shù)據集上的對比實驗結果.
表3?不同算法細粒度分類準確率對比
Tab.3 Comparison of identification accuracy of different fine-grained classification algorithms?????%
此外,從表中還可以看出:CUB-200-2011數(shù)據集的分類準確率最低;這是由于鳥類目標較小,姿態(tài)各異,易受背景干擾;此外,該數(shù)據集類別數(shù)目最多,但訓練樣本數(shù)目最少,因此分類難度最大.
注意力區(qū)域可視化效果如圖8所示.其中,圖8(a)為原始圖像,圖8(b)為準線ResNet50特征圖注意力區(qū)域的可視化效果,圖8(c)為本文算法的特征圖注意力區(qū)域的可視化效果.從圖中可以看出,本文算法可以精確定位判別性區(qū)域,同時能去除無關的背景信息,特別是在判別性區(qū)域提取難度最大,背景最為復雜的CUB-200-2011數(shù)據集上,效果提升最為?明顯.
圖8?特征圖注意力區(qū)域可視化
為了對本文算法的綜合性能進行評價,本文對不同算法的分類準確度與復雜度做了對比,結果如表4所示.從表中可以看出,Cimpoi等[31]在深度卷積特征的基礎上引入Fisher Vector,取得了較好的細粒度分類效果;經典的雙線性算法[18]采用并行的VGG16[6]提取特征,雖然提高了分類準確度,但也導致了參數(shù)的成倍增加;Gao等[32]提出了兩種緊湊的雙線性表征,在保證分類精度的同時,大大減少了參數(shù)量;本文算法在原有的ResNet50[8]結構中引入了反復注意力機制,在不顯著增加參數(shù)的前提下,有效地提升了分類準確率.
表4?不同細粒度分類算法性能對比
Tab.4 Performance comparison of different fine-grained classification algorithms
本文提出了一種多尺度特征融合與反復注意力機制網絡模型作為特征提取器.首先,在結構上融合了多個尺度的特征描述子,增強了網絡對輸入圖像特征信息的表達能力.其次,對每個尺度的輸入特征矩陣,一方面采用通道注意力機制去除冗余的特征信息,另一方面采用空間注意力機制去除無關的背景信息.實驗結果表明,本文算法取得了比較理想的細粒度圖像分類效果,與經典算法相比,準確率有了較大程度的提高.
本文算法屬于一種端到端的訓練模型,模型結構簡單,提出的多尺度特征融合與反復注意力機制網絡具有較強的結構遷移性和嵌入性,適用于不同的基本神經網絡模型;此外,本文算法在不同的細粒度數(shù)據集上均能取得較好效果,具有很強的泛化能力.
[1] Srivastava A,Han E,Kumar V,et al. Parallel formulations of decision-tree classification algorithms[C]//Proceedings of the International Conference on Parallel Processing(ICPP). Minneapolis,MN,USA,1998:237-244.
[2] Guo Gongde,Wang Hui,Bell D A,et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences CoopIS,DOA,and ODBASE. Catania,Sicily,Italy,2003:986-996.
[3] Mao Q H,Ma H W,Zhang X H. SVM classification model parameters optimized by improved genetic algorithm[J]. Advanced Materials Research,2014,889/890:617-621.
[4] Coskun N,Yildirim T. The effects of training algorithms in MLP network on image classification[C]// Proceedings of the International Joint Conference on IEEEPortland,OR,USA,2003:1223-1226.
[5] Krizhevsky A,Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks[C]//26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe,NV,United states,2012:1097-1105.
[6] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[C]// 3rd International Conference on Learning Representations,San Diego,CA,USA,2015:1-14.
[7] Ioffe S,Szegedy C. Batch normalization:Accelerating deep network training by reducing internal covariate shift[C]// 32nd International Conference on Machine Learning. Lile,F(xiàn)rance,2015:448-456.
[8] He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:770-778.
[9] Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. https://avxiv.org/ abs/1704.04861,2017-04-17.
[10] Huang Gao,Liu Zhuang,van der Maaten L,et al. Densely connected convolutional networks[C]// Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,HI,USA,2017:2261-2269.
[11] Yao Bangpeng,Bradski G,Li Feifei. A codebook-free and annotation-free approach for fine-grained image categorization[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2012:3466-3473.
[12] Berg T,Belhumeur P N. POOF:Part-based one-vs.-one features for fine-grained categorization,face verifi-cation,and attribute estimation[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2013:955-962.
[13] Donahue J,Jia Yangqing,Vinyals O,et al. DeCAF:A deep convolutional activation feature for generic visual recognition[C]//31st International Conference on Machine Learning. Beijing,China,2014:988-996.
[14] Branson S,van Horn G,Belongie S,et al. Bird Species Categorization Using Pose Normalized Deep Convolutional Nets[EB/OL]. https://arxiv.org/abs/1406.2952,2014-06-11.
[15] Zhang N,Donahue J,Girshick R,et al. Part-based R-CNNs for fine-grained category detection[C]// 13th European Conferenceon Computer Vision. Zurich,Switzerland,2014:834-849.
[16] Xiao Tianjun,Xu Yichong,Yang Kuiyuan,et al. The application of two-level attention models in deep convolutional neural network for fine-grained image classification[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA,2015:842-850.
[17] Cui Yin,Zhou Feng,Wang Jiang,et al. Kernel pooling for convolutional neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA,2017:3049-3058.
[18] Lin T Y,Roychowdhury A,Maji S. Bilinear CNN models for fine-grained visual recognition[C]// 2015 IEEE International Conference on Computer Vision. Santiago,Chile,2015:1449-1457.
[19] Jaderberg M,Simonyan K,Zisserman A,et al. Spatial transformer networks[C]// 29th Annual Conference on Neural Information Processing Systems. Montreal,QC,Canada,2015:2017-2025.
[20] 冀?中,趙可心,張鎖平,等. 基于空間變換雙線性網絡的細粒度魚類圖像分類[J]. 天津大學學報:自然科學與工程技術版,2019,52(5):475-482.
Ji Zhong,Zhao Kexin,Zhang Suoping,et al. Classification of fine-grained fish images based on spatial transformation bilinear networks[J]. Journal of Tianjin University:Science and Technology,2019,52(5):475-482(in Chinese).
[21] Peng Y,He X,Zhao J. Object-part attention model for fine-grained image classification[J]. IEEE Transactions on Image Processing,2018:27(3):1487-1500.
[22] Dubey A,Gupta O,Guo P,et al. Pairwise confusion for fine-grained visual classification[C]// 15th European Conference on Computer Vision. Cham,Switzerland,2018:71-88.
[23] Wang Y,Morariu V I,Davis L S. Learning a discriminative filter bank within a CNN for fine-grained recognition[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Los Alamitos,CA,USA,2018:4148-4157.
[24] Chen Y,Bai Y,Zhang W,et al. Destruction and construction learning for fine-grained image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:5157-5166.
[25] Woo Sanghyun,Park Jongchan,Lee Joon-Young,et al. CBAM:Convolutional block attention module[C]// 15th European Conference on Computer Vision. Munich,Germany,2018:3-19.
[26] Park Jongchan,Woo Sanghyun,Lee J Y,et al. BAM:Bottleneck Attention Module[EB/OL]. https:// arxiv.org/abs/1807.06514,2018-07-17.
[27] Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]// Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA,2018:7132-7141.
[28] Yuan Chenhui,Cheng Chunling. A transfer learning method based on residual block[C]// 2018 IEEE 9th International Conference on Software Engineering and Service Science. Beijing,China,2018:807-810.
[29] Fu J,Zheng H,Mei T. Look closer to see better:Recurrent attention convolutional neural network for fine-grained image recognition[C]// 2017 IEEE Conference on Computer Vision and Pattern RecognitionHonolulu,HI,USA,2017:4476-4484.
[30] Li Zhichao,Yang Yi,Liu Xiao,et al. Dynamic computational time for visual attention[C]// 2017 IEEE International Conference on Computer Vision Workshop. Los Alamitos,CA,USA,2017:1199-1209.
[31] Cimpoi M,Maji S,Vedaldi A. Deep filter banks for texture recognition and segmentation[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA,2015:3828-3836.
[32] Gao Y,Beijbom O,Zhang N,et al. Compact bilinear pooling[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:317-326.
Fine-Grained Image Classification Algorithm Using Multi-Scale Feature Fusion and Re-Attention Mechanism
He Kai,F(xiàn)eng Xu,Gao Shengnan,Ma Xitao
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Fine-grained image classification aims to precisely classify an image subclass under a certain category. Hence,it has become a commonand difficult point in the field of computer vision and pattern recognition and has important research value due to its similar features,different gestures,and background interference. The key issue in fine-grained image classification is how to extract precise features from the discriminative region of an image. Existing algorithms based on neural networks are still insufficient in fine feature extraction. Accordingly,a fine-grained image classification algorithm using multi-scale re-attention mechanism is proposed in this study. Considering that high- and low-level features have rich semantic and texture information,respectively,attention mechanism is embedded in different scales to obtain rich feature information. In addition,an input feature map is processed with both channel and spatial attention,which can be regarded as the re-attention of a feature matrix. Finally,using the residual form to combine the attention results and original input feature maps,the attention results on the feature maps of different scales are concatenated and fed into the full connection layer. Thus,accurately extracting salient features is helpful. Accuracy rates of 86.16%,92.26%,and 93.40% are obtained on the international public fine-grained datasets(CUB-200-2011,F(xiàn)GVC Aircraft,and Stanford Cars). Compared with ResNet50,the accuracy rate is increased by 1.66%,1.46%,and 1.10%,respectively. It is obviously higher than that of existing classical algorithms and human performance,which demonstrate the effectiveness of the proposed algorithm.
fine-grained image classification;multi-scale feature fusion;re-attention mechanism;ResNet50
TN911.73
A
0493-2137(2020)10-1077-09
10.11784/tdxbz201910029
2019-10-16;
2019-11-06.
何?凱(1972—??),男,博士,副教授.
何?凱,hekai@tju.edu.cn.
國家自然科學基金資助項目(61271326).
Supported by the National Natural Science Foundation of China(No. 61271326).
(責任編輯:王曉燕)