李寬寬,劉立波
寧夏大學(xué) 信息工程學(xué)院,銀川750021
細(xì)粒度圖像分類已逐漸成為計算機視覺與圖像處理領(lǐng)域中的熱點研究方向之一,相對于傳統(tǒng)的粗粒度圖像分類而言,其主要研究內(nèi)容是區(qū)分常見目標(biāo)類別中的子類別問題(比如鳥的種類、飛機型號),但由于種類間的從屬子類別十分相似,大多數(shù)類別只能通過局部區(qū)域中有差別的部件才能識別,這使得細(xì)粒度圖像分類成為一個更具挑戰(zhàn)性的研究任務(wù)。
針對以上細(xì)粒度圖像分類的任務(wù)特性,早期一些學(xué)者提出了通過人工部件標(biāo)注信息協(xié)助來強化模型定位的方法,以強監(jiān)督的訓(xùn)練方式來提高分類精度。Zhang 等人通過使用區(qū)域選擇性算法來產(chǎn)生區(qū)域,并利用邊框與幾何約束條件,完成對象與部件級別的目標(biāo)位置檢測與定位。Lin 等人通過網(wǎng)絡(luò)模型局部部件定位、對齊與網(wǎng)絡(luò)分類三個模塊進(jìn)行融合,通過部件定位模塊遞歸完成對標(biāo)注框的識別,然后使用對齊模塊姿態(tài)、模板進(jìn)行協(xié)調(diào)對準(zhǔn),最終由閥連接函數(shù)(valve linkage function,VLF)連接三個模塊,優(yōu)化分類精度。
雖然借助豐富的部件標(biāo)注信息,輔以精準(zhǔn)的檢測定位技術(shù),實現(xiàn)了更高的識別分類精度,但人工標(biāo)注費用昂貴,且容易出現(xiàn)局部語義信息的錯誤注解,更加不符合現(xiàn)實研究與應(yīng)用的實際需求,使得越來越多的算法不再依賴于這些強監(jiān)督的人工標(biāo)注信息,因此,僅依賴圖像類別標(biāo)簽實現(xiàn)局部部件判別的弱監(jiān)督方法也逐漸成為當(dāng)下研究的新趨勢。
相比于依賴人工部件標(biāo)注的方法而言,基于弱監(jiān)督的細(xì)粒度圖像分類方法表現(xiàn)出更加優(yōu)異的分類性能以及網(wǎng)絡(luò)泛化能力,并且能夠挖掘出人工標(biāo)注缺失甚至錯誤的判別性區(qū)域。其中,一部分學(xué)者采用輔助子網(wǎng)絡(luò)實現(xiàn)部件定位。Yang 等人提出了自監(jiān)督導(dǎo)航網(wǎng)絡(luò)(NTS-net),不需要使用人工部件標(biāo)注,通過導(dǎo)航組件實現(xiàn)最大化的部件區(qū)域定位識別,然后通過反饋與審查兩個組件進(jìn)行局部區(qū)域的特征融合以及真實概率估計,并完成細(xì)粒度圖像分類。
但隨著網(wǎng)絡(luò)復(fù)雜度的不斷延伸,往往會出現(xiàn)特征信息冗余,最終導(dǎo)致網(wǎng)絡(luò)的特征表達(dá)能力不足等現(xiàn)象,還有一些學(xué)者通過引入視覺注意力機制,突出關(guān)注具備目標(biāo)識別度的區(qū)域,提取更多細(xì)微可區(qū)分的局部特征。Peng 等人利用目標(biāo)-部件注意力組件選擇性地關(guān)注可區(qū)分性區(qū)域,并借助空間約束消除冗余,增強部件判別力。Woo 等人提出了一種同時在通道域與空間域進(jìn)行特征約束與互補的注意力模型,既關(guān)注了通道特征的依賴關(guān)系,也彌補了空間語義的重要特性,并且該模塊更偏向于輕量化、通用性。Han 等人采用類別與屬性協(xié)同互惠的注意力方法選擇性去捕捉局部細(xì)節(jié)和有區(qū)分度的信息。但是這些方法對部件區(qū)域的關(guān)注更傾向于對象的幾個關(guān)鍵部分(比如鳥的頭部、腿部、翅膀、喙部),而忽略了制約分類性能的其他區(qū)域信息,比如頸背、喉嚨等這些可快速判別該鳥種類的細(xì)微部分。Gao 等人通過SCI 與CCI 兩個模塊學(xué)習(xí)圖像中不同通道間的判別特征以及通道關(guān)系,并促進(jìn)每個通道信息互補,進(jìn)而使得學(xué)習(xí)到的區(qū)域判別信息更加豐富,彌補了以上區(qū)域信息缺失的現(xiàn)象,但模塊結(jié)構(gòu)對基礎(chǔ)網(wǎng)絡(luò)依賴程度較高,且模型結(jié)構(gòu)較為復(fù)雜。
鑒于以上分析,由于細(xì)粒度圖像分類任務(wù)中類間信息表征易混淆特性,現(xiàn)有一些方法無法充分挖掘顯著性及有判別力的部位信息,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到的細(xì)節(jié)特征無法呈現(xiàn)出多樣化與差異性,進(jìn)而影響模型分類性能。為此,本文提出了一種雙線性聚合殘差注意力網(wǎng)絡(luò)(bilinear aggregate residual attention network,BARAN),主要貢獻(xiàn)如下:
(1)在僅需類別標(biāo)簽的前提下,BARAN 通過雙線性聚合殘差網(wǎng)絡(luò)作為基礎(chǔ)模型,來完成圖像的深度特征提取。其中主要利用聚合殘差網(wǎng)絡(luò)中分組并行的拓?fù)浣Y(jié)構(gòu)特性,使其組間的不同子空間學(xué)習(xí)圖像中的不同區(qū)域,捕獲到更多的可區(qū)分特征,進(jìn)而增強網(wǎng)絡(luò)模型的表征能力。
(2)在聚合殘差網(wǎng)絡(luò)的每一個分組拓?fù)浣Y(jié)構(gòu)中嵌入分散注意力模塊(split attention,SA),能夠有效地避免特征通道之間信息離散的現(xiàn)象,提高特征通道之間的全局相互依賴性,以達(dá)到建模特征通道之間信息校準(zhǔn)的目的,來保證特征的空間信息關(guān)聯(lián)性。
(3)在雙線性聚合殘差網(wǎng)絡(luò)的特征融合后引入互通道注意力模塊(mutual-channel attention,MCA),該模塊結(jié)合判別性子模塊與區(qū)分性子模塊這兩部分,能夠迫使所有特征通道進(jìn)行類分組對齊操作,促使網(wǎng)絡(luò)學(xué)習(xí)到多樣化且具有差異性的局部信息來獲得性能增益。并且在不會引入額外的網(wǎng)絡(luò)參數(shù)前提下,使網(wǎng)絡(luò)更易于訓(xùn)練。
Lin 等設(shè)計了一種雙線性卷積網(wǎng)絡(luò)模型(BCNN),通過兩個子網(wǎng)絡(luò)(特征提取函數(shù))進(jìn)行相互協(xié)調(diào)作用,分別完成了細(xì)粒度圖像分類中的區(qū)域定位與特征提取,然后把兩個不同的卷積子網(wǎng)絡(luò)提取的特征利用外積相乘運算來得到雙線性向量,最后通過分類器完成分類任務(wù)。該網(wǎng)絡(luò)體系結(jié)構(gòu)具有對局部特征進(jìn)行交互建模提取的優(yōu)勢,且能夠?qū)崿F(xiàn)整個模型端到端的訓(xùn)練,使其更適用于細(xì)粒度中不同局部信息的提取。但是其特征提取子網(wǎng)絡(luò)以相同卷積核尺度進(jìn)行區(qū)域特征提取,導(dǎo)致每層卷積特征融合單一化,往往不利于細(xì)粒度圖像分類任務(wù)中差異性局部信息的捕捉,進(jìn)而影響網(wǎng)絡(luò)的表征能力。此外,經(jīng)外積運算后,雙線性特征維度達(dá)到數(shù)十萬甚至數(shù)百萬,極大增加了后續(xù)特征信息的分析難度。
Xie 等人提出了一種聚合殘差轉(zhuǎn)換網(wǎng)絡(luò)(aggregated residual transformations networks,ResneXt),ResneXt 在繼承了Renset重復(fù)層策略(strategy of repeating layers)和跳躍連接(skip connection)這兩大特性基礎(chǔ)上,引入一種新穎的拓?fù)浣Y(jié)構(gòu),即聚合殘差轉(zhuǎn)換模塊(aggregated residual transformations,ART),該模塊以分組的形式進(jìn)行卷積化特征提?。籖esneXt中每一小模塊都是以組卷積的形式進(jìn)行堆疊,聚合殘差塊中分組卷積通過多路并行的組卷積操作,能夠監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)更具區(qū)別的表征信息;并且也起到網(wǎng)絡(luò)正則化效果,提取的卷積操作更加稀疏化,極大降低了每個子網(wǎng)絡(luò)的復(fù)雜度,進(jìn)而避免模型過擬合的風(fēng)險。如圖1 所示。
圖1 聚合殘差轉(zhuǎn)換子模塊Fig.1 Aggregated residual transformations block
ART 模塊中引入一個超參數(shù),基數(shù)(cardinality,C),代表組量,圖中用group 表示;每一個聚合轉(zhuǎn)換殘差模塊中特征聚合如式(1)所示:
其中,T()代表投影到低維空間進(jìn)行轉(zhuǎn)換的任意函數(shù),類似于一個簡單的神經(jīng)元;代表組卷積數(shù),是一個任意設(shè)定的值;() 代表個低維嵌入的T()進(jìn)行求和輸出。
為了彌補原B-CNN 模型存在特征提取能力不足,特征融合單一化以及維度過高等問題,本文方法以B-CNN 為基礎(chǔ)網(wǎng)絡(luò)原型,結(jié)合其端到端的訓(xùn)練方式以及兩個子網(wǎng)絡(luò)進(jìn)行交互建模的特征提取這兩大優(yōu)點進(jìn)行優(yōu)化改進(jìn),提出了一種雙線性聚合殘差注意力網(wǎng)絡(luò)模型(BARAN)。該網(wǎng)絡(luò)模型主要由兩部分組成:一是結(jié)合分散注意力的雙線性聚合殘差網(wǎng)絡(luò)(bilinear aggregate residual network,BARN);二是互通道注意力模塊(MCA)。如圖2 所示。
圖2 雙線性聚合殘差注意力網(wǎng)絡(luò)架構(gòu)Fig.2 Bilinear aggregate residual attention network
具體而言,首先采用兩個ResneXt29 網(wǎng)絡(luò)分別替換原B-CNN 模型中的VGG16-D 與VGG16-M,作為圖像的特征提取器,使其設(shè)計成一種新穎的雙線性聚合殘差網(wǎng)絡(luò)(BARN),來完成卷積特征的深度提?。蝗缓鬄殡p線性聚合殘差網(wǎng)絡(luò)(ResneXt29×2)中的每一個聚合轉(zhuǎn)換殘差子模塊嵌入分散注意力模塊(SA),整合跨維度的特征通道之間的權(quán)重信息,進(jìn)一步強化整個網(wǎng)絡(luò)的表征依賴性;最后對兩個聚合殘差網(wǎng)絡(luò)分支提取的特征進(jìn)行多維度的融合操作,得到加權(quán)融合后的特征通道圖(feature channels map,F(xiàn)CM),使其更加完整性地傳遞給互通道注意力模塊(MCA),來強制每一維度的特征通道按照類別進(jìn)行劃分,使得屬于同一類別下的特征更具有判別力,并約束同一類別的特征在空間維度上更加互斥,即關(guān)注多樣化且具有差異性的細(xì)節(jié)。通過以上雙重注意力過濾捕獲策略,能夠促使模型學(xué)習(xí)到更加全面的圖像表征知識。
為了強化特征通道之間的緊密依賴程度,本文方法在聚合殘差模塊的基礎(chǔ)上,把分散注意力模塊(SA)嵌入到聚合殘差轉(zhuǎn)換子模塊(ART)與聚合運算之間。如圖3 所示。
圖3 分散注意力模塊位置圖Fig.3 Location figure of split attention model
本文提出的SA 模塊是在SE-Net Block與ResNeSt Block的基礎(chǔ)上設(shè)計的一種新結(jié)構(gòu),與ResNeSt Block 不同的是:本文提出的SA 模塊的輸入是ART Block 的組卷積輸出,也就是圖1 中1×1 組卷積拆分的特征分量;與SE-Net Block 的輸入分量相似,極大降低了ResNeSt Block 因引入另一個超參數(shù)的模型參數(shù)量以及復(fù)雜度。
SA 模塊在模型特征提取過程中,為更有效的特征分配權(quán)重值,摒棄無效或者效果甚微的特征權(quán)重值,減少冗余的特征信息,實現(xiàn)通道間的相關(guān)性建模,彌補特征通道之間相關(guān)依賴度不足的缺陷,并完成對分散特征進(jìn)行緊密整合運算;并且通過跨通道之間的特征融合,不同尺度獲得的特征進(jìn)行融合,增強尺度特征的豐富性。并且能夠有效防止模型過擬合。
SA 模塊的實現(xiàn)原理如下,結(jié)合圖4 所示。
圖4 分散注意力模塊圖Fig.4 Split attention model
(1)全局平均池化(global average pooling,GAP):其中,把聚合殘差轉(zhuǎn)換子模塊(ART Block)中1×1 組卷積核每一分支的輸出作為輸入,首先把組卷積拆分的分支進(jìn)行加權(quán)融合,如式(2)所示。
然后,通過GAP 把每一分支進(jìn)行跨空間維度的融合運算,采用信道統(tǒng)計策略將每一維度特征圖的全局上下文信息壓縮成單通道描述信息,即使得通道空間維度中×變成1×1 的形式,如式(3)所示。
其中,表示通道空間特征圖(×)中的每一個元素,通過進(jìn)行縮量計算,∈R。
(2)密集連接層(dense connected layers,DCL):SA 模塊中共包含兩個微型的密集連接層。
首先,通過第一層DCL 以1/的減速比率進(jìn)行降維操作,以獲得更加緊湊的特征向量,緊接著對進(jìn)行批量標(biāo)準(zhǔn)化(batch normalization,BN)與ReLU激活函數(shù)操作,如式(4)所示。
其中,∈R,=max(/,),代表維度的降速比率值,表示的最小值,本文實驗中=4。表示ReLU 激活函數(shù),B 表示BN。
隨后,進(jìn)行第二層DCL 運算來恢復(fù)維度,再通過Softmax 得到(),如式(5)所示。
最后,把Softmax 得到的所有特征權(quán)重分支向量,與聚合殘差子模塊中1×1 組卷積核每一分支的輸出()進(jìn)行元素相乘,然后實現(xiàn)跨通道的軟注意力的加權(quán)融合,得到,使得對應(yīng)不同空間尺度的特征進(jìn)行自適應(yīng)選擇,如式(6)所示。
相比單DCL,雙DCL 具備更多的非線性運算操作,有利于擬合特征通道間相互依賴程度的復(fù)雜性,且極大簡化模型的復(fù)雜度與參數(shù)運算量。
為解決種類間因顯著性區(qū)域差異較小而導(dǎo)致模型預(yù)測出類別信息易混淆等問題,本文在雙線性聚合網(wǎng)絡(luò)與類別預(yù)測的全連接層之間融合了互通道注意力模塊(MCA)。使得MCA 模塊融合到本文的聚合殘差網(wǎng)絡(luò)中使得圖像識別度更優(yōu)異。
MCA 模塊通過捕捉多維通道中多樣且細(xì)微化的特征,減少通道聚焦于無效或最具顯著性的部分區(qū)域。進(jìn)而提升模型判別力。具體而言,該模塊不是直接從特征圖上學(xué)習(xí)細(xì)粒度特征,它主要是從特征通道角度去施加制約條件,使得網(wǎng)絡(luò)聚焦于通道之間特征與類別的映射關(guān)系,以捕獲多樣化且迥異的細(xì)節(jié)信息,進(jìn)而學(xué)習(xí)粒度級別的特征,并且在沒有引入額外的參數(shù)前提下,能夠使得模型魯棒性更強。
互通道注意力模塊(MCA)包含兩個不同的注意力子模塊:判別性子模塊()和區(qū)分性子模塊()。由雙線性聚合殘差網(wǎng)絡(luò)提取的特征圖作為MCA 模塊輸入,分別輸入到兩個子模塊中。在判別性子模塊中,通過約束通道活性以及類別分組劃分這兩步操作,使得同一類別下的特征更具判別特性;在區(qū)分性子模塊中,通過對所有信道進(jìn)行相似度的匹配計算,使得同一類別下的信道關(guān)注點映射到不同的可區(qū)分部位,強化特征關(guān)注的多樣性,進(jìn)而減少冗余通道信息。如圖5 所示。
圖5 互通道注意力模塊分支圖Fig.5 Branch of MCA model
圖中,=×,代表總空間維度數(shù),代表數(shù)據(jù)集中的類別,代表特征圖的通道數(shù),、分別代表每個特征圖的寬度、高度。且在特征圖中,不同的通道代表了同一類別中極具依賴性的關(guān)聯(lián)信息,因而,每一類()都會由一定數(shù)量()的特征通道組表示。
通過判別性子模塊與區(qū)分性模塊各自分量進(jìn)行加權(quán)求和,得到更有效的分類特征圖;使得互通道注意力模塊更加突出地捕獲到同一類別下多樣化的判別區(qū)域。原理由式(7)所示。
其中,為超參數(shù)。
MCA 模塊中的判別性子模塊與區(qū)分性子模塊是互補的關(guān)系,并且區(qū)分性子模塊不能脫離判別性子模塊單獨存在。
判別性子模塊會迫使特征通道進(jìn)行類對齊,并且每一個特征通道對于每一個類的特征應(yīng)該具有足夠的差異性,進(jìn)而使得網(wǎng)絡(luò)學(xué)習(xí)到的區(qū)域更具識別度。
判別性子模塊由四部分構(gòu)成,如圖6 所示。
圖6 判別性子模塊Fig.6 Discrimination submodel
(1)通道注意力(channel-wise attention,CWA):其主要是為可區(qū)分性的特征通道優(yōu)先分配軟性注意力概率值。具體就是通過對每一類特定的(/2)特征圖進(jìn)行隨機失活(即通道值歸為0)掩膜操作,并與原特征圖進(jìn)行點乘運算;這一操作在每次迭代訓(xùn)練過程中會為每組特征圖隨機選擇部分通道,分配權(quán)重值,能夠迫使網(wǎng)絡(luò)從每一個類別的所有特征通道()中捕捉到更具有判別力的區(qū)域信息。
(2)跨通道最大池化(cross-channel max pooling,CCMP):主要實現(xiàn)每組特征圖的跨通道映射池化操作。相較于跨通道平均池化,它會對組特征圖的權(quán)重進(jìn)行平均化操作,進(jìn)而會從很大程度抑制局部顯著區(qū)域的識別,而CCMP 能夠更有效地把組特征圖()中所有通道的最大值投射到同一特征圖上(/),來實現(xiàn)跨通道權(quán)重信息最大響應(yīng)化運算,同時實現(xiàn)類別的通道降維。
(3)全局平均池化(GAP):主要實現(xiàn)對每個組特征圖的平均池化響應(yīng)操作。它能夠約束每一類別的特征權(quán)重值映射到一個元素上,最終變成一個一維的向量(×1×1),進(jìn)而完成通道維度的降維操作。
(4)Softmax:通過計算得到該類別的預(yù)測概率值,即全局平均池化得到的類別向量與所有類別的加權(quán)和進(jìn)行比值運算;最后通過交叉熵?fù)p失評估與真實標(biāo)簽的匹配度,得到判別性子模塊的輸出分量。具體由式(8)計算得到。
其中,代表分類的類別,(·,·)表示交叉熵?fù)p失,表示真實標(biāo)簽類別,Softmax 對輸入的樣本圖像類別進(jìn)行預(yù)測。計算出真實類別與GAP 輸出之間的損失值。
式(8)中Softmax 中每一個類別的預(yù)測值由式(9)可得。
其中,(·)代表的就是全局平局池化每一類特征圖的子分量值。
式中,(·)表示CCMP。式(11)中(·)表示CWA,其中M=diag(Mask),Mask代表一半組特征圖(/2)進(jìn)行隨機的掩碼操作,并對其取對角矩陣。
區(qū)分性子模塊通過每類特征通道的特征相似度來約束通道特征,使其在空間維度上保持互斥性。具體而言,區(qū)分性子模塊通過驅(qū)使模型的特征權(quán)重注意點,針對性地去捕獲每一類別中顯著且可區(qū)分的細(xì)節(jié)特征,使得特征圖中有效的權(quán)重信息分布在不同的區(qū)域,進(jìn)而學(xué)習(xí)到同一類別中更加多樣化且具有可區(qū)分特性的類別信息,并從空間與通道兩方面,對無關(guān)特征或者冗余信息區(qū)域進(jìn)行丟棄操作。
區(qū)分性子模塊由四部分構(gòu)成,如圖7 所示。
圖7 區(qū)分性子模塊Fig.7 Distinctive submodel
(1)Softmax:與判別性子模塊有些不同,此處Softmax 主要是實現(xiàn)每類的特征通道歸一化操作,即通過采用one-hot 編碼策略把每一維度的特征通道實現(xiàn)標(biāo)準(zhǔn)化,其中one-hot 編碼可以使得每一維度的離散特征之間的距離運算更加簡便,有助于每類特征通道的相似度的計算。
(2)跨通道最大池化(CCMP),與判別性子模塊的原理相同,都是通過對組特征進(jìn)行元素的最大值映射,得到每一類的對應(yīng)的特征圖,同時實現(xiàn)降維的過程。
(3)Sum:通過前面跨通道最大池化,可以得到每一類別對應(yīng)的一張?zhí)卣鲌D(×1×1);Sum 操作就是實現(xiàn)每一類別上的特征圖進(jìn)行求和運算,來測量每類特征通道的相交程度,從而實現(xiàn)特征的相似度測量。
(4)Average:對得到的所有的特征通道進(jìn)行平均化操作,最終得到區(qū)別性分量,得到的區(qū)分性分量越大,說明每類所專注的多樣化區(qū)域越分散。具體由式(12)計算得到。
其中,(·)代表對每組特征圖的加權(quán)求和,求和值越大,說明特征之間的差異性越強。
其中,′(·)代表CCMP;代表組特征圖數(shù)量;′代表每一特征圖的通道位置。
實驗系統(tǒng)環(huán)境為Ubuntu 16.04,模型訓(xùn)練平臺為基于開源深度學(xué)習(xí)框架PyTorch,硬件配置為NVIDIA Quadro P500 GPU,16 GB 顯存,使用兩個顯卡并行訓(xùn)練,Intel Xeon E5-2620 CPU。并使用CUDA 9.0 與cuDNN 7 對模型進(jìn)行加速。
為評估本文方法的分類性能,在Caltech-UCSDBirds(CUB-200-2011)、FGVC-Aircraft、Stanford Cars3個細(xì)粒度圖像分類公共數(shù)據(jù)集上進(jìn)行實驗驗證。其中CUB-200-2011是極具代表性的鳥類數(shù)據(jù)集,包含200 種鳥類,總共11 788 幅圖像;FGVC-Aircraft包含100 種不同類別的飛機圖像,共10 000 幅;Stanford Cars 包含196 種不同品牌的汽車圖像,共計16 185 幅。這3 個數(shù)據(jù)集的訓(xùn)練集(Training)與測試集(Testing)的詳細(xì)信息如表1 所示。
表1 數(shù)據(jù)集的訓(xùn)練集與測試集信息Table 1 Datasets information of training and testing
以上3 個數(shù)據(jù)集中每一類樣本由60~100 張圖像組成,尤其是CUB 的原始圖片僅有60 張左右,為了避免模型因數(shù)據(jù)質(zhì)量以及數(shù)據(jù)集豐富性導(dǎo)致過擬合或欠擬合問題,通過對圖像進(jìn)行隨機水平翻轉(zhuǎn)(圖8b)、垂直翻轉(zhuǎn)(圖8c)、旋轉(zhuǎn)(圖8d)、平移(圖8e)、縮放(圖8f)以及引入高斯模糊(圖8g)與噪聲等方法進(jìn)行數(shù)據(jù)擴充,其中水平以及垂直翻轉(zhuǎn)以0.5 的概率進(jìn)行擴充;每種數(shù)據(jù)集擴充后數(shù)據(jù)集將達(dá)到原數(shù)據(jù)集的6 倍左右。如圖8 所示。
圖8 3 個數(shù)據(jù)集中訓(xùn)練集的數(shù)據(jù)增強示例Fig.8 Data augmentation examples of training set in 3 datasets
通過對以上3 個數(shù)據(jù)集進(jìn)行適度的數(shù)據(jù)增強,本文模型能夠?qū)W習(xí)到更為多樣化且豐富的樣本細(xì)節(jié),對模型表征能力的增益效果更好,從而強化模型的泛化能力以及魯棒性。
實驗評價指標(biāo):在細(xì)粒度圖像分類任務(wù)中,為了驗證提出BARAN 方法的分類性能,通常會選用準(zhǔn)確率作為模型的評價指標(biāo),假設(shè)實驗中各個數(shù)據(jù)集上的總類別數(shù)為,則模型的準(zhǔn)確率計算如下:
其中,Acc代表每一類別的準(zhǔn)確率;T表示類別分類正確的樣本個數(shù);I表示分為該類的樣本總數(shù)。
模型預(yù)訓(xùn)練參數(shù)設(shè)置:實驗過程中,利用隨機梯度下降法(stochastic gradient descent,SGD)對模型進(jìn)行優(yōu)化以及批量標(biāo)準(zhǔn)化(BN)作為正則化。具體的模型預(yù)訓(xùn)練超參數(shù)設(shè)置:batchsize 設(shè)為32,動量(momentum)為0.9,學(xué)習(xí)率衰減因子gamma 為0.1,學(xué)習(xí)率衰減間隔(lr_step)為30,權(quán)重衰減率(weight_decay)為5E-4,total_epoch 為300,num_classes 根據(jù)數(shù)據(jù)集的類別數(shù)量進(jìn)行動態(tài)調(diào)整。
MCA 模塊中超參數(shù)設(shè)置:由于本文方法在雙線性匯合后輸出的是512 維,而輸入到MCA 模塊的空間維度是由=×決定,假如設(shè)定為3 作為每類特征圖的基準(zhǔn)數(shù)量,而根據(jù)數(shù)據(jù)集CUB-200-2011(200 類)、FGVC-Aircraft(100 類)、Stanford Cars(196類)應(yīng)該分別分配600、300、588 特征通道數(shù),而本文方法輸出只有512 維度,因此采用動態(tài)的類別通道數(shù)分配方法,如表2 所示。
表2 本模型512 維的ξ 通道分配圖Table 2 ξ value assignment using BARAN with 512 feature channels
表中,cnums 代表為每一類分配的特征通道數(shù),cgroups 代表對應(yīng)類別數(shù),比如CUB-200-2011 為前88個類別每一類分配2 個特征通道,為后112 個類別每一類分配3 個特征通道。
為驗證本文方法的有效性,本文提出的BARAN方法采用重頭訓(xùn)練與預(yù)訓(xùn)練卷積網(wǎng)絡(luò)模型這兩種訓(xùn)練方式,來驗證本文方法中ResneXt29、SA、MCA 三個模塊結(jié)構(gòu)對網(wǎng)絡(luò)學(xué)習(xí)能力的影響,并實現(xiàn)網(wǎng)絡(luò)端到端的訓(xùn)練。
本小節(jié)的消融實驗主要在CUB 數(shù)據(jù)集下,對嵌入分散注意力模塊的雙線性聚合殘差網(wǎng)絡(luò)進(jìn)行不同基數(shù)()情況下的實驗對比分析。
通過使用在ImageNet 上預(yù)訓(xùn)練的B-CNN 與ResneXt29 兩個網(wǎng)絡(luò)進(jìn)行模型的遷移學(xué)習(xí),改進(jìn)優(yōu)化為本文的雙線性聚合殘差模型,并對雙線性聚合殘差中所有層進(jìn)行微調(diào)。此部分消融實驗僅針對CUB數(shù)據(jù)集進(jìn)行模型訓(xùn)練,來驗證改進(jìn)后的性能。數(shù)據(jù)集中的每一張圖片采用中心裁剪的形式,將每張圖片調(diào)整大小為448×448,初始學(xué)習(xí)率設(shè)為0.000 1,total_epoch 為80,weight_decay 為1E-5,其他參數(shù)與參數(shù)設(shè)置一致。
與原B-CNN 模型相比,雖然模型復(fù)雜度有所增加(表3 中Params代表每一分支參數(shù)量),但BARN 分類精度有顯著性提高,其中BARN(2×64d)、BARN(4×64d)、BARN(8×64d)提高了0.007、0.011、0.014。而本文方法使用的ResneXt29(32×4d)提升了0.018。表3 為在CUB-200-2011 數(shù)據(jù)集上的實驗結(jié)果。
表3 嵌入SA模塊的ResneXt在不同基數(shù)下的實驗對比Table 3 Experimental comparison between SA module and ResneXt under different cardinality
由于聚合殘差網(wǎng)絡(luò)中引入一個新的超參數(shù),并且在保持模型復(fù)雜性不變的情況下,隨著基數(shù)從2增加到32,模型的訓(xùn)練誤差在不斷降低,相對于原BCNN,表征能力更優(yōu)異,通過基數(shù)這一超參數(shù)的實驗表明,多路拓?fù)洳⑿械姆纸M機制(multi-path topology parallel,MTP)進(jìn)行細(xì)粒度圖像分類的特征捕獲效益更強,網(wǎng)絡(luò)表征能力更好,且加入SA 之后特征通道之間緊密度更高,使得模型表示效果更優(yōu)異。
為了驗證互通道注意力模塊中判別性子組件與區(qū)分性子組件對于整個網(wǎng)絡(luò)的捕獲特征能力的影響,本小節(jié)的消融實驗對主干模型采用從頭訓(xùn)練的模式,在雙線性聚合網(wǎng)絡(luò)的基礎(chǔ)上,對每一個單獨的組件進(jìn)行實驗訓(xùn)練。
輸入的圖像數(shù)據(jù)的大小采用中心裁剪的方式調(diào)整為224×224,整個網(wǎng)絡(luò)架構(gòu)的初始學(xué)習(xí)率設(shè)為0.1,并且在迭代輪數(shù)epoch 為150 到225 次的時候動態(tài)調(diào)整為0.01,其他的參數(shù)與預(yù)訓(xùn)練模式設(shè)置的一樣;此外,為了使得互通道注意力模塊的每一組件驗證的合理性,超參數(shù)進(jìn)行固定設(shè)置,其中=0.005,=10,根據(jù)表2 進(jìn)行設(shè)置。
如表4所示,以嵌入SA模塊的雙線性聚合殘差網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),MCA 模塊中兩個子模塊進(jìn)行并行訓(xùn)練,在CUB-200-2011、FGVC-Aircraft、Stanford Cars 3 個數(shù)據(jù)集上分別達(dá)到66.47%、89.90%、91.34%。經(jīng)過分析,在僅使用CWA、判別性子模塊的情況下,在3個數(shù)據(jù)集上性能相差不大;而在僅使用區(qū)分性子模塊時,在3 個數(shù)據(jù)集上分別達(dá)到27.35%、79.88%、70.23%,相比僅使用CWA、判別性子模塊分類性能相差十分明顯。主要是由于區(qū)分性子模塊實際上是在判別性子模塊損失的基礎(chǔ)上作為正則化器,隱式地去發(fā)現(xiàn)每一類圖像中不同的可區(qū)分的區(qū)域,尤其是針對像CUB-200-2011 這樣特征差異微小的數(shù)據(jù)集表現(xiàn)更具優(yōu)勢;因此單獨使用區(qū)分性子模塊會導(dǎo)致分類器判別能力較差。
表4 MCA 模塊不同組件部分的消融實驗對比Table 4 Ablation experiment of different components of MCA module
鑒于以上分析,互注意力模塊中區(qū)分性子模塊依賴于判別性子模塊,在進(jìn)行只有區(qū)分性模塊訓(xùn)練時,訓(xùn)練結(jié)果偏差過大,尤其是在CUB-200-2011 數(shù)據(jù)集上尤為明顯。通過不同子模塊的訓(xùn)練結(jié)果顯示,判別性與區(qū)分性子模塊進(jìn)行并行訓(xùn)練特征選擇效果更好。
為了驗證本文方法的優(yōu)越性,在相同的實驗條件下,與流行的PC、MaxEnt 等同樣使用雙線性網(wǎng)絡(luò)方法進(jìn)行分析對比,還與同樣使用注意力機制的DFL-CNN、TASN 等方法進(jìn)行性能比較,實驗表明,本文方法優(yōu)于大部分主流模型。
輸入的圖像大小以中心裁剪方式調(diào)整為448×448,且本文模型使用在ImageNet 上預(yù)訓(xùn)練好的ResneXt29(32×4d)網(wǎng)絡(luò),嵌入到B-CNN(baseline)進(jìn)行改進(jìn)訓(xùn)練。其中,預(yù)訓(xùn)練模型的學(xué)習(xí)率在卷積層(即特征提取層)定為0.000 1,全連接層設(shè)置為0.01,并且在迭代到150~225 次的時候,設(shè)置為0.000 01,避免模型過擬合以及梯度消失等現(xiàn)象,模型迭代300次,權(quán)重衰減率保持為5E-4,其中互通道注意力的超參數(shù)=0.005,=10。代表權(quán)重系數(shù),是輸入到全連接層之前的互通道注意力的制約系數(shù)。
對不同弱監(jiān)督細(xì)粒度分類的流行方法進(jìn)行實驗分析:本文方法在Stanford Cars 數(shù)據(jù)集上達(dá)到精度最高,為94.7%,相對原模型提升了0.034;與性能最優(yōu)的DCL模型相比,提高了0.006;其次是在FGVC-Aircraft數(shù)據(jù)集上準(zhǔn)確率為92.9%,相較于DFL-CNN 方法,提升了0.012。而在CUB-200-2011 數(shù)據(jù)集上,雖然沒有WPS-CPM 方法得到的準(zhǔn)確率高,但是相對于其他方法略顯優(yōu)勢。尤其是基于B-CNN 網(wǎng)絡(luò)的成對混淆(PC)與MaxEnt 方法與本文方法類似,本文方法相比PC、MaxEnt 方法在3 個數(shù)據(jù)集上分類性能更優(yōu)異,比MaxEnt(B-CNN)、PC(B-CNN)、PC(DenseNet161)分別高出0.026、0.023、0.01。如表5 所示。
表5 不同弱監(jiān)督細(xì)粒度圖像分類方法實驗對比Table 5 Experimental comparison of different weakly supervised fine-grained image classification methods
鑒于以上分析,本文BARAN 方法在不需要引入額外參數(shù)的情況下,融合SA 模塊以及MCA 模塊之后,僅需要類別標(biāo)簽,就可以在這三種公共數(shù)據(jù)集上表現(xiàn)出良好的性能優(yōu)勢。
相比WPS-CPM 方法,在CUB-200-2011 數(shù)據(jù)集上沒有表現(xiàn)出本文模型的競爭性,最主要的一個原因是每類的特征通道的缺乏,使得每個類別學(xué)習(xí)到混淆信息可能存在缺失。下面將從兩個角度詳細(xì)介紹性能差異的原因:
在不同數(shù)據(jù)集上對類別通道設(shè)置情況進(jìn)行實驗性能分析:在CUB-200-2011 數(shù)據(jù)集上,雖然相對大部分的先進(jìn)方法都有很大的性能提升,但相比個別先進(jìn)方法,或者其他數(shù)據(jù)集,并沒有表現(xiàn)出更高的性能優(yōu)勢,其中一個重要原因是維度不足導(dǎo)致特征通道分配不均。由表2 可知,CUB-200-2011 中前88 個類別僅僅只占兩個通道信息,而鳥具有多樣化且豐富性的局部區(qū)域,因此,在特征通道數(shù)不足的情況下,無法獲取更加魯棒性的信息描述,會出現(xiàn)性能精度相比WPS-CPM 方法較差的結(jié)果,而且也不如本文方法在其他數(shù)據(jù)集上的性能表現(xiàn)。雖然Stanford Cars數(shù)據(jù)集中有76 個類別占有兩個特征通道,但是車圖像中含有較少的差別區(qū)域,因此,性能相比具有差異性區(qū)域較多的鳥類會更高,其中引入的互通道注意力模塊,可以自適應(yīng)地調(diào)節(jié)通道分配機制,避免無效特征通道占用現(xiàn)象,進(jìn)而彌補在不同通道輸出(本文輸出通道512 維)情況下的識別精度不足問題。
從參數(shù)設(shè)置以及網(wǎng)絡(luò)結(jié)構(gòu)角度進(jìn)行實驗分析:從參數(shù)設(shè)置角度,本文選用的bachsize 為32 而不是64,每次迭代輸入的圖片批量大小會影響模型訓(xùn)練的學(xué)習(xí)能力,進(jìn)而降低分類性能。從網(wǎng)絡(luò)結(jié)構(gòu)角度,若本文方法最后輸出進(jìn)行層數(shù)遞增,輸出維度也會增加,以上問題會根據(jù)輸出維度不同,最終的識別能力也會有所增強,但由于卷積層數(shù)的堆疊遞增,會出現(xiàn)模型梯度彌散以及實驗環(huán)境GPU 算力受限等問題,因此本文最終選定ResneXt29 進(jìn)行改進(jìn)。
本小節(jié)通過類激活可視化(Grad-CAM)的方法對模型的識別分類性能進(jìn)行驗證,該方法作為模型判斷圖像類別的依據(jù),能夠更加清晰地說明類激活圖與分類的映射關(guān)系。
為了驗證本文模型的有效性以及擬合度,本小節(jié)測試的實驗數(shù)據(jù)來自各個數(shù)據(jù)集的測試集中,以可視化熱圖形式標(biāo)明嵌入不同模塊后,模型預(yù)測出的判別性區(qū)域位置。如圖9 所示,熱圖中高亮的區(qū)域(紅色)代表與預(yù)測類別的相關(guān)區(qū)域,熱圖中制約預(yù)測類別的判別區(qū)域越多越準(zhǔn),模型對圖像的識別準(zhǔn)確率越高。
BARAN 模型融合各個模塊的可視化對比分析:如圖9 所示,第一列代表待識別的原圖像,第二列為B-CNN 原模型生成的熱圖,第三列為ResneXt29×2+SA 生成的熱圖,第六列為ResneXt29×2+SA+MCA 生成的熱圖。雙線性聚合殘差網(wǎng)絡(luò)模型較B-CNN 感受到更多的區(qū)域信息,使得模型置信度更高,有效彌補了原模型的表征能力以及特征融合單一化問題。融合MCA 模塊后,整個網(wǎng)絡(luò)關(guān)注的多樣化信息更豐富、更精細(xì),進(jìn)而驗證了MCA 模塊更能識別出具有互斥的部件區(qū)域。
圖9 各個模塊在3 個數(shù)據(jù)集上生成的熱圖對比Fig.9 Comparison of heat maps generated by each module on 3 datasets
MCA 模塊中判別力子模塊與區(qū)分性子模塊的可視化對比分析:為了驗證區(qū)分性子模塊依賴于判別性子模塊,如圖9 所示,第四列為ResneXt29×2+SA+,第五列為ResneXt29×2+SA+,由熱力區(qū)域表明,判別性子模塊提取的特征區(qū)域相比區(qū)分性子模塊更多,而僅由區(qū)分性子模塊進(jìn)行分類,熱圖中顯著性區(qū)域更加離散、微小。通過第四列、第五列、第六列熱圖區(qū)域分散程度對比,兩個子模塊進(jìn)行輔助學(xué)習(xí),模型表現(xiàn)得更精準(zhǔn)。
針對細(xì)粒度圖像分類任務(wù)中種類間差異性呈現(xiàn)出的微小區(qū)別,造成模型捕捉可判別性特征的能力不足,特征通道之間的相互依賴關(guān)系較差以及無法有效學(xué)習(xí)到顯著且多樣化的特征信息等問題,本文提出一種雙線性聚合殘差注意力網(wǎng)絡(luò)模型。通過改進(jìn)原雙線性網(wǎng)絡(luò)(B-CNN)中的特征提取函數(shù),增強網(wǎng)絡(luò)表征能力;然后在此基礎(chǔ)上,引入兩個注意力模塊,其中,分散注意力專注于解決模型在提取過程中特征權(quán)重值分散問題,加強特征通道依賴程度,并實現(xiàn)多維特征融合;互通道注意力通過判別性與區(qū)分性子模塊實現(xiàn)互補性提取可區(qū)分性與多樣化的易混淆特征信息,避免無效特征影響分類性能;實驗表明,本文提出模型相比其他方法更能有效地提取關(guān)鍵性且多樣化的判別性信息。在未來工作中,將致力于聯(lián)合圖像空間語義信息彌補高階特征的缺失問題以及使用合適的正則化方法減緩梯度彌散現(xiàn)象,進(jìn)一步提高細(xì)粒度圖像分類性能。