国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙注意力和多區(qū)域檢測的細(xì)粒度圖像分類

2022-09-24 06:47:50潘新辰楊小健
電子技術(shù)應(yīng)用 2022年8期
關(guān)鍵詞:細(xì)粒度注意力局部

潘新辰,楊小健,秦 嶺

(南京工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)

0 引言

目前,深度學(xué)習(xí)技術(shù)已被廣泛應(yīng)用于圖像分類領(lǐng)域,細(xì)粒度圖像分類旨在區(qū)分同種對象的不同類別。相較于傳統(tǒng)圖像分類,細(xì)粒度圖像分類的難點(diǎn)在于:(1)不同類別之間的高相似性,難以找到具有辨別性的區(qū)域并提取細(xì)節(jié)特征;(2)同一種類別之間由于圖像視角、光照、背景和遮擋等因素的變化也存在著一定的差異性。因此,如何定位具有辨別性的局部區(qū)域,以及如何更精確地提取細(xì)粒度特征,成為目前細(xì)粒度圖像分類方法的主要研究方向。

為了檢測具有辨別性的局部區(qū)域,一些方法[1-2]通過人工標(biāo)注的方式對細(xì)粒度圖像中具有辨別性的區(qū)域進(jìn)行標(biāo)注,然后通過網(wǎng)絡(luò)學(xué)習(xí)定位辨別性局部區(qū)域,從而提高網(wǎng)絡(luò)模型的分類準(zhǔn)確性,需要花費(fèi)大量的時(shí)間、人力對圖像進(jìn)行標(biāo)注,成本太大。還有一些方法[3-4]利用類別標(biāo)簽以弱監(jiān)督的方式來學(xué)習(xí)具有辨別性的局部區(qū)域,這類方法雖然不能夠達(dá)到使用人工標(biāo)注的標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí)的效果,但額外成本幾乎為零。

注意力機(jī)制作為提升網(wǎng)絡(luò)特征提取能力的重要手段[5]主要分為通道注意力機(jī)制和空間注意力機(jī)制,通道注意力機(jī)制可以學(xué)習(xí)到不同通道間的權(quán)重關(guān)系,空間注意力機(jī)制可以學(xué)習(xí)不同像素間的依賴關(guān)系。合理利用以上兩個(gè)注意力機(jī)制能夠更細(xì)粒度提取圖像的特征,從而能夠更好地進(jìn)行分類。

本文通過結(jié)合雙注意力機(jī)制和多區(qū)域檢測,實(shí)現(xiàn)了一種細(xì)粒度圖像分類方法,雙注意力機(jī)制能夠使模型關(guān)注更加細(xì)節(jié)的圖像特征,并通過多區(qū)域檢測的方法,定位具有辨別性的局部區(qū)域,然后將局部區(qū)域裁剪出來進(jìn)一步通過模型進(jìn)行學(xué)習(xí),從而整體提高了細(xì)粒度圖像分類的準(zhǔn)確率。

1 相關(guān)工作

1.1 區(qū)域檢測方法

細(xì)粒度圖像分類中的多區(qū)域檢測實(shí)質(zhì)是借鑒了目標(biāo)檢測[6]的思想。在目標(biāo)檢測領(lǐng)域,主要是以監(jiān)督學(xué)習(xí)的方式通過人工標(biāo)注的框進(jìn)行學(xué)習(xí),而細(xì)粒度圖像分類中的多區(qū)域檢測則是建立在弱/無監(jiān)督學(xué)習(xí)上,通過圖像類別標(biāo)簽/特征分布去自主學(xué)習(xí)具有辨別性的局部區(qū)域,無需額外的人工標(biāo)注信息。Hu 等人[7]針對細(xì)粒度分類問題,通過弱監(jiān)督學(xué)習(xí)方法獲得每一張訓(xùn)練圖像的辨別性區(qū)域,然后通過裁剪和丟棄辨別性區(qū)域來增強(qiáng)數(shù)據(jù),使得網(wǎng)絡(luò)在關(guān)注辨別性區(qū)域的同時(shí),也關(guān)注除去辨別性區(qū)域外的其他區(qū)域。Yang 等人[8]受目標(biāo)檢測中區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)的啟發(fā),利用圖像的類別標(biāo)簽通過Navigator Network 生成一個(gè)表示所有預(yù)選框的列表,然后根據(jù)得分進(jìn)行排序,將得分較高的K 個(gè)區(qū)域裁剪出來輸入至特征提取網(wǎng)絡(luò),以提取更細(xì)粒度的特征。

1.2 注意力機(jī)制

注意力機(jī)制在使用深度學(xué)習(xí)方法來模仿人類的視覺機(jī)制中發(fā)揮了重要作用,能夠使網(wǎng)絡(luò)忽略無關(guān)的特征信息而更加關(guān)注重要的特征信息[9]。其主要應(yīng)用于對圖像特征層的通道和空間的關(guān)系進(jìn)行注意,捕獲更加詳細(xì)的特征信息。Hu 等人[10]通過建模通道間的相關(guān)性,提出了SE(Squeeze-and-Excitation)模塊,該方法能夠使網(wǎng)絡(luò)自適應(yīng)地學(xué)習(xí)每個(gè)特征通道的重要程度,然后根據(jù)重要程度去強(qiáng)化有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征。Wang 等人[11]針對卷積是一種對局部區(qū)域進(jìn)行的操作,缺少全局范圍的特征依賴關(guān)系,提出了一種非局部(Non-local)操作,該方法能夠建立圖像上兩個(gè)有一定距離的像素之間的聯(lián)系,從而使網(wǎng)絡(luò)關(guān)注大范圍里的特征依賴關(guān)系。

2 本文方法

本節(jié)首先介紹本文中網(wǎng)絡(luò)的整體結(jié)構(gòu),然后分別對區(qū)域檢測部分和雙注意力機(jī)制部分進(jìn)行詳細(xì)的說明。

2.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

如圖1 所示,將原始圖像R0∈RC×H×W輸入至特征提取網(wǎng)絡(luò)(Feature Extractor)中,用于提取原始圖像的全局特征,C、H、W 分別為通道數(shù)、高和寬。然后經(jīng)過雙注意力機(jī)制進(jìn)一步細(xì)化全局特征,并通過第一個(gè)全連接層(FC0)計(jì)算圖像的原始損失L0。其次將上述輸出的全局特征層(Feature Map)輸入至多區(qū)域檢測模塊(Multi-region Detection Module)來獲得每個(gè)局部區(qū)域{R1,R2,…,RA}及對應(yīng)的得分{S1,S2,…,SA},A為局部區(qū)域的數(shù)量,將區(qū)域得分排序以獲得最高得分的K 個(gè)辨別性最大的局部區(qū)域{R1,R2,…,RK},并將這K 個(gè)局部區(qū)域在原始圖像中裁剪出來上采樣至224×224 大小的尺寸,將其再次輸入至主干網(wǎng)絡(luò)(Backbone)中用于提取局部區(qū)域的特征,并使用其對應(yīng)的全連接層(FCi,i∈K)通過Cross Entropy Loss 損失函數(shù)來計(jì)算這些局部區(qū)域損失Li,同時(shí)根據(jù)全連接層FCi的輸出使用log_softmax 函數(shù)來計(jì)算每個(gè)局部區(qū)域相對于類別標(biāo)簽的置信度Di。最后結(jié)合圖像的全局特征和局部區(qū)域特征作為總體的特征表示,并將結(jié)果輸入到全連接層FCconcat中,利用Cross Entropy Loss 損失函數(shù)來計(jì)算總體損失Lconcat,最終得到整個(gè)網(wǎng)絡(luò)的分類結(jié)果。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)

2.2 區(qū)域檢測

如圖2 所示,區(qū)域檢測的輸入為圖1 中主干網(wǎng)絡(luò)(Backbone)的輸出特征層(大小為2 048×14×14),通過使用具有橫向連接自上而下的結(jié)構(gòu)來檢測辨別性局部區(qū)域。具體為:分別使用濾波器(Filter)為128,卷積核大小為3×3,步長為1、1、2,填充為1 的三層卷積操作自上而下獲得不同尺度的特征層(128×14×14、128×7×7、128×4×4),每個(gè)卷積后緊接著ReLU 激活函數(shù);對于每層卷積后的輸出,分別使用濾波器(Filter)為6、6、9,卷積核大小為1×1,步長為1,填充為0 的3 個(gè)卷積操作對特征層進(jìn)行降維,并提升網(wǎng)絡(luò)的表達(dá)能力;最終獲得3 個(gè)尺度分別為6×14×14、6×7×7、9×4×4 的特征層,對應(yīng)3 個(gè)局部區(qū)域大小(48×48、96×96、192×192),這3 個(gè)特征層上的每個(gè)特征值均代表了一個(gè)候選區(qū)域的得分{S1,S2,…,SA},A 為3 個(gè)特征層中特征值的數(shù)量,為1 614。由于部分候選區(qū)域之間有著較大的重疊,為了減少網(wǎng)絡(luò)的計(jì)算量,采用極大值抑制的方法來減少候選區(qū)域的數(shù)量,通過設(shè)置一個(gè)閾值(threshold)來剔除不同區(qū)域之間的重疊率大于該閾值且得分相對較低的候選區(qū)域。最后對候選區(qū)域的得分進(jìn)行排序,選出最大的K 個(gè)局部區(qū)域{R1,R2,…,RK}并上采樣至224×224大小,然后通過特征提取網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)。

圖2 區(qū)域檢測模塊

2.3 雙注意力機(jī)制

注意力機(jī)制已經(jīng)成為提升卷積神經(jīng)網(wǎng)絡(luò)性能的一個(gè)重要模塊,并且通道注意力機(jī)制和空間注意力機(jī)制相結(jié)合的方法能夠更加顯著地提升網(wǎng)絡(luò)的性能。注意力模塊如圖3 所示,主要分為特征分組、通道注意力、空間注意力和特征融合四部分。

圖3 雙注意力機(jī)制模塊

2.3.1 特征分組

對于特征提取網(wǎng)絡(luò)的輸出特征層X ∈RC×H×W,特征分組按照通道的維度C 將X 拆分為G 組{X1,X2,…,XG}∈RC/G×H×W。對于 每一組子特征層Xk,k∈G,都將通過兩種注意力機(jī)制生成不同的權(quán)重系數(shù)。具體地,子特征層將被平均劃分為兩部分Xk1,Xk2∈RC/2G×H×W,一部分用于學(xué)習(xí)通道注意力特征,另一部分用于學(xué)習(xí)空間注意力特征。

2.3.2 通道注意力機(jī)制

本文在實(shí)現(xiàn)通道注意力時(shí)使用全局平均池化(Global Average Pooling,GAP)、全連接、Sigmoid 激活函數(shù)組合操作。具體為,對于輸入Xk1,首先使用全局平均池化操作(Fgap)生成通道的整體信息ca∈RC/2G×1×1,可以通過如下公式計(jì)算:

然后,通過全連接操作(Ffc)學(xué)習(xí)一個(gè)新的權(quán)重系數(shù)ω1∈RC/2G×1×1和偏 置b1∈RC/2G×1×1,用來表示各個(gè)通道的重要程度,最后再經(jīng)過Sigmoid 函數(shù)(σ)進(jìn)行激活,并和輸入特征相乘。計(jì)算公式如下:

通道注意力實(shí)現(xiàn)的過程使用公式可以整體描述如下:

2.3.3 空間注意力機(jī)制

不同于通道注意力機(jī)制,空間注意更關(guān)注各個(gè)像素點(diǎn)之間的依賴關(guān)系,因此,本文利用空間的特征信息來捕捉輸入圖像中不同局部區(qū)域之間的相關(guān)性。本文分別使用兩個(gè)大小為1×1 的卷積Convm和Convn操作,在Convm后使用Softmax 激活函數(shù),并將兩者的結(jié)果進(jìn)行相乘,最后和輸入的特征層相加得到空間注意特征。其計(jì)算公式如下:

其中,xi∈Xk2,N=W×H,ωm和ωn分別為卷積Convm和Convn的權(quán)重。為了進(jìn)一步減小計(jì)算的復(fù)雜度,上述公式可以將Wn移到求和的外面,改進(jìn)的公式如下:

2.3.4 特征融合

所有分組的子特征層Xk經(jīng)過雙注意力機(jī)制后,重新聚合到一起生成注意力特征層X'。最后,類似ShuffleNet v2[12]中的通道置換(channel shuffle)方法,通過設(shè)置一個(gè)通道置換操作來確保不同分組子特征的信息能夠“相互流轉(zhuǎn)”。具體為對于特征層X'∈RC×W×H,按照通道數(shù)C 分為GCS組,即特征層維度為G×C/GCS×W×H,然后將G 和C/GCS軸轉(zhuǎn)置得到C/GCS×G×W×H 維度的特征層,最后再將分組進(jìn)行合并得到原始維度大小(C×W×H)的特征層。

2.4 損失函數(shù)

對于整個(gè)網(wǎng)絡(luò)中的輸入{R0,R1,R2,…,RK},其中,R0為原始圖像,{R1,R2,…,RK}為區(qū)域檢測并上采樣得到的局部區(qū)域圖像,分別得到局部區(qū)域的得分{S1,S2,…,SK}和置信度{D0,D1,D2,…,DK},除了上文中提到的分類損失Li、L0、Lconcat使 用Cross Entropy Loss 損失函數(shù)來計(jì)算外,還需要計(jì)算局部區(qū)域得分損失LS、置信度損失LC。局部區(qū)域得分損失LS通過如下公式計(jì)算:

置信度損失LC通過如下公式計(jì)算:

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

在本文實(shí)驗(yàn)部分,將在3 個(gè)公開的細(xì)粒度圖像數(shù)據(jù)集(CUB-200-2011、StandfordCars 和FGVC Aircraft)進(jìn)行實(shí)驗(yàn),以評估所提出的方法。表1 列出了這3 個(gè)數(shù)據(jù)集的類別數(shù)量、訓(xùn)練集和測試集的圖像數(shù)量。

表1 數(shù)據(jù)集

3.2 實(shí)驗(yàn)細(xì)節(jié)

在本文實(shí)驗(yàn)中,統(tǒng)一將所有輸入圖像上采樣至448×448 大小,多區(qū)域檢測中超參數(shù)K 的值設(shè)置為4,threshold 設(shè)置為0.25。使用在Image-Net 數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50[13]模型作為特征提取網(wǎng)絡(luò),動(dòng)量(Momentum)SGD 作為優(yōu)化算法,Batch Normalization 作為正則化方法,初始學(xué)習(xí)率為0.001,并且每60 個(gè)epoch 后乘以0.1,權(quán)重衰減因子設(shè)為1×10-4,使用PyTorch 框架來實(shí)現(xiàn)本方法。

3.3 結(jié)果分析

表2 顯示了本文方法和其他細(xì)粒度圖像分類方法在3 種數(shù)據(jù)集(CUB-200-2011、StanfordCars 和FGVC Aircraft)上的實(shí)驗(yàn)結(jié)果,在使用ResNet-50 作為特征提取網(wǎng)絡(luò)時(shí),本文提出的方法在3 種數(shù)據(jù)集上的識別準(zhǔn)確率分別為88.3%、94.5%和92.3%,優(yōu)于其他方法。

表2 實(shí)驗(yàn)結(jié)果對比

此外,本文的方法比文獻(xiàn)[8]提出的方法分別高出0.8%(CUB-200-2011)、0.6%(StanfordCars)以及0.9%(FGVC Aircraft)。這也表明了本文在文獻(xiàn)[15]的基礎(chǔ)上加入雙注意力機(jī)制的改進(jìn)是有效的。

由于本文中多區(qū)域檢測模塊對整體網(wǎng)絡(luò)性能的提升較大,因此,本文在數(shù)據(jù)集CUB-200-2011 進(jìn)行了實(shí)驗(yàn)來探究不同數(shù)量的局部區(qū)域(超參數(shù)K 的取值)對實(shí)驗(yàn)結(jié)果的影響,結(jié)果如表3 所示。

表3 超參數(shù)K

ResNet-50 是目前較為強(qiáng)大的基準(zhǔn)網(wǎng)絡(luò),在數(shù)據(jù)集CUB-200-2011 上的細(xì)粒度分類任務(wù)中,其本身達(dá)到了83.8%的精度,而本文提出的方法在僅使用雙注意力機(jī)制的情況下相比高出0.8%。值得注意的是,只使用完整圖像(K=0)作為區(qū)域檢測模塊的輸出時(shí),精度達(dá)到了85.3%,高于ResNet-50+Attentions 0.7%的準(zhǔn)確率。這一現(xiàn)象表明,區(qū)域檢測模塊后連接的網(wǎng)絡(luò)通過進(jìn)一步學(xué)習(xí)圖像的特征信息并與原始網(wǎng)絡(luò)的輸出特征相融合,能夠更好地學(xué)習(xí)整體特征的表示。同樣可以看到,在K=4時(shí),獲得的分類準(zhǔn)確率達(dá)到了最高88.3%,而選擇6 個(gè)局部區(qū)域時(shí),準(zhǔn)確率反而下降了0.7%,這說明過多的局部區(qū)域會對網(wǎng)絡(luò)提取的特征產(chǎn)生干擾,從而影響最終的分類結(jié)果。從K=0 變化到K=2 時(shí),準(zhǔn)確率獲得了大幅度提升(2.8%),這也驗(yàn)證了區(qū)域檢測模塊的有效性。而從K=2 到K=4 的過程中,準(zhǔn)確率僅有0.2%的提升,這說明了兩個(gè)局部區(qū)域的數(shù)量幾乎已能夠精準(zhǔn)地提取細(xì)粒度的特征,再增加局部區(qū)域的數(shù)量僅能獲得微乎其微的提升,卻會一定程度上增加網(wǎng)絡(luò)的參數(shù)量。

然后通過固定K=4,以0.05 為間隔差,在0.1~0.5之間取多個(gè)threshold 的值在數(shù)據(jù)集CUB-200-2011 上進(jìn)行模型訓(xùn)練,驗(yàn)證超參數(shù)threshold 對實(shí)驗(yàn)結(jié)果的影響。

如圖4 所示,超參數(shù)threshold 在取0.25 時(shí)實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu);threshold 在0.1~0.25 這段變化中準(zhǔn)確率呈增長趨勢,這是因?yàn)檫^小的threshold 會導(dǎo)致所選局部區(qū)域覆蓋較為分散;而隨著threshold 的繼續(xù)增長,就會導(dǎo)致所選局部區(qū)域有較大的重疊。

圖4 超參數(shù)threshold 的影響

3.4 注意力機(jī)制

本文在不使用注意力機(jī)制(no_att)以及分別使用通道注意力機(jī)制(only c_att)、空間注意力機(jī)制(only s_att)、雙注意力機(jī)制(two_att)4 種情況下在數(shù)據(jù)集CUB-200-2011上做了實(shí)驗(yàn)對比,其中超參數(shù)K 的值固定為4,其他網(wǎng)絡(luò)設(shè)置相同。實(shí)驗(yàn)結(jié)果如圖5 所示,從結(jié)果可以看出,兩種注意力機(jī)制的單獨(dú)應(yīng)用均能夠提升網(wǎng)絡(luò)的分類準(zhǔn)確率,并且兩種注意力機(jī)制結(jié)合應(yīng)用能夠達(dá)到更好的效果。

圖5 雙注意力機(jī)制的影響

4 結(jié)論

本文提出了一種結(jié)合雙注意力機(jī)制和多區(qū)域檢測的細(xì)粒度圖像分類方法。該方法首先通過含有雙注意力機(jī)制的主干網(wǎng)絡(luò)提取全局特征信息,然后通過區(qū)域檢測模塊識別出辨別性較高的局部區(qū)域,并將局部區(qū)域送到主干網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)局部特征信息,最后將局部特征信息和全局特征信息相融合,對細(xì)粒度圖像進(jìn)行分類。雙注意力機(jī)制的應(yīng)用能夠使網(wǎng)絡(luò)更好地學(xué)習(xí)通道間和空間像素間的依賴關(guān)系,使網(wǎng)絡(luò)關(guān)注更多的細(xì)節(jié)特征。多區(qū)域檢測模塊的應(yīng)用則能夠使網(wǎng)絡(luò)更加關(guān)注具有辨別性的局部區(qū)域。本文將兩者相結(jié)合,最終在3 個(gè)公開的細(xì)粒度圖像數(shù)據(jù)集上達(dá)到了較高的準(zhǔn)確率,同時(shí)優(yōu)于其他方法。但本文的方法整體網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,對計(jì)算性能有較高的要求,這也是未來工作進(jìn)一步改進(jìn)的方向。

猜你喜歡
細(xì)粒度注意力局部
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
讓注意力“飛”回來
局部分解 巧妙求值
非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
A Beautiful Way Of Looking At Things
局部遮光器
连州市| 塔城市| 永兴县| 丰顺县| 松原市| 清河县| 合山市| 文水县| 益阳市| 新建县| 平昌县| 棋牌| 鱼台县| 中超| 禹州市| 师宗县| 太保市| 交口县| 宁蒗| 绥德县| 平塘县| 荥阳市| 新密市| 健康| 平原县| 张家口市| 闽侯县| 大港区| 祁东县| 交城县| 信宜市| 托克托县| 洛南县| 海林市| 嘉禾县| 枣强县| 玉环县| 淅川县| 青神县| 阳江市| 金华市|