国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力數(shù)據(jù)增廣的細(xì)粒度圖像分類方法

2021-04-22 12:45:40寧文昌趙龍陽孟瑞敏
關(guān)鍵詞:細(xì)粒度注意力分類

徐 智, 寧文昌, 趙龍陽, 孟瑞敏

(桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)

圖像分類是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等領(lǐng)域的經(jīng)典任務(wù),在學(xué)界已經(jīng)有大量相關(guān)的研究。傳統(tǒng)的圖像分類是語義級圖像分類,待分類的對象屬于不同的大類,如汽車、行人、飛機(jī)等,類別之間的外觀差異較大,分類難度相對較低。而細(xì)粒度圖像分類中待分類的對象屬于同一大類下的不同子類,比如同屬于鳥類這一大類下的不同品種,類別之間的外觀差異較小,分類難度往往比語義級圖像分類更大。細(xì)粒度圖像分類在生產(chǎn)生活中也有廣泛的應(yīng)用需求,比如在無人超市中需要識別不同款式的商品,在自然保護(hù)區(qū)中需要識別不同種類的動物,在智慧交通系統(tǒng)中需要識別不同型號的汽車等。

與語義級圖像分類相比,細(xì)粒度圖像分類研究起步較晚,目前仍有許多具有挑戰(zhàn)性的問題,其中最重要的一個挑戰(zhàn)性問題是“類內(nèi)差異大,類間差異小”,即不同類別在相似姿態(tài)、相似視角等條件下外觀差異較小,而同一類別在不同姿態(tài)、不同視角等條件下外觀差異較大,這意味著不同樣本之間的區(qū)別主要是由姿態(tài)、視角等外部因素決定,而不是由樣本所屬的類別決定?!邦悆?nèi)差異大,類間差異小”的問題會給分類帶來困難,因?yàn)閳D像分類算法一般需要先將圖像樣本映射到特征空間中,然后在特征空間中尋找不同類別之間的分界面,從而實(shí)現(xiàn)圖像分類。但不同樣本在特征空間中的距離與它們在圖像空間中的差異具有一定的正相關(guān)性,如果特征空間中不同類別距離較近,而同一類別距離較遠(yuǎn),圖像分類算法就難以找到一個合適的分界面將不同類別區(qū)分開,也就難以取得良好的分類效果。

為了解決上述“類內(nèi)差異大、類間差異小”的問題,學(xué)界提出了許多思路。其中一個常用的思路是提取具有判別性的局部區(qū)域的特征,基于這些特征對不同類別進(jìn)行細(xì)粒度的分類(傳統(tǒng)的圖像分類則一般是利用圖像的全局特征進(jìn)行分類)。這一思路主要是出于兩方面的考慮:

1)類內(nèi)差異(如姿態(tài)變化、光照變化等)對局部區(qū)域的影響比對全局區(qū)域的影響更小,所以讓模型更多地關(guān)注局部區(qū)域可減小特征空間中的類內(nèi)距離;

2)許多類別僅僅是在局部區(qū)域上存在區(qū)別,從這些區(qū)域提取的特征具有更好的判別性,所以讓模型更多地關(guān)注這些局部區(qū)域可增大特征空間中的類間距離。

基于上述思路,學(xué)界提出了許多先定位局部判別性區(qū)域再提取特征的方法。在這類方法中,早期的方法[1-4]依賴于強(qiáng)監(jiān)督信息,即不僅需要圖像樣本的類別標(biāo)簽信息,還需要圖像中判別性區(qū)域的位置信息(如待分類對象的邊界框坐標(biāo)、關(guān)鍵點(diǎn)坐標(biāo)等)。這些方法首先會基于位置信息學(xué)習(xí)一個判別性區(qū)域檢測器,實(shí)現(xiàn)對判別性區(qū)域的定位,然后從若干個判別性區(qū)域中提取特征,并將不同區(qū)域的特征結(jié)合起來作為整幅圖像的特征用于分類。依賴強(qiáng)監(jiān)督信息的方法的一大缺點(diǎn)是需要先對物體的判別性區(qū)域進(jìn)行標(biāo)注,才能訓(xùn)練一個判別性區(qū)域檢測器,但人工標(biāo)注需要耗費(fèi)大量的時間和精力,且所標(biāo)注的區(qū)域是否屬于分類的判別性區(qū)域也依賴于標(biāo)注者的主觀判斷。于是,近期的方法開始朝著弱監(jiān)督方向發(fā)展,不再需要圖像判別性區(qū)域的位置信息,僅需要圖像的類別標(biāo)簽,模型在訓(xùn)練過程中會自主發(fā)現(xiàn)具有判別性的區(qū)域,并提取這些區(qū)域的特征用于分類。為了使模型能夠自主發(fā)現(xiàn)具有判別性的區(qū)域,一些方法采用了視覺注意力機(jī)制[5-7],另一些方法則借鑒了目標(biāo)檢測中的思想,實(shí)現(xiàn)了弱監(jiān)督條件下的判別性區(qū)域檢測或分割[8-9]。這些基于弱監(jiān)督信息的方法往往需要經(jīng)過復(fù)雜的設(shè)計(jì)才能實(shí)現(xiàn),如Yang等[8]基于目標(biāo)檢測中的FPN思想[10]設(shè)計(jì)了Navigator、Teacher、Scrutinizer三個網(wǎng)絡(luò)來分別實(shí)現(xiàn)局部判別性區(qū)域的定位、局部判別性區(qū)域信息量的衡量、局部判別性區(qū)域特征的融合,3個網(wǎng)絡(luò)共同完成分類任務(wù)。Ge等[9]則設(shè)計(jì)了一個包含3個階段的細(xì)粒度圖像分類模型,第一階段用CAM[11]和CRF[12]方法獲取圖像中待分類對象的分割掩膜,實(shí)現(xiàn)對待分類對象的精確定位,第二階段通過改進(jìn)的目標(biāo)檢測方法定位到待分類對象各個信息互補(bǔ)的局部區(qū)域,第三階段通過一個雙向LSTM[13]來實(shí)現(xiàn)各局部區(qū)域的特征融合,最后再將融合后的特征用于分類。

鑒于此,提出了一種基于弱監(jiān)督信息的細(xì)粒度圖像分類方法,但與之前方法不同的是,本方法未設(shè)計(jì)復(fù)雜的機(jī)制,而是在常用的骨干網(wǎng)絡(luò)的基礎(chǔ)上加入了一個注意力模塊,并利用注意力模塊的輸出定位圖像中的判別性區(qū)域,再基于判別性區(qū)域進(jìn)行數(shù)據(jù)增廣,最后在細(xì)粒度圖像數(shù)據(jù)集上取得了較好的分類效果。實(shí)驗(yàn)結(jié)果表明,本方法在困難數(shù)據(jù)集上的分類精度與當(dāng)前先進(jìn)的方法接近,而在簡單數(shù)據(jù)集上的分類精度比當(dāng)前先進(jìn)的方法更高。

1 相關(guān)工作

1.1 基于注意力機(jī)制的判別性區(qū)域定位

人類在觀察某一場景時,會對場景中重要的區(qū)域給予更多的注意力,從而減少無關(guān)信息的干擾。深度學(xué)習(xí)中的注意力機(jī)制可以模仿人類的視覺系統(tǒng),對輸入數(shù)據(jù)中重要的部分賦予更高的權(quán)重,提升模型在預(yù)定任務(wù)中的效果。由于注意力模型可自主發(fā)現(xiàn)數(shù)據(jù)中重要的部分,不需要額外的標(biāo)簽信息,基于弱監(jiān)督信息的細(xì)粒度圖像分類方法經(jīng)常使用注意力機(jī)制來定位圖像中具有判別性的區(qū)域。Xiao等[14]提出了一種兩級注意力模型,其中包括物體級注意力和局部區(qū)域級注意力,分別實(shí)現(xiàn)了對圖像中待分類物體的整體定位和對局部判別性區(qū)域的定位,最后將物體級和局部區(qū)域級的預(yù)測結(jié)果合并,以提升最后的分類效果。Sermanet等[5]設(shè)計(jì)了一種以GoogLeNet[15]為骨干網(wǎng)絡(luò)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在不同的時間步中提取圖像不同區(qū)域的特征,將所有時間步中提取的特征相結(jié)合并預(yù)測物體的類別。Hu等[7]提出了一種雙線性注意力池化方法,將注意力模型獲取到的多個局部區(qū)域特征進(jìn)行雙線性組合,提高了特征向量對復(fù)雜視覺模式的表達(dá)能力。本方法也采用注意力機(jī)制來定位圖像的判別性區(qū)域,其中,注意力機(jī)制主要是通過一個1×1的卷積層來實(shí)現(xiàn),未引入復(fù)雜的模塊。

1.2 數(shù)據(jù)增廣

數(shù)據(jù)增廣是深度學(xué)習(xí)中常用的正則化方法,可有效地提升模型的泛化性能。在計(jì)算機(jī)視覺領(lǐng)域,傳統(tǒng)的數(shù)據(jù)增廣方法包括圖像的裁剪、擦除、仿射變換、顏色空間變換等,但傳統(tǒng)的數(shù)據(jù)增廣方法是按預(yù)定的概率隨機(jī)對原始數(shù)據(jù)做變換,并不考慮數(shù)據(jù)本身的分布以及模型對數(shù)據(jù)的偏好,限制了數(shù)據(jù)增廣對模型性能的提升作用。比如在圖像分類中的局部區(qū)域擦除方法,如果是隨機(jī)的擦除,那么可能擦除的區(qū)域包含了分類所需的關(guān)鍵信息,模型難以從擦除后的圖像中獲得足夠的類別相關(guān)信息,所以增廣樣本就成了噪聲樣本,對模型性能的提升基本沒有貢獻(xiàn)。近年來,基于深度學(xué)習(xí)技術(shù)的數(shù)據(jù)增廣方法逐漸受到學(xué)界的重視,這些方法可以通過學(xué)習(xí)來獲得比隨機(jī)的數(shù)據(jù)變換更有效的數(shù)據(jù)增廣方式,比如谷歌大腦提出的Auto-Augment[16],通過搜索算法在一個數(shù)據(jù)增廣策略的搜索空間中搜索,得到針對目標(biāo)數(shù)據(jù)集而言最優(yōu)的增廣策略,可以明顯提高模型在目標(biāo)數(shù)據(jù)集上的分類效果。Peng等[17]則基于對抗學(xué)習(xí)的思想提出了一種數(shù)據(jù)增廣方法,該方法在訓(xùn)練過程中根據(jù)當(dāng)前模型在數(shù)據(jù)集上的表現(xiàn)來相應(yīng)地產(chǎn)生增廣樣本,有效地提高了模型的泛化性能。上述基于深度學(xué)習(xí)的數(shù)據(jù)增廣方法雖然有效,但需要經(jīng)過復(fù)雜的設(shè)計(jì),實(shí)現(xiàn)起來較困難。本方法雖然也基于深度學(xué)習(xí),但實(shí)現(xiàn)起來相對簡單。本方法采用了一種基于注意力機(jī)制的數(shù)據(jù)增廣技術(shù),通過對判別性區(qū)域進(jìn)行裁剪以及對非判別性區(qū)域進(jìn)行擦除,可以使模型更好地學(xué)習(xí)到判別性區(qū)域的信息和相對位置關(guān)系,有效提高模型在細(xì)粒度分類任務(wù)中的精度。

2 基于注意力數(shù)據(jù)增廣的細(xì)粒度圖像分類

2.1 總體框架

本方法基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡稱CNN)實(shí)現(xiàn)細(xì)粒度圖像分類,并用數(shù)據(jù)增廣技術(shù)提升網(wǎng)絡(luò)的分類效果,圖1為本方法的總體框架。

圖1 本方法的總體框架

如圖1所示,對于原始樣本,首先通過特征提取模塊提取特征,得到特征圖,再用注意力模塊從特征圖中產(chǎn)生注意力激活圖,注意力激活圖經(jīng)過全局平均池化[18]得到特征向量,最后將特征向量輸入分類器進(jìn)行分類。原始樣本的注意力激活圖包含了判別性區(qū)域的信息,所以根據(jù)注意力激活圖可以定位到原始樣本的判別性區(qū)域。本方法基于判別性區(qū)域進(jìn)行數(shù)據(jù)增廣,每個原始樣本都會得到多個增廣樣本,這些增廣樣本通過特征提取模塊得到特征圖后,直接進(jìn)行全局平均池化,得到特征向量,最后輸入分類器進(jìn)行分類。上述特征提取模塊可以用普通的CNN骨干網(wǎng)絡(luò)實(shí)現(xiàn),分類器可用不帶偏置項(xiàng)的全連接層實(shí)現(xiàn),其中原始樣本和增廣樣本的特征提取模塊共享權(quán)重,但它們的分類器不共享權(quán)重,且它們的特征向量維度也不同。

2.2 判別性區(qū)域定位

在常用的CNN網(wǎng)絡(luò)中,如ResNet[19]、VGGNet[20]等,最后一個卷積層輸出的特征圖蘊(yùn)含著豐富的空間信息和語義信息。特征圖往往有多個通道,其中某個通道會對應(yīng)原圖中的某種視覺特征,且特征圖上的每個“像素”都對應(yīng)著原圖中的一塊區(qū)域。當(dāng)原圖中某個區(qū)域出現(xiàn)某種視覺特征時,特征圖中對應(yīng)通道的對應(yīng)“像素”會出現(xiàn)較大的激活值。所以CNN本身就在一定程度上擁有定位物體的能力,通過特征圖中不同“像素”的激活值可推斷出物體在原圖中的大致位置?;谶@一特性,Zhou等[11]提出了CAM方法,可根據(jù)分類模型的輸出推斷出圖像中對分類貢獻(xiàn)大的區(qū)域。受此啟發(fā),本方法在普通CNN網(wǎng)絡(luò)最后一個卷積層后額外添加了一個1×1的卷積層,用來將特征圖的各個通道的激活值進(jìn)行組合,得到注意力激活圖。

假設(shè)原始的CNN最后一個卷積層輸出的特征圖是F∈RC×H×W,其中,C、H和W分別代表特征圖的通道數(shù)、特征圖的高和寬,則注意力激活圖可表示為A∈RM×H×W,即A有M個通道,且高和寬與特征圖F相同,A與F的關(guān)系可表示為

(1)

式中:Am為注意力激活圖A的第m個通道,m∈{1,2,…,M};Wm,i為1×1卷積層中第m個濾波器在第i個通道上的權(quán)重;Fi∈RH×W則代表特征圖F的第i個通道。得到注意力激活圖后,使用全局平均池化從中提取特征,全局平均池化輸出的特征向量用于最后的分類。在分類損失的約束下,注意力激活圖中每個通道都會傾向于捕捉原圖中對分類有幫助的特征,因此,激活圖中響應(yīng)大的區(qū)域一般對應(yīng)著原圖中對分類有幫助的特征所在的區(qū)域,即判別性區(qū)域?;谏鲜鲎⒁饬C(jī)制,可以實(shí)現(xiàn)對圖像中判別性區(qū)域的定位,且訓(xùn)練過程中只需要圖像的類別標(biāo)簽,不需要判別性區(qū)域的位置標(biāo)簽。

2.3 數(shù)據(jù)增廣

使用2.2節(jié)中的方法可獲得M個通道的注意力激活圖,且每個通道對應(yīng)原圖中待分類物體的一個判別性區(qū)域。接下來基于注意力激活圖對數(shù)據(jù)進(jìn)行增廣,增廣方式包括判別性區(qū)域裁剪和非判別性區(qū)域擦除2種,增廣樣本與原樣本擁有相同的類別標(biāo)簽。圖2、3分別為判別性區(qū)域裁剪和非判別性區(qū)域擦除2種增廣方式的示意圖。

圖2 判別性區(qū)域裁剪

如圖2所示,判別性區(qū)域裁剪指的是根據(jù)注意力激活圖找到原圖中的判別性區(qū)域,并將判別性區(qū)域裁剪出來。裁剪出來的區(qū)域?qū)⒎糯蟮脚c原圖同樣的大小,再作為增廣樣本用于訓(xùn)練分類模型。由于這些裁剪出來的局部區(qū)域本身含有豐富的類別信息,將這些區(qū)域放大后,模型可更好地學(xué)習(xí)到這些區(qū)域的特征。

如圖3所示,非判別性區(qū)域擦除指的是同時選擇多個判別性區(qū)域,然后在原圖中保留選中的區(qū)域并將其他區(qū)域擦除。進(jìn)行非判別性區(qū)域擦除后得到的圖像也作為增廣樣本用于訓(xùn)練分類模型。由于這樣得到的增廣樣本同時保留了多個判別性區(qū)域,且排除了其他區(qū)域的影響,模型可更好地學(xué)習(xí)到多個判別性區(qū)域之間的相對位置關(guān)系。

圖3 非判別性區(qū)域擦除

在具體的實(shí)現(xiàn)中,為了根據(jù)注意力激活圖找到原圖中的判別性區(qū)域,需要將注意力激活圖的每個通道進(jìn)行上采樣,得到與原圖相同的長和寬,上采樣后激活圖的每一個通道的“像素”便與原圖像的像素位置一一對應(yīng)。由于激活圖一個通道的不同“像素”有不同的激活值,還需要給每個通道設(shè)置一個閾值θi,其中i∈{1,2,…,M},然后找出每個通道上大于閾值的“像素”,并將原圖中與這些“像素”對應(yīng)的位置視為判別性區(qū)域。但這樣得到的區(qū)域形狀一般是不規(guī)則的,所以在進(jìn)行判別性區(qū)域裁剪時,首先求出判別性區(qū)域的正外接矩形,再根據(jù)正外接矩形進(jìn)行區(qū)域裁剪和縮放,而在進(jìn)行非判別性區(qū)域擦除時,不需要求正外接矩形,可以直接將判別性區(qū)域以外的像素值置0。另外,在進(jìn)行非判別性區(qū)域擦除時,可通過將注意力激活圖各通道的值相加,再取閾值來實(shí)現(xiàn)同時選擇多個判別性區(qū)域。

為了使模型能夠充分捕捉到圖像中可能出現(xiàn)的判別性特征,在具體實(shí)現(xiàn)中需要將注意力激活圖的通道數(shù)M設(shè)置為一個較大的值。理論上每張訓(xùn)練圖片可裁剪出M個判別性區(qū)域,但同一張圖片產(chǎn)生太多的增廣樣本是不必要的,有可能使模型發(fā)生過擬合,所以在具體實(shí)現(xiàn)中并不是直接裁剪出M個判別性區(qū)域,而是從M個區(qū)域中選擇少數(shù)幾個區(qū)域進(jìn)行裁剪,選擇的區(qū)域數(shù)記為k。另外由于視角、遮擋等原因,待分類物體的某些判別性區(qū)域可能成像質(zhì)量較差,甚至可能是不可見的,此時注意力激活圖對應(yīng)的通道上的激活值會比較小。在進(jìn)行數(shù)據(jù)增廣時,更希望選中那些成像質(zhì)量好的判別性區(qū)域,而不是隨機(jī)選擇幾個區(qū)域;同時為了避免模型過于依賴少數(shù)幾個判別性區(qū)域而導(dǎo)致泛化性能差,也不能總是選擇注意力激活圖中激活值較大的通道所對應(yīng)的判別性區(qū)域。因此在選擇判別性區(qū)域時,對于注意力激活圖的每個通道,都需要將該通道所有“像素”的激活值相加,得到的和再歸一化到[0,1]范圍內(nèi),再將歸一化后的值作為對應(yīng)的判別性區(qū)域被采樣的概率,于是便得到了關(guān)于M個判別性區(qū)域的一個概率分布,最后根據(jù)這一分布從中采樣k個判別性區(qū)域,這樣就可以在保持一定隨機(jī)性的情況下,使得成像質(zhì)量越好的判別性區(qū)域被選中的概率越大。

2.4 損失函數(shù)

在分類問題中常用Softmax激活函數(shù)結(jié)合交叉熵作為損失函數(shù)(稱為Softmax交叉熵?fù)p失),可表示為

(2)

其中:x和y分別為一個訓(xùn)練批次中樣本的特征向量和類別標(biāo)簽;m為一個訓(xùn)練批次中樣本的數(shù)量;xi∈Rd為該批次中第i個樣本的特征向量;n為類別數(shù);yi為xi的類別標(biāo)簽,類別標(biāo)簽的形式是真實(shí)類別在n個類別中的序數(shù);W∈Rd×n是網(wǎng)絡(luò)最后一個全連接層的權(quán)重;b∈Rn則是網(wǎng)絡(luò)最后一個全連接層的偏置項(xiàng)。文中將偏置項(xiàng)b置0。Softmax交叉熵?fù)p失具有容易收斂的優(yōu)點(diǎn),文中也使用Softmax交叉熵?fù)p失作為模型的損失函數(shù)。由于原樣本和增廣樣本都需要計(jì)算Softmax交叉熵?fù)p失,損失函數(shù)為

L(xraw,xaug,y)=Ls(xraw,y)+λLs(xaug,y)。

(3)

式(3)中:xraw為原樣本的特征向量;xaug為增廣樣本的特征向量;Ls(xraw,y)和Ls(xaug,y)分別為原樣本和增廣樣本的Softmax交叉熵?fù)p失。因?yàn)長s(xraw,y)既要引導(dǎo)模型將原樣本分類正確,又要引導(dǎo)模型的注意力激活圖正確捕捉到原樣本中的判別性區(qū)域,所以Ls(xraw,y)應(yīng)該具有更大的權(quán)重,式(3)中λ∈(0,1)。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)集

在3個常用的細(xì)粒度圖像數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),3個數(shù)據(jù)集分別是CUB-200-2011[21]、Stanford Cars[22]和FGVC Aircraft[23]。這3個數(shù)據(jù)集中的圖像除了待分類對象之外,往往還包含了一些背景區(qū)域,但在實(shí)驗(yàn)的訓(xùn)練過程中,只使用圖片的類別標(biāo)簽,未使用待分類對象的邊界框標(biāo)簽或者關(guān)鍵點(diǎn)標(biāo)簽。3個數(shù)據(jù)集如下。

CUB-200-2011:這是一個鳥類數(shù)據(jù)集,包含200種鳥類,11 788張圖片,每個類別大約有60張圖片,訓(xùn)練集與測試集的比例接近1∶1。由于鳥類在不同姿態(tài)下外觀差距較大,且鳥類的身體在整幅圖像中占有的面積比例較小,此數(shù)據(jù)集一般被認(rèn)為是一個較困難的數(shù)據(jù)集。

Stanford Cars:這是一個車輛數(shù)據(jù)集,包含196種車型,16 185張圖片,訓(xùn)練集和測試集比例也接近1∶1。其中,車輛圖片是從多個角度拍攝的,不同的類別精細(xì)到型號和年代(如2012 Tesla Model S是其中一個類別)。

FGVC Aircraft:這是一個飛機(jī)數(shù)據(jù)集,包含10 000張飛機(jī)圖片。此數(shù)據(jù)集可以按不同的精細(xì)程度分類,不同的精細(xì)程度在數(shù)據(jù)集中表現(xiàn)為由粗到細(xì)的4種劃分等級:Manufacturer,F(xiàn)amily,Variant,Model。實(shí)驗(yàn)采用細(xì)粒度圖像分類文獻(xiàn)中常用的劃分等級Variant,在此等級下數(shù)據(jù)集會劃分為100種類別,訓(xùn)練集和測試集比例大約是2∶1。

數(shù)據(jù)集的信息匯總?cè)绫?所示

表 1 實(shí)驗(yàn)中使用的數(shù)據(jù)集的基本信息

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

在實(shí)驗(yàn)中,輸入的圖像統(tǒng)一預(yù)處理為448×448大小,骨干網(wǎng)絡(luò)采用ResNet50[19]。受Crystal loss[24]的啟發(fā),為了使同類樣本在特征空間中分布更緊湊,在訓(xùn)練時將樣本的特征向量進(jìn)行了模長歸一化,但特征向量模長歸一化后網(wǎng)絡(luò)可能難以收斂[25],所以還需要將歸一化后的特征向量每個元素乘以100,即向量模長從1放大為100。注意力激活圖的通道數(shù)M設(shè)置為512。在進(jìn)行判別性區(qū)域選擇前,每個通道的值需要?dú)w一化到[0,1]之間,每個通道的閾值θi都是從[0.4,0.6]之間均勻采樣一個隨機(jī)數(shù)得到的。該方法使用的數(shù)據(jù)增廣有判別性區(qū)域裁剪和非判別性區(qū)域擦除兩種方式,無論是裁剪還是擦除,都需要先從M個判別性區(qū)域中選擇k個,在進(jìn)行區(qū)域裁剪時,k設(shè)置為6,而進(jìn)行區(qū)域擦除時,k設(shè)置為4。因此,區(qū)域裁剪可以得到6個增廣樣本,區(qū)域擦除可得到1個增廣樣本,因此每個原始樣本都會得到7個增廣樣本。在根據(jù)式(3)計(jì)算損失函數(shù)時,λ取0.5。在更新網(wǎng)絡(luò)的權(quán)重時使用隨機(jī)梯度下降(stochastic gradient descent, 簡稱SGD)算法,并將SGD中的動量參數(shù)設(shè)置為9×10-1,權(quán)重衰減參數(shù)設(shè)置為1×10-5。網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)置為1×10-3,并在訓(xùn)練過程中進(jìn)行指數(shù)型衰減。

3.3 結(jié)果分析

在3.1節(jié)中提到的3個數(shù)據(jù)集的訓(xùn)練集上分別進(jìn)行了訓(xùn)練,并分別記錄了訓(xùn)練后的模型在3個數(shù)據(jù)集的測試集上的分類準(zhǔn)確率,最后將實(shí)驗(yàn)結(jié)果與一些當(dāng)前先進(jìn)的細(xì)粒度圖像分類方法進(jìn)行了比較,這些方法也是基于弱監(jiān)督信息實(shí)現(xiàn)細(xì)粒度分類的。具體結(jié)果如表2所示,表2中其他方法的準(zhǔn)確率引用自這些方法的原論文,其中短橫桿代表該方法的原論文中未在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),加粗的數(shù)字則代表所有方法在該數(shù)據(jù)集上的最高準(zhǔn)確率。

表 2 不同方法在3個數(shù)據(jù)集上的準(zhǔn)確率 %

從表2可看出,該方法在3個數(shù)據(jù)集上都取得了不錯的分類效果。其中Li等[28]設(shè)計(jì)了一個具有參考性的基線模型(ResNet-50 baseline),該模型僅使用ResNet50做特征提取,便在CUB-200-2011和Stanford Cars數(shù)據(jù)集上分別取得了84.5%和92.3%的準(zhǔn)確率。隨后,Li等[28]基于ResNet50設(shè)計(jì)了一種擁有動態(tài)時間步的循環(huán)注意力模型(DT-RAM[28]),將CUB-200-2011和Stanford Cars上的準(zhǔn)確率進(jìn)一步提高到86.0%和93.1%。NTS-Net[8]也是一個以ResNet50為骨干網(wǎng)絡(luò)的模型,其中設(shè)計(jì)了Navigator、Teacher和Scrutinizer三個網(wǎng)絡(luò)模塊來完成細(xì)粒度圖像分類任務(wù),Navigator模塊負(fù)責(zé)發(fā)現(xiàn)圖像中信息量大的區(qū)域,Teacher模塊負(fù)責(zé)引導(dǎo)Navigator模塊尋找圖像中信息量大的區(qū)域,Scrutinizer模塊則負(fù)責(zé)將Navigator模塊所發(fā)現(xiàn)的多個區(qū)域特征結(jié)合起來進(jìn)行圖像分類,最終取得了比DT-RAM[28]更好的分類效果。WS-DAN[7]則使用了雙線性注意力池化來提高特征向量對于視覺特征的表示能力,另外還引入了類別中心損失[31]來提高模型對于判別性區(qū)域的定位精度,該方法在CUB-200-2011數(shù)據(jù)集上取得了最高的準(zhǔn)確率。文中同樣以ResNet50為骨干網(wǎng)絡(luò),但設(shè)計(jì)思路比上述方法簡單,沒有引入復(fù)雜的模塊,相對來說更容易復(fù)現(xiàn)。CUB-200-2011是一個較困難的數(shù)據(jù)集,在該數(shù)據(jù)集上,本方法準(zhǔn)確率低于WS-DAN[7]和NTS-Net[8],主要是由于CUB-200-2011數(shù)據(jù)集中的圖片含有較多的背景區(qū)域,而本方法采用的注意力模塊較簡單,因此,在對判別性區(qū)域的定位精度上比WS-DAN[7]和NTS-Net[8]等采用復(fù)雜模塊的方法低一些,導(dǎo)致最后的分類準(zhǔn)確率也低一些。與CUB-200-2011數(shù)據(jù)集相比,Stanford Cars數(shù)據(jù)集和FGVC Aircraft數(shù)據(jù)集分類難度略低一些,在這2個數(shù)據(jù)集上,本方法取得了最高的準(zhǔn)確率,比其他設(shè)計(jì)了復(fù)雜模塊的方法的分類效果更好,證明了本方法所設(shè)計(jì)的數(shù)據(jù)增廣技術(shù)的有效性。

4 結(jié)束語

提出了一種細(xì)粒度圖像分類方法,主要利用注意力機(jī)制發(fā)現(xiàn)圖像中的判別性區(qū)域,并基于判別性區(qū)域?qū)τ?xùn)練樣本進(jìn)行增廣,增廣的樣本會幫助模型更好地學(xué)習(xí)判別性區(qū)域的信息。本方法可以實(shí)現(xiàn)細(xì)粒度級別的圖像分類,并且在3個常用的細(xì)粒度圖像分類數(shù)據(jù)集上取得了良好的分類效果。相比于當(dāng)前具有代表性的細(xì)粒度圖像分類方法,本方法使用的模型結(jié)構(gòu)更簡單,且取得的效果比大多數(shù)方法更好,這說明對于細(xì)粒度圖像分類任務(wù)而言,設(shè)計(jì)有效的數(shù)據(jù)增廣方法與設(shè)計(jì)先進(jìn)的模型結(jié)構(gòu)同等重要。下一步將繼續(xù)優(yōu)化數(shù)據(jù)增廣策略,并在更多不同的骨干網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)。

猜你喜歡
細(xì)粒度注意力分類
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
讓注意力“飛”回來
分類算一算
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
教你一招:數(shù)的分類
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
通化县| 高青县| 廊坊市| 翼城县| 达拉特旗| 大荔县| 璧山县| 鄂托克前旗| 沙湾县| 那曲县| 兴山县| 炉霍县| 科技| 海城市| 柘城县| 台江县| 延安市| 从江县| 彭山县| 米脂县| 咸阳市| 扶风县| 耒阳市| 商丘市| 卢龙县| 正安县| 南漳县| 旌德县| 镇坪县| 罗山县| 志丹县| 新昌县| 永宁县| 莱西市| 霍林郭勒市| 锦屏县| 常州市| 资溪县| 宜昌市| 汉川市| 丹江口市|