国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法

2023-10-18 00:46:12趙婷婷高歡常玉廣陳亞瑞王嫄楊巨成
關(guān)鍵詞:深度學(xué)習(xí)

趙婷婷 高歡 常玉廣 陳亞瑞 王嫄 楊巨成

摘 要:細(xì)粒度圖像分類任務(wù)由于自身存在的細(xì)微的類間差別和巨大的類內(nèi)差別使其極具挑戰(zhàn)性,為了更好地學(xué)習(xí)細(xì)粒度圖像的潛在特征,該算法將知識(shí)蒸餾引入到細(xì)粒度圖像分類任務(wù)中,提出基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法(TRS-DeiT),能使其兼具CNN模型和Transformer模型的各自優(yōu)點(diǎn)。此外,TRS-DeiT的新型目標(biāo)區(qū)域選取模塊能夠獲取最具區(qū)分性的區(qū)域;為了區(qū)分任務(wù)中的易混淆類,引入對(duì)抗損失函數(shù)計(jì)算不同類別圖像間的相似度。最終,在三個(gè)經(jīng)典細(xì)粒度數(shù)據(jù)集CUB-200-2011、Stanford Cars和Stanford Dogs上進(jìn)行訓(xùn)練測(cè)試,分別達(dá)到90.8%、95.0%、95.1%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該算法相較于傳統(tǒng)模型具有更高的準(zhǔn)確性,通過可視化結(jié)果進(jìn)一步證實(shí)該算法的注意力主要集中在識(shí)別對(duì)象,從而使其更擅長(zhǎng)處理細(xì)粒度圖像分類任務(wù)。

關(guān)鍵詞:細(xì)粒度圖像分類; 知識(shí)蒸餾; Transformer; 深度學(xué)習(xí)

中圖分類號(hào):TP391.41?? 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2023)09-048-2863-06

doi:10.19734/j.issn.1001-3695.2022.12.0809

Fine-grained visual classification method based onknowledge distillation and target regions selection

Zhao Tingting, Gao Huan, Chang Yuguang, Chen Yarui, Wang Yuan, Yang Jucheng

(College of Artificial Intelligence, Tianjin University of Science & Technology, Tianjin 300457, China)

Abstract:Fine-grained visual classification (FGVC) is extremely challenging due to the subtle inter-class differences and the large intra-class differences. In order to learn the embedded features of fine-grained images efficiently, this paper attempted to introduce the idea of knowledge distillation to FGVC, and proposed TRS-DeiT, which was equipped with the common advantages of CNN models and Transformer models simultaneously. Besides,it proposed a novel target regions selection module in TRS-DeiT to obtain the most discriminative regions. It employed a contrastive loss function that measured the similarity of images to distinguish the confusable classes in the task. Finally, it demonstrated the effectiveness of the proposed TRS-DeiT model on CUB-200-2011, Stanford Cars and Stanford Dogs datasets, which achieved the accuracy of 90.8%, 95.0% and 95.1% respectively. The experimental results show that the proposed model outperforms the traditional models. Furthermore, the vi-sualization results further illustrate that the attention learned by the proposed model mainly focuses on recognizing objects, thus contributes to fine-grained visual classification tasks.

Key words:fine-grained visual classification; knowledge distillation; Transformer; deep learning

0 引言

在計(jì)算機(jī)視覺中,圖像分類是一個(gè)基礎(chǔ)問題,無論在學(xué)術(shù)界還是工業(yè)界都有著廣泛的研究需要和應(yīng)用場(chǎng)景。根據(jù)圖像粒度不同,圖像分類可劃分為粗粒度圖像分類和細(xì)粒度圖像分類。粗粒度圖像分類即傳統(tǒng)意義的圖像分類,如貓和狗屬于不同種類,在類別間存在的類間差距是相當(dāng)明顯的。對(duì)比粗粒度圖像分類,細(xì)粒度圖像分類聚焦于區(qū)分相同大類中多個(gè)附屬子類下的不同對(duì)象[1],如區(qū)分狗的品種[2]、車的款式[3]等。類間差別小和類內(nèi)差別大的特點(diǎn)使得細(xì)粒度圖像分類更具挑戰(zhàn)性。細(xì)粒度圖像分類實(shí)例如圖1所示,該圖表示視覺上相似的狗,其中每行表示一個(gè)種類,要識(shí)別的對(duì)象會(huì)受到背景、光照、遮擋、對(duì)象的姿態(tài)等因素的干擾,從而進(jìn)一步加大了細(xì)粒度圖像分類的難度。為了解決上述問題,大量基于深度學(xué)習(xí)的細(xì)粒度圖像分類方法被提出來,主要分為強(qiáng)監(jiān)督方法[4~7]和弱監(jiān)督方法[8~15]兩大類。強(qiáng)監(jiān)督方法依賴額外的手工信息比如標(biāo)注框(bounding box)、部分信息注釋(part annotation)來獲得識(shí)別對(duì)象的位置和大小,這有助于提高部分特征與全局特征的關(guān)聯(lián),進(jìn)而產(chǎn)生更好的分類效果。然而,由于獲取這些標(biāo)注信息的代價(jià)十分昂貴,從某種程度上限制了這類方法的實(shí)際應(yīng)用。弱監(jiān)督方法只利用圖像級(jí)別的注釋指導(dǎo)模型學(xué)習(xí),即圖像標(biāo)簽,無須手工注釋信息就能自動(dòng)學(xué)習(xí)到區(qū)分性區(qū)域特征,且在性能上逐漸超過了強(qiáng)監(jiān)督學(xué)習(xí)方法,因此,弱監(jiān)督方法逐漸成為細(xì)粒度圖像分類領(lǐng)域的主流方法。

根據(jù)模型框架的不同,弱監(jiān)督方法可劃分為基于CNN(convolutional neural network)的方法[8~12]和基于Transformer的方法[13~15]。基于CNN的方法常用的典型骨架網(wǎng)絡(luò)有ResNet[16]、DenseNet[17]等。這些骨架網(wǎng)絡(luò)的CNN過濾器被視做局部描述器,具有局部性和空間性兩個(gè)屬性,能學(xué)習(xí)圖像的局部區(qū)域并編碼空間信息。在基于CNN框架的基礎(chǔ)上,現(xiàn)有細(xì)粒度圖像分類方法通過注意力機(jī)制作為子模塊來尋找最具區(qū)分性區(qū)域,提出了RA-CNN[10]、MA-CNN[18]、PA-CNN[19]方法。然而,上述方法都存在定位區(qū)域過大、涵蓋背景等干擾信息的問題,且在數(shù)據(jù)集規(guī)模較小的情況下,注意力機(jī)制容易過擬合[1]。在基于Transformer的方法中,Transformer結(jié)構(gòu)的自注意力模塊具有捕獲長(zhǎng)距離依賴的能力,能夠在最初的幾層里定位到圖像的細(xì)微區(qū)別和空間關(guān)系[14],并且Transformer的殘差連接結(jié)構(gòu)能夠有效地將圖像特征從網(wǎng)絡(luò)的較低層傳遞到較高層[20],因此,Transformer自身結(jié)構(gòu)更適用于細(xì)粒度圖像分類任務(wù),使得基于Transformer的方法成為此領(lǐng)域的新興方法。通常,基于Transformer的方法使用ViT[21]作為其骨架網(wǎng)絡(luò),然而,ViT的局限性在于不能同時(shí)兼顧C(jī)NN方法和Transformer方法的優(yōu)點(diǎn)來更全面地學(xué)習(xí)細(xì)粒度圖像特征。

DeiT[22]模型借助知識(shí)蒸餾能實(shí)現(xiàn)同時(shí)結(jié)合CNN方法和Transformer方法的優(yōu)點(diǎn),且在粗粒度圖像分類任務(wù)中獲得巨大成功,然而其在細(xì)粒度圖像分類任務(wù)中的表現(xiàn)尚未被探索。

受此啟發(fā),本文首次將DeiT模型應(yīng)用在細(xì)粒度圖像分類領(lǐng)域,提出基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法(DeiT based on target regions selection,TRS-DeiT)。具體地,本文首先使用細(xì)粒度圖像分類模型TransFG[14]和CAL[12]分別作為教師模型指導(dǎo)DeiT模型做特殊領(lǐng)域數(shù)據(jù)集的任務(wù);其次,為了找到最具區(qū)分性區(qū)域,提出新型目標(biāo)區(qū)域選取模塊,其在注意力權(quán)重上利用綜合性策略充分考慮令牌間的關(guān)系。為了區(qū)分圖像中的易混淆類,本文提出利用對(duì)抗性損失函數(shù)學(xué)習(xí)圖像間的相似度[14]。最后,通過大量任務(wù)集驗(yàn)證本文模型的有效性。本文首次探索將DeiT模型用于細(xì)粒度圖像分類任務(wù)上的蒸餾方法;提出新型目標(biāo)區(qū)域選取模塊(target regions selection module,TRSM)用來選取最具區(qū)分性的區(qū)域,并且能夠去除無關(guān)和干擾區(qū)域。

1 相關(guān)工作

細(xì)粒度圖像分類領(lǐng)域的主要方法包括基于CNN的方法和基于Transformer的方法?;贑NN的方法是經(jīng)典的主流方法,基于Transformer的方法是近年來應(yīng)用在細(xì)粒度圖像分類中相對(duì)較新的方法。本章將詳細(xì)介紹這兩類算法。

1)基于CNN的方法 傳統(tǒng)細(xì)粒度圖像分類方法需要如標(biāo)注框、部分注釋等額外輔助信息幫助模型學(xué)習(xí)圖像特征。如Part-based R-CNN[7]借助R-CNN算法在對(duì)象層面和局部區(qū)域檢測(cè)細(xì)粒度圖像,其需要依賴標(biāo)注框和部分注釋。PS-CNN[5]方法和Mask-CNN[6]方法同樣需要額外標(biāo)注信息完成特征學(xué)習(xí)。此類學(xué)習(xí)方法被劃分為強(qiáng)監(jiān)督方法。然而,由于獲取注釋信息費(fèi)用昂貴,強(qiáng)監(jiān)督方法在實(shí)際應(yīng)用中就受到了限制。目前,細(xì)粒度圖像分類的一個(gè)明顯趨勢(shì)是當(dāng)模型訓(xùn)練只用到圖像級(jí)別的信息而不再使用額外標(biāo)注信息時(shí)也能夠取得與強(qiáng)監(jiān)督方法相當(dāng)或者更高的分類準(zhǔn)確率,即弱監(jiān)督方法。Attention for FGVC[23]是基于GoogLeNet的弱監(jiān)督方法,其在每個(gè)時(shí)間步處理一個(gè)多分辨率圖像補(bǔ)丁,然后利用該圖像補(bǔ)丁更新圖像的表示形式,并與之前的激活值相結(jié)合,輸出下一個(gè)注意點(diǎn)的位置或輸出最終的分類結(jié)果。RA-CNN[10]方法提出新型循環(huán)注意卷積神經(jīng)網(wǎng)絡(luò),使用相互增強(qiáng)的方法遞歸學(xué)習(xí)圖像中重要區(qū)域的注意力和基于此區(qū)域的特征表示。DCL[9]引入destruction and construction機(jī)制打亂圖像的全局結(jié)構(gòu)后又重組來學(xué)習(xí)重要特征。最近,Rao等人[12]提出CAL方法,通過反事實(shí)的因果關(guān)系學(xué)習(xí)注意力,這種反事實(shí)的因果關(guān)系能幫助網(wǎng)絡(luò)衡量注意力質(zhì)量并提供強(qiáng)大的監(jiān)督信號(hào)指導(dǎo)學(xué)習(xí)過程。鑒于CAL在一系列基準(zhǔn)上的良好表現(xiàn),本文將使用該模型作教師模型。上述方法取得了一定的成果,但都存在較大的區(qū)域定位范圍問題,而該范圍包含背景和其他干擾因素,將影響最終分類的準(zhǔn)確性。鑒于細(xì)粒度圖像分類任務(wù)中細(xì)節(jié)的重要性,本文將使用目標(biāo)區(qū)域選取模塊對(duì)準(zhǔn)更加重要和細(xì)微的區(qū)域幫助模型進(jìn)行更好的分類。

2)基于Transformer的方法 TransFG[14]方法首次將Transformer框架應(yīng)用在細(xì)粒度圖像分類上,用ViT[21]作為骨架網(wǎng)絡(luò)并在三個(gè)標(biāo)準(zhǔn)集上的準(zhǔn)確率達(dá)到當(dāng)時(shí)的最新水平,其中ViT模型是谷歌團(tuán)隊(duì)提出用于解決傳統(tǒng)分類任務(wù)的經(jīng)典模型。然而,TransFG用重疊的圖像補(bǔ)丁作為輸入,使得計(jì)算成本過高。本文研究與TransFG有相似之處,如兩者都設(shè)計(jì)子模塊用于尋找圖像中最具區(qū)分性區(qū)域,但骨架網(wǎng)絡(luò)和模塊設(shè)計(jì)都各有不同。FFVT[15]提出基于Transformer框架的特征融合方法,將來自Transformer各層的重要令牌集合在一起,以補(bǔ)償局部、低層和中層信息,稱為相互注意權(quán)重選擇(mutual attention weight selection, MAWS)。PIM[13]設(shè)計(jì)單獨(dú)的插件模塊,可以嵌入到多種常用的骨架網(wǎng)絡(luò)中,包括基于CNN和基于Transformer的網(wǎng)絡(luò)。

3)知識(shí)蒸餾方法(knowledge distillation,KD) 上述提到的方法均不能同時(shí)結(jié)合CNN和Transformer方法的優(yōu)點(diǎn)。針對(duì)此問題,本文嘗試蒸餾模型在細(xì)粒度圖像分類任務(wù)中的可行性,擬借助基于Transformer的學(xué)生模型對(duì)基于CNN的教師模型進(jìn)行知識(shí)蒸餾,從而結(jié)合CNN和Transformer的各自優(yōu)勢(shì)。知識(shí)蒸餾是基于教師—學(xué)生網(wǎng)絡(luò)思想的一種訓(xùn)練方法。Hinton等人[24]首次提出KD訓(xùn)練范式,即學(xué)生模型根據(jù)真實(shí)標(biāo)簽和教師模型給出的軟標(biāo)簽進(jìn)行特征學(xué)習(xí),軟標(biāo)簽是教師模型通過softmax層的輸出。知識(shí)蒸餾能夠?qū)w納偏置(inductive biases)[25]以軟方式的形式傳遞給學(xué)生模型。軟標(biāo)簽的好處在于它包含正標(biāo)簽和負(fù)標(biāo)簽兩種信息,正標(biāo)簽提供分類的正向信息,而負(fù)標(biāo)簽也攜帶豐富信息。如教師模型給出的軟標(biāo)簽?zāi)芨嬖V學(xué)生模型圖像中的小汽車更像垃圾車而不像胡蘿卜,但真實(shí)標(biāo)簽只能提供正向信息。DeiT是基于Transformer框架的知識(shí)蒸餾模型,研究表明使用基于CNN的模型作為教師模型可能會(huì)將歸納偏置傳遞給學(xué)生模型[22]。本文擬借助DeiT優(yōu)勢(shì),將其作為骨架網(wǎng)絡(luò),探索其在細(xì)粒度圖像分類任務(wù)中的可能性,并結(jié)合基于CNN的模型作為教師模型提高整體性能。

2 基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法

本章將詳細(xì)介紹本文所提基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法,TRS-DeiT。其主要包括四部分:a)骨架網(wǎng)絡(luò)DeiT作為本模型框架用于學(xué)習(xí)圖像基本特征;b)知識(shí)蒸餾的模型設(shè)計(jì)用于有效學(xué)習(xí)教師模型知識(shí);c)目標(biāo)區(qū)域選取模塊用于獲取圖像中最具區(qū)分性區(qū)域; d)損失函數(shù)總體設(shè)計(jì)用于高效監(jiān)督模型學(xué)習(xí)。TRS-DeiT模型整體結(jié)構(gòu)如圖2所示,最左側(cè)是模型的輸入,包括圖像補(bǔ)?。╥mage patches)和兩個(gè)額外的令牌,即分類令牌(class token)和蒸餾令牌(distillation token);中間是骨架網(wǎng)絡(luò)DeiT,在倒數(shù)第二層插入目標(biāo)區(qū)域選取模塊;最右側(cè)是通過分類令牌和蒸餾令牌對(duì)三個(gè)損失函數(shù)值進(jìn)行計(jì)算。

2.1 骨架網(wǎng)絡(luò)DeiT介紹

本文最大的創(chuàng)新在于首次將蒸餾型Transformer方法用于細(xì)粒度圖像分類任務(wù)中,使用教師模型指導(dǎo)學(xué)生模型完成分類任務(wù)。DeiT在傳統(tǒng)圖像分類領(lǐng)域性能超過ViT達(dá)到最新性能,本文將探索DeiT在細(xì)粒度圖像分類中的可行性,并使用DeiT作為骨架網(wǎng)絡(luò)完成蒸餾模型設(shè)計(jì)。

DeiT模型以Transformer為框架,包含L層Transformer層,每層Transformer包括多頭注意力(multi-head self-attention,MHSA)和前饋神經(jīng)網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)。除補(bǔ)丁令牌外,輸入令牌還包括分類令牌和蒸餾令牌,它們都是可訓(xùn)練向量,分類令牌在首層Transformer前被附加到輸入令牌中,并在每個(gè)Transformer層與其他令牌交互,最后分類令牌通過線性層計(jì)算后得到最終預(yù)測(cè)結(jié)果。蒸餾令牌是為了做知識(shí)蒸餾任務(wù)添加的令牌,它的功能與分類令牌類似也是與其他令牌交互,但其目標(biāo)是讓DeiT學(xué)習(xí)教師模型的知識(shí),并復(fù)現(xiàn)教師模型的預(yù)測(cè)結(jié)果。DeiT使用的教師模型有卷積神經(jīng)網(wǎng)絡(luò)教師模型和Transformer教師模型兩種類型。DeiT的實(shí)驗(yàn)發(fā)現(xiàn),使用卷積神經(jīng)網(wǎng)絡(luò)教師模型比使用Transformer得到更好的性能表現(xiàn),其原因在于蒸餾過程中Transformer所繼承的來自卷積神經(jīng)網(wǎng)絡(luò)教師模型的歸納偏置。因此,本文采用DeiT作為骨架網(wǎng)絡(luò),用蒸餾方法實(shí)現(xiàn)同時(shí)利用CNN模型和Transformer模型的優(yōu)勢(shì)。DeiT的計(jì)算過程如下:給定輸入圖像,首先將其預(yù)處理成一系列圖像補(bǔ)丁,輸入圖像尺寸用H×W表示,補(bǔ)丁尺寸用P來表示。圖像補(bǔ)丁的數(shù)量可表示為

N=H×WP2(1)

3 實(shí)驗(yàn)結(jié)果及分析

本章通過實(shí)驗(yàn)驗(yàn)證本文模型中知識(shí)蒸餾方法、目標(biāo)區(qū)域選取模塊和對(duì)抗損失函數(shù)及其組合對(duì)TRS-DeiT模型分類準(zhǔn)確率的貢獻(xiàn)。具體地,本文在三個(gè)國(guó)際標(biāo)準(zhǔn)細(xì)粒度圖像數(shù)據(jù)集上與已有先進(jìn)的細(xì)粒度圖像分類方法進(jìn)行比較,并分析實(shí)驗(yàn)結(jié)果。通過消融實(shí)驗(yàn)驗(yàn)證知識(shí)蒸餾方法、對(duì)抗損失函數(shù)和目標(biāo)區(qū)域選取模塊對(duì)模型準(zhǔn)確率的貢獻(xiàn)度。最后通過可視化注意力權(quán)重展示不同模型的注意力分布情況,從而進(jìn)一步證明目標(biāo)區(qū)域選取模塊的有效性。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文選取三個(gè)經(jīng)典的細(xì)粒度圖像分類數(shù)據(jù)集驗(yàn)證TRS-DeiT模型的有效性,分別是CUB-200-2011[27] 、Stanford Cars[3] 、Stanford Dogs[2] 。 CUB-200-2011數(shù)據(jù)集包含11 788張鳥類圖片共200個(gè)類;Stanford Cars數(shù)據(jù)集包含來自196個(gè)類的16 185張車的圖片;Stanford Dogs數(shù)據(jù)集包含20 580張狗的照片共120個(gè)類別,各數(shù)據(jù)集具體信息如表1所示。

3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

為了建模TRS-DeiT,本文采用DeiT-B作為本模型的骨架網(wǎng)絡(luò),并加載官方DeiT-B模型的預(yù)訓(xùn)練權(quán)重[22]。本模型的訓(xùn)練使用兩塊NVIDIA RTX 2080 GPU,在PyTorch平臺(tái)上進(jìn)行實(shí)驗(yàn)。

訓(xùn)練參數(shù)設(shè)置:數(shù)據(jù)集的圖像尺寸調(diào)整為統(tǒng)一的448像素×448像素,數(shù)據(jù)增強(qiáng)方法為隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)銳度、歸一化。CUB-200-2011和Stanford Cars數(shù)據(jù)集的學(xué)習(xí)率均設(shè)置為0.003,Stanford Dogs數(shù)據(jù)集的學(xué)習(xí)率設(shè)置為0.000 5,學(xué)習(xí)率調(diào)度器設(shè)置為step,訓(xùn)練優(yōu)化器設(shè)置為AdamW,批大?。╞atch size)設(shè)置為4,整個(gè)訓(xùn)練過程最大迭代次數(shù)為100。根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)驗(yàn)證,在CUB-200-2011和Stanford Cars數(shù)據(jù)集上,蒸餾損失函數(shù)閾值α均設(shè)置為0.5,在Stanford Dogs數(shù)據(jù)集上,α設(shè)為0.1,在三個(gè)數(shù)據(jù)集上對(duì)抗損失函數(shù)的β閾值均設(shè)為0.4。

測(cè)試參數(shù)設(shè)置:批大小設(shè)為4,圖像尺寸調(diào)整為448像素×448像素,統(tǒng)一將圖像標(biāo)準(zhǔn)化。

教師模型設(shè)置:在CUB-200-2011數(shù)據(jù)集上,分別測(cè)試基于CNN的教師模型CAL[12]和基于Transformer的教師模型TransFG[14]的表現(xiàn),并分析兩種教師模型的優(yōu)劣。最終,鑒于CAL作為教師模型在CUB-200-2011任務(wù)中的突出表現(xiàn),在Stanford Cars和Stanford Dogs數(shù)據(jù)集上只選擇CAL作為教師模型。

3.3 性能對(duì)比實(shí)驗(yàn)

本文模型在數(shù)據(jù)集CUB-200-2011、Stanford Cars、Stanford Dogs上完成訓(xùn)練和測(cè)試,并與其他同期先進(jìn)方法進(jìn)行準(zhǔn)確率的比較。

在CUB-200-2011數(shù)據(jù)集上對(duì)比不同方法,所得準(zhǔn)確率如表2所示。本文模型TRS-DeiT對(duì)比基準(zhǔn)網(wǎng)絡(luò)DeiT提升1.9%,與其他基于Transformer的模型相比,精度略低,但超過基于CNN的模型和DeiT模型。原因分析如下:TransFG采用重疊的補(bǔ)丁作為輸入,且骨架網(wǎng)絡(luò)ViT的準(zhǔn)確率比DeiT高1.4%,因此更適合做該數(shù)據(jù)集任務(wù)。PIM的骨架網(wǎng)絡(luò)模型Swin Transfor-mer[28]在基本框架Transformer中加入了CNN結(jié)構(gòu),這無疑引入了更多的模型參數(shù),結(jié)構(gòu)更為復(fù)雜,骨架網(wǎng)絡(luò)Swin Transformer在該數(shù)據(jù)集的準(zhǔn)確率高達(dá)91.9%。然而,上述兩個(gè)方法都需要較高的計(jì)算和時(shí)間消耗。與此相比,本文模型結(jié)構(gòu)保持了簡(jiǎn)單性,只使用Transformer框架,具有更低的計(jì)算復(fù)雜度。FFVT方法的重要區(qū)域選取模塊更為復(fù)雜,在每層Transformer均需要進(jìn)行特征區(qū)域選取,而本文模型只需做一次選取。因此,本模型在CUB-200-2011數(shù)據(jù)集上以較簡(jiǎn)單的模型結(jié)構(gòu)和較低的計(jì)算復(fù)雜度的前提下,獲得了相對(duì)優(yōu)勢(shì)的性能結(jié)果。

TRS-DeiT模型與其他方法在Stanford Cars數(shù)據(jù)集上的準(zhǔn)確率對(duì)比結(jié)果如表3所示,本方法對(duì)比DeiT有1.2%的提高,對(duì)比TransFG有0.2%的提高。準(zhǔn)確率沒有超過教師模型CAL的原因可能是Cars數(shù)據(jù)集不同于其他兩個(gè)數(shù)據(jù)集,分類效果更多依賴全局特征,而本文所提模型TRS-DeiT更專注于局部細(xì)微區(qū)域。以Transformer為框架的模型中,本文模型表現(xiàn)最佳。

相比于上述兩個(gè)數(shù)據(jù)集,Stanford Dogs數(shù)據(jù)集有相對(duì)多的圖像和相對(duì)少的類別數(shù),這有利于模型訓(xùn)練。通過表4結(jié)果可見,本文所提模型TRS-DeiT取得了最好的性能結(jié)果(95.1%),其中基線模型DeiT表現(xiàn)相當(dāng)(94.0%)。上述結(jié)果表明骨架網(wǎng)絡(luò)的選擇對(duì)細(xì)粒度圖像分類任務(wù)的準(zhǔn)確性有重要影響,這與PIM[13] 的觀察結(jié)果一致。

綜上所述,本文模型TRS-DeiT在三個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了90.8%、95%和95.1%的良好性能結(jié)果,表明本文所提模型的有效性。

3.4 消融實(shí)驗(yàn)

本節(jié)通過消融實(shí)驗(yàn)驗(yàn)證知識(shí)蒸餾方法、目標(biāo)區(qū)域選取模塊和對(duì)抗損失函數(shù)對(duì)模型準(zhǔn)確率的貢獻(xiàn)度,同時(shí)展示本模型與其他模型的計(jì)算復(fù)雜度對(duì)比情況。

首先,以CUB-200-2011數(shù)據(jù)集作為任務(wù),研究不同框架模型作為教師模型對(duì)最終性能的影響,其中以TransFG方法作為Transformer模型的代表,CAL方法作為CNN模型的代表,如表5所示(正確率指左側(cè)對(duì)應(yīng)模型的正確率),TransFG模型作為教師模型,最終結(jié)果相對(duì)來說沒有顯著提升,而CAL作為教師模型,結(jié)果具有0.2%的相對(duì)提升,原因可能是TransFG作為教師模型提供知識(shí)有限,CAL作為教師模型給學(xué)生模型傳遞了歸納偏置知識(shí)。

為了分析本文構(gòu)建的目標(biāo)區(qū)域選取模塊的有效性,本文對(duì)CUB-200-2011、Stanford Cars、Stanford Dogs數(shù)據(jù)集進(jìn)行可視化,結(jié)果如圖4所示,分別展示了三個(gè)模式的三類圖像。第一行表示原始圖像,第二行和第三行借助熱力圖分別展示基線模型DeiT以及本文模型TRS-DeiT在圖像上的注意力權(quán)重值,顏色越鮮艷的地方表示注意力權(quán)重越大,通過觀察可見,基線模型DeiT的注意力遍布在圖像的識(shí)別對(duì)象和背景上,而本文模型TRS-DeiT的注意力更關(guān)注識(shí)別對(duì)象,其專注于區(qū)分性區(qū)域而去除了對(duì)背景等區(qū)域的關(guān)注。圖中第一列的圖片來自CUB數(shù)據(jù)集,本文模型的注意力專注于重要區(qū)域如鳥的頭部、頸部和腳,在Stanford Cars和Stanford Dogs數(shù)據(jù)集可以發(fā)現(xiàn)同樣的現(xiàn)象。

為了進(jìn)一步分析目標(biāo)區(qū)域選取模塊對(duì)本文模型所做貢獻(xiàn),筆者觀察了準(zhǔn)確率的消融實(shí)驗(yàn)結(jié)果,如表6所示,添加目標(biāo)區(qū)域選取模塊后,準(zhǔn)確率從90.6%提升到了90.8%,結(jié)合圖4可視化結(jié)果,進(jìn)一步說明本模型確實(shí)選取了圖像中的重要區(qū)域。表6中,KD表示知識(shí)蒸餾方法;CL表示對(duì)抗損失函數(shù);TRSM表示目標(biāo)區(qū)域選取模塊。此外,添加知識(shí)蒸餾模塊和對(duì)抗損失函數(shù)后本模型的準(zhǔn)確率分別提升1.4%和0.3%,可以得出兩部分是有效可行的,且能帶來微幅提升。

不同模型的復(fù)雜度分析如表7所示。TRS-DeiT在參數(shù)量與基線模型ViT-B和DeiT相當(dāng)?shù)那疤嵯拢瑴?zhǔn)確率分別提高0.5%和1.9%,計(jì)算量降低了約6 G;在參數(shù)量與TransFG相當(dāng)?shù)那疤嵯?,?jì)算量降低了47.4 G;與PIM模型相比,參數(shù)量與計(jì)算量都遠(yuǎn)遠(yuǎn)小于PIM模型。因此,本文模型在參數(shù)量和計(jì)算量上總體優(yōu)于其他基于Transformer的基線模型。

本文方法僅使用圖像標(biāo)簽作為訓(xùn)練標(biāo)簽,在弱監(jiān)督下通過端到端的訓(xùn)練得到分類結(jié)果。表2~4的實(shí)驗(yàn)結(jié)果可得本文模型分類準(zhǔn)確率有著不低于傳統(tǒng)方法的效果。表5、6和圖4的消融實(shí)驗(yàn)可得本文所提模型各組成部分對(duì)提高模型分類準(zhǔn)確率是有效的,表7模型復(fù)雜度分析可知本模型在參數(shù)量和計(jì)算量總體優(yōu)于以Transformer為框架的模型。

4 結(jié)束語

本文提出知識(shí)蒸餾和目標(biāo)區(qū)域選取模塊相結(jié)合的細(xì)粒度圖像分類方法TRS-DeiT。所提方法借助知識(shí)蒸餾結(jié)合CNN模型和Transformer模型的各自優(yōu)勢(shì),更好地學(xué)習(xí)細(xì)粒度圖像的潛在特征。此外,針對(duì)細(xì)粒度圖像分類任務(wù)中存在的類間差距小和類內(nèi)差距大的問題,在模型中插入目標(biāo)區(qū)域選取模塊選取最具區(qū)分性區(qū)域,同時(shí)通過在損失函數(shù)中引入對(duì)抗性損失函數(shù)讓模型關(guān)注不同類別圖像間的區(qū)別和同種類別圖像間的相似性,從而有效監(jiān)督模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明本文方法在CUB-200-2011、Stanford Cars和Stanford Dogs數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了90.8%、95%、95.1%,優(yōu)于對(duì)比模型,可視化分析結(jié)果進(jìn)一步表明本文模型選取了圖像中的重要區(qū)域而排除無關(guān)區(qū)域的干擾,從而使得本文方法在處理細(xì)粒度圖像分類任務(wù)上更具優(yōu)勢(shì)。本文方法在知識(shí)蒸餾過程中,教師模型會(huì)極大程度地影響學(xué)生模型的結(jié)果。針對(duì)此問題,如何進(jìn)一步優(yōu)化知識(shí)蒸餾模型,打破教師模型的限制,從而進(jìn)一步提高模型準(zhǔn)確率,是未來工作的重要研究?jī)?nèi)容。

參考文獻(xiàn):

[1]Wei Xiushen, Song Yizhe, Mac Aodha O, et al. Fine-grained image analysis with deep learning: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2021,44(12): 8927-8948.

[2]Khosla A, Jayadevaprakash N, Yao Bangpeng, et al. Novel dataset for fine-grained image categorization: Stanford Dogs[C]//Proc of CVPR Workshop on Fine-grained Visual Categorization. Piscataway NJ: IEEE Press, 2011: 3-8.

[3]Krause J, Stark M, Deng Jia, et al. 3D object representations for fine-grained categorization[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2013: 554-561.

[4]羅建豪, 吳建鑫. 基于深度卷積特征的細(xì)粒度圖像分類研究綜述[J]. 自動(dòng)化學(xué)報(bào), 2017,43(8): 1306-1318. (Luo Jianhao, Wu Jianxin. A survey on fine-grained image categorization using deep convolution features[J]. Acta Automatica Sinica, 2017,43(8): 1306-1318.)

[5]Huang Shaoli, Xu Zhe, Tao Dacheng, et al. Part-stacked CNN for fine-grained visual categorization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2016: 1173-1182.

[6]Wei Xiushen, Xie Chenwei, Wu Jianxin. Mask-CNN: localizing parts and selecting descriptors for fine-grained bird species categorization[J]. Pattern Recognition, 2018,76(4): 704-714.

[7]Zhang Ning, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2014: 834-849.

[8]毛志榮, 都云程, 肖詩斌, 等. 基于ECA-Net與多尺度結(jié)合的細(xì)粒度圖像分類方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2021,38(11): 3484-3488. (Mao Zhirong, Du Yuncheng, Xiao Shibin, et al. Fine-grained image classification method based on ECA-Net and multi-scale[J]. Application Research of Computers, 2021,38(11): 3484-3488.)

[9]Chen Yue, Bai Yalong, Zhang Wei, et al. Destruction and construction learning for fine-grained image recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 5157-5166.

[10]Fu Jianlong, Zheng Heliang, Mei Tao. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2017: 4438-4446.

[11]Zheng Heliang, Fu Jianlong, Zha Zhengjun, et al. Learning deep bilinear transformation for fine-grained image representation[J]. Advances in Neural Information Processing Systems, 2019,32: 4277-4286.

[12]Rao Yongming, Chen Guangyi, Lu Jiwen, et al. Counterfactual attention learning for fine-grained visual categorization and re-identification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2021: 1025-1034.

[13]Chou Poyung, Lin Chenghung, Kao Wenchung. A novel plug-in module for fine-grained visual classification[EB/OL]. (2022-02-08).https://arxiv.org/pdf/2202. 03822.

[14]He Ju, Chen Jieneng, Liu Shuai, et al. TransFG: a transformer architecture for fine-grained recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 852-860.

[15]Wang Jun, Yu Xiaohan, Gao Yongsheng. Feature fusion vision Transformer for fine-grained visual categorization[EB/OL]. (202202-28). https://arxiv.org/pdf/2107.02341.

[16]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2016: 770-778.

[17]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2017: 4700-4708.

[18]Zheng Heliang, Fu Jianlong, Mei Tao, et al. Learning multi-attention convolutional neural network for fine-grained image recognition[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 5209-5217.

[19]Zheng Heliang, Fu Jianlong, Zha Zhengjun, et al. Learning rich part hierarchies with progressive attention networks for fine-grained image recognition[J]. IEEE Trans on Image Processing, 2019,29: 476-488.

[20]Raghu M, Unterthiner T, Kornblith S, et al. Do vision transformers see like convolutional neural networks?[J]. Advances in Neural Information Processing Systems, 2021,34: 12116-12128.

[21]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021-01-03). https://arxiv.org/pdf/2010.11929.

[22]Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[C]//Proc of International Conference on Machine Learning. 2021: 10347-10357.

[23]Sermanet P, Frome A, Real E. Attention for fine-grained categorization[C]//Proc of International Conference on Learning Representations. 2015.

[24]Hinton G,Vinyals O,Dean J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09) https://arxiv.org/pdf/1503.02531.

[25]Abnar S, Dehghani M, Zuidema W. Transferring inductive biases through knowledge distillation[EB/OL]. (2020-10-04) https://arxiv.org/pdf/2006. 00555.

[26]Abnar S, Zuidema W. Quantifying attention flow in Transformers[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 4190-4197.

[27]Wah C,Branson S,Welinder P, et al.The Caltech-UCSD birds-200-2011 dataset,CNS-TR-2011-001[R]. Pasadena, CA: California Institute of Technology, 2011.

[28]Liu Ze, Lin Yutong, Cao Yue, et al. Swin Transformer:hierarchical vision Transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2021: 10012-10022.

[29]Ji Ruyi, Wen Longyin, Zhang Libo, et al. Attention convolutional binary neural tree for fine-grained visual categorization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway NJ: IEEE Press, 2020: 10468-10477.

[30]Du Ruoyi, Chang Dongliang, Bhunia A K, et al. Fine-grained visual classification via progressive multi-granularity training of jigsaw patches[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 153-168.

[31]Zhuang Peiqin, Wang Yali, Qiao Yu. Learning attentive pairwise interaction for fine-grained classification[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 13130-13137.

[32]Luo Wei, Yang Xitong, Mo Xianjie, et al. Cross-x learning for fine-grained visual categorization[C]//Proc of IEEE/CVF International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2019: 8242-8251.

[33]Hu Tao, Qi Honggang, Huang Qingming, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification[EB/OL]. (2019-03-23). https://arxiv.org/pdf/1901.09891.

收稿日期:2022-12-04;修回日期:2023-02-01? 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61976156);天津市企業(yè)科技特派員項(xiàng)目(20YDTPJC00560)

作者簡(jiǎn)介:趙婷婷(1986-),女(通信作者),內(nèi)蒙古赤峰人,副教授,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)算法、強(qiáng)化學(xué)習(xí)及機(jī)器人控制(tingting@tust.edu.cn);高歡(1994-),女,河北唐山人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像分類;常玉廣(1997-),男,河北張家口人,碩士研究生,主要研究方向?yàn)閳D像處理、跨模態(tài)圖文檢索;陳亞瑞(1982-),女,河北邢臺(tái)人,教授,碩導(dǎo),主要研究方向?yàn)楦怕蕡D模型、機(jī)器學(xué)習(xí)算法及近似推理算法等;王嫄(1989-),女,山西萬榮人,教授,碩導(dǎo),主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及自然語言處理等;楊巨成(1980-),男,湖北天門人,教授,博導(dǎo),主要研究方向?yàn)閳D像處理、生物識(shí)別、模式識(shí)別及神經(jīng)網(wǎng)絡(luò)等.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
大英县| 都兰县| 明水县| 莆田市| 吴桥县| 六枝特区| 射洪县| 虎林市| 改则县| 宁晋县| 武汉市| 玛多县| 东阳市| 济阳县| 清新县| 灵台县| 南开区| 朝阳县| 康保县| 英吉沙县| 融水| 清镇市| 邵武市| 高碑店市| 哈密市| 穆棱市| 皋兰县| 新化县| 馆陶县| 叙永县| 威宁| 宿迁市| 桂平市| 青河县| 昆山市| 安陆市| 崇州市| 衡阳市| 抚顺县| 吴堡县| 九江市|