摘 要:在小樣本分類任務(wù)中,現(xiàn)有的CNN模型存在特征提取不足、特征單一和小樣本數(shù)據(jù)集類間差異化較弱的問題,導(dǎo)致分類精度較低。針對以上問題,提出一種融合多粒度注意力特征(fusion multi-granular attention feature,F(xiàn)MAF)的小樣本分類模型。首先,該方法借鑒多粒度思想,重新設(shè)計CNN特征提取網(wǎng)絡(luò)的架構(gòu)來增強(qiáng)特征多樣性;其次,在多粒度特征提取網(wǎng)絡(luò)后添加自注意力層,提取多粒度圖像特征中的關(guān)鍵特征,在多粒度注意力特征的基礎(chǔ)上,借助特征融合方法融合多粒度注意力特征信息,突出關(guān)鍵特征,提高特征的表征力;最后,在兩個經(jīng)典的小樣本數(shù)據(jù)集miniImageNet和tieredImageNet上進(jìn)行了評估。實(shí)驗(yàn)結(jié)果表明,F(xiàn)MAF方法能有效提升分類的準(zhǔn)確度和效率。
關(guān)鍵詞:小樣本學(xué)習(xí);多粒度特征融合;自注意力機(jī)制;標(biāo)簽傳播
中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)07-045-2235-06
doi: 10.19734/j.issn.1001-3695.2023.09.0513
Few-shot classification model incorporating multi-granular attention features
Abstract: In the few-shot classification tasks, existing CNN models suffer from insufficient feature extraction, limited feature diversity and weak differentiation between classes in few-shot datasets, leading to low classification accuracy. To address these issues, this paper proposed a few-shot classification model called FMAF. Firstly, this method incorporated multi-granularity thought into the architecture of CNN feature extraction network to enhance feature diversity. Secondly, after the multi-granular feature extraction network, FMAF added a self-attention layer to extract key features from the multi-granular image features, based on the multi-granular attention features, FMAF employed a feature fusion method to combine the information from multiple-granularity attention features, highlighted the crucial features and improved feature representativeness. Finally, this paper utilized two classical few-shot datasets for experimental verification on miniImageNet and tieredImageNet. Experimental results show that FMAF method can effectively improve the accuracy and efficiency of classification.
Key words:FSL; multi-granular feature fusion; self-attention mechanism; label propagation
0 引言
近年來,深度學(xué)習(xí)在計算機(jī)各個領(lǐng)域都有較大突破,尤其是在計算機(jī)視覺、語音識別以及文本分類等領(lǐng)域,但對于某些特定領(lǐng)域,例如醫(yī)學(xué)上罕見疾病的診斷[1]、生物學(xué)上瀕危動物的保護(hù)研究[2]等難以獲取到真實(shí)有效的數(shù)據(jù)集,即使擁有充足的數(shù)據(jù),但對數(shù)據(jù)進(jìn)行標(biāo)注亦費(fèi)時費(fèi)力。受到人類快速學(xué)習(xí)能力的啟發(fā),更多的研究者開始轉(zhuǎn)向研究如何在少量樣本的情況下進(jìn)行圖像分類,即小樣本圖像分類(few-shot image classification, FSIC)[3]。由于小樣本本身數(shù)據(jù)不足以及數(shù)據(jù)集中存在類別高度相近的種類,如何從少量圖像樣本中挖掘豐富的特征信息以及提高類內(nèi)和類間的判別性,成為FSIC研究的難點(diǎn)?,F(xiàn)有FSIC方法[4]可以分為基于度量學(xué)習(xí)和基于元學(xué)習(xí)兩大類。
基于度量學(xué)習(xí)的FSIC方法借助了度量函數(shù)建模支持集(support sets)樣本與查詢集(query sets)樣本之間的相似關(guān)系[5]。該方法通過特征提取將支持集與查詢集樣本映射到公共特征空間,通過不同的度量函數(shù),如余弦距離、歐氏距離等,計算查詢集樣本與支持集樣本特征向量的相似度,以完成分類。起初,研究者著重把小樣本學(xué)習(xí)的研究中心放在特征提取網(wǎng)絡(luò)模型的設(shè)計上,相繼提出了孿生神經(jīng)網(wǎng)絡(luò)(S-Net)[6]、匹配網(wǎng)絡(luò)(M-Net)[7]、原型網(wǎng)絡(luò)(P-Net)[8]等。以上研究所設(shè)計的網(wǎng)絡(luò)在最終的距離度量上均使用了固定的度量方式,所有學(xué)習(xí)的過程均發(fā)生在樣本的embedding階段?;趯Χ攘糠绞皆诜诸愔兄匾缘目剂?,Sung等人[9]提出關(guān)系網(wǎng)絡(luò)(R-Net),通過淺層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)非線性距離度量,打破單一且固定的距離度量方式。Li等人[10]提出協(xié)方差度量網(wǎng)絡(luò)(CovaMNet),通過提高支持樣本類的精確表示,合理度量支持樣本與查詢樣本的相似度。通過分析文獻(xiàn)[6~10]不難發(fā)現(xiàn),基于度量的方法更傾向于對樣本對間的距離進(jìn)行建模,未解決小樣本實(shí)際存在的“類間類內(nèi)差異性小”的情況。
基于元學(xué)習(xí)的FSIC方法,采用元任務(wù)機(jī)制進(jìn)行知識遷移,輔助模型在新任務(wù)中更快、更準(zhǔn)確地獲取分類結(jié)果。早期,Santoro等人[11]提出記憶增強(qiáng)的神經(jīng)網(wǎng)絡(luò),主要用于解決單樣本學(xué)習(xí)問題。隨后,F(xiàn)inn等人[12]和Ravi等人[13]將長短期記憶網(wǎng)絡(luò)(LSTM)作為優(yōu)化器,學(xué)習(xí)較好的初始化參數(shù),使模型能在新的小樣本數(shù)據(jù)上快速收斂。早期研究停留在基本優(yōu)化算法及淺層特征的層面,未涉及如何提取更有效的特征。隨后,Li等人[14]提出深度最近鄰神經(jīng)網(wǎng)絡(luò)(DN4),著重關(guān)注最優(yōu)深度局部信息。Xue等人[15]提出區(qū)域比較網(wǎng)絡(luò)(RCN),通過學(xué)習(xí)注意權(quán)重的方法模擬人的視覺系統(tǒng)對圖片的感知能力,開始關(guān)注圖片中關(guān)鍵局部信息。李曉旭等人[16]提出注意力全關(guān)系網(wǎng)絡(luò)(ATRNet)。王曉茹等人[17]提出先空間后通道注意力網(wǎng)絡(luò)(AMGC)。文獻(xiàn)[14~17]設(shè)計的網(wǎng)絡(luò)模型開始關(guān)注局部特征信息及圖像中關(guān)鍵部位的特征信息,使小樣本低數(shù)據(jù)造成的特征信息不足的問題有所緩解。受到小樣本目標(biāo)分割領(lǐng)域中多尺度思想的影響,Chen等人[18]提出多尺度自適應(yīng)網(wǎng)絡(luò)(MATANet),Yu等人[19]提出回溯網(wǎng)絡(luò)(LB-Net),汪航等人[20]提出多尺度特征生成網(wǎng)絡(luò)(MSLPN),通過多尺度特征信息進(jìn)行關(guān)系度量學(xué)習(xí),對特征提取器輸出層信息進(jìn)行多尺度劃分,在少量樣本中提取更豐富的特征,增強(qiáng)了模型的分類性能。
綜合以上文獻(xiàn)分析得出,現(xiàn)有小樣本學(xué)習(xí)中存在以下幾點(diǎn)不足:a)現(xiàn)有特征提取網(wǎng)絡(luò)僅僅使用深層次細(xì)粒度特征信息,忽視了淺層次粗粒度特征中的細(xì)節(jié)、位置信息對分類的作用;b)FSIC方法在提取多尺度特征信息后采用簡單拼接融合的方式,忽略了各層次特征對分類結(jié)果貢獻(xiàn)程度之間存在的差異性;c)FSIC數(shù)據(jù)集中含有多個類別高度相似的樣本,以往研究對類間和類內(nèi)的可區(qū)分性未進(jìn)行有效處理,導(dǎo)致樣本被錯誤分類,從而降低準(zhǔn)確率。
基于以上小樣本學(xué)習(xí)中的問題,本文貢獻(xiàn)如下:a)針對現(xiàn)有特征網(wǎng)絡(luò)提取特征不足、特征單一的問題,設(shè)計一種多粒度注意力特征提取網(wǎng)絡(luò),提取圖像的粗粒度和細(xì)粒度特征信息,同時借助注意力機(jī)制提高圖像關(guān)鍵特征的表征力;b)針對現(xiàn)有特征融合方式的局限性,設(shè)計一種加權(quán)融合機(jī)制,根據(jù)不同粒度層中特征對結(jié)果的貢獻(xiàn),設(shè)置最優(yōu)權(quán)值融合淺層粗粒度特征與深層細(xì)粒度特征;c)小樣本數(shù)據(jù)集本身存在類間差異小的情況,為此引入標(biāo)簽傳播算法,加強(qiáng)類內(nèi)樣本的相似性,拉大類間樣本的差異性,提高模型的分類準(zhǔn)確度。
1 融合多粒度注意力特征的小樣本分類算法
FMAF小樣本分類模型架構(gòu)如圖1所示。該網(wǎng)絡(luò)由多粒度注意力特征融合模塊、細(xì)粒度特征分支、標(biāo)簽傳播模塊、分類策略模塊組成。其核心在于:多粒度注意力特征提取融合模塊,借助多粒度注意力融合模塊提取多組多粒度的關(guān)鍵特征,每組特征均可以單獨(dú)表示其提取圖像的特征;細(xì)粒度特征分支的設(shè)計保留了圖像最細(xì)粒度的信息,同時彌補(bǔ)分類結(jié)果嚴(yán)重依靠多粒度特征,平衡最終的分類結(jié)果;標(biāo)簽傳播模塊借助相似性度量函數(shù)計算每組特征中所提取的支持集與查詢集樣本特征之間的相似性,隨后使用標(biāo)簽傳播算法完成對未知樣本的預(yù)測任務(wù);最后通過分類模塊將所有組的分類結(jié)果進(jìn)行融合,得到最終的分類結(jié)果。
1.1 小樣本問題定義
現(xiàn)有小樣本學(xué)習(xí)中,所有數(shù)據(jù)集均劃分為訓(xùn)練集、驗(yàn)證集、測試集,且三個數(shù)據(jù)集中所含類別不交叉。小樣本學(xué)習(xí)主要按照N-way K-shot的范式進(jìn)行學(xué)習(xí)。在訓(xùn)練階段,N-way K-shot表示隨機(jī)從訓(xùn)練集中選取N個類別數(shù)據(jù),每類中抽取K個樣本作為支持集,共有N×K個標(biāo)注樣本;然后從N個類別剩余樣本中選取q個樣本作為查詢集,共有q×N個樣本,1個支持集S加1個查詢集Q構(gòu)成一個元任務(wù)T。同樣地,驗(yàn)證集和測試集數(shù)據(jù)同樣按照該標(biāo)準(zhǔn)劃分,借助N×K個支持集樣本對所有查詢集樣本進(jìn)行分類,這便是小樣本學(xué)習(xí)問題。其中,支持集S、查詢集Q及任務(wù)T定義如式(1)所示。
S={xjn,yin)|i=1,2,…,K;n=1,2,…,N}
Q={(xjn)|j=1,2,…,q;n=1,2,…,N}
T={S,Q}(1)
其中:x和y表示圖像和圖像標(biāo)簽。
1.2 多粒度注意力特征提取融合網(wǎng)絡(luò)
現(xiàn)有FSIC模型使用的特征提取網(wǎng)絡(luò)大多為Conv64、ResNet12[21]和MSLPN,均只用特征提取網(wǎng)絡(luò)的最后一層輸出作為最終分類的依據(jù),忽略了淺層特征對分類結(jié)果的影響,從而導(dǎo)致網(wǎng)絡(luò)特征提取不足、特征單一的問題。為了獲取小樣本圖像中豐富的特征信息,提高圖像分類的準(zhǔn)確率,本文重新設(shè)計一種多粒度注意力特征融合網(wǎng)絡(luò),與CNN其他變體網(wǎng)絡(luò)不同,該網(wǎng)絡(luò)不僅考慮網(wǎng)絡(luò)深層次與淺層次信息,
同時抽取每層中不同粒度的圖像特征,網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)的實(shí)現(xiàn)由兩個階段組成,第一階段為多粒度注意力特征提取(multi-granular attention features,MAF),第二階段為特征融合。
在MAF階段,本文選取Conv64作為多粒度注意力特征提取階段的骨干網(wǎng)絡(luò),對比ResNet12和MSLPN而言,Conv64更輕量,更適合少量樣本的分類學(xué)習(xí),其網(wǎng)絡(luò)結(jié)構(gòu)如圖3(a)所示,MSLPN結(jié)構(gòu)如圖3(b)所示。在目標(biāo)檢測領(lǐng)域,Liu等人[22]設(shè)計了一種SSD網(wǎng)絡(luò)結(jié)構(gòu),從網(wǎng)絡(luò)不同層提取多尺度特征信息,如圖3(c)所示。Hu等人[23]和華杰等人[24]提出特征金字塔網(wǎng)絡(luò)(FPN),通過自上而下和跳躍連接的方法提取目標(biāo)中多層級中強(qiáng)語義信息,有效提升檢測精度,其結(jié)構(gòu)如圖3(d)所示。受小樣本目標(biāo)檢測任務(wù)中特征提取網(wǎng)絡(luò)的設(shè)計方法及粒計算研究中粒度[25]思想的啟發(fā),重新設(shè)計Conv64特征提取網(wǎng)絡(luò),所設(shè)計的多粒度注意力特征提取網(wǎng)絡(luò)如圖3(e)所示。其中,根據(jù)粒度的劃分標(biāo)準(zhǔn),將Gra-layer1、Gra-layer2、Gra-layer3分別定義為粗粒度層、中間過渡層、細(xì)粒度層,將Conv3×3、Conv5×5、Conv7×7三種不同尺寸的卷積核定義粒子粒化的比例。比如:Conv3×3代表針對當(dāng)前粒度層進(jìn)行一次?;壤秊?×3的卷積操作。從粗粒度層到細(xì)粒度層、從大粒子到小粒子,逐層、逐粒地進(jìn)行特征提取,讓模型能夠充分學(xué)習(xí)到圖像不同粒度層之間的信息,以及每個粒度層下不同大小粒子的像素信息,減少卷積過程中有效特征信息的丟失。為獲取圖像中的關(guān)鍵特征信息,減少冗余信息干擾的同時保留多樣化的圖像特征信息,本文在多粒度特征提取后添加一層自注意力機(jī)制。
其次,計算query和key兩者間相似性得到A=QKT。對結(jié)果進(jìn)行歸一化處理得到注意力矩陣:
最后,根據(jù)權(quán)重系數(shù)矩陣A*,對value進(jìn)行加權(quán)求和,得到自注意力模塊輸出的特征圖,計算過程為
attention(Q,K,V)=A*V(4)
在特征融合階段,將不同的特征組合在一起,可以彌補(bǔ)其他特征的不足,實(shí)現(xiàn)優(yōu)缺互補(bǔ),提升模型的性能和泛化能力。但傳統(tǒng)的特征融合方法大多使用concatenate實(shí)現(xiàn)特征的簡單拼接融合,容易使關(guān)鍵信息缺失、冗余特征信息過多,導(dǎo)致模型分類效果不佳。文獻(xiàn)[26,27]在此基礎(chǔ)上進(jìn)行改進(jìn),采用特征級加權(quán)融合為每層設(shè)置相同的權(quán)重,用于融合淺層粗力度特征和深層細(xì)粒度特征,但未對不同層次特征信息的重要性進(jìn)行理論分析,導(dǎo)致分類效果不佳。綜合上述思想的優(yōu)缺點(diǎn),為確保每層特征能夠匹配到合適的權(quán)重,本文對層次信息的重要性進(jìn)行分析,根據(jù)不同粒度層特征對分類的貢獻(xiàn)度為每層設(shè)置不同的權(quán)值,并不斷進(jìn)行調(diào)整,選擇出最優(yōu)權(quán)值進(jìn)行不同粒度層次之間多組信息的融合。
特征加權(quán)融合階段的具體實(shí)現(xiàn)流程如下:首先將多粒度注意力特征提取模塊的輸出記為attij,其中i表示第幾個粒度層,j表示?;僮?;其次采用特征點(diǎn)乘的方式融合多粒度注意力特征提取網(wǎng)絡(luò)的輸出結(jié)果,并為前2層多粒度注意力的輸出設(shè)置權(quán)重參數(shù)α和β,且滿足α+β=1。融合計算過程為
scaleU50+1Y95yWwAUIj7f8SxKg==13=αatt13·βatt23·att33
scale25=αatt15·βatt25·att35
scale37=αatt17·βatt27·att37
(5)
該多粒度注意力特征融合算法的具體偽代碼描述如算法1所示。
算法1 多粒度注意力特征融合算法
1.3 標(biāo)簽傳播及分類模塊
小樣本數(shù)據(jù)集本身存在類間差異小、類別高度相似的問題,如何拉大類間距離、縮小類內(nèi)的距離,有效提高分類準(zhǔn)確率成為小樣本分類任務(wù)中不可忽視的挑戰(zhàn)。借鑒文獻(xiàn)[28]中提出的標(biāo)簽傳播方法,在特征充分提取后,對特征向量進(jìn)行相似性度量,根據(jù)度量函數(shù)構(gòu)建的樣本之間的相似度進(jìn)行標(biāo)簽傳播,標(biāo)簽傳播算法過程如圖4所示。
標(biāo)簽傳播算法流程:首先,采用高斯核函數(shù)度量5個特征分支中支持集樣本和查詢集樣本間的相似度,如式(6)所示。
其中:s代表不同特征分支;Wij表示樣本xi和xj的相似度;|θi|s為分支s下的分支參數(shù),可通過網(wǎng)絡(luò)學(xué)習(xí)獲取。
其次,為防止模型過擬合,提升模型的泛化能力,取矩陣Ws中每一行前k個最大值(k=20),構(gòu)建K最近鄰圖并借助拉普拉斯正則化對K進(jìn)行處理,得到泛化能力較好的相似度矩陣Ls=D-1/2WsD-1/2,借助標(biāo)簽傳播的方法得到5個分支下查詢集的預(yù)測標(biāo)簽分?jǐn)?shù)。具體標(biāo)簽傳播公式為
Ys=(I-αLs)-1Y0(7)
其中:Y0為初始化標(biāo)簽矩陣;α∈(0,1)控制傳播的信息量,本文設(shè)置α為0.99;I表示單位矩陣;Y表示預(yù)測的標(biāo)簽分?jǐn)?shù)。
然后,利用式(7)進(jìn)行標(biāo)簽傳播,輸入相似度矩陣Ls獲得每個分支下的預(yù)測標(biāo)簽分?jǐn)?shù)Ys,通過最簡單的分?jǐn)?shù)加權(quán)獲得最終的預(yù)測分?jǐn)?shù)Y*,加權(quán)方式為
通過激活函數(shù)softmax得到最終的5個特征分支的分類結(jié)果,如式(9)所示。
最終通過交叉熵?fù)p失計算每個分支下的損失,加權(quán)融合后作為5個分支的總損失,如式(10)(11)所示。
其中:I(*)為推斷函數(shù);yi為樣本真實(shí)標(biāo)簽值,當(dāng)yi==j為真時,I=1,當(dāng)yi==j為假時,I=0。所有參數(shù)以端到端的方式進(jìn)行更新。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
本文使用兩個經(jīng)典的小樣本公開數(shù)據(jù)集miniImageNet和tieredImageNet對FMAF方法進(jìn)行評估。兩個數(shù)據(jù)集的圖像包含各種各樣的物體、動物及植物等,具有較高的復(fù)雜性和多樣性。本文使用這兩個數(shù)據(jù)集做FSIC任務(wù)時,需將數(shù)據(jù)集分割為訓(xùn)練集、驗(yàn)證集以及測試集且互不相交,具體數(shù)據(jù)集基本構(gòu)成及分割結(jié)果如表1所示。
2.2 實(shí)驗(yàn)設(shè)置
1)學(xué)習(xí)策略設(shè)置 在訓(xùn)練、驗(yàn)證和測試階段遵循小樣本學(xué)習(xí)方式,兩個小樣本數(shù)據(jù)集miniImageNet和tieredImageNet均按照N-way K-shot的范式進(jìn)行訓(xùn)練。訓(xùn)練和驗(yàn)證時,隨機(jī)采取210 000個元任務(wù),按100個元任務(wù)進(jìn)行劃分,每100個為一個epoch,共有2 100個epoch。在5-way 1-shot任務(wù)中,5個類別分別選取1張圖像,共計5張圖像作為支持集;從每個類剩余圖像中選取15張圖像,共計75張圖像作為查詢集。測試時,隨機(jī)選取1 000個元任務(wù)進(jìn)行測試,共計10個epoch,并取10個epoch的平均準(zhǔn)確率作為最終結(jié)果,置信區(qū)間為95%。
2)實(shí)驗(yàn)環(huán)境 本文所有實(shí)驗(yàn)均在Ubuntu18.04系統(tǒng),NVIDIA Tesla V100(32GB) GPU,PyTorch(1.7.1)深度學(xué)習(xí)框架環(huán)境下運(yùn)行。
3)參數(shù)設(shè)置 訓(xùn)練集、驗(yàn)證集和測試集均采用一樣的參數(shù)設(shè)置,即初始學(xué)習(xí)率為0.001,每訓(xùn)練25 000個任務(wù)后,學(xué)習(xí)率減半,動量為0.99,優(yōu)化器使用Adam,其余參數(shù)采用默認(rèn)值。
2.3 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證FMAF算法的有效性,分別與多種小樣本學(xué)習(xí)方法進(jìn)行對比實(shí)驗(yàn),如M-Net、P-Net、R-Net、CovaMNet、MAML、LSTM、DN4、RCN、ATRNet、AMGC、MATANet、LB-Net、MSLPN等模型,對比方法在特征提取部分均使用Conv4-64(4層卷積,64維輸出),F(xiàn)MAF方法實(shí)驗(yàn)結(jié)果如表2、3所示。
表2和3中的實(shí)驗(yàn)結(jié)果表明,F(xiàn)MAF方法在miniImageNet數(shù)據(jù)集上,其準(zhǔn)確率相較于MSLPN,在小樣本學(xué)習(xí)的5-way 1-shot和5-way 5-shot任務(wù)下分別提升了2.93百分點(diǎn)和2.27百分點(diǎn);在tieredImageNet數(shù)據(jù)集上,本文方法在5-way 5-shot和5-way 1-shot 設(shè)置下分別提升了2.68百分點(diǎn)和2.71百分點(diǎn)。以上實(shí)驗(yàn)結(jié)果表明,F(xiàn)MAF方法在小樣本圖像分類上的精度高于其他方法。
2.4 特征可視化實(shí)驗(yàn)分析
為說明多粒度注意力特征提取結(jié)構(gòu)所提取的圖像特征的有效性,本文借助Grad-CAM[29]方法分別對Conv64、MSLPN及MAF網(wǎng)絡(luò)所提取的特征進(jìn)行可視化操作,熱力圖分別如圖5(b)~(d)所示。通過對比可視化結(jié)果可以看出,Conv64與MSLPN網(wǎng)絡(luò)所提取到的特征布局較為分散,對可區(qū)分的判別性特征不敏感,該模型進(jìn)行分類時,由于提取的特征不充分,分類精度相對不高,尤其是面對小樣本數(shù)據(jù)集中類別相近的任務(wù)時,容易分類錯誤。反觀MAF網(wǎng)絡(luò)結(jié)果下的熱圖可以看出,融合多種粒度層次下的圖像信息得到了更具判別性和全面的提取,提取的特征可以更精確地表示圖像。
2.5 網(wǎng)絡(luò)復(fù)雜度分析
為了證明FMAF網(wǎng)絡(luò)的輕量性、應(yīng)用性,本文借助網(wǎng)絡(luò)結(jié)構(gòu)可視化工具torchsummary計算網(wǎng)絡(luò)模型的參數(shù)數(shù)量及網(wǎng)絡(luò)結(jié)構(gòu)的計算量。所謂的計算量指的是輸入單個樣本(一張圖像),模型完成一次前向傳播所發(fā)生的浮點(diǎn)運(yùn)算次數(shù),即模型的時間復(fù)雜度,單位是FLOPs。
將FMAF網(wǎng)絡(luò)與現(xiàn)有小樣本主流特征提取主干網(wǎng)絡(luò)Conv64、ResNet12、ResNet18相比較,結(jié)果如表4所示。
實(shí)驗(yàn)結(jié)果表明:FMAF網(wǎng)絡(luò)的復(fù)雜度及參數(shù)量遠(yuǎn)遠(yuǎn)低于ResNet12、ResNet18,有效改進(jìn)了模型運(yùn)用中的實(shí)時性及運(yùn)算速度;雖然相較于Conv64而言,復(fù)雜度及參數(shù)量都相差不大,但是分類的精度遠(yuǎn)高于Conv64。
2.6 消融實(shí)驗(yàn)
為了驗(yàn)證多粒度注意力機(jī)制融合網(wǎng)絡(luò)設(shè)計的合理性,分別對該網(wǎng)絡(luò)中粒度層數(shù)的取舍、加權(quán)融合權(quán)重的設(shè)置及有無注意力機(jī)制三個方面,在miniImageNet數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5~7所示。
為了選取最合適的粒度層,本文進(jìn)行了四組實(shí)驗(yàn),分別對Conv64網(wǎng)絡(luò)的第2、第3以及第4層輸出的特征進(jìn)行多粒度特征提取的有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明:當(dāng)選取Conv64網(wǎng)絡(luò)最后3層的輸出作為多粒度層的輸入,分類效果最優(yōu)。原因在于,單一粒度層獲取的信息過于片面,無法更精確地表示圖像。當(dāng)選擇Gra-layer2、Gra-layer3兩層特征時,效果有所提升;當(dāng)選取Gra-layer1、Gra-layer2、Gra-layer3三層特征進(jìn)行分類時,準(zhǔn)確率提升較為顯著,說明充分利用淺層粗粒度特征并結(jié)合深層細(xì)粒度特征能有效提升分類的精度。在miniImageNet數(shù)據(jù)集上的5-way 1-shot和5-way 5-shot兩種設(shè)置下,準(zhǔn)確率分別達(dá)到58.06%±0.70%和74.08%±0.96%。
表5中的實(shí)驗(yàn)設(shè)置采用每個粒度層等權(quán)重的融合,未考慮不同粒度層所獲取的圖像特征信息對分類的貢獻(xiàn)度問題。為此,針對Gra-layer1、Gra-layer2兩個粒度層特征對分類精度的重要性進(jìn)行消融實(shí)驗(yàn),結(jié)果如表6所示。
由表6實(shí)驗(yàn)結(jié)果可知,當(dāng)α=0.2,β=0.8時,模型達(dá)到了最優(yōu)的性能。當(dāng)α取值越來越大時,模型性能隨之降低;當(dāng)β取值越來越小時,模型性能同樣也有所降低。實(shí)驗(yàn)表明,粗粒度信息對分類結(jié)果同樣具有影響,給予粗粒度信息合適的權(quán)值,可以提高模型的分類性能。
表5和6在驗(yàn)證融合多粒度注意力特征時,已經(jīng)考慮了自注意力機(jī)制對篩選重要特征的有效性。為了驗(yàn)證自注意力機(jī)制對模型性能是否有效果,本文設(shè)計了自注意力消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7所示。
由表7可知,使用自注意力的結(jié)果要優(yōu)于未使用自注意力的結(jié)果,這說明自注意力可以顯著提高模型對圖像中重要特征的捕獲能力。
2.7 其他實(shí)驗(yàn)細(xì)節(jié)
根據(jù)上述實(shí)驗(yàn)結(jié)果與分析來看,F(xiàn)MAF模型中引入的自注意力機(jī)制對分類是有效果的。相較于其他常用的通道注意力(SE、CAM)[30]、空間注意力(SAM)[31]和通道空間雙注意力機(jī)制(CBAM)[32]而言,自注意力機(jī)制[33]更擅長捕捉特征圖中某一像素與全局像素之間的長期依賴關(guān)系,能夠使得模型注意到整個輸入中不同部分之間的相關(guān)性,而常見注意力機(jī)制局限于局部相鄰像素之間的關(guān)系。
為了充分證明自注意力機(jī)制在模型中的有效性,本文在miniImageNet數(shù)據(jù)集進(jìn)行常見注意力機(jī)制對比實(shí)驗(yàn),結(jié)果如表8所示。
3 結(jié)束語
本文提出了一種融合多粒度注意力特征(FMAF)的小樣本分類模型。該方法借助多粒度注意力特征融合網(wǎng)絡(luò),豐富了圖像特征,解決了小樣本低數(shù)據(jù)問題;同時借助標(biāo)簽傳播算法,使相同的類盡可能地靠近,不同的類盡可能地拉遠(yuǎn),最后完成分類。在兩個數(shù)據(jù)集上的對比實(shí)驗(yàn)以及消融實(shí)驗(yàn)表明,F(xiàn)MAF方法有效提升了小樣本圖像分類的精度。未來FSIC研究可以從以下兩方面進(jìn)行:
a)利用卷積神經(jīng)網(wǎng)絡(luò)設(shè)計更高效的多粒度特征生成算法,豐富圖像特征。
b)在特征提取過程中,可以借助三支決策理論,通過對網(wǎng)絡(luò)每層特征進(jìn)行決策,去除干擾信息,保留有效特征。
參考文獻(xiàn):
[1]Isabel S B,David C P,Sara G A. Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts [J]. BMC Bioinformatics,2022,23(1): 263.
[2]Wu J,Chantiry X E,Gimpel T,et al. AI-based classification to facilitate preservation of British Columbia endangered birds species [C]// Proc of IEEE Canadian Conference on Electrical and Computer Engineering. Piscataway,NJ: IEEE Press, 2022: 85-88.
[3]葛軼洲,劉恒,王言,等. 小樣本困境下的深度學(xué)習(xí)圖像識別綜述 [J]. 軟件學(xué)報,2022,33(1): 193-210.(Ge Yizhou,Liu Heng,Wang Yan,et al. Summary of deep learning image recognition under the few-shot sample dilemma [J]. Journal of Software,2022,33(1): 193-210.)
[4]劉穎,雷研博,范九倫,等. 基于小樣本學(xué)習(xí)的圖像分類技術(shù)綜述 [J]. 自動化學(xué)報,2021,47(2): 297-315.(Liu Ying,Lei Yanbo,F(xiàn)an Jiulun,et al. Summary of image classification techniques based on few-shot learning [J]. Acta Automatica Sinica,2021,47(2): 297-315.)
[5]Zeng Zhiyong,Li Dawei,Yang Xiujuan. Deep domain adaptation using cascaded learning networks and metric learning [J]. IEEE Access,2023,11: 3564-3572.
[6]Koch G,Zemel R,Salakhutdinov R. Siamese neural networks for one-shot image recognition [C]// Proc of the 32nd International Confe-rence on Machine Learning. [S.l.]:JMLR,2015.
[7]Vinyals O,Blundell C,Lillicrap T,et al. Matching networks for one-shot learning [C]// Proc of the 30th Annual Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2016: 3630-3638.
[8]Snell J,Swersky K,Zemel R. Prototypical networks for few-shot lear-ning [C]// Proc of the 31st Annual Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press,2017: 4077-4087.
[9]Sung F,Yang Yongxin,Zhang Li,et al. Learning to compare: relation network for few-shot learning [C]// Proc of the 31st Meeting of the IEEE/CVF Conference Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 1199-1208.
[10]Li Wenbin, Xu Jinglin, Huo Jing,et al. Distribution consistency based covariance metric networks for few-shot learning [C]// Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 8642-8649.
[11]Santoro A,Bartunov S,Boyvinick M,et al. Meta-learning with memory augmented neural networks [C]// Proc of the 33rd International Conference on Machine Learning. New York: ACM Press,2016: 1842-1850.
[12]Finn C,Abbeeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks [C]// Proc of the 34th International Conference on Machine Learning. New York: ACM Press,2017: 1126-1135.
[13]Ravi S,Larochelle H. Optimization as a model for few-shot learning [C]// Proc of the 5th International Conference on Learning Representations. 2017.
[14]Li Wenbin,Wang Lei,Xu Jinglin,et al. Revisiting descriptor based image-to-class measure for few-shot learning [C]// Proc of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 7253-7260.
[15]Xue Zhiyu,Duan Lixin,Li Wen,et al. Region comparison network for interpretable few-shot image classification [EB/OL].(2020-09-08). https://arxiv.org/abs/2009.03558.
[16]李曉旭,劉忠源,武繼杰,等. 小樣本圖像分類的注意力全關(guān)系網(wǎng)絡(luò) [J]. 計算機(jī)學(xué)報,2023,46(2): 371-384.(Li Xiaoxu,Liu Zhongyuan,Wu Jijie,et al. Total relation network with attention for few-shot image classification [J]. Journal of Computer Science,2023,46(2): 371-384.)
[17]王曉茹,張珩. 基于注意力機(jī)制和圖卷積的小樣本分類網(wǎng)絡(luò) [J]. 計算機(jī)工程與應(yīng)用,2021,57(19): 164-170.(Wang Xiaoru,Zhang Hang. Relation network based on attention mechanism and graph convolution for few-shot learning [J]. Computer Engineering and Applications,2021,57(19): 164-170.)
[18]Chen Haoxing,Li Huaxiong,Li Yaohui,et al. Multi-scale adaptive task attention network for few-shot learning [C]// yD+cumv6c2rNFbHzlHO2Qg==Proc of the 26th International Conference on Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 4765-4771.
[19]Yu Z J,Sebastian R. Looking back to lower-level information in few-shot learning [J]. Information,2020,11(7): 345-358.
[20]汪航,田晟兆,唐青,等. 基于多尺度標(biāo)簽傳播的小樣本圖像分類 [J]. 計算機(jī)研究與發(fā)展,2022,59(7): 1486-1495.(Wang Hang,Tian Shengzhao,Tang Qing,et al. Few-shot image classification based on multi-scale label propagation [J]. Journal of Computer Research and Development,2022,59(7): 1486-1495.)
[21]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[22]Liu Wei,Anguelov D,Erhan D,et al. SSD: single shot multibox detector [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer,2016: 21-37.
[23]Hu Miao,Li Yali,Wang Shengjin,et al. Attention aggregation based feature pyramid network for instance segmentation [C]// Proc of Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 15343-15352.
[24]華杰,劉學(xué)亮,趙燁. 基于特征融合的小樣本目標(biāo)檢測 [J]. 計算機(jī)科學(xué),2023,50(2): 209-213.(Hua Jie,Liu Xueliang,Zhao Ye. Few-shot object detection based on feature fusion [J]. Computer Science,2023,50(2): 209-213.)
[25]2022年中國粒計算與知識發(fā)現(xiàn)學(xué)術(shù)會議 [J]. 智能系統(tǒng)學(xué)報,2022,17(1): 219.(2022 China granular computing and knowledge discovery conference [J]. Trans on Intelligent Systems,2022,17(1): 219.)
[26]Wang Xiaoru,Ma Bing,Yu Zhihong,et al. Multi-scale decision network feature fusion and weighting for few-shot learning [J]. IEEE Access,2020,8: 92172-92181.
[27]Jin H Y,Dongsuk K,Jun W C. ScarfNet:multi-scale features with deeply fused and redistributed semantics for enhanced object detection [C]// Proc of the 25th International Conference on Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 4505-4512.
[28]Liu Yanbin,Lee J,Park M,et al. Learning to propagate labels: transductive propagation network for few-shot learning [C]// Proc of the 7th International Conference on Learning Representation. 2019.
[29]Chattopadhyay A,Sarkar A,Howlader P,et al. Grad-CAM+: genera-lized gradient-based visual explanations for deep convolutional networks [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. 2018: 839-847.
[30]Hu Jie,Shen Li,Albanie S,et al. Squeeze-and-excitation networks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(8): 2011-2023.
[31]Song Heda,Deng Bowen,Michael P,et al. A fusion spatial attention approach for few-shot learning [J]. Information Fusion,2022,81: 187-202.
[32]Sanghyun W,Jongchan P,Young L,et al. CBAM: convolutional block attention module [EB/OL].(2018-07-18). https://arxiv.org/abs/1807.06521.
[33]Jain R,Watanabe H. Self-attention based neural network for few shot classification [C]// Proc of the 9th IEEE Global Conference on Consumer Electronics. Piscataway,NJ: IEEE Press,2020: 429-430.