融合多粒度注意力特征的小樣本分類模型

2024-08-17 00:00韓巖奇茍光磊李小菲朱東華

計算機(jī)應(yīng)用研究 2024年7期

摘要：在小樣本分類任務(wù)中，現(xiàn)有的CNN模型存在特征提取不足、特征單一和小樣本數(shù)據(jù)集類間差異化較弱的問題，導(dǎo)致分類精度較低。針對以上問題，提出一種融合多粒度注意力特征（fusion multi-granular attention feature，F(xiàn)MAF）的小樣本分類模型。首先，該方法借鑒多粒度思想，重新設(shè)計CNN特征提取網(wǎng)絡(luò)的架構(gòu)來增強(qiáng)特征多樣性；其次，在多粒度特征提取網(wǎng)絡(luò)后添加自注意力層，提取多粒度圖像特征中的關(guān)鍵特征，在多粒度注意力特征的基礎(chǔ)上，借助特征融合方法融合多粒度注意力特征信息，突出關(guān)鍵特征，提高特征的表征力；最后，在兩個經(jīng)典的小樣本數(shù)據(jù)集miniImageNet和tieredImageNet上進(jìn)行了評估。實(shí)驗(yàn)結(jié)果表明，F(xiàn)MAF方法能有效提升分類的準(zhǔn)確度和效率。

關(guān)鍵詞：小樣本學(xué)習(xí)；多粒度特征融合；自注意力機(jī)制；標(biāo)簽傳播

中圖分類號：TP393 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2024）07-045-2235-06

doi： 10.19734/j.issn.1001-3695.2023.09.0513

Few-shot classification model incorporating multi-granular attention features

Abstract： In the few-shot classification tasks， existing CNN models suffer from insufficient feature extraction， limited feature diversity and weak differentiation between classes in few-shot datasets， leading to low classification accuracy. To address these issues， this paper proposed a few-shot classification model called FMAF. Firstly， this method incorporated multi-granularity thought into the architecture of CNN feature extraction network to enhance feature diversity. Secondly， after the multi-granular feature extraction network， FMAF added a self-attention layer to extract key features from the multi-granular image features， based on the multi-granular attention features， FMAF employed a feature fusion method to combine the information from multiple-granularity attention features， highlighted the crucial features and improved feature representativeness. Finally， this paper utilized two classical few-shot datasets for experimental verification on miniImageNet and tieredImageNet. Experimental results show that FMAF method can effectively improve the accuracy and efficiency of classification.

Key words：FSL; multi-granular feature fusion; self-attention mechanism; label propagation

0 引言

近年來，深度學(xué)習(xí)在計算機(jī)各個領(lǐng)域都有較大突破，尤其是在計算機(jī)視覺、語音識別以及文本分類等領(lǐng)域，但對于某些特定領(lǐng)域，例如醫(yī)學(xué)上罕見疾病的診斷［1］、生物學(xué)上瀕危動物的保護(hù)研究［2］等難以獲取到真實(shí)有效的數(shù)據(jù)集，即使擁有充足的數(shù)據(jù)，但對數(shù)據(jù)進(jìn)行標(biāo)注亦費(fèi)時費(fèi)力。受到人類快速學(xué)習(xí)能力的啟發(fā)，更多的研究者開始轉(zhuǎn)向研究如何在少量樣本的情況下進(jìn)行圖像分類，即小樣本圖像分類（few-shot image classification， FSIC）［3］。由于小樣本本身數(shù)據(jù)不足以及數(shù)據(jù)集中存在類別高度相近的種類，如何從少量圖像樣本中挖掘豐富的特征信息以及提高類內(nèi)和類間的判別性，成為FSIC研究的難點(diǎn)?，F(xiàn)有FSIC方法［4］可以分為基于度量學(xué)習(xí)和基于元學(xué)習(xí)兩大類。

基于度量學(xué)習(xí)的FSIC方法借助了度量函數(shù)建模支持集（support sets）樣本與查詢集（query sets）樣本之間的相似關(guān)系［5］。該方法通過特征提取將支持集與查詢集樣本映射到公共特征空間，通過不同的度量函數(shù)，如余弦距離、歐氏距離等，計算查詢集樣本與支持集樣本特征向量的相似度，以完成分類。起初，研究者著重把小樣本學(xué)習(xí)的研究中心放在特征提取網(wǎng)絡(luò)模型的設(shè)計上，相繼提出了孿生神經(jīng)網(wǎng)絡(luò)（S-Net）［6］、匹配網(wǎng)絡(luò)（M-Net）［7］、原型網(wǎng)絡(luò)（P-Net）［8］等。以上研究所設(shè)計的網(wǎng)絡(luò)在最終的距離度量上均使用了固定的度量方式，所有學(xué)習(xí)的過程均發(fā)生在樣本的embedding階段?；趯Χ攘糠绞皆诜诸愔兄匾缘目剂?，Sung等人［9］提出關(guān)系網(wǎng)絡(luò)（R-Net），通過淺層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)非線性距離度量，打破單一且固定的距離度量方式。Li等人［10］提出協(xié)方差度量網(wǎng)絡(luò)（CovaMNet），通過提高支持樣本類的精確表示，合理度量支持樣本與查詢樣本的相似度。通過分析文獻(xiàn)［6～10］不難發(fā)現(xiàn)，基于度量的方法更傾向于對樣本對間的距離進(jìn)行建模，未解決小樣本實(shí)際存在的“類間類內(nèi)差異性小”的情況。

基于元學(xué)習(xí)的FSIC方法，采用元任務(wù)機(jī)制進(jìn)行知識遷移，輔助模型在新任務(wù)中更快、更準(zhǔn)確地獲取分類結(jié)果。早期，Santoro等人［11］提出記憶增強(qiáng)的神經(jīng)網(wǎng)絡(luò)，主要用于解決單樣本學(xué)習(xí)問題。隨后，F(xiàn)inn等人［12］和Ravi等人［13］將長短期記憶網(wǎng)絡(luò)（LSTM）作為優(yōu)化器，學(xué)習(xí)較好的初始化參數(shù)，使模型能在新的小樣本數(shù)據(jù)上快速收斂。早期研究停留在基本優(yōu)化算法及淺層特征的層面，未涉及如何提取更有效的特征。隨后，Li等人［14］提出深度最近鄰神經(jīng)網(wǎng)絡(luò)（DN4），著重關(guān)注最優(yōu)深度局部信息。Xue等人［15］提出區(qū)域比較網(wǎng)絡(luò)（RCN），通過學(xué)習(xí)注意權(quán)重的方法模擬人的視覺系統(tǒng)對圖片的感知能力，開始關(guān)注圖片中關(guān)鍵局部信息。李曉旭等人［16］提出注意力全關(guān)系網(wǎng)絡(luò)（ATRNet）。王曉茹等人［17］提出先空間后通道注意力網(wǎng)絡(luò)（AMGC）。文獻(xiàn)［14～17］設(shè)計的網(wǎng)絡(luò)模型開始關(guān)注局部特征信息及圖像中關(guān)鍵部位的特征信息，使小樣本低數(shù)據(jù)造成的特征信息不足的問題有所緩解。受到小樣本目標(biāo)分割領(lǐng)域中多尺度思想的影響，Chen等人［18］提出多尺度自適應(yīng)網(wǎng)絡(luò)（MATANet），Yu等人［19］提出回溯網(wǎng)絡(luò)（LB-Net），汪航等人［20］提出多尺度特征生成網(wǎng)絡(luò)（MSLPN），通過多尺度特征信息進(jìn)行關(guān)系度量學(xué)習(xí)，對特征提取器輸出層信息進(jìn)行多尺度劃分，在少量樣本中提取更豐富的特征，增強(qiáng)了模型的分類性能。

綜合以上文獻(xiàn)分析得出，現(xiàn)有小樣本學(xué)習(xí)中存在以下幾點(diǎn)不足：a）現(xiàn)有特征提取網(wǎng)絡(luò)僅僅使用深層次細(xì)粒度特征信息，忽視了淺層次粗粒度特征中的細(xì)節(jié)、位置信息對分類的作用；b）FSIC方法在提取多尺度特征信息后采用簡單拼接融合的方式，忽略了各層次特征對分類結(jié)果貢獻(xiàn)程度之間存在的差異性；c）FSIC數(shù)據(jù)集中含有多個類別高度相似的樣本，以往研究對類間和類內(nèi)的可區(qū)分性未進(jìn)行有效處理，導(dǎo)致樣本被錯誤分類，從而降低準(zhǔn)確率。

基于以上小樣本學(xué)習(xí)中的問題，本文貢獻(xiàn)如下：a）針對現(xiàn)有特征網(wǎng)絡(luò)提取特征不足、特征單一的問題，設(shè)計一種多粒度注意力特征提取網(wǎng)絡(luò)，提取圖像的粗粒度和細(xì)粒度特征信息，同時借助注意力機(jī)制提高圖像關(guān)鍵特征的表征力；b）針對現(xiàn)有特征融合方式的局限性，設(shè)計一種加權(quán)融合機(jī)制，根據(jù)不同粒度層中特征對結(jié)果的貢獻(xiàn)，設(shè)置最優(yōu)權(quán)值融合淺層粗粒度特征與深層細(xì)粒度特征；c）小樣本數(shù)據(jù)集本身存在類間差異小的情況，為此引入標(biāo)簽傳播算法，加強(qiáng)類內(nèi)樣本的相似性，拉大類間樣本的差異性，提高模型的分類準(zhǔn)確度。

1 融合多粒度注意力特征的小樣本分類算法

FMAF小樣本分類模型架構(gòu)如圖1所示。該網(wǎng)絡(luò)由多粒度注意力特征融合模塊、細(xì)粒度特征分支、標(biāo)簽傳播模塊、分類策略模塊組成。其核心在于：多粒度注意力特征提取融合模塊，借助多粒度注意力融合模塊提取多組多粒度的關(guān)鍵特征，每組特征均可以單獨(dú)表示其提取圖像的特征；細(xì)粒度特征分支的設(shè)計保留了圖像最細(xì)粒度的信息，同時彌補(bǔ)分類結(jié)果嚴(yán)重依靠多粒度特征，平衡最終的分類結(jié)果；標(biāo)簽傳播模塊借助相似性度量函數(shù)計算每組特征中所提取的支持集與查詢集樣本特征之間的相似性，隨后使用標(biāo)簽傳播算法完成對未知樣本的預(yù)測任務(wù)；最后通過分類模塊將所有組的分類結(jié)果進(jìn)行融合，得到最終的分類結(jié)果。

1.1 小樣本問題定義

現(xiàn)有小樣本學(xué)習(xí)中，所有數(shù)據(jù)集均劃分為訓(xùn)練集、驗(yàn)證集、測試集，且三個數(shù)據(jù)集中所含類別不交叉。小樣本學(xué)習(xí)主要按照N-way K-shot的范式進(jìn)行學(xué)習(xí)。在訓(xùn)練階段，N-way K-shot表示隨機(jī)從訓(xùn)練集中選取N個類別數(shù)據(jù)，每類中抽取K個樣本作為支持集，共有N×K個標(biāo)注樣本；然后從N個類別剩余樣本中選取q個樣本作為查詢集，共有q×N個樣本，1個支持集S加1個查詢集Q構(gòu)成一個元任務(wù)T。同樣地，驗(yàn)證集和測試集數(shù)據(jù)同樣按照該標(biāo)準(zhǔn)劃分，借助N×K個支持集樣本對所有查詢集樣本進(jìn)行分類，這便是小樣本學(xué)習(xí)問題。其中，支持集S、查詢集Q及任務(wù)T定義如式（1）所示。

S={xjn，yin）|i=1，2，…，K;n=1，2，…，N}

Q={（xjn）|j=1，2，…，q;n=1，2，…，N}

T={S，Q}（1）

其中：x和y表示圖像和圖像標(biāo)簽。

1.2 多粒度注意力特征提取融合網(wǎng)絡(luò)

現(xiàn)有FSIC模型使用的特征提取網(wǎng)絡(luò)大多為Conv64、ResNet12［21］和MSLPN，均只用特征提取網(wǎng)絡(luò)的最后一層輸出作為最終分類的依據(jù)，忽略了淺層特征對分類結(jié)果的影響，從而導(dǎo)致網(wǎng)絡(luò)特征提取不足、特征單一的問題。為了獲取小樣本圖像中豐富的特征信息，提高圖像分類的準(zhǔn)確率，本文重新設(shè)計一種多粒度注意力特征融合網(wǎng)絡(luò)，與CNN其他變體網(wǎng)絡(luò)不同，該網(wǎng)絡(luò)不僅考慮網(wǎng)絡(luò)深層次與淺層次信息，

同時抽取每層中不同粒度的圖像特征，網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)的實(shí)現(xiàn)由兩個階段組成，第一階段為多粒度注意力特征提取（multi-granular attention features，MAF），第二階段為特征融合。

在MAF階段，本文選取Conv64作為多粒度注意力特征提取階段的骨干網(wǎng)絡(luò)，對比ResNet12和MSLPN而言，Conv64更輕量，更適合少量樣本的分類學(xué)習(xí)，其網(wǎng)絡(luò)結(jié)構(gòu)如圖3（a）所示，MSLPN結(jié)構(gòu)如圖3（b）所示。在目標(biāo)檢測領(lǐng)域，Liu等人［22］設(shè)計了一種SSD網(wǎng)絡(luò)結(jié)構(gòu)，從網(wǎng)絡(luò)不同層提取多尺度特征信息，如圖3（c）所示。Hu等人［23］和華杰等人［24］提出特征金字塔網(wǎng)絡(luò)（FPN），通過自上而下和跳躍連接的方法提取目標(biāo)中多層級中強(qiáng)語義信息，有效提升檢測精度，其結(jié)構(gòu)如圖3（d）所示。受小樣本目標(biāo)檢測任務(wù)中特征提取網(wǎng)絡(luò)的設(shè)計方法及粒計算研究中粒度［25］思想的啟發(fā)，重新設(shè)計Conv64特征提取網(wǎng)絡(luò)，所設(shè)計的多粒度注意力特征提取網(wǎng)絡(luò)如圖3（e）所示。其中，根據(jù)粒度的劃分標(biāo)準(zhǔn)，將Gra-layer1、Gra-layer2、Gra-layer3分別定義為粗粒度層、中間過渡層、細(xì)粒度層，將Conv3×3、Conv5×5、Conv7×7三種不同尺寸的卷積核定義粒子粒化的比例。比如：Conv3×3代表針對當(dāng)前粒度層進(jìn)行一次?；壤秊?×3的卷積操作。從粗粒度層到細(xì)粒度層、從大粒子到小粒子，逐層、逐粒地進(jìn)行特征提取，讓模型能夠充分學(xué)習(xí)到圖像不同粒度層之間的信息，以及每個粒度層下不同大小粒子的像素信息，減少卷積過程中有效特征信息的丟失。為獲取圖像中的關(guān)鍵特征信息，減少冗余信息干擾的同時保留多樣化的圖像特征信息，本文在多粒度特征提取后添加一層自注意力機(jī)制。

其次，計算query和key兩者間相似性得到A=QKT。對結(jié)果進(jìn)行歸一化處理得到注意力矩陣：

最后，根據(jù)權(quán)重系數(shù)矩陣A*，對value進(jìn)行加權(quán)求和，得到自注意力模塊輸出的特征圖，計算過程為

attention（Q，K，V）=A*V（4）

在特征融合階段，將不同的特征組合在一起，可以彌補(bǔ)其他特征的不足，實(shí)現(xiàn)優(yōu)缺互補(bǔ)，提升模型的性能和泛化能力。但傳統(tǒng)的特征融合方法大多使用concatenate實(shí)現(xiàn)特征的簡單拼接融合，容易使關(guān)鍵信息缺失、冗余特征信息過多，導(dǎo)致模型分類效果不佳。文獻(xiàn)［26，27］在此基礎(chǔ)上進(jìn)行改進(jìn)，采用特征級加權(quán)融合為每層設(shè)置相同的權(quán)重，用于融合淺層粗力度特征和深層細(xì)粒度特征，但未對不同層次特征信息的重要性進(jìn)行理論分析，導(dǎo)致分類效果不佳。綜合上述思想的優(yōu)缺點(diǎn)，為確保每層特征能夠匹配到合適的權(quán)重，本文對層次信息的重要性進(jìn)行分析，根據(jù)不同粒度層特征對分類的貢獻(xiàn)度為每層設(shè)置不同的權(quán)值，并不斷進(jìn)行調(diào)整，選擇出最優(yōu)權(quán)值進(jìn)行不同粒度層次之間多組信息的融合。

特征加權(quán)融合階段的具體實(shí)現(xiàn)流程如下：首先將多粒度注意力特征提取模塊的輸出記為attij，其中i表示第幾個粒度層，j表示?；僮?；其次采用特征點(diǎn)乘的方式融合多粒度注意力特征提取網(wǎng)絡(luò)的輸出結(jié)果，并為前2層多粒度注意力的輸出設(shè)置權(quán)重參數(shù)α和β，且滿足α+β=1。融合計算過程為

scaleU50+1Y95yWwAUIj7f8SxKg==13=αatt13·βatt23·att33

scale25=αatt15·βatt25·att35

scale37=αatt17·βatt27·att37

（5）

該多粒度注意力特征融合算法的具體偽代碼描述如算法1所示。

算法1 多粒度注意力特征融合算法

1.3 標(biāo)簽傳播及分類模塊

小樣本數(shù)據(jù)集本身存在類間差異小、類別高度相似的問題，如何拉大類間距離、縮小類內(nèi)的距離，有效提高分類準(zhǔn)確率成為小樣本分類任務(wù)中不可忽視的挑戰(zhàn)。借鑒文獻(xiàn)［28］中提出的標(biāo)簽傳播方法，在特征充分提取后，對特征向量進(jìn)行相似性度量，根據(jù)度量函數(shù)構(gòu)建的樣本之間的相似度進(jìn)行標(biāo)簽傳播，標(biāo)簽傳播算法過程如圖4所示。

標(biāo)簽傳播算法流程：首先，采用高斯核函數(shù)度量5個特征分支中支持集樣本和查詢集樣本間的相似度，如式（6）所示。

其中：s代表不同特征分支；Wij表示樣本xi和xj的相似度；|θi|s為分支s下的分支參數(shù)，可通過網(wǎng)絡(luò)學(xué)習(xí)獲取。

其次，為防止模型過擬合，提升模型的泛化能力，取矩陣Ws中每一行前k個最大值（k=20），構(gòu)建K最近鄰圖并借助拉普拉斯正則化對K進(jìn)行處理，得到泛化能力較好的相似度矩陣Ls=D-1/2WsD-1/2，借助標(biāo)簽傳播的方法得到5個分支下查詢集的預(yù)測標(biāo)簽分?jǐn)?shù)。具體標(biāo)簽傳播公式為

Ys=（I-αLs）-1Y0（7）

其中：Y0為初始化標(biāo)簽矩陣；α∈（0，1）控制傳播的信息量，本文設(shè)置α為0.99；I表示單位矩陣；Y表示預(yù)測的標(biāo)簽分?jǐn)?shù)。

然后，利用式（7）進(jìn)行標(biāo)簽傳播，輸入相似度矩陣Ls獲得每個分支下的預(yù)測標(biāo)簽分?jǐn)?shù)Ys，通過最簡單的分?jǐn)?shù)加權(quán)獲得最終的預(yù)測分?jǐn)?shù)Y*，加權(quán)方式為

通過激活函數(shù)softmax得到最終的5個特征分支的分類結(jié)果，如式（9）所示。

最終通過交叉熵?fù)p失計算每個分支下的損失，加權(quán)融合后作為5個分支的總損失，如式（10）（11）所示。

其中：I（*）為推斷函數(shù)；yi為樣本真實(shí)標(biāo)簽值，當(dāng)yi==j為真時，I=1，當(dāng)yi==j為假時，I=0。所有參數(shù)以端到端的方式進(jìn)行更新。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

本文使用兩個經(jīng)典的小樣本公開數(shù)據(jù)集miniImageNet和tieredImageNet對FMAF方法進(jìn)行評估。兩個數(shù)據(jù)集的圖像包含各種各樣的物體、動物及植物等，具有較高的復(fù)雜性和多樣性。本文使用這兩個數(shù)據(jù)集做FSIC任務(wù)時，需將數(shù)據(jù)集分割為訓(xùn)練集、驗(yàn)證集以及測試集且互不相交，具體數(shù)據(jù)集基本構(gòu)成及分割結(jié)果如表1所示。

2.2 實(shí)驗(yàn)設(shè)置

1）學(xué)習(xí)策略設(shè)置在訓(xùn)練、驗(yàn)證和測試階段遵循小樣本學(xué)習(xí)方式，兩個小樣本數(shù)據(jù)集miniImageNet和tieredImageNet均按照N-way K-shot的范式進(jìn)行訓(xùn)練。訓(xùn)練和驗(yàn)證時，隨機(jī)采取210 000個元任務(wù)，按100個元任務(wù)進(jìn)行劃分，每100個為一個epoch，共有2 100個epoch。在5-way 1-shot任務(wù)中，5個類別分別選取1張圖像，共計5張圖像作為支持集；從每個類剩余圖像中選取15張圖像，共計75張圖像作為查詢集。測試時，隨機(jī)選取1 000個元任務(wù)進(jìn)行測試，共計10個epoch，并取10個epoch的平均準(zhǔn)確率作為最終結(jié)果，置信區(qū)間為95%。

2）實(shí)驗(yàn)環(huán)境本文所有實(shí)驗(yàn)均在Ubuntu18.04系統(tǒng)，NVIDIA Tesla V100（32GB） GPU，PyTorch（1.7.1）深度學(xué)習(xí)框架環(huán)境下運(yùn)行。

3）參數(shù)設(shè)置訓(xùn)練集、驗(yàn)證集和測試集均采用一樣的參數(shù)設(shè)置，即初始學(xué)習(xí)率為0.001，每訓(xùn)練25 000個任務(wù)后，學(xué)習(xí)率減半，動量為0.99，優(yōu)化器使用Adam，其余參數(shù)采用默認(rèn)值。

2.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證FMAF算法的有效性，分別與多種小樣本學(xué)習(xí)方法進(jìn)行對比實(shí)驗(yàn)，如M-Net、P-Net、R-Net、CovaMNet、MAML、LSTM、DN4、RCN、ATRNet、AMGC、MATANet、LB-Net、MSLPN等模型，對比方法在特征提取部分均使用Conv4-64（4層卷積，64維輸出），F(xiàn)MAF方法實(shí)驗(yàn)結(jié)果如表2、3所示。

表2和3中的實(shí)驗(yàn)結(jié)果表明，F(xiàn)MAF方法在miniImageNet數(shù)據(jù)集上，其準(zhǔn)確率相較于MSLPN，在小樣本學(xué)習(xí)的5-way 1-shot和5-way 5-shot任務(wù)下分別提升了2.93百分點(diǎn)和2.27百分點(diǎn)；在tieredImageNet數(shù)據(jù)集上，本文方法在5-way 5-shot和5-way 1-shot 設(shè)置下分別提升了2.68百分點(diǎn)和2.71百分點(diǎn)。以上實(shí)驗(yàn)結(jié)果表明，F(xiàn)MAF方法在小樣本圖像分類上的精度高于其他方法。

2.4 特征可視化實(shí)驗(yàn)分析

為說明多粒度注意力特征提取結(jié)構(gòu)所提取的圖像特征的有效性，本文借助Grad-CAM［29］方法分別對Conv64、MSLPN及MAF網(wǎng)絡(luò)所提取的特征進(jìn)行可視化操作，熱力圖分別如圖5（b）～（d）所示。通過對比可視化結(jié)果可以看出，Conv64與MSLPN網(wǎng)絡(luò)所提取到的特征布局較為分散，對可區(qū)分的判別性特征不敏感，該模型進(jìn)行分類時，由于提取的特征不充分，分類精度相對不高，尤其是面對小樣本數(shù)據(jù)集中類別相近的任務(wù)時，容易分類錯誤。反觀MAF網(wǎng)絡(luò)結(jié)果下的熱圖可以看出，融合多種粒度層次下的圖像信息得到了更具判別性和全面的提取，提取的特征可以更精確地表示圖像。

2.5 網(wǎng)絡(luò)復(fù)雜度分析

為了證明FMAF網(wǎng)絡(luò)的輕量性、應(yīng)用性，本文借助網(wǎng)絡(luò)結(jié)構(gòu)可視化工具torchsummary計算網(wǎng)絡(luò)模型的參數(shù)數(shù)量及網(wǎng)絡(luò)結(jié)構(gòu)的計算量。所謂的計算量指的是輸入單個樣本（一張圖像），模型完成一次前向傳播所發(fā)生的浮點(diǎn)運(yùn)算次數(shù)，即模型的時間復(fù)雜度，單位是FLOPs。

將FMAF網(wǎng)絡(luò)與現(xiàn)有小樣本主流特征提取主干網(wǎng)絡(luò)Conv64、ResNet12、ResNet18相比較，結(jié)果如表4所示。

實(shí)驗(yàn)結(jié)果表明：FMAF網(wǎng)絡(luò)的復(fù)雜度及參數(shù)量遠(yuǎn)遠(yuǎn)低于ResNet12、ResNet18，有效改進(jìn)了模型運(yùn)用中的實(shí)時性及運(yùn)算速度；雖然相較于Conv64而言，復(fù)雜度及參數(shù)量都相差不大，但是分類的精度遠(yuǎn)高于Conv64。

2.6 消融實(shí)驗(yàn)

為了驗(yàn)證多粒度注意力機(jī)制融合網(wǎng)絡(luò)設(shè)計的合理性，分別對該網(wǎng)絡(luò)中粒度層數(shù)的取舍、加權(quán)融合權(quán)重的設(shè)置及有無注意力機(jī)制三個方面，在miniImageNet數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表5～7所示。

為了選取最合適的粒度層，本文進(jìn)行了四組實(shí)驗(yàn)，分別對Conv64網(wǎng)絡(luò)的第2、第3以及第4層輸出的特征進(jìn)行多粒度特征提取的有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明：當(dāng)選取Conv64網(wǎng)絡(luò)最后3層的輸出作為多粒度層的輸入，分類效果最優(yōu)。原因在于，單一粒度層獲取的信息過于片面，無法更精確地表示圖像。當(dāng)選擇Gra-layer2、Gra-layer3兩層特征時，效果有所提升；當(dāng)選取Gra-layer1、Gra-layer2、Gra-layer3三層特征進(jìn)行分類時，準(zhǔn)確率提升較為顯著，說明充分利用淺層粗粒度特征并結(jié)合深層細(xì)粒度特征能有效提升分類的精度。在miniImageNet數(shù)據(jù)集上的5-way 1-shot和5-way 5-shot兩種設(shè)置下，準(zhǔn)確率分別達(dá)到58.06%±0.70%和74.08%±0.96%。

表5中的實(shí)驗(yàn)設(shè)置采用每個粒度層等權(quán)重的融合，未考慮不同粒度層所獲取的圖像特征信息對分類的貢獻(xiàn)度問題。為此，針對Gra-layer1、Gra-layer2兩個粒度層特征對分類精度的重要性進(jìn)行消融實(shí)驗(yàn)，結(jié)果如表6所示。

由表6實(shí)驗(yàn)結(jié)果可知，當(dāng)α=0.2，β=0.8時，模型達(dá)到了最優(yōu)的性能。當(dāng)α取值越來越大時，模型性能隨之降低；當(dāng)β取值越來越小時，模型性能同樣也有所降低。實(shí)驗(yàn)表明，粗粒度信息對分類結(jié)果同樣具有影響，給予粗粒度信息合適的權(quán)值，可以提高模型的分類性能。

表5和6在驗(yàn)證融合多粒度注意力特征時，已經(jīng)考慮了自注意力機(jī)制對篩選重要特征的有效性。為了驗(yàn)證自注意力機(jī)制對模型性能是否有效果，本文設(shè)計了自注意力消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表7所示。

由表7可知，使用自注意力的結(jié)果要優(yōu)于未使用自注意力的結(jié)果，這說明自注意力可以顯著提高模型對圖像中重要特征的捕獲能力。

2.7 其他實(shí)驗(yàn)細(xì)節(jié)

根據(jù)上述實(shí)驗(yàn)結(jié)果與分析來看，F(xiàn)MAF模型中引入的自注意力機(jī)制對分類是有效果的。相較于其他常用的通道注意力（SE、CAM）［30］、空間注意力（SAM）［31］和通道空間雙注意力機(jī)制（CBAM）［32］而言，自注意力機(jī)制［33］更擅長捕捉特征圖中某一像素與全局像素之間的長期依賴關(guān)系，能夠使得模型注意到整個輸入中不同部分之間的相關(guān)性，而常見注意力機(jī)制局限于局部相鄰像素之間的關(guān)系。

為了充分證明自注意力機(jī)制在模型中的有效性，本文在miniImageNet數(shù)據(jù)集進(jìn)行常見注意力機(jī)制對比實(shí)驗(yàn)，結(jié)果如表8所示。

3 結(jié)束語

本文提出了一種融合多粒度注意力特征（FMAF）的小樣本分類模型。該方法借助多粒度注意力特征融合網(wǎng)絡(luò)，豐富了圖像特征，解決了小樣本低數(shù)據(jù)問題；同時借助標(biāo)簽傳播算法，使相同的類盡可能地靠近，不同的類盡可能地拉遠(yuǎn)，最后完成分類。在兩個數(shù)據(jù)集上的對比實(shí)驗(yàn)以及消融實(shí)驗(yàn)表明，F(xiàn)MAF方法有效提升了小樣本圖像分類的精度。未來FSIC研究可以從以下兩方面進(jìn)行：

a）利用卷積神經(jīng)網(wǎng)絡(luò)設(shè)計更高效的多粒度特征生成算法，豐富圖像特征。

b）在特征提取過程中，可以借助三支決策理論，通過對網(wǎng)絡(luò)每層特征進(jìn)行決策，去除干擾信息，保留有效特征。

參考文獻(xiàn)：

［1］Isabel S B，David C P，Sara G A. Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts ［J］. BMC Bioinformatics，2022，23（1）： 263.

［2］Wu J，Chantiry X E，Gimpel T，et al. AI-based classification to facilitate preservation of British Columbia endangered birds species ［C］// Proc of IEEE Canadian Conference on Electrical and Computer Engineering. Piscataway，NJ： IEEE Press， 2022： 85-88.

［3］葛軼洲，劉恒，王言，等. 小樣本困境下的深度學(xué)習(xí)圖像識別綜述［J］. 軟件學(xué)報，2022，33（1）： 193-210.（Ge Yizhou，Liu Heng，Wang Yan，et al. Summary of deep learning image recognition under the few-shot sample dilemma ［J］. Journal of Software，2022，33（1）： 193-210.）

［4］劉穎，雷研博，范九倫，等. 基于小樣本學(xué)習(xí)的圖像分類技術(shù)綜述［J］. 自動化學(xué)報，2021，47（2）： 297-315.（Liu Ying，Lei Yanbo，F(xiàn)an Jiulun，et al. Summary of image classification techniques based on few-shot learning ［J］. Acta Automatica Sinica，2021，47（2）： 297-315.）

［5］Zeng Zhiyong，Li Dawei，Yang Xiujuan. Deep domain adaptation using cascaded learning networks and metric learning ［J］. IEEE Access，2023，11： 3564-3572.

［6］Koch G，Zemel R，Salakhutdinov R. Siamese neural networks for one-shot image recognition ［C］// Proc of the 32nd International Confe-rence on Machine Learning. ［S.l.］：JMLR，2015.

［7］Vinyals O，Blundell C，Lillicrap T，et al. Matching networks for one-shot learning ［C］// Proc of the 30th Annual Conference on Neural Information Processing Systems. Cambridge，MA： MIT Press，2016： 3630-3638.

［8］Snell J，Swersky K，Zemel R. Prototypical networks for few-shot lear-ning ［C］// Proc of the 31st Annual Conference on Neural Information Processing Systems. Cambridge，MA： MIT Press，2017： 4077-4087.

［9］Sung F，Yang Yongxin，Zhang Li，et al. Learning to compare： relation network for few-shot learning ［C］// Proc of the 31st Meeting of the IEEE/CVF Conference Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2018： 1199-1208.

［10］Li Wenbin， Xu Jinglin， Huo Jing，et al. Distribution consistency based covariance metric networks for few-shot learning ［C］// Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto，CA： AAAI Press，2019： 8642-8649.

［11］Santoro A，Bartunov S，Boyvinick M，et al. Meta-learning with memory augmented neural networks ［C］// Proc of the 33rd International Conference on Machine Learning. New York： ACM Press，2016： 1842-1850.

［12］Finn C，Abbeeel P，Levine S. Model-agnostic meta-learning for fast adaptation of deep networks ［C］// Proc of the 34th International Conference on Machine Learning. New York： ACM Press，2017： 1126-1135.

［13］Ravi S，Larochelle H. Optimization as a model for few-shot learning ［C］// Proc of the 5th International Conference on Learning Representations. 2017.

［14］Li Wenbin，Wang Lei，Xu Jinglin，et al. Revisiting descriptor based image-to-class measure for few-shot learning ［C］// Proc of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press， 2019： 7253-7260.

［15］Xue Zhiyu，Duan Lixin，Li Wen，et al. Region comparison network for interpretable few-shot image classification ［EB/OL］.（2020-09-08）. https：//arxiv.org/abs/2009.03558.

［16］李曉旭，劉忠源，武繼杰，等. 小樣本圖像分類的注意力全關(guān)系網(wǎng)絡(luò) ［J］. 計算機(jī)學(xué)報，2023，46（2）： 371-384.（Li Xiaoxu，Liu Zhongyuan，Wu Jijie，et al. Total relation network with attention for few-shot image classification ［J］. Journal of Computer Science，2023，46（2）： 371-384.）

［17］王曉茹，張珩. 基于注意力機(jī)制和圖卷積的小樣本分類網(wǎng)絡(luò) ［J］. 計算機(jī)工程與應(yīng)用，2021，57（19）： 164-170.（Wang Xiaoru，Zhang Hang. Relation network based on attention mechanism and graph convolution for few-shot learning ［J］. Computer Engineering and Applications，2021，57（19）： 164-170.）

［18］Chen Haoxing，Li Huaxiong，Li Yaohui，et al. Multi-scale adaptive task attention network for few-shot learning ［C］// yD+cumv6c2rNFbHzlHO2Qg==Proc of the 26th International Conference on Pattern Recognition. Piscataway，NJ： IEEE Press，2022： 4765-4771.

［19］Yu Z J，Sebastian R. Looking back to lower-level information in few-shot learning ［J］. Information，2020，11（7）： 345-358.

［20］汪航，田晟兆，唐青，等. 基于多尺度標(biāo)簽傳播的小樣本圖像分類［J］. 計算機(jī)研究與發(fā)展，2022，59（7）： 1486-1495.（Wang Hang，Tian Shengzhao，Tang Qing，et al. Few-shot image classification based on multi-scale label propagation ［J］. Journal of Computer Research and Development，2022，59（7）： 1486-1495.）

［21］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al. Deep residual learning for image recognition ［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2016： 770-778.

［22］Liu Wei，Anguelov D，Erhan D，et al. SSD： single shot multibox detector ［C］// Proc of the 14th European Conference on Computer Vision. Cham： Springer，2016： 21-37.

［23］Hu Miao，Li Yali，Wang Shengjin，et al. Attention aggregation based feature pyramid network for instance segmentation ［C］// Proc of Conference on Computer Vision and Pattern Recognition. Piscataway，NJ： IEEE Press，2021： 15343-15352.

［24］華杰，劉學(xué)亮，趙燁. 基于特征融合的小樣本目標(biāo)檢測［J］. 計算機(jī)科學(xué)，2023，50（2）： 209-213.（Hua Jie，Liu Xueliang，Zhao Ye. Few-shot object detection based on feature fusion ［J］. Computer Science，2023，50（2）： 209-213.）

［25］2022年中國粒計算與知識發(fā)現(xiàn)學(xué)術(shù)會議［J］. 智能系統(tǒng)學(xué)報，2022，17（1）： 219.（2022 China granular computing and knowledge discovery conference ［J］. Trans on Intelligent Systems，2022，17（1）： 219.）

［26］Wang Xiaoru，Ma Bing，Yu Zhihong，et al. Multi-scale decision network feature fusion and weighting for few-shot learning ［J］. IEEE Access，2020，8： 92172-92181.

［27］Jin H Y，Dongsuk K，Jun W C. ScarfNet：multi-scale features with deeply fused and redistributed semantics for enhanced object detection ［C］// Proc of the 25th International Conference on Pattern Recognition. Piscataway，NJ： IEEE Press，2021： 4505-4512.

［28］Liu Yanbin，Lee J，Park M，et al. Learning to propagate labels： transductive propagation network for few-shot learning ［C］// Proc of the 7th International Conference on Learning Representation. 2019.

［29］Chattopadhyay A，Sarkar A，Howlader P，et al. Grad-CAM+： genera-lized gradient-based visual explanations for deep convolutional networks ［C］// Proc of IEEE Winter Conference on Applications of Computer Vision. 2018： 839-847.

［30］Hu Jie，Shen Li，Albanie S，et al. Squeeze-and-excitation networks ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence，2020，42（8）： 2011-2023.

［31］Song Heda，Deng Bowen，Michael P，et al. A fusion spatial attention approach for few-shot learning ［J］. Information Fusion，2022，81： 187-202.

［32］Sanghyun W，Jongchan P，Young L，et al. CBAM： convolutional block attention module ［EB/OL］.（2018-07-18）. https：//arxiv.org/abs/1807.06521.

［33］Jain R，Watanabe H. Self-attention based neural network for few shot classification ［C］// Proc of the 9th IEEE Global Conference on Consumer Electronics. Piscataway，NJ： IEEE Press，2020： 429-430.

計算機(jī)應(yīng)用研究2024年7期

計算機(jī)應(yīng)用研究的其它文章: 量子計算技術(shù)在金融領(lǐng)域的應(yīng)用探索; 基于深度學(xué)習(xí)的圖像拼接算法研究綜述; 程序算法識別研究綜述; 面向數(shù)據(jù)保護(hù)的區(qū)塊鏈物聯(lián)網(wǎng)邊緣卸載策略; 基于區(qū)塊鏈的無人機(jī)網(wǎng)絡(luò)跨域身份認(rèn)證研究; 基于GA-TD3算法的交叉路口決策模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合多粒度注意力特征的小樣本分類模型