国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向小樣本學(xué)習(xí)的雙重度量孿生神經(jīng)網(wǎng)絡(luò)

2023-10-18 00:46:12孫統(tǒng)風(fēng)王康郝徐
關(guān)鍵詞:特征提取

孫統(tǒng)風(fēng) 王康 郝徐

摘 要:為了解決孿生神經(jīng)網(wǎng)絡(luò)因使用圖像級(jí)特征度量,存在對(duì)位置、復(fù)雜背景及類內(nèi)差異比較敏感的問(wèn)題,提出了一種雙重度量孿生神經(jīng)網(wǎng)絡(luò)(DM-SiameseNet)。具體來(lái)說(shuō),DM-SiameseNet使用圖像級(jí)的特征和局部特征(局部描述符)共同表示每幅圖像,然后根據(jù)兩種不同級(jí)別的相似度度量學(xué)習(xí)特征映射,最后使用自適應(yīng)融合策略,自適應(yīng)整合兩種不同級(jí)別特征表示的度量結(jié)果。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后模型的準(zhǔn)確率分別提高了5.04%和9.66%,并且在miniImageNet、TieredImageNet、Stanford Dogs、Stanford Cars和CUB-200數(shù)據(jù)集上高于只使用圖像級(jí)的特征表示或者局部描述符表示的度量方法。實(shí)驗(yàn)結(jié)果證明所提出的模型不僅考慮了圖像的全局特征,還可以捕獲圖像中更多有效的局部特征信息,提高了模型的泛化能力。

關(guān)鍵詞:小樣本學(xué)習(xí); 孿生網(wǎng)絡(luò); 雙重度量; 特征提??; 局部描述符

中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2023)09-046-2851-05

doi:10.19734/j.issn.1001-3695.2022.11.0807

Dual-metric siamese neural network for few-shot learning

Sun Tongfeng, Wang Kang, Hao Xu

(School of Computer Science & Technology, China University of Mining & Technology, Xuzhou Jiangsu 221116, China)

Abstract:In order to solve the problem that the siamese neural network is sensitive to position, complex background and intra-class differences due to the use of image-level feature metrics, this paper proposed a dual metric siamese neural network(DM-SiameseNet). DM-SiameseNet used image-level features and local features (local descriptors) to jointly represent each image, then learned feature maps based on two different levels of similarity measures, and finally used an adaptive fusion strategy to adaptively integrate two different measurement results represented by the level feature. Experimental results show that the accuracy of the improved model is increased by 5.04% and 9.66% respectively, and is higher than the measurement methods that only uses image-level feature representation or local descriptor representation on miniImageNet, TieredImageNet, Stanford Dogs, Stanford Cars and CUB-200 datasets. The experimental results prove that the proposed model not only considers the global features of the image, but also captures more effective local feature information in the image, which improves the generalization ability of the model.

Key words:few-shot learning; siamese network; double measures; feature extraction; local descriptors

在大數(shù)據(jù)時(shí)代,隨著科技的發(fā)展,依托強(qiáng)大運(yùn)算能力,深度學(xué)習(xí)模型已經(jīng)在圖像、文本、語(yǔ)音等任務(wù)中取得了巨大成就,但深度學(xué)習(xí)模型的成功,離不開大量的訓(xùn)練數(shù)據(jù)。然而在現(xiàn)實(shí)世界的真實(shí)場(chǎng)景中,經(jīng)常會(huì)遇到樣本過(guò)少或者獲取成本過(guò)高的情況,如何利用少量樣本進(jìn)行學(xué)習(xí),是深度學(xué)習(xí)模型無(wú)法繞開的難題。與此相反,人類只需要通過(guò)少量數(shù)據(jù)就能做到快速學(xué)習(xí)。受到人類學(xué)習(xí)特點(diǎn)的啟發(fā)[1],小樣本學(xué)習(xí)[2,3]的概念被提出,旨在讓機(jī)器學(xué)習(xí)更加靠近人類思維,擁有像人類一樣快速學(xué)習(xí)的能力。近年來(lái)小樣本學(xué)習(xí)在圖像分類領(lǐng)域提出了許多優(yōu)秀學(xué)習(xí)方法,一般來(lái)說(shuō),可以大致分為基于元學(xué)習(xí)[4]的和基于度量學(xué)習(xí)[5]的小樣本學(xué)習(xí)方法。元學(xué)習(xí)旨在從大量的先驗(yàn)任務(wù)中學(xué)習(xí)到元知識(shí),利用以往的先驗(yàn)知識(shí)來(lái)指導(dǎo)模型在新任務(wù)(即小樣本任務(wù))中更快地學(xué)習(xí),在元訓(xùn)練過(guò)程包括基礎(chǔ)學(xué)習(xí)器和元學(xué)習(xí)器的兩步優(yōu)化,當(dāng)對(duì)元學(xué)習(xí)器優(yōu)化時(shí),一般還需要微調(diào)操作?;诙攘繉W(xué)習(xí)的小樣本學(xué)習(xí)方法通過(guò)學(xué)習(xí)樣本與特征之間的映射關(guān)系,將樣本映射到特征空間,然后在空間內(nèi)中使用最近鄰和其他依賴距離或相似性函數(shù)方法實(shí)現(xiàn)分類。由于簡(jiǎn)單有效的特點(diǎn),基于度量學(xué)習(xí)的方法在小樣本學(xué)習(xí)中受到了大量關(guān)注,本文提出的模型也屬于此類方法。

孿生神經(jīng)網(wǎng)絡(luò)(SiameseNet)[6]是被提出用于單樣本學(xué)習(xí)(one-shot learning)的相似性度量模型,在Omniglot數(shù)據(jù)集上準(zhǔn)確度達(dá)到了92%,然而經(jīng)過(guò)測(cè)試發(fā)現(xiàn),在miniImageNet數(shù)據(jù)集上5-way 1-shot的準(zhǔn)確度只有49.23%。因?yàn)橄啾萇mniglot數(shù)據(jù)集,miniImageNet數(shù)據(jù)集的目標(biāo)物體特征更加豐富,背景也更加復(fù)雜。因此,使用圖像級(jí)特征表示的孿生神經(jīng)網(wǎng)絡(luò),在度量時(shí)很難得到出色的效果。本文提出了一種新的雙重度量孿生神經(jīng)網(wǎng)絡(luò)(DM-SiameseNet),使用圖像級(jí)特征和局部描述符共同表示圖像,能充分考慮全局特征和局部特征之間的關(guān)系來(lái)解決上述問(wèn)題。本文的主要貢獻(xiàn)有三個(gè):a)不同于傳統(tǒng)的只基于圖像級(jí)特征表示或者基于局部描述符表示,本文同時(shí)使用圖像級(jí)特征和豐富的局部描述符來(lái)共同表示每幅圖像;b)使用了一種自適應(yīng)融合策略來(lái)自適應(yīng)地整合兩種級(jí)別圖像表示的度量關(guān)系;c)整個(gè)框架可以端到端的方式進(jìn)行訓(xùn)練,不使用微調(diào)和蒸餾等技巧。

1 相關(guān)工作

1.1 基于度量的小樣本學(xué)習(xí)方法

Koch等人在2015年提出了基于度量的小樣本學(xué)習(xí)方法,采用孿生神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)如何區(qū)別不同的圖像特征,并遷移到新的類中。Vinyals等人[7]在2016年提出了一種直接將查詢圖像與支持類進(jìn)行比較的MatchingNets(匹配網(wǎng)絡(luò)),同時(shí)還提出了在小樣本學(xué)習(xí)中廣泛使用的episodic訓(xùn)練策略。Snell等人[8]在2017年提出了ProtoNet(原型網(wǎng)絡(luò)),把類中所有樣本的均值向量作為一個(gè)原型來(lái)表示一個(gè)類,然后使用一個(gè)特定的距離度量來(lái)執(zhí)行最終的分類。為了避免選擇特定的度量函數(shù),Sung等人[9]在2018年提出了RelationNet(關(guān)系網(wǎng)絡(luò)),試圖通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)度量來(lái)衡量圖像之間的相似性。葉萌等人[10]在2021年提出一種特征聚合網(wǎng)絡(luò),嘗試通過(guò)該網(wǎng)絡(luò)將原始特征向更優(yōu)的特征空間中進(jìn)行偏移,最終使得同類樣本之間的特征向量分布更為緊湊,從而提升特征提取的有效性。在2022年,Wang等人[11]提出了一種簡(jiǎn)單有效的不可知度量(TSMA)方法,來(lái)幫助基于度量的FSL方法取得更好的效果,并可以適用到大多數(shù)基于度量的小樣本方法中。Gao等人[12]考慮了淺層特征,提出了多距離度量網(wǎng)絡(luò)(MDM-Net),通過(guò)一個(gè)多輸出嵌入網(wǎng)絡(luò)將樣本映射到不同的特征空間。

上述方法都是基于圖像級(jí)的特征表示,由于小樣本中每個(gè)類別的樣本數(shù)不足,所以每個(gè)類別的分布無(wú)法在圖像級(jí)特征的空間中進(jìn)行可靠的估計(jì)。在2019年,Li等人提出了CovaMNet[13]和 DN4[14]模型,實(shí)驗(yàn)結(jié)果表明,相比圖像級(jí)的特征,豐富的局部特征(即深度局部描述符)可以更好地表示一幅圖像,因?yàn)榫植刻卣骺梢钥醋鍪且环N自然的數(shù)據(jù)增強(qiáng)操作。CovaMNet使用提取的深度局部描述符的二階協(xié)方差矩陣來(lái)表示每個(gè)支持類,并設(shè)計(jì)一個(gè)基于協(xié)方差的度量來(lái)計(jì)算查詢圖像和支持類之間的相似性。與CovaMNet不同,DN4 認(rèn)為將局部特征池化為緊湊的圖像級(jí)表示會(huì)丟失大量的判別信息。因此,DN4 建議直接使用原始局部描述符集來(lái)表示查詢圖像和支持類,然后采用余弦相似度來(lái)度量圖像之間的相似度。2021年Huang等人[15]提出了基于局部描述符的LMPNet(多原型網(wǎng)絡(luò)),使用局部描述符來(lái)表示每幅圖像,為了減少原型在樣本上平均帶來(lái)的不確定性,還引入了通道擠壓和空間激勵(lì)(SSE)注意力模塊。韋世紅等人[16]提出了一種多級(jí)度量網(wǎng)絡(luò)的小樣本學(xué)習(xí)方法,將圖像—圖像的度量與圖像—類的度量進(jìn)行結(jié)合,從多個(gè)角度考慮圖像的表達(dá)分布以有效挖掘圖像語(yǔ)義信息。

1.2 孿生神經(jīng)網(wǎng)絡(luò)

孿生神經(jīng)網(wǎng)絡(luò)實(shí)際是使用同一個(gè)嵌入網(wǎng)絡(luò)提取圖像的圖像級(jí)特征,將圖像映射成向量,使用兩個(gè)向量之間絕對(duì)差的值,代表了兩幅圖像的相似程度。在訓(xùn)練時(shí)輸入的是一對(duì)樣本而不是單個(gè)樣本,如果兩個(gè)輸入圖像來(lái)自同一類,標(biāo)簽為1,不同的類標(biāo)簽為0。然后通過(guò)交叉熵函數(shù)計(jì)算損失。測(cè)試時(shí)將樣本對(duì)依次輸入到孿生神經(jīng)網(wǎng)絡(luò)中,得到每對(duì)樣本的距離,選取距離最小的測(cè)試集標(biāo)簽作為測(cè)試樣本的類別,從而完成分類。

如圖1所示,孿生神經(jīng)網(wǎng)絡(luò)的一對(duì)輸入(x1,x2),經(jīng)過(guò)同一卷積神經(jīng)網(wǎng)絡(luò)后,最后一個(gè)卷積層中的高維向量被展開為單個(gè)向量,接著是一個(gè)全連接層。然后根據(jù)前一個(gè)全連接層的輸出 (h1,h2) 計(jì)算誘導(dǎo)距離,最后使用sigmoid激活函數(shù)進(jìn)行預(yù)測(cè)。孿生神經(jīng)網(wǎng)絡(luò)計(jì)算兩幅圖像相似度距離度量的公式為

D(x1,x2)=σ(∑jαjhj1-hj2)(1)

其中:σ代表激活函數(shù),這里使用的是sigmoid; αj是模型在訓(xùn)練時(shí)學(xué)習(xí)到的參數(shù),用于加權(quán)分量距離的重要性。最后一層,在前一層的學(xué)習(xí)特征空間上引入一個(gè)度量,然后經(jīng)過(guò)激活函數(shù)得出(x1,x2)全局特征向量的相似度分?jǐn)?shù)。

受CovaMNet和DN4的啟發(fā),本文提出的DM-SiameseNet在SiameseNet上引入局部描述符,使用圖像級(jí)特征和豐富的深度局部描述符共同來(lái)表示圖像,解決圖像級(jí)特征表示的度量存在的問(wèn)題。

2 問(wèn)題定義和訓(xùn)練方法

2.1 問(wèn)題定義

小樣本學(xué)習(xí)問(wèn)題通常涉及支持集(support set)、查詢集(query set)和輔助集(auxiliary set)三個(gè)數(shù)據(jù)集,分別表示為S、Q和A。支持集和查詢集共享相同的標(biāo)簽空間。如果支持集S包含N個(gè)類,每個(gè)類包含K個(gè)樣本,則這種少樣本分類任務(wù)稱為N-way K-shot任務(wù)。然而,在支持集S中,每個(gè)類通常只包含幾個(gè)樣本(例如,K=1或5),用這幾個(gè)樣本直接訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)很容易出現(xiàn)過(guò)擬合。因此,通常通過(guò)從輔助集A學(xué)習(xí)可遷移知識(shí)來(lái)緩解這個(gè)問(wèn)題。集合A的類較多,每個(gè)類包含大量的標(biāo)注樣本,但集合A相對(duì)于集合S有一個(gè)不相交的類標(biāo)簽空間。

2.2 Episodic訓(xùn)練策略

為了訓(xùn)練一個(gè)泛化能力強(qiáng)的分類器,基于度量的小樣本學(xué)習(xí)方法在訓(xùn)練階段通常采用episodic訓(xùn)練策略[7]。具體來(lái)說(shuō),在每一個(gè)episodic中,從輔助集A中隨機(jī)構(gòu)建一個(gè)查詢集AQ和一個(gè)支持集AS,它們分別類似于S和Q。在每次迭代訓(xùn)練時(shí),采用一個(gè)episodic任務(wù)來(lái)訓(xùn)練當(dāng)前模型。訓(xùn)練時(shí)會(huì)構(gòu)建數(shù)萬(wàn)個(gè)episode來(lái)訓(xùn)練分類模型,即episodic training。測(cè)試階段,通過(guò)支持集S,學(xué)習(xí)到的模型可以直接用于對(duì)Q中的圖像進(jìn)行分類。

3 雙重度量孿生神經(jīng)網(wǎng)絡(luò)模型

圖2是本文的雙重度量孿生神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),模型由特征提取模塊、雙重度量模塊和分類器模塊組成。特征提取模塊用于提取輸入圖像的圖像級(jí)特征和豐富的局部描述符。

雙重度量模塊定義了查詢圖像(query image)和支持圖像(support image)之間的圖像級(jí)特征度量和局部描述符度量。對(duì)于最后一個(gè)模塊,通過(guò)可學(xué)習(xí)的權(quán)重向量自適應(yīng)地將局部和全局度量關(guān)系融合在一起,然后采用非參數(shù)最近鄰分類器作為最終分類器。這三個(gè)模塊直接以端到端的方式訓(xùn)練,沒(méi)有使用微調(diào)、蒸餾和預(yù)訓(xùn)練等技巧。具體來(lái)說(shuō),對(duì)于一對(duì)樣本S和Q,首先經(jīng)過(guò)特征提取網(wǎng)絡(luò)提取圖像特征,然后在雙重度量模塊分別得到全局特征度量結(jié)果和局部特征度量結(jié)果,最后經(jīng)過(guò)分類器模塊輸出S和Q之間的相似度得分。

3.1 特征提取模塊

本文的DM-SiameseNet模型使用Conv64F(用Ψ表示)嵌入網(wǎng)絡(luò)來(lái)學(xué)習(xí)查詢圖像和支持集的圖像級(jí)特征表示和局部特征表示。Conv64F包含四個(gè)卷積塊,每個(gè)卷積塊由Conv層、BN層、ReLU層和MP層組成,并且最后沒(méi)有全連接層,給定一個(gè)圖像X,通過(guò)嵌入網(wǎng)絡(luò)后輸出的Ψ(X)是一個(gè)h×w×c維的張量(分別代表高、寬和通道數(shù)),用于接下來(lái)雙重度量模塊的圖像級(jí)特征度量和局部特征度量。

3.2 雙重度量模塊

雙重度量模塊由圖像級(jí)特征度量和局部特征度量?jī)蓚€(gè)分支組成,兩個(gè)分支使用特征提取模塊輸出的h×w×c維的張量分別度量?jī)蓚€(gè)不同級(jí)別的特征。

3.2.1 圖像級(jí)特征度量

將嵌入網(wǎng)絡(luò)輸出的Ψ(X)(h×w×c的三維張量)進(jìn)行flatten操作后,得到圖像全局特征,然后用于計(jì)算基于圖像級(jí)特征表示的度量。對(duì)于圖像Q和S的圖像級(jí)度量(image-level measure)結(jié)果可以表示為

DILM(Q,S)=σ(∑jαjhj1-hj2)(2)

其中:α j是模型在訓(xùn)練時(shí)學(xué)習(xí)到的參數(shù),用于加權(quán)分量距離的重要性;σ代表激活函數(shù),最后得出兩個(gè)全局特征向量的相似度分?jǐn)?shù)。和孿生神經(jīng)網(wǎng)絡(luò)的圖像級(jí)特征度量唯一不同的是,此處使用的是tanh激活函數(shù)而不是sigmoid,因?yàn)樵谙旅娴木植刻卣鞫攘恐?,使用的余弦相似度作為度量函?shù),度量結(jié)果的取值是[-1,1],當(dāng)結(jié)果越趨向于1時(shí),表示相似程度越高,當(dāng)結(jié)果越趨向于-1時(shí),表示相似程度越低。兩種度量的取值范圍要保持一致,所以此處使用tanh激活函數(shù)。

3.2.2 局部特征度量

上面的基于圖像級(jí)特征的度量可以捕獲圖像之間的圖像級(jí)關(guān)系,但沒(méi)有考慮到局部關(guān)系。根據(jù)對(duì)Li等人提出的DN4模型的深度分析可知,使用的基于局部描述符的表示比基于圖像級(jí)特征的表示具有更強(qiáng)的泛化能力。因此,這種基于局部描述符的圖像到類(image-to-class)的度量也被引入到模型中,以捕獲圖像間的局部特征關(guān)系。

具體來(lái)說(shuō),圖像Q和S,經(jīng)過(guò)特征提取模塊后,得到分別擁有m(m=w×h)個(gè)d維局部描述子組合的Ψ(Q)和Ψ(S)。對(duì)于Ψ(Q)中的每一個(gè)局部描述子xi,在Ψ(S)中找到k個(gè)和xi最相似的局部描述子[1,…,k],然后使用余弦相似度分別計(jì)算xi和k個(gè)i的余弦相似度,累加得到局部描述符xi的相似度。用同樣方法分別計(jì)算Ψ(Q)中m個(gè)局部描述符的相似度,最后將m局部描述符的相似度求和后再除(m×k),作為圖像Q和S基于局部描述符度量的相似度。從公式上Q和S的相似度可以表示為

DI2C(Q,S)=∑mi=1∑kj=1cos(xi,ji)m×k,cos(xi,ji)=xTii‖xi‖·‖i‖(4)

其中:cos(·)代表余弦相似度;超參數(shù)k在本文中為3,關(guān)于k對(duì)最終分類結(jié)果的影響在4.6節(jié)中詳細(xì)闡述。

3.3 分類器模塊

雙重度量模塊分別得到了圖像間的全局特征關(guān)系和局部特征關(guān)系,因此在分類器模塊需要設(shè)計(jì)融合策略來(lái)整合這兩部分關(guān)系。本文采用和ADM[17]相同的融合策略,使用可學(xué)習(xí)的二維權(quán)重向量W=[w1,w2]來(lái)實(shí)現(xiàn)融合,圖像Q和S之間的最終融合相似度可以定義為

D(Q,S)=w1·DILM(Q,S)+w2·DI2C(Q,S)(5)

在N-way K-shot情景訓(xùn)練中,雙重度量模塊的圖像級(jí)特征度量分支(ILM)和局部特征度量分支(I2C)分別輸出一個(gè)N維相似度向量。接下來(lái),將這兩個(gè)向量連接在一起,得到一個(gè)2N維向量,接著使用一個(gè)批歸一化層,以平衡兩部分相似性的比例,然后使用一個(gè)一維卷積,其中kernel大小為 1×1,dilation值為N。這樣,就通過(guò)學(xué)習(xí)一個(gè)二維權(quán)重向量W來(lái)獲得一個(gè)加權(quán)的N維相似度向量。最后,執(zhí)行非參數(shù)的最近鄰分類器以獲得最終的分類結(jié)果。例如在5-way 1-shot情景訓(xùn)練中,ILM分支和I2C分支分別輸出一個(gè)5維的相似度向量,將兩個(gè)向量拼接到一起后得到一個(gè)10維的相似度向量,接著使用一個(gè)kernel大小為 1×1,dilation值為5的一維卷積,這樣,就可以通過(guò)學(xué)習(xí)2維權(quán)重向量W,得到一個(gè)加權(quán)的5維相似性向量,最后使用非參數(shù)的最近鄰分類器進(jìn)行分類。

4 實(shí)驗(yàn)

在本章中使用miniImageNet和tieredImageNet這兩個(gè)小樣本公共數(shù)據(jù)集,以及Stanford Dogs、Stanford Cars、CUB-200-2010這三個(gè)細(xì)粒度基準(zhǔn)數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn),以評(píng)估所提出的DM-SiameseNet模型。源代碼可以從https://github.com/wangkang1022/DM-SiameseNet上獲取。

4.1 數(shù)據(jù)集

miniImageNet[7]數(shù)據(jù)集是ImageNet[18]的一個(gè)子集,該數(shù)據(jù)集包含100個(gè)類,每個(gè)類有600張圖像。在100個(gè)類中選取64個(gè)用于訓(xùn)練、16個(gè)用于驗(yàn)證,剩下20個(gè)用于測(cè)試集;tiered-ImageNet[19]數(shù)據(jù)集是ImageNet的另一個(gè)子集,包含34個(gè)超類別,34個(gè)超類共包含608個(gè)類。將超類別拆分為20、6、8,然后分別產(chǎn)生351、97、160個(gè)類作為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

本文選取了三個(gè)細(xì)粒度數(shù)據(jù)集,即Stanford Dogs、Stanford Cars和CUB-200-2010來(lái)進(jìn)行細(xì)粒度的小樣本圖像分類任務(wù)。Stanford Dogs包含120種狗,共20 580張圖像,其中70種用做輔助訓(xùn)練,20種用做驗(yàn)證集,最后30種用做測(cè)試集;Stanford Cars數(shù)據(jù)集共有196個(gè)類別,共16 185幅圖像,其中130個(gè)類用做訓(xùn)練集,17個(gè)類用做驗(yàn)證集, 49個(gè)類用做測(cè)試集; CUB-200-2010數(shù)據(jù)集包含200種鳥類,共6 033張圖像,其中130個(gè)類用做訓(xùn)練集,20個(gè)類用做驗(yàn)證集,50個(gè)類用做測(cè)試集。

4.2 實(shí)現(xiàn)細(xì)節(jié)

本文使用5-way 1-shot和5-way 5-shot 分類任務(wù)來(lái)評(píng)估方法的性能。在訓(xùn)練和測(cè)試階段的每個(gè)episodic(任務(wù))中,每個(gè)類使用15個(gè)查詢圖像。采用episodic 訓(xùn)練機(jī)制,并以端到端的方式訓(xùn)練網(wǎng)絡(luò),沒(méi)有使用預(yù)訓(xùn)練、蒸餾以及微調(diào)等技巧。在訓(xùn)練階段,使用Adam算法對(duì)所有模型進(jìn)行30個(gè)epoch 的訓(xùn)練。在每個(gè)epoch中,隨機(jī)構(gòu)造10 000個(gè)episodic(任務(wù))。此外,5-way 1-shot和5-way 5-shot初始學(xué)習(xí)率都設(shè)置為1×10-4,每10個(gè)epoch按乘0.5速率衰減。測(cè)試時(shí)隨機(jī)構(gòu)造1 000個(gè)episodic來(lái)計(jì)算準(zhǔn)確度,然后重復(fù)5次求平均值作為最終實(shí)驗(yàn)的結(jié)果。以top-1平均準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),同時(shí)還給出了95%置信區(qū)間。

4.3 對(duì)比方法

本文方法屬于基于度量學(xué)習(xí)的小樣本方法,所以主要和基于度量學(xué)習(xí)的方法進(jìn)行對(duì)比,包括ProtoNet、RelationNet、IMP[20]、CovaMNet、DN4、CAN[21]、LMPNet、Proto-TSMA、SiameseNet。同時(shí)還選取了主要的元學(xué)習(xí)方法,包括MAML[22]、Baseline[23]、Baseline++[23]、TAML[24]、MetaOptNet-R[25]、Versa[26]、R2D2[27]、LEO[28]。同時(shí)進(jìn)一步將基于度量學(xué)習(xí)方法根據(jù)圖像表示方式的不同,分為了基于圖像級(jí)特征表示的度量和基于局部描述符表示的度量,來(lái)與本文提出的雙重度量進(jìn)行比較。

4.4 在miniImageNet和tieredImageNet上的分類結(jié)果

表1中展示了在miniImageNet和tieredImageNet數(shù)據(jù)集上各方法的結(jié)果,最高和次高結(jié)果以粗體顯示。第一列指出了方法的名稱,第二列指出方法采用的嵌入模塊,第三列是方法的類型,第四列顯示在5-way 1-shot和5-way 5-shot上具有 95% 置信區(qū)間的分類精度。在對(duì)SiameseNet進(jìn)行復(fù)現(xiàn)時(shí),本文采用了episodic 訓(xùn)練機(jī)制進(jìn)行訓(xùn)練,這是與Koch等人的原始訓(xùn)練方法不同的地方。其他方法的復(fù)現(xiàn)結(jié)果和原始論文保持一致。

本文將所提出的方法與其他小樣本方法做了公平對(duì)比,從表1可以看出,在miniImageNet數(shù)據(jù)集上,本文方法相比改進(jìn)前的孿生神經(jīng)網(wǎng)絡(luò)(SiameseNet)在5-way 1-shot和5-way 5-shot上的準(zhǔn)確度分別提高了5.04%和9.66%。經(jīng)過(guò)分析可知,結(jié)果的大幅提高是因?yàn)楦倪M(jìn)后的模型可以捕獲圖像中更多豐富的局部特征信息,在一定程度上彌補(bǔ)了圖像級(jí)特征表示在度量時(shí)對(duì)位置和復(fù)雜背景敏感的不足。此外,miniImageNet數(shù)據(jù)集上,改進(jìn)后的方法在5-way 1-shot和5-way 5-shot上的準(zhǔn)確度均高于其他基于度量和基于元學(xué)習(xí)的小樣本方法。除本文提出的方法外,在1-shot和5-shot上,結(jié)果最好的方法是LEO和DN4,分別為52.15%和71.02%,仍然比本文的DM-SiameseNet低了約2.12%和0.57%。在1-shot分類結(jié)果上,本文方法的優(yōu)勢(shì)是非常明顯的。而在tieredImageNet數(shù)據(jù)集上,本文方法依然可以取得良好的結(jié)果,特別是在1-shot情況下。

表2專門給出了不同級(jí)別特征表示的度量方法,以及本文提出的雙重度量在miniImageNet數(shù)據(jù)集上置信區(qū)間為95%的結(jié)果比較,最高和次高結(jié)果以粗體顯示。結(jié)果表明,相比于單一使用圖級(jí)特征或者局部描述符來(lái)表示圖像的小樣本方法, 本文方法可以取得最好的分類效果。因?yàn)镈M-SiameseNet綜合考慮兩種不同級(jí)別的特征,采用圖像級(jí)特征和豐富的局部描述符共同表示每一幅圖像,并且使用了自適應(yīng)融合策略來(lái)綜合考慮兩種不同級(jí)別的度量關(guān)系,可以學(xué)習(xí)到更好的分類效果。

4.5 在細(xì)粒度數(shù)據(jù)集上的分類結(jié)果

為了證明本文方法在考慮圖像全局特征的情況下還能提取豐富的局部特征,本文在Stanford Dogs、Stanford Cars和CUB-200-2010這三個(gè)細(xì)粒度數(shù)據(jù)集上進(jìn)行了大量小樣本分類任務(wù)的實(shí)驗(yàn)。表3顯示了不同級(jí)別特征表示的度量方法在三個(gè)細(xì)粒度圖像上的分類結(jié)果,其中置信區(qū)間為95%,最高和次高結(jié)果以粗體顯示,DM-SiameseNet是本文方法。相比通常的圖像分類任務(wù),細(xì)粒度圖像分類的難點(diǎn)在于其所屬類別的粒度更加精細(xì),比如“哈士奇”和“愛(ài)斯基摩犬”這兩種細(xì)粒度類別,只有耳朵形狀及毛發(fā)等局部特征上有差別,所以大多數(shù)方法嘗試通過(guò)捕獲有區(qū)別性的局部特征來(lái)實(shí)現(xiàn)分類。從表3中可以看到,本文方法在三個(gè)數(shù)據(jù)集上均取得了出色的表現(xiàn),特別是在1-shot情況下,分別比次高方法提高了1.68%、2.22%、2.92%。實(shí)驗(yàn)結(jié)果證明,相比單一使用基于圖像級(jí)特征表示的度量方法或者基于局部描述符表示的度量方法,本文雙重度量方法應(yīng)用在細(xì)粒度圖像上可以取得更好的效果。因?yàn)橛袇^(qū)別性的局部特征雖然重要,但全局特征在分類時(shí)仍然起一定作用。所以能綜合考慮圖像的全局特征和局部信息的DM-SiameseNet,在細(xì)粒度圖像分類上具有一定優(yōu)勢(shì)。

4.6 超參數(shù)k對(duì)實(shí)驗(yàn)結(jié)果的影響

在雙重度量模塊的局部特征度量分支中,本文需要為查詢圖像Q的每個(gè)局部描述符在支持集S中通過(guò)余弦相似度找到k個(gè)最相似的局部描述符,那么k的取值會(huì)對(duì)最終結(jié)果造成怎樣的影響呢?為此,本文通過(guò)改變k(1、3、5、7)的值來(lái)測(cè)試模型在miniImageNet上5-way 1-shot和5-way 5-shot情況下的分類結(jié)果,訓(xùn)練和測(cè)試時(shí)k值保持一致。分類結(jié)果如表4所示。可以看出,k的不同取值在1-shot情況對(duì)結(jié)果的影響大致在4%以內(nèi),在5-shot情況對(duì)結(jié)果的影響大致在1%以內(nèi)。對(duì)于1-shot情況,當(dāng)k取2或3的時(shí)候結(jié)果最優(yōu),因?yàn)榇藭r(shí)支持集中每個(gè)類別只有一個(gè)樣本,當(dāng)k取1時(shí),每個(gè)局部描述符只能在這一個(gè)樣本中匹配一個(gè)和其相似的局部描述符,其度泛化能力弱,無(wú)法得到理想結(jié)果,而當(dāng)k>3后,每個(gè)局部描述符匹配多個(gè)(>3)和其相似的局部描述符,度量時(shí)可能對(duì)不同局部特征的敏感度下降,無(wú)法很好地區(qū)別不同的局部特征;對(duì)于5-shot情況,因?yàn)橹С旨忻總€(gè)類別有5個(gè)樣本,分類時(shí)一般不會(huì)出現(xiàn)泛化能力弱的問(wèn)題,所以k的取值對(duì)結(jié)果影響較小。綜合上述原因,本文在實(shí)驗(yàn)中超參數(shù)k都設(shè)置為3。

5 結(jié)束語(yǔ)

在本文中,針對(duì)孿生神經(jīng)網(wǎng)絡(luò)圖像級(jí)特征表示的度量存在的問(wèn)題,提出了一種雙重度量孿生神經(jīng)網(wǎng)絡(luò)(DM-SiameseNet)模型來(lái)解決孿生神經(jīng)網(wǎng)絡(luò)中存在圖像級(jí)特征表示的度量對(duì)位置、復(fù)雜背景及類內(nèi)差異比較敏感的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型在考慮了圖像的全局特征下,還可以捕獲圖像中更多有效的局部信息,通過(guò)自適應(yīng)融合策略,能充分考慮雙重度量(基于圖像級(jí)特征的度量和基于局部描述符的度量)的關(guān)系,從而達(dá)到更好的分類效果。通過(guò)在Stanford Dogs、Stanford Cars和CUB-200-2010這三個(gè)細(xì)粒度圖像的實(shí)例探究表明,雙重度量比單一使用圖像級(jí)特征度量或者局部特征度量更具有優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明在1-shot情況下,本文方法在多個(gè)數(shù)據(jù)集上的結(jié)果是非常具有競(jìng)爭(zhēng)性的。而在k-shot(k>1)情況下,本文方法還需要找到一個(gè)更好的特征融合策略來(lái)提高分類精度,接下來(lái)會(huì)更加關(guān)注在k-shot(k>1)下的研究。

參考文獻(xiàn):

[1]李新葉, 龍慎鵬, 朱婧. 基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2020,37(8): 2241-2247. (Li Xinye, Long Shenpeng, Zhu Jing. A survey of few-shot learning based on deep neural networks[J]. Application Research of Computers, 2020, 37(8): 2241-2247.)

[2]Jankowski N, Duch W, Grbczewski K. Meta-learning in computational intelligence[M]. Berlin:Springer, 2011: 97-115.

[3]Lake B M, Salakhutdinov R R, Tenenbaum J. One-shot learning by inverting a compositional causal process[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2013:2526-2534.

[4]Munkhdalai T, Yu Hong . Meta networks[C]//Proc of the 34th International Conference on Machine Learning. New York: ACM Press, 2017: 2554-2563.

[5]Xing E P, Jordan M I, Russell S, et al. Distance metric learning with application to clustering with side-information[C]//Proc of the 15th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2002: 505-512.

[6]Koch G, Zemel R, Salakhutdinov R. Siamese neural networks for one-shot image recognition[C]//Proc of the 32nd International Conference on Machine Learning Deep Learning. New York: ACM Press, 2015: 6-36.

[7]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2016: 3637-3645.

[8]Snell J, Swersky K, Zemel R. Prototypical networks for few-shot learning[C]//Advances in Neural Information Processing Systems. Long Beach, USA: NIPS Press, 2017: 4078-4088.

[9]Sung F, Yang Yongxin, Zhang Li, et al. Learning to compare:relation network for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1199-1208.

[10]葉萌, 楊娟, 汪榮貴, 等. 基于特征聚合網(wǎng)絡(luò)的小樣本學(xué)習(xí)方法[J]. 計(jì)算機(jī)工程, 2021, 47(3): 77-82. (Ye Meng, Yang Juan, Wang Ronggui, et al. Few-shot learning method based on feature aggregation network[J]. Computer Engineering, 2021,47(3):77-82.)

[11]Wang Heng, Li Yong. Task-specific method-agnostic metric for few-shot learning[J]. Neural Computing and Applications, 2023,35(4): 3115-3124.

[12]Gao Farong, Cai Lijie, Yang Zhangyi, et al. Multi-distance metric network for few-shot learning[J]. International Journal of Machine Learning and Cybernetics, 2022,13(9): 2495-2506.

[13]Li Wenbin, Xu Jinglin, Huo Jing, et al. Distribution consistency based covariance metric networks for few-shot learning[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto, CA: AAAI Press,2019: 8642-8649.

[14]Li Wenbin, Wang Lei, Xu Jinglin, et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 7253-7260.

[15]Huang Hongwei, Wu Zhangkai, Li Wenbin, et al. Local descriptor-based multi-prototype network for few-shot learning[J]. Pattern Recognition, 2021,116: 107935.

[16]韋世紅, 劉紅梅, 唐宏, 等. 多級(jí)度量網(wǎng)絡(luò)的小樣本學(xué)習(xí)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023,59(2): 94-101. (Wei Shihong, Liu Hongmei, Tang Hong, et al. Multilevel metric networks for few-shot learning[J]. Computer Engineering and Applications, 2023, 59(2): 94-101.)

[17]Li Wenbin, Wang Lei, Huo Jing, et al. Asymmetric distribution measure for few-shot learning[EB/OL]. (2020-02-01) . https://arxiv.org/abs/2002.00153.

[18]Deng Jia, Dong Wei, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255

[19]Zheng Yan, Wang Ronggui, Yang Juan, et al. Principal characteristic networks for few-shot learning[J]. Journal of Visual Communication and Image Representation, 2019,59: 563-573.

[20]Allen K, Shelhamer E, Shin H, et al. Infinite mixture prototypes for few-shot learning[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2019: 232-241.

[21]Hou Ruibing, Chang Hong, Ma Bingpeng, et al. Cross attention network for few-shot classification[C]//Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2019: 4005-4016.

[22]Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2017: 1126-1135.

[23]Chen Weiyu, Liu Yencheng, Kira Z, et al. A closer look at few-shot classification[EB/OL]. (2021-03-21) . https://arxiv.org/abs/1904.04232.

[24]Jamal M A, Qi Guojun. Task agnostic meta-learning for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ : IEEE Press, 2019: 10657-10665.

[25]Lee K, Maji S, Ravichandran A, et al. Meta-learning with differentiable convex optimization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 10657-10665.

[26]Gordon J, Bronskill J, Bauer M, et al. Versa:versatile and efficient few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 1-9.

[27]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[EB/OL]. (2019-07-24) . https://arxiv.org/abs/1805.08136.

[28]Rusu A A, Rao D, Sygnowski J, et al. Meta-learning with latent embedding optimization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019.

收稿日期:2022-11-28;修回日期:2023-01-07? 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61976217)

作者簡(jiǎn)介:孫統(tǒng)風(fēng)(1976-),男,江蘇徐州人,副教授,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、小樣本學(xué)習(xí)、圖像視頻感知;王康(1994-),男(通信作者),安徽宿州人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、小樣本學(xué)習(xí)(8978932003@qq.com);郝徐(1997-),男,江蘇徐州人,碩士研究生,主要研究方向?yàn)槟繕?biāo)檢測(cè).

猜你喜歡
特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
噪聲環(huán)境下滾動(dòng)軸承故障特征提取
淺析零件圖像的特征提取和識(shí)別方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循環(huán)域解調(diào)的多故障特征提取
临城县| 山阴县| 沾化县| 法库县| 若羌县| 台中市| 潜江市| 滦南县| 耒阳市| 宣化县| 昔阳县| 菏泽市| 西充县| 小金县| 芒康县| 崇义县| 济阳县| 昌乐县| 芦溪县| 太湖县| 太谷县| 历史| 榆林市| 西乡县| 兴宁市| 沽源县| 博白县| 磴口县| 赫章县| 金华市| 大邑县| 交城县| 贡觉县| 霍林郭勒市| 清涧县| 肥乡县| 扬州市| 寻乌县| 喀喇沁旗| 连江县| 东台市|