摘 要:針對(duì)小樣本學(xué)習(xí)中,布朗距離協(xié)方差通過改善特征嵌入提升分類精度,但未聚焦分類中樣本相關(guān)性特征的問題,提出了深度掩膜布朗距離協(xié)方差方法。該方法通過每對(duì)查詢集與支持集之間的高維語(yǔ)意關(guān)系,生成查詢引導(dǎo)掩膜,并將掩膜后的布朗距離協(xié)方差矩陣用作圖像特征表示。分別在5way-1shot和5way-5shot情形下,對(duì)CUB-200-211、Mini-ImageNet及Tiered-ImageNet數(shù)據(jù)集進(jìn)行評(píng)估驗(yàn)證,實(shí)驗(yàn)表明,深度掩膜布朗距離協(xié)方差方法取得了更優(yōu)的分類精度。
關(guān)鍵詞:小樣本學(xué)習(xí);掩膜;布朗距離協(xié)方差;圖像識(shí)別
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-044-2229-06
doi: 10.19734/j.issn.1001-3695.2023.09.0514
Deep mask Brownian distance covariance for few-shot classification
Abstract: In few-shot learning, the Brownian distance covariance improves classification accuracy by enhancing feature embeddings, but it does not focus on the issue of sample-related features in classification. This paper proposed the deep masked Brownian distance covariance method that generated query-guided masks based on high-dimensional semantic relationships between each pair of query and support samples, and employed the masked Brownian distance covariance matrix as the image features. Under the 5way-1shot and 5way-5shot scenarios, it carried out validation and evaluation on CUB-200-211, Mini-ImageNet, and Tiered-ImageNet datasets. The experiments show that this method achieves superior classification accuracy.
Key words:few-shot learning; mask; Brownian distance covariance; image recognition
0 引言
人工智能技術(shù)飛速發(fā)展的當(dāng)下,大數(shù)據(jù)的處理與運(yùn)用正逐步成為衡量科技水平的一大重要標(biāo)準(zhǔn)。深度學(xué)習(xí)(deep lear-ning)作為人工智能技術(shù)中不可或缺的一環(huán),被廣泛應(yīng)用于自動(dòng)駕駛、圖像識(shí)別、情感分析、文本辨識(shí)等領(lǐng)域,其借助海量數(shù)據(jù)支撐計(jì)算機(jī)學(xué)習(xí),達(dá)到解決實(shí)際問題的目的,并取得了矚目的成果。這些優(yōu)異的成績(jī)都要依托于蓬勃發(fā)展的算力資源,促進(jìn)機(jī)器從大量的數(shù)據(jù)中學(xué)習(xí)知識(shí)信息,并應(yīng)用于現(xiàn)實(shí)場(chǎng)景。然而并不是所有的問題都有與之適應(yīng)的海量數(shù)據(jù)用作訓(xùn)練。諸如,瀕危動(dòng)物識(shí)別、軍事武器識(shí)別、罕見疾病識(shí)別等。由于其已知樣本稀少的缺點(diǎn),傳統(tǒng)的深度學(xué)習(xí)方法在識(shí)別精度方面明顯捉襟見肘,所以小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)[1,2]的概念應(yīng)運(yùn)而生。
小樣本學(xué)習(xí)的靈感源于實(shí)際生活,人類可以在只有少量學(xué)習(xí)數(shù)據(jù)或圖像的情況下習(xí)得相關(guān)知識(shí),認(rèn)識(shí)新事物。例如:資深的醫(yī)生能通過少數(shù)的癥狀來(lái)判斷患者是否患有某種罕見疾病。這不同于深度學(xué)習(xí)中圖像識(shí)別需要大量訓(xùn)練代價(jià),即對(duì)海量圖像數(shù)據(jù)訓(xùn)練,且對(duì)訓(xùn)練圖像的獲取及標(biāo)注也有一定要求,從而耗費(fèi)巨大的時(shí)間和人力成本。小樣本學(xué)習(xí)的出現(xiàn),旨在通過極少量的樣本學(xué)習(xí),高效地獲取知識(shí),賦予機(jī)器快速學(xué)習(xí)的能力。
目前小樣本學(xué)習(xí)還面臨著諸多挑戰(zhàn):由于只有極少量的樣本,提取的信息量有限;如何利用好暨有的樣本信息,避免過擬合,更加精準(zhǔn)地進(jìn)行識(shí)別顯得至關(guān)重要。當(dāng)前較為有效的方法是基于遷移學(xué)習(xí)的方法,它包含基于度量的學(xué)習(xí)方法[3]和基于元學(xué)習(xí)的方法。遷移學(xué)習(xí)方法將數(shù)據(jù)集劃分為訓(xùn)練集(training set)、支持集(support set)和查詢集(query set)三個(gè)部分。度量學(xué)習(xí)方法中,通常用歐氏距離或余弦距離衡量支持集和查詢集之間的相似性,以識(shí)別查詢集樣本。而元學(xué)習(xí)方法(meta-learning),亦稱學(xué)會(huì)學(xué)習(xí)(learning to learn),主要通過大量的先驗(yàn)任務(wù)學(xué)習(xí)元知識(shí),繼而指導(dǎo)模型在后續(xù)新的小樣本任務(wù)中更快地學(xué)習(xí)。兩者都采用了episodic training的訓(xùn)練模式,將數(shù)據(jù)集細(xì)分為多個(gè)小的子任務(wù)進(jìn)行訓(xùn)練。
小樣本學(xué)習(xí)經(jīng)過近些年的研究與發(fā)展,可應(yīng)對(duì)不同的使用場(chǎng)景,萌生了諸多優(yōu)秀的方法。Snell等人[4]提出了原型網(wǎng)絡(luò)(prototypical network,ProtoNet),通過將分類問題看作是尋找語(yǔ)義上的類中心點(diǎn)的方式,不斷擬合類別中心,提煉類原型,用作分類。隨后,Sung等人[5]提出了關(guān)系網(wǎng)絡(luò)(relation network,RN),利用4層的卷積神經(jīng)網(wǎng)絡(luò)提取低維嵌入,并使用ReLU函數(shù)進(jìn)行相似性度量。在此基礎(chǔ)上,Zhang等人[6]提出了深度比較網(wǎng)絡(luò)(deep comparison network,DCN),將關(guān)系模塊與嵌入學(xué)習(xí)模塊細(xì)分成多個(gè)子模塊,并一一對(duì)應(yīng)建立聯(lián)系,各自打分并計(jì)算匹配度。Yu等人[7]提出了多任務(wù)聚類元學(xué)習(xí)方法,根據(jù)任務(wù)生成多個(gè)簇,每個(gè)簇具有相似的任務(wù),模型參數(shù)由各簇的適應(yīng)參數(shù)線性表示。Wang等人[8]提出了任務(wù)感知特征嵌入網(wǎng)絡(luò)(TAFE-Net),首次將標(biāo)簽嵌入納入到網(wǎng)絡(luò)架構(gòu)中來(lái)對(duì)圖像特征的權(quán)重進(jìn)行預(yù)測(cè),使得語(yǔ)義信息與圖像信息融合。Tian等人[9]提出了基于優(yōu)秀嵌入的方法(good embedding),探討了特征嵌入表示在小樣本學(xué)習(xí)任務(wù)中的重要性,與傳統(tǒng)元學(xué)習(xí)方法比較,僅在微調(diào)(fine-tunning)階段就能達(dá)到與之相似的效果,為小樣本學(xué)習(xí)打開了一扇新的大門。Zhang等人[10]提出基于推土距離的小樣本學(xué)習(xí)方法(differentiable earth mover’s distance,EMD),借助差分EMD用于圖像區(qū)域間的最佳匹配運(yùn)算,借助大量的計(jì)算獲得了不俗的性能。
現(xiàn)有統(tǒng)計(jì)學(xué)方法,將圖像特征看作高維空間中的隨機(jī)向量,并以概率分布衡量圖像之間的相似程度。通常使用原型網(wǎng)絡(luò)(ProtoNet)對(duì)圖像表征,輔以歐幾里德距離或余弦距離進(jìn)行度量學(xué)習(xí)。Li等人[11]提出了協(xié)方差度量網(wǎng)絡(luò)(covariance metric network,CovaMNet),利用協(xié)方差矩陣的二階統(tǒng)計(jì)信息衡量查詢集樣本與支持集樣本間分布的一致性。由于缺乏對(duì)圖像局部特征的考量,Li等人[12]又提出了深度最近鄰神經(jīng)網(wǎng)絡(luò)(DN4),在網(wǎng)絡(luò)的末層使用局部描述代替圖像特征,為每個(gè)查詢樣本的局部特征計(jì)算相似性,加和后得到查詢樣本的相似性。Xie等人[13]提出深度布朗距離協(xié)方差方法(deep Brownian distance covariance,DeepBDC),在二階矩陣(covariance matrix)協(xié)同Kullback-Leiberler(KL)散度度量方法的基礎(chǔ)上,綜合考量邊緣分布(marginal distribution)和聯(lián)合分布(joint distribution)生成BDC矩陣用作圖像表征,并將成對(duì)圖像之間的BDC矩陣內(nèi)積用作類間相似度的衡量指標(biāo),進(jìn)行分類任務(wù)。
掩膜最早應(yīng)用于CNN池化層中的最大池化,通過引入掩膜標(biāo)記最大池化位置,從而記錄最大池化前的位置信息,以解決最大池化可能導(dǎo)致的信息丟失問題。另一個(gè)重要的模型Transformer中的自注意力機(jī)制,通過計(jì)算輸入序列中不同位置之間的相關(guān)性來(lái)獲得每個(gè)位置的表示。為了處理可變長(zhǎng)度的序,也采用掩膜來(lái)屏蔽無(wú)效位置。例如,在機(jī)器翻譯任務(wù)中,可以使用掩碼將當(dāng)前位置之后的位置屏蔽掉,以防止模型在生成目標(biāo)序列時(shí)能夠“看到”未來(lái)的信息。目前,掩膜被廣泛應(yīng)用于圖像分割、目標(biāo)檢測(cè)、圖像生成等任務(wù)中。
盡管DeepBDC方法在傳統(tǒng)方法與統(tǒng)計(jì)學(xué)方法中脫穎而出,取得了不俗的效果,但在特征的著重點(diǎn)上仍存在著注意力不集中的問題,使得某些相近類的重要特征權(quán)重占比不明顯,忽略了一些能夠?qū)π颖緢D像分類起到重要作用的樣本信息,使得布朗距離協(xié)方差在衡量圖像上存在短板。基于上述問題,本文的工作如下:提出一種深度掩膜布朗距離協(xié)方差方法,針對(duì)不同類別的圖像具有的特征差異化問題,在生成的布朗距離協(xié)方差矩陣中引入了掩膜的方法,指導(dǎo)查詢樣本與支持樣本進(jìn)行相似性度量時(shí),將注意力側(cè)重在更能凸顯出某類圖像的表征上,進(jìn)而取得更為精準(zhǔn)的分類。
1 Deep Mask-BDC深度掩膜布朗距離協(xié)方差方法
1.1 布朗距離協(xié)方差
布朗距離協(xié)方差矩陣(BDC)[14]主要用于處理特征函數(shù)。設(shè)存在m維隨機(jī)向量X及n維隨機(jī)向量Y,使得X∈Euclid ExtraaBpm,Y∈Euclid ExtraaBpn,X與Y的概率分別定義為fX和fY,則聯(lián)合概率密度為fXY。此時(shí),X和Y的聯(lián)合特征函數(shù)定義為
其中:i為虛單位;t和s為兩隨機(jī)向量。
令X、Y分別表示X和Y的特征函數(shù),此時(shí)支持集或查詢集圖像的邊緣分布可寫為X(t)=XY(t,0)和Y(s)=XY(0,s)。當(dāng)且僅當(dāng)XY(t,s)=X(t)Y(s)時(shí),獨(dú)立性成立。假設(shè)X和Y具有有限的一階矩,BDC度量定義為
其中:cm=π(1+m)/2/Γ((1+m)/2),Γ為伽馬函數(shù);‖·‖表示歐氏距離。對(duì)于形如(x1,y1),…,(xk,yk)的k個(gè)x與y的觀測(cè)值集合,BDC度量一般可根據(jù)式(3)的經(jīng)驗(yàn)特征函數(shù)定義。
其中:a和b均為BDC矩陣A和B的上三角矩陣;ρ(X,Y)為衡量分類標(biāo)準(zhǔn)的BDC度量。
1.2 深度掩膜布朗距離協(xié)方差
使用布朗距離協(xié)方差處理的圖像特征,雖然將聯(lián)合分布和邊緣分布進(jìn)行了綜合考量,但未考慮成對(duì)支持樣本與查詢樣本間獨(dú)有的分布關(guān)系。對(duì)于每個(gè)分類任務(wù)采用統(tǒng)一的分布關(guān)系,這將導(dǎo)致大量類別差異明顯的圖像被正確分類,而差異較小的圖像分類存在難以分辨的情況。掩膜方法就是應(yīng)用在成對(duì)圖像間進(jìn)行區(qū)域像素信息標(biāo)記的方法,可以通過掩膜將成對(duì)圖像間重要區(qū)域像素信息進(jìn)行標(biāo)記,解決差異化較小圖像間分類難以分辨的問題。因此本文提出一種深度掩膜布朗距離協(xié)方差方法Deep Mask-BDC,如圖1所示。
掩膜是對(duì)于同一支持樣本,通過成對(duì)查詢樣本和支持樣本間高維語(yǔ)義乘積關(guān)系矩陣,經(jīng)多層感知機(jī)計(jì)算得到,并結(jié)合支持集布朗距離協(xié)方差矩陣進(jìn)行相似性度量。以達(dá)到提升度量時(shí)各查詢樣本與支持樣本特征差異化的目的,即突出查詢樣本與當(dāng)前支持樣本間更為明顯的特征,對(duì)樣本差異較小的圖像分類任務(wù)作出針對(duì)性的優(yōu)化調(diào)整,并在元學(xué)習(xí)和簡(jiǎn)單遷移學(xué)習(xí)情境下有著不同的實(shí)現(xiàn)方式。
其中:Sk為支持集圖像集合中一系列樣本。各類BDC原型矩陣與查詢集矩陣同時(shí)傳入掩膜模塊,并針對(duì)成對(duì)的支持集原型BDC矩陣和查詢集BDC矩陣采用余弦距離計(jì)算語(yǔ)義相關(guān)性。
基于到支持集原型類之間距離上的softmax,采用如下?lián)p失函數(shù),其中γ為可學(xué)習(xí)尺度參數(shù)從海量的元訓(xùn)練集中抽取類別數(shù)遠(yuǎn)大于N的任務(wù)來(lái)訓(xùn)練學(xué)習(xí)器,之后持續(xù)從元測(cè)試集中抽取任務(wù)來(lái)進(jìn)行評(píng)估。
基于簡(jiǎn)單遷移學(xué)習(xí)(simple transfer learning, STL)框架亦可增添掩膜操作提升分類精度。原始的STL方法通過在大量數(shù)據(jù)集上訓(xùn)練深度網(wǎng)絡(luò),形成已有的知識(shí)體系,并生成嵌入模型,用于提取下游任務(wù)的特征。
將包含所有類的整個(gè)元訓(xùn)練集用作訓(xùn)練圖像分類任務(wù)的基準(zhǔn),形成嵌入模型。使用預(yù)測(cè)值和真實(shí)值之間的交叉熵?fù)p失來(lái)訓(xùn)練學(xué)習(xí)器。
算法1為深度掩膜布朗距離協(xié)方差方法的偽代碼實(shí)現(xiàn)過程,輸入為成對(duì)的支持樣本與查詢樣本,輸出為相似性得分結(jié)果。內(nèi)部定義了三個(gè)模塊,分別為提取特征ResNet12的骨干網(wǎng)絡(luò),計(jì)算布朗距離協(xié)方差的BDC模塊,以及通過高維語(yǔ)義遮掩支持樣本特征的mask模塊。
算法1 深度掩膜布朗距離協(xié)方差
2 實(shí)驗(yàn)與分析
本文采用配置為 Intel Xeon CPU E5-2680 v4 @ 2.40 GHz,30 GB RAM,NVIDIA RTX3090 24 GB,Ubuntu 20.04系統(tǒng)的計(jì)算機(jī)進(jìn)行實(shí)驗(yàn)。
2.1 數(shù)據(jù)集
本文主要對(duì)Mini-ImageNet、Tiered-ImageNet及CUB-200-2011三個(gè)數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。前兩者為圖像分類任務(wù)中的常用數(shù)據(jù)集,后者為細(xì)粒度圖像分類中的數(shù)據(jù)集。其中Mini-ImageNet和Tiered-ImageNet均從ImageNet 1K(ILSVRC2012)中劃分得來(lái)。具體數(shù)據(jù)集細(xì)分如表1所示。
Mini-ImageNet有100個(gè)類別,每個(gè)類別下均有600張圖像,使用Vinyals等人[19]的數(shù)據(jù)集劃分方式,且沒有將圖像大小重新設(shè)置為84×84,而是保留原始圖像尺寸作為模型輸入。
Tiered-ImageNet較之Mini-ImageNet最大的不同在于,其包含了ImageNet 1K(ILSVRC2012)中更多的類別和更多的類內(nèi)圖像。具體有34個(gè)父類,細(xì)分出608個(gè)子類,每個(gè)子類均有779 165張圖像,使得Tiered-ImageNet的類別層次結(jié)構(gòu)更加優(yōu)異,覆蓋面更廣泛。同時(shí)采用默認(rèn)的84×84圖像大小。
CUB-200-2011為鳥類細(xì)粒度數(shù)據(jù)集,其圖像尺寸設(shè)為224×224,包含100個(gè)類,每類均有1 000張圖像。
一般數(shù)據(jù)集與細(xì)粒度數(shù)據(jù)集采取不同的圖像尺寸以適用不同層次的特征提取網(wǎng)絡(luò),與既有方法保持一致,便于對(duì)比實(shí)驗(yàn)結(jié)果。Mini-ImageNet及Tiered-ImageNet采用ResNet-12作為骨干網(wǎng)絡(luò),而細(xì)粒度數(shù)據(jù)集CUB-200-2011則使用較深層次的ResNet-18。
2.2 實(shí)驗(yàn)結(jié)果及分析
Meta Mask-DeepBDC模型采用預(yù)訓(xùn)練的模型初始化權(quán)重參數(shù),以原型網(wǎng)絡(luò)作為主要框架,與一般的元學(xué)習(xí)模型一致,沿用情景訓(xùn)練的模式。每一輪episodic訓(xùn)練都是5-way 1-shot或5-way 5-shot的小樣本分類任務(wù)。
特別指出的是,在計(jì)算布朗距離協(xié)方差矩陣時(shí),各通道上的矩陣均為平方級(jí)矩陣,故采用1×1的卷積層降維,減少計(jì)算量。同時(shí)在掩膜模塊進(jìn)行操作時(shí),生成掩膜所使用的多層感知機(jī)要根據(jù)每類樣本中已知樣本數(shù)目的不同,靈活設(shè)置卷積參數(shù),減少推演的計(jì)算量。度量方式上,5-way 1-shot采用內(nèi)積方式度量,5-way 5-shot則采用更加普遍的歐氏距離度量。
Mask-DeepBDC方法在元學(xué)習(xí)與簡(jiǎn)單遷移學(xué)習(xí)上應(yīng)用,并與當(dāng)前較為經(jīng)典及先進(jìn)的元學(xué)習(xí)與度量學(xué)習(xí)方法進(jìn)行了比較,其中CUB-200-2011數(shù)據(jù)集包括ProtoNet[4]、FEAT[16]、MELR[17]、MVT[18]、MatchNet[19]、LR[20]、MAML[21]、Δ-encoder[22]、Baseline++[23]、AA[24]、Neg-Cosine[25]、Laplacian-Shot[26]、FRN[27]、Good-Embed[9]、ADM[28]、CovNet[29]、Meta DeepBDC[13]、STL DeepBDC[13]。Mini-ImageNet和Tiered-ImageNet數(shù)據(jù)集包括CTM[30]、S2M2[31]、TADAM[32]、MetaOptNet[33]、DN4[12]、Baseline++、MELR、FRN、IEPT[35]、BML[36]、ProtoNet、ADM[28]、CovNet、DeepEMD[10]、Meta DeepBDC、STL DeepBDC。
從表2的CUB-200-211數(shù)據(jù)集實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),本文所提的基于掩膜的布朗距離協(xié)方差矩陣方法無(wú)論在5-way 1-shot還是5-way 5-shot情況下,較所有基準(zhǔn)方法均有明顯提升,其中5-way 1-shot提升最為明顯。相同骨干網(wǎng)絡(luò)下,Meta Mask-DeepBDC方法與ProtoNet相比,準(zhǔn)確率分別提升了7.62%和6.86%,與基準(zhǔn)Meta DeepBDC相比準(zhǔn)確率分別提升了4.97%和2.85%。Mask STL-DeepBDC方法與Good-Embed相比,準(zhǔn)確率分別提高了7.28%和6.16%,與基準(zhǔn)STL DeepBDC相比準(zhǔn)確率分別提升了1.19%和1.08%。
表3和4分別為Mini-ImageNet和Tiered-ImageNet數(shù)據(jù)集上的結(jié)果。其中Meta Mask-DeepBDC方法在Mini-ImageNet數(shù)據(jù)集下,Meta Mask-DeepBDC方法與ProtoNet相比,準(zhǔn)確率分別提升了6.21%和6.36%,與基準(zhǔn)Meta DeepBDC相比準(zhǔn)確率分別提升了0.98%和2.67%。Tiered-ImageNet數(shù)據(jù)集下與ProtoNet相比,準(zhǔn)確率分別提升了6.58%和5.35%,與基準(zhǔn)Meta DeepBDC相比準(zhǔn)確率分別提升了2.55%和1.89%。
STL Mask-DeepBDC方法在Mini-ImageNet數(shù)據(jù)集下與Good-Embed相比,準(zhǔn)確率分別提升了3.74%和4.22%,與基準(zhǔn)STL DeepBDC相比準(zhǔn)確率分別提升了0.73%和0.91%。STL Mask-DeepBDC方法在Tiered-ImageNet數(shù)據(jù)集下與Good-Embed相比,準(zhǔn)確率分別提升了3.2%和4.05%,與基準(zhǔn)STL DeepBDC相比準(zhǔn)確率分別提升了0.9%和1.08%。
圖4、5分別為本文方法在5-way 1-shot與5-way 5-shot上與原方法對(duì)比的精確度分析圖。通過分析可知,本文算法可在布朗距離協(xié)方差矩陣充分利用圖像的邊緣分布與聯(lián)合分布進(jìn)行表征的前提下,根據(jù)查詢集樣本與支持集樣本間的語(yǔ)意相關(guān)性對(duì)支持集樣本附加掩膜,引導(dǎo)算法進(jìn)一步明確圖像突出特征,使得分類結(jié)果更加精確。因此,本文所提基于掩膜的深度布朗距離協(xié)方差模型擁有更高的識(shí)別精度。
為了說明深度掩膜布朗距離協(xié)方差方法對(duì)成對(duì)小樣本分類的精度提升,針對(duì)Mini-ImageNet數(shù)據(jù)集進(jìn)行了相應(yīng)的對(duì)比實(shí)驗(yàn),具體結(jié)果如表5所示。
本文共進(jìn)行了四組實(shí)驗(yàn),骨干網(wǎng)絡(luò)均為ResNet-12以達(dá)到相同層次的網(wǎng)絡(luò)特征提取。由實(shí)驗(yàn)可知,ProtoNet初始在5-way 1-shot和5-way 5-shots上的精度分別為62.11%及80.77%,在引入Mask掩膜操作后,兩者均有1%左右的提升。
布朗距離協(xié)方差方法是在特征提取后,通過全連接提取原型(Proto)進(jìn)而分類的方法。在單獨(dú)實(shí)驗(yàn)過程中,精度在5-way 1-shot和5-way 5-shots上分別為67.34%與84.46%,較ProtoNet有明顯提升。在引入Mask掩膜后,精度分別又提升了0.98%和2.71%。說明掩膜布朗距離協(xié)方差能夠有效地使模型對(duì)小樣本分類作出優(yōu)化。
如圖6所示,給出了本文方法在CUB-200-211數(shù)據(jù)集中的實(shí)例結(jié)果。針對(duì)某episode下,擁有5類樣本的查詢集和2類樣本的支持集在進(jìn)行分類時(shí),支持集1中的樣本由于與查詢集中其余樣本具有明顯的鳥類外形、顏色、鳥冠等差異,所以無(wú)論是布朗距離協(xié)方差還是深度掩膜布朗距離協(xié)方差都給出了正確的預(yù)測(cè)結(jié)果。支持集2中的黑色鳥類與查詢集中其余部YNkXxWc9aD8yCdDsUtuSVffjiKZG1tt2EBNRU6yKias=分樣本存在相似性高的問題,此時(shí)布朗距離協(xié)方差方法未能作出正確預(yù)測(cè),而深度掩膜布朗距離協(xié)方差方法則借助掩膜將成對(duì)間樣本的特征突出化,作出了正確的預(yù)測(cè)。
2.3 消融研究及性能分析
針對(duì)實(shí)驗(yàn)的其他參數(shù)進(jìn)行了相應(yīng)的消融實(shí)驗(yàn),同樣是在ResNet-12骨干網(wǎng)絡(luò)下以Mini-ImageNet數(shù)據(jù)集作為參照,分別在元學(xué)習(xí)和簡(jiǎn)單遷移學(xué)習(xí)下,對(duì)比了不同維度縮減(reduce_dim)、相似性度量及分類器對(duì)實(shí)驗(yàn)結(jié)果的影響。
如表6和7所示,元學(xué)習(xí)情況下,模型的維度縮減在640時(shí)達(dá)到最佳的分類精度且相對(duì)穩(wěn)定,采用的相似性度量函數(shù)在1-shot和5-shot情況下略有不同,分別在內(nèi)積和歐氏距離的方法下取得最優(yōu)精度。
如表8和9所示,簡(jiǎn)單遷移學(xué)習(xí)下,維度縮減在128時(shí)達(dá)到最佳分類精度且相對(duì)穩(wěn)定,邏輯回歸在幾種分類中脫穎而出,取得了最優(yōu)的分類精度。
布朗距離協(xié)方差在計(jì)算時(shí)會(huì)消耗一定的時(shí)間成本,而Mask掩膜操作是成對(duì)的支持集與查詢集之間的關(guān)聯(lián)運(yùn)算,也會(huì)加重運(yùn)算的成本,提升復(fù)雜度。
如表10所示,分別在CUB-200-211和Mini-ImageNet兩個(gè)數(shù)據(jù)集上進(jìn)行參數(shù)指標(biāo)統(tǒng)計(jì)。結(jié)果顯示,掩膜布朗距離協(xié)方差運(yùn)算會(huì)比單一方法的運(yùn)算更加耗時(shí),網(wǎng)絡(luò)參數(shù)量提升并不明顯。
3 結(jié)束語(yǔ)
本文提出了一種深度掩膜布朗距離協(xié)方差(Deep Mask-BDC)小樣本分類方法。通過成對(duì)查詢集樣本與支持集樣本間的語(yǔ)意相關(guān)性,協(xié)同一個(gè)帶有單隱藏層的多層感知機(jī)計(jì)算查詢掩膜,通過豐富布朗距離協(xié)方差矩陣下成對(duì)間圖像特征的重點(diǎn)區(qū)域信息,解決小樣本圖像分類任務(wù)中部分圖像類別相似性高、分布特征不明顯的問題,并在CUB-200-211、Mini-ImageNet和Tiered-ImageNet三個(gè)常見數(shù)據(jù)集上取得了很好的實(shí)驗(yàn)效果。
實(shí)驗(yàn)結(jié)果還表明本文方法在支持集樣本數(shù)量更低或細(xì)粒度圖像下,產(chǎn)生了更優(yōu)異的分類精度,因此在未來(lái)的小樣本研究中,可拓展到細(xì)粒度圖像領(lǐng)域中或更少的1-shot小樣本分類任務(wù)中。
此外,本文方法尚存在以下不足之處:a)對(duì)于掩膜的計(jì)算是通過每一個(gè)成對(duì)查詢樣本和支持樣本得來(lái)的,在提升計(jì)算效率上還有改進(jìn)的空間;b)實(shí)驗(yàn)中,5way-1shot精確度提升幅度明顯高于5way-5shot,且在細(xì)粒度數(shù)據(jù)集CUB-200-211上提升更為明顯,說明本文方法在普適性上有待加強(qiáng);c)簡(jiǎn)單遷移學(xué)習(xí)的方法實(shí)例中,測(cè)試驗(yàn)證階段采用邏輯回歸分類器,使得分類時(shí)所使用的掩膜支持樣本必須契合當(dāng)前查詢樣本,因而存在計(jì)算成本過高的問題。
參考文獻(xiàn):
[1]趙凱琳,靳小龍,王元卓. 小樣本學(xué)習(xí)研究綜述[J]. 軟件學(xué)報(bào),2021,32(2): 349-369.(Zhao Kailin,Jin Xiaolong,Wang Yuanzhuo. Survey on few-shot learning[J]. Journal of Software,2021,32(2): 349-369.)
[2]張玲玲,陳一葦,吳文俊,等.基于對(duì)比約束的可解釋小樣本學(xué)習(xí)[J].計(jì)算機(jī)研究與發(fā)展,2021,58(12): 2573-2584.(Zhang Ling-ling,Chen Yiwei,Wu Wenjun,et al. Interpretable few-shot learning with contrastive constraint[J]. Journal of Computer Research and Development,2021,58(12): 2573-2584.)
[3]汪航,田晟兆,唐青,等.基于多尺度標(biāo)簽傳播的小樣本圖像分類[J].計(jì)算機(jī)研究與發(fā)展,2022,59(7): 1486-1495.(Wang Hang,Tian Shengzhao,Tang Qing,et al. Few-shot image classification based on multi-scale label propagation[J]. Journal of Computer Research and Development,2022,59(7):1486-1495.)
[4]Snell J,Swersky K,Zemel R. Prototypical networks for few-shot lear-ning[C]// Proc of the 31st International Conference on Neural Information Processing System. Red Hook,NY: Curran Associates Inc.,2017:4080-4090.
[5]Sung F,Yang Yongxin,Zhang Li,et al. Learning to compare: relation network for few-shot learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 1199-1208.
[6]Zhang Xueting,Sung F,Qiang Yuting,et al. Deep comparison: relation columns for few-shot learning[EB/OL].(2018).https://arxiv.org/abs/1811.07100.
[7]Yu Mo,Guo Xiaoxiao,Yi Jinfeng,et al. Diverse few-shot text classification with multiple metrics[EB/OL].(2018).https://arxiv.org/abs/1805.07513.
[8]Wang Xin,Yu F,Wang R,et al. TAFE-Net: task-aware feature embeddings for low shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 1831-1840.
[9]Tian Yonglong,Wang Yue,Krishnan D,et al. Rethinking few-shot ima-ge classification: a good embedding is all you need?[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 266-282.
[10]Zhang Chi,Cai Yujun,Lin Guosheng,et al. DeepEMD: few-shot ima-ge classification with differentiable earth mover’s distance and structured classifiers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12203-12213.
[11]Li Wenbin,Xu Jingjin,Huo Jing,et al. Distribution consistency based covariance metric networks for few-shot learning[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. 2019: 8642-8649.
[12]Li Wenbin,Wang Lei,Xu Jingjin,et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 7253-7260.
[13]Xie Jiangtao,Long Fei,Lyu Jiaming,et al. Joint distribution matters: deep Brownian distance covariance for few-shot classification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ:IEEE Press,2022: 7962-7971.
[14]Székely G J,Rizzo M L. Brownian distance covariance[J]. The Annals of Applied Statistics,2009,3(4): 1236-1265.
[15]Guo Yurong,Du Ruoyi,Li Xiaoxu,et al. Learning calibrated class centers for few-shot classification by pair-wise similarity[J]. IEEE Trans on Image Processing,2022,31: 4543-4555.
[16]Ye Hanjia,Hu Hexiang,Zhan Dechuan,et al. Few-shot learning via embedding adaptation with set-to-set functions[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway,NJ: IEEE Press,2020: 8808-8817.
[17]Fei Nanyi,Lu Zhiwu,Xiang Tao,et al. MELR: meta-learning via modeling episode-level relationships for few-shot learning[C]//Proc of International Conference on Learning Representations. 2020.
[18]Park S J,Han S,Baek J W,et al. Meta variance transfer: learning to augment from the others[C]//Proc of the 37th International Confe-rence on Machine Learning. [S.l.]: MLR.org,2020: 7510-7520.
[19]Vinyals O,Blundell C,Lillicrap T,et al. Matching networks for one shot learning[C]// Proc of the 30th International on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2016: 3631-3645.
[20]Wang Yikai,Xu Chengming,Liu Chen,et al. Instance credibility inference for few-shot learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 12836-12845.
[21]Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proc of the 34th International Conference on Machine Learning. [S.l.]: MLR.org,2017: 1126-1135.
[22]Schwartz E,Karlinsky L,Shtok J,et al. Δ-encoder: an effective sample synthesis method for few-shot object recognition[C]// Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2018: 2850-2860.
[23]Chen Weiyu,Liu Yencheng,Kira Z,et al. A closer look at few-shot classification[EB/OL].(2019). https://arxiv.org/abs/1904.04232.
[24]Afrasiyabi A,Lalonde J F,Gagné C. Associative alignment for few-shot image classification[C]//Proc of European Conference on Computer Vision. Cham:Springer,2020: 18-35.
[25]Liu Bin,Cao Yue,Lin Yutong,et al. Negative margin matters: understanding margin in few-shot classification[C]//Proc of European Conference on Computer Vision. Cham: Springer,2020: 438-455.
[26]Masud Z I,Dolz J,Granger E,et al. Laplacian regularized few-shot learning[EB/OL].(2020). https://arxiv.org/abs/2006.15486.
[27]Wertheimer D,Tang Luming,Hariharan B. Few-shot classification with feature map reconstruction networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 8012-8021.
[28]Li Wenbin,Wang Lei,Huo Jing,et al. Asymmetric distribution mea-sure for few-shot learning[EB/OL].(2020).https://arxiv.org/abs/2002.00153.
[29]Wertheimer D,Hariharan B. Few-shot learning with localization in realistic settings[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 6558-6567.
[30]Li Hongyang,Eigen D,Dodge S,et al. Finding task-relevant features for few-shot learning by category traversal[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 1-10.
[31]Mangla P,Kumari N,Sinha A,et al. Charting the right manifold: manifold mixup for few-shot learning[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press,2020: 2218-2227.
[32]Oreshkin B N,Rodríguez P,Lacoste A. TADAM:task dependent adaptive metric for improved few-shot learning[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc.,2018:719-729.
[33]Lee K,Maji S,Ravichandran A,et al. Meta-learning with differentiable convex optimization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2019: 10657-10665.
[34]Chen Yinbo,Liu Zhuang,Xu Huijuan,et al. Meta-baseline: exploring simple meta-learning for few-shot learning[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 9062-9071.
[35]Zhang Manli,Zhang Jianhong,Lu Zhiwu,et al. IEPT: instance-level and episode-level pretext tasks for few-shot learning[C]//Proc of International Conference on Learning Representations. 2020.
[36]Zhou Ziqi,Qiu Xi,Xie Jianan,et al. Binocular mutual learning for improving few-shot classification[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021:8402-841