付炳光,楊 娟,汪榮貴,薛麗霞
(合肥工業(yè)大學(xué) 計算機與信息學(xué)院,合肥 230601)
在計算機視覺的多個領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)[1-2]均取得了優(yōu)異的效果。深層的網(wǎng)絡(luò)模型在訓(xùn)練時通常需要大量的標(biāo)記數(shù)據(jù),昂貴的數(shù)據(jù)標(biāo)注成本使得模型訓(xùn)練成本大幅增加。同時在許多實際應(yīng)用場景中,也不具備獲得足夠多標(biāo)注樣本的條件。在這種情況下,如何利用有限的標(biāo)注樣本獲得性能較好的網(wǎng)絡(luò)模型也隨即成為一個亟待攻克的熱點研究方向?;诖?,小樣本學(xué)習(xí)受到了廣泛的關(guān)注。研究可知,元學(xué)習(xí)方法[3-4]在訓(xùn)練階段和測試階段構(gòu)造相似的情節(jié)(episodes)任務(wù),模擬人類總結(jié)任務(wù)經(jīng)驗的能力以使得機器從相似任務(wù)中獲取通用知識并快速適應(yīng)新任務(wù),緩解了過擬合問題,成為了眾多小樣本學(xué)習(xí)方法的通用機制。
圖神經(jīng)網(wǎng)絡(luò)[5](graph neural networks,GNN)通過構(gòu)建結(jié)構(gòu)化信息的方式有效地提升深度學(xué)習(xí)模型的性能,許多研究[6-9]也開始嘗試將圖模型應(yīng)用到小樣本學(xué)習(xí)中。Garcia 等人[6]實現(xiàn)圖模型預(yù)測值到標(biāo)簽值之間的后驗推理,基于消息傳遞的想法,利用圖推理將標(biāo)簽信息傳遞到?jīng)]有標(biāo)簽的樣本上,進而判別樣本類型。Liu 等人[7]使用轉(zhuǎn)導(dǎo)推理的方法,將所有無標(biāo)注數(shù)據(jù)和有標(biāo)注數(shù)據(jù)共同構(gòu)建一個無向圖,然后通過標(biāo)簽傳播得到所有數(shù)據(jù)標(biāo)簽。與前面方法中圖結(jié)構(gòu)僅使用一組邊特征表示類內(nèi)相似、類間不同的節(jié)點關(guān)系不同,Kim 等人[8]構(gòu)造了2 組邊特征,將節(jié)點間相似關(guān)系和不相似關(guān)系分開考慮。Ma 等人[9]使用支持樣本和查詢樣本組合構(gòu)成關(guān)系對并作為圖節(jié)點,在傳播和聚合節(jié)點信息過程中同時考慮節(jié)點間的相似性聯(lián)系和節(jié)點內(nèi)支持樣本和查詢樣本關(guān)系。現(xiàn)有基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)方法通過構(gòu)建出不同的圖結(jié)構(gòu),雖然取得了優(yōu)異的分類效果,但未考慮與圖像相關(guān)的標(biāo)簽語義信息。與之不同,人們從少數(shù)樣本中學(xué)習(xí)新概念時,不僅對比不同樣本之間的差異,同時也考慮與之相關(guān)的文本知識。因此本文提出的方法嘗試在使用圖神經(jīng)網(wǎng)絡(luò)考慮圖像特征間關(guān)系的同時,融入圖像標(biāo)簽語義信息。
元學(xué)習(xí)方法的靈活性為學(xué)習(xí)新概念時引入其他模態(tài)提供可能。不同模態(tài)蘊含的信息有互補性和一致性[10],不同模態(tài)間既含有類似的信息,同時也可能含有其他模態(tài)所欠缺的信息。在圖像任務(wù)中,引入文本信息可以更全面地描述樣本實例。Frederikd等人[11]為獲得更可靠的原型,通過生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)將語義特征對齊到圖像特征空間,生成新特征改進圖像類原型特征計算。Peng 等人[12]根據(jù)數(shù)據(jù)集標(biāo)簽在WordNet 中的關(guān)系,由標(biāo)簽語義特征通過圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)推理得到基于知識的分類權(quán)重,并與視覺分類權(quán)重融合得到新類的分類權(quán)重。Chen 等人[13]提出了Dual TriNet,通過編碼器將圖像特征映射到語義空間,以隨機添加高斯噪聲等方式對該特征增廣后,由解碼器反解碼形成各層特征圖,由于可以無限增廣,對此擴充訓(xùn)練特征。Li 等人[14]將標(biāo)簽語義特征經(jīng)由多次kNN 聚類得到多層超類語義特征,并構(gòu)造底層為標(biāo)簽語義,上面多層為超類語義的樹形結(jié)構(gòu)的分層語義。如此一來,圖像經(jīng)由分級分類網(wǎng)絡(luò)的同時在不同層會進行分類,訓(xùn)練得到良好的特征提取器。這些方法主要考慮類級別的語義信息,而忽略具體實例間的差異,一定程度上喪失了識別能力。為此,本文方法通過混合語義模塊將實例級的圖像特征對齊到語義空間并與其標(biāo)簽語義融合,為語義特征添加實例間的差異信息。此外,還通過補充語義信息增強標(biāo)簽語義的表達(dá)能力。
綜上所述,本文提出了基于混合語義的圖神經(jīng)網(wǎng)絡(luò)小樣本分類方法。在常用小樣本數(shù)據(jù)集上進行試驗,并取得了良好的分類效果。
小樣本圖像分類目的是在僅有少量目標(biāo)類標(biāo)注樣本的情況下,訓(xùn)練得到泛化性能良好的分類網(wǎng)絡(luò)模型。通常將數(shù)據(jù)集劃分為類別互不相交的訓(xùn)練集、測試集和查詢集。同時采用episode 訓(xùn)練機制[15],分為訓(xùn)練階段和測試階段,每個階段由許多相似的n -wayk -shot 分類任務(wù)組成(現(xiàn)常見5-way 1-shot 和5-way 5-shot 兩種類型)。具體地,訓(xùn)練階段每個分類任務(wù)從訓(xùn)練集中隨機抽取n個類,每類隨機抽取k +q張圖片,構(gòu)成當(dāng)前任務(wù)的支持集S ={(xi,yi),i =1,2,…,nk}和查詢集Q ={(xj,yj),j =1,2,…,nq},其中xi,xj表示圖像,yi,yj表示該圖像對應(yīng)的標(biāo)簽。模型利用支持集樣本的圖像和標(biāo)簽信息判斷查詢樣本的標(biāo)簽信息,并通過最小化已設(shè)計好的損失函數(shù),反向傳播更新網(wǎng)絡(luò)模型參數(shù)達(dá)到模型訓(xùn)練的效果。訓(xùn)練階段包含模型驗證,從驗證集隨機采樣構(gòu)造n -wayk -shot任務(wù),檢測模型泛化能力,保存最優(yōu)的模型參數(shù)。最終,測試階段在測試集上驗證泛化性能。由于訓(xùn)練階段和測試階段構(gòu)造類似的分類任務(wù),由訓(xùn)練得到的模型能很好地遷移到訓(xùn)練集任務(wù)上。
本文提出的模型結(jié)構(gòu)如圖1 所示,包含圖像特征信息傳播模塊、混合語義模塊和決策混合模塊。在每個分類任務(wù)中,圖像通過圖像特征提取網(wǎng)絡(luò)得到圖像特征,標(biāo)簽由GloVe[16](Global Vector)計算得到標(biāo)簽語義特征。隨后,圖像特征信息傳播模塊使用圖神經(jīng)網(wǎng)絡(luò)考慮任務(wù)上下文關(guān)系,更新得到任務(wù)相關(guān)的圖像特征表示?;旌险Z義模塊利用補充語義信息和特征提取網(wǎng)絡(luò)得到的視覺信息,增強標(biāo)簽特征的表達(dá)能力,得到混合語義特征。最后由決策混合模塊組合圖像特征和混合語義特征進行分類。
圖1 基于混合語義的圖神經(jīng)網(wǎng)絡(luò)模型Fig. 1 The model of hybrid semantic-based graph neural network
1.2.1 圖像特征信息傳播模塊
圖像特征信息傳播模塊使用圖神經(jīng)網(wǎng)絡(luò)考慮圖像特征上下文關(guān)系進而傳播聚合特征信息,并更新特征表示。模塊包含L層圖像關(guān)系圖Gl =(Hl,El),l =1,2,…,L。第l層的圖節(jié)點Hl由特征節(jié)點組成,特征節(jié)點與特征節(jié)點間的相似度可表示為,兩節(jié)點之間的相似度越高,越接近1,反之接近0。該層所有的節(jié)點相似關(guān)系構(gòu)成了鄰接矩陣。
對于圖像xi,輸入到特征提取網(wǎng)絡(luò)Fex后,經(jīng)過池化層和拉平層得到獨熱編碼(one-hot coding)形式的圖像特征向量Fex(xi),將其作為圖中初始節(jié)點特征(xi)。初始鄰接矩陣E0采用公式(1)進行初始化:
相同標(biāo)簽的支持集節(jié)點間的特征邊設(shè)置為1,而不同標(biāo)簽的支持集節(jié)點間設(shè)置為0。此外,由于查詢樣本的標(biāo)簽未知,統(tǒng)一將支持集節(jié)點和查詢節(jié)點的特征邊設(shè)置為1/nk。同時,根據(jù)描述節(jié)點間相似度關(guān)系的鄰接矩陣,節(jié)點相互傳播信息并聚集更新得到下一層節(jié)點。隨后,更新節(jié)點間相似度得到下層的鄰接矩陣。多層更新后得到每個樣本的最終圖像特征。具體地,對于第k層更新過程表示為:
1.2.2 混合語義模塊
GloVe[16]和Word2Vec[17]等文本嵌入方法根據(jù)詞語在語料庫中的分布,將詞語轉(zhuǎn)換為獨熱編碼(one-hot)表示的語義特征。語義特征不僅含有詞語信息,還蘊含語料庫不同詞語間的聯(lián)系?!翱ㄜ嚒迸c“汽車”間相對于“狗”與“汽車”間具有更強的關(guān)聯(lián)性。換而言之,對于一個與“汽車”關(guān)聯(lián)性很強的未知詞語,該詞語為“卡車”的概率比為“狗”的概率更大。據(jù)此,本節(jié)提出混合語義模塊,通過文本嵌入的方法計算得到類別標(biāo)簽的語義特征,并引入其他詞語作為補充描述,以增強其表達(dá)能力。
相比于因有限窗口大小而僅可捕捉局部信息的Word2Vec,本文使用可以捕獲全局信息的GloVe 方法計算標(biāo)簽的語義特征,并將所有支持集類別作為補充詞語?;旌险Z義模塊如圖2 所示。由圖2 可看到,當(dāng)前任務(wù)類別標(biāo)簽和補充詞語由GloVe 方法計算得到標(biāo)簽語義特征集St∈和補充語義特征集Sa∈,這里的dw表示語義特征的維度。運行時,先將St和Sa分別進行線性變換后輸出Q和K,接著將Q和K做矩陣乘法之后再乘以縮放系數(shù)經(jīng)過softmax函數(shù)輸出注意力分?jǐn)?shù)矩陣A,由此推得的各數(shù)學(xué)公式分別如下:
圖2 混合語義模塊Fig. 2 The hybrid semantic module
式(4)和式(5)中,WQ,WK∈為權(quán)重矩陣,引入縮放系數(shù)得到更為平滑的輸出。式(7)將注意力分?jǐn)?shù)矩陣A與Sa做矩陣乘法后,再以相加的方式與標(biāo)簽語義特征融合,得到增強語義特征集Sh ={sh1,sh2,…,shN}。在理解特定對象時,不同詞語的重要性不同。正如“卡車”與“汽車”之間的聯(lián)系比“狗”與“汽車”之間的聯(lián)系更強,“卡車”的語義對理解“汽車”更為重要,注意力分?jǐn)?shù)矩陣A起到了相似的作用,反映了Sa中的每個語義特征補充描述St中語義特征時的重要程度。
此外,在n -wayk -shot 任務(wù)下可能有多張圖片屬于相同類別,不同圖像特征對應(yīng)同一語義特征忽略了同類圖像特征之間的差異性。不同模態(tài)間往往具有相關(guān)的信息[10],本文模型嘗試將圖像特征對齊映射到語義特征空間中,與混合語義特征融合構(gòu)建實例級的語義特征表示。對于支持集圖像特征Fex(xi),其映射得到的特征為:
將svi與實例xi標(biāo)簽的增強語義特征shy融合得到該實例的混合語義特征si:
1.2.3 決策融合
由圖像特征信息傳播模塊可以得到考慮圖像上下文關(guān)系的圖像特征,而混合語義模塊得到支持集實例的混合語義特征。不同模態(tài)間存在互補性[10],可能包含其他模態(tài)所欠缺的信息,利用多個模態(tài)的信息有助于更好地描述實例。本方法通過式(10)組合支持集圖像特征和混合語義特征:
其中,“[,]”表示級聯(lián)操作。式(10)中將實例xi的混合語義特征si輸入網(wǎng)絡(luò)g后,與其圖像特征,再經(jīng)由網(wǎng)絡(luò)ffusion得到混合模態(tài)特征hi,g和ffusion均由多層感知機和ReLu激活函數(shù)構(gòu)成。
其中,i,j分別為支持樣本和查詢樣本下標(biāo),onehot(yj) 是支持集樣本j標(biāo)簽的獨熱編碼。在給定episode 任務(wù)下,利用最小化分類損失函數(shù)來訓(xùn)練模型:
其中,Ye是真實的相似度鄰接矩陣,計算Ye與預(yù)測矩陣E之間的二值交叉熵作為分類損失函數(shù)。
圖像特征信息傳播模塊的鄰接矩陣同樣也可以預(yù)測節(jié)點分類,增加式(14)的損失函數(shù)用來改善訓(xùn)練過程中的梯度更新,但僅用E作為查詢樣本的標(biāo)簽判斷。式(14)的數(shù)學(xué)表述具體如下:
GloVe[16]將語料庫中詞匯X在詞匯Z出現(xiàn)的情況下出現(xiàn)的概率PX|Z與詞匯Y在詞匯Z出現(xiàn)的情況下出現(xiàn)的概率PY|Z的比值,稱為共現(xiàn)概率比。當(dāng)X與Z的關(guān)聯(lián)性和Y與Z的關(guān)聯(lián)性都很強或者都很弱時,共現(xiàn)概率比趨于1,否則共現(xiàn)概率比趨于很大或者趨于零。通過引入第三個詞匯Z,共現(xiàn)概率比很好地描述了詞匯X和詞匯Y間的相似性。受此啟發(fā),為使公式(8)中圖像特征更好地映射到語義空間,通過計算映射后的特征與整體補充語義特征的相似度矩陣Av,a,實例標(biāo)簽語義特征與整體補充語義特征的相似度矩陣At,a,并計算2 個相似度矩陣之間的相似熵?fù)p失:
模型的總損失如式(16)所示:
其中,λ1,λ2為超參數(shù),用于調(diào)整損失Le和LKL對網(wǎng)絡(luò)模型訓(xùn)練的影響。
為了更好地對比分析模型性能,本文在小樣本學(xué)習(xí)方法常用的Mini-ImageNet 和Tiered-ImageNet數(shù)據(jù)集上進行了實驗。本節(jié)中所有實驗均在搭載NVIDIA GeForce TiTan X 12 GB 顯卡、Intel i7 -9700KF 處理器并具有16 G 運行內(nèi)存的PC 機上完成,采用Linux 版本的PyTorch 10.2 深度學(xué)習(xí)框架實現(xiàn)模型的搭建。
Mini-ImageNet 數(shù)據(jù)集是ImageNet[18]的子集,有100 個類別,每類由600 張圖片組成。有2 種常見的使用方法。一種方法將80 個類別作為訓(xùn)練集,剩余的20 個類別作為驗證集。另一種方法將數(shù)據(jù)集劃分為包含64 個類別的訓(xùn)練集、16 個類別的驗證集和20 個類別的查詢集。本文使用后一種方法。
Tiered-ImageNet 數(shù)據(jù)集同樣節(jié)選于ImageNet數(shù)據(jù)集。不同的是該數(shù)據(jù)集比Mini-ImageNet 包含更多的類別,也包含更多的圖片數(shù)量。在規(guī)模上,包含了608 個小類別,平均每個類別有1 281 個樣本;在語義結(jié)構(gòu)上,是將數(shù)據(jù)集劃分成34 個父類別來確保類別之間的語義差距。在以往的工作中,將20 個父類別作為訓(xùn)練集、對應(yīng)351 個子類別,6 個父類別作為驗證集、對應(yīng)97 個子類別以及8 個父類別作為測試集、對應(yīng)160 個子類別。
本文分別采用2 種流行的網(wǎng)絡(luò)Conv4 和ResNet-12[15]作為圖像特征提取網(wǎng)絡(luò),使用GloVe計算語義特征。Conv4 主要由4 個Conv -BN -ReLU塊組成,每個卷積塊包含一個64 維濾波器3×3 卷積,卷積輸出分別輸入到后面的批量歸一化和ReLU非線性激活函數(shù)。前2 個卷積塊還包含一個2×2 最大池化層,而末端2 個卷積塊沒有最大池化層。ResNet12 主要有4 個殘差塊,每層殘差塊由3層卷積層接連組成,并在殘差塊后添加了2 × 2 的最大池化操作。遵循大多數(shù)現(xiàn)有的小樣本學(xué)習(xí)工作所用的標(biāo)準(zhǔn)設(shè)置,使用5-way 1-shot 和5-way 5-shot 兩種實驗設(shè)置和提前結(jié)束策略,并將Adam 作為學(xué)習(xí)優(yōu)化器。在Mini-ImageNet 上訓(xùn)練時,使用隨機采樣并構(gòu)建300 000 個episode,設(shè)置Adam 初始學(xué)習(xí)率為0.001,每15 000 個episode 將學(xué)習(xí)率衰減0.1。對于Tiered-ImageNet 數(shù)據(jù)集,使用隨機采樣并構(gòu)建500 000 個episode,設(shè)置Adam 初始學(xué)習(xí)率為0.001,每20 000 個episode 將學(xué)習(xí)率衰減0.1。
本文模型與其他使用圖模型和使用語義模態(tài)的小樣本學(xué)習(xí)方法在Mini -ImageNet 和Tiered -ImageNet 數(shù)據(jù)集上的實驗結(jié)果見表1、表2。表中,標(biāo)注N/A 表示該實驗結(jié)果在原文獻中并未展示出來。
表1 在Mini-ImageNet 數(shù)據(jù)集上不同模型的準(zhǔn)確率Tab.1 Accuracy of different models on the Mini-ImageNet dataset
表2 在Tiered-ImageNet 數(shù)據(jù)集上不同模型的準(zhǔn)確率Tab.2 Accuracy of different models on the Tiered-ImageNet dataset
表1 給出了在Mini-ImageNet 數(shù)據(jù)集上,本文模型與其他小樣本方法在5-way 1-shot 和5-way 5-shot 兩種任務(wù)下的實驗結(jié)果。從實驗結(jié)果中可以看出,本文方法明顯優(yōu)于當(dāng)前大多數(shù)小樣本學(xué)習(xí)方法。本文方法與經(jīng)典小樣本學(xué)習(xí)方法 Matching Network[19]、MAML[3]、Prototypical Network[20]、Relation Networks[21]相比,準(zhǔn)確率有明顯的提升。與基于圖神經(jīng)網(wǎng)絡(luò)的小樣本方法相比,在1-shot 情況下本文方法比GNN[6]準(zhǔn)確率高出5.47%,在5-shot情況下高出5.15%,而與TPN[7]相比,本文在1-shot情況下準(zhǔn)確率高出了2.05%,5-shot 情況下高出了2.13%。此外,與同樣使用語義信息的TriNet[20]相比,本文模型在1-shot 情況下高出0.82%,但是在5-shot情況下,TriNet[12]的準(zhǔn)確率高于本文模型。同樣使用Conv4 特征提取網(wǎng)絡(luò),與近年來最新的FEAT[24]、MELR[25]模型對比,本文模型雖然在5-shot的情況下準(zhǔn)確率略低,但在1-shot 情況下準(zhǔn)確率仍然高過這些基準(zhǔn)參照模型。
表2 給出了在Tiered-ImageNet 數(shù)據(jù)集上,本文的模型與其他小樣本方法在5-way 1-shot 和5-way 5-shot兩種任務(wù)下的實驗結(jié)果。從實驗結(jié)果中可以看出,本文方法明顯優(yōu)于當(dāng)前大多數(shù)小樣本學(xué)習(xí)方法。本文方法與經(jīng)典小樣本學(xué)習(xí)方法Matching Network[19]、MAML[3]、Prototypical Network[20]、Relation Networks[21]相比,準(zhǔn)確率均有較大提升。與基于圖神經(jīng)網(wǎng)絡(luò)的小樣本方法對比,在1-shot 情況下本文方法比GNN[6]準(zhǔn)確率高出11.47%,在5-shot 情況下高出16.4%;與TPN[7]相比,本文方法在5-shot 情況下準(zhǔn)確率高出了0.34%,但在1-shot 情況下TPN[9]有著更高的分類準(zhǔn)確率。
在Mini-ImageNet 和Tiered-ImageNet 數(shù)據(jù)集上,將5-way 1-shot 和5-way 5-shot 兩種情況進行對比可以發(fā)現(xiàn)隨著支持集的樣本數(shù)量增加,分類的效果也更好。將Conv4 和ResNet12 兩種骨干網(wǎng)絡(luò)進行對比發(fā)現(xiàn),采用更加深層的特征提取網(wǎng)絡(luò)能得到更高的準(zhǔn)確率。
本節(jié)通過在Mini-ImageNet 數(shù)據(jù)集上進行消融實驗證明本文模型的有效性以及檢驗部分參數(shù)對模型訓(xùn)練的影響。
首先,本文探究圖像特征關(guān)系傳播模塊迭代更新層數(shù)對模型準(zhǔn)確率的影響。圖像特征關(guān)系傳播模塊使用圖神經(jīng)網(wǎng)絡(luò)充分挖掘圖像特征之間的關(guān)聯(lián)信息,由多層包含特征節(jié)點和相似度鄰接矩陣的相同結(jié)構(gòu)組成,網(wǎng)絡(luò)層數(shù)影響著模塊的參數(shù),對整體性能起著非常重要的作用,所以有必要對層數(shù)進行消融實驗分析。選擇5-way 1-shot 作為任務(wù)設(shè)定,層數(shù)分別選擇1、2、3、4、5,模型準(zhǔn)確率如圖3 所示。從圖3 中可以看出,當(dāng)層數(shù)由1 到3 時,模型分類準(zhǔn)確率有著明顯提升,說明在層數(shù)較少時,增加模型的層數(shù)可以提升整體模型的分類效果。當(dāng)層數(shù)從3 到5 時,模型分類效果有些許波動,但整體而言準(zhǔn)確率趨于穩(wěn)定,不斷增加模型層數(shù)不能持續(xù)提升模型的分類準(zhǔn)確率。因此本文在其他所有實驗中,模型層設(shè)定為3,既能得到較高的模型分類準(zhǔn)確率,同時也避免了過多耗時的計算量。
圖3 5-way 1-shot 任務(wù)下,圖像信息傳遞模塊層數(shù)對模型分類準(zhǔn)確率的影響Fig. 3 Influence of image information transfer module layers on model classification accuracy under 5-way 1-shot task
此外,為探究混合語義模塊在模型訓(xùn)練中發(fā)揮的作用,對混合語義模塊進行消融實驗。Mini-ImageNet 數(shù)據(jù)集上,混合特征模塊消融實驗結(jié)果見表3。表3 中,“僅圖像”表示僅使用本文中的圖神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練分類?!皹?biāo)簽語義”表示混合語義模塊直接使用標(biāo)簽語義而忽略其他語義信息?!皹?biāo)簽語義+視覺對齊語義”雖然使用補充語義信息,但是補充語義僅使用在損失函數(shù)中改進模型訓(xùn)練。從實驗結(jié)果可以看出,引入語義信息能提高小樣本圖像分類的表現(xiàn)效果。此外,使用混合語義模塊在5-way 5-shot 任務(wù)下準(zhǔn)確率的提高要遜色于5-way 1-shot 任務(wù),主要原因是在5-shot 情況下,圖像信息將更加豐富,而語義信息模型效果的提升就很有限。
表3 Mini-ImageNet 數(shù)據(jù)集上混合特征模塊消融實驗結(jié)果Tab.3 Ablation experimental results of hybrid feature module on Mini-ImageNet dataset
本文首先提出了基于混合語義的圖神經(jīng)網(wǎng)絡(luò)小樣本分類方法。該方法考慮實例圖像特征和語義特征之間的互補性,由此得到的融合特征,能更全面描述實例信息。其中,使用圖神經(jīng)網(wǎng)絡(luò)模型綜合考慮支持集和查詢集圖像之間的關(guān)系,并使用補充語義來增強標(biāo)簽語義特征的表達(dá)能力,以及利用圖像對齊語義特征構(gòu)造了實例級語義特征。本文模型在Mini-ImageNet 和Tiered-ImageNet 數(shù)據(jù)集上取得了良好的分類效果??紤]到現(xiàn)有模型面對不同任務(wù)時,會遺忘已有的分類知識的災(zāi)難性遺忘問題,進一步擴展模型應(yīng)對小樣本增量學(xué)習(xí)則是未來研究工作的重點。