国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小樣本圖像分類研究綜述

2023-03-10 00:10安勝彪郭昱岐白宇王騰博
計算機(jī)與生活 2023年3期
關(guān)鍵詞:度量分類樣本

安勝彪,郭昱岐,白宇,王騰博

河北科技大學(xué) 信息科學(xué)與工程學(xué)院,石家莊050018

大規(guī)模標(biāo)注數(shù)據(jù)集是深度學(xué)習(xí)成功的必要條件之一[1-4]。在現(xiàn)實(shí)世界的真實(shí)場景中,許多領(lǐng)域并不具有獲得大規(guī)模數(shù)據(jù)集的條件,這對于工作開展十分不便。也有一些領(lǐng)域,涉及到隱私、成本、道德等問題,也很難獲得高質(zhì)量數(shù)據(jù)。例如,在醫(yī)療診斷領(lǐng)域,醫(yī)學(xué)圖像的來源是病例,而病例會因?yàn)殡[私等問題獲取難度較大;在半導(dǎo)體芯片缺陷檢測領(lǐng)域,會面臨半導(dǎo)體芯片的型號不同和缺陷數(shù)據(jù)較少等問題。

為了解決諸多領(lǐng)域中數(shù)據(jù)有限和獲取難度較大的問題,小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)[5-8]方法被提出。小樣本學(xué)習(xí)是指在訓(xùn)練類別樣本較少的情況下,進(jìn)行相關(guān)的學(xué)習(xí)任務(wù)。機(jī)器通過學(xué)習(xí)大量的基類(base class)后,僅僅需要少量樣本就能快速學(xué)習(xí)到新類(new class)。通常情況下,小樣本學(xué)習(xí)能夠利用類別中的少量樣本,即一個或者幾個樣本進(jìn)行學(xué)習(xí)。例如,一個小朋友去動物園并沒有見過“黃鶯”這個動物,但是閱讀過有關(guān)動物書籍,書籍上有“黃鶯”的信息,通過學(xué)習(xí)書上的內(nèi)容,小朋友就知道動物園中哪個動物是“黃鶯”。這是因?yàn)槿藗兛梢愿咝У乩靡酝南闰?yàn)知識,對現(xiàn)在的任務(wù)快速理解。人們這種快速理解新事物的能力,也是當(dāng)前深度學(xué)習(xí)難以具備的。本文針對小樣本圖像分類問題介紹小樣本學(xué)習(xí)的相關(guān)技術(shù),主要是介紹小樣本圖像分類。小樣本圖像分類的最終目的是達(dá)到人類的水平[9]。

小樣本圖像分類問題建模如圖1 所示。圖中將任務(wù)劃分為兩部分,訓(xùn)練集(training set)也叫作支持集(support set),其中分為N個數(shù)據(jù)類別,每N個數(shù)據(jù)類別包括K個樣本,簡稱為N-wayK-shot 問題。測試集(test set)也叫作查詢集(query set),查詢集的類別屬于支持集中的類別。解決N-wayK-shot小樣本圖像分類問題,首先從輔助的數(shù)據(jù)集學(xué)習(xí)先驗(yàn)知識[10],再在標(biāo)注有限的目標(biāo)數(shù)據(jù)集上利用已經(jīng)學(xué)習(xí)的先驗(yàn)知識進(jìn)行圖像分類和預(yù)測。

圖1 小樣本圖像分類示例Fig.1 Few-shot image classification example

目前已經(jīng)有一些關(guān)于小樣本學(xué)習(xí)各方面的綜述。趙凱琳等人[11]從基于模型微調(diào)、數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的三個方向來介紹小樣本學(xué)習(xí)的方法,并且進(jìn)行了歸納總結(jié);劉春磊等人[12]將小樣本學(xué)習(xí)方法歸納為基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式,再按照改進(jìn)策略的不同進(jìn)行小樣本目標(biāo)檢測綜述介紹;張振偉等人[13]從基于度量學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、模型結(jié)構(gòu)、元學(xué)習(xí)等六方面對小樣本目標(biāo)檢測方法進(jìn)行了總結(jié)分析。綜合近些年小樣本學(xué)習(xí)發(fā)展,元學(xué)習(xí)、度量學(xué)習(xí)和數(shù)據(jù)增強(qiáng)等深度學(xué)習(xí)方法已經(jīng)逐漸成為解決小樣本圖像處理的主流方法。隨著無監(jiān)督學(xué)習(xí)[14]、半監(jiān)督學(xué)習(xí)[15]和主動學(xué)習(xí)[16]的興起和發(fā)展,很多研究者也將其應(yīng)用到小樣本圖像分類問題中。與這些綜述[11-13]不同,本文首先將這些方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督三種范式,如圖2 所示,再按照各種情況的不同方法,從度量學(xué)習(xí)、元學(xué)習(xí)、偽標(biāo)注、對比學(xué)習(xí)等角度進(jìn)行歸納總結(jié),對比分析了這些方法的性能表現(xiàn),并總結(jié)了各自的核心思想以及使用領(lǐng)域。

圖2 小樣本圖像分類方法Fig.2 Few-shot image classification methods

1 小樣本圖像分類框架及其數(shù)據(jù)集介紹

1.1 符號和定義

在標(biāo)準(zhǔn)FSL 場景中,一般需要建立兩個數(shù)據(jù)集:一個帶有Cbase類的基集和一個帶有Cnovel類的新集,其中Cbase∩Cnovel=?。Cbase是一個輔助數(shù)據(jù)集,目的是通過遷移學(xué)習(xí)來訓(xùn)練分類器。Cnovel是執(zhí)行任務(wù)分類的數(shù)據(jù)集。訓(xùn)練通常在Cbase類上進(jìn)行,其目標(biāo)是將學(xué)到的知識遷移到基于Cnovel構(gòu)建的新任務(wù)中。在測試期間,需要為每個任務(wù)都建立一個支持集S和一個查詢集Q。支持集S包含N個類,每個類有K個圖像。查詢集Q包括N×Q個未標(biāo)記的圖像。在大多數(shù)文獻(xiàn)中,N設(shè)置為5,K設(shè)置為1 或5。

1.2 小樣本圖像分類方法

針對小樣本圖像分類任務(wù),現(xiàn)有的基于小樣本圖像分類方法可以總結(jié)以下三類:(1)元學(xué)習(xí)[17];(2)度量學(xué)習(xí)[18];(3)數(shù)據(jù)增強(qiáng)[19-25]。

1.2.1 元學(xué)習(xí)

元學(xué)習(xí)也稱為learn to learn,利用以往的知識經(jīng)驗(yàn)指導(dǎo)新任務(wù)的學(xué)習(xí),被廣泛應(yīng)用在小樣本學(xué)習(xí)中。元學(xué)習(xí)通過既有數(shù)據(jù)集和元學(xué)習(xí)器跨任務(wù)提取的元知識來解決新任務(wù)。具體來說,元學(xué)習(xí)器逐步學(xué)習(xí)跨任務(wù)的通用信息(元知識),并且學(xué)習(xí)器使用特定于任務(wù)的信息將元學(xué)習(xí)器概括為新任務(wù)。

如圖3 所示,在小樣本學(xué)習(xí)中元學(xué)習(xí)將數(shù)據(jù)集劃分為訓(xùn)練任務(wù)和測試任務(wù)。在訓(xùn)練階段,通過對已有的數(shù)據(jù)進(jìn)行隨機(jī)采樣,區(qū)分出支持集和查詢集,從而構(gòu)造出多個不同的元任務(wù)。其中支持集用于訓(xùn)練,查詢集用于驗(yàn)證訓(xùn)練階段的分類是否正確。之后,在測試階段,對訓(xùn)練階段未見過的小樣本數(shù)據(jù)集也做相同數(shù)據(jù)劃分,便可以在訓(xùn)練好的模型上直接對小樣本查詢集進(jìn)行判別。圖3 中,對于各種鳥類的小樣本分類問題,可以利用已有的各種鳥類數(shù)據(jù),通過采樣構(gòu)造支持集和查詢集,訓(xùn)練小樣本模型。測試階段,對于黃雀和海鷗等未知鳥類,用同樣的采樣方法區(qū)分出支持集和查詢集,之后提取圖像特征,并計算支持集和查詢集特征的距離或相似度。對于一個小樣本分類任務(wù),元學(xué)習(xí)不會直接學(xué)習(xí)如何做到這件事情,它要做的是去學(xué)習(xí)一些相似的任務(wù),在這些任務(wù)中有足夠的知識或樣本來學(xué)習(xí),當(dāng)學(xué)習(xí)了很多這樣的任務(wù)之后,元學(xué)習(xí)模型便學(xué)會了舉一反三,之后用這個分類任務(wù)來測試元學(xué)習(xí)模型,只要模型在之前的訓(xùn)練中已經(jīng)具備了足夠好的舉一反三的能力,那么模型就可以完成任務(wù)。

圖3 通過元學(xué)習(xí)解決少鏡頭圖像分類問題Fig.3 Solving few-shot image classification via meta-learning

1.2.2 度量學(xué)習(xí)

度量學(xué)習(xí)是解決小樣本圖像分類最常用也是很有效的方法之一。度量學(xué)習(xí)可以解釋為是一種空間映射的方法,能夠?qū)W習(xí)到某種特征空間。在小樣本圖像分類中,可以理解為將數(shù)據(jù)轉(zhuǎn)換成特征向量。度量學(xué)習(xí)也指相似度學(xué)習(xí),衡量在嵌入空間中兩個目標(biāo)特征或者多個相似度或者距離,相同的類特征距離較近,反之不同的類特征距離較遠(yuǎn)。

度量學(xué)習(xí)的小樣本圖像分類方法,如圖4 所示。度量學(xué)習(xí)網(wǎng)絡(luò)主要由嵌入模塊f(特征提取器)和度量模塊g(分類器)兩部分組成。首先將樣本分為支持集和測試集,將圖像輸入嵌入模塊f獲得特征,并且以一定的規(guī)則計算得到支持集圖像中每類的中心特征,以這些中心特征作為支持集中各類圖像的代表,再使用度量模塊g求得與查詢集中樣本最近的中心特征,將這個中心特征所屬的類別標(biāo)簽作為該查詢集樣本的預(yù)測標(biāo)簽。最終根據(jù)相似度得分獲得分類結(jié)果。

圖4 度量學(xué)習(xí)算法流程圖Fig.4 Metric learning algorithm flowchart

通過卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等方法來實(shí)現(xiàn)特征的提取。度量分類器可以使用基于布雷格曼散度的歐氏距離、馬氏距離和余弦距離的固定度量方法或者基于深度神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)度量方式[26]?;诙攘繉W(xué)習(xí)的小樣本圖像分類方法的性能取決于兩方面:一方面是特征提取器和分類器的性能;另一方面是特征與分類器的匹配程度。因此,如何設(shè)計一個小樣本條件下表達(dá)能力強(qiáng)的特征提取器,并使提取的特征與分類器的要求相匹配,對于提升網(wǎng)絡(luò)的分類性能十分重要。

1.2.3 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)又稱為數(shù)據(jù)擴(kuò)充,通過增加既有數(shù)據(jù)的多樣性,而不是實(shí)際收集新數(shù)據(jù)來緩解數(shù)據(jù)稀缺問題?;谠鰪V數(shù)據(jù)集,可以明顯降低過度擬合[27]的風(fēng)險,有效地增強(qiáng)模型的泛化能力。數(shù)據(jù)增強(qiáng)方法可以分為基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充和基于深度生成模型的數(shù)據(jù)擴(kuò)充。

基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充:數(shù)據(jù)扭曲是一種通過基于現(xiàn)有數(shù)據(jù)執(zhí)行基本圖像操作來生成新樣本的方法。常用的變換技術(shù)包括裁剪、翻轉(zhuǎn)、過濾、旋轉(zhuǎn)和去噪。這些轉(zhuǎn)換較容易實(shí)現(xiàn),以增加數(shù)據(jù)規(guī)模。然而,這些方法均無法生成新的語義信息來增加數(shù)據(jù)的多樣性,并且數(shù)據(jù)增強(qiáng)方法對提高模型性能的效果有限。因此,這種方法不能完全解決樣本限制問題,通常被用作數(shù)據(jù)預(yù)處理的輔助技術(shù)。

基于深度生成模型的數(shù)據(jù)擴(kuò)充:深度生成模型可用于學(xué)習(xí)目標(biāo)圖像上豐富的概率分布,并生成具有變化的新樣本。生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)28]是生成模型中較有代表性的一類,是由Goodfellow 等人于2014 年提出來的一種新穎的生成模型框架。GAN包含生成器(generator,G)和判別器(discriminator,D)兩個神經(jīng)網(wǎng)絡(luò)。訓(xùn)練G和D的過程可以看作是造假團(tuán)隊(duì)G與警察團(tuán)隊(duì)D之間的一種相互博弈。造假團(tuán)隊(duì)G的目標(biāo)是生成以假亂真的圖片,而警察團(tuán)隊(duì)D的目標(biāo)是判別圖片的真假。兩者通過不斷地對抗來提高自己的水平[29]。直到警察團(tuán)隊(duì)D無法判別圖像真假時,說造假團(tuán)隊(duì)G能夠生成騙過警察團(tuán)隊(duì)D的圖像。

生成對抗網(wǎng)絡(luò)的基本模型如圖5 所示。

圖5 生成式對抗網(wǎng)絡(luò)Fig.5 Generative adversarial network

生成式對抗網(wǎng)絡(luò)巧妙地利用了博弈的思想,將圖像生成任務(wù)轉(zhuǎn)化為最大最小化目標(biāo)函數(shù)的優(yōu)化問題。進(jìn)一步地,又轉(zhuǎn)化為兩個神經(jīng)網(wǎng)絡(luò)采取梯度下降方法交替訓(xùn)練的問題。

無論是基于數(shù)據(jù)扭曲還是基于深度生成模型,數(shù)據(jù)增強(qiáng)的手段都是來增加小樣本數(shù)據(jù),緩解小樣本分類中因?yàn)槿狈?shù)據(jù)導(dǎo)致分類率低的問題。采用數(shù)據(jù)增強(qiáng)的思路來解決小樣本學(xué)習(xí)問題是人們最常用、最簡單的一種方式,并且這種方式相對來說方式較為靈活,選擇也很多。基于數(shù)據(jù)增強(qiáng)的小樣本圖像分類研究具有普遍通用性,是不可或缺的。

1.3 小樣本圖像分類數(shù)據(jù)集

本節(jié)介紹了用于小樣本圖像分類的公共數(shù)據(jù)集,如圖6 所示。下面列出了數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)和常用實(shí)驗(yàn)設(shè)置。

圖6 小樣本學(xué)習(xí)通用數(shù)據(jù)集Fig.6 Few-shot learning general dataset

Mini-ImageNet[30]:Mini-ImageNet數(shù)據(jù)集是另一個廣泛使用的數(shù)據(jù)集。它由ImageNet 中選擇的100個類組成,每個類有600 張圖像。該數(shù)據(jù)集最初由Vinyals 等人提出,但最近的研究遵循Ravi 和Larochelle 提供的實(shí)驗(yàn)設(shè)置,將100 個類分為64 個基類、16 個驗(yàn)證類和20 個測試類。

Tiered-ImageNet[31]:與Mini-ImageNet 一樣,它是ILSVRC-12的子集,但Tiered-ImageNet代表了ILSVRC-12 的更大子集(608 個類,而Mini-ImageNet 則為100個類)。類似于將字符分組為字母的Omniglot,Tiered-ImageNet 將類別分為與ImageNet 層次結(jié)構(gòu)中較高級別的節(jié)點(diǎn)相對應(yīng)的更廣泛的類別,共有34 個大類別,每個類別包含10 到30 個小類別。數(shù)據(jù)集分為20 個基類、6 個驗(yàn)證類和8 個測試類。

CIFAR-FS[32]:CIFAR-Fewshot數(shù)據(jù)集建立在CIFAR-100 之上,包含100 個類,每個類600 張圖像。數(shù)據(jù)集劃分為64個基類、16個驗(yàn)證類和20個測試類。

CUB-200[33]:CUB-200數(shù)據(jù)集全稱為Caltech-UCSD Birds-200-2011 數(shù)據(jù)集。CUB 數(shù)據(jù)集是一個細(xì)粒度的鳥類分類數(shù)據(jù)集,共包含200 個類別和11 788 張圖像。數(shù)據(jù)集通常分為100 個基類、50 個驗(yàn)證類和50 個測試類。

Omniglot[34]:Omniglot數(shù)據(jù)集包含50個不同字母(語言的1 623 個不同手寫字符)。每一個字符都是由20 個不同的人通過亞馬遜的Mechanical Turk在線繪制的。每個字符產(chǎn)生了20 幅圖像,相當(dāng)于1 623 個類,每類20 個樣本。在實(shí)驗(yàn)時,取1 200 個字符進(jìn)行訓(xùn)練,其余423 個字符進(jìn)行測試。此外,將每個圖像的大小調(diào)整為28×28 像素,并旋轉(zhuǎn)90°作為數(shù)據(jù)增強(qiáng)。

2 有監(jiān)督小樣本圖像分類

2.1 基于元學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

元學(xué)習(xí)在處理小樣本問題時包括元訓(xùn)練(metatraining)和元測試(meta-testing)兩個階段。在元訓(xùn)練階段,如圖7 所示,基礎(chǔ)學(xué)習(xí)器將面對元學(xué)習(xí)器提供的許多個獨(dú)立的監(jiān)督任務(wù)T,任務(wù)之間所包含樣本的類別不完全相同。在每一個任務(wù)內(nèi),從已有的基礎(chǔ)類別集Cbase中隨機(jī)抽取N個類別,從每類樣本中抽取K個樣本(共N×K個樣本)組成支持集S作為基礎(chǔ)學(xué)習(xí)器的輸入,再從這N類的剩余樣本中隨機(jī)抽取一批作為查詢集用于測試。

圖7 元學(xué)習(xí)訓(xùn)練思想Fig.7 Meta-learning training ideas

本節(jié)回顧了近年來用于小樣本圖像分類的代表性有監(jiān)督元學(xué)習(xí)方法。調(diào)查研究發(fā)現(xiàn),小樣本元學(xué)習(xí)的一個主流方法是梯度迭代,通過迭代,獲得合適的模型,因此眾多研究基于迭代的研究思路展開。

MAML(multi-agent modeling language)由Finn等人[35]提出,將元學(xué)習(xí)應(yīng)用到小樣本圖像分類。MAML的核心思想是梯度迭代。首先需要在源數(shù)據(jù)上將目標(biāo)設(shè)定好,每一個任務(wù)當(dāng)中的訓(xùn)練集只含有很少的標(biāo)注樣本信息,然后利用這些標(biāo)注樣本所訓(xùn)練的模型參數(shù)在測試集上面評估得到的監(jiān)督信息參數(shù)θ,并用監(jiān)督信息θ來訓(xùn)練原網(wǎng)絡(luò),使得模型學(xué)習(xí)到適配特征。整個過程通過梯度迭代優(yōu)化,前一步迭代優(yōu)化訓(xùn)練得到的模型,將會作為當(dāng)前迭代優(yōu)化的初始模型。訓(xùn)練完成后的模型具有對新訓(xùn)練的學(xué)習(xí)域分布最敏感的參數(shù)。正是通過這種優(yōu)化方式,可以從多次迭代優(yōu)化任務(wù)中獲得最貼合新任務(wù)的模型參數(shù),達(dá)到比較好的準(zhǔn)確率,并且對于學(xué)習(xí)相似任務(wù)的信息可以快速地泛化。Nichol 等人[36]提出的Reptile 模型基于MAML 模型,但Reptile 取消了內(nèi)層優(yōu)化僅更新一次的限制,梯度更新從二階轉(zhuǎn)化為一階,因此Reptile 有效節(jié)約了計算成本。針對MAML 的不足,Antoniou 等人[37]在2019 年提出MAML++模型。對于訓(xùn)練不穩(wěn)定問題,Antoniou 等人提出多步損失優(yōu)化法,通過改善梯度傳播的方式緩解MAML 優(yōu)化過程中的不穩(wěn)定性。

Meta-Learner LSTM 是一種基于LSTM(long shortterm memory)的元學(xué)習(xí)模型,用于學(xué)習(xí)作用于另一個學(xué)習(xí)的最優(yōu)化算法。LSTM 的作者Larochelle 等人[38]發(fā)現(xiàn)了更新規(guī)則與一般的梯度下降算法更新規(guī)則非常類似,因此將LSTM 更新規(guī)則的輸入替換為其他的一系列參數(shù),用于更新Learner 的值。算法的主要貢獻(xiàn)是首次將序列優(yōu)化問題進(jìn)行了規(guī)范化。使用LSTM 這樣的序列優(yōu)化模型,模型按照順序在不同的任務(wù)中交替訓(xùn)練,使得模型能夠通過少量樣例,從一個分類任務(wù)快速遷移到另一個分類任務(wù)中。但由于訓(xùn)練數(shù)據(jù)較少,LSTM 模型所需參數(shù)規(guī)模較大,算法實(shí)際在小樣本任務(wù)上的分類效果并不是很好。

基于梯度的元學(xué)習(xí)技術(shù)在解決小樣本學(xué)習(xí)時具有廣泛的應(yīng)用性。然而,當(dāng)在極低數(shù)據(jù)狀態(tài)下對高維參數(shù)空間進(jìn)行操作時存在實(shí)際困難。潛在嵌入優(yōu)化將基于梯度的自適應(yīng)過程與模型參數(shù)的底層高維空間分離。因此,Rusu等人[39]在2019年提出了具有潛在嵌入優(yōu)化的元學(xué)習(xí)(latent embedding optimization,LEO)。LEO 通過學(xué)習(xí)模型參數(shù)的數(shù)據(jù)相關(guān)潛在生成表示,并在這個低維潛在空間中執(zhí)行基于梯度的元學(xué)習(xí),可以繞過這些限制。

將元學(xué)習(xí)與遷移學(xué)習(xí)相結(jié)合來解決小樣本問題也是眾多研究者思考的問題,并且嘗試替換神經(jīng)網(wǎng)絡(luò)的深淺和長度,用一些新的模型來替代卷積神經(jīng)網(wǎng)絡(luò),也能取得不錯的效果。

由于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)傾向于僅使用少數(shù)樣本進(jìn)行過擬合,因此元學(xué)習(xí)通常使用淺層神經(jīng)網(wǎng)絡(luò)(shallow neural networks,SNN),而限制了有效性。2019 年國內(nèi)Sun 等人[40]提出了一種新的元遷移學(xué)習(xí)(meta-transfer learning,MTL)進(jìn)行小樣本學(xué)習(xí)。MTL 使深度神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本學(xué)習(xí)任務(wù),通過學(xué)習(xí)每個任務(wù)的DNN 權(quán)重的縮放和移位函數(shù)來實(shí)現(xiàn)遷移。

許多小樣本學(xué)習(xí)方法通過從已見類中學(xué)習(xí)實(shí)例嵌入函數(shù),并將該函數(shù)應(yīng)用于來自有限標(biāo)簽的未見類。Ye 等人[41]于2020 年提出了使用Set-to-Set 函數(shù)嵌入自適應(yīng)的小樣本學(xué)習(xí)(few-shot embedding adaptation transformer,F(xiàn)EAT)。通過Set-to-Set 函數(shù)使實(shí)例嵌入適應(yīng)目標(biāo)分類任務(wù),從而產(chǎn)生特定于任務(wù)且具有區(qū)分性的嵌入。Ye等人憑經(jīng)驗(yàn)研究了這種集合到集合函數(shù)的各種實(shí)例,并觀察到Transformer是有效的。

許多用于小樣本學(xué)習(xí)的元學(xué)習(xí)方法依賴于簡單的基礎(chǔ)學(xué)習(xí)器,例如最近鄰分類器。但在小樣本情況下,經(jīng)過判別訓(xùn)練的線性預(yù)測器也可以提供更好的泛化能力。Lee 等人[42]在2019 年提出了具有可微凸優(yōu)化的元學(xué)習(xí)(MetaOptNet)。MetaOptNet 使用預(yù)測器作為基礎(chǔ)學(xué)習(xí)器來學(xué)習(xí)小樣本學(xué)習(xí)的表示,并表明在一系列小樣本分類基準(zhǔn)中提供了特征大小和性能之間的更好權(quán)衡。

受自動化機(jī)器學(xué)習(xí)(AutoML)取得成功的啟發(fā),Zhang 等人[43]在2021 年提出為小樣本學(xué)習(xí)尋找一個好的適應(yīng)策略,稱為Meta Navigator。Meta Navigator通過尋求更高級別的策略并提供自動化選擇來解決小樣本學(xué)習(xí)限制的問題,搜索系統(tǒng)建立在離散元學(xué)習(xí)策略的連續(xù)放松之上,其中每個候選策略都與一個可學(xué)習(xí)的策略選擇指標(biāo)相關(guān)聯(lián)。目標(biāo)是尋找適用于網(wǎng)絡(luò)不同階段的良好參數(shù)適應(yīng)策略,以進(jìn)行小樣本分類。Zhang 等人還提出了一個搜索空間,涵蓋了許多流行的小樣本學(xué)習(xí)算法,并開發(fā)了一種基于元學(xué)習(xí)的可微搜索和解碼算法,支持基于梯度的優(yōu)化。

通過對整個分類進(jìn)行訓(xùn)練,即對整個標(biāo)簽集進(jìn)行分類,可以獲得與許多元學(xué)習(xí)算法相當(dāng)甚至更好的嵌入。Chen等人[44]因此在2021年提出了元基線(Meta-Baseline),探索簡單元學(xué)習(xí)的小樣本學(xué)習(xí)方法。Meta-Baseline 的所有單個組件都已在先前的工作中提出,但沒有一個工作將它們作為一個整體進(jìn)行研究。

2.2 基于度量學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

Snell 等人[45]在2017 年提出了原型網(wǎng)絡(luò)(prototypical network)。原型網(wǎng)絡(luò)的思想為每個類別在向量空間中都存在一個原型(prototype),也稱為類別中心點(diǎn)。原型網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)將圖像映射成特征向量,對于同屬一個類別的樣本,求得這一類樣本向量的平均值作為該類別的原型。通過不斷訓(xùn)練模型和最小化損失函數(shù),使同一類別的樣本距離更加接近,不同類別的樣本更加遠(yuǎn)離,從而更新嵌入函數(shù)的參數(shù)。原型網(wǎng)絡(luò)思路架構(gòu)如圖8 所示,在原型網(wǎng)絡(luò)中f和g是參數(shù)共享的嵌入網(wǎng)絡(luò),這種思路框架也是許多后續(xù)基于度量的小樣本學(xué)習(xí)方法的基石。

圖8 原型網(wǎng)絡(luò)樣例Fig.8 Prototypical network example

早期的小樣本度量學(xué)習(xí)方法,如孿生網(wǎng)絡(luò)(Siamese network)和匹配網(wǎng)絡(luò)(matching network),通過測量和比較查詢樣本與支持樣本的距離來對查詢樣本進(jìn)行分類。孿生卷積神經(jīng)網(wǎng)絡(luò)(Siamese convolutional neural network)[46]是首個用于一次性圖像分類的深度度量學(xué)習(xí)方法。孿生網(wǎng)絡(luò)首先在文獻(xiàn)[47]中引入,由兩個具有相同架構(gòu)和共享權(quán)重的子網(wǎng)絡(luò)組成。孿生神經(jīng)網(wǎng)絡(luò)可以提取兩個輸入圖片在同一分布域的特征,從而判斷兩個輸入圖片的相似性。匹配網(wǎng)絡(luò)[48]在整個支持集的上下文中使用不同的網(wǎng)絡(luò)對支持和查詢圖像進(jìn)行編碼,并且將情景訓(xùn)練引入小樣本分類,支持圖像通過雙向LSTM 網(wǎng)絡(luò)嵌入。該網(wǎng)絡(luò)不僅考慮圖像本身,還考慮集合中的其他圖像;查詢圖像通過具有注意機(jī)制的LSTM 嵌入,以啟用對支持集的依賴。早期度量學(xué)習(xí)方法特征學(xué)習(xí)能力有限,魯棒性較差,無法達(dá)到理想的效果。這些方法為度量學(xué)習(xí)建立了理論基礎(chǔ),近幾年度量學(xué)習(xí)方法在此基礎(chǔ)上取得了較好的效果。

很多研究者將度量學(xué)習(xí)下小樣本學(xué)習(xí)目光放在了特征問題上,通過有效提取特征之間的關(guān)聯(lián)性,來提高小樣本圖像分類的準(zhǔn)確率。

子空間是度量學(xué)習(xí)經(jīng)常用到的一種方法。Simon等人[49]在2020 年提出了深度子空間網(wǎng)絡(luò)(deep subspace networks,DSN)。引入小樣本構(gòu)建的動態(tài)分類器,為小樣本學(xué)習(xí)提供了一個框架。通過使用子空間來擴(kuò)展現(xiàn)有的動態(tài)分類器。子空間方法被用作動態(tài)分類器的中心塊,這種建模會導(dǎo)致對擾動異常值的魯棒性。還引入了一個判別公式,在訓(xùn)練期間鼓勵子空間之間的最大區(qū)分,并在監(jiān)督和半監(jiān)督的小樣本分類任務(wù)上產(chǎn)生較有競爭力的結(jié)果。

Hou 等人[50]在2019 年提出了一種新穎的交叉注意網(wǎng)絡(luò)(cross attention network,CAN)來解決小樣本分類問題,CAN 引入交叉注意力模塊來處理看不見類的問題。該模塊為每一對類特征和查詢樣本特征生成交叉注意力圖,以突出目標(biāo)對象區(qū)域,使提取的特征更具判別力。其次提出了一種轉(zhuǎn)導(dǎo)推理算法來緩解低數(shù)據(jù)問題,該算法迭代地利用未標(biāo)記的查詢集來擴(kuò)充支持集,從而使類特征更具代表性。

國內(nèi)Zhang 等人[51]也在2020 年提出了具有可微推土機(jī)距離和結(jié)構(gòu)化分類器(deep earth mover’s distance,DeepEMD)的小樣本圖像分類。地球移動距(earth mover’s distance,EMD)可以作為度量來計算密集圖像表示之間的結(jié)構(gòu)距離,以確定圖像相關(guān)性。EMD 生成具有最小匹配成本的結(jié)構(gòu)元素之間的最佳匹配流,用于表示分類的圖像距離。EMD中的最佳匹配流參數(shù)和特征嵌入中的參數(shù)以端到端的方式進(jìn)行訓(xùn)練。為了生成EMD 公式中元素的重要權(quán)重,Zhang 等人設(shè)計了一種交叉引用機(jī)制,可以有效地減少由雜亂的背景和較大的類內(nèi)外觀變化造成的影響。

通過設(shè)計歸納偏差提出一種新穎的特征學(xué)習(xí)方法。Rizve 等人[52]在2021 年提出了小樣本學(xué)習(xí)不變和等變表示的互補(bǔ)優(yōu)勢,實(shí)現(xiàn)了輸入變換所需的特征,可以提供更好的區(qū)分。專注于轉(zhuǎn)換判別的特征對于類判別不是最優(yōu)的,而是有助于學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)的等變屬性,從而獲得更好的可遷移性。

CAN、DSN、DeepEMD 和互補(bǔ)優(yōu)勢等方法從度量學(xué)習(xí)的特征角度入手,通過設(shè)計有效的特征學(xué)習(xí)方法,使得小樣本學(xué)習(xí)性能得以提升。也有眾多研究者從度量學(xué)習(xí)其他角度來解決小樣本圖像分類問題,如質(zhì)心、類空間等方法,并同樣使得性能得到提升。

基于質(zhì)心的方法通過最近鄰規(guī)則實(shí)現(xiàn)了較好分類性能。Liu 等人[53]認(rèn)為這些方法本質(zhì)上忽略了每類分布,由于類內(nèi)方差的多樣性,決策邊界是有偏差的。Liu 等人在2021 年提出了用于改進(jìn)小樣本分類的類度量尺度機(jī)制(class-wise metric scaling,CMS)。CMS 使得度量標(biāo)量在訓(xùn)練階段被設(shè)置為可學(xué)習(xí)的參數(shù),有助于學(xué)習(xí)更具區(qū)分性和可轉(zhuǎn)移性的特征表示。CMS 構(gòu)建了一個凸優(yōu)化問題來生成一個最優(yōu)標(biāo)量向量,以優(yōu)化最近鄰決策。CMS 可以應(yīng)用于訓(xùn)練和測試階段,充分利用每類分布之間的信息來解決小樣本問題。

從基集類空間的角度來看,研究者要么側(cè)重于通過常規(guī)預(yù)訓(xùn)練來利用全局視圖下的所有類,要么更注重采用情節(jié)式的方法在局部視圖中對少數(shù)類內(nèi)的元任務(wù)進(jìn)行訓(xùn)練。Zhou 等人[54]在2021 年提出小樣本分類的雙目互學(xué)習(xí)(binocular mutual learning,BML)。BML 通過視圖內(nèi)和交叉視圖建模來實(shí)現(xiàn)全局視圖和局部視圖的兼容。全局視圖在整個類空間中學(xué)習(xí)以捕捉豐富的類間關(guān)系。同時,局部視圖在每一集的局部類空間中學(xué)習(xí),專注于正確匹配正對。此外,跨視圖交互進(jìn)一步促進(jìn)了協(xié)作學(xué)習(xí)和對有用知識的隱性探索。由于這兩個視圖捕獲了互補(bǔ)的信息,大大提高了分類的準(zhǔn)確性。

選擇一個距離度量來直接計算查詢和支持圖像之間的距離以進(jìn)行分類,然而這些方法中的大多數(shù)使用圖像級池表示進(jìn)行分類,可能會失去相當(dāng)大的判別性局部線索,這些線索在類之間享有良好的可轉(zhuǎn)移性。Wu 等人[55]在2021 年通過將自動零件挖掘過程集成到FSL 的基于度量的模型中,提出了一個端到端的任務(wù)感知零件挖掘網(wǎng)絡(luò)(task-aware part mining network,TPMN)。TPMN 設(shè)計了一個元過濾器學(xué)習(xí)器,以元學(xué)習(xí)方式基于任務(wù)嵌入生成任務(wù)感知部分過濾器。任務(wù)感知部分過濾器可以適應(yīng)任何單個任務(wù),并自動挖掘與任務(wù)相關(guān)的本地部分,即使是看不見的任務(wù)。其次,提出了一種自適應(yīng)重要性生成器來識別關(guān)鍵的局部部分,并將自適應(yīng)重要性權(quán)重分配給不同的部分。

Singh 等人[56]在概率深度學(xué)習(xí)的啟發(fā)下,提出了一種新型的變異推理網(wǎng)絡(luò)TRIDENT,將圖像的表示解耦為語義和標(biāo)簽的潛在變量,同時以交織的方式推斷它們。為了誘導(dǎo)任務(wù)意識,作為TRIDENT 推理機(jī)制的一部分,使用一個新的內(nèi)置的基于注意力的反導(dǎo)特征提取模塊,以TRIDENT能夠全面看到一個任務(wù)中的所有圖像,在標(biāo)簽信息的推斷中誘發(fā)任務(wù)認(rèn)知。

He 等人[57]提出一種新的分層級聯(lián)變換器(hierarchically cascaded transformers,HCTransformers),通過光譜標(biāo)記池利用內(nèi)在的圖像結(jié)構(gòu),并通過潛在的屬性代理優(yōu)化可學(xué)習(xí)參數(shù)。設(shè)計了一個由三個連續(xù)級聯(lián)的變換器組成的元特征提取器,每個變換器都在不同的語義層面對圖像區(qū)域的依賴性進(jìn)行建模。相同聚類中標(biāo)記的特征被平均化,以生成新的標(biāo)記描述符,用于后續(xù)的轉(zhuǎn)化器。譜系標(biāo)記集合背后的動機(jī)是將圖像分割層次帶入變換器。

表1 選取了Mini-ImageNet(test)、Tiered-Image-Net(test)和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對比參考,因?yàn)槠渌麕讉€數(shù)據(jù)集使用較少,所以不做討論。由表1 可以看出,在每個數(shù)據(jù)集上面,5-shot準(zhǔn)確率均比1-shot 準(zhǔn)確率高10 個百分點(diǎn)左右,表明小樣本學(xué)習(xí)和常規(guī)的訓(xùn)練學(xué)習(xí)一樣,訓(xùn)練數(shù)據(jù)越多,學(xué)到的信息和特征越多,分類的性能也越好。在Mini-Image-Net(test)上,最初在1-shot 與5-shot 上43.44%和60.60%的準(zhǔn)確率已經(jīng)提升到了74%和89%左右,不同模型方法通過不同的側(cè)重點(diǎn)改進(jìn),均取得了較好的性能提升,但在此數(shù)據(jù)集上還有較大的提升空間。因?yàn)門iered-ImageNet(test)與Mini-ImageNet(test)都出自ImageNet 數(shù)據(jù)集,所以準(zhǔn)確率的提升和Mini-ImageNet(test)同樣明顯。但因?yàn)門iered-Image-Net(test)數(shù)據(jù)集中包含層次結(jié)構(gòu)較高級別的節(jié)點(diǎn)對應(yīng)更廣泛的類別,所以最高準(zhǔn)確率在1-shot 和5-shot 上已經(jīng)達(dá)到79%和91%,但同樣有提升的空間,距離人的識別準(zhǔn)確率還有較大差距。CIFAR-FS 數(shù)據(jù)集與以上兩個數(shù)據(jù)集有一個顯著的區(qū)別在于,早期的有監(jiān)督小樣本學(xué)習(xí)更注重在Mini-ImageNet(test)和Tiered-ImageNet(test)上的性能表現(xiàn),但在近幾年,研究者們開始關(guān)注在CIFAR-FS 上的性能表現(xiàn),并在1-shto 和5-shot 下達(dá)到了78%和90%的準(zhǔn)確率,較之前都有了35 個百分點(diǎn)的性能提升。同時通過調(diào)查發(fā)現(xiàn),基于元學(xué)習(xí)和度量學(xué)習(xí)的小樣本學(xué)習(xí)準(zhǔn)確率均達(dá)到了較高的數(shù)值,且兩種方法通過相互結(jié)合,能夠進(jìn)一步提高實(shí)驗(yàn)結(jié)果。如表2 所示,通過對有監(jiān)督下小樣本圖像分類方法的對比分析,發(fā)現(xiàn)各方法均有優(yōu)勢,但元學(xué)習(xí)器設(shè)計較為困難,而度量學(xué)習(xí)容易引入其他噪音參數(shù)。

表1 有監(jiān)督下小樣本圖像分類方法準(zhǔn)確率對比Table 1 Accuracy comparison of supervised few-shot image classification methods 單位:%

表2 有監(jiān)督下小樣本圖像分類方法對比分析Table 2 Comparative analysis of supervised few-shot image classification methods

3 基于半監(jiān)督小樣本圖像分類

3.1 半監(jiān)督概念

獲取大量的有標(biāo)注數(shù)據(jù)集需要耗費(fèi)大量的人力物力,但是隨著深度學(xué)習(xí)的快速發(fā)展和手機(jī)、攝像機(jī)等收集圖像設(shè)備的迭代更新,每時每刻都有人將自己拍攝的圖片傳輸?shù)缴缃痪W(wǎng)絡(luò)當(dāng)中。另一方面,隨著智慧城市概念的提出,為了城市的安全和管理考慮,監(jiān)控系統(tǒng)已經(jīng)普及到全國各地所有的城市當(dāng)中,通過監(jiān)控每天都能獲得許多無標(biāo)記的圖片。雖然無標(biāo)注數(shù)據(jù)集沒有具體的類別標(biāo)簽等人為標(biāo)注信息,但是無標(biāo)注信息本身就含有大量的有用的特征信息和語義結(jié)構(gòu)信息,因此一個很自然的想法就隨之誕生,如果同時依靠有限的標(biāo)注數(shù)據(jù),同時能夠有效提取無標(biāo)注數(shù)據(jù)中自身含有的有用信息進(jìn)行學(xué)習(xí),則可以大大促進(jìn)圖像分類相關(guān)研究的發(fā)展。而關(guān)于小樣本學(xué)習(xí)下的半監(jiān)督學(xué)習(xí),前期絕大多數(shù)都是在基于元學(xué)習(xí)的理論框架下發(fā)展的,近些年相關(guān)新的技術(shù)也被提出。下面根據(jù)半監(jiān)督的相關(guān)方法展開討論。

3.2 基于半監(jiān)督的小樣本學(xué)習(xí)

如果只用少量的有標(biāo)注圖像進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練,則會造成深度模型的過擬合,無法學(xué)到泛化能力強(qiáng)的分類模型,而充分利用無標(biāo)注樣本的結(jié)構(gòu)和語義信息可以幫助獲得更好的模型,如圖9 所示,相比于有監(jiān)督的圖像分類任務(wù),半監(jiān)督圖像分類將會充分利用無標(biāo)注數(shù)據(jù)。因此本節(jié)研究的關(guān)鍵是如何依靠有限的標(biāo)注數(shù)據(jù),同時利用大量的無標(biāo)注數(shù)據(jù)進(jìn)行圖像識別模型的學(xué)習(xí),即基于半監(jiān)督學(xué)習(xí)的圖像分類。

圖9 有監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的對比Fig.9 Supervised learning vs semi-supervised learning

半監(jiān)督學(xué)習(xí)的關(guān)鍵是如何挖掘和利用無標(biāo)注樣本中包含的信息。為了利用無標(biāo)注樣本,現(xiàn)有的半監(jiān)督學(xué)習(xí)方法基本都遵循一個基于密度的聚類假設(shè):位于高密度區(qū)域的樣本可能屬于同一個類簇。該假設(shè)還有一個等價的描述:分類超平面不應(yīng)該越過高密度區(qū)域,而應(yīng)該位于低密度區(qū)域,即低密度可分假設(shè),如圖10 所示?;诘兔芏瓤煞旨僭O(shè),研究者提出了兩類半監(jiān)督學(xué)習(xí)方法:第一類是基于一致性正則的方法,主要約束模型對無標(biāo)注樣本經(jīng)過隨機(jī)擾動后的分類預(yù)測與對原始樣本的分類預(yù)測具有一致性;第二類是基于偽標(biāo)注的方法,該類方法主要通過模型的分類預(yù)測或鄰近的有標(biāo)注樣本為無標(biāo)注樣本產(chǎn)生偽標(biāo)簽。

圖10 低密度可分示意圖Fig.10 Low density separable schematic

3.2.1 一致性約束的方法

半監(jiān)督下基于一致性約束的方法主要基于低密度可分假設(shè)。分類超平面應(yīng)該位于數(shù)據(jù)的低密度區(qū)域,而不應(yīng)穿過高密度區(qū)域;因?yàn)橄嗤悇e的樣本更可能形成高密度,所以分類超平面如果位于高密度區(qū),則會將相同類別的樣本劃分為不同的類別。當(dāng)前基于半監(jiān)督學(xué)習(xí)的圖像識別算法基本都遵循該假設(shè)。為確保分類超平面低密度可分,研究者提出了一致性約束的方法,其核心思想為約束每個訓(xùn)練樣本經(jīng)過數(shù)據(jù)擾動之后,網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對應(yīng)的輸出一致。

基于密度圖的半監(jiān)督學(xué)習(xí)算法。通過構(gòu)建密度圖,每個樣本可以很容易獲得其鄰居信息。更重要的是,特征學(xué)習(xí)和標(biāo)簽傳播可以一起進(jìn)行端到端的訓(xùn)練,并且為了更好地利用密度信息,顯式地將密度信息有機(jī)地引入到特征學(xué)習(xí)和標(biāo)簽傳播的過程中。具體來說,首先給定有標(biāo)注樣本和無標(biāo)注樣本來構(gòu)建密度圖,并且為圖中每個節(jié)點(diǎn)定義密度信息?;诿芏葓D進(jìn)行特征學(xué)習(xí),提出聚合鄰居信息去增強(qiáng)目標(biāo)節(jié)點(diǎn)的特征。

Laine 等人[58]提出兩種使用一致性約束的半監(jiān)督圖像識別方法,即PI 模型(productivity index)和時序集成模型(temporal ensemble)。PI 模型將原始訓(xùn)練樣本和對應(yīng)的經(jīng)過數(shù)據(jù)擾動的樣本一同輸入模型,然后約束模型對這兩種輸入的輸出具有一致性。不同于PI 模型需要將兩種訓(xùn)練樣本輸入模型,時序集成模型則提出保存每個訓(xùn)練樣本對應(yīng)的模型輸出的歷史均值,然后約束樣本對應(yīng)的當(dāng)前模型的輸出與歷史平均值具有一致性。PI 模型的特點(diǎn)是不需要保存每個樣本的歷史平均值,但模型需要前向計算兩次;時序集成模型不需要對每個樣本前向計算兩次,但需要保存所有訓(xùn)練樣本的歷史類別預(yù)測均值,故具有較大的存儲開銷。

Rodriguez 等人[59]提出密度峰假設(shè),強(qiáng)調(diào)高密度的樣本更可能是類簇的中心,同時高密度的樣本更能表征所屬類簇的信息。相比于低密度的樣本,高密度的樣本具有更高的特征性,這對半監(jiān)督學(xué)習(xí)來說是一個非常有價值的信息。但是當(dāng)前的半監(jiān)督學(xué)習(xí)方法并沒有像這樣顯式地利用密度信息或者深入地挖掘密度信息。對于一個半監(jiān)督學(xué)習(xí)算法來說,特征學(xué)習(xí)和無標(biāo)注的偽標(biāo)注生成是其核心的兩部分。在進(jìn)行特征學(xué)習(xí)時,當(dāng)前的方法只利用了單個樣本自身的信息,而忽略了可以利用的鄰居信息,這些鄰居信息包含的類簇和結(jié)構(gòu)信息可以幫助學(xué)習(xí)到更好的特征。

MeanTeacher[60]對時序集成模型進(jìn)行了改進(jìn)。不同于時序集成模型要求原始樣本的輸出與經(jīng)過隨機(jī)擾動的樣本的輸出具有一致約束性,Mean Teacher 提出在訓(xùn)練過程中對模型的參數(shù)做歷史滑動均勻,并維護(hù)對應(yīng)的模型,然后約束同一訓(xùn)練樣本,經(jīng)過當(dāng)前模型與歷史平均模型后的輸出具有一致性。

Liu 等人[61]在2018 年提出一種基于半監(jiān)督的元學(xué)習(xí)框架,通過情景訓(xùn)練的元學(xué)習(xí),可以學(xué)習(xí)標(biāo)簽傳播網(wǎng)絡(luò)。從訓(xùn)練集中采樣的查詢示例可以用來模擬真實(shí)的測試集進(jìn)行跨導(dǎo)推理,稱為跨導(dǎo)傳播網(wǎng)絡(luò)(transductive propagation network,TPN)。為解決圖像分類數(shù)據(jù)低的問題,TPN 用于對整個測試集進(jìn)行一次分類,以緩解低數(shù)據(jù)問題。通過學(xué)習(xí)利用數(shù)據(jù)中流形結(jié)構(gòu)的圖構(gòu)造模塊,以端到端的方式聯(lián)合學(xué)習(xí)嵌入圖形構(gòu)造的參數(shù)。

Yu 等人[62]的思考角度發(fā)生了轉(zhuǎn)變,將預(yù)訓(xùn)練模型遷移到小樣本學(xué)習(xí)。Yu 等人在2020 年提出了一種新的半監(jiān)督小樣本學(xué)習(xí)轉(zhuǎn)移學(xué)習(xí)框架Trans Match。TransMatch 充分利用標(biāo)記基類數(shù)據(jù)和未標(biāo)記新類數(shù)據(jù)中的輔助信息,顯著提高小樣本學(xué)習(xí)任務(wù)的準(zhǔn)確性。TransMatch 的最大創(chuàng)新點(diǎn)在于,以往的半監(jiān)督學(xué)習(xí)方法都基于元學(xué)習(xí),而Yu 等人將目光放在基于遷移學(xué)習(xí),并且取得成功。

大多數(shù)基于圖網(wǎng)絡(luò)的元學(xué)習(xí)方法對示例的實(shí)例級關(guān)系進(jìn)行建模。Yang 等人[63]進(jìn)一步擴(kuò)展這一想法,提出了分布傳播圖網(wǎng)絡(luò)(distribution propagation graph network,DPGN)。DPGN 傳達(dá)了每個小樣本學(xué)習(xí)任務(wù)中的分布級關(guān)系和實(shí)例級關(guān)系,為了結(jié)合所有示例的分布級關(guān)系和實(shí)例級關(guān)系,Yang 等人構(gòu)建了一個由點(diǎn)圖和分布圖組成的對偶完全圖網(wǎng)絡(luò),每個節(jié)點(diǎn)代表一個示例來進(jìn)行實(shí)驗(yàn),并取得了不錯的效果。

3.2.2 基于偽標(biāo)注的方法

基于偽標(biāo)注的方法的核心思想是為無標(biāo)注樣本賦予“偽標(biāo)簽”,之后結(jié)合原始有標(biāo)注數(shù)據(jù)共同進(jìn)行有監(jiān)督的小樣本訓(xùn)練,因此該類方法又被稱為自監(jiān)督學(xué)習(xí)方法。該類方法的關(guān)鍵是為無標(biāo)注樣本生成準(zhǔn)確的類別標(biāo)簽,而不同的產(chǎn)生類別標(biāo)簽的方法代表了不同的半監(jiān)督學(xué)習(xí)方式。

Li 等人[64]在2019 年提出一種基于半監(jiān)督的帶硬偽標(biāo)簽和軟偽標(biāo)簽的自我訓(xùn)練方法,利用稀缺的標(biāo)記數(shù)據(jù)和豐富的未標(biāo)記數(shù)據(jù)來學(xué)習(xí),稱為自學(xué)習(xí)訓(xùn)練(learning to self-train,LST)。LST 利用未標(biāo)記的數(shù)據(jù),特別是元學(xué)習(xí),來挑選和標(biāo)記此類無監(jiān)督數(shù)據(jù),以進(jìn)一步提高性能。在每個任務(wù)中,訓(xùn)練幾個鏡頭模型來預(yù)測未標(biāo)記數(shù)據(jù)的偽標(biāo)簽,在每個步驟中對標(biāo)記和偽標(biāo)記數(shù)據(jù)迭代自訓(xùn)練步驟,最后在下游任務(wù)中進(jìn)行微調(diào)。此外,此模型還提出軟加權(quán)網(wǎng)絡(luò)來優(yōu)化偽標(biāo)簽的自訓(xùn)練權(quán)重,以便網(wǎng)絡(luò)能夠更好地為梯度下降優(yōu)化做出更大的貢獻(xiàn)。

Huang 等人[65]在2020 年提出了一種用于半監(jiān)督小樣本學(xué)習(xí)的任務(wù)統(tǒng)一置信度估計方法PLCM(pseudoloss confidence metric)。PLCM 通過偽損失模型將不同任務(wù)的偽標(biāo)記數(shù)據(jù)映射到一個統(tǒng)一的度量空間,從而可以了解之前的偽損失分布。PLCM根據(jù)偽標(biāo)記數(shù)據(jù)偽丟失的分布分量置信度估計偽標(biāo)記數(shù)據(jù)的置信度。

以往利用元學(xué)習(xí)范式或數(shù)據(jù)增強(qiáng)中的新原理來緩解極度缺乏數(shù)據(jù)的問題。Wang 等人[66]提出了一種簡單的統(tǒng)計方法,稱為實(shí)例可信度推斷(instance credibility inference,ICI),以利用未標(biāo)記實(shí)例的分布支持進(jìn)行小樣本學(xué)習(xí)。首先用標(biāo)記的少數(shù)樣本訓(xùn)練一個線性分類器,并推斷未標(biāo)記數(shù)據(jù)的偽標(biāo)簽。為了衡量每個偽標(biāo)記實(shí)例的可信度,通過增加附帶參數(shù)的稀疏度來解決另一個線性回歸假設(shè),并根據(jù)它們的稀疏度對偽標(biāo)記實(shí)例進(jìn)行排名,選擇最值得信賴的偽標(biāo)記實(shí)例與標(biāo)記實(shí)例一起重新訓(xùn)練線性分類器。

Li 等人[67]在2021 年引入一種新的基線方法,通過迭代偽標(biāo)簽細(xì)化來減少噪聲,從而實(shí)現(xiàn)半監(jiān)督小樣本學(xué)習(xí)。半監(jiān)督小樣本學(xué)習(xí)基線方法是修改一個帶有偽標(biāo)簽細(xì)化(pseudo label refinement,PLAIN)的遷移學(xué)習(xí)框架。Li等人使用去噪網(wǎng)絡(luò)改進(jìn)了PLAIN,通過適應(yīng)新類的知識來減少偽標(biāo)簽噪聲,并使用高斯混合模型(Gaussian mixture model,GMM)來學(xué)習(xí)干凈和有噪聲偽標(biāo)簽的分布,以獲得可靠的偽標(biāo)簽實(shí)例,產(chǎn)生了一種稱為PLAIN++的高級小樣本學(xué)習(xí)方法。與PLAIN 相比,PLAIN++需要使用高置信度的偽標(biāo)記實(shí)例來訓(xùn)練去噪網(wǎng)絡(luò)。使用這個去噪網(wǎng)絡(luò)來評估GMM 偽標(biāo)簽的置信值,GMM 對干凈和有噪聲的偽標(biāo)簽樣本的分布進(jìn)行建模,以便可以選擇偽標(biāo)簽的η百分比來更新小樣本分類器。此過程交替執(zhí)行,直到達(dá)到預(yù)定義的迭代次數(shù)。

表3 選取了Mini-ImageNet(test)、Tiered-Image-Net(test)和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對比參考。由表3 可以看出,半監(jiān)督小樣本的研究對比于有監(jiān)督相對較少,但是同樣取得了不錯的效果。同樣在每個數(shù)據(jù)集上面,5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet(test)上,最 初 在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了74%和82%左右,在此數(shù)據(jù)集上還有較大的提升空間。在Tiered-ImageNet(test)上同樣取得不錯的效果,1-shot 和5-shot 上分別達(dá)到82%和88%的準(zhǔn)確率,相比較最初的TPN 有了將近20~30 個百分點(diǎn)的性能提升。CIFAR-FS 數(shù)據(jù)集在1-shto 和5-shot下達(dá)到了85%和88%的準(zhǔn)確率。如表4 所示,通過對半監(jiān)督下小樣本圖像分類方法對比分析,發(fā)現(xiàn)它們都各有優(yōu)勢,但一致性約束方法局限性各不相同,而偽標(biāo)注的方法優(yōu)勢在于充分利用偽標(biāo)簽,同時帶來偽標(biāo)簽不準(zhǔn)確的問題。

表3 半監(jiān)督下小樣本圖像分類方法準(zhǔn)確率對比Table 3 Accuracy comparison of semi-supervised few-shot image classification methods 單位:%

表4 半監(jiān)督下小樣本圖像分類方法對比分析Table 4 Comparative analysis of semi-supervised few-shot image classification methods

4 基于無監(jiān)督學(xué)習(xí)的圖像分類

4.1 無監(jiān)督概念

監(jiān)督學(xué)習(xí)依賴于人類標(biāo)注信息,但是對于標(biāo)注信息的過度依賴具有局限性。例如,人工標(biāo)注的數(shù)據(jù)遠(yuǎn)遠(yuǎn)不如數(shù)據(jù)本身的內(nèi)部結(jié)構(gòu)豐富,在這種情況下進(jìn)行大量樣本的訓(xùn)練,得到的模型會比較脆弱;而且標(biāo)注的信息通常適用于特定的任務(wù),并不具有泛化性能。

以自監(jiān)督為代表的無監(jiān)督學(xué)習(xí)成為解決這一難題的辦法,因?yàn)閳D像自身就可以為模型提供監(jiān)督信息。無監(jiān)督學(xué)習(xí)方法的一個核心用例是通過在無監(jiān)督表征的基礎(chǔ)上進(jìn)行訓(xùn)練[68-69]或?qū)λ鶎W(xué)模型進(jìn)行微調(diào)[70],使下游任務(wù)的學(xué)習(xí)變得更好或更有效。小樣本下的圖像分類問題,通過利用無監(jiān)督學(xué)習(xí)的方法,結(jié)合元學(xué)習(xí)算法的框架,使用未標(biāo)記數(shù)據(jù)來生成少量任務(wù),最終在目標(biāo)任務(wù)中生成需要的標(biāo)簽并進(jìn)行訓(xùn)練。

4.2 基于無監(jiān)督的小樣本學(xué)習(xí)

在下游任務(wù)中使用無監(jiān)督的表征與元學(xué)習(xí)密切相關(guān),需要找到一種比從頭開始學(xué)習(xí)更有效的學(xué)習(xí)程序。然而,與無監(jiān)督學(xué)習(xí)方法不同,元學(xué)習(xí)方法需要大量的、有標(biāo)簽的數(shù)據(jù)集和手工指定的任務(wù)分布。這些依賴性是廣泛使用這些方法進(jìn)行小樣本圖像分類的主要障礙。

4.2.1 數(shù)據(jù)增強(qiáng)的方法

在只有原始的、無標(biāo)簽的觀察結(jié)果的情況下,模型的目標(biāo)是學(xué)習(xí)一個有用的先驗(yàn)。這樣,在元訓(xùn)練之后,當(dāng)遇到一個適度大小的指定任務(wù)的數(shù)據(jù)集時,模型可以轉(zhuǎn)移先前的經(jīng)驗(yàn),有效地學(xué)習(xí)執(zhí)行新任務(wù)。許多無監(jiān)督學(xué)習(xí)工作基于重建、解纏結(jié)、預(yù)測和其他指標(biāo)開發(fā)代理目標(biāo)。2018 年Hsu 等人[71]也提出了一種自動構(gòu)建無監(jiān)督元學(xué)習(xí)任務(wù)的方法CACTUS(clustering to automatically construct tasks for unsupervised meta-learning)。利用無監(jiān)督嵌入為元學(xué)習(xí)算法提出任務(wù),從而產(chǎn)生一種無監(jiān)督元學(xué)習(xí)算法,該算法對于指定的下游任務(wù)進(jìn)行預(yù)訓(xùn)練。使用基于嵌入的簡單機(jī)制生成的任務(wù)的元學(xué)習(xí),提高了這些表示在學(xué)習(xí)下游指定任務(wù)中的效果。針對數(shù)據(jù)集來說,Hsu 等人實(shí)驗(yàn)的數(shù)據(jù)集的分布較均勻,但現(xiàn)實(shí)世界中的數(shù)據(jù)集分布無法這么均勻,因此聚類的效果可能并不會很好,遷移性差。

分類器的小樣本或一個樣本學(xué)習(xí)需要對學(xué)習(xí)的任務(wù)類型有顯著的歸納偏差。獲得這一點(diǎn)的一種方法是對類似于目標(biāo)任務(wù)的任務(wù)進(jìn)行元學(xué)習(xí)。Khodadadeh 等人[72]在2019 年提出了UMTRA(unsupervised meta-lear-ning for few-shot image classification),一種對分類任務(wù)執(zhí)行無監(jiān)督、模型不可知元學(xué)習(xí)的算法。UMTRA 原理如圖11 所示,UMTRA 的元學(xué)習(xí)步驟是在未標(biāo)記圖像的平面集合上執(zhí)行的。雖然假設(shè)這些圖像可以分為一組不同的類并且與目標(biāo)任務(wù)相關(guān),但不需要關(guān)于類或任何標(biāo)簽的明確信息。UMTRA使用隨機(jī)抽樣和增強(qiáng)來為元學(xué)習(xí)階段創(chuàng)建合成訓(xùn)練任務(wù)。只有在最終的目標(biāo)任務(wù)學(xué)習(xí)步驟中才需要標(biāo)簽,并且每個類可以少至一個樣本。

圖11 UMTRA:基于數(shù)據(jù)增強(qiáng)的無監(jiān)督小樣本學(xué)習(xí)Fig.11 UMTRA:unsupervised few-shot learning based on data augmentation

Antoniou 等人[73]在2019 年提出了一種使用未標(biāo)記數(shù)據(jù)生成少量快照任務(wù)的方法,稱為假設(shè)、增強(qiáng)和學(xué)習(xí)(assume,augment and learn,AAL)。AAL 假設(shè)給定支持集的聚類來訓(xùn)練模型,擴(kuò)充支持集生成目標(biāo)集,并使用MAML 框架訓(xùn)練模型,以便模型能夠快速獲得支持集的知識,并在目標(biāo)集上很好地推廣。AAL 從未標(biāo)記的數(shù)據(jù)集中隨機(jī)標(biāo)記圖像的一個子集,以生成支持集,通過對支持集的圖像進(jìn)行數(shù)據(jù)擴(kuò)充,并重用支持集的標(biāo)簽,獲得了一個目標(biāo)集。由此產(chǎn)生的少量快照任務(wù)可用于訓(xùn)練任何標(biāo)準(zhǔn)元學(xué)習(xí)框架。

2019 年Ji 等人[74]提出了一種整合漸進(jìn)聚類和情景訓(xùn)練的無監(jiān)督小樣本學(xué)習(xí)方法UFLST。UFLST 由兩個交替過程組成:漸進(jìn)聚類和情景訓(xùn)練。前者生成用于構(gòu)建情景任務(wù)的偽標(biāo)記訓(xùn)練樣本;而后者使用生成的情景任務(wù)訓(xùn)練小樣本學(xué)習(xí)者,進(jìn)一步優(yōu)化數(shù)據(jù)的特征表示。這兩個過程相互促進(jìn),最終產(chǎn)生一個高質(zhì)量的小樣本學(xué)習(xí)器。與以往的無監(jiān)督學(xué)習(xí)方法不同,UFLST 將無監(jiān)督學(xué)習(xí)和情景訓(xùn)練集成到一個統(tǒng)一的框架中,便于特征提取和模型迭代訓(xùn)練。

大多數(shù)以前的小樣本學(xué)習(xí)算法都是基于元學(xué)習(xí),以假的小樣本任務(wù)作為訓(xùn)練樣本,其中需要大量的標(biāo)記基類。訓(xùn)練后的模型也受到任務(wù)類型的限制。2020 年Li 等人[75]提出一種通過對比自我監(jiān)督學(xué)習(xí)進(jìn)行小樣本圖像分類的方法CSSL-FSL(contrastive self-supervised learning)。CSSL-FSL 提出了一種新的無監(jiān)督小樣本學(xué)習(xí)范式來修復(fù)缺陷,分兩個階段解決小樣本任務(wù):通過對比自監(jiān)督學(xué)習(xí)對可遷移特征提取器進(jìn)行元訓(xùn)練,并使用圖形聚合、自蒸餾和流形增強(qiáng)訓(xùn)練分類器。在第一階段,使用比較自監(jiān)督學(xué)習(xí)方法,對未標(biāo)記的圖像獲得具有良好泛化能力的特征提取器。在第二階段,元訓(xùn)練特征提取器用于從當(dāng)前任務(wù)的所有圖像中提取特征,并基于當(dāng)前任務(wù)定義的特定圖進(jìn)行特征聚合,以便查詢集的信息與查詢集的信息交互支持集。

Qin 等人[76]也在2020 年提出通過基于分布轉(zhuǎn)移的數(shù)據(jù)增強(qiáng)進(jìn)行無監(jiān)督的小樣本學(xué)習(xí),開發(fā)了一個新的框架ULDA。ULDA 在使用數(shù)據(jù)增強(qiáng)時會關(guān)注每個小樣本任務(wù)內(nèi)部的分布多樣性。Qin 等人強(qiáng)調(diào)了分布多樣性在基于增強(qiáng)的小樣本任務(wù)中的價值和重要性,這可以有效緩解過度擬合問題,并使小樣本模型學(xué)習(xí)到更魯棒的特征表示。在ULDA 中,系統(tǒng)地研究了不同增強(qiáng)技術(shù)的效果,并建議通過多樣化地增強(qiáng)這兩個集合來增強(qiáng)每個小樣本任務(wù)中查詢集和支持集之間的分布多樣性。

Xu 等人[77]在2021 年使用聚類嵌入方法和數(shù)據(jù)增強(qiáng)函數(shù)構(gòu)建任務(wù),以滿足兩個關(guān)鍵的類別區(qū)分要求,提出了一種使用聚類和增強(qiáng)構(gòu)建無監(jiān)督元學(xué)習(xí)任務(wù)的算法CUMCA。為了減輕增強(qiáng)數(shù)據(jù)引入的偏差和弱多樣性問題,CUMCA 提供了一個理論分析來解釋為什么外循環(huán)比內(nèi)循環(huán)對增強(qiáng)數(shù)據(jù)更敏感。其次,提出了一種新的數(shù)據(jù)增強(qiáng)方法Prior-Mixup,而不是像UMTRA 中那樣僅使用旋轉(zhuǎn)、水平翻轉(zhuǎn)和剪切等規(guī)范進(jìn)行圖像數(shù)據(jù)增強(qiáng)。Prior-Mixup 專為無監(jiān)督元學(xué)習(xí)而設(shè)計,以滿足良好元學(xué)習(xí)任務(wù)分布的多樣性要求。

Zhang 等人[78]在2021 年提出了一種用于無監(jiān)督小樣本學(xué)習(xí)和聚類的自監(jiān)督深度學(xué)習(xí)框架UFLAC。UFLAC 可以被解釋為從學(xué)習(xí)的嵌入中反復(fù)發(fā)現(xiàn)新的類別,并用自我監(jiān)督的信號訓(xùn)練一個新的嵌入函數(shù)來區(qū)分發(fā)現(xiàn)的類別線索。在UFLAC 框架中,首先從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)類別,再對之前的分區(qū)結(jié)果進(jìn)行后處理,以去除異常值并導(dǎo)出每個類別的原型。然后使用先前選擇的數(shù)據(jù)和增強(qiáng)的虛擬數(shù)據(jù)構(gòu)建小樣本學(xué)習(xí)任務(wù)。最后,通過前面的步驟迭代訓(xùn)練網(wǎng)絡(luò)以學(xué)習(xí)最終表示。

Hiller 等人[79]將輸入樣本分割成斑塊,并通過視覺變換器的幫助對這些斑塊進(jìn)行編碼,能夠在整個圖像的局部區(qū)域之間建立語義上的對應(yīng)關(guān)系,并與它們各自的類別無關(guān),稱為FewTURE。然后,通過推理時的在線優(yōu)化,為手頭的任務(wù)確定信息量最大的補(bǔ)丁嵌入,另外還提供圖像中“最重要的東西”的視覺可解釋性。該方法建立在通過遮蔽圖像建模對網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練的最新進(jìn)展上,以克服缺乏細(xì)粒度標(biāo)簽的問題,并學(xué)習(xí)數(shù)據(jù)的更一般的統(tǒng)計結(jié)構(gòu),同時避免圖像級別的負(fù)面注釋影響。

該類方法的主要思想是將每個無標(biāo)注的圖像當(dāng)作獨(dú)立的類別,然后針對每個樣本通過數(shù)據(jù)增強(qiáng)的方法生成對應(yīng)樣本的多個增強(qiáng)樣本,將原始樣本和增強(qiáng)生成的樣本作為同一類,這樣就可以轉(zhuǎn)化為有監(jiān)督小樣本學(xué)習(xí)進(jìn)行求解。

4.2.2 對比學(xué)習(xí)的方法

對比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)方法的一種,不依靠標(biāo)注的數(shù)據(jù),從無標(biāo)注圖像中自己學(xué)習(xí)知識。自監(jiān)督學(xué)習(xí)本身已經(jīng)在圖像領(lǐng)域里被探索了很久。對比學(xué)習(xí)則是典型的判別式自監(jiān)督學(xué)習(xí),相對生成式自監(jiān)督學(xué)習(xí),對比學(xué)習(xí)的任務(wù)難度要低一些。對比學(xué)習(xí)方法已有很多,有效地將對比學(xué)習(xí)與小樣本圖像分類相互結(jié)合,也能取得不俗的效果。

由于訓(xùn)練圖像的數(shù)量有限,當(dāng)直接應(yīng)用于小樣本學(xué)習(xí)時,隨機(jī)圖像變換可能會效果較差,具有更多的噪聲和更少的概念相關(guān)信息,會導(dǎo)致無法學(xué)習(xí)細(xì)粒度結(jié)構(gòu)。為了有效改善小樣本學(xué)習(xí)環(huán)境下細(xì)粒度結(jié)構(gòu)學(xué)習(xí),Luo 等人[80]在2021 年提出了用于基于度量元學(xué)習(xí)的視圖可學(xué)習(xí)對比學(xué)習(xí)方法(view-learnable contrastive learning,VLCL),將對比學(xué)習(xí)的隨機(jī)圖像變換替換為空間變換網(wǎng)絡(luò)(spatial transformation network,STN),這是一個允許對圖像進(jìn)行靈活空間操作的學(xué)習(xí)模塊,并開發(fā)了一種學(xué)習(xí)到學(xué)習(xí)的算法來自適應(yīng)地生成同一圖像的不同視圖。

2021 年Liu 等人[81]提出通過對比學(xué)習(xí)來嵌入模型學(xué)習(xí)的方法Infopatch,并被擴(kuò)展用于小樣本學(xué)習(xí)的任務(wù)。InfoPatch 利用源類信息構(gòu)建正負(fù)對的算法,對于每個查詢實(shí)例,可以使用所有支持實(shí)例構(gòu)造正例和負(fù)例。為了找到更多信息對來訓(xùn)練良好的嵌入,Liu 等人提出了生成困難實(shí)例的策略。直觀地說,人類只能依靠圖像的一部分來識別物體,即使是圖像的其他部分是不可觀察的。強(qiáng)制執(zhí)行這種直覺以幫助在FSL 中構(gòu)建對比學(xué)習(xí)算法。

對比學(xué)習(xí)提出通過帶有標(biāo)簽信息的自監(jiān)督表示學(xué)習(xí)來代替交叉熵?fù)p失。Lee 等人[82]也使用監(jiān)督對比學(xué)習(xí)來增強(qiáng)小樣本學(xué)習(xí),稱為SPTA。Lee 研究發(fā)現(xiàn),在第一個訓(xùn)練階段,監(jiān)督對比損失而不是簡單的交叉熵?fù)p失,大大提高了最終分類的準(zhǔn)確性,尤其是在數(shù)據(jù)集不大的情況下。在小樣本學(xué)習(xí)的第一階段,將監(jiān)督對比學(xué)習(xí)應(yīng)用于預(yù)訓(xùn)練。特征提取器使用監(jiān)督對比損失進(jìn)行訓(xùn)練,然后進(jìn)行微調(diào),而分類器使用TIM 損失進(jìn)行適應(yīng)。

Lu 等人[83]認(rèn)為小樣本學(xué)習(xí)方法依賴于用大量的標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練,使得無法利用豐富的無標(biāo)記數(shù)據(jù)。從信息論的角度來看,提出了一種有效的無監(jiān)督FSL 方法UniSiam,通過自我監(jiān)督來學(xué)習(xí)表征。在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。與有監(jiān)督的預(yù)訓(xùn)練相比,自監(jiān)督的預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。它學(xué)習(xí)全面的表征,而不是關(guān)于基本類別的最有鑒別力的表征。有監(jiān)督的預(yù)訓(xùn)練和自我監(jiān)督的預(yù)訓(xùn)練實(shí)際上是在最大化不同的相互信息目標(biāo)。自監(jiān)督預(yù)訓(xùn)練最大化了同一實(shí)例的增強(qiáng)視圖的表征之間的相互信息。

表5 選取了Mini-ImageNet(test)、Tiered-ImageNet(test)和Omniglot 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對比參考。由表5 可以看出,無監(jiān)督小樣本的研究相比有監(jiān)督和半監(jiān)督發(fā)展較為緩慢,但對比學(xué)習(xí)下的SPTA 和InfoPatch 表現(xiàn)了較好的性能。同樣在每個數(shù)據(jù)集上,5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet(test)和Tiered-ImageNet(test)數(shù)據(jù)集上,在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了70%和80%左右,無監(jiān)督的小樣本學(xué)習(xí)在此數(shù)據(jù)集上還有較大的提升空間。Omniglot數(shù)據(jù)集在1-shot和5-shot上分別達(dá)到了94%和98%的準(zhǔn)確率,可提升空間較小。如表6 所示,通過無監(jiān)督下小樣本圖像分類方法對比分析,發(fā)現(xiàn)其核心在于充分利用數(shù)據(jù)增強(qiáng)的方法,實(shí)現(xiàn)方法各不相同,均取得了較好的實(shí)驗(yàn)結(jié)果。隨之而來的是數(shù)據(jù)增強(qiáng)手段帶來了缺陷,如引入噪聲等。

表5 無監(jiān)督下小樣本圖像分類方法準(zhǔn)確率對比Table 5 Accuracy comparison of unsupervised few-shot image classification methods 單位:%

表6 無監(jiān)督下小樣本圖像分類方法對比分析Table 6 Comparative analysis of unsupervised few-shot image classification methods

5 小樣本圖像分類挑戰(zhàn)與未來方向

隨著計算機(jī)硬件以及深度學(xué)習(xí)算法的發(fā)展,基于深度學(xué)習(xí)的人工智能算法在各行各業(yè)起到至關(guān)重要的作用,但是在許多領(lǐng)域中樣本量很少或者標(biāo)記樣本很少,并且樣本的標(biāo)注耗費(fèi)大量的人力物力。近年來小樣本圖像分類已經(jīng)得到越來越深入的研究和發(fā)展,且產(chǎn)生較好的效果,但是與人類的準(zhǔn)確率相比仍然有不小的差距。下面列舉了一些當(dāng)下小樣本圖像分類面臨的困難。

5.1 小樣本圖像分類方法總結(jié)

小樣本圖像分類各方法的機(jī)制以及優(yōu)缺點(diǎn)對比如表7 所示。有監(jiān)督下小樣本圖像分類技術(shù)主要有度量學(xué)習(xí)方法、元學(xué)習(xí)方法和數(shù)據(jù)增強(qiáng)方法。度量學(xué)習(xí)模擬樣本間距離分布,采用非參估計方法進(jìn)行分類,優(yōu)勢是便于理解并且直觀,便于計算和公式化,但采用較為簡單的距離來衡量相似度的方法準(zhǔn)確率會有所降低。元學(xué)習(xí)方法通過優(yōu)化模型的參數(shù)或?qū)W習(xí)算法來加速網(wǎng)絡(luò)學(xué)習(xí),使模型具有學(xué)習(xí)能力,能夠?qū)W習(xí)到一些訓(xùn)練過程之外的知識,但元學(xué)習(xí)器設(shè)計困難,復(fù)雜度較高,泛化性也不理想。數(shù)據(jù)增強(qiáng)方法為小樣本圖像分類數(shù)據(jù)集生成新數(shù)據(jù),不需要對模型進(jìn)行調(diào)整,只需利用輔助數(shù)據(jù)或者輔助信息擴(kuò)充數(shù)據(jù)或增強(qiáng)特征,但在進(jìn)行數(shù)據(jù)增強(qiáng)時可能會引入噪聲數(shù)據(jù)或者特征,對分類效果產(chǎn)生負(fù)面影響。半監(jiān)督下小樣本圖像分類技術(shù)主要有一致性約束方法和偽標(biāo)注方法。一致性約束方法基于低密度可分假設(shè),相同類別的樣本形成高密度,分類超平面如果位于高密度區(qū),會約束每個訓(xùn)練樣本經(jīng)過數(shù)據(jù)擾動之后,網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對應(yīng)的輸出一致,需要保持所有訓(xùn)練樣本的歷史類別預(yù)測值,故具有較大的存儲開銷。偽標(biāo)注方法為無標(biāo)注樣本賦予“偽標(biāo)簽”,然后結(jié)合原始有標(biāo)注數(shù)據(jù)一起進(jìn)行有監(jiān)督訓(xùn)練,但會涉及到高計算復(fù)雜度的矩陣計算,同時不能與特征學(xué)習(xí)部分一起進(jìn)行端到端的訓(xùn)練。無監(jiān)督下小樣本圖像分類技術(shù)主要分為基于預(yù)置任務(wù)的無監(jiān)督和對比學(xué)習(xí)。預(yù)置任務(wù)下多數(shù)方法均為基于聚類的思想,利用得到的特征進(jìn)行聚類,轉(zhuǎn)化成有監(jiān)督小樣本問題來解決,目標(biāo)樣本在特征空間里展示出很好的聚類結(jié)果,只利用少量的標(biāo)注樣本即可獲得不錯的分類模型。普通的無監(jiān)督預(yù)訓(xùn)練獲得的特征的表達(dá)能力不夠好,無法形成更好的類簇。對比學(xué)習(xí)方法通過自我監(jiān)督來學(xué)習(xí)表征,在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu),學(xué)習(xí)全面的表征,是較為新型且有效的方法,但有待進(jìn)一步研究擴(kuò)展。

表7 小樣本圖像分類各方法機(jī)制及優(yōu)缺點(diǎn)對比Table 7 Comparison of mechanisms and advantages and disadvantages of few-shot image classification methods

5.2 小樣本圖像分類挑戰(zhàn)

(1)深度學(xué)習(xí)的可解釋性

神經(jīng)網(wǎng)絡(luò)模型被廣泛地應(yīng)用到小樣本學(xué)習(xí)等領(lǐng)域,隨著大量研究者參與,特征提取等卷積神經(jīng)網(wǎng)絡(luò)模型日漸復(fù)雜。深度學(xué)習(xí)模型本身是一個黑盒模型,有許多結(jié)構(gòu)和特點(diǎn):第一個特點(diǎn)就是神經(jīng)元多并且參數(shù)眾多;第二個特點(diǎn)是結(jié)構(gòu)分層,且隱含層眾多;第三個特點(diǎn)是神經(jīng)網(wǎng)絡(luò)的參數(shù)對應(yīng)的特征不是人工設(shè)計的,是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中自己進(jìn)行選擇的。研究者無法得知神經(jīng)網(wǎng)絡(luò)模型到底學(xué)習(xí)了什么,也不知道每一個參數(shù)的具體含義是什么,因此無法解釋整個模型的運(yùn)作機(jī)制,無法得出明確而有針對性的優(yōu)化方案來解決問題,只能通過大量實(shí)驗(yàn)不斷地嘗試提高性能的方法。因此一個好的可解釋性工作對小樣本甚至任何研究方向都有指導(dǎo)作用。

(2)數(shù)據(jù)集的挑戰(zhàn)

現(xiàn)有的小樣本學(xué)習(xí)模型都需要在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練。圖像分類任務(wù)中目前僅有ImageNet 作為預(yù)訓(xùn)練數(shù)據(jù)集,而文本分類中缺少類似的預(yù)訓(xùn)練數(shù)據(jù)集,導(dǎo)致很多小樣本圖像分類方法缺少普適性,只適合在特定的數(shù)據(jù)集上發(fā)揮好的結(jié)果。在小樣本圖像分類任務(wù)中Mini-ImageNet 和Omniglot 是兩個被廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集,最近的斯坦福犬[84]和CUB 細(xì)粒度分類等數(shù)據(jù)集也開始被人們用于測試,但并沒有ImageNet數(shù)據(jù)集使用廣泛。

(3)模型預(yù)訓(xùn)練的挑戰(zhàn)

在已有的小樣本學(xué)習(xí)方法中,不管是基于模型微調(diào)的方法還是基于遷移學(xué)習(xí)的方法,都需要在大量的非目標(biāo)數(shù)據(jù)集上對模型進(jìn)行預(yù)訓(xùn)練,致使小樣本學(xué)習(xí)一定程度上變成偽命題。因?yàn)槟P偷念A(yù)訓(xùn)練依舊需要大量標(biāo)注數(shù)據(jù),從本質(zhì)上來看與小樣本學(xué)習(xí)的定義背道而馳。從根本上解決小樣本問題,就要做到不依賴預(yù)訓(xùn)練模型,需研究利用其他先驗(yàn)知識而非模型預(yù)訓(xùn)練的方法。

(4)其他挑戰(zhàn)

在小樣本圖像分類中,將各種基于深度學(xué)習(xí)的算法技術(shù)有效地結(jié)合起來,以產(chǎn)生更好的效果。例如,將元學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合,在進(jìn)行特征提取之前,通過元學(xué)習(xí)預(yù)處理數(shù)據(jù),設(shè)置更加合理的支持集和查詢集。雖然已經(jīng)有研究者開始嘗試,但是想實(shí)現(xiàn)這樣的效果卻十分困難,幾個學(xué)習(xí)算法的相互結(jié)合,有時候反而會導(dǎo)致小樣本學(xué)習(xí)的性能下降。

5.3 小樣本圖像分類未來發(fā)展方向

通過對當(dāng)前小樣本圖像分類研究進(jìn)展進(jìn)行總結(jié),以展望未來小樣本學(xué)習(xí)的發(fā)展方向。

(1)在數(shù)據(jù)層面訓(xùn)練模型時嘗試?yán)闷渌闰?yàn)知識,或更好地利用無標(biāo)注數(shù)據(jù)。探索和發(fā)現(xiàn)不依賴模型預(yù)訓(xùn)練,使用先驗(yàn)知識就能取得較好結(jié)果的方法。雖然在諸多領(lǐng)域中標(biāo)注樣本數(shù)量較少,但在真實(shí)世界中存在大量無標(biāo)注數(shù)據(jù),并蘊(yùn)含著大量信息,利用無標(biāo)注數(shù)據(jù)的信息訓(xùn)練模型值得更加深入研究。

(2)對度量學(xué)習(xí)提出更有效的神經(jīng)網(wǎng)絡(luò)度量方法。度量學(xué)習(xí)在小樣本學(xué)習(xí)中的應(yīng)用已經(jīng)相對成熟,但是基于距離函數(shù)的靜態(tài)度量方法改進(jìn)空間較少,使用神經(jīng)網(wǎng)絡(luò)來進(jìn)行樣本相似度計算可能成為度量方法的主流。因此研究如何設(shè)計性能更好的神經(jīng)網(wǎng)絡(luò)度量算法,以提高實(shí)驗(yàn)的準(zhǔn)確率。在網(wǎng)絡(luò)上提取圖像特征時進(jìn)行更有針對性的處理,例如使得特征向量之間相互垂直,采用掩碼恢復(fù)等方式,以便于后面的相似度區(qū)分。

(3)元學(xué)習(xí)作為小樣本學(xué)習(xí)的熱點(diǎn)研究方向之一,元學(xué)習(xí)模型還繼續(xù)有待提升。如何設(shè)計元學(xué)習(xí)器使其學(xué)習(xí)到更多有用的信息或更有效的元知識,也將是今后一個重要的研究方向。

(4)對比學(xué)習(xí)通過自動構(gòu)造相似實(shí)例和不相似實(shí)例,習(xí)得一個表示學(xué)習(xí)模型,通過此模型,使得相似的實(shí)例在投影空間中比較接近,而不相似的實(shí)例在投影空間中距離比較遠(yuǎn)。將對比學(xué)習(xí)與小樣本學(xué)習(xí)有效地結(jié)合來達(dá)到更好的性能,是值得研究發(fā)展的方向。

(5)隨著主動學(xué)習(xí)和強(qiáng)化學(xué)習(xí)框架的興起,可以考慮將這些先進(jìn)框架應(yīng)用到小樣本學(xué)習(xí)。主動學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種主要研究范式,它專注于為未標(biāo)記的實(shí)例請求標(biāo)簽,從而最大限度地提高性能。主動學(xué)習(xí)旨在使數(shù)據(jù)標(biāo)記成為學(xué)習(xí)過程的一部分,以便模型選擇樣本進(jìn)行標(biāo)記。

(6)通過注意力機(jī)制來提高小樣本圖像分類準(zhǔn)確率。注意力機(jī)制的提出,實(shí)際上就是讓神經(jīng)網(wǎng)絡(luò)能夠模仿人類,關(guān)注圖像中更加重要的特征信息,與小樣本學(xué)習(xí)的思想十分貼合。這種做法將神經(jīng)網(wǎng)絡(luò)原有的為圖像平均分配資源的方式,改為根據(jù)圖像的重要程度分配資源的方式。重要的信息權(quán)重高,不重要的信息權(quán)重低,從而能夠更快、更準(zhǔn)確地對圖像進(jìn)行分類。

(7)嘗試更多小樣本學(xué)習(xí)方法的結(jié)合?,F(xiàn)有小樣本學(xué)習(xí)大多數(shù)基于某個方法的研究,今后可以嘗試將各個方法進(jìn)行結(jié)合,例如度量學(xué)習(xí)與元學(xué)習(xí)的結(jié)合、度量學(xué)習(xí)與注意力機(jī)制的結(jié)合或者元學(xué)習(xí)與對比學(xué)習(xí)等方法的結(jié)合,以達(dá)到更好的效果。

6 總結(jié)

本文首先介紹了小樣本學(xué)習(xí)的研究背景和問題定義;然后介紹了用于小樣本學(xué)習(xí)的常用算法,以及小樣本圖像分類在有監(jiān)督、半監(jiān)督和無監(jiān)督下的技術(shù)發(fā)展;最后總結(jié)了小樣本圖像分類的挑戰(zhàn)和未來發(fā)展方向。小樣本學(xué)習(xí)領(lǐng)域目前仍然具有很多值得研究者們?nèi)ネ黄频姆较颉P颖緦W(xué)習(xí)在與常規(guī)學(xué)習(xí)相比較時,性能仍然存在一定的差距,因此還需要研究者們繼續(xù)探索。

猜你喜歡
度量分類樣本
鮑文慧《度量空間之一》
模糊度量空間的強(qiáng)嵌入
分類算一算
用樣本估計總體復(fù)習(xí)點(diǎn)撥
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
分類討論求坐標(biāo)
推動醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
隨機(jī)微分方程的樣本Lyapunov二次型估計