許 睿 邵 帥 曹維佳 劉寶弟 陶大鵬 劉偉鋒
近些年,隨著深度學習的興起,基于深度學習的分類方法取得巨大突破.此類方法往往需要依賴大量的有標簽數(shù)據(jù).然而,在很多真實場景中,收集標簽昂貴甚至不切實際.因此,如何讓深度模型可在沒有標簽或標簽不足的條件下依然達到令人滿意的精度,受到學者們的廣泛關(guān)注,進而延伸出對應的零樣本學習(Zero-Shot Learning,ZSL)和小樣本學習(Few-Shot Learning,FSL).零樣本圖像分類亟待解決的問題為:如何通過可見類樣本中的信息對不可見類樣本進行分類,其中可見類樣本和不可見類樣本沒有交叉.為了讓該任務更貼合實際應用,研究者又提出廣義零樣本學習(Generalized ZSL,GZSL),旨在同時對可見類樣本和不可見類樣本進行分類.
廣義零樣本圖像分類任務中的樣本主要包含兩種模態(tài)信息:視覺模態(tài)信息和語義模態(tài)信息.視覺模態(tài)信息指圖像特征表示;語義模態(tài)信息指類別屬性或類標簽表示[1],可見類和不可見類具有共享的屬性空間.在此任務中,為了獲得較好的視覺模態(tài)信息,往往借助預訓練模型(如ImageNet[2])提取特征.當前大多數(shù)廣義零樣本圖像分類方法首先學習視覺模態(tài)信息和語義模態(tài)信息之間的映射,即從可見類中學習屬性在圖像特征中的通用表示,然后以屬性為紐帶,將共享知識遷移到對無標簽樣本的分類中.
根據(jù)模態(tài)映射形式的不同,廣義零樣本圖像分類方法主要包括4類.1)將視覺模態(tài)信息映射到語義模態(tài)[3-4],學習兩個模態(tài)信息在語義空間上的關(guān)系;2)將語義模態(tài)信息映射到視覺模態(tài)[5-7],再在視覺模態(tài)空間學習;3)將視覺模態(tài)信息和語義模態(tài)信息映射到共享子空間[8-9],再在子空間進行學習;4)兩個模態(tài)信息互相映射[10],即把兩種模態(tài)信息都映射到另一個模態(tài)空間,學習兩個模態(tài)信息的對齊關(guān)系.
在這4類模型中,1)、2)、4)類都包含將一種模態(tài)特征映射為另一模態(tài)信息的過程,即重構(gòu)圖像或語義,這些過程的本質(zhì)是生成任務,需要使用生成模型.在第3)類模態(tài)映射形式中雖然沒有直接生成某種模態(tài)信息,但是將某種模態(tài)信息映射到子空間,同樣可用生成模型實現(xiàn).
綜上所述,基于生成模型的方法是零樣本學習領(lǐng)域的一個重要研究方向.生成模型的主流方法有兩種:變分自編碼器(Variational Auto-encoder,VAE)[11]和生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)[12].Xian等[13]提出f-CLSWGAN,使用不可見類的語義信息生成不可見類的圖像,用于擴充訓練樣本,在擴充后的樣本集上訓練分類器,提高模型對不可見類樣本的分類性能.由于GAN容易產(chǎn)生模式崩潰問題[14],VAE較穩(wěn)定,學者們提出一些基于條件變分自編碼器的零樣本學習算法,如CVAE(Con-ditional Variational Autoencoders)[15]、SE-GZSL(Syn-thesized Examples for GZSL)[16]和Re-ViSE(Robust Semi-Supervised Visual-Semantic Embeddings)[17].但是這些方法未關(guān)注模態(tài)對齊,忽略不同模態(tài)信息尺度不同的問題.
為了更好地進行模態(tài)對齊,Sch?nfeld等[18]提出CADA-VAE(Cross and Distribution Aligned VAE),通過分布對齊損失和交叉對齊損失,學習跨模態(tài)共享的隱向量,提升模型效果.然而在基于VAE的模型[14-18]中,通常僅使用約束距離實現(xiàn)各種對齊,編碼器重構(gòu)的樣本判別力仍存在不足.對比學習可緩解這一問題.對比學習通過構(gòu)造相似實例和不相似實例,即正例和負例,習得一個表示學習模型[19-21].通過這個模型,使相似的實例在投影空間中較接近,而不相似的實例在投影空間中距離更遠,使模型學習到更有判別性的表示方法,現(xiàn)已成為近年來的研究熱點.Chen等[19]提出SimCLR(A Simple Framework for Contrastive Learning of Visual Representations),結(jié)合對比學習與數(shù)據(jù)增強,提高模型的表示能力,在無監(jiān)督學習的實驗中取得媲美有監(jiān)督學習的結(jié)果.Han等[20]提出CE-GZSL(Hybrid GZSL Framework with Contrastive Embedding),結(jié)合GAN的生成模型,提出帶有對比嵌入的混合GZSL框架,提升模型的分類準確率.上述模型都已證實對比學習的有效性.
在VAE的模型中,重構(gòu)樣本可為對比學習提供大量的正例和負例.因此本文將對比學習引入VAE的廣義零樣本圖像分類方法中,并提出基于重構(gòu)對比的廣義零樣本圖像分類模型.此外,在對比損失之間引入可學習的非線性映射,大幅提高學習表示的質(zhì)量,學習更有用的表征.本文借鑒SimCLR在對比損失之間引入可學習的非線性投影模塊的思想,在預訓練特征和語義信息生成特征的投影子空間特征之間構(gòu)建正例和負例,使模型學習更具有判別性的表示,增強編碼器的性能.在傳統(tǒng)的標準數(shù)據(jù)集上,在廣義零樣本和廣義小樣本圖像分類設置下對本文模型進行廣泛的實驗評估,驗證模型的優(yōu)越性.
本文提出基于重構(gòu)對比的廣義零樣本圖像分類模型,在預訓練特征的投影和變分自編碼器使用語義信息重構(gòu)的視覺特征的投影之間引入對比學習,其中投影模塊提取兩部分特征中更本質(zhì)的表示.對比學習使投影特征之間判別性更強,從而增強VAE的編碼性能,充分挖掘預訓練的視覺特征.
在零樣本學習中,定義訓練集
其中:Cu表示不可見類,它與可見類類別不同,即
Cs∩Cu=?;
Nts表示測試樣本的個數(shù).訓練集和測試集樣本不同,即
Dtr∩Dts=?.
而在廣義零樣本圖像分類中,識別集中不僅包括不可見類,同時也包括可見類,即
本文的目標是根據(jù)訓練集提供的信息,預測測試集樣本的標簽.模型整體框架如圖1所示.
圖1 本文模型框架圖Fig.1 Framework of the proposed model
變分自編碼器能利用神經(jīng)網(wǎng)絡同時擬合生成模型和推斷模型.推斷模型是自編碼器中的編碼層,生成模型是自編碼器中的解碼層.使用x表示原始數(shù)據(jù)特征,z表示編碼器得到的隱向量.
變分推斷的目的是找出隱向量上的真實條件概率分布pθ(z|x).由于分布的相互作用性,可使用變分下限最小化其距離,找到最近的代理后驗分布qφ(z|x)以近似.變分自編碼器的目標函數(shù)為:
L=Eqφ(z|x)[lnpθ(x|z)]-DKL(qφ(z|x)‖pθ(z)).
(1)
其中:公式第1項表示經(jīng)生成模型解碼后數(shù)據(jù)與原始數(shù)據(jù)的差異,為重構(gòu)誤差;第2項表示推理模型q(z|x)和p(z)之間的KL散度,度量兩個分布之間的距離損失.先驗的一個常見選擇是多元標準高斯分布.設定編碼器預測均值μ和方差σ2,后驗分布服從
qφ(z|x)=N(μ,σ2),
通過重參數(shù)化技巧[23]生成一個隱向量z.
(2)
為了使變分自編碼器學習跨模態(tài)的相似表示,本文使用3部分損失對兩種模態(tài)的對齊進行約束,分別是分布對齊(Distribution-Alignment,DA)損失、交叉對齊(Cross-Alignment,CA)損失和重構(gòu)特征對比損失.
(3)
(4)
對于對應的增強樣本的嵌入記為
具體來說,對于1個正例和K個負例,K+1分類問題的交叉熵損失計算如下:
(5)
LC(D1,E2,H)=Ehi,h+[Lc(hi,h+)].
(6)
結(jié)合變分自編碼器模塊和重構(gòu)對比模塊,結(jié)合式(2)~式(4)和式(6),整個模型的損失函數(shù)如下:
L=LVAE+γLCA+δLDA+λLC,
(7)
其中,γ表示分布對齊損失LCA的權(quán)重因子,δ表示交叉對齊損失LDA的權(quán)重因子,λ表示重構(gòu)特征對比損失LC的權(quán)重因子.
本節(jié)在Caltech-USCD Birds-200-2011(CUB)[25]、SUN Attribute(SUN)[26]、Animals with Attributes 2
(AWA2)[27]、Attribute Pascal and Yahoo (APY)[28]
這4個廣泛應用的標準數(shù)據(jù)集上進行實驗.所有數(shù)據(jù)集都為每個樣本提供對應的屬性信息(即ai).本文按照標準劃分[27]將數(shù)據(jù)集劃分成可見類樣本和不可見類樣本.具體來說:CUB數(shù)據(jù)集包含150個可見類樣本與50個不可見類樣本;SUN數(shù)據(jù)集包含645個可見類樣本與72個不可見類樣本;AWA2數(shù)據(jù)集包含40個可見類樣本與10個不可見類樣本;APY數(shù)據(jù)集包含12個可見類樣本與20個不可見類樣本.在廣義零樣本圖像分類和廣義小樣本圖像分類中,訓練集只包含可見類樣本,測試集包含可見類樣本與不可見類樣本.實驗數(shù)據(jù)集詳細信息如表1所示.
表1 實驗數(shù)據(jù)集Table 1 Experimental datasets
本文模型批量大小設置為50,使用Adam(Adaptive Moment Estimation)優(yōu)化器.其它參數(shù)參考CADA-VAE的實驗設置.所有的實驗在32 GB內(nèi)存的Tesla-V100GPU上執(zhí)行.
遵循文獻[27]中提出的評估策略,在廣義零樣本圖像分類情景下,分別評估可見類樣本和未可見類樣本的top1精度,分別表示為S和U.廣義零樣本圖像分類的性能通過調(diào)和平均值
衡量,相比U和S,H為更重要的度量標準,在U和S精度最平衡時H達到最大.
本文選擇如下15種相關(guān)模型進行對比實驗:DeViSE(Deep Visual-Semantic Embedding Model)[5]、文獻[7]模型、PREN(Progressive Ensemble Net-works)[8]、f-CLSWGAN[13]、CVAE[15]、SE-GZSL[16]、ReViSE[17]、CADA-VAE[18]、SJE(Structured Joint Embedding)[29]、SP-AEN(Semantics-Preserving Adversarial Embedding Networks)[30]、Cycle-CLSWGAN[31]、ALE(Attribute Label Embedding)[32]、ESZSL(Embarra-ssingly Simple ZSL)[33]、文獻[34]模型、文獻[35]模型.
上述模型在不同的角度上增強廣義零樣本和廣義小樣本的分類性能,其中:CVAE、SE-GZSL、f-CL-SWGAN利用數(shù)據(jù)增強的方式;DeViSE、SJE、ALE、ESZSL引入線性函數(shù)或其它相似度量的方法,增強視覺與語義特征之間的交互;PREN使用一個集成網(wǎng)絡;文獻[7]模型利用多模態(tài)的思想,引入多個神經(jīng)網(wǎng)絡學習非線性嵌入;SP-AEN引入獨立的視覺-語義空間嵌入,防止語義損失;Cycle-CLSWGAN將循環(huán)一致性引入基于GAN的零樣本模型;文獻[34]模型對齊類嵌入空間和加權(quán)二分圖;ReViSE使用自動編碼器學習圖像特征和類屬性之間共享的潛在流形;文獻[35]模型提出三元組損失,并應用在零樣本學習模型中;CADA-VAE使用編碼器將兩個模態(tài)特征映射到同一個低維空間,學習共享跨模態(tài)的隱向量.
各模型在廣義零樣本圖像分類和廣義小樣本圖像分類上的性能對比如表2所示,表中黑體數(shù)字表示最優(yōu)值.
由表2可見,本文模型首先與基線方法CADAVAE對比,在SUN、CUB數(shù)據(jù)集上,本文模型在不可見類上的精度與CADA-VAE持平,在S和H指標上都高于CADA-VAE.在AWA2數(shù)據(jù)集上,本文模型在所有指標上都遠高于CADA-VAE.在APY數(shù)據(jù)集上,本文模型在U和H指標上高于CADA-VAE,但在S指標上低于CADA-VAE.
值得注意的是,在S指標上本文模型的表現(xiàn)無法達到最高值,這是因為可見類和不可見類的類別不重疊,存在域差異,模型在適應不可見類的分類時往往會降低對可見類的性能.
再對比其它模型,盡管在可見類和不可見類單項的分類精度上,本文模型有時不如其它模型,但在最重要的H指標上,卻高于其它模型.
H指標的提升從一定程度上反映本文模型的有效性,這些結(jié)果也表明基于重構(gòu)對比的廣義零樣本模型具有競爭力.
表2 各模型在4個數(shù)據(jù)集上的分類性能對比Table 2 Classification performance comparison of different models on 4 datasets %
為了進一步驗證本文模型的有效性,在廣義小樣本圖像分類的0個、1個、2個、5個和10個樣本分類任務中與CVDA-VAE進行對比,結(jié)果如圖2所示.由圖可知,除了在少數(shù)的情況下,相比CADA-VAE,本文模型會產(chǎn)生一些波動,在其它的所有設置中,本文模型都優(yōu)于CVDA-VAE.該現(xiàn)象表明本文模型在同等監(jiān)督樣本條件下,精度高于CADA-VAE.需要注意的是,本文的廣義小樣本圖像分類和傳統(tǒng)小樣本學習以任務為單位的學習設置不同.傳統(tǒng)小樣本學習的任務通常對5個類進行分類,本文是在廣義零樣本圖像分類的框架下對數(shù)據(jù)集所有測試類別進行分類,這個類別數(shù)通常遠大于5.
(a)CUB
本文模型與CVDA-VAE在AWA2數(shù)據(jù)集上6個類別樣本的t-SNE(t-Distributed Stochastic Neighbor Embedding)投影的可視化結(jié)果如圖3所示.
(a)原始視覺模態(tài)(a)Original visual mode
本節(jié)進行消融實驗,對比CADA-VAE、刪除投影模塊的本文模型、包含投影模塊的本文模型.各模型在4個數(shù)據(jù)集上的準確率對比如表3所示.
由表3可看出,在4個數(shù)據(jù)集上,包含投影模塊的效果都優(yōu)于不使用投影模塊.不使用投影模塊,在CUB、SUN、AWA2數(shù)據(jù)集上本文模型的性能都優(yōu)于CADA-VAE,在APY數(shù)據(jù)集上有所下降.但是投影模塊可修正在APY數(shù)據(jù)集上產(chǎn)生的下降,甚至比CADA-VAE提升0.2%.因此投影模塊對提高模型性能至關(guān)重要.
表3 投影模塊的消融實驗結(jié)果Table 3 Ablation experiment results of projection module %
通過1.2節(jié)的描述可知,式(7)中3個權(quán)重因子γ、δ和λ可影響模型性能,因此設置
γ=2.5e-1,5e-1,1,2,4;δ=2.5e-1,5e-1,1,2,4;λ=1,5,10,15,20.
對比實驗結(jié)果如圖4所示.
由圖4(a)可看出,隨著γ的增大,模型性能先提升后緩慢下降,在γ=1時可得到最優(yōu)值.這說明交叉對齊損失對模型整體效果有所提升,但對參數(shù)值相對不敏感.
由圖4(b)可看出,隨著δ的增大,模型性能先提升后迅速下降,在δ=1時得到最優(yōu)值.這說明分布對齊損失對參數(shù)非常敏感,尤其在參數(shù)增大時會導致模型性能急劇下降.
由圖4(c)可知,并不是所有的權(quán)重都能提升模型性能,權(quán)重的選擇非常重要.在CUB數(shù)據(jù)集上,性能上下波動,λ=1時獲得最優(yōu)值.在SUN數(shù)據(jù)集上,性能有一個峰值,λ=15時獲得最優(yōu)值.在AWA2數(shù)據(jù)集上,λ=10時獲得最優(yōu)值.
在最優(yōu)值附近本文都使用更小的間隔1測試模型性能,在CUB數(shù)據(jù)集上,在λ=1附近進行細調(diào),在λ=2時得到表2中53.3%的最優(yōu)值,在SUN、AWA2數(shù)據(jù)集上,最優(yōu)值附近無法得到更優(yōu)結(jié)果.在APY數(shù)據(jù)集上,λ=5時可得到最優(yōu)值.雖然在圖4(c)中可能會得到差于CADA-VAE的結(jié)果,但是在較大的參數(shù)范圍內(nèi)都可實現(xiàn)性能提升,由此表明本文模型的魯棒性.
(a)γ
廣義零樣本大多考慮使用度量表示視覺信息和語義信息映射的效果,很少使用對比學習約束雙模態(tài)信息的映射,本文提出基于重構(gòu)對比的廣義零樣本圖像分類模型,將對比學習應用在預訓練特征的投影和語義信息重構(gòu)的視覺特征的低維投影特征之間.投影模塊過濾語義模態(tài)和視覺模態(tài)中互不相關(guān)的噪聲信息,提取更本質(zhì)的信息作為對比學習的輸入.對比學習在保證變分自編碼器本身重構(gòu)性能的基礎(chǔ)上提升編碼器提取特征的判別性能.因此本文模型可較好地適用于廣義零樣本任務,并在4個中等規(guī)模標準數(shù)據(jù)集上得到比CADA-VAE更高的準確率,以及在廣義小樣本圖像分類任務大部分設置中獲得性能的改善.盡管本文模型獲得比基線方法更具競爭力的效果,但未同適用于視覺和語義特征提取的模型Transformer結(jié)合,今后將進一步研究和Transformer結(jié)合的方法,獲得更好的信息表示,提高模型性能.