国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視覺—語義雙重解糾纏的廣義零樣本學(xué)習(xí)

2023-09-26 04:22:24韓阿友楊關(guān)劉小明劉陽
中國圖象圖形學(xué)報(bào) 2023年9期
關(guān)鍵詞:編碼器一致性重構(gòu)

韓阿友,楊關(guān)*,劉小明,劉陽

1.中原工學(xué)院計(jì)算機(jī)學(xué)院,鄭州 450007;2.河南省網(wǎng)絡(luò)輿情監(jiān)測與智能分析重點(diǎn)實(shí)驗(yàn)室,鄭州 450007;3.西安電子科技大學(xué)通信工程學(xué)院,西安 710071

0 引言

隨著深度學(xué)習(xí)的蓬勃發(fā)展,許多端到端的深度學(xué)習(xí)模型已經(jīng)在很多應(yīng)用場景上效果斐然。雖然傳統(tǒng)的深度學(xué)習(xí)模型非常成功,但是它們的成功是基于大量帶標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練的。在現(xiàn)實(shí)生活中收集大量的標(biāo)記樣本是一個(gè)具有挑戰(zhàn)性的問題。例如ImageNet(Deng 等,2009)是一個(gè)大型數(shù)據(jù)集,包含1 400 萬幅圖像,21 814 個(gè)類別,但是其中許多類只包含少數(shù)圖像。此外傳統(tǒng)的深度學(xué)習(xí)模型只能識別訓(xùn)練階段已有的類別樣本,不能處理來自不可見類的樣本。這是一個(gè)非常具有挑戰(zhàn)的問題,因?yàn)樵诂F(xiàn)實(shí)場景中,可能有些類別是沒有可訓(xùn)練樣本的,比如瀕危鳥類等。

人類可以根據(jù)先前學(xué)習(xí)到的經(jīng)驗(yàn)來學(xué)習(xí)新的概念,而不必事先看到它們。例如一個(gè)人可以很容易地識別出斑馬,如果他以前見過馬,并且知道斑馬看起來像是帶有黑白條紋的馬(冀中 等,2019)。零樣本學(xué)習(xí)(zero-shot learning,ZSL)(Larochelle 等,2008)方法為解決這一挑戰(zhàn)提供了一個(gè)很好的解決方案。

在零樣本學(xué)習(xí)中,訓(xùn)練階段出現(xiàn)的類別稱為可見類,未出現(xiàn)的類別稱為不可見類。它的目標(biāo)是訓(xùn)練一個(gè)模型,學(xué)習(xí)語義空間和視覺空間之間的映射。通過語義信息將可見類學(xué)習(xí)到的知識遷移到不可見類,從而縮小可見類和不可見類之間的差距,然后對不可見類進(jìn)行分類。但是傳統(tǒng)的零樣本學(xué)習(xí)是建立在測試集中只包含不可見類樣本的假設(shè)之上,這種假設(shè)在現(xiàn)實(shí)場景中容易打破。因此出現(xiàn)了一種比零樣本學(xué)習(xí)更有現(xiàn)實(shí)意義、更具挑戰(zhàn)的廣義零樣本學(xué)習(xí)(generalized zero-shot learning,GZSL)(Chao 等,2016),也就是說,測試集的樣本來自可見類和不可見類。

現(xiàn)有的廣義零樣本學(xué)習(xí)方法技術(shù)主要可以分為基于嵌入的方法(Frome 等,2013;Liu 等,2019;Jiang等,2019;Xian 等,2016)和基于生成的方法(Zhu 等,2018;Narayan 等,2020;Chen 等,2021a;Xian 等,2018;Keshari 等,2020)兩大類。前者目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù),將可見類的視覺特征和其對應(yīng)的語義向量映射到某一空間中進(jìn)行后續(xù)分類;后者是學(xué)習(xí)一個(gè)生成模型為不可見類生成視覺特征?,F(xiàn)在大多數(shù)的廣義零樣本學(xué)習(xí)方法是利用在ImageNet上預(yù)訓(xùn)練的深度模型來提取相應(yīng)的視覺特征,比如殘差網(wǎng)絡(luò)(residual neural network,ResNet101)(He 等,2016)和VGG-16(Visual Geometry Group-16)(Simonyan 和Zisserman,2014)等。然而,現(xiàn)有的大多廣義零樣本學(xué)習(xí)方法中忽略了語義和視覺的相關(guān)性。因?yàn)樵谀P蛯W(xué)習(xí)的過程中,原始特征和生成特征在維度上并不是都與預(yù)定義屬性在語義上相關(guān),這將導(dǎo)致視覺在維度上與語義產(chǎn)生偏見,并導(dǎo)致對不可見類的負(fù)遷移,如圖1 所示,方框標(biāo)注的“耳朵”維度與注釋屬性在語義上無關(guān),從這些語義無關(guān)的視覺特征中學(xué)習(xí)可能會影響模型對不可見類的泛化。

圖1 語義無關(guān)的視覺特征圖示Fig.1 The illustration of visual features(boxes)that are not associated with the annotated attributes

此外,大多數(shù)方法在分類過程中都忽略了豐富的語義信息,并且在語義信息中也存在著與分類無關(guān)、特征無關(guān)的信息。這將會影響分類結(jié)果,如圖2所示,劃線部分語義是與視覺特征無關(guān)的,比如在注釋屬性中存在的“Ocean”語義對于“貓”的視覺特征是無關(guān)的,并且對于最終的視覺—語義聯(lián)合分類也會產(chǎn)生不好的影響。

圖2 特征無關(guān)的語義注釋屬性圖示Fig.2 The illustration of annotated attributes(lines)that are not associate with the visual features

為了解決上述問題,本文提出了視覺—語義雙重解糾纏廣義零樣本學(xué)習(xí)(visual-semantic dualdisentangling generalized zero-shot learning,VSDGZSL)。通過視覺—語義解糾纏框架來提取出語義一致性特征和特征相關(guān)的語義信息,設(shè)計(jì)了一個(gè)總相關(guān)懲罰結(jié)構(gòu)和一個(gè)語義一致性衡量網(wǎng)絡(luò)。前者衡量分解的潛在變量之間的獨(dú)立性;后者衡量分解出來的視覺特征的語義一致性。然后,將視覺特征分解的潛層輸出和語義信息分解的潛層輸出進(jìn)行跨模態(tài)交叉重構(gòu)。對視覺特征交叉重構(gòu)輸入的是語義信息分解輸出中與特征相關(guān)的信息,并使用該操作來指導(dǎo)語義解糾纏框架分解出與特征相關(guān)的語義信息。最后,將語義一致性特征和特征相關(guān)的語義信息聯(lián)合學(xué)習(xí)一個(gè)廣義零樣本學(xué)習(xí)分類器。在4 個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。

本文貢獻(xiàn)如下:1)發(fā)現(xiàn)在提取的視覺特征中并不是都與預(yù)定屬性在語義上相關(guān),這將會導(dǎo)致產(chǎn)生語義偏見,并且在語義信息中存在與分類無關(guān)以及特征無關(guān)的冗余信息。2)提出一個(gè)視覺—語義解糾纏框架,用來提取出視覺特征中語義一致性特征和預(yù)定義屬性中特征相關(guān)的語義信息。設(shè)計(jì)了一個(gè)跨模態(tài)交叉重構(gòu)模塊來指導(dǎo)語義解糾纏能更好地分解出與特征相關(guān)的語義信息,采用關(guān)系網(wǎng)絡(luò)來學(xué)習(xí)視覺解糾纏分解出語義一致性表示。最后將解糾纏模塊分解后的特征和語義聯(lián)合學(xué)習(xí)一個(gè)廣義零樣本學(xué)習(xí)分類器進(jìn)行分類。3)在4 個(gè)公開的廣義零樣本學(xué)習(xí)數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn),通過解糾纏框架學(xué)習(xí)到的語義一致性視覺特征和特征相關(guān)的語義信息能夠提高分類性能并優(yōu)于對比的基準(zhǔn)方法,證明了所提視覺—語義解糾纏思想的有效性。

1 相關(guān)工作

1.1 廣義零樣本學(xué)習(xí)

廣義零樣本學(xué)習(xí)是比傳統(tǒng)零樣本學(xué)習(xí)更有現(xiàn)實(shí)意義、更具挑戰(zhàn)的情況,即在測試集樣本中既有可見類也有不可見類。由于在訓(xùn)練階段不可見類的視覺樣本不可用,這導(dǎo)致經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化變得不可靠(Wang等,2021b)。為了克服這些限制,利用語義作為不可見類的中間表示,這種語義通常是手動定義的屬性(Lampert等,2014)。

廣義零樣本學(xué)習(xí)的方法有:f-CLSWGAN(Xian等,2018)中利用WGAN(Wasserstein GANs)(Arjovsky 等,2017)來合成逼真的視覺特征。CADA-VAE(cross-and distribution-aligned VAE)(Sch?nfeld 等,2019)利用兩個(gè)對齊的變分自編碼器(variational auto-encoder,VAE)來學(xué)習(xí)不同模式之間的共享潛在表示。TF-VAEGAN(Narayan 等,2020)將變分自編碼器VAE 和生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)相結(jié)合來生成視覺特征,再通過一個(gè)語義解碼器將視覺特征解碼出語義屬性,并且提出了一個(gè)反饋模塊,將語義解碼器的潛層表示作為輸入反饋回生成器的潛層來提高生成特征的質(zhì)量。CANZSL(cycle-consistent adversarial networks for zero-shot learning)(Chen 等,2020)提出了周期一致對抗網(wǎng)絡(luò),首先從有噪聲的文本中合成視覺特征,然后采用逆對抗網(wǎng)絡(luò)將生成特征轉(zhuǎn)換為文本,以確保合成的視覺特征能夠準(zhǔn)確地反映語義表征。OTZSL(optimal transport-based zero-shot learning)(Wang等,2021a)利用一個(gè)條件生成模型從可見類屬性生成可見類特征,并在生成特征分布和真實(shí)特征分布之間建立最優(yōu)傳輸,利用基于屬性的正則化器對生成模型和最優(yōu)傳輸進(jìn)行迭代優(yōu)化,進(jìn)一步增強(qiáng)了所生成特征的鑒別能力。FREE(feature refinement)(Chen 等,2021a)指出在ImageNet 上訓(xùn)練的特征提取器忽略了ImageNet和GZSL數(shù)據(jù)集之間的偏差,這種偏差會導(dǎo)致廣義零樣本學(xué)習(xí)任務(wù)的視覺特征質(zhì)量低下,因此提出了一種特征細(xì)化的方法,采用一種自適應(yīng)邊緣中心損失,它與語義循環(huán)一致性損失相結(jié)合,引導(dǎo)特征細(xì)化模塊學(xué)習(xí)類和語義相關(guān)的表示。趙鵬等人(2021)提出了一種基于子空間學(xué)習(xí)和重構(gòu)的零樣本分類方法來解決知識遷移過程中的信息損失和域偏移問題。在人體行為識別領(lǐng)域中,呂露露等人(2021)為了研究多種模態(tài)數(shù)據(jù)對零樣本人體動作識別的影響,提出了一種基于多模態(tài)融合的零樣本人體動作識別ZSAR-MF(zero-shot human action recognition framework based on multimodal fusion)框架,該框架能有效地融合傳感器特征和視頻特征。

1.2 生成模型

最近的廣義零樣本學(xué)習(xí)中使用生成模型的方法取得了先進(jìn)的性能。生成模型可以為不可見類合成大量的視覺特征,一旦為不可見類生成了視覺特征,那么零樣本學(xué)習(xí)的問題就變成了一個(gè)相對簡單的監(jiān)督分類問題。兩種常用的生成模型是生成對抗網(wǎng)絡(luò)(GAN)(Goodfellow 等,2014)和變分自編碼器(VAE)(Kingma 和Welling,2014),這兩種模型在基于生成方法的廣義零樣本學(xué)習(xí)任務(wù)中廣泛使用。其中,Xian 等人(2018)設(shè)計(jì)了一個(gè)帶有分類損失的條件WGAN 模型,稱為f-CLSWGAN,將語義特征集成到生成器和鑒別器中。SPGAN(similarity preserving GAN)(Ma 等,2020)設(shè)計(jì)了一種保持相似性的生成對抗網(wǎng)絡(luò)來生成盡可能真實(shí)的視覺特征。SR-GAN(semantic rectifying generative adversarial network)(Ye 等,2019)使用語義矯正網(wǎng)絡(luò)來矯正特征。CVAE-ZSL(Mishra 等,2018)采用神經(jīng)網(wǎng)絡(luò)對編碼器進(jìn)行建模,SE-GZSL(synthesized examples for generalized zero-shot learning)(Verma 等,2018)設(shè)計(jì)了一個(gè)循環(huán)一致性損失函數(shù),配備了鑒別器驅(qū)動的反饋機(jī)制,將真實(shí)樣本或生成的樣本映射回相應(yīng)的語義表示。在這些方法中,使用的原始特征和生成特征中存在著與預(yù)定義屬性不相關(guān)的特征,并且在分類階段要么忽略了豐富的語義信息,要么在使用語義信息時(shí)沒有解耦出語義信息中與特征相關(guān)的部分。如何使模型提取它們是關(guān)鍵問題。

1.3 解糾纏表示

解糾纏指的是一種表示特征之間的獨(dú)立性??傁嚓P(guān)性(total correlation,TC)(Kim 和Mnih,2018)是對多個(gè)隨機(jī)變量獨(dú)立性的測量。在信息論中,總相關(guān)是互信息對隨機(jī)變量的許多推廣之一,它是最近解糾纏方法的一個(gè)關(guān)鍵組成部分。FactorVAE(Kim和Mnih,2018)提出了一種將表征的分布進(jìn)行階乘的方法來分離特征,從而實(shí)現(xiàn)跨維度的獨(dú)立性。Higgins 等人(2017)提出的beta-VAE 是一種無監(jiān)督的視覺解糾纏表示學(xué)習(xí)方法,通過調(diào)整KL(Kullback-Leibler)項(xiàng)的權(quán)重來平衡解糾纏因子的獨(dú)立性和重構(gòu)性能。Chen 等人(2016)提出的InfoGAN通過最大化潛層變量與原始變量之間的互信息來實(shí)現(xiàn)解糾纏。DLFZRL(discriminative latent features for zero-shot learning)(Tong 等,2019)提出了一種分層分解方法來學(xué)習(xí)有區(qū)別的潛在特征。

2 問題定義

在零樣本學(xué)習(xí)中,數(shù)據(jù)集類別分為可見類s和不可見類u,標(biāo)簽分別為ys和yu,ys∩yu=?。假設(shè)訓(xùn)練數(shù)據(jù)集={(xs,as,ys)},僅由可見類中標(biāo)記的樣本組成,其中xs∈Xs表示可見類視覺特征,as∈As是可見類相關(guān)的語義描述符(如語義屬性),ys∈Ys表示可見類的類標(biāo)簽。測試集={xu,au,yu},其中在訓(xùn)練期間不可見類的視覺特征xu不可用。傳統(tǒng)的零樣本學(xué)習(xí)旨在學(xué)習(xí)測試集Dte={xu}上評估的分類器fZSL:Xu→Yu。然而在廣義零樣本學(xué)習(xí)中,測試集Dte由可見類和不可見類共同組成,即學(xué)習(xí)在所有的特征上評估的分類器fGZSL:X→Ys∪Yu,本文主要研究的是廣義零樣本學(xué)習(xí)的分類問題。

3 方 法

為了同時(shí)得到語義一致性的視覺特征和特征相關(guān)的語義屬性,本文提出了一種基于總相關(guān)懲罰的視覺—語義解糾纏框架。分解的視覺特征通過一個(gè)關(guān)系網(wǎng)絡(luò)來保證語義一致性,分解的語義信息通過視覺交叉重構(gòu)來保證特征相關(guān)性。最后通過語義一致性視覺特征和特征相關(guān)的語義信息結(jié)合進(jìn)行廣義零樣本學(xué)習(xí)的分類。

3.1 模型架構(gòu)

所提模型架構(gòu)如圖3 所示,主要由條件變分自編碼器、視覺—語義解糾纏模塊、語義一致性特征衡量網(wǎng)絡(luò)、總相關(guān)懲罰和視覺—語義跨模態(tài)重構(gòu)組成??蚣艿囊曈X輸入是由預(yù)訓(xùn)練的ResNet101(He等,2016)提取的圖像特征,語義輸入是人工定義的屬性。

圖3 模型架構(gòu)Fig.3 Model architecture

3.2 視覺特征生成

為了通過語義信息來生成視覺特征,使用條件變分自編碼器(conditional variational auto-encoder,cVAE)(Sohn 等,2015)為不可見類生成相應(yīng)的視覺特征。cVAE 學(xué)習(xí)數(shù)據(jù)和潛在表示的分布之間的關(guān)系,它由編碼器和解碼器組成。其中,編碼器將特征空間映射到潛在空間,解碼器將潛在空間映射回特征空間,它們分別將類的描述符作為條件。cVAE的目標(biāo)函數(shù)可以表示為

式中,x表示視覺特征,a表示語義信息,z表示編碼器生成的潛在變量。式中第1 項(xiàng)為q(z|x,a) 和p(z|a)兩個(gè)分布之間的KL散度,用來約束編碼器匹配分解后的先驗(yàn)分布,例如高斯分布。第2 項(xiàng)為重構(gòu)特征和原始特征之間的重構(gòu)誤差。

為了獲得變分下界的可微估計(jì)量,使用一種稱為重參數(shù)化的技巧,具體為

式中,μ(x)和σ(x)是編碼器的輸出,分別代表后驗(yàn)分布的均值和方差?!驯硎緝蓚€(gè)張量對應(yīng)元素的乘積,ε~ N(0,I)是一個(gè)服從高斯分布的輔助噪聲變量。

3.3 解糾纏模塊

對于廣義零樣本學(xué)習(xí)的數(shù)據(jù)集來說,通過預(yù)訓(xùn)練的深層模型(如ResNet101)提取的視覺特征并不完美,因?yàn)橐曈X特征并不是在所有的維度上都與預(yù)定義屬性在語義上相關(guān)。在這些數(shù)據(jù)集中,類別通常是相關(guān)的(如CUB 數(shù)據(jù)集都對應(yīng)于鳥類),因此提取的特征可能包含冗余信息。這里將視覺特征分解成語義一致性特征s和語義無關(guān)特征n,使用一個(gè)關(guān)系網(wǎng)絡(luò)來衡量語義一致性。在語義信息中也存在著與特征相關(guān)的信息,將語義信息分解成特征相關(guān)語義h和特征無關(guān)語義n,使用視覺特征交叉重構(gòu)來保證分解的語義和視覺特征相關(guān)。為了加強(qiáng)分解后兩個(gè)分量的獨(dú)立性,使用總相關(guān)性來衡量。

3.4 視覺—語義跨模態(tài)重構(gòu)

解糾纏模型使用與cVAE 相同的編碼器—解碼器結(jié)構(gòu),分別對兩個(gè)解糾纏結(jié)構(gòu)的解碼器輸出特征和編碼器輸入特征計(jì)算重構(gòu)損失。在視覺和語義兩個(gè)解糾纏中,提出了一個(gè)跨模態(tài)重構(gòu)損失,將視覺解糾纏的編碼器E1的輸出送入到語義解糾纏的解碼器D2中來重構(gòu)語義信息,然后將語義解糾纏的編碼器E2的輸出中與特征相關(guān)的分量送入到視覺解糾纏的解碼器D1中來重構(gòu)視覺特征。

兩個(gè)解糾纏模塊的重構(gòu)損失分別為

視覺—語義跨模態(tài)交叉重構(gòu)損失為

式中,對于特征解糾纏編碼器輸出s和n中,s是語義一致性特征,n是語義無關(guān)特征;對于語義解糾纏編碼器輸出h和n中,h是特征相關(guān)的語義向量,n是特征無關(guān)的語義向量。

解糾纏模塊總的重構(gòu)損失為

式中,使用均方誤差(mean square error,MSE)來計(jì)算原始視覺特征和重構(gòu)視覺特征、原始語義向量和重構(gòu)語義向量之間的重構(gòu)損失。

3.5 語義一致性特征

在視覺解糾纏框架中,采用一個(gè)關(guān)系網(wǎng)絡(luò)(relation network,RN)(Sung 等,2018)作為語義一致性衡量網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,通過將視覺特征解糾纏模塊分解的潛在表示s與語義a連接,關(guān)系網(wǎng)絡(luò)將匹配的(s,a)對和不匹配的(s,a)對分開,從而迫使s在語義上相關(guān)。該網(wǎng)絡(luò)最大化潛在表示s和相對應(yīng)的語義a之間的相容性得分(compatibility score,CS)來學(xué)習(xí)語義一致性特征s,關(guān)系網(wǎng)絡(luò)學(xué)習(xí)潛在表示s和語義a之間的成對關(guān)系。RN 的輸入是潛在表示s和對應(yīng)唯一語義向量a組成的對。組成的對如果匹配成功,CS值為1;如果不匹配,CS為0。結(jié)構(gòu)表示為

圖4 語義一致性衡量網(wǎng)絡(luò)Fig.4 Semantic consistent measurement network

式中,t和c表示一個(gè)訓(xùn)練批次中第t個(gè)語義一致性表示和第c個(gè)唯一語義向量,y(t)和y(c)表示s(t)和a(c)的類標(biāo)簽。

利用式(8)中定義的CS,使用帶有sigmoid 激活函數(shù)的關(guān)系網(wǎng)絡(luò)為每一對(s,a)學(xué)習(xí)一個(gè)0—1的相容性得分,然后使用損失函數(shù)來優(yōu)化s,具體為

式中,B為批次大小,N為一個(gè)批次中唯一語義向量的數(shù)量。使用均方誤差來優(yōu)化該損失,保證視覺解糾纏分解出語義一致性特征。

3.6 總相關(guān)懲罰

為了促進(jìn)視覺特征和語義信息解糾纏模塊能更好地分離特征和語義,設(shè)計(jì)了一個(gè)總相關(guān)懲罰來鼓勵(lì)視覺解糾纏模塊分離出的語義一致性和語義無關(guān)特征之間的獨(dú)立性,語義解糾纏模塊分離出特征相關(guān)和特征無關(guān)語義之間的獨(dú)立性。這里使用語義解糾纏來對總相關(guān)懲罰進(jìn)行展開解釋。對于語義信息的解糾纏分解出的兩個(gè)分量,可看做是獨(dú)立的,并且來自不同的條件分布,語義向量的潛在分量的條件分布分別為

式中,h為語義解糾纏模塊分解出的與特征相關(guān)的語義信息,Φ1為h的條件分布。n為分解出的與特征無關(guān)的語義信息,Φ2為n的條件分布。a為需要被分解的語義屬性??傁嚓P(guān)性可表示為

式中,Φ:=Φ(h,n|a)是語義解糾纏中分解出兩個(gè)分量h和n的聯(lián)合條件概率。KL表示KL 散度。為了更好地逼近總相關(guān)性,使用密度比估計(jì)以對抗的方式區(qū)分兩個(gè)分布中的樣本(Chen 等,2021b),使用一個(gè)鑒別器Dis的輸出估計(jì)獨(dú)立分量的概率,鑒別器模型如圖5 所示,解糾纏編碼器分離出兩個(gè)分量后,再經(jīng)過隨機(jī)重組排列得到重組后的表示,最后將變換前和變換后的表示輸入到鑒別器中計(jì)算總相關(guān)損失。利用總相關(guān)懲罰來強(qiáng)調(diào)分解出的兩個(gè)分量之間的獨(dú)立性,這里訓(xùn)練鑒別器以最大限度地將正確標(biāo)簽分配給變換前和變換后的表示。具體為

圖5 總相關(guān)懲罰鑒別器Fig.5 Total correlation penalty discriminator

式中,t=[h,n]。鑒別器損失為

3.7 模型算法

本文所提VSD-GZSL方法訓(xùn)練算法如下:

輸入:可見類視覺特征Xs、語義向量As及其標(biāo)簽Ys。

輸出:訓(xùn)練好的生成網(wǎng)絡(luò)和解糾纏網(wǎng)絡(luò)。

4 實(shí) 驗(yàn)

為了驗(yàn)證本文方法對廣義零樣本學(xué)習(xí)的圖像分類任務(wù)的有效性,在4 個(gè)公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),從參數(shù)分析、消融實(shí)驗(yàn)和方法適應(yīng)性3 個(gè)方面進(jìn)行實(shí)驗(yàn)分析并展示實(shí)驗(yàn)效果。

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)使用4 個(gè)基準(zhǔn)數(shù)據(jù)集評估所提模型的性能,分別是AwA2(animals with attributes2)(Lampert等,2014)、CUB(caltech-UCSD birds-200-2011)(Wah等,2011)、FLO(Oxford flowers)(Nilsback 和Zisserman,2008)和SUN(SUN attribute)(Patterson 和Hays,2012)。CUB 數(shù)據(jù)集包含200種鳥類,其中,150種是可見類,50種是不可見類,每個(gè)類別有312個(gè)屬性的注釋;AwA2數(shù)據(jù)集常用于動物分類,由40個(gè)可見類和10個(gè)不可見類組成,每個(gè)類別都有85個(gè)屬性的注釋;SUN 是一個(gè)大型場景風(fēng)格的數(shù)據(jù)集,包含645 個(gè)可見類和72 個(gè)不可見類,每個(gè)類別有102 個(gè)屬性的注釋;FLO 數(shù)據(jù)集包含102 個(gè)花卉類別,82 個(gè)可見類和20 個(gè)不可見類,注釋屬性有1 024 維。各數(shù)據(jù)集的詳細(xì)信息如表1所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of datasets

4.2 評估方法

在廣義零樣本學(xué)習(xí)任務(wù)上,使用調(diào)和平均值評估精度,它計(jì)算的是可見類與不可見類的聯(lián)合精度,具體為

式中,U表示在不可見類圖像上每個(gè)類別的平均精度,衡量不可見類樣本的分類能力。S表示在可見類圖像上每個(gè)類別的平均精度,衡量可見類樣本的分類能力。H是調(diào)和平均值,衡量GZSL 任務(wù)的性能。

4.3 實(shí)驗(yàn)設(shè)置

按照大部分方法的設(shè)置,首先利用預(yù)訓(xùn)練的ResNet101來提取維度為2 048的圖像特征。語義特征是由人工注釋的每個(gè)類別的描述。cVAE 和解糾纏模塊的編碼器和解碼器都是由多層感知機(jī)(multilayer perceptron,MLP)組成。在cVAE 中,隱藏層維度為2 048,生成的潛在表示維度為20。解糾纏模塊的隱藏層維度是可以調(diào)節(jié)的參數(shù)。關(guān)系網(wǎng)絡(luò)的隱藏層維度為2 048。鑒別器模塊是帶有sigmoid 激活函數(shù)的單層感知機(jī)。

所提方法由PyTorch 實(shí)現(xiàn),并采用Adam(Kingma 和Ba,2015)優(yōu)化器進(jìn)行優(yōu)化。學(xué)習(xí)率是一個(gè)可調(diào)節(jié)的超參數(shù),批次大小設(shè)置為64。當(dāng)cVAE和解糾纏訓(xùn)練好后,使用cVAE 中的生成器來為不可見類生成大量樣本。之后,將可見類的訓(xùn)練特征和不可見類的生成特征送入到視覺解糾纏模塊中提取語義一致性特征,將語義信息送入語義解糾纏模塊提取特征相關(guān)的語義向量。最后,將分解出來的語義一致性特征和特征相關(guān)語義信息聯(lián)合共同學(xué)習(xí)一個(gè)廣義零樣本學(xué)習(xí)分類器,然后計(jì)算相應(yīng)的指標(biāo)。分類過程如圖6所示。

圖6 分類結(jié)構(gòu)Fig.6 Classifier architecture

4.4 對比相關(guān)方法

為了證明所提方法的有效性,選擇了10 種不同的方法進(jìn)行實(shí)驗(yàn)對比。對比方法如下:

f-CLSWGAN(Xian 等,2018)提出了一種使用GAN 在特征空間上生成數(shù)據(jù),并添加一個(gè)輔助分類器提高生成器性能的方法來解決零樣本學(xué)習(xí)問題,相比于直接生成圖像,該方法能取得更好的性能。

CANZSL(Chen 等,2020)提出了一個(gè)基于自然語言語義空間的循環(huán)一致性對抗網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用帶有不相關(guān)詞的自然語言來生成視覺特征,而不是使用以往人工注釋的語義信息,然后由語義特征生成器將合成的視覺特征映射回相應(yīng)的語義空間。

Cycle-CLSWGAN(Felix 等,2018)提出使用cycle-consistent loss 作為正則化項(xiàng)來訓(xùn)練GAN,使得生成的視覺特征能夠重構(gòu)它的原始語義特征,解決了基于生成方法的GZSL 模型中存在從語義到視覺特征的生成過程沒有約束的問題。

FREE(Chen 等,2021a)提出一種自適應(yīng)邊緣中心損失,與語義循環(huán)一致性損失相結(jié)合,對視覺特征進(jìn)行細(xì)化,減輕了ImageNet和GZSL基準(zhǔn)數(shù)據(jù)集之間的跨數(shù)據(jù)集偏差。

LisGAN(leveraging invariant side GAN)(Li 等,2019)提出在GAN 生成器中引入靈魂樣本正則化方法來解決視覺對象的多視圖質(zhì)量問題,并在分類階段提出使用級聯(lián)分類器來微調(diào)精度。

CADA-VAE(Sch?nfeld 等,2019)使用VAE 對視覺特征和類別描述進(jìn)行編碼解碼,對這兩個(gè)模態(tài)進(jìn)行對齊,在隱空間中使用這兩個(gè)模態(tài)共同構(gòu)建分類器。

f-VAEGAN-D2(Xian 等,2019)提出了一個(gè)直推式特征生成網(wǎng)絡(luò),使用VAE 與WGAN 結(jié)合進(jìn)行信息互補(bǔ)來生成更魯棒的特征,額外使用一個(gè)非條件的鑒別器來學(xué)習(xí)不可見類的流形。

SDGZSL(Chen 等,2021b)指出現(xiàn)有方法使用的可視化特征會包含與語義無關(guān)的冗余信息,并提出了一個(gè)解糾纏自編碼器的結(jié)構(gòu),提取出視覺特征中語義相關(guān)的特征。

TDCSS(task-correlated disentanglement and controllable samples synthesis)(Feng 等,2022)指出目前的方法仍然存在特征混淆和分布不確定的問題,并提出了任務(wù)相關(guān)特征解糾纏和可控偽樣本合成兩個(gè)模塊來解決這兩個(gè)問題。

Disentangled-VAE(Li等,2021)指出在可視化特征中不可避免地包含與識別分類無關(guān)的信息,給性能帶來負(fù)面影響,因此提出了一種基于潛在特征批量重組策略的解糾纏方法來分離出類別相關(guān)和類別無關(guān)的因素。

4.5 實(shí)驗(yàn)結(jié)果

在4 個(gè)公開數(shù)據(jù)集上與Baseline 和其他10 種方法進(jìn)行多次實(shí)驗(yàn)對比。表2 展示了VSD-GZSL 與其他相關(guān)方法之間的對比實(shí)驗(yàn)結(jié)果。除了FLO數(shù)據(jù)集外,所提方法都優(yōu)于對比方法,并且在4 個(gè)數(shù)據(jù)集上比Baseline方法結(jié)果更好。

表2 不同方法在4個(gè)數(shù)據(jù)集上的結(jié)果對比Table 2 Comparison of results of different methods on four datasets/%

VSD-GZSL 相對于CANZSL(Chen 等,2020)在數(shù)據(jù)集AwA2 上的U、S和H分別提高了17.6%、3.6%和12.2%,在CUB 上的U、S和H分別提高了7.4%、3% 和5.6%,在SUN 上 的U、S和H分別提高了11.5%、5.2%和7.5%,在FLO 上的U、S和H分別提高了1.5%、10.8%和4.8%。因?yàn)镃ANZSL 并沒有將視覺特征中存在的語義無關(guān)特征進(jìn)行分離,這會產(chǎn)生語義偏見,并且在分類時(shí)該方法使用一個(gè)k-最近鄰算法進(jìn)行分類,這也忽略了語義信息對分類結(jié)果的影響。因此VSD-GZSL 方法比之性能更好。

相對參照的Baseline 方法,所提方法VSD-GZSL在AwA2 數(shù)據(jù)集上,U、S、H分別提高了2.7%、0.2%和1.6%,在CUB 上,U、S、H分別提高了3.8%、2.4%和3.2%,在SUN 上,U、S、H分別提高了10.1%、4.1%和6.2%,在FLO 上,S和H分別提高了9.1%和1.5%。由于Baseline 只考慮對視覺特征的解糾纏,忽略了在語義信息中與分類特征相關(guān)的信息,而VSD-GZSL 正是發(fā)現(xiàn)了這個(gè)問題并解決了這個(gè)不足,從而提高了Baseline的性能。

從實(shí)驗(yàn)結(jié)果看,所提的視覺—語義解糾纏方法可以學(xué)習(xí)到視覺空間中語義一致性特征和語義空間中特征相關(guān)的語義,并且能夠提高廣義零樣本學(xué)習(xí)分類性能,由此結(jié)果可以驗(yàn)證所提方法的有效性。

4.6 實(shí)驗(yàn)分析

本文從參數(shù)分析、消融實(shí)驗(yàn)和方法適用性3 個(gè)方面對提出的方法進(jìn)行實(shí)驗(yàn)分析。

4.6.1 參數(shù)分析

為了討論參數(shù)對解糾纏模塊的影響,選擇在AwA2 數(shù)據(jù)集上對解糾纏模塊中關(guān)系網(wǎng)絡(luò)損失Ls的權(quán)重λ1、總相關(guān)懲罰損失TC的權(quán)重λ2和鑒別器損失Ldis的權(quán)重λ3,設(shè)置不同的值進(jìn)行多次實(shí)驗(yàn)。圖7 展示了3 個(gè)參數(shù)對廣義零樣本學(xué)習(xí)性能的影響。圖7(a)是固定其他兩個(gè)參數(shù)為λ2=1.0,λ3=0.5的情況下,關(guān)系網(wǎng)絡(luò)權(quán)重λ1對廣義零樣本學(xué)習(xí)性能影響圖,可見,在λ1=0.7 時(shí)性能最好。圖7(b)為固定λ1=0.7,λ3=0.5 的情況下,總相關(guān)懲罰的權(quán)重λ2對廣義零樣本學(xué)習(xí)性能影響圖,可見,在λ2=0.9時(shí)性能最好。圖7(c)為固定λ1=0.7,λ2=0.9的情況下,鑒別器損失的權(quán)重λ3的值對GZSL 性能影響圖,可見,在λ3=0.5時(shí)性能最好。綜合這3組參數(shù)分析實(shí)驗(yàn),找到了在AwA2 數(shù)據(jù)集上3個(gè)參數(shù)最優(yōu)的組合。即當(dāng)λ1=0.7,λ2=0.9,λ3=0.5的情況下,廣義零樣本學(xué)習(xí)性能達(dá)到了最優(yōu),調(diào)和平均值超過了所有對比方法。

圖7 參數(shù)分析Fig.7 Parameters analysis((a)relation network weight λ1;(b)TC weight λ2;(c)discriminator weight λ3)

4.6.2 消融實(shí)驗(yàn)

為了驗(yàn)證視覺特征和語義信息聯(lián)合分類、語義解糾纏和跨模態(tài)重構(gòu)的有效性,分別在4 個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。

表3 消融實(shí)驗(yàn)Table 3 Ablation experiments/%

第1 個(gè)消融實(shí)驗(yàn)(+Attribute)是在Baseline 中將分離的語義一致性特征和未分離的語義信息聯(lián)合學(xué)習(xí)一個(gè)分類器得到的結(jié)果,在CUB 和SUN 上的調(diào)和平均值H都得到了提升,AwA2 和FLO 上的S指標(biāo)都得到提升,調(diào)和平均值也取得了相當(dāng)?shù)慕Y(jié)果,這表示加入語義信息進(jìn)行聯(lián)合學(xué)習(xí)對分類有著很大的作用。

第2 個(gè)消融實(shí)驗(yàn)(+Attribute Disentangle)是在Baseline中只添加語義解糾纏模塊,這只是單純地分離出兩個(gè)獨(dú)立的語義分量,并沒有對分離出的分量施加約束。可以發(fā)現(xiàn)在SUN 數(shù)據(jù)集上性能得到了提升,但是在其他數(shù)據(jù)集上效果變差,這是因?yàn)闆]有對分解出的語義信息施加約束。

第3 個(gè)消融實(shí)驗(yàn)(+Attribute Disentangle+Cross Model Loss)在加入語義解糾纏模塊后的基礎(chǔ)上再添加跨模態(tài)重構(gòu)損失,即本文方法??梢钥闯?,在4 個(gè)數(shù)據(jù)集上幾乎所有評估指標(biāo)都取得了顯著提升,因?yàn)樘砑拥膿p失會對語義解糾纏模塊進(jìn)行指導(dǎo),約束語義解糾纏模塊分離出特征相關(guān)和特征不相關(guān)的兩個(gè)獨(dú)立分量,有了豐富的特征相關(guān)的語義向量后,將語義一致性特征和特征相關(guān)的語義信息聯(lián)合學(xué)習(xí)廣義零樣本學(xué)習(xí)分類器。

消融實(shí)驗(yàn)進(jìn)一步證實(shí)所提方法能夠提高Baseline 在多個(gè)數(shù)據(jù)集上的性能,并且優(yōu)于大多數(shù)相關(guān)方法的性能,更加充分證明了方法的有效性。

4.6.3 方法適用性

為了驗(yàn)證所提方法的適用性,在CUB 數(shù)據(jù)集上使用3 種不同backbone 提取的視覺特征進(jìn)行實(shí)驗(yàn)對比,分別為GoogLeNet(Szegedy 等,2015)、VGG16(Simonyan 和Zisserman,2014)和ViT(vision Transformer)(Dosovitskiy等,2021),實(shí)驗(yàn)結(jié)果如表4所示??梢钥闯觯岱椒ㄔ? 個(gè)不同backbone 下的實(shí)驗(yàn)結(jié)果均比baseline更好,進(jìn)一步證明了所提方法的適用性。

表4 在CUB數(shù)據(jù)集上不同backbone下的方法結(jié)果對比Table 4 Comparison of method results of different backbone on CUB dataset/%

5 結(jié)論

在使用解糾纏表示的零樣本學(xué)習(xí)方法中忽略了語義信息,對此本文提出了視覺—語義雙重解糾纏的廣義零樣本學(xué)習(xí)分類方法。具體而言,從視覺特征中分解出語義一致性特征和語義無關(guān)特征,從人工注釋的類別描述(語義屬性)中進(jìn)一步分解出特征相關(guān)和特征無關(guān)的語義信息。本文設(shè)計(jì)了一個(gè)總相關(guān)懲罰來鼓勵(lì)兩個(gè)解糾纏框架分離出來的潛在變量之間的獨(dú)立性,采用關(guān)系網(wǎng)絡(luò)來衡量分解出視覺特征的語義一致性,并設(shè)計(jì)了一個(gè)跨模態(tài)交叉重構(gòu)的方式保證分解出來的語義信息與特征相關(guān)。最后,將分解出來的特征相關(guān)語義分量和語義一致性視覺特征分量相結(jié)合,訓(xùn)練一個(gè)分類器進(jìn)行廣義零樣本學(xué)習(xí)分類。將解糾纏模塊與條件變分自編碼器結(jié)合,以端到端的方式進(jìn)行訓(xùn)練。在4 個(gè)公開數(shù)據(jù)集上對所提方法進(jìn)行評估,大量實(shí)驗(yàn)證明,本文方法取得了比基準(zhǔn)模型更好的效果,并優(yōu)于大多相關(guān)方法。

相比于同類型的方法,本文方法的效果得到了明顯提升,然而其性能受限于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)提取的視覺特征的好壞,這是因?yàn)椴煌纳疃饶P吞崛∫曈X特征的能力和質(zhì)量也不一樣。并且所提方法是在特征表示層面上進(jìn)行的,如何在圖像級別上通過注意力機(jī)制來挖掘圖像和語義之間的一致性是一個(gè)有意義的研究方向。此外,現(xiàn)有方法的性能和人工注釋的語義信息緊密相關(guān),這種強(qiáng)先驗(yàn)的外部知識在現(xiàn)實(shí)場景中很難獲取,如何突破這種外部語義知識的制約,只利用可見類圖像訓(xùn)練模型來對不可見類圖像進(jìn)行識別是一個(gè)重要的研究方向。未來,將利用Transformer挖掘圖像和語義之間的多模態(tài)關(guān)系來進(jìn)行零樣本識別任務(wù)。

猜你喜歡
編碼器一致性重構(gòu)
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
長城敘事的重構(gòu)
攝影世界(2022年1期)2022-01-21 10:50:14
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測量Kappa角一致性分析
北方大陸 重構(gòu)未來
基于FPGA的同步機(jī)軸角編碼器
北京的重構(gòu)與再造
商周刊(2017年6期)2017-08-22 03:42:36
基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
論中止行為及其對中止犯的重構(gòu)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
汉川市| 兴海县| 四平市| 华宁县| 赫章县| 自治县| 昭觉县| 建瓯市| 康平县| 达日县| 禹城市| 皋兰县| 奉贤区| 英德市| 辽阳县| 荆州市| 古丈县| 峨山| 东乌珠穆沁旗| 双鸭山市| 成武县| 阳春市| 古丈县| 婺源县| 呼和浩特市| 海口市| 石城县| 东阳市| 穆棱市| 巴林右旗| 罗甸县| 龙口市| 青海省| 望城县| 汾阳市| 岳阳县| 绿春县| 娱乐| 盐津县| 思茅市| 晋宁县|