国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨模態(tài)對(duì)比的場景圖圖像生成

2022-07-22 13:36:48王鵬輝毛震東
信號(hào)處理 2022年6期
關(guān)鍵詞:一致性語義損失

王鵬輝 胡 博 毛震東

(1.中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,安徽合肥 230027;2.中國科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,安徽合肥 230027)

1 引言

近年來,隨著深度學(xué)習(xí)的發(fā)展,尤其是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[1]的提出,圖像生成取得了巨大的進(jìn)展。圖像生成致力于根據(jù)多種形式的條件生成真實(shí)可控的圖像,是計(jì)算機(jī)視覺中重要的研究方向,同時(shí)對(duì)于下游任務(wù)也具有重要幫助,例如圖像增強(qiáng)[2-3],數(shù)據(jù)擴(kuò)充等[4-5]。場景圖(scene graph,SG)是一種具有代表性的條件形式,它將圖像中的物體抽象為節(jié)點(diǎn),將物體之間的關(guān)系抽象為邊,是一種廣泛應(yīng)用的結(jié)構(gòu)化的圖表示。場景圖圖像生成(scene graph-to-image,S2I)根據(jù)場景圖graph 作為條件輸入,通過節(jié)點(diǎn)指定圖像中生成的物體,通過邊指定物體之間的關(guān)系,是大規(guī)模生成復(fù)雜場景圖像的重要范式。由于場景圖中通常包含多個(gè)物體和物體之間的關(guān)系,這對(duì)圖像生成帶了巨大的挑戰(zhàn),如何生成高質(zhì)量的物體和物體之間的關(guān)系是一個(gè)亟待研究的問題。

現(xiàn)有的S2I 方法主要基于圖卷積(Graph convo?lutional networks,GCN)和生成對(duì)抗網(wǎng)絡(luò)GAN 進(jìn)行,首先使用GCN 提取場景圖中的節(jié)點(diǎn)和關(guān)系特征,然后將節(jié)點(diǎn)特征輸入到GAN 中進(jìn)行圖像生成。在生成階段,現(xiàn)有的方法可以分為兩類:全參數(shù)化方法和半?yún)?shù)化方法。其中全參數(shù)化方法在生成的過程中,直接根據(jù)節(jié)點(diǎn)特征預(yù)測(cè)物體的位置和形狀,然后生成整張圖像,代表性工作有sg2im[6]和Cs?GAN[7]。這種方法在生成包含多個(gè)物體的圖像時(shí),容易導(dǎo)致關(guān)鍵物體丟失的問題(物體不一致)。為了應(yīng)對(duì)這個(gè)問題,半?yún)?shù)化方法采用檢索的方法獲得物體圖像塊作為素材,然后生成整體圖像,該類方法代表性工作主要包括PasteGAN[8]和Retrieval?GAN[9]。由于該類方法通過檢索直接獲得物體的特征,所以能夠獲得較好的物體生成質(zhì)量,但是由于檢索到的物體特征是固定的,所以物體之間的關(guān)系缺乏靈活性,容易出現(xiàn)關(guān)系錯(cuò)誤的問題(關(guān)系不一致)。

綜上所述,目前的S2I 方法容易導(dǎo)致生成結(jié)果和輸入條件語義不一致的問題,我們認(rèn)為這個(gè)問題來源于訓(xùn)練過程中缺乏對(duì)于物體和關(guān)系的有效監(jiān)督。由于缺乏物體級(jí)別的標(biāo)注,導(dǎo)致判別器無法對(duì)于生成的物體進(jìn)行有效的判別,導(dǎo)致關(guān)鍵物體的缺失。同時(shí)判別器也無法對(duì)于物體關(guān)系進(jìn)行有效的約束,導(dǎo)致生成的關(guān)系容易出現(xiàn)錯(cuò)誤。一些研究也針對(duì)圖像生成中的語義不一致問題進(jìn)行了研究,其中ACGAN[10]在判別器中引入輔助分類器,最大化生成圖像的分類概率。AttnGAN[11]在文本-圖像生成中最大化圖像文本的跨模態(tài)相似度,來使的生成圖像和輸入文本保持一致性。最近XMC-GAN[12]提出使用對(duì)比學(xué)習(xí)最大化輸入和輸出的互信息,為圖像生成中跨模態(tài)語義一致性提供了新的研究思路。然而由于場景圖本身的結(jié)構(gòu)化特性,使得這些方法難以處理圖結(jié)構(gòu)中的多個(gè)物體及其關(guān)系。

為了解決上述問題,本文在S2I 中提出基于跨模態(tài)對(duì)比的全參數(shù)化模型CsgGAN(Contrastive scene graph GAN),引入跨模態(tài)對(duì)比損失為物體和關(guān)系添加有效的約束,解決物體丟失和關(guān)系錯(cuò)誤等語義不一致問題。對(duì)比學(xué)習(xí)在特征空間拉近語義相關(guān)樣本的距離,同時(shí)推遠(yuǎn)語義不相關(guān)樣本的距離,能夠?qū)μ卣魈砑佑行У募s束,并學(xué)習(xí)到高質(zhì)量的特征表示[13]。對(duì)于關(guān)系不一致的問題,本文設(shè)計(jì)了關(guān)系一致性損失。針對(duì)場景圖中三元組<主語,謂語,賓語>,在圖像中通過注意力機(jī)制[14]獲得主賓物體的聯(lián)合特征,然后和場景圖中的邊特征進(jìn)行對(duì)比,使得成對(duì)的<主賓聯(lián)合,邊>特征相互靠近,非成對(duì)的特征相互遠(yuǎn)離,從而實(shí)現(xiàn)對(duì)于生成結(jié)果關(guān)系的有效約束;對(duì)于物體不一致的問題,本文設(shè)計(jì)了物體一致性對(duì)比,對(duì)圖像中物體和場景圖中的節(jié)點(diǎn)特征建立對(duì)比,使得成對(duì)<物體,節(jié)點(diǎn)>特征相互靠近,非成對(duì)特征相互遠(yuǎn)離,從而實(shí)現(xiàn)對(duì)于生成物體的有效約束;此外,本文還提出全局一致性損失,進(jìn)行圖像整體特征和場景圖整體的對(duì)比,提升圖像整體和對(duì)應(yīng)場景圖整體的一致性?;谏鲜龅目缒B(tài)對(duì)比方法,本文提出的CsgGAN 在基準(zhǔn)數(shù)據(jù)集VG[15]和COCO-stuff[16]進(jìn)行了詳細(xì)的實(shí)驗(yàn)分析,在多項(xiàng)評(píng)價(jià)指標(biāo)上獲得了圖像質(zhì)量的提升,同時(shí)消融實(shí)驗(yàn)和可視化分析也證明了該方法對(duì)于解決語義不一致問題的有效性。

2 基于跨模態(tài)對(duì)比的場景圖圖像生成

本節(jié)首先介紹場景圖及其定義,然后介紹基于跨模態(tài)對(duì)比的場景圖圖像生成框架。整個(gè)框架包含一個(gè)標(biāo)準(zhǔn)的生成對(duì)抗網(wǎng)絡(luò)和三個(gè)基于對(duì)比學(xué)習(xí)的損失。如圖2 所示,本文引入了三個(gè)對(duì)比損失函數(shù):關(guān)系一致性對(duì)比、物體一致性對(duì)比和全局一致性對(duì)比。生成對(duì)抗網(wǎng)絡(luò)由生成器和判別器構(gòu)成,生成器根據(jù)場景圖輸入和噪聲生成RGB 圖像,判別器鑒別RGB圖像的真假。

2.1 場景圖介紹

如圖1 所示,場景圖將圖像中的物體抽象成節(jié)點(diǎn),將物體之間的關(guān)系抽象成一條邊,是圖像的一種結(jié)構(gòu)化的表征。由于場景圖保留了圖像中關(guān)鍵的語義信息,去除了像素水平的細(xì)節(jié),因此是一種精簡的圖像表征,被廣泛應(yīng)用于檢索等場景。如圖1所示,圖像可以表示成兩種結(jié)構(gòu)化表征,第一種是有向圖,即節(jié)點(diǎn)和有向邊的集合,記為G=(V,E)。另外一種是三元組,及圖像中所有的(主語-謂語-賓語)的集合,記為G=(S,P,O)。兩種表示是完全等價(jià)的,其中三元組中的主語和賓語都對(duì)應(yīng)有向圖中的節(jié)點(diǎn),謂語對(duì)應(yīng)有向圖中的邊。

2.2 關(guān)系一致性對(duì)比

之前方法對(duì)于場景圖的處理主要基于圖卷積網(wǎng)絡(luò),將邊的特征與節(jié)點(diǎn)的特征通過圖卷積網(wǎng)絡(luò)融合成新的節(jié)點(diǎn)特征,然后使用節(jié)點(diǎn)特征進(jìn)行生成。這種方法僅僅在輸入的時(shí)候隱含了邊的信息,但是在訓(xùn)練過程中缺乏對(duì)于邊的有效約束,這就導(dǎo)致生成的圖像中物體之間關(guān)系錯(cuò)誤的問題。為了解決這個(gè)問題,我們提出了對(duì)比式的關(guān)系融合的方法,即通過關(guān)系一致性損失在訓(xùn)練過程中對(duì)于物體關(guān)系施加有效的約束,進(jìn)而解決生成物體間關(guān)系錯(cuò)誤的問題。如圖2(a)所示,關(guān)系一致性對(duì)比使得生成的主賓物體對(duì)聯(lián)合特征和場景圖中的邊(關(guān)系)特征和相互靠近,非對(duì)應(yīng)的<主賓聯(lián)合,邊>特征相互遠(yuǎn)離,確保生成物體之間的關(guān)系和場景圖中指定的關(guān)系保持一致。

為了獲得生成圖像中物體關(guān)系的特征表示,我們首先需要獲得單個(gè)物體的特征表示。由于場景圖中缺乏物體的位置信息,所以無法直接獲得單個(gè)物體的特征表示,我們采用注意力機(jī)制來間接獲得該特征。給定一張圖像I,場景圖G=(V,E)。首先將圖像均勻劃分為R個(gè)區(qū)域的集合,即然后和節(jié)點(diǎn)計(jì)算注意力權(quán)重。節(jié)點(diǎn)vi相對(duì)于區(qū)域rj的注意力權(quán)重αi,j表示為:

其中fvertex(·)代表節(jié)點(diǎn)向量的編碼器,fregion(·)表示圖像區(qū)域的編碼器,它們分別將節(jié)點(diǎn)特征和區(qū)域特征映射到相同維度的度量空間。對(duì)于節(jié)點(diǎn)vi的對(duì)齊的區(qū)域表征可以表示為:

對(duì)于場景圖中連接節(jié)點(diǎn)vi和vj的邊ei,j,可以視為三元組中的謂語,起到連接主賓的作用。我們將生成的主賓物體區(qū)域特征拼接到一起形成聯(lián)合特征ui,j=(ci,cj),和場景圖中的邊建立樣本對(duì)?;谏鲜鰞?nèi)容,本文提出關(guān)系一致性的對(duì)比學(xué)習(xí),對(duì)于關(guān)系ei,j,該損失表示為:

其中,funion(·)表示主賓物體圖像特征的聯(lián)合編碼器,使用多層感知機(jī)構(gòu)成,fedge(·)表示場景圖中邊特征的編碼器,(k,l)表示有向邊,總量為關(guān)系個(gè)數(shù)M相同,τ為對(duì)比學(xué)習(xí)中的溫度超參數(shù)。該對(duì)比損失使得生成的物體對(duì)之間的關(guān)系和場景圖中的邊在特征空間相互靠近,非成對(duì)的特征相互遠(yuǎn)離,實(shí)現(xiàn)關(guān)系融合的目的,顯式確保生成物體之間的關(guān)系和場景圖中指定的關(guān)系保持一致。

2.3 物體一致性對(duì)比

場景圖graph 給定圖像中的物體類別和物體間的關(guān)系,要求輸出真實(shí)并且符合描述的圖像。一般來說,輸入的條件越簡單,生成的難度越低。而在本任務(wù)中,物體的類別總數(shù)較大(COCO-stuff有182類,Visual Genome有179類),每張圖上的標(biāo)注物體數(shù)量比較多(COCO-stuff 每張圖上3~8 個(gè)標(biāo)注物體,Visual Genome 每張圖上則有10~30 個(gè))。這對(duì)圖像生成造成了比較大的挑戰(zhàn),容易導(dǎo)致生成圖像和給定條件的語義不一致,例如,生成圖像中指定的物體缺失等。如何在物體級(jí)別提供語義一致性約束是一個(gè)重要問題。

為了解決這個(gè)問題,本文引入物體一致性損失。如圖2(b)所示,物體一致性對(duì)比使得圖像中的物體區(qū)域特征和場景圖中的節(jié)點(diǎn)(物體)和生成相互靠近,非對(duì)應(yīng)的<物體,節(jié)點(diǎn)>特征相互遠(yuǎn)離,確保生成的物體和場景圖中的節(jié)點(diǎn)保持一致;和上一節(jié)介紹的關(guān)系一致性損失一致,我們首先使用注意力機(jī)制獲得單個(gè)節(jié)點(diǎn)vi對(duì)應(yīng)生成圖像的對(duì)齊的區(qū)域特征表示ci。然后將圖像中的所有節(jié)點(diǎn)特征和對(duì)應(yīng)的對(duì)齊區(qū)域特征計(jì)算匹配的分?jǐn)?shù):

其中I和V分別代表圖像和對(duì)應(yīng)的節(jié)點(diǎn),τ為超參數(shù),T為節(jié)點(diǎn)總數(shù)。最后計(jì)算物體一致性的損失:

其中bs為單個(gè)批次的訓(xùn)練數(shù)據(jù)量。該損失鼓勵(lì)正樣本對(duì)(Vi,Ii)獲得較高評(píng)分,進(jìn)而鼓勵(lì)物體級(jí)別的(vi,ci)特征余弦距離相互靠近,使場景圖中的節(jié)點(diǎn)和生成圖像中的物體建立語義對(duì)應(yīng)關(guān)系,從而增強(qiáng)語義一致性。

2.4 全局一致性對(duì)比

對(duì)于場景圖圖像生成而言,不僅要求物體級(jí)別語義的一致性,同時(shí)生成的圖像整體和場景圖graph整體保持語義一致。如圖2(c)所示,本文引入全局一致性對(duì)比,使得成對(duì)的<場景圖,圖像>整體特征相互靠近,非成對(duì)的<場景圖,圖像>特征相互遠(yuǎn)離,確保生成的圖像和場景圖graph整體保持一致。

全局對(duì)比學(xué)習(xí)直接對(duì)于整張場景圖graphGi和圖像Ii進(jìn)行對(duì)比。首先根據(jù)場景圖與圖像構(gòu)造樣本對(duì),場景圖和圖像如果匹配,則形成正樣本,如果不匹配則構(gòu)成負(fù)樣本。全局對(duì)比學(xué)習(xí)的公式如下:

其中G表示場景圖,fimg(·)表示圖像特征提取器,使用VGG-19 網(wǎng)絡(luò)提取,fgraph(·)表示場景圖graph 全局特征提取,使用GCN 和池化層來實(shí)現(xiàn)。全局對(duì)比學(xué)習(xí)鼓勵(lì)成對(duì)的<場景圖,圖像>樣本對(duì)的整體在特征空間相互靠近,非成對(duì)樣本在特征空間相互遠(yuǎn)離,有利于生成和輸入條件整體保持一致的圖像。

2.5 生成器和判別器

如圖3(左)所示,為了生成分辨率為128 × 128的圖像,我們使用5個(gè)殘差塊(ResBlocks)[17]構(gòu)成生成器。首先,我們從高斯分布采樣128 維的噪聲向量作為生成器的輸入,然后通過線性的全連接層將噪聲向量投影并調(diào)整形狀為成一個(gè)(4,4,16ch)的三維張量(ch 表示三維張量的通道數(shù)量)。同時(shí)每次經(jīng)過殘差塊進(jìn)行圖像特征分辨率的二倍的上采樣,最終達(dá)到特定的分辨率。

在上采樣的過程中,節(jié)點(diǎn)特征會(huì)通過圖卷積神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)的特征,并且在每個(gè)殘差塊通過自調(diào)制融入到生成過程中。自調(diào)制過程如圖2(右)所示,首先對(duì)于殘差塊輸出的圖像中第i個(gè)區(qū)域的特征xi,首先和節(jié)點(diǎn)特征計(jì)算注意力[14],并獲得該區(qū)域的對(duì)齊的節(jié)點(diǎn)上下文表示ci:

其中,T為節(jié)點(diǎn)的總數(shù)。然后,經(jīng)過調(diào)制后的圖像特征x′i可以表示為:

其中,μ和σ是圖像特征xi在通道維度上的均值和標(biāo)準(zhǔn)差,γi(·)和βi(·)是兩個(gè)線性變換,concat(z,ci)將兩個(gè)特征拼接到一起,z為高斯噪聲。通過自調(diào)制過程,給定條件的語義信息能夠逐漸融入到圖像的生成過程中,同時(shí)調(diào)制過程中的注意力機(jī)制會(huì)使得節(jié)點(diǎn)和圖像區(qū)域保持的語義一致。最終,經(jīng)過多個(gè)階段的自調(diào)制過程,生成器將會(huì)生成三通道的RGB圖像。生成器的網(wǎng)絡(luò)參數(shù)由表1給出。

表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 The architecture of the generator

如圖4 所示,判別器的結(jié)構(gòu)和生成器的結(jié)構(gòu)是幾乎對(duì)稱的,由多個(gè)殘差塊構(gòu)成。每次經(jīng)過殘差塊,會(huì)以兩倍下采樣降低特征圖的維度。經(jīng)過多個(gè)殘差塊之后,會(huì)獲得整張圖像的整體特征表示。然后使用平均池化將特征壓縮為向量,并通過一個(gè)線性分類器判斷其為真實(shí)圖像的概率。同時(shí)為了保持訓(xùn)練的穩(wěn)定性,判別器的每一層都使用了譜歸一化[18]。在訓(xùn)練判別器的時(shí)候,加入了三個(gè)對(duì)比損失,使得判別器具有更強(qiáng)的判別能力,進(jìn)而間接促進(jìn)生成器生成高質(zhì)量的圖像。

詳細(xì)的判別器網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。

表2 判別器網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 The architecture of the discriminator

2.6 目標(biāo)函數(shù)

損失函數(shù)包含三個(gè)對(duì)比損失和生成對(duì)抗損失,其中生成對(duì)抗損失由判別器損失LDis和生成器損失LGen組成,并采用Hinge損失函數(shù)形式來保證訓(xùn)練的穩(wěn)定性,其形式為:

其中Dis(·)代表判別器,Gen(·)代表生成器,pdata代表訓(xùn)練集數(shù)據(jù),p(z)表示隨機(jī)噪聲的分布。

總體的損失函數(shù)表示為:

其中,λ1,λ2和λ3為超參數(shù),均設(shè)置為1.0。在訓(xùn)練過程中,判別器和生成器是交替迭代訓(xùn)練的,所以每次僅計(jì)算其中一個(gè)損失。

2.7 訓(xùn)練算法流程

表3 CsgGAN訓(xùn)練算法流程Tab.3 CsgGAN Training Algorithm

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集

本文在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估,包括COCO-stuff 和Visual Genome(VG)。COCO-Stuff 數(shù)據(jù)集包含4 萬張訓(xùn)練圖像和5 千張測(cè)試圖像,標(biāo)注了物體的邊界框和語義分割圖,涵蓋了182個(gè)類別。其中單張圖像的物體數(shù)量為3~8 個(gè)。根據(jù)sg2im 的做法,在類別標(biāo)注信息的基礎(chǔ)上,根據(jù)像素關(guān)系引入了6種幾何位置關(guān)系(即:上下左右內(nèi)外),構(gòu)建為合成場景圖(注意:不使用邊界框和語義分割等額外標(biāo)注)。經(jīng)過處理之后的數(shù)據(jù)集包含24972 張訓(xùn)練圖像,1024 張驗(yàn)證圖像和2048 張測(cè)試圖像。VG數(shù)據(jù)集包含108077張圖像和對(duì)應(yīng)的場景圖標(biāo)注,涵蓋178 個(gè)類別和45 種關(guān)系。其中單張圖像包含的物體數(shù)量為10~30 個(gè),關(guān)系數(shù)量為5~10 個(gè)。經(jīng)過數(shù)據(jù)預(yù)處理之后,包含62565 張訓(xùn)練圖像,5506 張驗(yàn)證圖像和5088張測(cè)試圖像。

3.2 實(shí)施細(xì)節(jié)

我們基于PyTorch框架[19]搭建模型。使用Adam優(yōu)化器[20]進(jìn)行優(yōu)化,其中優(yōu)化器參數(shù)β1=0,β2=0.999。根據(jù)TTUR[21],生成器和判別器的學(xué)習(xí)率分別是1e-4和4e-4。判別器每訓(xùn)練5 次,生成器迭代訓(xùn)練1 次。訓(xùn)練數(shù)據(jù)批次大小為64,迭代輪數(shù)為200。大概花費(fèi)4~5天在兩張RTX3090上完成訓(xùn)練。

3.3 評(píng)價(jià)指標(biāo)

本文使用如下指標(biāo)評(píng)估生成的結(jié)果:Inception Score(IS)[22]、Frechet Inception Distance(FID)[21]、Di?versity Score(DS)和Semantic Object Accuracy(SOA)[23]。IS 使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的Inception v3網(wǎng)絡(luò)[24]提取生成圖像的特征,并預(yù)測(cè)分類概率進(jìn)行統(tǒng)計(jì)。IS 一方面通過預(yù)測(cè)圖像中的類別判斷生成的圖像是否包含清楚且有意義的物體,另一方面通過統(tǒng)計(jì)生成物體的類別數(shù)量來判斷生成結(jié)果的豐富性。所以IS 越大,代表圖像質(zhì)量越高,同時(shí)生成結(jié)果越豐富。FID通過Inception v3網(wǎng)絡(luò)提取真實(shí)圖像和生成圖像的特征,然后分別用高斯混合模型擬合數(shù)據(jù)的分布。最后通過計(jì)算兩個(gè)分布的距離作為評(píng)價(jià)指標(biāo)。所以,F(xiàn)ID 越小,代表生成圖像越接近真實(shí)圖像,生成的結(jié)果質(zhì)量越高。DS顯式計(jì)算生成圖像的多樣性,其通過計(jì)算真實(shí)圖像和生成圖像的感知相似度作為多樣性評(píng)分。DS越高,表明生成圖像和真實(shí)圖像在人類感知上越接近,生成結(jié)果越接近真實(shí)圖像的質(zhì)量。SOA 最初應(yīng)用在文本生成圖像任務(wù)中,用于評(píng)價(jià)文本中的物體是否被生成。我們采用SOA-I 評(píng)價(jià)圖像中物體的生成質(zhì)量,其通過一個(gè)預(yù)訓(xùn)練的目標(biāo)檢測(cè)模型Yolo v3[25]檢測(cè)圖像中目標(biāo)物體的召回率。SOA-I 越高,表示物體生成的質(zhì)量越好或者缺失的物體越少。四個(gè)指標(biāo)中,IS,F(xiàn)ID 和DS 更加關(guān)注整圖的生成質(zhì)量,而SOA-I 更加關(guān)注圖像中多個(gè)物體的生成質(zhì)量。

3.4 定量實(shí)驗(yàn)分析

3.4.1 主實(shí)驗(yàn)

如表4 所示,我們?cè)趦蓚€(gè)基準(zhǔn)數(shù)據(jù)集上對(duì)比了4 個(gè)當(dāng)前最佳的方法,并且在多個(gè)質(zhì)量評(píng)價(jià)指標(biāo)上均取得了領(lǐng)先。相比于當(dāng)前最佳方法,我們分別在COCO-Stuff 和VG 數(shù)據(jù)集上取得了8.33%和8.87%的FID 指標(biāo)上的性能提升。相比于sg2im 和CsGAN等全參數(shù)式方法,CsgGAN 引入了三個(gè)新的對(duì)比損失,能夠顯式地約束場景圖中的關(guān)系、節(jié)點(diǎn)和整個(gè)graph,實(shí)現(xiàn)生成結(jié)果和給定條件的語義一致性。相比于這類方法中最好的模型CsGAN,CsgGAN 在最重要的指標(biāo)FID 上能夠提升8.87%。對(duì)于PasteGAN和RetrievalGAN 等半?yún)?shù)式方法,這類方法采用檢索的方法直接獲得單個(gè)物體的圖像區(qū)域,在物體質(zhì)量上具有先天的優(yōu)勢(shì)。我們的模型仍然能夠在圖像整體質(zhì)量FID指標(biāo)上提高,顯示了方法的有效性。在此基礎(chǔ)上,CsgGAN-RA 額外使用數(shù)據(jù)集中的物體邊界框標(biāo)注,并通過ROI-Align[26]算法獲取準(zhǔn)確的物體特征,進(jìn)一步展示了模型能夠從更加精確的物體特征中獲增益,提升生成質(zhì)量。

表4 和當(dāng)前場景圖生成圖像最佳方法的對(duì)比Tab.4 Comparison with the-state-of-the-art methods of S2I

3.4.2 消融實(shí)驗(yàn)

為了驗(yàn)證模型中三個(gè)對(duì)比損失的有效性,我們?cè)贑OCO-Stuff 進(jìn)行了消融實(shí)驗(yàn)。如表5 所示,我們首先去除三個(gè)對(duì)比損失,獲得基礎(chǔ)生成對(duì)抗網(wǎng)絡(luò)的性能。然后逐個(gè)驗(yàn)證三個(gè)損失函數(shù)的作用。首先,從生成圖像的質(zhì)量來看,三種損失都能夠在指標(biāo)FID 上獲得提升。其中全局一致性對(duì)比損失在FID指標(biāo)上提升幅度最大,達(dá)到了24%的提升,對(duì)比式損失函數(shù)對(duì)于場景圖圖像生成任務(wù)的有效性。然后,我們探索了三種損失函數(shù)對(duì)于物體質(zhì)量的生成影響。在SOC-I 指標(biāo)上,三種損失仍然能夠帶來不同程度的提升。其中物體一致性損失對(duì)于該指標(biāo)的提升幅度最大,達(dá)到了20.5%,這表明了該損失使得生成的物體質(zhì)量更高,能夠更容易被常用的目標(biāo)檢測(cè)模型識(shí)別到。最終的結(jié)果是三個(gè)損失函數(shù)共同作用,相比與基礎(chǔ)模型,整體圖像質(zhì)量FID提升28.8%,物體質(zhì)量SOC-I提升28.5%。

表5 COCO-Stuff數(shù)據(jù)上消融實(shí)驗(yàn)Tab.5 Ablation study on COCO-stuff datasets

3.4.3 劃分區(qū)域數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響

為了獲得單個(gè)物體的特征表示,我們將圖像均勻劃分為R個(gè)不重疊的網(wǎng)格區(qū)域。劃分區(qū)域的數(shù)量決定了物體特征粒度:劃分的區(qū)域越多,每個(gè)區(qū)域的面積越小,每個(gè)物體對(duì)應(yīng)的區(qū)域表征能夠更加精細(xì)。然而,更小的區(qū)域劃分也會(huì)導(dǎo)致模型更加關(guān)注局部的特征,同時(shí)帶來模型復(fù)雜度的提升。

給定圖像尺寸為H×H,我們將圖像均勻劃分為R個(gè)正方形網(wǎng)格區(qū)域,記每個(gè)區(qū)域的邊長為M,根據(jù)劃分前后圖像面積(記為A)相等,則有:A=H2=R×M2。復(fù)雜度來源于兩個(gè)方面:特征投影和注意力機(jī)制的計(jì)算。首先是特征投影,將節(jié)點(diǎn)特征和物體的特征映射到相同維度的空間(空間維度記為D),實(shí)質(zhì)上是進(jìn)行兩個(gè)矩陣的乘法:(R×M2)*(M2×D),其中乘法操作數(shù)量為:R×M2×D=A×D,A為圖像面積。第二部分來源于注意力機(jī)制的計(jì)算,在實(shí)現(xiàn)方式上為三個(gè)矩陣的乘法:(T×D)*(D×R)*(R×D),其中乘法操作數(shù)量為:2 ×R×T×D,于是最終的算法時(shí)間復(fù)雜度為:Τ(R)=O(AD+2RTD)=O(R)。于是,在其他條件不變的情況下,增加區(qū)域的劃分?jǐn)?shù)量,算法復(fù)雜度呈現(xiàn)線性增長。如圖5 所示,隨著區(qū)域劃分?jǐn)?shù)量的增加,單次迭代的平均訓(xùn)練時(shí)間也迅速增大,增加了訓(xùn)練時(shí)間成本。

另一方面,如圖5所示,隨著區(qū)域數(shù)量的增加,生成圖像的質(zhì)量呈現(xiàn)出先降低后增長的趨勢(shì)。首先在區(qū)域數(shù)量從4到64的過程中,區(qū)域劃分逐漸精細(xì),物體對(duì)應(yīng)的區(qū)域特征質(zhì)量提高,F(xiàn)ID降低了34%。然而在區(qū)域數(shù)量從64到1024的變化中,F(xiàn)ID 出現(xiàn)小幅度的提高,表示圖像的生成質(zhì)量降低。這表示劃分區(qū)域增多對(duì)于實(shí)驗(yàn)結(jié)果也存在負(fù)面影響,其中一個(gè)重要的原因是,過度劃分的區(qū)域更加關(guān)注于局部信息。以上實(shí)驗(yàn)中可以得到結(jié)論,選擇合適的區(qū)域劃分?jǐn)?shù)量,對(duì)于模型的性能和效率都具有幫助。

3.5 定性實(shí)驗(yàn)分析

為了定性的展示本文中方法的效果,我們?cè)赩G數(shù)據(jù)集上做了可視化實(shí)驗(yàn)。如圖6所示,在(a)中,由sg2im 方法獲得的圖像缺失了關(guān)鍵的前景物體per?son,我們的方法則彌補(bǔ)了這一缺陷,生成了帶有per?son的完整場景圖像。在(b)中,盡管前景物體person被成功生成,但是背景物體mountain 生成效果非常模糊。我們的方法在相同的條件輸入下,則生成輪廓清晰的背景物體mountain。通過這兩個(gè)可視化結(jié)果,可以發(fā)現(xiàn),我們的方法對(duì)于解決物體缺失的問題具有改善作用。在(c)中,場景圖中的關(guān)系是“人在山的上面”,盡管之前的方法CsGAN生成了幾何關(guān)系正確的圖像,但是人卻飄在了半空中,這種關(guān)系在實(shí)際中是不合理的。相比之下,我們的方法則生成了更加符合真實(shí)場景的關(guān)系。同樣在(d)中,兩個(gè)長頸鹿的身體融合到了一起,產(chǎn)生了錯(cuò)誤的結(jié)構(gòu)。相比之下我們的生成結(jié)果更加合理。通過(c)、(d)可以看出,本文中提到了方法有利于生成合理的物體之間的關(guān)系,使得場景圖像更加自然。

4 結(jié)論

場景圖圖像生成從場景圖生成符合條件且真實(shí)自然的高質(zhì)量圖像。之前的方法在生成過程中缺乏對(duì)于物體和物體之間關(guān)系的有效監(jiān)督,導(dǎo)致了之前的方法容易產(chǎn)生物體缺失和關(guān)系錯(cuò)誤的等語義不一致問題。本文針對(duì)這些問題,提出基于跨模態(tài)對(duì)比的場景圖圖像生成方法,使用三個(gè)對(duì)比損失分別對(duì)于生成的物體,關(guān)系和全局做了有效的限制。實(shí)驗(yàn)結(jié)果表明,我們的方法不僅能夠緩解物體缺失和關(guān)系錯(cuò)誤的問題,而且能夠提升圖像的生成質(zhì)量。我們的工作表明跨模態(tài)對(duì)比是在場景圖圖像生成中是一種有力的方法,并且在未來的工作中也會(huì)將其擴(kuò)展到更多領(lǐng)域。

猜你喜歡
一致性語義損失
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
少問一句,損失千金
注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
胖胖損失了多少元
語言與語義
玉米抽穗前倒伏怎么辦?怎么減少損失?
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
基于事件觸發(fā)的多智能體輸入飽和一致性控制
一般自由碰撞的最大動(dòng)能損失
莱西市| 本溪市| 宜君县| 福建省| 灌阳县| 巨鹿县| 湘潭县| 丰顺县| 化德县| 凌云县| 砀山县| 高州市| 盈江县| 阿鲁科尔沁旗| 辛集市| 山东省| 临澧县| 盐山县| 潞城市| 海淀区| 咸宁市| 安阳市| 响水县| 明星| 唐山市| 涿鹿县| 双柏县| 阿瓦提县| 富裕县| 同江市| 安多县| 怀化市| 四会市| 铁力市| 察哈| 阳东县| 哈密市| 齐齐哈尔市| 东莞市| 阳新县| 湟源县|