薛志杭 許喆銘 郎叢妍 馮松鶴 王 濤 李浥東
(北京交通大學(xué)計算機(jī)與信息技術(shù)學(xué)院 北京 100044)
(xzhbjtu@163.com)
近年來,基于圖像及文本的跨媒體融合研究受到了廣泛關(guān)注,如視覺問答[1]、圖像字幕生成[2]、文本生成圖像[3]等.文本生成圖像(text-to-image,TTI)作為跨媒體領(lǐng)域的一個前沿任務(wù),旨在通過一段自然語言文本生成與文本語義內(nèi)容對應(yīng)的高分辨率圖像.目前,該任務(wù)已被廣泛用于圖像編輯、視頻游戲、跨平臺多媒體檢索和計算機(jī)輔助設(shè)計等領(lǐng)域,成為當(dāng)前計算機(jī)視覺和跨媒體分析領(lǐng)域的熱門研究課題之一.其研究價值主要來源于2 個方面:1)獲取圖像的代價是昂貴的,而通過生成圖像可以減少獲取特定圖像的代價;2)圖像生成可以創(chuàng)造一些新穎的圖像,而有些圖像在現(xiàn)實生活中是無法獲得的,如梵高風(fēng)格的繪畫作品.
在文本生成圖像任務(wù)中,文本空間與圖像空間之間存在較大的語義鴻溝,如何縮小這一差異已成為文本生成圖像任務(wù)面臨的主要挑戰(zhàn).針對這一問題,近年來隨著生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)[4]的出現(xiàn)及其在各類視覺任務(wù)上的優(yōu)越表現(xiàn),基于GAN 的文本生成圖像方法[5-7]不斷涌現(xiàn)并取得了一定進(jìn)展.Xu 等人[5]提出了一種基于跨模態(tài)的注意力模型,該模型在文本編碼器內(nèi),利用跨模態(tài)的注意力機(jī)制,對文本信息與圖像信息進(jìn)行交叉注意力編碼和語義對齊.LeicaGAN 模型[6]、CPGAN模型[7]等通過在文本編碼器中加入額外的視覺信息,將提取到的文本特征與視覺特征進(jìn)行特征融合,從而縮小語義鴻溝.盡管這些方法試圖減少文本與圖像之間的跨模態(tài)差異,但是它們?nèi)匀淮嬖诓蛔?首先,在文本特征提取過程中,這些方法大多關(guān)注于文本編碼器的優(yōu)化,忽略了初始文本語義特征的局限性,使得模型在對齊圖像與文本特征時,過分依賴于初始文本編碼器的性能,忽視了具有語義一致性的生成圖像對文本信息的增強(qiáng)作用,因而導(dǎo)致文本信息表征能力下降.其次,這些方法沒有考慮生成目標(biāo)區(qū)域間的交互,影響了生成圖像質(zhì)量.常見的深度卷積神經(jīng)網(wǎng)絡(luò)模型往往對小尺寸目標(biāo)的識別定位能力不足[8],且訓(xùn)練樣本集合中通常僅包含圖像級標(biāo)注信息[9-10],缺少目標(biāo)區(qū)域級的細(xì)粒度監(jiān)督信息,不利于這些深度模型對目標(biāo)區(qū)域之間的關(guān)系進(jìn)一步挖掘,使得前景、背景分界模糊.
針對上述2 點(diǎn)不足,我們創(chuàng)新性地提出了一種基于圖像-文本語義一致性的文本生成圖像方法(text-toimage generation method based on image-text semantic consistency)ITSC-GAN,其利用不同分辨率的生成圖像信息對初始文本信息進(jìn)行增強(qiáng),并利用區(qū)域注意力機(jī)制關(guān)注圖像子區(qū)域之間的內(nèi)在關(guān)系,從而使文本與生成圖像具有更高的一致性,并且使得生成圖像中的顯著區(qū)域得到增強(qiáng).具體地,ITSC-GAN 包含2 個主要模塊,分別是圖像區(qū)域注意力模塊(image regional attention module,IRAM)和文本信息增強(qiáng)模塊(text information enhancement module,TEM).IRAM 從圖像空間角度出發(fā),首先提取圖像區(qū)域特征,之后利用自注意力機(jī)制挖掘圖像子區(qū)域之間的關(guān)系,強(qiáng)化圖像區(qū)域之間的關(guān)聯(lián),使得生成圖像中的目標(biāo)更完整,前景與目標(biāo)區(qū)域的邊界更加清晰.TEM 從文本空間角度出發(fā),利用交叉注意力模塊和生成圖像信息對初始文本信息進(jìn)一步增強(qiáng),從而提高生成圖像與文本的一致性.在IRAM 和TEM 兩個模塊的聯(lián)合作用下,ITSC-GAN 模型能夠有效挖掘圖像局部區(qū)域與文本語義標(biāo)簽的潛在對應(yīng)關(guān)系,從而進(jìn)一步提高圖像子區(qū)域與文本語義的一致性.
本文主要的貢獻(xiàn)有3 個方面:
1)提出了方法ITSC-GAN,其通過挖掘圖像區(qū)域關(guān)系并增強(qiáng)文本信息,減少圖像空間與文本空間的語義鴻溝,提升了這2 種模態(tài)間的語義一致性.
2)為實現(xiàn)ITSC-GAN 模型,本文創(chuàng)新性地提出2個模塊TEM 和IRAM.其中,TEM 通過交叉注意力機(jī)制將文本特征與圖像特征進(jìn)行語義對齊,增強(qiáng)了生成圖像與文本描述的語義一致性.IRAM 通過自注意力機(jī)制學(xué)習(xí)圖像子區(qū)域之間的相互關(guān)系,增強(qiáng)前景、背景的區(qū)分度,使目標(biāo)區(qū)域劃分更加精確,并且使生成圖像中的目標(biāo)更完整.
3)在CUB 數(shù)據(jù)集上進(jìn)行了對比實驗及消融實驗.與已有方法相比,本文方法ITSC-GAN 取得了更優(yōu)的性能,且所生成的圖像更加逼真.大量的實驗結(jié)果驗證了本文方法的優(yōu)越性.
2016 年,GAN-INT-CLS 模型[3]將GAN 應(yīng)用于文本生成圖像任務(wù)中,引起了基于GAN 的文本生成圖像方法的研究熱潮.目前已有大量的文本生成圖像方法,其中包括經(jīng)典的多級對抗生成網(wǎng)絡(luò)結(jié)構(gòu)[11-12]、鏡像方法[13]、動態(tài)記憶力方法[14]、注意力方法[5]等.StackGAN 模型[11]和StackGAN++模型[12]提出了多級GAN 結(jié)構(gòu),有效降低生成高分辨率圖像的難度,但其忽略了生成圖像與文本的語義一致性,導(dǎo)致生成圖像質(zhì)量較差.Qiao 等人[13]通過CycleGAN 模型[15]與AugCycleGAN 模型[16]的啟發(fā),提出了 MirrorGAN 模型[13],將鏡像方法引入文本生成圖像中.DM-GAN 模型[14]為了解決最終生成圖像質(zhì)量受最低分辨率生成圖像的影響,將動態(tài)記憶方法引入到文本生成圖像任務(wù)中.AttnGAN 模型[5]將注意力機(jī)制引入到文本生成圖像任務(wù)中.該方法在文本編碼器中,將文字信息和圖像信息進(jìn)行交叉注意力編碼以及語義對齊,并在生成圖像的過程中,采用交叉注意力方法,利用文本特征與圖像特征的注意力權(quán)重信息,將文本特征動態(tài)地轉(zhuǎn)化成圖像特征,從而改善生成圖像的質(zhì)量.后續(xù)許多方法,如MirrorGAN模型[13]、DM-GAN 模型[14]、SegAttnGAN 模型[17]等均利用文本編碼器來進(jìn)行語義對齊.然而,這類模型都存在一個缺陷,即過于依賴預(yù)訓(xùn)練中的文本編碼器性能.雖然在某種程度上,文字編碼器能夠彌補(bǔ)文本和圖像之間的語義鴻溝,但是仍有可能出現(xiàn)語義不對齊的情況,進(jìn)而使得后續(xù)過程中,文本特征向圖像特征的動態(tài)轉(zhuǎn)換也存在一定的局限性.
近年來,將Transformer 模型[18-23]應(yīng)用到跨模態(tài)任務(wù)中成為研究熱門.這些工作利用自注意力方法與跨模態(tài)的交叉注意力方法,實現(xiàn)模型的性能提升.VisualBERT[19],VL-BERT[20],ViLBERT[21]旨在構(gòu)建輸入的文本信息與輸入圖像中的子區(qū)域的內(nèi)在關(guān)系,并進(jìn)行語義對齊,這些模型在視覺問答、視覺推理的任務(wù)中都有良好的表現(xiàn).Unicoder-VL[22]通過構(gòu)建一個預(yù)訓(xùn)練的通用編碼器,學(xué)習(xí)視覺和語言的聯(lián)合表示方法,在視覺和語言的跨模態(tài)任務(wù)中都有顯著效果.Wang 等人[23]提出的跨模態(tài)自適應(yīng)消息傳遞可以自適應(yīng)地控制消息跨模態(tài)傳遞的信息流,在圖像檢索任務(wù)中有不錯的表現(xiàn).
自注意力與交叉注意力在文本生成圖像任務(wù)中也有很好的應(yīng)用,如XMC-GAN 模型[24]使用跨模態(tài)交叉注意力模塊作為文本編碼器,將文本特征與圖像特征進(jìn)行翻譯和對齊.Naveen 等人[25]在AttnGAN模型[5]的基礎(chǔ)上,利用BERT[26],GPT2[27]等不同的模型作為文本編碼器,來解決從文本描述中提取語義信息的困難.然而這些模型在使用自注意力與交叉注意力方法時,雖然考慮了文本描述中單詞的相互關(guān)系以及文本描述與圖像之間的跨模態(tài)關(guān)系,但是忽略了圖像子區(qū)域之間的相互關(guān)系,不利于捕獲圖像和文本信息的映射關(guān)系.
圖1 展示了ITSC-GAN 模型的整體結(jié)構(gòu).給定一個文本描述T=(Tl|l=0,1,…,L-1),ITSC-GAN 模型的目的是輸出生成圖像X={xi|i=0,1,2},其中L代表文本描述的單詞數(shù)量,i對應(yīng)不同分辨率的生成階段.模型由文本編碼器、圖像編碼器和3 級GAN 構(gòu)成.其中,3 級GAN 包含生成模塊 Fi(·)與本文提出的圖像區(qū)域注意力模塊和文本信息增強(qiáng)模塊.文本描述T經(jīng)由文本編碼器,提取全局句子特征向量s和單詞特征矩陣W.之后將特征向量s與隨機(jī)噪聲z拼接后,輸入到3 級GAN 中,經(jīng)由生成模塊得到圖像特征hi,再經(jīng)由圖像區(qū)域注意力模塊得到圖像區(qū)域特征fi,該模塊建立圖像子區(qū)域之間的聯(lián)系.然后將區(qū)域特征fi與初始單詞特征矩陣W傳入文本信息增強(qiáng)模塊,該模塊將文本特征與圖像特征進(jìn)行語義對齊,并實現(xiàn)特征融合,得到圖像特征.之后通過生成模塊 Fi+1(·)得到圖像特征hi+1.然后將得到圖像特征H={hi|i=0,1,2},分別傳入對應(yīng)的生成器Gi(i=0,1,2)中,得到生成圖像xi(i=0,1,2).最后將生成圖像與全局句子特征向量s分別傳入到判別器Di中,判別生成圖像的真假以及生成圖像和文本描述是否語義一致.
Fig.1 The architecture of ITSC-GAN圖1 ITSC-GAN 的框架圖
1)文本編碼器.如圖1 所示,給定文本T,文本編碼器將輸出全局句子特征向量s和單詞特征矩陣W.本文采用長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)作為文本編碼器.此過程形式化地表現(xiàn)為
其中W=(wl|l=0,1,…,L-1)∈RD×L,wl是第l個單詞的特征向量,對應(yīng)第l個隱藏層輸出,而s∈RD是最后一個隱藏層的輸出,式 FLSTM(·) 為長短時記憶網(wǎng)絡(luò),D為wl和s的向量維度.
本文還采用了條件增強(qiáng)模塊[11],由于數(shù)據(jù)集中存在文本圖像對稀少的問題,通過該模塊對文本句子特征進(jìn)行重采樣,增加隨機(jī)性,增強(qiáng)模型的魯棒性,增強(qiáng)公式為
其中sca∈RD′,D′是經(jīng)過條件增強(qiáng)后的向量維度.
2)圖像編碼器.圖像編碼器旨在從圖像中提取特征.本文的圖像編碼器采用Inception-v3 模型[28],該編碼器在ImageNet[29]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練.
其中Iimg為輸入圖像,fc∈RD×N為圖像提取到的圖像特征,由模型的中間層得到.fv∈RD為圖像全局特征,由模型最后一層得到.
如圖1 所示,將在得到全局句子特征向量sca和單詞特征矩陣W后,送入GAN.GAN 中含有3 個生成器G0,G1,G2,分別生成64×64×3,128×128×3,256×256×3 分辨率的圖像.3 個生成器的輸入分別為隱向量h0,h1,h2.將GAN 公式化后為:
其中z表示服從標(biāo)準(zhǔn)高斯分布的隨機(jī)噪聲,式為第i階段的圖像區(qū)域注意力模塊,式為第i階段的文本信息增強(qiáng)模塊,式 Fi(·) 是第i階段的生成模塊,xi表示生成圖像.
2.3.1 圖像區(qū)域注意力模塊(IRAM)
IRAM 旨在構(gòu)建生成圖像子區(qū)域間的聯(lián)系,使得生成目標(biāo)更具完整性,前景、背景邊界更加清晰.如圖2(a)所示,本文設(shè)計的IRAM 主要由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和自注意力模塊(self-attention module,SAM)所構(gòu)成.SAM 結(jié)構(gòu)如圖2(b)所示,由Transformer[18]中的多頭注意力和前饋網(wǎng)絡(luò)構(gòu)成.圖像特征hi經(jīng)過CNN 得到區(qū)域特征fi,之后通過3 個線性層分別映射到相應(yīng)的特征空間得到Qs,Ks,Vs,并利用Qs,Ks,Vs完成對區(qū)域特征fi的自注意力,得到區(qū)域特征.這一過程的具體公式有:
其中WQ,WK和WV均為權(quán)重矩陣,λs為自定義參數(shù),F(xiàn)CNN(·)為卷積神經(jīng)網(wǎng)絡(luò).
2.3.2 文本信息增強(qiáng)模塊(TEM)
TEM 旨在利用生成圖像增強(qiáng)文本特征的表征能力,進(jìn)而增強(qiáng)生成圖像與文本描述的語義一致性.如圖2(a)所示,本文設(shè)計的TEM 主要由交叉注意力模塊(cross-attention module,CAM)與交叉注意力層(crossattention layer,CAL)構(gòu)成.其中CAM 的結(jié)構(gòu)如圖2(c)所示,其包含2 個連續(xù)的多頭注意力,且子層是并行解碼多個對象.TEM 的輸入為單詞特征矩陣W.與SAM 一致,在CAM 的第1 個多頭注意力中,通過線性層得到,,,并實現(xiàn)對W的自注意力.在第2個多頭注意力中,將該層得到的與SAM 中得到的Ks,Vs進(jìn)行注意力權(quán)重計算,得到注意力權(quán)重矩陣M,并實現(xiàn)文本特征與圖像特征的交叉注意力,得到單詞特征矩陣=(|l=0,1,…,L-1)∈RD×L.上述過程用公式表示為:
之后,得到的權(quán)重矩陣M和特征矩陣作為輸入傳入CAL 中,其結(jié)構(gòu)如圖2(d)所示.CAL 中的計算公式為:
其中 αj,i的含義是第i個單詞與第j個圖像子區(qū)域的相似度.最終可得到=(c0,c1,…,cN-1)∈RD×N,實現(xiàn)由文本特征到圖像特征的動態(tài)表示.
ITSC-GAN 模型的損失函數(shù)由生成器和判別器的損失函數(shù)構(gòu)成.生成器的損失函數(shù)LG定義為
其中Gi表示第i個生成器.式(16)中等號右側(cè)的第1項為生成損失函數(shù)LGi,第2 項為條件增強(qiáng)損失函數(shù)Lca[11],第3 項為DAMSM 損失函數(shù)[5].其中 λ1和 λ2是條件增強(qiáng)損失和DAMSM 損失的相應(yīng)權(quán)重.生成損失函數(shù)LGi展開為
其中Di代表第i個判別器,等號右側(cè)括號內(nèi)的第1 項為非條件損失函數(shù),其功能是使生成圖像效果更逼真,第2 項為條件損失函數(shù),其功能是使生成圖像和文本描述語義一致.條件增強(qiáng)損失函數(shù)Lca展開為
其中DKL(·) 為計算KL 散度公式,μ(·) 與 Σ(·)分別是求均值與方差公式.Lca的功能是增強(qiáng)訓(xùn)練數(shù)據(jù),避免模型過擬合.對于DAMSM 損失函數(shù)[5],其功能是通過預(yù)訓(xùn)練的文本編碼器和圖像編碼器,衡量圖片與文本的匹配程度,使文本與對應(yīng)的圖像具有語義一致性.
判別器的損失函數(shù)LDtotal為
其中LDi為非條件損失函數(shù),用于判別輸入圖像的真假;LCDi為條件損失函數(shù),用于判別輸入的圖像和文本描述是否語義一致.LDi與LCDi展開式為:
在實驗中,我們將AttnGAN 模型[5]作為基礎(chǔ)模型.文本編碼器采用Bi-LSTM 構(gòu)建文本特征,單詞特征維度為256,語句長度為18.圖像編碼器采用Inceptionv3 網(wǎng)絡(luò),全局圖像特征維度為2 048,局部圖像特征維度為768.設(shè)置式(16)中參數(shù)λ1=1,λ2=5,SAM 和CAM模塊的子層數(shù)m=1,多頭注意力數(shù)n=8.本文使用Adam優(yōu)化器迭代訓(xùn)練整個網(wǎng)絡(luò),批處理(batch size)大小為33,初始學(xué)習(xí)率(initial learning rate)為0.000 2,網(wǎng)絡(luò)迭代訓(xùn)練次數(shù)為600.
為了驗證本文所提方法的有效性,本文在單目標(biāo)數(shù)據(jù)集CUB[9]以及更復(fù)雜的多目標(biāo)數(shù)據(jù)集COCO[10]上進(jìn)行訓(xùn)練和測試.CUB 數(shù)據(jù)集包含200 種鳥類圖像共11 788 張.其中,訓(xùn)練集含有8 855 張圖像,測試集含有2 933 張圖像,每一張圖像對應(yīng)10 句文本描述.由于CUB 數(shù)據(jù)集中80%的鳥類的目標(biāo)部分僅占整體圖像的50%左右[9],背景干擾較大,因此本文首先對圖像進(jìn)行了裁剪等預(yù)處理操作,以確保目標(biāo)部分占圖像的75%,突出前景目標(biāo).COCO 數(shù)據(jù)集包含多個目標(biāo)和復(fù)雜背景的圖像.其中,訓(xùn)練集含有82 783 張圖像,測試集含有40 470 張圖像,每一張圖像對應(yīng)5 句本文描述.
本文采用了初始分?jǐn)?shù)[30](inception score,IS)、Fréchet 初始距離[31](Fréchet inception distance,FID)和R-precision[5]作為評價指標(biāo),定性地評價ITSC-GAN模型的生成效果.其中IS的計算公式為
其中x為生成樣本,y為圖像編碼器模型所預(yù)測的標(biāo)簽.p(y|x)和p(y)分別是標(biāo)簽y的后驗概率和邊緣概率,Ex(·)是求期望運(yùn)算,exp(·)為指數(shù)運(yùn)算.IS分?jǐn)?shù)越高,證明生成圖像的質(zhì)量越高且更具有多樣性.
FID主要用于計算2 個多維變量分布之間的距離,本文通過預(yù)訓(xùn)練的圖像編碼器模型,提取生成圖像和真實圖像的特征,并計算FID分?jǐn)?shù):
其中 μx,μx′分別是真實圖像與生成圖像的均值,Σx,Σx′則分別是真實圖像和生成圖像的協(xié)方差矩陣,tr(·)為矩陣求跡運(yùn)算.FID越低,表示生成圖像和真實圖像的特征距離越近,所產(chǎn)生的生成圖像質(zhì)量越接近真實圖像的質(zhì)量,即生成圖像的質(zhì)量更高.
由于IS和FID評分并不能衡量生成圖像是否良好地依賴于文本描述,所以本文采用了R-precision作為評價指標(biāo),其用于衡量生成圖像與文本的一致性.R-precision是在檢索上常用的指標(biāo),本文利用生成圖像檢索相對應(yīng)的文本描述.具體地,首先計算1 個全局圖像特征和100 個候選句子向量之間的余弦距離D.設(shè)候選句子向量中包含了R個匹配文本與100-R個隨機(jī)選擇的不匹配文本.在每次檢索中,對于相似度前R個文本描述中,若有r個文本描述與生成圖像相匹配,則R-precision=r/R.在實驗中,我們將設(shè)置R=1.另外,我們將生成圖像分成10 份進(jìn)行檢索,最后取結(jié)果的平均值和標(biāo)準(zhǔn)差.
3.3.1 定量分析
表1 列出了ITSC-GAN 模型與當(dāng)前主流方法在CUB 數(shù)據(jù)集的性能對比結(jié)果.由表1 結(jié)果可以看到,ITSC-GAN 模型的表現(xiàn)最優(yōu).在IS評分的表現(xiàn)上,與AttnGAN 模型[5]相比,ITSC-GAN 模型有明顯的提升,IS評分從4.31 增長到4.63,提升了約7.42%.與MirrorGAN模型[13]相比,ITSC-GAN 模型在IS評分上也提升了1.5%左右.這充分說明ITSC-GAN 模型在生成圖像的質(zhì)量與多樣性上性能更好,所生成圖像的清晰度更優(yōu).在FID評分的表現(xiàn)上,相比AttnGAN 模型[5]獲得24.37 的FID分?jǐn)?shù),ITSC-GAN 模型的FID分?jǐn)?shù)為17.36,降低了28.76%.與MirrorGAN 模型[13]在FID的表現(xiàn)相對比,ITSC-GAN 模型所獲得的FID降低了5.34%.這說明ITSC-GAN 模型相比于其他模型,生成的圖像更加逼真,在細(xì)粒度細(xì)節(jié)上表現(xiàn)更好.
Table 1 Performance Comparison of ITSC-GAN and Mainstream Methods on CUB Dataset(mean ±std)表1 CUB 數(shù)據(jù)集上ITSC-GAN 與主流方法的性能對比(mean ± std)
在R-precision評分的表現(xiàn)上,與AttnGAN 模型[5]相比,ITSC-GAN 模型有顯著提升,R-precision評分從67.82%增長至82.77%,提升了約14.95%.與DM-GAN模型[14]和MPFGAN 模型[32]相比,ITSC-GAN 模型在R-precision評分上分別提升了約10.46%和5.28%.Rprecision性能的顯著提升充分說明ITSC-GAN 模型生成的圖像與文本描述的匹配程度更加緊密,在保持文本圖像語義一致性上表現(xiàn)更加優(yōu)異.
3.3.2 定性分析
圖3 為ITSC-GAN 與其他模型在CUB 測試集上生成圖片的對比結(jié)果.如圖3 所示,StackGAN 模型[11]與StackGAN++模型[12]所生成的圖像雖在生成圖像的紋理上表現(xiàn)較好,但是僅生成了目標(biāo)的大致輪廓,細(xì)節(jié)部分較模糊,生成效果不佳.AttnGAN 模型[5]、MirrorGAN 模型[13]與DM-GAN 模型[14]生成的圖像中,雖然輪廓清晰,提升了紋理細(xì)節(jié),但背景與目標(biāo)邊界不夠清晰,且存在“多頭鳥”與“多腳鳥”等目標(biāo)不完整的問題(如圖3 的AttnGAN 行的第3 列、MirrorGAN行的第7 列與DM-GAN 行的第9 列所示).同時,這些方法的生成圖像與文本描述在細(xì)節(jié)上沒有保持良好的語義一致性,即生成的目標(biāo)與文本描述不一致(如圖3 的AttnGAN 行的第7 列、MirrorGAN 行的第12 列與DM-GAN 行的第13 列所示).而相比之下,ITSC-GAN 模型生成的圖像輪廓更加清晰,在細(xì)節(jié)紋理上表現(xiàn)更好,生成目標(biāo)更加完整,前景與背景的邊界更加明確.在細(xì)節(jié)上,生成圖像與文本描述具有良好的語義一致性.上述與主流方法的生成圖像對比示例體現(xiàn)了本文所提方法的優(yōu)越性.
Fig.3 Results comparison of ITSC-GAN and the baseline models on CUB test set圖3 ITSC-GAN 與基線模型在CUB 測試集上的結(jié)果比較
3.4.1 消融實驗
為了驗證本文方法中各個模塊的有效性,本文在AttnGAN 模型[5]的基礎(chǔ)上,依次增加IRAM 與TEM,并在CUB 數(shù)據(jù)集上構(gòu)建消融實驗,其結(jié)果如表2 所示.與AttnGAN 基礎(chǔ)模型相比,加入IRAM 的模型在IS評分中獲得了3%左右的提升,這說明挖掘圖像子區(qū)域之間的關(guān)系有助于生成圖像質(zhì)量的提高.另外,相比于基礎(chǔ)模型,加入TEM 的模型在R-precision評分上獲得了13.28%左右的提升,證明了TEM 有利于文本與生成圖像的語義對齊.ITSC-GAN 方法在基礎(chǔ)模型的基礎(chǔ)上同時引入IRAM 和TEM,在IS分?jǐn)?shù)與Rprecision評分上均取得了最佳表現(xiàn).這說明IRAM 通過在視覺空間對圖像特征添加區(qū)域注意力機(jī)制,增強(qiáng)了圖像特征的表征能力.該圖像特征作為TEM 的輸入,進(jìn)一步增強(qiáng)文本特征,提升了文本與圖像的語義一致性.
Table 2 Ablation Experiments on CUB Dataset(mean ±std)表2 CUB 數(shù)據(jù)集上的消融實驗(mean ± std)
為了更進(jìn)一步分析模塊的作用,本文對不同模塊的生成圖像進(jìn)行了可視化對比,如圖4 所示.相比于基礎(chǔ)模型,加入IRAM 的模型所生成的圖像在前景、背景分界部分更為明晰.而加入TEM 的模型所生成的圖像,雖然在輪廓邊緣上較為模糊,但與文本信息保持了更好的語義一致性.上述定性和定量的分析結(jié)果均證明了本文所提出的IRAM 模塊與TEM 模塊的有效性.
Fig.4 Comparison of generated images from different modules圖4 不同模塊的生成圖像比較
3.4.2 模塊子層數(shù)的影響
表3 展示了在CUB 數(shù)據(jù)集上SAM 和CAM 子層數(shù)m對模型性能的影響.根據(jù)表3 的實驗結(jié)果可以發(fā)現(xiàn),當(dāng)子層數(shù)m=1 時,IS分?jǐn)?shù)最高,模型性能最好;而當(dāng)子層數(shù)m>1 時,IS評分與R-precision評分呈現(xiàn)斷崖式下降.
Table 3 Comparison of IS and R-precision for Different Module Layers m(mean ± std)表3 不同模塊層數(shù) m 的IS 和R-precision 對比(mean ±std)
如圖5 為不同m取值下的生成圖像結(jié)果.可以看到,隨著層數(shù)m的提升,前景與背景的區(qū)分度越來越差,如圖5 最后一行第2 列的圖像中,鳥的尾部與背景邊界模糊.同時也逐漸出現(xiàn)文本描述與生成圖像語義不一致的問題,如隨著m的增大,生成圖像中對于單詞“red”的表現(xiàn)越來越差.圖5 表明,過大的子層數(shù)m不利于生成高質(zhì)量圖像.
Fig.5 Impact of module sublayer m on the generated images圖5 不同模塊子層數(shù)m 對生成圖像的影響
3.4.3 不同數(shù)據(jù)集的結(jié)果展示
為了更進(jìn)一步驗證ITSC-GAN 的有效性,本文在COCO 數(shù)據(jù)集也進(jìn)行了相應(yīng)的訓(xùn)練與測試.如表4的結(jié)果展示,ITSC-GAN 模型在IS和R-precision評分上都有所提升.與基礎(chǔ)模型相比,ITSC-GAN 模型在IS評分上獲得了5.45%左右的提升,這說明ITSCGAN 模型生成的多目標(biāo)、復(fù)雜場景圖像質(zhì)量更好,清晰度更佳.另外,相比于基礎(chǔ)模型,ITSC-GAN 模型在R-precision評分上獲得了約6.50%的提升,證明了ITSC-GAN 模型所生成的圖像與文本的語義一致性更強(qiáng).
Table 4 Experimental Results on COCO Dataset(mean ±std)表4 COCO 數(shù)據(jù)集上的實驗結(jié)果(mean ± std)
如圖6 展示了基礎(chǔ)模型與ITSC-GAN 模型的生成圖像效果對比.基礎(chǔ)模型生成的圖像存在多目標(biāo)邊界模糊、生成目標(biāo)不完整、與文本無法保持良好的語義一致性的問題(如圖6“基礎(chǔ)模型”第5 列所示).而ITSC-GAN 模型生成的圖像多目標(biāo)邊界更加清晰,生成目標(biāo)更加完整,在細(xì)節(jié)紋理上表現(xiàn)更好,與文本具有較好的語義一致性.
Fig.6 Presentation of results from COCO dataset圖6 COCO 數(shù)據(jù)集的結(jié)果展示
本文提出了一種基于圖像-文本語義一致性的文本生成圖像方法ITSC-GAN.我們創(chuàng)新性地提出了圖像區(qū)域注意力模塊(IRAM)與文本信息增強(qiáng)模塊(TEM).其中,前者構(gòu)建圖像區(qū)域之間的聯(lián)系,后者實現(xiàn)視覺與語言跨模態(tài)的語義對齊,增強(qiáng)了生成圖像的質(zhì)量和文本與圖像語義的一致性.在公開的文本生成圖像數(shù)據(jù)集CUB 上,大量的對比及消融實驗結(jié)果驗證了ITSC-GAN 方法的有效性和優(yōu)越性.然而所設(shè)計的TEM 仍有進(jìn)步的空間,在后續(xù)的工作中會對其更進(jìn)一步改進(jìn),例如:1)增強(qiáng)文本編碼器,得到表征能力更強(qiáng)的文本特征;2)將增強(qiáng)后的文本信息與未增強(qiáng)的文本信息進(jìn)行自適應(yīng)地結(jié)合,從而進(jìn)一步增強(qiáng)文本特征的表征能力.
作者貢獻(xiàn)聲明:薛志杭提出論文想法,負(fù)責(zé)文獻(xiàn)調(diào)研、實驗設(shè)計與分析以及論文的撰寫與修改;許喆銘負(fù)責(zé)文獻(xiàn)調(diào)研,參與論文想法的討論,撰寫并修改論文摘要、引言;郎叢妍負(fù)責(zé)整體指導(dǎo),參與論文想法的討論,梳理論文邏輯,撰寫并修改論文摘要與前言;馮松鶴、王濤、李浥東對論文的結(jié)構(gòu)和內(nèi)容提供指導(dǎo)意見,確定了論文的研究思路.