王 威,李玉潔,郭富林,劉 巖,何俊霖
1.桂林電子科技大學(xué) 人工智能學(xué)院,廣西 桂林 541000
2.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,鄭州 450002
計(jì)算機(jī)視覺(jué)(computer vision,CV)賦予人工智能感知周圍信息的能力,其發(fā)展進(jìn)一步拓展了人工智能感知精度和廣度[1]?,F(xiàn)如今深度學(xué)習(xí)算法不斷改進(jìn)和突破,憑借著其“端到端”地提取高維度特征的特點(diǎn),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中得到了大規(guī)模的應(yīng)用(如圖像分類、目標(biāo)檢測(cè)等),并且在各大圖像類比賽中準(zhǔn)確率和魯棒性有所提升,超越了一般的傳統(tǒng)算法。文本圖像合成是計(jì)算機(jī)視覺(jué)的重要課題,它提取出語(yǔ)言和視覺(jué)之間的內(nèi)在聯(lián)系,并將文本描述翻譯成文本語(yǔ)義相似的圖像。文本圖像合成正廣泛的應(yīng)用于視頻游戲,圖像編輯,圖像藝術(shù)生成等方面。
作為深度學(xué)習(xí)的主要網(wǎng)絡(luò)模型之一,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)于2014 年 由Goodfellow等人[2]首次提出。隨后,GAN及其衍生網(wǎng)絡(luò)成為了CV領(lǐng)域近幾年來(lái)最火熱的方向之一[3]。GAN在圖像合成領(lǐng)域已經(jīng)引起了較多的關(guān)注和研究[4]。與傳統(tǒng)的生成式網(wǎng)絡(luò)不同,傳統(tǒng)的生成式網(wǎng)絡(luò)只有生成器,無(wú)法僅從有限的訓(xùn)練集中生成逼真的數(shù)據(jù)。而GAN包含了生成器和判別器,生成器生成虛假的數(shù)據(jù),而判別器負(fù)責(zé)辨別數(shù)據(jù)真?zhèn)?,通過(guò)兩者的博弈使最終生成的數(shù)據(jù)以假亂真[5]。這種方法已經(jīng)有了廣泛的應(yīng)用[6-7],例如:數(shù)據(jù)增強(qiáng)[8-9]、圖像風(fēng)格遷移[10-11]、圖像超分辨率[12-13]、文本圖像生成等。
GAN中的對(duì)抗學(xué)習(xí)思想與深度學(xué)習(xí)中的其他研究方向逐漸相互滲透,以至于誕生了很多新的研究方向和應(yīng)用。特別是GAN在圖像生成方面的能力超越了其他方法,使得近幾年文本圖像合成成為一個(gè)極其活躍的研究領(lǐng)域。作為一個(gè)直觀的條件圖像生成方法,基于GAN的方法使得文本圖像合成的圖像質(zhì)量、多樣性、語(yǔ)義一致性、視覺(jué)真實(shí)性獲得突破性進(jìn)展。本文主要介紹GAN 在文本合成圖像任務(wù)[14]中的應(yīng)用。該任務(wù)與單一的圖像任務(wù)(如圖像分類[15]、圖像分割[16])不同,它實(shí)現(xiàn)了在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理[17]兩個(gè)領(lǐng)域進(jìn)行跨模態(tài)研究,建立了從文本到圖像的聯(lián)系。文本合成圖像的主要流程是自然語(yǔ)言模型將文本轉(zhuǎn)換成語(yǔ)義向量,再利用圖像模型生成語(yǔ)義一致性的高質(zhì)量圖像。文本合成圖像領(lǐng)域主要模型包括自回歸模型(ARM)[18]、變分自編碼器模型(VAE)[19-20]以及基于GAN 的模型[21]。如今基于GAN的模型逐漸成為主流。受到條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN,CGAN)的啟發(fā),GAN-INT-CLS 模型[22]和TAC-GAN 模型[23]的提出開(kāi)始了GAN 在文本圖像合成領(lǐng)域的發(fā)展,但兩者合成圖像的分辨率有限,只能達(dá)到64×64和128×128,很多細(xì)節(jié)無(wú)法生成,效果令人不滿意。隨后多階段(多組生成器、鑒別器分開(kāi)訓(xùn)練,前一階段的輸出作為后一階段的輸入)的StackGAN[24]、StackGAN++[25],引入注意力機(jī)制的AttnGAN[26]模型、逐段嵌套(使用單流的生成器同時(shí)帶有多個(gè)級(jí)聯(lián)的鑒別器)的HDGAN[27]模型,采用對(duì)比學(xué)習(xí)的XMC-GAN[28]等都隨之出現(xiàn),改善了圖像合成的質(zhì)量和語(yǔ)義一致性較差的問(wèn)題。
隨著基于GAN的模型不斷更新,模型不僅在CUB-200 Birds[29]、Oxford-102 Flowers[30]等單一對(duì)象數(shù)據(jù)集上應(yīng)用,目前也可在復(fù)雜性數(shù)據(jù)集(如COCO數(shù)據(jù)集[31])上改進(jìn)和驗(yàn)證模型的性能,合成圖像的分辨率也達(dá)到了256×256 及更高。該領(lǐng)域使用了一系列文本到圖像合成模型質(zhì)量評(píng)估指標(biāo)(如inception score[32]、FID[33]、human rank、R-precision、visual-semantic similarity(VS)[27]等)。從合成圖像的質(zhì)量,多樣性以及圖像,文本間的匹配程度進(jìn)行綜合評(píng)估。
本文總結(jié)和強(qiáng)調(diào)了基于GAN的文本圖像合成領(lǐng)域的發(fā)展現(xiàn)狀及發(fā)展歷程。通過(guò)對(duì)文本編碼器,文本直接合成圖像,文本引導(dǎo)圖像合成等多維度多模型的對(duì)比和分析,全面總結(jié)和分析了模型的特點(diǎn),客觀地提出該領(lǐng)域目前研究的不足以及未來(lái)可能的發(fā)展方向。
GAN(如圖1)是由兩個(gè)深度神經(jīng)網(wǎng)絡(luò)所構(gòu)成的非監(jiān)督式架構(gòu),包含一個(gè)生成器和一個(gè)判別器,兩者獨(dú)自訓(xùn)練。其中生成器中輸入隨機(jī)噪聲向量,從而產(chǎn)生圖像,通過(guò)優(yōu)化損失函數(shù)使得生成圖像的分布不斷接近真實(shí)圖像分布,來(lái)達(dá)到欺騙判別器的目的。判別器對(duì)真實(shí)圖像和生成圖像進(jìn)行判別,來(lái)提高判別器的分辨能力。整個(gè)訓(xùn)練過(guò)程都是兩者不斷的進(jìn)行相互博弈和優(yōu)化。其目標(biāo)函數(shù)如式(1):
圖1 GAN框架Fig.1 GAN framework
式中D表示判別器,G表示生成器,Ex表示下標(biāo)分布的期望值,Pz表示生成圖像的分布,Px表示真實(shí)圖像分布,G( )z生成的圖像,z表示隨機(jī)噪聲向量,x表示真實(shí)圖像向量。
文字和圖像是人們感受世界的兩大重要途徑,如何將這兩個(gè)模態(tài)相關(guān)聯(lián)是目前兩個(gè)領(lǐng)域的重要研究課題。圖像中可提取豐富且復(fù)雜的文本語(yǔ)義特征,而直接利用文本來(lái)合成圖像卻極其復(fù)雜[34],GAN的出現(xiàn)提供了一種無(wú)監(jiān)督模型[35]來(lái)生成圖像的方式。通過(guò)提取文本中的重要屬性(如空間、事物關(guān)系、事物狀態(tài)等),再用GAN 中的生成器和鑒別器互相博弈的狀態(tài),將屬性嵌入圖像變得有所可能。因此,近年來(lái)的GAN 的多個(gè)變種(如圖2)[36-38]在文本圖像合成領(lǐng)域有著較好的應(yīng)用和持續(xù)的研究。2014年,Goodfellow等人[2]和Mirza等人[39]接連提出GAN 和CGAN 為文本圖像合成領(lǐng)域提供了一個(gè)嶄新的方向。在文本圖像合成領(lǐng)域發(fā)展前期,為提高生成圖像的質(zhì)量和多樣性,Reed 等人[22]于2016 年提出GAN-INT-CLS 模型,Dash 等人[23]于2017 年提出TAC-GAN,Zhang等人[24-25]分別在2017年和2018年提出StackGAN與StackGAN++模型,Zhang等人[27]于2018年提出HDGAN,采用單階段到多階段的網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)變,通過(guò)級(jí)聯(lián)的網(wǎng)絡(luò)增強(qiáng)圖像生成的質(zhì)量、分辨率、多樣性等,同時(shí)提高訓(xùn)練的穩(wěn)定性。隨后,生成圖像的細(xì)粒度特征和文本的語(yǔ)義一致性成為了需要解決的問(wèn)題。Xu等人[26]于2018 年在多階段的架構(gòu)上引入注意力機(jī)制,提出AttnGAN關(guān)注文本的每一個(gè)單詞信息以此實(shí)現(xiàn)文本與圖像的視覺(jué)對(duì)齊,隨后Tan 等人[40]于2019 年提出SEGAN,Li 等人[41]于2020 年提出ControlGAN,都重點(diǎn)關(guān)注注意力機(jī)制的嵌入應(yīng)用。2019年,Zhu等人[42]提出DM-GAN,Qiao 等人[43]提出MirrorGAN,分別采用記憶網(wǎng)絡(luò)和循環(huán)一致的方法實(shí)現(xiàn)文本圖像合成。2019年,基于場(chǎng)景對(duì)象布局的中間階段過(guò)渡方法開(kāi)始興起,Li 等人[44]提出了基于物體對(duì)象的Obj-GAN,Sylvain等人[45]和Hinz 等人[46]于2020 年分別提出了OC-GAN 和OP-GAN等,利用背景圖和對(duì)象布局加強(qiáng)了生成圖像的語(yǔ)義一致性和視覺(jué)逼真性。2020年,Li等人[47-48]接連提出ManiGAN和輕量級(jí)lightweight GAN,為文本引導(dǎo)圖像生成(文本圖像合成的分支領(lǐng)域)提供了有效的方法。在2021年和2022年,文獻(xiàn)[49-51]基于StyleGAN分別提出了TediGAN和TiGAN,促進(jìn)了文本引導(dǎo)圖像生成領(lǐng)域的快速發(fā)展。2019 年,Yin 等人[52]提出的SD-GAN 使用了對(duì)比損失,隨后,對(duì)比學(xué)習(xí)框架逐漸應(yīng)用于文本圖像合成領(lǐng)域。2021 年,Ye 等人[53]提出現(xiàn)有模型加入對(duì)比學(xué)習(xí)框架,Zhang等人[28]提出XMC-GAN,對(duì)比學(xué)習(xí)在文本圖像生成領(lǐng)域的應(yīng)用極為有效。Zhu 等人[54]于2020 年提出的因果關(guān)系導(dǎo)向的CookGAN 也是一種有效且創(chuàng)新的方法。如今,對(duì)比學(xué)習(xí)、因果關(guān)系、場(chǎng)景布局、注意力機(jī)制等先進(jìn)的創(chuàng)新方法,都促進(jìn)著文本圖像生成領(lǐng)域的蓬勃發(fā)展。
圖2 文本圖像合成領(lǐng)域的代表性工作Fig.2 Representative work in field of text-to-image synthesis
利用GAN 來(lái)進(jìn)行文本圖像合成主要是受到Mirza等人[39]提出的CGAN(如圖3)所啟發(fā)。與原始GAN 相比,CGAN 在生成器和鑒別器上分別加上條件變量c,再利用GAN 的框架進(jìn)行圖像的生成,這樣訓(xùn)練生成的圖像將會(huì)滿足條件c,以此來(lái)解決生成圖像內(nèi)容的不確定性問(wèn)題[55]。
圖3 CGAN框架Fig.3 CGAN framework
將文本進(jìn)行編碼[56],提取成文本條件向量[57],再將類似于CGAN 中的條件變量c輸入到GAN 的生成器中,可達(dá)到文本控制圖像合成的目的。而為了達(dá)到文本合成圖像的目標(biāo),主要有兩個(gè)步驟:文本編碼和基于文本的圖像合成。下文將主要針對(duì)這兩個(gè)步驟的相關(guān)工作進(jìn)行總結(jié)和分析。
文本編碼主要有兩大類方法,條件增強(qiáng)(conditioning augmentation,CA)和預(yù)訓(xùn)練模型(如圖4)。條件增強(qiáng)技術(shù)在文本提取中增加了額外采樣的隱向量,增強(qiáng)了條件流形的魯棒性以及生成圖像的多樣性。預(yù)訓(xùn)練模型加強(qiáng)了文本中的時(shí)間結(jié)構(gòu)特征,對(duì)單詞級(jí)文本進(jìn)行編碼,提高了文本描述和對(duì)應(yīng)圖像在視覺(jué)上的聯(lián)系。下文將分別對(duì)這兩種方法進(jìn)行介紹。
圖4 文本編碼Fig.4 Text encoding
2.1.1 條件增強(qiáng)
對(duì)于一般的文本描述編碼方式,都是先進(jìn)行非線性變換,再將非線性變換后的條件潛變量直接輸入到生成器里,此方式下的潛在空間[58]文字嵌入通常都在100 維以上,在數(shù)據(jù)量較少的情況下會(huì)帶來(lái)潛在空間中數(shù)據(jù)的不連續(xù)性。Zhang 等人[24]的StackGAN 中提出了一種條件增強(qiáng)技術(shù),除去原來(lái)在文字描述中提取的條件變量,在高斯分布中又隨機(jī)采樣了隱向量[59]。在訓(xùn)練過(guò)程中,提出了在生成器中加入額外的正則化項(xiàng),即標(biāo)準(zhǔn)高斯分布和條件高斯分布的Kullback-Leibler(KL)散度[60],如式(2):
通過(guò)條件增強(qiáng)技術(shù)產(chǎn)生了更多的訓(xùn)練對(duì),提升了其在條件流形[61]上的魯棒性和平滑程度。通過(guò)加入隨機(jī)性來(lái)達(dá)到生成圖像多樣性的目的。隨后,在提出的StackGAN++[25]、CookGAN[54]以及DM-GAN[42]等多個(gè)方法中都借鑒了條件增強(qiáng)技術(shù)。
2.1.2 預(yù)訓(xùn)練的RNN模型
在文本合成圖像領(lǐng)域,使用預(yù)訓(xùn)練的RNN 模型極為常見(jiàn)。使用較多的是由Reed 等人[62-63]提出的字符級(jí)卷積-遞歸神經(jīng)網(wǎng)絡(luò)(Char-CNN-RNN),將CNN 快速卷積的特點(diǎn)和RNN時(shí)序信息處理相結(jié)合,在CNN的隱藏層中堆疊遞歸網(wǎng)絡(luò),學(xué)習(xí)到字符特征,以此來(lái)對(duì)字符級(jí)的文本進(jìn)行編碼,這有利于文本中時(shí)間結(jié)構(gòu)的利用,同時(shí)編碼器得到的特征內(nèi)積可以使文本和圖像更加兼容,加大了文本描述和對(duì)應(yīng)圖像在視覺(jué)上的聯(lián)系。在Li等人[47]提出的ManiGAN中,直接使用預(yù)訓(xùn)練的RNN模型對(duì)文本中的單詞級(jí)進(jìn)行編碼,使得每一個(gè)單詞都對(duì)應(yīng)著一個(gè)特征向量。Qiao 等人[43]提出的MirrorGAN 中也用了此方法。但隨著RNN 的增長(zhǎng),用于組合不同輸入向量的預(yù)測(cè)知識(shí)的建模能力將變低,導(dǎo)致模型的效果變差;Li等人[48]后續(xù)提出的文本引導(dǎo)圖像的輕量級(jí)生成對(duì)抗網(wǎng)絡(luò)(LwGAN)中使用預(yù)訓(xùn)練的雙向RNN 模型[41]進(jìn)行單詞級(jí)編碼??梢詫?duì)時(shí)間段的過(guò)去未來(lái)所有輸入信息進(jìn)行訓(xùn)練,以此來(lái)提高模型效果。
在Xu 等人[26]的AttnGAN 中,提出了使用雙向長(zhǎng)短期記憶(Bi-LSTM)[64]來(lái)對(duì)文本進(jìn)行編碼,提取語(yǔ)義向量,利用雙向LSTM 來(lái)使每個(gè)單詞對(duì)應(yīng)兩個(gè)隱藏狀態(tài),通過(guò)連接兩個(gè)隱藏狀態(tài)來(lái)表達(dá)單詞的語(yǔ)義特征,且利用每個(gè)單詞的最后一個(gè)隱藏狀態(tài)連接從而產(chǎn)生全局句子向量,達(dá)到前后串聯(lián)的目的。為了檢驗(yàn)文本與對(duì)應(yīng)圖像的內(nèi)在關(guān)聯(lián),在訓(xùn)練過(guò)程中還創(chuàng)造性的提出深度注意多模態(tài)相似度模型(deep attentional multimodal similarity model,DAMSM)用于定量計(jì)算單詞與對(duì)應(yīng)圖像之間的相似度。后續(xù)的多個(gè)模型都沿用了此方法。
在基于文本的圖像生成中,將其分成文本直接生成圖像與文本引導(dǎo)圖像生成兩大類應(yīng)用,在文本直接生成圖像的應(yīng)用中,總結(jié)了單階段直接生成法(TAC-GAN[23]等)、堆疊架構(gòu)(StackGAN[24]等)、注意力機(jī)制法(Attn-GAN[26]等)、記憶網(wǎng)絡(luò)法(DM-GAN[42])、循環(huán)一致法(MirrorGAN[43])、對(duì)比學(xué)習(xí)法(XMC-GAN[28]等)、場(chǎng)景對(duì)象布局法(OP-GAN[46]等)以及因果關(guān)系法(CookGAN[54])八類方法。在文本引導(dǎo)圖像生成的應(yīng)用中,文章總結(jié)了仿射組合法(ManiGAN[47]等)和基于StyleGAN[49](TediGAN[50]等)兩類方法。具體的方法間區(qū)別與聯(lián)系如圖5所示。
圖5 各類方法間的聯(lián)系與區(qū)別Fig.5 Connection and difference between various methods
2.2.1 基于文本直接生成圖像
目前由給定文本直接生成圖像領(lǐng)域的模型大多是將文本描述作為條件信息,采用單階段、多階段、記憶網(wǎng)絡(luò)法、注意力機(jī)制、循環(huán)一致性、對(duì)比學(xué)習(xí)、場(chǎng)景對(duì)象布局、因果關(guān)系等方法,控制逼真圖像的生成。本文將文本直接生成圖像的方法分成單階段直接生成法、堆疊架構(gòu)、注意力機(jī)制法、記憶網(wǎng)絡(luò)法、循環(huán)一致法、對(duì)比學(xué)習(xí)法、場(chǎng)景對(duì)象布局法、因果關(guān)系法八類方法(如表1)。
表1 基于文本直接生成圖像的分類與參考Table 1 Classification and reference of directly generated images based on text
在單階段直接生成法中,Mirza等人[39]提出的CGAN可以初步的將文本信息作為條件控制圖像的生成。Reed 等人[22]于2016 年提出GAN-INT-CLS,采用單階段方式生成了分辨率64×64 的圖像,但圖像質(zhì)量較差。Dash等人[23]提出的TAC-GAN在AC-GAN[65]的基礎(chǔ)上增加了額外的損失條件,生成了分辨率128×128的具有鑒別性和多樣性的圖像。在堆疊架構(gòu)中,Zhang 等人[24]提出StackGAN,采用兩個(gè)階段的堆疊網(wǎng)絡(luò),加入條件增強(qiáng)(CA)技術(shù)進(jìn)行文本編碼,生成了分辨率256×256 的圖像。為進(jìn)一步提高生成圖像質(zhì)量和改善細(xì)節(jié),繼續(xù)提出了StackGAN++[25],采用多階段的樹(shù)狀結(jié)構(gòu),鑒別器中額外加入條件損失,來(lái)提高圖像與文本間的匹配程度,還加入顏色一致性正則化,保證生成圖像的顏色紋理差異。在注意力機(jī)制法中,Xu等人[26]提出AttnGAN,首次在網(wǎng)絡(luò)中加入注意力模塊,關(guān)注其最相關(guān)單詞,提出深度注意多模態(tài)相似模型,計(jì)算生成圖像與句子間的相似度,提供細(xì)粒度圖像-文本匹配損失。Tan等人[40]提出的語(yǔ)義增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(SEGAN)提出一個(gè)注意力競(jìng)爭(zhēng)模塊,僅保留重要單詞的注意力權(quán)重,這有利于關(guān)鍵信息的合成,提高了模型的準(zhǔn)確性。Li等人[41]提出的ControlGAN通過(guò)單詞級(jí)空間注意力和通道級(jí)注意力模塊可保留部分背景屬性并改動(dòng)文本關(guān)聯(lián)屬性。在記憶網(wǎng)絡(luò)法中Zhu 等人[42]于2019 年提出DM-GAN,采用了動(dòng)態(tài)記憶更新組件,使用動(dòng)態(tài)內(nèi)存對(duì)初始圖像細(xì)化,內(nèi)存寫入門動(dòng)態(tài)選擇匹配的單詞,響應(yīng)門融合圖像和內(nèi)存表示。進(jìn)而依據(jù)文本描述生成圖像。在循環(huán)一致法中,受CycleGAN[66]模型的啟發(fā),Qiao等人[43]提出MirrorGAN,加入全局-局部協(xié)作注意力,使用“文本-圖像-文本”的文本再生和對(duì)齊模塊,監(jiān)督生成器,保證圖像多樣性和語(yǔ)義一致性。在對(duì)比學(xué)習(xí)法中,從一開(kāi)始的Yin 等人[51]提出的SD-GAN中,使用Siamese模塊,通過(guò)將連體網(wǎng)絡(luò)參數(shù)共享,對(duì)最終的輸出計(jì)算對(duì)比損失,再加入語(yǔ)義條件批量歸一化,保證了最終圖像的多樣性。在Zhang 等人[28]提出的XMC-GAN中,在模態(tài)內(nèi)和模態(tài)間通過(guò)最大化圖像和文本的互信息,并加入注意力自調(diào)制生成器來(lái)使圖像文本一致性高。同時(shí),Ye等人[53]提出將對(duì)比學(xué)習(xí)方法應(yīng)用到現(xiàn)有的各個(gè)模型中,通過(guò)在AttnGAN[26]和DM-GAN[42]中加入對(duì)比學(xué)習(xí)方法全面提高了原模型的性能。此外基于場(chǎng)景對(duì)象布局和因果關(guān)系的方法也有著突出的貢獻(xiàn)和發(fā)展。下文將對(duì)上述的單階段直接生成法、堆疊架構(gòu)、注意力機(jī)制、記憶網(wǎng)絡(luò)法、循環(huán)一致法、對(duì)比學(xué)習(xí)法、場(chǎng)景對(duì)象布局、因果關(guān)系等方法進(jìn)行具體介紹。
2.2.1.1 單階段直接生成法
受CGAN 的啟發(fā),通過(guò)對(duì)CGAN 進(jìn)行擴(kuò)展,將原先的類標(biāo)簽用文本嵌入代替,以此來(lái)實(shí)現(xiàn)端到端的文本控制圖像生成。在GAN-INT-CLS[22]模型(如圖6(a))[4]中使用匹配感知鑒別器,將“匹配樣本的真實(shí)圖像”“對(duì)于樣本的生成圖像”“不匹配樣本的真實(shí)圖像”3種圖像作為鑒別器的輸入。使得生成器和鑒別器既能關(guān)注真實(shí)圖像又能進(jìn)行文本對(duì)齊。在AC-GAN[65](如圖6(b))[4]的基礎(chǔ)上,TAC-GAN[23](如圖6(c))[4]提出利用文本描述來(lái)代替類別標(biāo)簽,TAC-GAN將噪聲向量和文本描述的嵌入向量的組合向量輸入生成器。鑒別器中與ACGAN[65]有細(xì)微區(qū)別,TAC-GAN 同時(shí)將文本信息在分類前輸入鑒別器。這樣模型提升了多樣性和可識(shí)別性,同時(shí)更加易于擴(kuò)展。
圖6 GAN-INT-CLS、AC-GAN、TAC-GAN三者的對(duì)比Fig.6 Comparison of GAN-INT-CLS,AC-GAN and TAC-GAN
在文本生成圖像的初期,單階段直接生成法在類條件模型的基礎(chǔ)上,將類標(biāo)簽替換為文本描述的嵌入向量并將其輸入生成器和鑒別器達(dá)到監(jiān)督的目的,并利用噪聲和文本嵌入的組合向量來(lái)增加更多的輔助信息,以此提高圖像的多樣性。
對(duì)于單階段直接生成法,輔助條件信息的選擇和數(shù)據(jù)分布的學(xué)習(xí)是算法性能的主要影響因素。輔助條件越貼切文本與圖像的映射且對(duì)數(shù)據(jù)分布的模式學(xué)習(xí)越精細(xì),生成圖像的質(zhì)量將會(huì)越高,模型訓(xùn)練將會(huì)更穩(wěn)定。該方法的缺點(diǎn)總結(jié)如下:
(1)首先,這類方法的圖像分辨率較低(最高只達(dá)到128×128),生成的圖像質(zhì)量也較差,細(xì)粒度特征無(wú)法完善,對(duì)于文本信息的挖掘也較淺。(2)其次,這類方法一般學(xué)習(xí)到的僅是數(shù)據(jù)的分布,這將容易造成模型的坍塌。
2.2.1.2 堆疊架構(gòu)
生成圖像的分辨率一直都是圖像領(lǐng)域最重要的指標(biāo)之一,在StackGAN[24]之前的GAN-INT-CLS[22]只能生成64×64像素的圖像,TAC-GAN[23]只能生成128×128像素的圖像,在圖像的分辨率上遇到了巨大的困難,具體來(lái)說(shuō)就是隨著分辨率的提高,自然圖像分布和隱式模型分布在高維像素空間可能無(wú)法重疊。為了模型可以合成更高分辨率的圖像,并能保持模型的訓(xùn)練穩(wěn)定,利用多個(gè)堆疊的生成器鑒別器網(wǎng)絡(luò)可以有效的改進(jìn)這一點(diǎn)。
(1)StackGAN
StackGAN[24]的提出,進(jìn)一步提高了生成圖像的分辨率,達(dá)到了256×256像素。由于一次無(wú)法生成高分辨率圖像,Zhang 等人[24]提出將困難問(wèn)題分解成易于進(jìn)行的子問(wèn)題進(jìn)行解決,利用兩個(gè)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行堆疊來(lái)生成高分辨率圖像。
StackGAN使用級(jí)聯(lián)的GAN使生成的圖像細(xì)節(jié)化,提高了圖像的質(zhì)量。如圖6(a)所示,StackGAN 主要由Stage-I和Stage-II兩部分組成。Stage-I部分只生成低分辨率(64×64)圖像,利用多個(gè)條件變量的文本嵌入來(lái)實(shí)現(xiàn)文本描述細(xì)節(jié);生成的圖像并不過(guò)多關(guān)注于圖像細(xì)節(jié),只需要包含物體輪廓及顏色等粗略信息。相比較于之前方法采用Stage-I 部分直接利用噪聲來(lái)生成圖像,StackGAN 將Stage-I 生成的圖像直接輸入Stage-II 部分,同時(shí)輸入的還有文本中的一些被忽略的細(xì)節(jié)。重新修正了Stage-I 部分的一些錯(cuò)誤和不足,從而提高了生成圖像的分辨率(256×256)以及圖像的質(zhì)量。同時(shí),StackGAN 提出了條件增強(qiáng)技術(shù),通過(guò)將原有的條件變量和在高斯分布中產(chǎn)生的額外條件變量一起輸入到生成器中。通過(guò)在訓(xùn)練過(guò)程中加入KL散度提高了訓(xùn)練過(guò)程的穩(wěn)定性。條件增強(qiáng)技術(shù)提高了生成圖像過(guò)程的魯棒性及生成圖像的多樣性。
(2)StackGAN++
為改善生成圖像的細(xì)節(jié)以及文本和圖像間的一致性,Zhang等人[25]提出的StackGAN++是一種多階段的樹(shù)狀生成對(duì)抗網(wǎng)絡(luò)架構(gòu)。
StackGAN++中從低分辨率到高分辨率生成的圖像是由樹(shù)的不同分支產(chǎn)生的,對(duì)于每一個(gè)分支,使用生成器來(lái)捕獲該分辨率下的圖像分布,再由鑒別器分辨該尺度下的樣本真假。通過(guò)使生成的圖像與當(dāng)前尺度下的真實(shí)圖像分布更近似,交替訓(xùn)練不同分辨率下的生成器和鑒別器,使整個(gè)網(wǎng)絡(luò)訓(xùn)更好。StackGAN++提出了新形式的鑒別器,其損失函數(shù)(如式(3))所示,包括無(wú)條件損失和條件損失。無(wú)條件損失只針對(duì)生成的圖像,判定其是否為真實(shí)圖像,而條件損失針對(duì)的是圖像與文本輸入鑒別器的條件變量是否匹配,即圖像是否符合文本信息。
式中E表示下標(biāo)分布的期望值,Di表示鑒別器,Gi表示生成器,xi表示第i個(gè)真實(shí)圖像,si表示第i個(gè)假樣本輸入,pdatai表示第i個(gè)真實(shí)圖像分布,pGi表示第i個(gè)生成模型的分布,c表示輸入的條件向量。
StackGAN++提出額外的顏色一致正則化。引入顏色一致性正則化項(xiàng)來(lái)最小化不同尺度間的顏色紋理差異,使生成器在相同輸入樣本時(shí)產(chǎn)生的圖像顏色更加一致。
StackGAN++與StackGAN的定性對(duì)比(如圖7)[25]得出,StackGAN++多階段的架構(gòu)使其生成的圖像質(zhì)量更高更穩(wěn)定,更加符合文本信息,且顏色生成更加一致,優(yōu)于StackGAN的生成質(zhì)量。
圖7 由StackGAN(頂部)和StackGAN++(底部)生成的256×256圖像樣本Fig.7 256×256 image samples generated by StackGAN(top)and StackGAN++(bottom)
(3)HDGAN
典型的GAN框架[27](如圖8)包括多階段模型、一個(gè)生成器和多個(gè)鑒別器、對(duì)稱式生成器鑒別器等。為了解決從語(yǔ)義文本描述中處理圖像的難題,同時(shí)匹配多個(gè)生成器網(wǎng)絡(luò),Zhang 等人[27]提出的分層嵌套對(duì)抗網(wǎng)絡(luò)(HDGAN,如圖8(d))是一種可擴(kuò)展的單流生成器架構(gòu)。在多尺度的中間層使用分層嵌套鑒別器來(lái)提高最終生成圖像的分辨率(512×512),中間層中的不同鑒別器可以匹配不同分辨率生成器生成的圖像,更像是充當(dāng)了生成器中的正則化項(xiàng)。同時(shí)利用多用途對(duì)抗損失來(lái)完善細(xì)粒度圖像細(xì)節(jié)。此外,HDGAN提出了視覺(jué)語(yǔ)義相似性度量,用于檢測(cè)生成圖像的一致性以及邏輯的一致性。
此外,Gao等人[67]提出的PPAN采用金字塔結(jié)構(gòu),利用一個(gè)自上而下的帶有感知損失生成器和并列的三個(gè)鑒別器的結(jié)構(gòu)來(lái)生成分辨率高、語(yǔ)義一致性強(qiáng)的圖像,減少了訓(xùn)練過(guò)程中的特征損失,也體現(xiàn)了堆疊型網(wǎng)絡(luò)可以獲得高質(zhì)量、高語(yǔ)義一致性的圖像。
堆疊型網(wǎng)絡(luò)采用級(jí)聯(lián)的架構(gòu),利用初始生成的圖像再對(duì)其進(jìn)一步的完善和細(xì)化??梢哉宫F(xiàn)生成圖像的多樣性強(qiáng),分辨率高的特點(diǎn)。同時(shí)級(jí)聯(lián)的架構(gòu)可以使訓(xùn)練過(guò)程更加穩(wěn)定。
堆疊架構(gòu)中,第一階段生成圖像的質(zhì)量將影響著整個(gè)模型的最終結(jié)果,初始圖像若無(wú)法包含應(yīng)有的細(xì)節(jié)特征和對(duì)象框架等信息,將會(huì)導(dǎo)致最終圖像的細(xì)粒度特征和對(duì)象布局的信息缺失。同時(shí),堆疊結(jié)構(gòu)的層數(shù)越多,不同層間的特征信息間的重疊也會(huì)極大地影響最終圖像細(xì)節(jié)特征。該方法的缺點(diǎn)總結(jié)如下:
(1)多階段的訓(xùn)練速度較慢,同時(shí)在每個(gè)階段提取特征時(shí)都會(huì)產(chǎn)生重復(fù),因此會(huì)需要很大的計(jì)算資源。
(2)多階段的任務(wù)容易無(wú)法準(zhǔn)確識(shí)別任務(wù)重點(diǎn),造成最后生成的圖像與文本重點(diǎn)信息無(wú)法準(zhǔn)確對(duì)應(yīng)。
(3)堆疊型架構(gòu)更多的只能針對(duì)簡(jiǎn)單文本描述時(shí)有良好的生成效果,對(duì)復(fù)雜的文本和場(chǎng)景無(wú)法準(zhǔn)確生成圖像,細(xì)粒度特征也會(huì)丟失,圖像質(zhì)量也會(huì)較差。
堆疊架構(gòu)的定量比較如下:?jiǎn)坞A段的GAN-INT-CLS在COCO數(shù)據(jù)集上的IS值為7.88,而多階段的StackGAN在COCO數(shù)據(jù)集上的IS值為8.45。StackGAN比GAN-INTCLS 的IS 值提高7.23%。在堆疊架構(gòu)中,StackGAN++在CUB數(shù)據(jù)集上的IS值為4.04,F(xiàn)ID值為15.3,StackGAN的IS值為3.70,F(xiàn)ID值為51.89,StackGAN++比StackGAN的IS值提高了9.19%,F(xiàn)ID值降低了70.51%(FID值越低效果越好),性能顯著增強(qiáng)。
2.2.1.3 注意力機(jī)制法
注意力機(jī)制[71]的提出,迅速在計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理等領(lǐng)域發(fā)展起來(lái)。通過(guò)對(duì)目標(biāo)區(qū)域的重點(diǎn)關(guān)注,得到注意力焦點(diǎn),再對(duì)這一區(qū)域投入更多注意力,以獲取更多所需關(guān)注目標(biāo)的細(xì)節(jié)信息,同時(shí)抑制其他無(wú)用信息。由于注意力機(jī)制具有更好的魯棒性,擴(kuò)展性,對(duì)局部信息的捕捉能力以及更高的并行性的特點(diǎn),添加注意力機(jī)制的模型普遍效果更好,可解釋性變強(qiáng)[72-73]。Xu 等人[26]提出在文本圖像生成中加入注意力機(jī)制,即AttnGAN。
(1)AttnGAN
AttnGAN[26]由注意力驅(qū)動(dòng),級(jí)聯(lián)網(wǎng)絡(luò)細(xì)化文本到圖像的生成。AttnGAN的總體架構(gòu)是在StackGAN++[24]上進(jìn)行優(yōu)化和改進(jìn),添加了一些特殊的部件。AttnGAN的重要?jiǎng)?chuàng)新點(diǎn)之一是注意生成網(wǎng)絡(luò)。對(duì)整個(gè)文本建立全局句子向量,在第一次生成低分辨率圖像后的每一個(gè)階段,對(duì)于子區(qū)域的圖像向量,添加注意力層來(lái)查詢?cè)~向量,形成上下文向量,再將其與子區(qū)域圖像向量相結(jié)合,形成多模態(tài)上下文向量,以此來(lái)提高生成圖像的細(xì)節(jié)特征。AttnGAN 的另一個(gè)重要?jiǎng)?chuàng)新是提出了深度注意多模態(tài)相似模型(DAMSM)。通過(guò)此模塊,可以在句子級(jí)別或更細(xì)粒度的單詞級(jí)別計(jì)算生成的圖像與對(duì)應(yīng)文本間的相似度以及訓(xùn)練過(guò)程中產(chǎn)生對(duì)應(yīng)匹配損失。DAMSM 模塊的添加使得合成圖像的質(zhì)量以及文本圖像匹配度極大提高。
StackGAN、StackGAN++、AttnGAN 的模型框架對(duì)比(如圖9),三者的框架都是使用多個(gè)生成器,鑒別器級(jí)聯(lián)的網(wǎng)絡(luò)架構(gòu),StackGAN++在StackGAN的基礎(chǔ)上增加了一個(gè)階段的生成器和鑒別器,并在損失函數(shù)中增加了條件損失。AttnGAN 在此基礎(chǔ)上增加了注意力模塊和DAMSM模塊。
圖9 StackGAN、StackGAN++、AttnGAN三者的對(duì)比Fig.9 Comparison of StackGAN,StackGAN++ and AttnGAN
(2)SEGAN
由于文本描述中包含了許多不重要的單詞信息,使用全局句子加入注意力機(jī)制會(huì)產(chǎn)生模型訓(xùn)練時(shí)間長(zhǎng),穩(wěn)定性差的問(wèn)題。為解決這一問(wèn)題,Tan 等人[40]提出了語(yǔ)義增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(SEGAN)。
SEGAN提出注意力競(jìng)爭(zhēng)模塊(attention competition module,ACM),設(shè)計(jì)了特殊的注意力正則化對(duì)句子賦予自適應(yīng)注意力權(quán)重,以此來(lái)篩選出關(guān)鍵詞和非關(guān)鍵詞,將ACM 中賦予注意力權(quán)重的關(guān)鍵詞輸入進(jìn)注意力生成網(wǎng)絡(luò)(attention generation network,AGN)中,并以此來(lái)作為生成器,這樣可以突出文本中重要單詞在生成圖像時(shí)的體現(xiàn)。此外SEGAN中加入了語(yǔ)義一致性模塊(semantic consistency module,SCM),最小化生成圖像和真實(shí)圖像間的特征距離,最大化與另一個(gè)文本的真實(shí)圖像間的特征距離。并且加入了滑動(dòng)損失來(lái)平衡簡(jiǎn)單樣本和困難樣本,從而使最終生成的圖像語(yǔ)義一致性強(qiáng),關(guān)鍵詞信息準(zhǔn)確性高且生成效率高。
(3)ControlGAN
文本生成圖像模型一般是不可控的,當(dāng)改變文本中的一些單詞時(shí)會(huì)使合成的圖像與原始文本對(duì)應(yīng)的圖像有很大差別。某些屬性改變會(huì)導(dǎo)致其他的一些屬性(例如姿勢(shì)、位置等)一同發(fā)生改變。為了解決這類問(wèn)題,Li 等人[41]提出了一種可控型的文本生成圖像模型ControlGAN,ControlGAN 也為文本引導(dǎo)圖像生成領(lǐng)域提供了研究基礎(chǔ)。
ControlGAN提出了單詞級(jí)空間和通道方向注意力驅(qū)動(dòng)生成器,其中空間注意對(duì)應(yīng)于文本的顏色信息,而通道注意力將語(yǔ)義中有意義的部分和對(duì)應(yīng)的文本單詞相關(guān)聯(lián)。使用的詞級(jí)鑒別器為生成器提供細(xì)粒度的訓(xùn)練反饋,利用單詞與圖像子區(qū)域間的相關(guān)性來(lái)分解不同的視覺(jué)屬性,從而達(dá)到在改變文本所涉及屬性(例如顏色、紋理等)的同時(shí)保留其他無(wú)關(guān)屬性(例如圖像背景等),使得最終的圖像語(yǔ)義一致性強(qiáng),多樣性強(qiáng)。
注意力機(jī)制的引入對(duì)改進(jìn)語(yǔ)言和視覺(jué)體現(xiàn)產(chǎn)生了巨大的影響,它允許網(wǎng)絡(luò)更關(guān)注關(guān)鍵性的不同維度的信息同時(shí)忽略一些不重要的信息,注意力模塊可以挖掘出更多文本中單詞級(jí)的重要細(xì)粒度特征[74],同時(shí)它可以減少對(duì)其他輔助信息的需求,靈活的利用文本按照需求改變圖像的生成,使得整個(gè)模型的穩(wěn)定性強(qiáng)、效率高。
對(duì)于注意力機(jī)制法,對(duì)象的位置布局會(huì)對(duì)算法的性能產(chǎn)生影響,復(fù)雜的場(chǎng)景會(huì)使注意力難以學(xué)習(xí)對(duì)象的位置序列,或許會(huì)導(dǎo)致最終的圖像細(xì)粒度位置信息發(fā)生混亂。此外,計(jì)算資源的完備也是影響算法性能的重要因素。該方法的缺點(diǎn)總結(jié)如下:
(1)當(dāng)遇到復(fù)雜的場(chǎng)景和簡(jiǎn)短抽象的文本時(shí),模型無(wú)法保證細(xì)粒度特征維持原狀且抽象文本對(duì)應(yīng)的圖像區(qū)域的合成效果也較差。
(2)模型在面對(duì)多個(gè)類似文本時(shí)所生成的圖像質(zhì)量不佳,生成的圖像多樣性較差。
(3)大多帶有注意力機(jī)制的模型都是基于堆疊型網(wǎng)絡(luò)架構(gòu),同時(shí)注意力機(jī)制需要時(shí)刻注意上下文信息,從而導(dǎo)致模型的計(jì)算量大,占用的內(nèi)存等資源變大,模型較為繁重。
注意力機(jī)制法的定量比較如下:在堆疊架構(gòu)中加入注意力機(jī)制的AttnGAN 在COCO 數(shù)據(jù)集上的IS 值為25.89,F(xiàn)ID 值為35.49,StackGAN++在COCO 數(shù)據(jù)集上IS 值為8.30,F(xiàn)ID 值為81.59,AttnGAN 比StackGAN++的IS值提高211.93%,F(xiàn)ID值降低56.50%。注意力機(jī)制法中,在COCO 數(shù)據(jù)上SEGAN 的IS 值為27.86,F(xiàn)ID 值為32.28,比AttnGAN 的IS 值提高7.61%,F(xiàn)ID 值降低9.04%。在CUB 數(shù)據(jù)集上ControlGAN 的IS 值為4.58,AttnGAN 的IS 值為4.36,ControlGAN 比AttnGAN 的IS值提高5.05%。
2.2.1.4 記憶網(wǎng)絡(luò)法
DM-GAN:
針對(duì)文本圖像生成領(lǐng)域的快速發(fā)展,該領(lǐng)域的模型普遍存在兩個(gè)問(wèn)題:
(1)首先是圖像的生成高度依賴于初始圖像的質(zhì)量,若初始圖像的生成質(zhì)量較差,圖像的細(xì)化過(guò)程也無(wú)法產(chǎn)生高質(zhì)量的圖像。
(2)其次是目前的模型在圖像細(xì)化過(guò)程中都是用統(tǒng)一的文本來(lái)表示,而輸入文本中的每個(gè)詞對(duì)圖像內(nèi)容都有著不同程度的描述,單詞的重要性無(wú)法展現(xiàn),細(xì)化過(guò)程將變差,最終結(jié)果也不盡人意。
針對(duì)這些問(wèn)題,Zhu 等人[42]提出了DM-GAN,DMGAN包含動(dòng)態(tài)內(nèi)存機(jī)制和內(nèi)存寫入門的動(dòng)態(tài)記憶組件[75]。
DM-GAN 針對(duì)初始圖像質(zhì)量粗糙問(wèn)題,提出了動(dòng)態(tài)內(nèi)存機(jī)制[76]來(lái)細(xì)化圖像,它包含4個(gè)部分,首先是進(jìn)行內(nèi)存寫入,只考慮部分的文本信息;其次是進(jìn)行鍵尋址[77],通過(guò)鍵儲(chǔ)存器來(lái)檢索并計(jì)算內(nèi)存信息和圖像特征的相似概率;接著進(jìn)行值的讀取;最終進(jìn)行響應(yīng),即控制圖像特征的重新融合和內(nèi)存的讀取,該融合過(guò)程都是使用響應(yīng)門來(lái)進(jìn)行的,從而得到優(yōu)化后的圖像。針對(duì)細(xì)化過(guò)程的問(wèn)題,提出了使用內(nèi)存寫入門來(lái)計(jì)算每個(gè)單詞的重要性并動(dòng)態(tài)選擇與生成圖像相對(duì)應(yīng)文本的單詞,在每一次的圖像細(xì)化過(guò)程中,都是不斷地根據(jù)初始圖像及文本進(jìn)行動(dòng)態(tài)的寫入和讀取內(nèi)存信息,達(dá)到突出重點(diǎn)文本信息的目的。DM-GAN 也是在StackGAN[24],StackGAN++[25]以及AttnGAN[26]等模型基礎(chǔ)上的創(chuàng)新發(fā)展。
使用記憶網(wǎng)絡(luò)的模型可以動(dòng)態(tài)的對(duì)圖像進(jìn)行存儲(chǔ)并靈活的對(duì)圖像進(jìn)行細(xì)化,使得高質(zhì)量的圖像初步生成。通過(guò)記憶網(wǎng)絡(luò)可以類似于注意力機(jī)制一樣動(dòng)態(tài)地選擇重要的單詞信息來(lái)確保最終圖像的多樣性強(qiáng)、分辨率高。
該方法的缺點(diǎn)總結(jié)如下:
(1)模型的細(xì)化會(huì)過(guò)多依賴于初始圖像中的物體布局,當(dāng)初始的物體布局發(fā)生錯(cuò)誤時(shí),最終細(xì)化的圖像與輸入文本無(wú)法很好的對(duì)應(yīng)。
(2)在更多具有復(fù)雜場(chǎng)景的多樣化數(shù)據(jù)集中,模型的適應(yīng)能力不佳。
記憶網(wǎng)絡(luò)法的定量比較如下:使用記憶網(wǎng)絡(luò)的DMGAN 在COCO 數(shù)據(jù)集上IS 值為30.49,F(xiàn)ID 值為32.64,比AttnGAN 的IS 值提高17.77%,F(xiàn)ID 值降低8.03%。CUB數(shù)據(jù)集上DM-GAN的IS值為4.75,F(xiàn)ID值為16.09,AttnGAN 的IS 值為4.36,F(xiàn)ID 值為23.98,DM-GAN 比AttnGAN的IS值提高8.94%,F(xiàn)ID值降低32.90%。
2.2.1.5 循環(huán)一致法
MirrorGAN:
當(dāng)前的方法在保證文本描述和視覺(jué)內(nèi)容之間的語(yǔ)義一致性方面效果較差,上述的幾種方法大多在圖像的分辨率方面有著較大的突破,而Qiao等人[43]提出MirrorGAN在多樣性增強(qiáng)(相同文本對(duì)應(yīng)的含義可能不同)方面有著更好的突破。在CycleGAN[66]的啟發(fā)下,提出了一種全局和局部注意及語(yǔ)義保持一致的文本-圖像-文本的網(wǎng)絡(luò)框架。循環(huán)一致的特性可以使產(chǎn)生的附加信息供模型學(xué)習(xí)文本和圖像的語(yǔ)義一致性。MirrorGAN提出3個(gè)模塊:語(yǔ)義文本嵌入模塊(STEM)、級(jí)聯(lián)圖像生成器中的全局-局部協(xié)作模塊(GLAM)、語(yǔ)義文本再生和對(duì)齊模塊(STREAM)[78]。
STEM模塊在給定文本描述的基礎(chǔ)上,提取句子嵌入以及單詞嵌入,為適應(yīng)文本表述的多樣性,MirrorGAN沿用了條件增強(qiáng)技術(shù)來(lái)對(duì)輸入的單詞進(jìn)行數(shù)據(jù)增廣。GLAM模塊作為一個(gè)級(jí)聯(lián)的網(wǎng)絡(luò)架構(gòu),由三個(gè)生成網(wǎng)絡(luò)進(jìn)行堆疊而成。由于文本圖像的模式差異,針對(duì)Attn-GAN[26]僅對(duì)單詞部分添加注意力的機(jī)制無(wú)法確保全局語(yǔ)義一致的問(wèn)題,MirrorGAN提出了同時(shí)使用單詞注意力和全局句子注意力,將兩者進(jìn)行平衡,達(dá)到增強(qiáng)生成圖像的多樣性以及語(yǔ)義一致性。在STREAM 模塊中,通過(guò)生成的最終圖像使用CNN[79]和LSTM[80]進(jìn)行重新編碼和解碼,得到新的文本描述,與給定的文本進(jìn)行語(yǔ)義上的對(duì)比,促進(jìn)網(wǎng)絡(luò)的生成質(zhì)量。在整個(gè)框架的目標(biāo)函數(shù)上,除了常用的損失,MirrorGAN 提出了一種基于交叉熵?fù)p失(cross entropy,CE)[81]的文本語(yǔ)義重建損失,進(jìn)一步促進(jìn)生成圖像的語(yǔ)義上與給定文本進(jìn)行對(duì)齊。
除了典型的MirrorGAN 的循環(huán)網(wǎng)絡(luò)框架外,Lao等人[82]在對(duì)抗推理的方法上提出使用無(wú)監(jiān)督的方法在潛在空間中將噪聲中提取的圖像風(fēng)格和文本描述的內(nèi)容共同體現(xiàn)。利用循環(huán)一致性損失來(lái)約束包含風(fēng)格和文本的編碼器以及解碼器。Nguyen 等人[83]提出基于條件網(wǎng)絡(luò)的反饋來(lái)循環(huán)迭代的找出生成器生成圖像的潛在信息,并通過(guò)反饋使特征在圖像中表現(xiàn)的更突出。
循環(huán)一致法的應(yīng)用[84]可以更好地提取圖像的風(fēng)格樣式等信息,通過(guò)循環(huán)反饋的方式靈活地使生成圖像的風(fēng)格多變,以此來(lái)提高最終圖像的多樣性以及語(yǔ)義一致表示。
然而,循環(huán)一致法也存在一些缺點(diǎn):提取圖像風(fēng)格樣式變換時(shí),由于圖像的整體布局和風(fēng)格多變以及復(fù)雜語(yǔ)義文本的變化,最終生成圖像的風(fēng)格可能會(huì)改變,與預(yù)期不符。
循環(huán)一致法的定量比較如下:使用循環(huán)一致性的MirrorGAN在COCO數(shù)據(jù)上的IS值為26.47,比AttnGAN的IS 值提高2.24%,MirrorGAN 在CUB 數(shù)據(jù)集上的IS值為4.56,比AttnGAN的IS值提高4.59%。
2.2.1.6 對(duì)比學(xué)習(xí)法
近幾年,對(duì)比學(xué)習(xí)在計(jì)算機(jī)視覺(jué)(CV)的自監(jiān)督學(xué)習(xí)中取得了突破性的成功,引起了一些人極大的興趣和研究。對(duì)比學(xué)習(xí)[85-86](如圖10)是一種判別方法,利用相似性度量來(lái)衡量?jī)蓚€(gè)嵌入的接近程度,將類似的樣本分組更接近,并將不同樣本彼此遠(yuǎn)離。對(duì)比學(xué)習(xí)在GAN中的應(yīng)用也逐漸廣泛,ContraGAN[87]探索了類條件圖像生成的對(duì)比學(xué)習(xí)。DiscoFaceGAN[68]添加了對(duì)比學(xué)習(xí)來(lái)強(qiáng)制解開(kāi)人臉生成。
圖10 對(duì)比學(xué)習(xí)思想Fig.10 Contrastive learning ideas
文本合成圖像的目標(biāo)是基于給定文本生成相匹配的視覺(jué)真實(shí)度高的圖像,然而同一圖像表達(dá)的含義在文本表達(dá)上存在著很大的差異,同一圖像的標(biāo)題間的文本表達(dá)差異會(huì)使生成的圖像與預(yù)期不符。為了解決這一問(wèn)題,將對(duì)比學(xué)習(xí)的框架嵌入到文本圖像合成領(lǐng)域,使用對(duì)比學(xué)習(xí)思想可以有效地增強(qiáng)合成圖像的質(zhì)量并提高其語(yǔ)義一致性。
(1)現(xiàn)有模型(AttnGAN、DM-GAN)+對(duì)比學(xué)習(xí)
對(duì)于同一個(gè)合成圖像的給定文本具有多種描述形式,這會(huì)導(dǎo)致生成的圖像偏離了真實(shí)。Ye等人[53]提出了一種基于現(xiàn)有GAN的對(duì)比學(xué)習(xí)方法來(lái)提高合成圖像的質(zhì)量和語(yǔ)義一致性,利用對(duì)比損失將同一圖像對(duì)應(yīng)的標(biāo)題聚集到一起,同時(shí)將不同圖像的標(biāo)題聚集到一起,以此在預(yù)訓(xùn)練編碼器時(shí)學(xué)習(xí)圖像-文本對(duì)中語(yǔ)義一致的文本表示。訓(xùn)練過(guò)程中利用對(duì)比損失最小化合成圖像與真實(shí)圖像的其他描述文本所合成的假圖像之間的距離,最大化合成圖像與其他圖像的描述文本生成的假圖像間的距離。這種方法是適應(yīng)于當(dāng)前基于GAN方法的通用框架,Ye等人[53]在AttnGAN[26]和DM-GAN[42]加入了對(duì)比學(xué)習(xí)框架,其應(yīng)用效果遠(yuǎn)高于原模型。對(duì)比學(xué)習(xí)框架極大的增加了圖像的視覺(jué)真實(shí)度和語(yǔ)義一致性。
(2)SD-GAN
SD-GAN[52](如圖11)提出兩個(gè)分支的連體網(wǎng)絡(luò)架構(gòu),兩個(gè)分支模型參數(shù)共享,每個(gè)分支輸入不同的文本,對(duì)輸出的圖像采用對(duì)比損失來(lái)最大化分支中不同特征的距離并最小化類似特征的距離,以兩個(gè)分支上共同的語(yǔ)義來(lái)學(xué)習(xí)語(yǔ)義在圖像上的特征。是對(duì)比學(xué)習(xí)思想在文本圖像合成領(lǐng)域的初步應(yīng)用,此時(shí)模型只能學(xué)習(xí)連體網(wǎng)絡(luò)的語(yǔ)義共性,SD-GAN還提出了語(yǔ)義條件批量歸一化(SCBN)來(lái)生成細(xì)粒度的視覺(jué)模式,以此來(lái)提高生成圖像的多樣性。
圖11 SD-GAN框架Fig.11 SD-GAN framework
(3)XMC-GAN
目前的基于GAN的模型大多是加入注意力機(jī)制來(lái)實(shí)現(xiàn)關(guān)鍵性特征和細(xì)粒度特征的生成,但這些模型僅適用于處理簡(jiǎn)單圖像文本數(shù)據(jù)集,面對(duì)復(fù)雜場(chǎng)景數(shù)據(jù)集時(shí)效果不佳;而其他利用圖像中對(duì)象的布局來(lái)多階段生成圖像的方法需要更多的標(biāo)簽且無(wú)法很好的應(yīng)用到現(xiàn)實(shí)場(chǎng)景中。Zhang等人[28]提出一種文本圖像合成的跨模態(tài)對(duì)比學(xué)習(xí)方法(XMC-GAN)。
XMC-GAN利用對(duì)比學(xué)習(xí)的InfoNCE損失[88]來(lái)最大化相應(yīng)對(duì)之間的互信息下限,分別從圖像區(qū)域與單詞、圖像與句子、圖像與圖像三個(gè)方面學(xué)習(xí)測(cè)量?jī)蓚€(gè)模態(tài)的依賴性函數(shù)并利用對(duì)比損失加強(qiáng)合成的圖像與對(duì)應(yīng)文本相對(duì)齊。通過(guò)注意力自調(diào)制生成器(提高隱藏特征和條件輸入的一致性)和對(duì)比鑒別器共同生成具有細(xì)粒度特征的視覺(jué)真實(shí)性強(qiáng)的可識(shí)別圖像,同時(shí)保證其文本和圖像的語(yǔ)義一致性。
對(duì)比學(xué)習(xí)作為一種自監(jiān)督學(xué)習(xí)的方法,也是一種思想,減少了與監(jiān)督模型的性能差距。Zhou等人[51]提出的TiGAN 利用對(duì)比學(xué)習(xí)來(lái)更好的實(shí)現(xiàn)文本到圖像的映射從而促進(jìn)交互過(guò)程中圖像的一致性,在文本引導(dǎo)圖像生成領(lǐng)域也有著突破性進(jìn)展。對(duì)比學(xué)習(xí)框架的建立是為了下游任務(wù)獲得更好的效果,在文本圖像生成這個(gè)下游任務(wù)中,對(duì)比學(xué)習(xí)框架的嵌入通過(guò)建立和優(yōu)化圖像-文本間的對(duì)比損失來(lái)達(dá)到尋找圖像文本的語(yǔ)義共性和促進(jìn)生成圖像多樣性的目的。因此,基于對(duì)比學(xué)習(xí)的文本圖像合成方法在圖像質(zhì)量,視覺(jué)真實(shí)度以及語(yǔ)義一致性方面都將優(yōu)于現(xiàn)有模型。
對(duì)比學(xué)習(xí)法中,對(duì)比損失的建立至關(guān)重要,現(xiàn)在常用的包括Info NCE、NCE loss等,對(duì)比損失的是否合理將對(duì)模型的穩(wěn)定性有較大影響。正負(fù)樣本對(duì)的建立也會(huì)影響訓(xùn)練中模型收斂的速度與能力。該方法的缺點(diǎn)總結(jié)如下:
(1)對(duì)比學(xué)習(xí)的架構(gòu)設(shè)計(jì)和采樣技術(shù)會(huì)對(duì)下游任務(wù)的性能有著深遠(yuǎn)的影響,對(duì)比損失的建立不當(dāng)極易導(dǎo)致模型的坍塌。
(2)對(duì)比學(xué)習(xí)會(huì)受到數(shù)據(jù)集偏差的影響,只有建立合理的正負(fù)樣本對(duì)比較才能訓(xùn)練好模型的對(duì)比損失,否則會(huì)限制整個(gè)模型快速收斂的能力。
(3)研究其方法的泛化能力時(shí)需要更多對(duì)比學(xué)習(xí)中的各個(gè)模塊的理論分析,但缺乏相應(yīng)的理論基礎(chǔ)。
對(duì)比學(xué)習(xí)法的定量比較如下:在對(duì)比學(xué)習(xí)法中,對(duì)比學(xué)習(xí)+AttnGAN在COCO數(shù)據(jù)集上FID值為23.93,比AttnGAN 的FID 值降低32.57%;在CUB 數(shù)據(jù)集上FID值為16.34,比AttnGAN 的FID 值降低31.86%。對(duì)比學(xué)習(xí)+DM-GAN在COCO數(shù)據(jù)集上FID值為20.79,IS值為33.34,比DM-GAN 的FID 值降低36.31%,IS 值提高9.35%;在CUB數(shù)據(jù)集上FID值為14.38,比AttnGAN的FID值降低了10.63%。SD-GAN在COCO數(shù)據(jù)集上的IS值為35.69,比對(duì)比學(xué)習(xí)+DM-GAN 的IS 值提高7.05%。XMC-GAN 在COCO 數(shù)據(jù)集上的FID 值為9.33,比對(duì)比學(xué)習(xí)+DM-GAN的FID值降低了55.12%。
2.2.1.7 場(chǎng)景對(duì)象布局法
目前大多數(shù)的方法都只能在文本簡(jiǎn)短,圖像簡(jiǎn)單的數(shù)據(jù)集上(例如CUB 鳥類數(shù)據(jù)集、Oxford-102 花卉數(shù)據(jù)集等)取得較為不錯(cuò)的結(jié)果,而面對(duì)每個(gè)圖像包含多個(gè)對(duì)象的復(fù)雜數(shù)據(jù)集(例如COCO數(shù)據(jù)集等),生成圖像較為困難且效果不佳。因此,場(chǎng)景對(duì)象布局法提出在生成圖像的過(guò)程中加入一個(gè)步驟,先生成圖像的場(chǎng)景布局(或者是邊界框等),以場(chǎng)景為基礎(chǔ)為生成器提供反饋,并聯(lián)合對(duì)應(yīng)的文本描述,共同生成圖像。
Liu 等人[89]提出預(yù)測(cè)以語(yǔ)義標(biāo)簽圖為條件的卷積核,以此更好的利用圖像生成器的語(yǔ)義布局,從噪聲圖生成中間特征圖并最終生成圖像。Hinz 等人[90]提出生成圖像過(guò)程中引入生成單個(gè)對(duì)象的對(duì)象路徑,生成以單個(gè)前景對(duì)象的邊界框?yàn)闂l件的圖像。Li 等人[44]提出的Obj-GAN是一種以對(duì)象為驅(qū)動(dòng)的注意力生成網(wǎng)絡(luò),將注意力與場(chǎng)景布局相結(jié)合,更新了基于網(wǎng)格的注意力機(jī)制。Li 等人[69]提出的PasteGAN 以外部對(duì)象作為指導(dǎo),基于注意力使用場(chǎng)景圖引導(dǎo)圖像生成,允許模型從其他圖像中裁剪對(duì)象再將其粘貼進(jìn)生成的圖像中。Vo 等人[70]提出Stacking-GANs為給定的標(biāo)題對(duì)應(yīng)的對(duì)象加入邊界框,利用標(biāo)題生成視覺(jué)關(guān)系場(chǎng)景布局,促進(jìn)圖像的生成。
Sylvain等人[45]提出的OC-GAN以對(duì)象為中心,提出基于場(chǎng)景圖的檢索模塊(SGSM),在整個(gè)場(chǎng)景中利用對(duì)象之間的空間關(guān)系,提高模型的布局保證度。加入條件實(shí)例邊界來(lái)生成逼真的場(chǎng)景和清晰的對(duì)象。Hinz 等人[46]在原有對(duì)象路徑的基礎(chǔ)上,提出的OP-GAN專注于迭代的關(guān)注所有根據(jù)當(dāng)前圖像描述生成的單個(gè)對(duì)象,利用全局路徑生成整個(gè)圖像的背景特征,再將背景特征與逐個(gè)對(duì)象特征合并。專注于單個(gè)對(duì)象的特征往往比關(guān)注全局圖像語(yǔ)義更好地生成逼真圖像。
場(chǎng)景布局的方法在文本到圖像的過(guò)程中加入一個(gè)中間狀態(tài),在預(yù)先展現(xiàn)的邊界框,場(chǎng)景對(duì)象布局的基礎(chǔ)上,調(diào)節(jié)生成器,促使生成逼真且場(chǎng)景豐富的圖像,該方法能更好地適應(yīng)復(fù)雜場(chǎng)景和對(duì)象的數(shù)據(jù)集,適應(yīng)文本和圖像約束,有效地提高了模型的關(guān)鍵屬性的生成以及細(xì)粒度特征的體現(xiàn)。
在場(chǎng)景對(duì)象布局法中,場(chǎng)景與對(duì)象的提取和建立會(huì)對(duì)模型的效果影響較大,如圖12所示,對(duì)象的邊界框可能會(huì)發(fā)生多個(gè)重疊以及細(xì)小對(duì)象的邊界框建立模糊會(huì)使最終圖像的真實(shí)性以及對(duì)象關(guān)系的合理性產(chǎn)生影響。該方法的缺點(diǎn)總結(jié)如下:
圖12 基于場(chǎng)景對(duì)象布局方法的流程圖Fig.12 Flowchart based on scene object layout method
(1)容易在布局中沒(méi)有相應(yīng)邊界框的情況下生成虛假圖像。
(2)利用場(chǎng)景布局的方法極容易在布局中出現(xiàn)重疊的邊界框?qū)е聦?duì)應(yīng)圖像特征的合并。
(3)在原有的文本到圖像的過(guò)程中加入場(chǎng)景布局的中間狀態(tài),這將需要耗費(fèi)更長(zhǎng)的訓(xùn)練時(shí)間和計(jì)算資源。
場(chǎng)景對(duì)象布局法的定量比較如下:在場(chǎng)景對(duì)象布局法中,PasteGAN 在COCO 數(shù)據(jù)集上FID 值為38.29,IS值為10.2。OC-GAN在COCO數(shù)據(jù)集上FID值為36.04,比PasteGAN降低了5.88%;IS值為17.0,比PasteGAN的IS 值提高了66.67%。OP-GAN 在COCO 數(shù)據(jù)集上的FID 值為24.70,比PasteGAN 降低了35.49%,IS 值為27.88,比PasteGAN的IS值提高了173.33%。
2.2.1.8 因果關(guān)系法
當(dāng)前的模型大都以結(jié)果作為導(dǎo)向,僅依靠文本和視覺(jué)實(shí)體之間的映射來(lái)完成文本到圖像的生成,模型更多強(qiáng)調(diào)的是圖像的質(zhì)量,忽略了圖像生成過(guò)程中的因果視覺(jué)場(chǎng)景。且以文本中的行為動(dòng)作為導(dǎo)向的圖像生成缺乏挖掘。
Zhu 等人[54]提出的CookGAN 在食品烹飪的圖像生成上基于文本的因果鏈實(shí)現(xiàn)。CookGAN通過(guò)在三對(duì)堆疊的生成器和鑒別器中加入“烹飪模擬器”來(lái)模仿真實(shí)的動(dòng)作場(chǎng)景,利用門控循環(huán)單元(GRU)編碼行為(烹飪)步驟,結(jié)果作為GRU的隱藏狀態(tài)。在整個(gè)文本描述中,每一個(gè)動(dòng)作(例如炒、切等)施加于已有的特征(例如成分、顏色、形狀等)都會(huì)沿著過(guò)程對(duì)現(xiàn)有狀態(tài)進(jìn)行改變。整個(gè)網(wǎng)絡(luò)可以控制文本中的動(dòng)作和成分間的明確互動(dòng),將成分在動(dòng)作中的改變準(zhǔn)確的可視化。
基于因果關(guān)系的方法關(guān)注其特征和行為動(dòng)作,使特征作用的捆綁效應(yīng)可以被建模(例如同一特征在不同動(dòng)作的情況下會(huì)發(fā)生改變),可以顯著的表現(xiàn)出文本中的成分(可見(jiàn)或不可見(jiàn))對(duì)最終圖像生成的影響。因果關(guān)系的準(zhǔn)確表達(dá)會(huì)使最終生成的圖像更加符合復(fù)雜文本的內(nèi)在聯(lián)系,生成的圖像視覺(jué)感知度更強(qiáng),語(yǔ)義一致性更強(qiáng)。
該方法的缺點(diǎn)總結(jié)如下:
(1)目前在基于因果關(guān)系的方法上研究過(guò)少,適用的范圍局限性較大(目前僅在食品烹飪領(lǐng)域),方法遷移后的效果有待考量。
(2)基于因果關(guān)系的方法需要盡可能考慮文本描述中的各個(gè)特征和動(dòng)作,目前的方法考慮不完善(例如烹飪方式和成分?jǐn)?shù)量未考慮完整等)。
基于GAN 的文本直接生成圖像方法從2016 年取得初步成效,大都使用多階段的網(wǎng)絡(luò)架構(gòu)以及初步注意力機(jī)制的應(yīng)用,盡管在CUB 鳥類數(shù)據(jù)集等簡(jiǎn)單數(shù)據(jù)集可以準(zhǔn)確生成文本描述的細(xì)節(jié)信息,但在COCO數(shù)據(jù)集等復(fù)雜場(chǎng)景中無(wú)法較好應(yīng)用。2020 年,Vo 等人[70]提出的stacking-GANs和Hinz等人[46]提出的OP-GAN延續(xù)場(chǎng)景對(duì)象布局的方法,利用標(biāo)題對(duì)應(yīng)對(duì)象的邊界框以及專注于單個(gè)對(duì)象的描述和全局背景的融合,繼續(xù)提高了場(chǎng)景對(duì)象布局這一類方法的模型效果。近幾年對(duì)比學(xué)習(xí)發(fā)展迅速,并且較為成功的嵌入到文本圖像的合成中,2021 年,Ye 等人[53]提出的現(xiàn)有經(jīng)典模型(AttnGAN[26]、DM-GAN[42])加入對(duì)比學(xué)習(xí)框架以及Zhang 等人[28]提出的XMC-GAN 都是將對(duì)比學(xué)習(xí)的思想應(yīng)用于文本圖像生成中,并且在復(fù)雜數(shù)據(jù)集(COCO)和簡(jiǎn)單對(duì)象數(shù)據(jù)集(CUB 等)上FID 值和IS 值都有著顯著的影響。同時(shí)2020年Zhu等人[54]提出的CookGAN利用對(duì)象動(dòng)作間的因果邏輯關(guān)系使得最終的圖像中對(duì)象間的聯(lián)系更加突出,語(yǔ)義一致性更高?;贕AN 的文本直接生成圖像的各類方法間的效果比較如表2所示。
表2 文本直接生成圖像模型的定量比較Table 2 Quantitative comparison of text direct synthesis image models
表2是上述文本直接合成圖像模型的評(píng)估效果(FID值越低效果越好,其余指標(biāo)值越高效果越好)??梢?jiàn)DM-GAN[42]在加入對(duì)比學(xué)習(xí)后在各個(gè)數(shù)據(jù)集的大多數(shù)指標(biāo)的效果顯著高于原模型和其他的模型;XMC-GAN[28]在COCO 數(shù)據(jù)集中FID 值達(dá)到了9.33,優(yōu)于其他模型;DF-GAN[91]在CUB數(shù)據(jù)集中IS值達(dá)到了5.1,優(yōu)于其他模型。表中“—”表示評(píng)估實(shí)驗(yàn)未用到該指標(biāo)或該數(shù)據(jù)集。
2.2.2 基于文本引導(dǎo)生成圖像
上文所述,基于文本直接合成圖像的各類方法大多屬于無(wú)監(jiān)督范疇的方法,生成的圖像只需要達(dá)到分辨率高,文本圖像一致性強(qiáng),圖像生成質(zhì)量高即可。而現(xiàn)實(shí)中更需要對(duì)于給定的圖像,使用不同的文本進(jìn)行區(qū)域性的編輯和改動(dòng),并在圖像的其他部分仍然保留具體的細(xì)節(jié),具有目的性和指向性改動(dòng)的特點(diǎn),該領(lǐng)域可以稱之為基于文本引導(dǎo)圖像生成[92]。Li 等人[41]提出的可控性文本圖像生成模型ControlGAN為文本引導(dǎo)圖像生成奠定了基礎(chǔ)。目前文本引導(dǎo)生成圖像領(lǐng)域仍有巨大的發(fā)展空間。本文將文本引導(dǎo)圖像生成分為仿射組合法和基于StyleGAN法兩類方法(如表3)。
表3 基于文本引導(dǎo)生成圖像的分類與參考Table 3 Classification and reference of generated images based on text guidance
在仿射組合法中,Li等人[47]于2020年提出ManiGAN,采用文本圖像仿射組合模塊將文本與對(duì)應(yīng)圖像區(qū)域仿射關(guān)聯(lián),且使用帶有注意力機(jī)制的細(xì)節(jié)糾正模塊對(duì)錯(cuò)誤細(xì)節(jié)進(jìn)行重構(gòu),維持新屬性和原有細(xì)節(jié)的平衡[93]。為解決搭建輕量級(jí)架構(gòu)(較少模型參數(shù)、訓(xùn)練所需計(jì)算資源少)下的圖像質(zhì)量變差情況,Li等人[48]在ManiGAN基礎(chǔ)上提出Lightweight GAN,利用原有的部分框架加入包含詞級(jí)監(jiān)督標(biāo)簽的單詞級(jí)鑒別器,以此構(gòu)建結(jié)構(gòu)簡(jiǎn)單的輕量型生成器網(wǎng)絡(luò)。在基于StyleGAN 的方法中Xia 等人[50]于2021年提出TediGAN,利用反演圖像編碼器將圖像映射到預(yù)訓(xùn)練StyleGAN[49]的潛在空間中,使用簡(jiǎn)潔的視覺(jué)-語(yǔ)言相似模塊在潛在空間中進(jìn)行實(shí)例級(jí)映射對(duì)齊。使用實(shí)例級(jí)優(yōu)化模塊重構(gòu)不相關(guān)屬性和改善與文本一致的屬性。Zhou等人[51]于2022年提出的TiGAN利用多輪交互的圖像生成,以StyleGAN2[94]為主干網(wǎng)絡(luò),集成了CLIP模型來(lái)評(píng)估文本與聯(lián)合嵌入空間內(nèi)的圖像間的語(yǔ)義相似性,利用對(duì)比學(xué)習(xí)的思想,加入對(duì)比損失促進(jìn)模型解開(kāi)文本到圖像的映射和中間特征。目前,文本引導(dǎo)圖像生成領(lǐng)域的研究較少,會(huì)面臨很多問(wèn)題,如潛在空間中的屬性糾纏,引導(dǎo)產(chǎn)生的低質(zhì)量圖像,或無(wú)法有效處理的復(fù)雜情況下的場(chǎng)景等。下文將對(duì)仿射組合法、基于StyleGAN兩類方法進(jìn)行具體介紹。
2.2.2.1 仿射組合法
(1)ManiGAN
基于給定文本引導(dǎo)圖像合成的關(guān)鍵就是同時(shí)利用自然語(yǔ)言和圖像的跨模態(tài)信息,生成新的匹配屬性樣本,同時(shí)保留與文本無(wú)關(guān)的原始圖像內(nèi)容。當(dāng)前大多方法都是選擇沿著通道方向直接連接圖像和全局句子特征[95-96],這樣會(huì)帶來(lái)一些潛在問(wèn)題,如不能準(zhǔn)確地將細(xì)粒度詞和需要修改的屬性進(jìn)行關(guān)聯(lián);或者無(wú)法有效識(shí)別與文本無(wú)關(guān)的內(nèi)容,無(wú)法將其重構(gòu)。Li 等人[47]提出Mani-GAN(如圖13)利用文本圖像仿射組合模塊(ACM)與細(xì)節(jié)校正模塊(DCM)來(lái)產(chǎn)生高質(zhì)量的保留原有細(xì)節(jié)特征的圖像。
圖13 ManiGAN框架Fig.13 ManiGAN framework
ACM模塊是ManiGAN中最重要的模塊,它主要包含兩個(gè)部分:第一個(gè)是將給定文本描述的相關(guān)區(qū)域與圖像進(jìn)行關(guān)聯(lián),通過(guò)關(guān)聯(lián)的語(yǔ)義詞生成新的對(duì)應(yīng)的圖像屬性,達(dá)到替換原圖像特征的目的;第二個(gè)部分是將原圖像進(jìn)行重新編碼,對(duì)文本未描述到的部分進(jìn)行重構(gòu),生成新的文本下的圖像。ACM 模塊的最大特點(diǎn)是,相較于現(xiàn)有方法無(wú)法準(zhǔn)確區(qū)分修改和重建的圖像區(qū)域,無(wú)法在新屬性和原有細(xì)節(jié)上達(dá)到平衡。ACM模塊使用的文本與圖像之間的乘法,可準(zhǔn)確地對(duì)修改區(qū)域進(jìn)行選擇和細(xì)粒度重構(gòu),再對(duì)圖像無(wú)需修改部分重新編輯。DCM 模塊在單詞級(jí)特征上進(jìn)行生成圖像細(xì)節(jié)的修改,添加空間和通道注意力將詞級(jí)特征進(jìn)行關(guān)聯(lián),加強(qiáng)對(duì)細(xì)粒度特征的調(diào)整來(lái)達(dá)到細(xì)節(jié)重構(gòu)缺失,校正錯(cuò)誤屬性。ManiGAN 的目標(biāo)函數(shù)提出了額外的正則化項(xiàng)[66],如式(4),
式中I′表示真實(shí)圖像分布的采樣,I表示修改圖像后的結(jié)果,通過(guò)加入正則化來(lái)防止生成的圖像與輸入圖像相同,以此來(lái)確保生成圖像多樣性。
(2)Lightweight GAN
長(zhǎng)時(shí)間的訓(xùn)練推理和巨大的內(nèi)存計(jì)算需求使基于GAN 的圖像生成研究變得困難。Li 等人[47]在訓(xùn)練ManiGAN 時(shí)減少模型的參數(shù),而最終的圖像質(zhì)量明顯變差。ManiGAN的鑒別器無(wú)法為生成器提供的單詞建立細(xì)粒度訓(xùn)練反饋,較少的模型參數(shù)下無(wú)法將圖像屬性和對(duì)應(yīng)文本之間建立確切的聯(lián)系。因此Li 等人[48]在ManiGAN的基礎(chǔ)上提出了一個(gè)輕量級(jí)文本圖像生成網(wǎng)絡(luò)(lightweight GAN,Lw-GAN)(如圖14)。它包含了兩個(gè)部分:?jiǎn)卧~級(jí)鑒別器、輕量級(jí)架構(gòu)的生成器。
圖14 Lightweight GAN框架Fig.14 Lightweight GAN framework
單詞級(jí)鑒別器中使用詞級(jí)監(jiān)督標(biāo)簽和詞級(jí)鑒別器,前者為生成器提供的每一個(gè)詞(主要保留名詞和形容詞)進(jìn)行訓(xùn)練反饋,建立生成圖像與對(duì)應(yīng)文本間準(zhǔn)確的對(duì)應(yīng)關(guān)系,保證訓(xùn)練參數(shù)較少時(shí)也能正確地進(jìn)行映射。在單詞級(jí)鑒別器和ManiGAN 的大致框架下,可以構(gòu)建一個(gè)結(jié)構(gòu)簡(jiǎn)單的輕量級(jí)生成器網(wǎng)絡(luò)。模型僅依靠文本編碼器、圖像編碼器以及一些少量的ACM模塊、殘差模塊、上采樣組成,且只需要一對(duì)生成器和鑒別器,模型對(duì)前后兩個(gè)ACM 模塊利用兩種不同特點(diǎn)的圖像編碼器Inception-v3[97]和VGG-16[98],前者網(wǎng)絡(luò)層更深,提取的特征更具有語(yǔ)義性,后者較淺,提取的特征包含更多內(nèi)容細(xì)節(jié),使得最終生成的圖像文本描述區(qū)域和其他不變區(qū)域質(zhì)量都較高[99]。多階段的多對(duì)生成器和鑒別器框架需要依靠更大的內(nèi)存,需要大量的時(shí)間進(jìn)行訓(xùn)練和推理,無(wú)法移植到有限的設(shè)備上(例如手機(jī)、平板等)進(jìn)行使用。Lw-GAN 的提出使得較少參數(shù)下的圖像生成質(zhì)量提高,競(jìng)爭(zhēng)性更強(qiáng),在生成圖像的質(zhì)量層次上也高于ManiGAN。
ManiGAN和Lw-GAN模型作為仿射變換法的核心就是其主要的仿射變換(ACM)模塊,在文本到圖像的跨通道上,利用文本與圖像的元素乘法促進(jìn)了文本描述與對(duì)應(yīng)區(qū)域的關(guān)聯(lián)以及重構(gòu),避免簡(jiǎn)單的沿通道方向連接文本與句子導(dǎo)致的圖像粗糙。DCM細(xì)節(jié)處理模塊和單詞級(jí)鑒別器加強(qiáng)了訓(xùn)練反饋和細(xì)粒度特征的修改和保留。仿射變換法使得最終的模型視覺(jué)真實(shí)性高,多樣性強(qiáng),未改動(dòng)的細(xì)節(jié)保留完整。
對(duì)于仿射組合法,文本與圖像之間仿射變換的模態(tài)間乘法結(jié)果可能會(huì)使模型最終產(chǎn)生錯(cuò)誤的布局及對(duì)象關(guān)系等。其次,多階段的仿射變換會(huì)對(duì)計(jì)算資源的完備有較高要求。該方法的缺點(diǎn)總結(jié)如下:
(1)使用跨模態(tài)的元素乘法有時(shí)會(huì)有細(xì)節(jié)的錯(cuò)誤生成,與新屬性的穩(wěn)定共存也需要進(jìn)一步的探索和完善。
(2)使用多對(duì)生成器和鑒別器的多階段框架較為繁重,訓(xùn)練的穩(wěn)定性需要加強(qiáng),使用計(jì)算資源較多;Lw-GAN 的輕量型架構(gòu)在圖像生成質(zhì)量上與多階段框架仍具有一定差距,需要考慮兩者的平衡發(fā)展。
仿射組合法的定量比較如下:仿射組合法中,Lightweight GAN 在COCO 數(shù)據(jù)集上的FID 值為12.39,比ManiGAN 的FID 值(25.08)降低50.60%;Accuracy 值為77.97,比ManiGAN的Accuracy值(22.03)提高253.93%;Realism值為67.53,比ManiGAN的Realism值(32.47)提高107.98%。Lightweight GAN在CUB數(shù)據(jù)集上的FID值為8.02,比ManiGAN 的FID 值(9.75)降低17.74%;Accuracy值為65.94,比ManiGAN的Accuracy值(34.06)提高93.60%;Realism值為57.82,比ManiGAN的Realism值(42.18)提高37.08%。
2.2.2.2 基于StyleGAN方法
(1)TediGAN
針對(duì)如今性能最好的一些文本圖像生成方法,大多是采用多階段的網(wǎng)絡(luò)框架。StyleGAN[49]是2020 年基于ProGAN[100]提出的模型,沿用了漸近性網(wǎng)絡(luò),加入映射網(wǎng)絡(luò),使得特征更好分離,生成圖像更加隨意,且加入自適應(yīng)規(guī)范化(AdalN),從低分辨率到高分辨率都由style控制。受StyleGAN映射網(wǎng)絡(luò)和AdalN的啟發(fā),提出了一種GAN 的反演技術(shù)[101-102]——TediGAN[50],將文本、標(biāo)簽、草圖等多模態(tài)信息映射到一個(gè)訓(xùn)練好的StyleGAN 的公共潛在空間(如圖15)[50],再對(duì)其進(jìn)行操作。與現(xiàn)有的多階段網(wǎng)絡(luò)框架不同,TediGAN 統(tǒng)一了整個(gè)過(guò)程,直接可生成高質(zhì)量的圖像。TediGAN 包含了StyleGAN 反演模塊、視覺(jué)-語(yǔ)言相似模塊、實(shí)例級(jí)優(yōu)化模塊。
圖15 StyleGAN潛在空間Fig.15 Latent space of StyleGAN
StyleGAN反演模塊將多模態(tài)信息(例如文本、語(yǔ)義標(biāo)簽、草圖等)映射到預(yù)訓(xùn)練的StyleGAN模型的潛在空間中,通過(guò)StyleGAN 的無(wú)監(jiān)督性提高方法的多樣性。視覺(jué)-語(yǔ)言相似模塊不同于往常的圖像-文本編碼器,它將圖像和對(duì)應(yīng)的文本投影到訓(xùn)練好的公共空間中學(xué)習(xí)與視覺(jué)表示一致語(yǔ)言表示,以此來(lái)進(jìn)行圖像和對(duì)應(yīng)文本之間的聯(lián)系和實(shí)例級(jí)對(duì)齊。相比較于DAMSM,該模塊更簡(jiǎn)潔,更易于訓(xùn)練。實(shí)例級(jí)優(yōu)化模塊以文本的反演潛在代碼作為初始化,圖像編碼器作為正則化使?jié)撛诖a保留在生成器的語(yǔ)義域內(nèi),使得在潛在空間中可以準(zhǔn)確的編輯與文本描述一致的屬性和原來(lái)存在的細(xì)節(jié)屬性。最終得到高質(zhì)量,多樣性強(qiáng)的生成圖像(圖像分辨率可達(dá)到1 024×1 024)。TediGAN 的關(guān)鍵部分是預(yù)訓(xùn)練好的StyleGAN 的潛在空間,潛在空間覆蓋面足夠廣則可以保證模型的魯棒性較強(qiáng)。
(2)TiGAN
真實(shí)用戶和模型交互的過(guò)程中,自然語(yǔ)言的反饋很難預(yù)測(cè),交互式的圖像生成將文本引導(dǎo)的圖像操作推廣到多輪設(shè)置。文本到圖像的映射和交互過(guò)程中的難以理解的圖像操作是難以避免的挑戰(zhàn)。
現(xiàn)有的方法將圖像映射到潛在空間中,操作潛在向量生成預(yù)期圖像,更多的在操縱潛在向量方面進(jìn)行改進(jìn),針對(duì)Xia等人[50]提出的TediGAN利用編碼器將不同模態(tài)映射到潛在空間中,Zhou 等人[51]提出的TiGAN 將文本和圖像都映射到聯(lián)合的潛在空間中,再對(duì)文本和圖像潛在向量中的元素重新組合。TiGAN將StyleGAN2[94]作為模型的主干,聯(lián)合預(yù)訓(xùn)練的對(duì)比語(yǔ)言圖像模型(CLIP)[103],CLIP作為一個(gè)預(yù)訓(xùn)練的多模態(tài)模型,可以將圖像和文本映射到統(tǒng)一的聯(lián)合嵌入空間中,以此可以評(píng)估文本和聯(lián)合嵌入空間中圖像的語(yǔ)義一致性,提供訓(xùn)練反饋。TiGAN 利用映射網(wǎng)絡(luò)和可以在給定文本描述而生成樣式向量的模塊構(gòu)成整個(gè)合成網(wǎng)絡(luò),在CILP 提取的文本特征下精準(zhǔn)改動(dòng)預(yù)想的圖像區(qū)域,保留先前交互的信息。
TediGAN 與TiGAN 都 是在基于StyleGAN 的模型上,將文本和圖像映射到訓(xùn)練覆蓋面廣的潛在空間中進(jìn)行潛在向量的重新組合,實(shí)現(xiàn)文本對(duì)圖像的引導(dǎo)?;赟tyleGAN 的方法中,潛在空間的建立直接影響著最終的模型效果,廣度和深度越完整的潛在空間會(huì)使最終模型圖像的細(xì)粒度特征建立的越豐富。該方法的缺點(diǎn)總結(jié)如下:
(1)潛在空間的覆蓋面需要足夠大,圖像的微小細(xì)節(jié)在生成器未覆蓋到的區(qū)域內(nèi)無(wú)法很好的體現(xiàn)。
(2)與文本無(wú)關(guān)的屬性在潛在空間中可能會(huì)糾纏導(dǎo)致特征無(wú)法重新映射到引導(dǎo)后的圖像中。
基于StyleGAN方法的定量比較如下:基于StyleGAN的方法TediGAN 在CelebA-HQ 數(shù)據(jù)集上的FID 值為107.25,比仿射組合法中的ManiGAN 的FID 值降低9.03%;Accuracy 值為59.1,比ManiGAN 的Accuracy 值(40.9)提高44.50%;Realism 值為63.8,比ManiGAN 的Realism 值(36.2)提高76.24%。基于StyleGAN 的方法中,TiGAN 在COCO 數(shù)據(jù)集上的FID 值為8.9,比LightweightGAN的FID值(12.39)降低28.17%;在CelebA-HQ數(shù)據(jù)集上的FID值為11.35,比TediGAN的FID值(107.25)降低89.42%。
從2016 年開(kāi)始,文本直接生成圖像的方法開(kāi)始逐漸完善,而僅在近兩年,文本引導(dǎo)圖像生成的方法才開(kāi)始研究與探索。在該領(lǐng)域中,提出的仿射組合法(ManiGAN、Lw-GAN)延續(xù)了文本直接生成圖像的一般方法,在多階段的級(jí)聯(lián)網(wǎng)絡(luò)中加入文本和圖像元素間的仿射變換以及細(xì)節(jié)保留模塊,Lw-GAN中更是加入單詞級(jí)鑒別器來(lái)促使最終引導(dǎo)的圖像語(yǔ)義一致性高,細(xì)節(jié)效果保留更完備,并促使保證圖像質(zhì)量的前提下,模型的輕量化。而提出的TediGAN和TiGAN則是在StyleGAN中的潛在空間中操作,將文本和圖像的潛在向量進(jìn)行關(guān)聯(lián)組合,以此達(dá)到引導(dǎo)圖像生成的目的。同時(shí)TiGAN利用了對(duì)比學(xué)習(xí)預(yù)訓(xùn)練的CLIP模型來(lái)提高文本圖像特征間的關(guān)聯(lián)和語(yǔ)義一致性并完整保留先前的圖像信息?;贕AN的文本引導(dǎo)圖像生成的各類方法間的效果比較如表4所示。
表4 是文本引導(dǎo)圖像生成模型的評(píng)估效果(FID值越低效果越好,其余指標(biāo)值越高效果越好)。可見(jiàn)Lw-GAN[48]在CUB、COCO 數(shù)據(jù)集上評(píng)估效果全面超過(guò)ManiGAN[47],而TediGAN[50]在CelebA-HQ數(shù)據(jù)集上也超過(guò)了ManiGAN。此外,TiGAN[51]在COCO數(shù)據(jù)集與CelebAHQ 數(shù)據(jù)集中的FID 值達(dá)到最優(yōu),分別是8.9 和11.35。表中“—”表示評(píng)估實(shí)驗(yàn)未用到該指標(biāo)或該數(shù)據(jù)集。
表4 文本引導(dǎo)圖像生成模型的定量比較Table 4 Quantitative comparison of text-guided image generation models
為了評(píng)估文本圖像合成方法的實(shí)用價(jià)值,對(duì)不同方法的復(fù)雜度進(jìn)行了分析對(duì)比。如圖16 所示,從GANINT-CLS到最近的XMC-GAN、TediGAN的模型架構(gòu)圖來(lái)看,圖像生成模型的復(fù)雜度在不斷提高,計(jì)算資源的需求也在變大。與此同時(shí),最終生成圖像的效果也越佳,語(yǔ)義一致性、多樣性以及視覺(jué)真實(shí)性也在不斷提高。
圖16 模型復(fù)雜度與模型效果的發(fā)展流圖Fig.16 Development flow diagram of model complexity and model effect
高質(zhì)量模型的研究需要更多高質(zhì)量、大型的數(shù)據(jù)集去驗(yàn)證其效果和精度以及提高模型的泛化能力。優(yōu)質(zhì)數(shù)據(jù)集的建立往往更能推動(dòng)圖像領(lǐng)域的發(fā)展。
在文本圖像生成領(lǐng)域,GAN 中最常用的數(shù)據(jù)集包括Oxford-102花卉數(shù)據(jù)集、CUB鳥類數(shù)據(jù)集、COCO[31]、CelebA-HQ[100]等。
Oxford-102 花卉數(shù)據(jù)集中包含了102 個(gè)類別的花,共有8 189張圖片數(shù)據(jù),每張圖片對(duì)應(yīng)著10個(gè)不同文本的描述。CUB鳥類數(shù)據(jù)集和Oxford-102相類似,圖片都是對(duì)單個(gè)對(duì)象的展示,不過(guò)CUB數(shù)據(jù)集中包含200個(gè)類別的鳥類圖片數(shù)據(jù),共有11 788張圖片數(shù)據(jù)。
COCO 數(shù)據(jù)集幾乎是目前使用的最大的數(shù)據(jù)集,2014版本中包含了超過(guò)80 000張訓(xùn)練集圖片,40 000張測(cè)試集圖片,擁有80個(gè)類別的thing類別(人、汽車等)和91種stuff類別(天空、陸地等),其擁有比其他數(shù)據(jù)集更多的對(duì)象場(chǎng)景且分辨率較高,可用于提高模型的細(xì)節(jié)。
CelebA-HQ 是專注于人臉的數(shù)據(jù)集,包含了超過(guò)30 000張高分辨率人臉圖像,有著詳細(xì)的描述文本。此外CIFAR10[104]、FASHION-MNIST[105]數(shù)據(jù)集也經(jīng)常被使用。
評(píng)價(jià)一個(gè)生成模型的質(zhì)量,需要從三個(gè)角度來(lái)進(jìn)行分析。首先是圖像的生成質(zhì)量,要考慮到生成圖像是否清晰、圖像是否符合要求、是否全面等。其次是生成圖像的多樣性,是否生成的類型多樣也很關(guān)鍵,不僅僅是某一種或幾種的圖像。最后是生成圖像的評(píng)價(jià),最終的圖像也需要人工對(duì)其進(jìn)行觀察和評(píng)估。
Inception score(IS)[32](如式(5))是文本生成圖像領(lǐng)域最常用的評(píng)估指標(biāo)之一,它客觀地從圖像的生成質(zhì)量和多樣性兩個(gè)方面進(jìn)行評(píng)估。它更多地使用預(yù)訓(xùn)練好的Inception v3模型來(lái)計(jì)算邊緣分布和條件分布之間的Kullback Leibler(KL)散度。
其中,E表示期望,DKL表示兩分布間的KL 散度。IS得分越高,即KL 的值越高,說(shuō)明生成圖像的質(zhì)量越高,多樣性更豐富。
Frechet inception distance(FID)(如式(6))[33]也是該領(lǐng)域常用的指標(biāo)之一,它用來(lái)描述兩個(gè)數(shù)據(jù)集之間的相似性程度。FID 也使用預(yù)訓(xùn)練好的Inception 模型對(duì)圖片中的特征進(jìn)行編碼,再計(jì)算原始圖像數(shù)據(jù)分布和生成圖像數(shù)據(jù)分布間的Frechet距離。
x1、x2表示真實(shí)圖像和生成圖像,μx1、μx2表示各自特征向量的均值,Σx1、Σx2表示特征向量的協(xié)方差矩陣,tr 表示矩陣的跡。FID值越低,兩個(gè)圖像的分布越接近,圖像越相似,生成圖像的質(zhì)量越高。
IS指標(biāo)可以反應(yīng)圖像質(zhì)量和多樣性,卻體現(xiàn)不了生成圖像與原始圖像間的相似程度,F(xiàn)ID指標(biāo)剛好與之相反。兩者各有利弊,因此,在文本合成圖像領(lǐng)域更多的同時(shí)使用兩個(gè)指標(biāo)進(jìn)行評(píng)估。但I(xiàn)S 和FID 指標(biāo)只能粗略評(píng)估圖像質(zhì)量,無(wú)法更好體現(xiàn)文本描述和圖像間的相似程度。一些模型中也會(huì)用到人工評(píng)估(human rank)指標(biāo),來(lái)彌補(bǔ)此缺陷,通過(guò)圖像的真實(shí)性和語(yǔ)義一致性來(lái)評(píng)判圖像的相似度以及文本和圖像間的符合程度。同時(shí),R-precision 指標(biāo)也經(jīng)常用于計(jì)算生成圖像和文本描述間的余弦距離從而評(píng)估其相關(guān)性。此外,Accuracy、Realism、Similarity、VS、文本圖像相似度(sim)、像素差(diff)、操縱精度(MP,如式(7))等指標(biāo)也會(huì)用來(lái)驗(yàn)證模型的性能。
MP=(1-diff)×sim(7)
表5 中總結(jié)了上文中提到的絕大多數(shù)模型的圖像分辨率、優(yōu)缺點(diǎn),使用的數(shù)據(jù)集以及評(píng)估指標(biāo)。評(píng)估指標(biāo)包括IS、human rank、FID、多尺度結(jié)構(gòu)相似性(MS-SSIM)、R-precision、VS、MedR(median rank,檢索性能的中位數(shù),值越低,檢索能力越好)、MP、sim、diff、Accuracy、Realism、NoP-G/D(生成器或判別器中的參數(shù)數(shù)量)、RPE(每個(gè)epoch的運(yùn)行時(shí)間)、IT(生成100個(gè)新修改圖像的推理時(shí)間)、學(xué)習(xí)感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)[106]等。
表5 所提模型在文本到圖像合成領(lǐng)域的總結(jié)Table 5 Summary of proposed models in field of text-to-image synthesis
文本圖像合成是涉及自然語(yǔ)言處理和圖像生成的跨模態(tài)研究,目前的方法雖然已經(jīng)在生成圖像質(zhì)量方面以及圖像和語(yǔ)義一致性方面有大幅度的提高。但是在已經(jīng)達(dá)成共識(shí)的一些問(wèn)題(例如文本圖像合成過(guò)程中的解釋性不足,以及如何利用更好的詞嵌入模型處理文本等)之外仍然有很多難點(diǎn)待研究。
(1)復(fù)雜場(chǎng)景與復(fù)雜文本的適應(yīng)。目前的基于類型一致性的模型在對(duì)花、鳥等簡(jiǎn)單對(duì)象的視覺(jué)一致性上有較好的約束,但缺乏對(duì)復(fù)雜場(chǎng)景的多目標(biāo)視覺(jué)一致性約束。針對(duì)復(fù)雜場(chǎng)景圖像,需要將文本視覺(jué)表示引入到多標(biāo)簽分類、多目標(biāo)對(duì)象的識(shí)別和分割模型中。同時(shí),目前大多模型以圖像單條描述語(yǔ)句為研究對(duì)象,更為復(fù)雜的文本(例如段落式文本、組合型文本描述、對(duì)話交互式文本等)也具有很高的研究?jī)r(jià)值,對(duì)復(fù)雜文本中不同語(yǔ)句描述內(nèi)容在圖像中的定位、大小以及語(yǔ)句間的交互關(guān)系都是需要解決的問(wèn)題。因此,如何進(jìn)一步挖掘文本視覺(jué)表示和更復(fù)雜的視覺(jué)識(shí)別模型的融合以及文本圖像的迭代和交互式操作再生是未來(lái)重要的研究方向之一。
(2)多模態(tài)的模型。目前在文本到圖像合成的模型有了極大的發(fā)展,受益于文本到圖像,語(yǔ)音到圖像可以將已有的文本編碼器替換為語(yǔ)音編碼器,該方法在未來(lái)或許會(huì)得到更多的關(guān)注。此外利用文本生成視頻或許也是未來(lái)重要的研究方向之一,但需要探索更多的語(yǔ)音視頻評(píng)估方法。
(3)輕量化模型和弱監(jiān)督、無(wú)監(jiān)督方法的應(yīng)用。局限于數(shù)據(jù)集的龐大和設(shè)備內(nèi)存的不足,繁重的模型不適用未來(lái)在有限時(shí)間內(nèi)的便攜式或輕量型設(shè)備上(例如手機(jī)、平板等)廣泛推廣,使用較少訓(xùn)練次數(shù)和模型參數(shù)的輕量型網(wǎng)絡(luò)或許是文本生成圖像領(lǐng)域的未來(lái)重要的研究方向之一。同時(shí)目前大多數(shù)模型都是基于大量文本和類標(biāo)注的數(shù)據(jù)集,但人工標(biāo)注的代價(jià)極為昂貴,若利用少量標(biāo)注信息的圖像可以挖掘更多的文本-圖像信息或許可以減少模型的監(jiān)督依賴。
(4)注意力機(jī)制的深入應(yīng)用。自注意力機(jī)制[107]可以通過(guò)計(jì)算圖像中像素點(diǎn)之間的關(guān)系來(lái)協(xié)調(diào)生成圖像的細(xì)粒度特征和文本描述的主要特征細(xì)節(jié)。結(jié)合目前最新的目標(biāo)檢測(cè)技術(shù)和超分辨率重建技術(shù),深度注意力機(jī)制的探索與應(yīng)用或許可以進(jìn)一步優(yōu)化模型,依據(jù)文本找到實(shí)例級(jí)別的對(duì)應(yīng)關(guān)系,生成分辨率更高、細(xì)節(jié)與結(jié)構(gòu)更加豐富的圖像。
(5)模型評(píng)價(jià)方法。目前的模型大多使用IS、FID等常用指標(biāo)評(píng)價(jià)模型,但存在很多模型在評(píng)估時(shí)又提出其他的評(píng)估方法(或許僅對(duì)本模型適用),同時(shí),模型在不同的主觀因素(例如實(shí)驗(yàn)過(guò)程的變動(dòng)、圖像分辨率等)下,使用同樣的評(píng)估指標(biāo)會(huì)產(chǎn)生不同的結(jié)果。此外,使用不同的評(píng)估指標(biāo)可能會(huì)導(dǎo)致評(píng)價(jià)圖像合成質(zhì)量的相互矛盾。因此,探索可以適用于絕大多數(shù)模型的優(yōu)點(diǎn)和局限性公平比較的評(píng)價(jià)指標(biāo)是未來(lái)需要完善的重要方面,這將有利于更系統(tǒng)、更科學(xué)地評(píng)價(jià)和對(duì)比各個(gè)模型。
基于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)的高速發(fā)展,將兩者搭建聯(lián)系的跨模態(tài)文本圖像生成任務(wù)是近幾年迅速發(fā)展的研究方向之一。本文詳細(xì)地從文本編碼、文本直接合成圖像、文本引導(dǎo)圖像合成三個(gè)方向全面回顧了各種基于GAN的文本生成圖像方法和網(wǎng)絡(luò)結(jié)構(gòu)。本文首先在各個(gè)類別中將各個(gè)模型進(jìn)行對(duì)比分析,介紹了代表性模型的框架和關(guān)鍵貢獻(xiàn)(StackGAN[24]、AttnGAN[26]、DM-GAN[42]、ManiGAN[47]、TediGAN[50]、XMC-GAN[28]、TiGAN[51]等);介紹了數(shù)據(jù)集的發(fā)展過(guò)程,從單一對(duì)象的CUB,Oxford-102的數(shù)據(jù)集到圖像內(nèi)容豐富的COCO數(shù)據(jù)集,不斷地從龐大且豐富的數(shù)據(jù)集中訓(xùn)練和驗(yàn)證模型的性能。本文還重新研究了最常用的評(píng)估技術(shù)(IS、FID、human rank 等),從圖像質(zhì)量、多樣性、語(yǔ)義一致性三個(gè)方面來(lái)評(píng)估生成的圖像。最后,從復(fù)雜場(chǎng)景和文本表示、多模態(tài)模型、輕量型網(wǎng)絡(luò)等角度客觀地評(píng)價(jià)了該領(lǐng)域可能存在的不足和未來(lái)的研究方向。總之,文本圖像合成是一項(xiàng)具有挑戰(zhàn)性的課題,有著重要的研究?jī)r(jià)值,本文的目的也是為基于GAN 的方法進(jìn)一步研究提供參考。