国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)融合的文本生成圖像

2022-12-11 09:42:26葉龍王正勇何小海
關(guān)鍵詞:集上編碼器注意力

葉龍,王正勇,何小海

(四川大學(xué) 電子信息學(xué)院,成都 610065)

0 引言

文本生成圖像[1]屬于自然語言處理和計(jì)算機(jī)視覺的融合任務(wù),是圖像生成技術(shù)的熱點(diǎn)研究課題之一。文本生成圖像指從給定的自然語言描述中生成真實(shí)的和文本一致的圖像。文本生成圖像可應(yīng)用于圖像描述生成[2-3]、視覺推理[4]、視覺問答[5]、醫(yī)療圖像生成[6]等多個(gè)領(lǐng)域。

近年來,隨著深度學(xué)習(xí)的快速發(fā)展,文本生成圖像的主流方法采用生成對(duì)抗網(wǎng)絡(luò)。早期,Mirza 等人[7]提出CGAN,Reed 等人[8]提出GAN-INT-CLS,但是使用這些方法生成的圖像的質(zhì)量和分辨率都較低。為了解決生成的圖像分辨率的問題,Zhang 等人[9]提出了Stack-GAN,主要是將生成高分辨率的圖像過程分成2 個(gè)階段。低分辨率的圖像是在第一階段生成,第一階段主要關(guān)注圖像的整體結(jié)構(gòu);第二階段生成高分辨率的圖像,這個(gè)階段主要關(guān)注圖像的一些細(xì)節(jié)信息以及糾正第一階段生成圖像的一些錯(cuò)誤。

多階段圖像生成的方法雖然解決了生成圖像分辨率低的問題,但是生成的圖像和輸入文本依然存在語義匹配較低的問題。AttnGAN[10]引入注意力機(jī)制,通過注意力把生成圖像和句子特征向量中最密切的部分聯(lián)系起來。DM-GAN[11]通過引入動(dòng)態(tài)記憶化機(jī)制來使得初始圖像自適應(yīng)地選擇重要的文本信息,但是依然存在生成圖像缺失、生成圖像質(zhì)量不高、低分辨率階段生成圖像與文本描述不相符的問題。

針對(duì)上述問題,本文提出了一種基于多模態(tài)融合的文本生成圖像方法,在圖像特征提取和文本描述提取時(shí)采用通道注意力來突出重要信息,同時(shí)將提取出的文本特征和圖像特征用雙線性池化[12]進(jìn)行融合,從而得到文本信息和對(duì)應(yīng)圖像信息之間的映射關(guān)系。

1 相關(guān)工作

1.1 通道注意力機(jī)制

近年來,通道注意力在視覺處理[13]等任務(wù)得到廣泛應(yīng)用,其基本原理是通過對(duì)每個(gè)特征通道進(jìn)行加權(quán),來突出關(guān)鍵信息、抑制無效信息,從而達(dá)到提高特征表示能力的目的。Hu 等人提出了SENet[14],SENet使用全局損失函數(shù)來自適應(yīng)地調(diào)整每個(gè)通道的權(quán)重,SENet 在圖像分類方面效果顯著。

1.2 多模態(tài)融合注意力機(jī)制

AttnGAN 中加入了注意力來提升文本生成圖像的質(zhì)量,但是,文本信息和圖像信息之間的交互對(duì)于文本生成圖像是至關(guān)重要的,特別是文本特征和圖像特征之間的聯(lián)系以及對(duì)齊。最近,雙線性池化(MFB)在視覺問答方面表現(xiàn)出很好的效果,視覺問答需要做的是同時(shí)理解圖像內(nèi)容和文本內(nèi)容,文本生成圖像同樣也需要理解圖像內(nèi)容和文本內(nèi)容,因此,采用MFB 將文本信息和圖像信息進(jìn)行融合編碼,這種多模態(tài)融合編碼能夠有效提升生成圖像的質(zhì)量。

1.3 文本生成圖像方法

文本生成圖像主流的方法是使用堆疊式網(wǎng)絡(luò)來生成高質(zhì)量的圖像。Zhang等人[9]提出了StackGAN,采用了2 個(gè)堆疊的生成器,第一階段關(guān)注圖像的背景、輪廓等基本信息,生成低分辨率的64?64 像素的圖片,第二階段彌補(bǔ)之前缺失的細(xì)節(jié)和紋理等高級(jí)特征,生成256?256 高分辨率的圖像。Xu 等人[10]提出了AttnGAN 模型,該模型在生成網(wǎng)絡(luò)中引入了自注意力機(jī)制,AttnGAN 實(shí)現(xiàn)了單詞與圖片中的某個(gè)子區(qū)域的對(duì)應(yīng),自動(dòng)選擇字級(jí)條件以生成圖像不同子區(qū)域。2019年,Qiao 等人[15]提出了MirrorGAN 來實(shí)現(xiàn)圖像到文本,文本到圖像的雙重映射。Zhu 等人[11]提出的DMGAN 通過引入動(dòng)態(tài)記憶化機(jī)制來使得初始圖像自適應(yīng)地選擇重要的文本信息。然而現(xiàn)有的對(duì)文本編碼的方式,沒有考慮到文本信息與對(duì)應(yīng)圖像之間的映射關(guān)系,導(dǎo)致第一階段生成的圖像和輸入文本的不匹配,也會(huì)導(dǎo)致后面兩級(jí)圖像的優(yōu)化受到影響。因此,本文基于DM-GAN 網(wǎng)絡(luò)進(jìn)行改進(jìn),在圖像特征提取和文本描述提取時(shí)采用通道注意力來突出重要信息,在預(yù)訓(xùn)練文本編碼器時(shí)引入了雙線性池化,將文本特征和圖像特征進(jìn)行聯(lián)合編碼后,輸出一個(gè)新的融合后的特征向量,新的特征向量學(xué)習(xí)到圖像和文本之間的關(guān)系,因此可以生成更加真實(shí)的圖像。

2 基于多模態(tài)融合的生成對(duì)抗網(wǎng)絡(luò)

MLT-GAN 模型框架如圖1 所示。由圖1 可知,本文設(shè)計(jì)的MLT-GAN 由預(yù)訓(xùn)練編碼器、生成對(duì)抗網(wǎng)絡(luò)和動(dòng)態(tài)存儲(chǔ)三個(gè)模塊構(gòu)成。多模態(tài)融合注意力機(jī)制用于預(yù)訓(xùn)練編碼器,是將文本特征輸入到多模態(tài)融合編碼器中,多模態(tài)融合編碼器將輸出特征向量fc和單詞特征矩陣W。隨機(jī)噪聲和多模態(tài)融合注意力向量相結(jié)合,輸入到生成對(duì)抗網(wǎng)絡(luò)中,三級(jí)生成器逐級(jí)生成高分辨率的圖像。單詞特征矩陣W主要是用來在動(dòng)態(tài)存儲(chǔ)模塊中和初級(jí)圖像特征進(jìn)行融合來生成下一級(jí)的圖像特征。上述過程的數(shù)學(xué)方法公式分別如下:

圖1 MLT-GAN 模型框架圖Fig.1 MLT-GAN model framework diagram

其中,CE是多模態(tài)融合編碼器;DM是動(dòng)態(tài)存儲(chǔ)模塊;原始圖像特征是FR;G0,G1,G2表示三級(jí)生成器;s是從文本描述中提取的全局句子向量;F0,F(xiàn)1,F(xiàn)2是G0,G1,G2生成的圖像特征;z是隨機(jī)高斯噪聲。

2.1 多模態(tài)融合注意力編碼

本文設(shè)計(jì)了一種多模態(tài)融合編碼器來將圖像信息和文本信息進(jìn)行聯(lián)合編碼和對(duì)齊。

多模態(tài)融合編碼器框架如圖2 所示。由圖2 可看到,多模態(tài)融合編碼器由4 部分組成,包括文本特征提取、圖像特征提取、通道注意力編碼和多模態(tài)融合注意力編碼。對(duì)此擬展開研究分述如下。

圖2 多模態(tài)融合編碼器框架圖Fig.2 Multimodal fusion encoder framework diagram

(1)文本特征提取。提取文本特征用的是雙向長(zhǎng)短時(shí)網(wǎng)絡(luò)[12](LSTM),雙向長(zhǎng)短時(shí)網(wǎng)絡(luò)是將文本描述進(jìn)行編碼,輸出一個(gè)單詞特征矩陣Wd?t和全局句子特征向量s。推得的數(shù)學(xué)公式為:

其中,t表示單詞的個(gè)數(shù);d表示詞向量的維度;Ttext表示原文本描述;TE表示雙向LSTM 網(wǎng)絡(luò)。

(2)圖像特征提取。圖像特征提取采用InceptionV3 模型[13]。此處需用到的公式為:

(3)通道注意力編碼。為了突出圖像特征和文本描述特征中的重要信息,引入通道注意力,將特征提取后的圖像特征圖和文本特征向量輸入到通道注意力中,采用通道注意力對(duì)圖像特征圖和文本特征向量進(jìn)行加權(quán),使得生成的圖像多樣性更加豐富。圖像通道注意力和文本通道注意力如圖3、圖4 所示。

圖3 圖像通道注意力模塊Fig.3 Image channel attention module

圖4 文本通道注意力模塊Fig.4 Text channel attention module

在通道注意力模塊中,權(quán)重w的計(jì)算如下:

其中,y=GGAP(R),是通過對(duì)輸入的特征圖經(jīng)過平均池化后得到;σ是Sigmoid函數(shù);Q是權(quán)重矩陣。

假定接受的特征圖R∈RW×H×C,W、H、C分別表示特征圖的寬度、高度和通道維度。全局平均池化的計(jì)算公式如下:

權(quán)重矩陣Q的尺寸是k × C,針對(duì)每一個(gè)通道yi,對(duì)應(yīng)的權(quán)重wi,僅需考慮相鄰的k個(gè)通道的相應(yīng)加權(quán)(本文設(shè)置的是3),如下式所示:

(4)多模態(tài)融合注意力編碼。多模態(tài)融合注意力編碼主要是將文本特征和圖像特征的內(nèi)部聯(lián)系搭建起來,實(shí)現(xiàn)兩者的聯(lián)合編碼。經(jīng)過通道注意力的圖像特征和全局句子特征s′通過多模態(tài)融合注意力編碼后,融合成一個(gè)新的特征fc,本文采用的多模態(tài)融合注意力編碼方法是雙線性池化(Bilinear Pooling)。數(shù)學(xué)函數(shù)形式見如下:

雙線性池化具體細(xì)節(jié)如圖5 所示。由圖5 可看到,雙線性池化可以分解為2 個(gè)階段,首先,不同模態(tài)的特征被擴(kuò)展到高維空間,然后進(jìn)行元素相乘,接著經(jīng)過總和池化獲取向量的全局特征,再通過歸一化層來將高維特征進(jìn)行壓縮輸出。

圖5 雙線性池化Fig.5 Bilinear pooling

2.2 經(jīng)典三級(jí)生成對(duì)抗網(wǎng)絡(luò)

由圖1 可知,MLT-GAN 模型采用了和StackGAN、StackGAN++、AttnGAN、DM-GAN 相類似的三級(jí)對(duì)抗生成網(wǎng)絡(luò),分別為G0/D0,G1/D1,G2/D2。G0由一個(gè)大小為3?3 的卷積層、3 個(gè)上采樣層和一個(gè)全連接層組成,第一階段生成64×64 分辨率的圖像;第二階段G1和G2在G0的基礎(chǔ)上進(jìn)行優(yōu)化,分別生成128?128 分辨率的圖像和256?256 分辨率的圖像,兩者的結(jié)構(gòu)一致,由2 個(gè)深度殘差網(wǎng)絡(luò)層、1 個(gè)上采樣層和1 個(gè)大小為3?3 的卷積網(wǎng)絡(luò)層組成。

2.3 動(dòng)態(tài)存儲(chǔ)記憶模塊

動(dòng)態(tài)存儲(chǔ)模塊存在于生成器G0與G1,生成器G1與生成器G2之間,該模塊的作用是在初始圖像的生成上,基于動(dòng)態(tài)內(nèi)存將圖像質(zhì)量進(jìn)行進(jìn)一步的細(xì)化。動(dòng)態(tài)存儲(chǔ)模塊框圖如圖6 所示。圖6中,動(dòng)態(tài)存儲(chǔ)記憶模塊由4 部分組成,分別為:內(nèi)存寫入、鍵尋址、值讀取、響應(yīng)。研究對(duì)此將給出探討論述如下。

圖6 動(dòng)態(tài)存儲(chǔ)模塊框圖Fig.6 Dynamic storage block diagram

(1)模塊的輸入是:

其中,W表示單詞特征矩陣;Ri表示圖像特征;R0表示初始圖像特征;R1表示第二級(jí)圖像特征;R2表示第三級(jí)圖像特征;T表示單詞個(gè)數(shù);Nw表示單詞特征維數(shù);N表示圖像像素個(gè)數(shù);Nr表示圖像像素特征矩陣的維度。

(2)內(nèi)存寫入門。主要通過內(nèi)存寫門來實(shí)現(xiàn),通過選擇相關(guān)單詞來細(xì)化初始化圖像,對(duì)此可表示為:

其中,σ表示sigmoid函數(shù);A為1?Nw維矩陣;B為1?Nr維矩陣;Mw(·)和Mr(·)表示1?1的卷積操作,Mw(·)和Mr(·)是以Nm維度把文字特征和圖像特征嵌入到同一個(gè)特征空間中。

(3)鍵尋址過程。在這一步中,使用密鑰存儲(chǔ)器檢索相關(guān)的存儲(chǔ)器,計(jì)算每個(gè)內(nèi)存槽的權(quán)重,作為內(nèi)存槽mi與圖像特征rj的相似概率,可由如下公式來求值:

其中,ai,j表示第i個(gè)內(nèi)存和第j個(gè)圖像特征的相似度,φK()是1?1 的卷積網(wǎng)絡(luò),目的是將內(nèi)存特征映射到Nr維度。

(4)值讀取過程。輸出記憶表示定義為根據(jù)相似概率的記憶加權(quán)求和,數(shù)學(xué)定義公式具體如下:

其中,φV()為值內(nèi)存訪問進(jìn)程,將內(nèi)存特性映射到Nr維數(shù),φV()實(shí)現(xiàn)1?1 的卷積操作。

(5)響應(yīng)門。是用來完成響應(yīng)步驟的,響應(yīng)門是通過利用門控機(jī)制來及時(shí)控制信息以及圖像信息的更新??捎扇缦鹿竭M(jìn)行描述:

2.4 損失函數(shù)

MLT-GAN 的損失函數(shù)由2 部分組成,分別為生成器損失函數(shù)和判別器損失函數(shù)。文中對(duì)此可做闡釋解析如下。

(1)生成器損失函數(shù)L。由3 部分組成:分別為條件損失函數(shù)LCA、生成損失函數(shù)和深度多模態(tài)相似模型損失函數(shù)(DAMSM)LDAMSM。即可由下式來計(jì)算:

其中,λ1和λ2分別為條件損失LCA和深度多模態(tài)相似模型損失函數(shù)LDAMSM的權(quán)重。

其中,u(s)是句子特征的均值,∑(s)是句子對(duì)角協(xié)方差矩陣。u(s)和∑(s)由全連接層計(jì)算,式(22)中,第一項(xiàng)是無條件損失,目的是使得生成的圖像盡可能真實(shí),第二項(xiàng)是條件損失,目的是使得圖像與輸入的句子相符合。條件損失LCA用來防止過擬合。

②LDAMSM。DAMSM 損失函數(shù)用來衡量圖像和文本描述的匹配程度,DAMSM 損失函數(shù)使生成的圖像更好地適應(yīng)文本描述。

(2)判別器損失函數(shù)。由條件損失LCD和非條件損失LD組成,具體公式如下:

其中,

其中,無條件損失LD是用來區(qū)分生成的圖像和真實(shí)圖像,條件損失LCD是用來判斷輸入的句子和圖像是否符合。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文在Coco[16]和CUB[17]兩個(gè)數(shù)據(jù)集上分別進(jìn)行了訓(xùn)練和測(cè)試。其中,CUB 數(shù)據(jù)集是專門針對(duì)鳥類圖像的數(shù)據(jù)集,CUB 數(shù)據(jù)集收錄了200 種鳥類,數(shù)據(jù)集包括鳥類圖片和對(duì)應(yīng)的文本描述。Coco 數(shù)據(jù)集包含了復(fù)雜場(chǎng)景、豐富的類別,共有80 個(gè)類別,數(shù)據(jù)集的具體情況見表1。

表1 數(shù)據(jù)集Tab.1 The experimental dataset

3.2 實(shí)驗(yàn)過程

本文在公開數(shù)據(jù)集Coco 和CUB 數(shù)據(jù)集上訓(xùn)練和測(cè)試了MLT-GAN。

實(shí)驗(yàn)共由3 步組成,第一步預(yù)訓(xùn)練多模態(tài)融合編碼器,第二步訓(xùn)練整個(gè)模型,第三步測(cè)試整體模型的性能效果。對(duì)此內(nèi)容可做重點(diǎn)論述如下。

(1)預(yù)測(cè)訓(xùn)練多模態(tài)融合編碼器。通過不同的任務(wù)預(yù)訓(xùn)練多模態(tài)融合編碼器,來得到每個(gè)任務(wù)中文本信息與圖像信息之間的關(guān)系,可以得到對(duì)應(yīng)此任務(wù)的文本與對(duì)應(yīng)的圖像的融合編碼,運(yùn)行的結(jié)果是保存訓(xùn)練好的編碼器模型。

(2)訓(xùn)練整個(gè)模型。在整個(gè)模型訓(xùn)練過程中,首先加載已經(jīng)過訓(xùn)練并保存了的編碼器模型,接著單獨(dú)訓(xùn)練MLT-GAN 模型的剩余部分。

(3)測(cè)試整個(gè)模型的性能效果。分別在Coco數(shù)據(jù)集和CUB 數(shù)據(jù)集上進(jìn)行測(cè)試,本文的MLTGAN 均生成了30 000張逼真圖像,通過計(jì)算相應(yīng)的IS分?jǐn)?shù)和FID分?jǐn)?shù),來衡量本文提出的MLT-GAN模型的性能好壞。

3.3 評(píng)價(jià)指標(biāo)

本文采用FID[18](Frechet Inception Distance)和IS[19](Inception Score)分?jǐn)?shù)來衡量MLT-GAN 的性能。對(duì)此,文中將進(jìn)行研究表述見如下。

(1)IS。IS值越高,表示生成圖片的多樣性和品質(zhì)就越好,IS的公式如下:

其中,p(y |x)是預(yù)訓(xùn)練圖像編碼器預(yù)測(cè)的對(duì)應(yīng)標(biāo)簽y的條件概率,p(y)則是預(yù)訓(xùn)練圖像編碼器預(yù)測(cè)的對(duì)應(yīng)標(biāo)簽y的邊緣概率。

(2)FID得分。是指真實(shí)圖像與虛假圖像之間在特征方面的距離,當(dāng)真實(shí)圖像與虛假圖像特征越近時(shí),F(xiàn)ID值就越小。其計(jì)算方法為:

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 定量評(píng)價(jià)

本文從定量評(píng)價(jià)和定性評(píng)價(jià)兩個(gè)方面來評(píng)估MLT-GAN 模型的性能。本文使用在Coco 數(shù)據(jù)集和CUB 數(shù)據(jù)集的測(cè)試集中生成的30 000 張圖像來計(jì)算FID分?jǐn)?shù)和IS分?jǐn)?shù),并與一些主流的對(duì)抗生成網(wǎng)絡(luò)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表2、表3。

表2 不同模型在CUB 數(shù)據(jù)集上的FID和IS 分?jǐn)?shù)Tab.2 FID and IS scores of different models on the CUB dataset

表3 不同模型在Coco 數(shù)據(jù)集上的FID和IS 分?jǐn)?shù)Tab.3 FID and IS scores of different models on the Coco dataset

表2 列出了MLT-GAN 與部分主流的對(duì)抗生成網(wǎng)絡(luò)在CUB 數(shù)據(jù)集上的FID和IS分?jǐn)?shù)。與本文的基礎(chǔ)網(wǎng)絡(luò)DM-GAN 模型相比,本文設(shè)計(jì)的MLTGAN 網(wǎng)絡(luò)的IS分?jǐn)?shù)從4.75 提高到4.83,可知提升了2.11%,DM-GAN 模型的FID分?jǐn)?shù)為16.09,而本文提出的MLT-GAN 模型的分?jǐn)?shù)為15.26,顯然有所下降,說明本文提出的MLT-GAN 模型生成的鳥類圖像在圖像質(zhì)量和清晰度上有了明顯的改善。

表3 列出了MLT-GAN 與部分主流的對(duì)抗生成網(wǎng)絡(luò)在CUB 數(shù)據(jù)集上的FID和IS分?jǐn)?shù)。與本文的基礎(chǔ)網(wǎng)絡(luò)DM-GAN 模型相比,本文設(shè)計(jì)的MLTGAN 網(wǎng)絡(luò)的IS分?jǐn)?shù)從30.49 提高到30.92,DMGAN 模型的FID分?jǐn)?shù)為32.64,而本文提出的MLTGAN 模型的分?jǐn)?shù)為31.12,已出現(xiàn)明顯的下降,說明本文提出的MLT-GAN 模型生成的鳥類圖像在圖像質(zhì)量和多樣性上有了一定的改善。

通過上述實(shí)驗(yàn)的定量的分析可得,本文提出的MLT-GAN 模型所生成的圖像質(zhì)量和清晰度比其他方法生成的圖像質(zhì)量和圖像清晰度有了一定的提升,生成圖像的內(nèi)容也更加接近真實(shí)的圖像,證明了本文提出的MLT-GAN 模型在文本生成圖像任務(wù)中具有良好的效果。

為了進(jìn)一步檢驗(yàn)本文所述的通道注意力機(jī)制和多模態(tài)融合注意力機(jī)制在提高模型性能方面的作用,本文將基礎(chǔ)網(wǎng)絡(luò)DM-GAN 上加入通道注意力模塊,將其命名為TDM-GAN,將基礎(chǔ)網(wǎng)絡(luò)DM-GAN上加入多模態(tài)融合注意力模塊,將其命名為MDMGAN,將本文提出的MLT-GAN 同其進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見表4、表5。

表4 不同模型在CUB 數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.4 Ablation experiments of different models on CUB datasets

表5 不同模型在Coco 數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.5 Ablation experiments of different models on Coco datasets

根據(jù)表4、表5 給出的實(shí)驗(yàn)結(jié)果可以得到,本文提出的MLT-GAN 比去除了通道注意力和多模態(tài)融合注意力模塊的網(wǎng)絡(luò)效果更好。

3.4.2 定性評(píng)價(jià)

為了更加直觀評(píng)價(jià)MLT-GAN 的性能,本文以示例的形式將MLT -GAN 模型生成的圖像和AttnGAN 網(wǎng)絡(luò)模型、DM-GAN 網(wǎng)絡(luò)模型生成的圖像進(jìn)行對(duì)比,對(duì)比結(jié)果如圖7、圖8 所示。

圖7 是CUB 數(shù)據(jù)集上3 種模型生成的部分圖像。從圖7 中可以看出,AttnGAN 和DM-GAN 生成的圖像實(shí)物和背景的邊界不清晰,存在模糊區(qū)域,忽略了鳥類圖像的一些細(xì)節(jié)特征,圖像的分辨率不高,而本文提出的MLT-GAN 生成的鳥類圖像背景與實(shí)物背景分明,生成的圖像分辨率高且具有更多的細(xì)節(jié)特征。

圖7 AttnGAN、DM-GAN、MLT-GAN 在CUB 數(shù)據(jù)集上生成的圖像Fig.7 Generated images of the AttnGAN model、DM-GAN model and MLT-GAN model on the CUB dataset

圖8 是3 種模型在Coco 數(shù)據(jù)集上生成的部分圖像。從圖8 中可以看出,AttnGAN 模型生成的圖像輪廓不完整,圖片中具體的場(chǎng)景很難識(shí)別,DMGAN 模型生成的圖像質(zhì)量相較于AttnGAN 有了一定的提升,但是生成的圖像內(nèi)容殘缺,捕捉到的細(xì)節(jié)特征不夠明顯,圖片的質(zhì)量有待提高。而本文提出的MLT-GAN 模型生成的圖像存在較少失真,圖像內(nèi)容結(jié)構(gòu)完整,輪廓清晰,文本描述中的細(xì)節(jié)和紋理的重點(diǎn)得以突出,圖像質(zhì)量得到顯著提高。

圖8 AttnGAN、DM-GAN、MLT-GAN 在Coco 數(shù)據(jù)集上生成的圖像Fig.8 Generated images of the AttnGAN model、DM-GAN model and MLT-GAN model on the Coco dataset

4 結(jié)束語

本文提出了一種基于多模態(tài)融合的文本生成圖像方法(MLT-GAN),通過在預(yù)訓(xùn)練編碼階段引入通道注意力和多模態(tài)融合注意力來對(duì)文本信息和圖像信息進(jìn)行融合編碼,從而捕捉到文本特征和視覺特征之間的內(nèi)在聯(lián)系,提升了圖像的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,在Coco 數(shù)據(jù)集和CUB 數(shù)據(jù)集上,相較于DM-GAN 模型,本文提出的MLT-GAN 模型的FID分?jǐn)?shù)降低了4.66%和5.16%,IS指標(biāo)提高了1.41%和1.68%。本文提出的MLT-GAN 在CUB 數(shù)據(jù)集和Coco 數(shù)據(jù)集,相較于基礎(chǔ)網(wǎng)絡(luò)DM-GAN 和單獨(dú)添加了通道注意力的TDM-GAN 以及單獨(dú)添加了多模態(tài)融合注意力的MDM-GAN 都有一定的提高,因此,本文提出的MLT-GAN 在文本生成圖像任務(wù)中具有良好的效果,生成圖片的質(zhì)量得到顯著提高。

猜你喜歡
集上編碼器注意力
讓注意力“飛”回來
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于FPGA的同步機(jī)軸角編碼器
復(fù)扇形指標(biāo)集上的分布混沌
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
A Beautiful Way Of Looking At Things
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
抚远县| 随州市| 靖州| 固安县| 平安县| 宁远县| 昌江| 安溪县| 甘德县| 桂平市| 大名县| 揭东县| 江口县| 板桥市| 涞水县| 通化市| 福建省| 揭东县| 博罗县| 南康市| 武强县| 阳曲县| 什邡市| 马鞍山市| 和顺县| 珠海市| 龙江县| 苍溪县| 如皋市| 南郑县| 全椒县| 白沙| 沭阳县| 澄迈县| 乐都县| 长阳| 肃南| 建宁县| 林西县| 辽阳市| 手机|