摘 要:基于Transformer架構(gòu)的圖像描述生成方法通常學(xué)習(xí)從圖像空間到文本空間的確定性映射,以提高預(yù)測(cè)“平均”描述語(yǔ)句的性能,從而導(dǎo)致模型傾向于生成常見(jiàn)的單詞和重復(fù)的短語(yǔ),即所謂的模式坍塌問(wèn)題。為此,將條件變分自編碼與基于Transformer的圖像描述生成相結(jié)合,利用條件似然的變分證據(jù)下界分別構(gòu)建了句子級(jí)和單詞級(jí)的多樣化圖像描述生成模型,通過(guò)引入全局與序列隱嵌入學(xué)習(xí)增強(qiáng)模型的隱表示能力。在MSCOCO基準(zhǔn)數(shù)據(jù)集上的定量和定性實(shí)驗(yàn)結(jié)果表明,兩種模型均具備圖像到文本空間的一對(duì)多映射能力。相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在隨機(jī)生成20個(gè)描述語(yǔ)句時(shí),準(zhǔn)確性指標(biāo)CIDEr和多樣性指標(biāo)Div-2分別提升了1.3和33%,在隨機(jī)生成100個(gè)描述語(yǔ)句的情況下,CIDEr和Div-2分別提升了11.4和14%,所提方法能夠更好地?cái)M合真實(shí)描述分布,在多樣性和準(zhǔn)確性之間取得了更好的平衡。
關(guān)鍵詞:圖像描述生成;多樣化描述;變分Transformer;隱嵌入
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-042-2215-06
doi: 10.19734/j.issn.1001-3695.2023.09.0510
Diverse image description generation via global andsequential latent embedding
Abstract: The Transformer-based image captioning models have shown remarkable performance based on the powerful sequence modeling capability. However, most of them focus only on learning deterministic mappings from image space to caption space, i. e., learning how to improve the accuracy of predicting “average” captions, which generally tends to common words, repeated phrases and single sentence, leading to the severe mode collapse problem. To this end, this paper combined the conditional variational encoder with the Transformer-based image captioning model, and proposed the sentence-level and word-level diverse image captioning models, respectively. The proposed models introduced the global and sequential latent embedding learning based on the evidence lower bound(ELBO), which promoted the diversity of Transformer-based image captioning. Quantitative and qualitative experiments on MSCOCO dataset show that both models have the ability of learning one-to-many projections between the image space and the caption space. Compared with the state-of-the-art COS-CVAE, the proposed method with 20 samples improves the CIDEr and Div-2 scores by 1.3 and 33% respectively in the case of 20 samples, improves the CIDEr and Div-2 scores by 11.4 and 14%, respectively in the case of 100 samples. The proposed method can fit the distribution of ground-truth captions well, and achieve a better balance between diversity and accuracy.
Key words:image description generation; diverse image captioning; variational Transformer; latent embedding
0 引言
圖像描述生成是一項(xiàng)具有挑戰(zhàn)性的條件生成任務(wù),旨在生成語(yǔ)法正確且與圖像相對(duì)應(yīng)的描述語(yǔ)句,在圖像理解領(lǐng)域引起了極大的關(guān)注。近幾年,隨著深度學(xué)習(xí)技術(shù)的興起,受神經(jīng)機(jī)器翻譯啟發(fā)的編解碼(encoder-decoder)框架在圖像描述領(lǐng)域中被廣泛采用,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為編碼器提取圖像特征,解碼器則采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network models, RNN),將圖像特征解碼成對(duì)應(yīng)的描述[1~4],或者直接采用Transformer模型實(shí)現(xiàn)整個(gè)編碼器解碼器架構(gòu)。這些方法在一些準(zhǔn)確性評(píng)價(jià)指標(biāo)上(例如BLEU[5]、ROUGE-L[6]、CIDEr[7]),性能取得了顯著提升。然而,現(xiàn)有模型大多關(guān)注從圖像空間到文本空間的確定性映射,導(dǎo)致嚴(yán)重的模式坍塌問(wèn)題。流行的Updown[8]和Transformer[9]圖像描述模型均傾向于生成重復(fù)的短語(yǔ)和句子,無(wú)法保證描述的多樣性。為了解決模式坍塌問(wèn)題,最近一些研究者開(kāi)始探索多樣化的圖像描述生成方法。這些工作通常將生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)[10]或者變分自編碼器(variational auto encoders,VAE)[11]引入圖像描述生成模型[12,13],從而賦予模型一對(duì)多映射的能力。盡管基于GAN的圖像描述模型可以有效提高句子多樣性,但是這種模型很難兼顧句子的準(zhǔn)確性指標(biāo)?,F(xiàn)有的基于條件變分自編碼器的圖像描述模型在多樣性和準(zhǔn)確性之間取得了一個(gè)較好的平衡。然而,這些模型大多基于傳統(tǒng)的長(zhǎng)短時(shí)期記憶網(wǎng)絡(luò)(long short term memory, LSTM)構(gòu)建,導(dǎo)致不能充分利用圖像和文本的全局信息,以及無(wú)法提供并行訓(xùn)練支撐。
針對(duì)上述存在的問(wèn)題,本文將條件變分自編碼引入基于Transformer的圖像描述框架,提出一種新的圖像多樣化描述生成模型。利用條件似然的變分證據(jù)下界,通過(guò)引入全局與序列隱嵌入學(xué)習(xí),分別提出了句子級(jí)和單詞級(jí)的多樣化圖像描述生成方法。首先,本文結(jié)合條件變分自編碼和Transformer模型,提出一種句子級(jí)的變分Transformer圖像描述模型,通過(guò)全局隱空間捕獲句子級(jí)多樣性。然后,將全局隱空間拓展為序列隱空間,提出一種單詞級(jí)的條件變分Transformer圖像描述模型,通過(guò)序列隱空間捕獲單詞級(jí)多樣性。如圖1所示,本文方法具備從圖像空間到文本空間的一對(duì)多映射能力。在MSCOCO標(biāo)準(zhǔn)數(shù)據(jù)集上,針對(duì)所提出的兩種模型和對(duì)比方法進(jìn)行了充分的定量和定性實(shí)驗(yàn)對(duì)比分析,驗(yàn)證了本文方法的有效性。
本文的主要貢獻(xiàn)包括以下三個(gè)方面:
a)設(shè)計(jì)了一種新穎的基于條件變分Transformer架構(gòu)的句子級(jí)圖像多樣化描述框架,支持從圖像空間到文本空間的一對(duì)多映射;
b)將句子級(jí)條件變分Transformer框架拓展為單詞級(jí)圖像多樣化描述生成模型,通過(guò)單詞級(jí)多樣性的隱空間嵌入同時(shí)提升描述的準(zhǔn)確性和多樣性;
c)實(shí)現(xiàn)了端到端的圖像多樣化描述模型訓(xùn)練,并在MSCOCO公開(kāi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文方法在多樣性和準(zhǔn)確性指標(biāo)上均顯著優(yōu)于現(xiàn)有的多樣化圖像描述方法。
1 相關(guān)工作
傳統(tǒng)的圖像描述生成模型通常生成輸入圖像的單一描述,聚焦描述語(yǔ)句的準(zhǔn)確性指標(biāo)。例如,李志欣等人[14]提出結(jié)合視覺(jué)特征和場(chǎng)景語(yǔ)義的圖像描述生成方法,利用潛在狄利克雷分布模型與多層感知機(jī)提取圖像場(chǎng)景語(yǔ)義相關(guān)的主題詞,通過(guò)主題詞指導(dǎo)單詞的準(zhǔn)確生成。周東明等人[15]提出基于強(qiáng)化學(xué)習(xí)的多層級(jí)視覺(jué)融合網(wǎng)絡(luò)模型,通過(guò)將視覺(jué)特征轉(zhuǎn)換為視覺(jué)知識(shí)的特征集,從而生成更加流暢的描述語(yǔ)句。劉茂福等人[16]利用視覺(jué)關(guān)聯(lián)與上下文雙注意力機(jī)制,指導(dǎo)生成準(zhǔn)確的圖像描述文本。宋井寬等人[17]通過(guò)視覺(jué)區(qū)域聚合與雙向協(xié)作學(xué)習(xí),以促進(jìn)模型生成更加細(xì)粒度的圖像描述文本。盡管這些模型有效提升了圖像描述的準(zhǔn)確性,但模型仍未從根本上解決確定性映射導(dǎo)致的模式坍塌問(wèn)題,無(wú)法生成多樣化的描述語(yǔ)句。
最近,多樣化圖像描述生成逐漸成為本領(lǐng)域的研究熱點(diǎn)。Dai等人[18]首次提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)(CGAN)的圖像多樣化描述生成框架,其中生成器采用編解碼架構(gòu),解碼器所生成的描述再傳入至判別器中進(jìn)行判別。隨后在聯(lián)合交替訓(xùn)練生成器和判別器的同時(shí),通過(guò)在生成器端輸入隨機(jī)噪聲來(lái)實(shí)現(xiàn)生成描述語(yǔ)句的多樣化。Shetty等人[19]也基于生成對(duì)抗網(wǎng)絡(luò)提出了更進(jìn)一步提高語(yǔ)義多樣化的模型。該方法將對(duì)抗樣本與近似耿貝爾采樣[20]相結(jié)合,用于圖像描述的訓(xùn)練中,使得生成的描述語(yǔ)句更貼近于人類(lèi)標(biāo)注的真實(shí)標(biāo)簽。盡管基于生成對(duì)抗網(wǎng)絡(luò)的圖像多樣化描述方法可以有效提升生成描述的多樣化,但該類(lèi)方法生成的描述與真實(shí)描述之間差異較大,精確性指標(biāo)較低,且存在難以平衡生成器和判別器聯(lián)合訓(xùn)練的問(wèn)題。
為了兼顧圖像描述的準(zhǔn)確性和多樣性,基于條件變分自編碼的圖像多樣化描述方法逐漸成為主流。Wang等人[21]首次將條件變分自編碼引入到圖像多樣化描述生成任務(wù)中,不同于以往常見(jiàn)的采用固定高斯先驗(yàn)的方式,該方法使用加性高斯先驗(yàn)增加模型對(duì)于不同圖像生成描述的可變性,由此提升模型生成多樣化描述的性能。Aneja等人[22]為了提升模型的細(xì)粒度描述能力,提出了基于序列化隱空間的條件變分自編碼(sequential conditional CVAE, Seq-CVAE)方法,該方法通過(guò)對(duì)逐個(gè)單詞的隱空間建模,實(shí)現(xiàn)對(duì)單詞級(jí)的多樣化控制,并通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和意圖模型分別實(shí)現(xiàn)訓(xùn)練和測(cè)試階段的多樣化保證。Mahajan等人[23]在Seq-CVAE的基礎(chǔ)上采用偽監(jiān)督方式對(duì)數(shù)據(jù)集擴(kuò)充,然后分別對(duì)數(shù)據(jù)集中描述文本的上下文和目標(biāo)進(jìn)行建模,以提升多樣性。 Xu等人[24]進(jìn)一步結(jié)合雙層對(duì)比學(xué)習(xí)緩解了交叉熵?fù)p失導(dǎo)致的模型坍塌問(wèn)題。Deshpande等人[25]通過(guò)引入詞性標(biāo)注信息提升多樣化圖像描述生成性能。與此同時(shí),針對(duì)多樣化描述的相關(guān)評(píng)價(jià)指標(biāo)也被相繼提出。Wang等人[26]提出了依賴(lài)于潛在語(yǔ)義分析(latent semantic analysis,LSA)方法的多樣性評(píng)價(jià)指標(biāo)Self-CIDEr。 2021年,Shi等人[27]通過(guò)與強(qiáng)化學(xué)習(xí)相結(jié)合提出了多樣性評(píng)價(jià)指標(biāo)max-CIDEr,由此提升了模型生成多樣化描述的能力。2022年,基于自評(píng)價(jià)序列訓(xùn)練(self-critical sequence training,SCST)[28],Wang等人[29]提出了與檢索獎(jiǎng)勵(lì)相結(jié)合的多樣性評(píng)價(jià)指標(biāo)CIDErBtw,該方法能夠促使模型生成的描述語(yǔ)句更具備多樣化的特點(diǎn)。
然而,上述基于變分自編碼的圖像描述生成方法大多基于LSTM構(gòu)建,受限于LSTM的序列化建模局限性,這些方法未能引入自注意力機(jī)制充分建模圖像和文本全局特征,也無(wú)法通過(guò)交叉注意力實(shí)現(xiàn)圖像與文本兩種模態(tài)的交互對(duì)齊。此外,這類(lèi)模型不支持并行訓(xùn)練,這些問(wèn)題嚴(yán)重制約了多樣化圖像描述生成性能的進(jìn)一步提升。為此,本文探索如何在Transformer框架下構(gòu)建多樣化圖像描述生成模型,以獲得更優(yōu)的描述準(zhǔn)確性和多樣性。
2 方法
本章首先介紹條件變分自編碼及變分證據(jù)下界,然后基于變分證據(jù)下界構(gòu)建句子級(jí)的全局變分Transformer多樣化圖像描述生成模型。最后進(jìn)一步拓展全局變分Transformer框架,提出了一種基于序列變分Transformer的多樣化圖像描述生成模型。
2.1 基于全局變分Transformer的多樣化圖像描述生成模型
對(duì)于圖像描述這種條件生成任務(wù),大多數(shù)基于Transformer的模型無(wú)法針對(duì)一張圖像生成多個(gè)描述xk,k∈{1,…,K},即無(wú)法建模圖像與描述之間的一對(duì)多映射。受到條件變分自編碼的啟發(fā),擬將條件變分自編碼引入Transformer模型,以拓展其多樣化描述生成能力。具體地,假設(shè)I表示圖像視覺(jué)特征,x表示生成的描述,θ為模型參數(shù)。通過(guò)引入全局隱變量z,則條件概率分布pθ(x|I)表示如下:
pθ(x|I)=∑p(x,z|I)=∑p(x|z,I)p(z|I)(1)
為優(yōu)化式(1),引入后驗(yàn)概率分布q(z|x,I),則條件概率分布pθ(x|I)的log似然變分證據(jù)下界公式可表示為
為了優(yōu)化式(2)中的變分證據(jù)下界,需要分別將后驗(yàn)q(z|x,I)、先驗(yàn)pθ(z|I)以及條件分布pθ(x|z,I)參數(shù)轉(zhuǎn)換為神經(jīng)子網(wǎng)絡(luò)。如圖1所示,面向多樣化圖像描述生成,構(gòu)建一種基于全局隱嵌入的條件變分Transformer模型(global conditional variational Transformer for image captioning, GCV-T-IC)。GCV-T-IC模型由后驗(yàn)推斷分支網(wǎng)絡(luò)q(z|x,I)、先驗(yàn)分支網(wǎng)絡(luò)pθ(z|I)以及解碼網(wǎng)絡(luò)pθ(x|z,I)構(gòu)成,其中后驗(yàn)推斷分支網(wǎng)絡(luò)和先驗(yàn)分支網(wǎng)絡(luò)組成了雙分支的編碼網(wǎng)絡(luò),具體描述如下:
其中:MSA表示多頭自注意力(multi-head self-attention)模塊;AN表示殘差歸一化(add&layer norm)模塊;FFN表示前饋網(wǎng)絡(luò)層(feed forward network)。
為了抽取圖像和描述的全局特征表示,引入一個(gè)可學(xué)習(xí)向量作為查詢(xún)向量,并通過(guò)交叉注意力(cross-attention, CA)模塊自適應(yīng)地將非固定長(zhǎng)度的向量融合為單一向量,具體如下:
b)解碼網(wǎng)絡(luò)。
GCV-T-IC的解碼網(wǎng)絡(luò)pθ(x|I,z)與Transformer解碼器結(jié)構(gòu)類(lèi)似,但隱嵌入變量z需要與描述語(yǔ)句每個(gè)單詞的詞嵌入向量進(jìn)行逐個(gè)拼接作為解碼網(wǎng)絡(luò)輸入。輸入特征首先經(jīng)過(guò)線性層降維,然后利用MSA和AN模塊提取文本語(yǔ)義特征,并與圖像視覺(jué)特征VN一同輸入一個(gè)CA模塊,利用交叉注意力獲得加權(quán)視覺(jué)特征。依次經(jīng)過(guò)AN與FFN層與文本語(yǔ)義特征進(jìn)行融合。最后通過(guò)線性層和softmax操作預(yù)測(cè)詞匯表中單詞出現(xiàn)的概率。
2.2 基于序列變分Transformer的多樣化圖像描述生成模型
在句子級(jí)的全局變分Transformer模型基礎(chǔ)上,進(jìn)一步將其拓展為單詞級(jí)的序列變分Transformer,以提升模型的多樣化
基于式(7),通過(guò)最大化條件分布pθ(x|I)的對(duì)數(shù)似然,可以得到以下基于時(shí)間步的變分證據(jù)下界:
1)后驗(yàn)推斷子網(wǎng)絡(luò)
在后驗(yàn)推斷子網(wǎng)絡(luò)中,首先將單詞嵌入后的向量進(jìn)行位置編碼得到輸入向量W0。隨后,將其輸入多頭自注意模塊MSA并經(jīng)過(guò)AN層可得
Wq=AN(MSA(W0,W0,W0)+W0)(9)
緊接著,通過(guò)多頭交叉注意模塊和殘差歸一化層將文本特征Wq與視覺(jué)特征VN進(jìn)行融合,混合特征Fq表示為
Fq=AN(CA(Wq,VN,VN)+Wq)(10)
2.3 訓(xùn)練與推斷方法
如前所述,全局和序列變分Transformer模型均使用相應(yīng)的ELBO變分證據(jù)下界作為優(yōu)化目標(biāo)函數(shù),具體地,已知圖像視覺(jué)特征V0和對(duì)應(yīng)的成對(duì)描述句子x*={x*0,x*1,…,x*T}?;谌肿兎諸ransformer的多樣化圖像描述生成模型的優(yōu)化目標(biāo)如下:
其中:α表示平衡因子; 第一項(xiàng)表示交叉熵?fù)p失函數(shù);第二項(xiàng)為先驗(yàn)和后驗(yàn)概率之間的KL散度。
相應(yīng)地,基于序列變分Transformer的多樣化圖像描述生成模型的優(yōu)化目標(biāo)如下:
其中:β表示平衡因子。
全局和序列變分Transformer模型的優(yōu)化與推斷過(guò)程如下:
a)通過(guò)N層Transformer編碼器提取圖像視覺(jué)特征VN。利用詞嵌入、位置編碼和N個(gè)注意力塊將輸入語(yǔ)句轉(zhuǎn)換為文本特征WN。
b)將圖像視覺(jué)特征VN與文本特征WN融合后分別映射為全局和序列后驗(yàn)隱變量。
c)從兩種模型的后驗(yàn)分支中采樣全局與序列隱嵌入,用于輸入解碼網(wǎng)絡(luò)生成句子。利用優(yōu)化目標(biāo)函數(shù),將后驗(yàn)分支網(wǎng)絡(luò)作為教師網(wǎng)絡(luò)指導(dǎo)先驗(yàn)網(wǎng)絡(luò),從而實(shí)現(xiàn)先驗(yàn)隱變量與后驗(yàn)隱變量的對(duì)齊。
d)在測(cè)試階段,由于圖像的真實(shí)描述不可觀測(cè),此時(shí),使用先驗(yàn)分支網(wǎng)絡(luò)替換后驗(yàn)分支網(wǎng)絡(luò),從兩種模型的先驗(yàn)分支中采樣對(duì)齊后的全局與序列隱嵌入,將隱嵌入與圖像特征一起輸入解碼器進(jìn)行單詞推斷。解碼過(guò)程中,使用束搜索策略提升生成句子的準(zhǔn)確性。
值得注意的是,所提出的兩種模型均可以實(shí)現(xiàn)端到端的訓(xùn)練和測(cè)試,更便于實(shí)際應(yīng)用。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)
3.1.1 數(shù)據(jù)集
定量與定性實(shí)驗(yàn)中所對(duì)比的圖像描述方法均在MSCOCO數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試。為了公平對(duì)比,與現(xiàn)有方法均采用常用的m-RNN數(shù)據(jù)集劃分方法[2],其中訓(xùn)練集118 287張圖像,驗(yàn)證集4 000張圖像,測(cè)試集1 000張圖像,且每張圖像均有5條由人工標(biāo)注的描述語(yǔ)句與之對(duì)應(yīng)。
3.1.2 準(zhǔn)確性指標(biāo)
實(shí)驗(yàn)采用了四種在圖像描述任務(wù)中廣泛使用的評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型所生成描述的準(zhǔn)確性,包括BLEU@N[5]、METEOR[31]、ROUGE-L[6]、CIDEr[7]。其中:BLEU通過(guò)計(jì)算生成文本和參考文本之間n-gram的精準(zhǔn)率(precision)來(lái)評(píng)價(jià)生成文本的精確性;METEOR在BLEU的基礎(chǔ)上進(jìn)一步考慮了召回率(recall),使得所生成描述在保證精確性的前提下更加人性化和貼合自然的描述內(nèi)容;ROUGE通過(guò)比較生成文本和人工標(biāo)注文本相同的部分,實(shí)現(xiàn)對(duì)句子中單詞的重復(fù)率以及排列順序的相似度的計(jì)算;CIDEr通過(guò)比較生成文本和人工標(biāo)注文本相同的部分,實(shí)現(xiàn)對(duì)句子中單詞的重復(fù)率以及排列順序的相似度計(jì)算。
傳統(tǒng)的圖像描述模型對(duì)于單張測(cè)試圖像利用生成的單個(gè)描述進(jìn)行評(píng)價(jià)指標(biāo)的計(jì)算, 而圖像多樣化描述生成模型需要針對(duì)生成的一組描述進(jìn)行評(píng)價(jià)。目前大多采用Oracle重排序(Oracle re-ranking)計(jì)算best-1 accuracy指標(biāo)。具體地,Oracle重排序使用測(cè)試圖像的真實(shí)描述作為指標(biāo)計(jì)算參考描述,其中在生成的一組描述中,每個(gè)指標(biāo)得分最高的描述被選為best-1,然后計(jì)算所有測(cè)試圖像的best-1準(zhǔn)確性評(píng)價(jià)指標(biāo)的平均值。
3.1.3 多樣性指標(biāo)
目前圖像多樣化描述方法大多采用Consensus重排序(consensus re-ranking)的方式統(tǒng)計(jì)和對(duì)比多樣性指標(biāo)。在Consensus重排序中,對(duì)于一張生成了n個(gè)描述的測(cè)試圖像,首先計(jì)算其與訓(xùn)練集中相似度最高的K個(gè)圖像,然后將n個(gè)描述分別與這K個(gè)相似圖像的M個(gè)真實(shí)描述計(jì)算CIDEr分?jǐn)?shù)。其中得分最高的描述被選為best-1描述。
多樣性指標(biāo)使用best-1 accuracy consensus re-ranking的排序方式,最終選取單張圖片得分最高的best-5個(gè)描述。
a)Uniqueness:測(cè)試集所有圖像生成的best-5個(gè)描述中,不重復(fù)的描述所占比例。
b)Novel:測(cè)試集生成的描述與訓(xùn)練集中真實(shí)描述不重復(fù)的描述個(gè)數(shù)。
c)mBLEU:對(duì)于每一張測(cè)試圖像的best-5,分別計(jì)算其中一個(gè)描述與其余四個(gè)描述的BLEU-4分?jǐn)?shù),取單張圖像五個(gè)描述分?jǐn)?shù)的平均后,再取測(cè)試集平均。
d)Div-1:計(jì)算每一張測(cè)試圖像的best-5中不重復(fù)的1-gram在五個(gè)描述總1-gram長(zhǎng)度中所占比例,并取測(cè)試集平均。
e)Div-2:使用2-gram 替換1-gram,計(jì)算方法同Div-1。
3.2 實(shí)驗(yàn)設(shè)置
所提出的模型在訓(xùn)練中的圖像特征、單詞嵌入和隱變量的維度均設(shè)置為512。在視覺(jué)編碼器中,本文方法使用預(yù)訓(xùn)練的Swin-Transformer來(lái)提取每幅圖像的網(wǎng)格特征,且維度為1 536,并將其線性映射到512維向量中。在生成器中,使用單詞嵌入并加上位置編碼作為后驗(yàn)推斷網(wǎng)絡(luò)和先驗(yàn)近似網(wǎng)絡(luò)的輸入。此外,視覺(jué)編碼器和生成器均是由3層的注意力塊組成的,其中多頭注意力的頭數(shù)為8。在訓(xùn)練階段,設(shè)置批大小為10,利用Adam優(yōu)化算法和warmup學(xué)習(xí)率預(yù)熱技巧來(lái)優(yōu)化提出的模型。在學(xué)習(xí)率為5×10-6和交叉熵與KL散度損失函數(shù)下訓(xùn)練30個(gè)回合。平衡因子α和β分別設(shè)置為0.1。
在測(cè)試階段,為了對(duì)比的公平性,與對(duì)比方法使用相同的束搜索參數(shù)。在進(jìn)行準(zhǔn)確性評(píng)價(jià)度量時(shí)束搜索寬度設(shè)置為2,而在多樣性評(píng)價(jià)度量時(shí)的束搜索寬度設(shè)置為1。此外,本文的實(shí)驗(yàn)環(huán)境為PyTorch=3.8.2、CUDA=10.2和1個(gè)NVIDIA GTX 3080 GPU。
3.3 實(shí)驗(yàn)結(jié)果定量分析
首先將本文方法與主流多樣化圖像描述方法進(jìn)行對(duì)比。表1列出了各方法在MSCOCO數(shù)據(jù)集上使用M-RNN劃分和Oracle重排序后統(tǒng)計(jì)的準(zhǔn)確性結(jié)果,其中“sample”表示每個(gè)方法采樣生成的描述語(yǔ)句數(shù)量,最佳結(jié)果進(jìn)行了加粗顯示。具體地,與對(duì)比方法保持一致,實(shí)驗(yàn)中利用先驗(yàn)分支網(wǎng)絡(luò)采樣20和100個(gè)隱變量,然后輸入解碼網(wǎng)絡(luò)生成多樣化的描述語(yǔ)句。如表1所示,GCV-T-IC在兩種采樣下獲得的各個(gè)準(zhǔn)確性評(píng)價(jià)指標(biāo)得分均優(yōu)于其他對(duì)比方法。特別地,在與人工評(píng)價(jià)相關(guān)性較好的CIDEr指標(biāo)上,GCV-T-IC顯著優(yōu)于其他方法。此外,GCV-T-IC模型在生成過(guò)程中沒(méi)有引入其他的額外信息,而AG-CVAE、POS、COS-CVAE和DCL-CVAE分別在訓(xùn)練過(guò)程中利用了目標(biāo)對(duì)象信息、PoS標(biāo)簽、增強(qiáng)的上下文信息和預(yù)訓(xùn)練模型。SCV-T-IC模型在采樣100的條件下,其準(zhǔn)確性指標(biāo)優(yōu)于當(dāng)前最優(yōu)的DCL-CVAE模型,而僅次于GCV-T-IC。
表2列出了各方法在MSCOCO數(shù)據(jù)集上使用M-RNN劃分和Consensus重排序后統(tǒng)計(jì)的多樣性結(jié)果。SCV-T-IC在兩種采樣下獲得的多樣性評(píng)價(jià)指標(biāo)綜合性能均優(yōu)于其他對(duì)比方法,這是因?yàn)镾CV-T-IC結(jié)合自注意力機(jī)制和序列變分推斷,更加關(guān)注單詞級(jí)的多樣性,傾向于生成更加多樣的句子。
圖3展示了不同模型在采樣20個(gè)句子時(shí)每個(gè)單詞位置上各不相同的2-gram和4-gram單詞序列的數(shù)量??梢园l(fā)現(xiàn),本文方法在大多數(shù)單詞位置上的2-gram和4-gram單詞序列的數(shù)量都有顯著提高。 這是因?yàn)楸疚姆椒ú粌H能夠?qū)γ總€(gè)單詞位置進(jìn)行細(xì)粒度的隱式表征,而且能利用Transformer全局注意力機(jī)制更好地近似條件先驗(yàn),以提供更好的泛化能力。實(shí)驗(yàn)結(jié)果進(jìn)一步證實(shí),與現(xiàn)有方法相比,本文方法具有更好的多樣化圖像描述性能。
3.4 實(shí)驗(yàn)結(jié)果定性分析
圖4進(jìn)一步定性對(duì)比了各方法從相同的兩個(gè)測(cè)試圖像采樣得到的描述語(yǔ)句(參見(jiàn)電子版)。其中錯(cuò)誤的單詞用紅色標(biāo)記,重復(fù)的短語(yǔ)用綠色標(biāo)記。直觀地說(shuō),與其他方法相比,本文方法生成的描述更加準(zhǔn)確和多樣。如圖4第二幅圖像及其對(duì)應(yīng)描述所示,SCV-T-IC可以準(zhǔn)確識(shí)別出圖像中鳥(niǎo)的數(shù)量,而其他方法則生成了不準(zhǔn)確的量詞和錯(cuò)誤的單詞。此外,對(duì)比方法傾向于生成高頻n-gram的短語(yǔ),而本文提出的GCV-T-IC和SCV-T-IC方法均可以生成更連貫和精細(xì)的描述,例如,生成的描述中包含了不常見(jiàn)的單詞“orange beaks”“l(fā)ooking around”等。
為了更好地定性評(píng)估所提出方法的有效性,分別對(duì)本文兩種模型生成描述過(guò)程中的交叉注意力權(quán)重進(jìn)行可視化。圖5展示了在每個(gè)時(shí)間步生成的單詞及其對(duì)應(yīng)的Transformer解碼網(wǎng)絡(luò)最后一層的交叉注意力權(quán)重?zé)釄D。從圖中可以看出,本文方法可以針對(duì)生成的語(yǔ)句關(guān)注到與語(yǔ)義最相關(guān)的圖像區(qū)域,而一些與圖像無(wú)關(guān)的詞的注意力權(quán)重分布則較為稀疏,說(shuō)明本文提出的兩種方法均能針對(duì)單詞推斷學(xué)習(xí)比較準(zhǔn)確的注意力權(quán)重。
4 結(jié)束語(yǔ)
本文提出了一種新穎的變分Transformer多樣化圖像描述生成框架,該框架將條件變分自編碼器與端到端的Transformer的圖像描述生成模型無(wú)縫融合?;谧C據(jù)下界,設(shè)計(jì)了兩種類(lèi)型的條件變分Transformer模型,即GVC-T-IC和SCV-T-IC。 其中:GVC-T-IC利用全局隱嵌入捕獲句子級(jí)多樣性;SCV-T-IC將序列隱變量引入編解碼過(guò)程,以提升每個(gè)時(shí)間步生成單詞的多樣性。定量和定性實(shí)驗(yàn)表明,所提出的方法在準(zhǔn)確性和多樣性指標(biāo)方面顯著優(yōu)于現(xiàn)有的多樣化圖像描述方法。下一步工作將引入擴(kuò)散模型進(jìn)行語(yǔ)言建模,以進(jìn)一步提高多樣化圖像描述的性能。
參考文獻(xiàn):
[1]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions [C]// Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3128-3137.
[2]Mao Junhua,Xu Wei,Yang Yi,et al. Deep captioning with multimodal recurrent neural networks(M-RNN) [C]// Proc of the 3rd International Conference on Learning Representations. 2015: 1-17.
[3]Vinyal O,Toshev A,Bengio S,et al. Show and tell: a neural image caption generator [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3156-3164.
[4]石義樂(lè),楊文忠,杜慧祥,等. 基于深度學(xué)習(xí)的圖像描述綜述 [J]. 電子學(xué)報(bào),2021,49(10): 2048-2060.(Shi Yile,Yang Wenzhong,Du Huixiang,et al. Overview of image captions based on deep learning [J]. Acta Electronica Sinica,2021,49(10): 2048-2060.)
[5]Papineni K,Roukos S,Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2002: 311-318.
[6]Lin C Y. ROUGE: a package for automatic evaluation of summaries [M]// Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004: 74-81.
[7]Vedantam R,Zitnic C L,Parikh D. CIDEr: consensus-based image description evaluation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 4566-4575.
[8]Anderson P,He Xiaodong,Buehker C,et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2018: 6077-6086.
[9]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 6000-6010.
[10]GoodFellow I J,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks [J]. Communications of the ACM,2020,63(11): 139-144.
[11]Kingma D P,Wellling M. Auto-encoding variational Bayes [C]// Proc of the 2nd International Conference on Learning Representations. 2014: 1-14.
[12]Chen Chen,Mu Shuai,Xiao Wanpeng,et al. Improving image captioning with conditional generative adversarial nets [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 8142-8150.
[13]Chen Fuhai,Ji Rongrong,Sun Xiaoshuai,et al. Variational structured semantic inference for diverse image captioning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2019: 1929-1939.
[14]李志欣,魏海洋,黃飛成,等. 結(jié)合視覺(jué)特征和場(chǎng)景語(yǔ)義的圖像描述生成 [J]. 計(jì)算機(jī)學(xué)報(bào),2020,43(9): 1624-1640.(Li Zhixin,Wei Haiyang,Huang Feicheng,et al. Combine visual features and scene semantics for image captioning [J]. Chinese Journal of Computers,2020,43(9): 1624-1640.)
[15]周東明,張燦龍,李志欣,等. 基于多層級(jí)視覺(jué)融合的圖像描述模型 [J]. 電子學(xué)報(bào),2021,49(7): 1286-1290.(Zhou Dongming,Zhang Canlong,Li Zhixin,et al. Image captioning model based on multi-level visual fusion [J]. Acta Electronica Sinica,2021,49(7): 1286-1290.)
[16]劉茂福,施琦,聶禮強(qiáng). 基于視覺(jué)關(guān)聯(lián)與上下文雙注意力的圖像描述生成方法 [J]. 軟件學(xué)報(bào),2022,33(9): 3210-3222.(Liu Maofu,Shi Qi,Nie Liqiang. Image captioning based on visual relevance and context dual attention [J]. Journal of Software,2022,33(9): 3210-3222.)
[17]宋井寬,曾鵬鵬,顧嘉揚(yáng),等. 基于視覺(jué)區(qū)域聚合與雙向協(xié)作的端到端圖像描述生成 [J]. 軟件學(xué)報(bào),2023,34(5): 2152-2169.(Song Jingkuan,Zeng Pengpeng,Gu Jiayang,et al. End-to-end image captioning via visual region aggregation and dual-level collaboration [J]. Journal of Software,2023,34(5): 2152-2169.)
[18]Dai Bo,F(xiàn)idler S,Urtasun R,et al. Towards diverse and natural image descriptions via a conditional GAN [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 2970-2979.
[19]Shetty R,Rohrbach M,Hendricks L A,et al. Speaking the same language: matching machine to human captions by adversarial training [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 4135-4144.
[20]Huijben I A M,Kool W,Paulus M B,et al. A review of the Gumbel-max trick and its extensions for discrete stochasticity in machine lear-ning [J]. IEEE Trans on Pattern Analysis and Machine Intel-ligence,2022,45(2): 1353-1371.
[21]Wang Liwei,Schwing A G,Lazebnik S. Diverse and accurate image description using a variational auto-encoder with an additive Gaussian encoding space [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5756-5766.
[22]Aneja J,Agrawal H,Batra D,et al. Sequential latent spaces for mo-deling the intention during diverse image captioning [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4261-4270.
[23]Mahajan S,Roth S. Diverse image captioning with context-object split latent spaces [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2020: 3613-3624.
[24]Xu Jing,Liu Bing,Zhou Yong,et al. Diverse image captioning via conditional variational autoencoder and dual contrastive learning [J]. ACM Trans on Multimedia Computing,Communications and Applications,2023,20(1): 1-16.
[25]Deshpande A,Aneja J,Wang Liwei,et al. Fast,diverse and accurate image captioning guided by part-of-speech [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 10695-10704.
[26]Wang Qingzhong,Chan A B. Describing like humans:on diversity in ima-ge captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 4195-4203.
[27]Shi Jiahe,Li Yali,Wang Shenjin. Partial off-policy learning: balance accuracy and diversity for human-oriented image captioning [C]//Proc of IEEE International Conference on Computer Vision. Piscata-way,NJ: IEEE Press,2021: 2187-2196.
[28]Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 7008-7024.
[29]Wang Jiuniu,Xu Wenjia,Chan A B,et al. On distinctive image captioning via comparing and reweighting [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(2): 2088-2103.
[30]Liu Ze,Lin Yutong,Cao Yue,et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 10012-10022.
[31]Banerjee S,Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments [C]// Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA: Association for Computational Linguistics,2005: 65-72.
[32]Vijayakumar A K,Cogswell M,Selvarju R R,et al. Diverse beam search for improved description of complex scenes [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 7371-7379.