国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于細(xì)粒度視覺特征和知識圖譜的視覺故事生成算法

2022-11-07 10:12:22李朦朦江愛文龍羽中王明文
中文信息學(xué)報 2022年9期
關(guān)鍵詞:細(xì)粒度圖譜語義

李朦朦,江愛文,龍羽中,寧 銘,彭 虎,王明文

(1.江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2.九江學(xué)院 計(jì)算機(jī)與大數(shù)據(jù)科學(xué)學(xué)院,江西 九江 332005)

0 前言

近年來,隨著計(jì)算機(jī)視覺和自然語言處理技術(shù)的不斷發(fā)展,以及圖像內(nèi)容描述(Image Captioning)這一任務(wù)的逐漸成熟,視覺故事生成(Visual Storytelling)任務(wù)逐漸引起了人們的研究興趣和廣泛關(guān)注。

視覺故事生成任務(wù)是一項(xiàng)計(jì)算機(jī)視覺與自然語言處理交叉領(lǐng)域的多模態(tài)學(xué)習(xí)任務(wù)。簡單來說,其要求算法模型能夠?qū)Χ鄰垐D片所組成的序列內(nèi)容進(jìn)行理解,并表述為與圖像序列內(nèi)容相關(guān)且邏輯合理的一段故事文本。可以認(rèn)為視覺故事生成是圖像內(nèi)容描述任務(wù)的衍生,在面向圖文游記自動生成、教育、視障人士輔助等領(lǐng)域具有較好的科學(xué)意義和應(yīng)用價值[1-3]。

與圖像描述任務(wù)[4-5]相比較,視覺故事生成任務(wù)所生成的故事文本除了要能夠?qū)D像序列中每幅圖像進(jìn)行客觀描述外,還要盡可能考慮不同圖像描述語句之間的連貫性、圖像之間的事件關(guān)聯(lián)性、整個段落的故事描述一致性等。因此,文字描述的前后邏輯和想象力是高質(zhì)量故事生成的基本要求。

當(dāng)前視覺故事生成任務(wù)的研究主要存在以下兩個比較突出的問題。

首先,現(xiàn)有的視覺故事生成模型對于圖像視覺特征的利用還不夠充分,特別是對于圖像區(qū)域的細(xì)粒度視覺特征信息表達(dá)較少。當(dāng)前視覺故事生成算法對視覺特征提取的有效性主要依賴于目標(biāo)檢測模型的性能。因此,所生成的故事文本對于圖像中細(xì)粒度特征描述較為薄弱。特別是,端到端的視覺故事生成模型效果總體不佳,生成的故事文本多樣性偏低,文字內(nèi)容的豐富程度也不夠。

其次,多數(shù)視覺故事生成方法采用編碼器-解碼器結(jié)構(gòu),即先將圖像編碼為抽象的中間特征向量表示,然后進(jìn)行解碼,生成故事文本。在整個故事生成過程中,輸入的圖像視覺信息被高度抽象。因此,圖像內(nèi)容的語義概念表達(dá)不直觀,故事生成機(jī)制也缺乏可解釋性。

為了緩解上述問題,本文提出了一種有效的、基于細(xì)粒度視覺特征和知識圖譜的視覺故事生成算法。其中,算法在進(jìn)行細(xì)粒度視覺信息表示時,采用場景圖關(guān)聯(lián)不同的局部視覺元素,采用圖卷積的方式學(xué)習(xí)嵌入場景關(guān)系的局部視覺特征,可以較好地解決視覺信息表示不充分、不具體的問題;同時,在圖像語義概念學(xué)習(xí)階段,算法引入Visual Genome外部知識圖譜,采用圖像自擴(kuò)充和圖像序列關(guān)聯(lián)擴(kuò)充的方式來豐富圖像的語義概念,可以較好地解決生成故事文本的多樣性和圖文相關(guān)性問題。本文算法在目前已公開的、規(guī)模最大的視覺故事生成數(shù)據(jù)集(VIST)Visual Storytelling[6]上進(jìn)行了評測。通過與主流先進(jìn)算法進(jìn)行實(shí)驗(yàn)對比發(fā)現(xiàn),本文算法生成的故事在保證對圖像序列內(nèi)容描述正確的前提下,增強(qiáng)了故事文本的豐富多樣性、圖文相關(guān)性、邏輯合理性。特別是,在故事文本的圖文相關(guān)性和故事邏輯性方面,比之前的工作有較明顯的優(yōu)越性能。

本文的貢獻(xiàn)主要體現(xiàn)在以下三個方面:

(1)本文基于場景圖學(xué)習(xí)提出的關(guān)系嵌入型圖像細(xì)粒度視覺特征,能夠用于彌補(bǔ)以往模型中普遍存在的視覺信息表達(dá)不夠細(xì)致或過于全局抽象的不足,在一定程度上解決了生成故事文本與圖像內(nèi)容關(guān)聯(lián)較小的問題。

(2)本文在Visual Genome數(shù)據(jù)集的基礎(chǔ)上構(gòu)建出適用于當(dāng)前任務(wù)的常識知識圖譜,并提出了較為有效的語義概念詞集擴(kuò)充策略。通過利用知識圖譜豐富的與圖像內(nèi)容相關(guān)的語義概念,能夠較有效地解決故事文本詞匯多樣性不夠的問題。

(3)基于圖像的細(xì)粒度視覺特征和外部知識圖譜,本文提出了一種新的、有效的視覺故事生成算法,在公開的大規(guī)模數(shù)據(jù)集VIST 上取得了較同期業(yè)內(nèi)先進(jìn)算法更為優(yōu)越的故事描述性能。

1 相關(guān)工作

視覺故事生成任務(wù)是當(dāng)前計(jì)算機(jī)視覺和自然語言處理交叉領(lǐng)域跨模態(tài)信息處理的研究熱點(diǎn)。近年來,無論是視覺故事生成任務(wù),還是與視覺故事生成密切相關(guān)的先行任務(wù)——圖像描述,均涌現(xiàn)了不少優(yōu)秀的算法。我們將主流視覺故事生成算法大致分為端到端(End-to-End)生成和多階段(Multi-Stage)生成兩大類方法。

1.1 端到端的方法

受機(jī)器翻譯領(lǐng)域中Seq2Seq模型[7]的啟發(fā),早期的視覺故事生成模型大多采用端到端的“編碼器-解碼器”結(jié)構(gòu)?;舅悸肥?使用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型作為編碼器提取圖像的視覺特征,用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對圖像序列進(jìn)行編碼,然后用新的循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器并行或依次對每幅圖像進(jìn)行描述,最后將所有描述按照圖像順序串連成故事的完整文本。

代表性的工作有:Kim 等人[8]提出的基于全局-局部注意力和上下文級聯(lián)機(jī)制的GLAC 模型。其中,視覺信息包含每幅圖像的Res Net特征及圖像序列經(jīng)過BiLSTM[9]后輸出的信息,最后逐幅圖像使用LSTM 進(jìn)行級聯(lián)解碼生成故事。Wang等人[10]提出對抗獎勵學(xué)習(xí)(AREL)模型,將強(qiáng)化學(xué)習(xí)應(yīng)用到解碼反饋過程。該模型利用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺特征,解碼過程則基于GRU-RNN[11]使用視覺特征編碼和上下文向量進(jìn)行文本生成。

端到端方法的優(yōu)點(diǎn)是,對圖像序列中單幅圖片內(nèi)容的描述正確性較好,但是生成的故事在詞匯豐富程度和故事想象力方面表現(xiàn)較差,生成的往往是比較單調(diào)的句子文本,限制了生成故事的文本多樣性和故事內(nèi)容的生動性。

1.2 多階段生成的方法

不同于端到端方法的“編碼器-解碼器”結(jié)構(gòu),多階段故事生成方法的常見做法是,顯式地學(xué)習(xí)圖像序列中間層信息表示,并進(jìn)行某種形式的優(yōu)化或迭代,最后再送入解碼器進(jìn)行故事生成。根據(jù)是否引入外部知識,我們又將多階段生成的方法分為兩個子類:一類是不引用外部知識,僅將圖像轉(zhuǎn)換為中間信息表示后直接輸入解碼器生成故事;另一類是在將圖像轉(zhuǎn)換為中間信息表示后,引入外部知識數(shù)據(jù),對圖像的中間信息表示進(jìn)行處理,再輸入解碼器生成故事。

1.2.1 不引用外部知識的多階段生成方法

代表工作主要有:Wang等人[12]提出采用場景圖的形式來豐富圖像的語義表示。因?yàn)閳鼍皥D能夠顯式地表示圖像的語義對象和關(guān)系,他們首先將每幅圖像轉(zhuǎn)換成場景圖,并在單幅場景圖上進(jìn)行圖卷積和聚合操作,豐富圖像局部區(qū)域的表示,最后用時序卷積網(wǎng)絡(luò)(TCN)來提取包含一定圖像序列上下文關(guān)聯(lián)的表示,進(jìn)行最終故事文本的生成。Jung等人[13]提出采用一種三階段訓(xùn)練的課程學(xué)習(xí)方式來完成視覺故事生成。該方法通過逐步隨機(jī)隱藏零張、一張或兩張圖片的視覺信息來訓(xùn)練“想象模塊”,提高模型的合理想象能力,細(xì)化圖像具體語義之間的關(guān)系,最后采用循環(huán)神經(jīng)網(wǎng)絡(luò)GRU 和非局部自注意力機(jī)制解碼講述每幅圖像對應(yīng)的描述語句,并連成故事。

1.2.2 引入外部知識的多階段生成方法

隨著近年來知識圖譜在人工智能各個領(lǐng)域如計(jì)算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)等領(lǐng)域逐漸被廣泛應(yīng)用并取得優(yōu)秀性能[14-16],最新的一些工作陸續(xù)開始引入外部知識輔助故事生成,以緩解文本詞匯多樣性不足的問題,代表性工作是Hsu 等人[17]提出的KG-Story模型。該模型在第一階段通過術(shù)語生成器對圖像進(jìn)行術(shù)語詞集提取,第二階段利用外部大型的Visual Genome數(shù)據(jù)集對第一階段生成的術(shù)語詞集進(jìn)行豐富,最后根據(jù)第二階段擴(kuò)充的術(shù)語詞集,使用Transformer 模型進(jìn)行故事生成。Hsu等人[18]提出的PR-VIST 模型首先將輸入圖片序列統(tǒng)一表示為基于圖結(jié)構(gòu)的數(shù)據(jù),然后訓(xùn)練故事線預(yù)測器從所構(gòu)建的圖結(jié)構(gòu)數(shù)據(jù)中尋找故事線的最佳路徑,最后通過迭代生成的方式,基于Transformer解碼器模型生成故事。Yang等人[19]提出了一種基于常識驅(qū)動的視覺故事生成模型,該模型從外部知識庫中引入關(guān)鍵的常識數(shù)據(jù),提升所述故事的合理性與多樣性。Chen等人[20]提出的CKVS 模型,一方面對圖片進(jìn)行概念詞提取,并根據(jù)外部知識圖譜Concept Net[21]對概念詞進(jìn)行擴(kuò)充建圖;另一方面,利用殘差網(wǎng)絡(luò)ResNet抽取圖像的全局視覺特征,用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視覺序列信息;最后將視覺特征和概念詞輸入至解碼器進(jìn)行故事生成。

多階段生成的方法的優(yōu)勢在于,能充分挖掘圖像豐富的內(nèi)在語義信息,或利用外部輔助知識,提升圖像序列故事描述的多樣性和想象力。

2 本文所提出的視覺故事生成算法

2.1 任務(wù)描述與模型框架

給定一串圖片序列I={I1,I2,I3,I4,I5},視覺故事生成任務(wù)即要求算法通過理解圖片內(nèi)容及相互之間的序列關(guān)系,生成一段連續(xù)流暢的故事文本S={S1,S2,S3,S4,S5}。S表示生成故事中句子集合。

算法模型框架如圖1所示。本文所做工作集中在如何對圖像內(nèi)容進(jìn)行充分挖掘和擴(kuò)展表示上,主要包括圖像細(xì)粒度視覺特征生成器Gf和圖像語義概念詞集合生成器Gc兩方面。

圖1 基于細(xì)粒度視覺特征和知識圖譜的視覺故事生成算法模型框架

圖像細(xì)粒度視覺特征生成器首先使用預(yù)訓(xùn)練好的場景圖生成器Gs對圖像進(jìn)行場景圖生成,得到每張圖像的場景圖表示SG={O,B,R},其中,O表示圖像中的所有對象節(jié)點(diǎn)的集合,B表示每個對象節(jié)點(diǎn)對應(yīng)的區(qū)域位置信息,R表示實(shí)體與實(shí)體之間的關(guān)系三元組。然后,我們將圖像I和每個對象節(jié)點(diǎn)O對應(yīng)的區(qū)域位置信息B一起輸入Resnet152網(wǎng)絡(luò)模型[22]進(jìn)行局部視覺特征提取,得到每個對象節(jié)點(diǎn)O對應(yīng)區(qū)域的視覺特征,即圖像的局部視覺特征集合。最后,基于場景圖中目標(biāo)物的鄰接關(guān)系,我們利用圖卷積操作對這些局部視覺信息進(jìn)行關(guān)系嵌入學(xué)習(xí),所得的新的關(guān)系嵌入型細(xì)粒度視覺特征集合即作為對應(yīng)圖像的視覺表示f。

類似地,將圖像序列中的5張圖片依次處理,并將所得到的視覺特征按順序集合,最終得到包含5張圖片序列的細(xì)粒度視覺特征信息集F。

圖片語義概念詞集生成器用于生成能夠表示圖像豐富內(nèi)容的概念詞集合。首先,我們基于Visual Genome數(shù)據(jù)集構(gòu)建外部常識知識圖譜KGE,同時利用Clarifai外部工具來生成初始語義概念詞集Cori;然后,利用構(gòu)造出的外部常識知識圖譜KGE對初始語義概念詞集Cori進(jìn)行擴(kuò)充,得到最終的擴(kuò)充語義概念詞集Cf。

故事生成的解碼部分基于預(yù)訓(xùn)練好的BART模型[23]。我們將圖片的細(xì)粒度視覺特征信息集F和圖像對應(yīng)的擴(kuò)充語義概念詞集Cf輸入至BART模型,由BART 模型對其進(jìn)行解碼,生成最終的故事文本S。

2.2 圖像細(xì)粒度視覺特征生成器

圖像細(xì)粒度視覺特征生成器由圖像場景圖生成器Gs、圖像局部視覺特征檢測器Gp和圖像細(xì)粒度視覺特征學(xué)習(xí)器Gf組成。

2.2.1 圖像場景圖生成器

場景圖通常用于描繪圖像中對象、對象屬性及關(guān)系,可支持關(guān)系推理等高級任務(wù),如圖像描述和視覺對話生成[24]。在本文中,場景圖生成模型采用Xu等人[25]提出的迭代消息傳遞模型,通過對象檢測和關(guān)系推理得出場景圖。

場景圖生成器Gs的輸入為單張圖片,輸出為場景圖數(shù)據(jù)SG={O,B,R},其中包含了圖像中檢測到的對象節(jié)點(diǎn)集合O,以及每個對象節(jié)點(diǎn)對應(yīng)的區(qū)域位置信息B,還有所有實(shí)體之間關(guān)系三元組集合R,例如<man,holding,cup>。具體如式(1)~式(4)所示。

其中,BBOX_i為第i個節(jié)點(diǎn)對應(yīng)區(qū)域的邊界框坐標(biāo)和大小信息??紤]到從圖像中檢測出的對象節(jié)點(diǎn)區(qū)域數(shù)量可能較多,在本文中,我們經(jīng)驗(yàn)性地保留分?jǐn)?shù)最高的前30個對象區(qū)域,可以較好地涵蓋圖片的絕大部分有用信息。

2.2.2 圖像局部視覺特征檢測器

在以往的圖像描述任務(wù)中,獲取圖像視覺特征的常見做法是,將單張圖片輸入預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型[26],抽取圖像的整體視覺特征。這種方式在一定程度上會丟失圖像中某些顯性較差的對象信息,使得最后可能因?yàn)閳D像視覺內(nèi)容表示不充分而導(dǎo)致生成描述語句不全面、不豐富等問題。

為了減少圖像視覺特征信息丟失問題,我們利用圖像局部視覺特征檢測器Gp,對圖像進(jìn)行局部的細(xì)粒度視覺特征提取,得到圖像中更多更具體的視覺特征信息,具體做法是:將圖像I和圖像場景圖生成器得到的每個對象節(jié)點(diǎn)對應(yīng)的區(qū)域位置信息B同時輸入至ResNet152網(wǎng)絡(luò),對每個對象節(jié)點(diǎn)區(qū)域進(jìn)行局部視覺特征提取,從而得到每個區(qū)域的局部視覺特征fp。

2.2.3 細(xì)粒度圖像視覺特征學(xué)習(xí)器

根據(jù)圖像場景圖生成器Gs,我們得到了圖像中對象節(jié)點(diǎn)之間的關(guān)系三元組R;根據(jù)圖像局部視覺特征檢測器Gp,我們得到了每張圖像中對象節(jié)點(diǎn)的視覺特征fp。為了能夠?qū)ο蠊?jié)點(diǎn)之間的關(guān)系應(yīng)用到后續(xù)的實(shí)驗(yàn)過程中,即在故事生成階段能夠使用到圖像中對象節(jié)點(diǎn)之間的關(guān)系,我們將對象節(jié)點(diǎn)對應(yīng)的視覺特征fp和對象節(jié)點(diǎn)之間的關(guān)系三元組R輸入至圖卷積神經(jīng)網(wǎng)絡(luò)GCN[27],最終學(xué)習(xí)得到帶有對象節(jié)點(diǎn)之間關(guān)系的細(xì)粒度圖像視覺特征表示F,具體如式(5)所示。

2.3 基于知識圖譜的圖像抽象概念詞集生成器

知識圖譜是人工智能的重要分支技術(shù),在信息檢索、自然語言處理、智能助手、電子商務(wù)、醫(yī)學(xué)等領(lǐng)域發(fā)揮著重要作用[28-29]。為了能夠在視覺故事生成的過程中充分模擬人類講故事的方式和思路,我們希望借助外部知識來充當(dāng)人類大腦的想象力這一角色,使得在故事生成的過程中不再局限于對圖片內(nèi)容的簡單描述,而是在對圖片內(nèi)容的理解基礎(chǔ)上,增加想象力,生成相對豐富多彩的故事。2.3.1 外部常識知識圖譜構(gòu)建

我們以Visual Genome數(shù)據(jù)集作為外部知識的數(shù)據(jù)來源。該數(shù)據(jù)集中提供了108 077張圖片所對應(yīng)的1 531 448 組“節(jié)點(diǎn)-關(guān)系-節(jié)點(diǎn)”三元組<subject,relation,object>信息。每張圖片包含有subject、relation、object等數(shù)據(jù)字段,三元組信息表示“subject”節(jié)點(diǎn)與所指向的“object”節(jié)點(diǎn)存在關(guān)系“relation”。

為了得到具有代表性的常識知識圖譜數(shù)據(jù),我們從Visual Genome數(shù)據(jù)集中選取出現(xiàn)頻率大于100次的關(guān)系三元組(共計(jì)保留2 840組)用于構(gòu)建本文所使用的外部常識知識圖譜KGE,如表1所示。

2.3.2 基于常識知識圖譜的圖像語義概念集擴(kuò)充

首先,使用Clarifai①http://www.clarifai.com概念詞檢測器提取每張圖片的初始語義概念詞集合。綜合考慮算法效率和語義信息表示的充分性,我們選取置信度較高的前30個概念詞作為概念集合的初始元素Cori={c1,c2,…,c30}。然后,使用已構(gòu)建的外部知識圖譜KGE對其進(jìn)行合理擴(kuò)充,得到擴(kuò)充后的中間概念詞集Cm;最后,為了建立圖片序列中相鄰圖片之間的語義聯(lián)系,我們對相鄰兩張圖片的概念詞集進(jìn)行了關(guān)聯(lián)度查找,得到每張圖片對應(yīng)的最終語義概念集合Cf={c1,c2,…,cn},其中n為語義概念詞集合大小。在本文,n設(shè)置為最大不超過60。

具體地,語義概念詞集合擴(kuò)充過程包括對單張圖像的語義概念集自擴(kuò)充和相鄰圖像之間的關(guān)聯(lián)性擴(kuò)充兩項(xiàng)操作。

(1)單張圖像的語義概念集自擴(kuò)充

基于初始語義概念詞集Cori,從外部知識圖譜KGE中檢索并篩選出與Cori中ci相關(guān)聯(lián)的三元組信息<ci,relation*,objectj>,將其對應(yīng)的objectj加入至Cori,得到自擴(kuò)充集合Cm。

(2)相鄰圖片之間語義概念集關(guān)聯(lián)性擴(kuò)充

在已知相鄰兩張圖片的自擴(kuò)充語義概念集Cm1和Cm2的基礎(chǔ)上,對于相鄰兩張圖片I1和I2中的任意語義概念詞ci1和cj2,如果在外部常識知識圖譜KGE中存在<ci1,relation*,cj2>,則將cj2加入Cm1,直至在KGE中全部查找完畢,最終得到圖片I1最終的語義概念關(guān)聯(lián)性擴(kuò)充后集合Cf1。

3 實(shí)驗(yàn)與評估

3.1 數(shù)據(jù)集

3.1.1 VIST 數(shù)據(jù)集

VIST 數(shù)據(jù)集[6]包含圖像和文本兩部分?jǐn)?shù)據(jù)。圖片數(shù)據(jù)包含20 211個圖片序列,共計(jì)81 743張圖片。文本數(shù)據(jù)包括針對單張圖片的描述性語句(Description-in-Isolation,DII)及其在圖像序列中的故事性敘述語句(Story-in-Sequence,SIS)。每個故事包含了5張圖像序列和與之對應(yīng)的5句故事性敘述語句,即一段連貫的故事描述,故事描述能夠基本正確、豐富地將圖像序列的內(nèi)容進(jìn)行描述。在本文中,我們主要用到的是VIST數(shù)據(jù)集中的圖片數(shù)據(jù)和故事性敘述語句(SIS)來進(jìn)行模型的訓(xùn)練和測試。

3.1.2 Visual Genome數(shù)據(jù)集

Visual Genome數(shù)據(jù)集[30]包含108 077 張圖片,380萬個對象實(shí)例和230萬個關(guān)系。該數(shù)據(jù)集將結(jié)構(gòu)化的圖像概念和自然語言文本進(jìn)行關(guān)聯(lián),構(gòu)建起較為龐大的多模態(tài)知識庫。

數(shù)據(jù)集由以下四個部分組成:①圖像局部區(qū)域描述:每張圖片被劃分成多個區(qū)域,每個局部區(qū)域都有標(biāo)注并與之對應(yīng)的一條自然語言描述語句。②局部場景圖:每個圖像的局部區(qū)域中的對象、屬性、關(guān)系被提取出來,構(gòu)成局部的場景圖。③圖片全局場景圖:由圖片中的所有局部場景圖合并成一個全局場景圖。④視覺對話:針對單張圖片的問答對話。其中,問題主要分為兩類,一類是針對圖片局部區(qū)域來提問,另一類是針對整張圖片來提問。在本文中,我們主要使用該數(shù)據(jù)集的圖像描述數(shù)據(jù)進(jìn)行外部常識知識圖譜的構(gòu)建,主要包括主體(subject)、客體(object)及主客體之間的關(guān)系(relationship)數(shù)據(jù)。

3.2 實(shí)驗(yàn)細(xì)節(jié)

本文模型使用Py Torch 1.7版本實(shí)現(xiàn)。細(xì)粒度視覺特征維度為2 048,語義概念詞的詞嵌入向量維度為512。

本文與近期主流的視覺故事生成模型進(jìn)行對比。所對比的基線模型主要有:①采用端到端結(jié)構(gòu)的PR-VIST[18]模型;②采用中間層Term 語義詞集的多階段故事生成模型KG-Story[17];③采用知識圖譜及BART 模型作為解碼器的故事生成模型CKVS[20]。

3.3 自動指標(biāo)評價及結(jié)果

視覺故事生成任務(wù)與傳統(tǒng)的機(jī)器翻譯等自然語言處理任務(wù)相比,從本質(zhì)上來說有著較大的差異。相較于機(jī)器翻譯任務(wù)所追求的翻譯準(zhǔn)確率,視覺故事生成任務(wù)考慮更多的是,在保證故事內(nèi)容和視覺圖像語義相關(guān)的基礎(chǔ)上,生成更加豐富多樣的文本,而不是僅考慮保持和“參考故事(Ground-Truth)”在字詞上的完全一致。

在本文中,我們主要采用多樣性指標(biāo)Distinct-N[31]和TTR(Type-Token Ratio)[32]對生成的故事文本的多樣性進(jìn)行評價。

Distinct-N計(jì)算測試數(shù)據(jù)集中所有生成的故事敘述語句中具有唯一性的N-gram[33]短語的百分比。分?jǐn)?shù)越高意味著故事間詞匯的重復(fù)值更低。生成故事文本的詞匯多樣性指標(biāo)Distinct-N評價結(jié)果如表2所示。其中,Gold為VIST 數(shù)據(jù)集中提供的人工撰寫的故事文本。

表2 故事文本多樣性Distinct-N 評價對比結(jié)果(單位:%)

從表2的實(shí)驗(yàn)數(shù)據(jù)可以看出,在VIST 數(shù)據(jù)集的測試集上,在Dist-2、Dist-3、Dist-4 指標(biāo)中,本文算法較KG-Story模型分別提升了15.78、28.12、31.90,較PR-VIST 模型分別提升了10.29、16.98、16.30,均具有較大幅度的提升。與CKVS模型相比,本文模型在多樣性指標(biāo)Distinct-n上雖然略有偏低,但差距非常小,說明了本文模型能有效地生成詞匯豐富的故事。

值得說明的是,CKVS模型對所檢測的概念詞采取了較為復(fù)雜的選擇策略,并且在故事生成階段分配給每張圖片的概念詞集合的詞語個數(shù)為100,而本文的抽象概念詞個數(shù)僅在60個以內(nèi)。本文在詞語數(shù)量較少的情況下,仍然能夠取得與CKVS較為接近的多樣性指標(biāo)性能,很大程度上得益于本文在概念詞集方面的簡單有效的關(guān)聯(lián)擴(kuò)充方式。

多樣性評價指標(biāo)TTR 是用于評價作家或演講者使用詞匯豐富程度的一種多樣性度量方法。通過使用單個詞的類型數(shù)量除以整個詞的數(shù)量計(jì)算類型詞匯的覆蓋情況。但TTR 指標(biāo)對文本長度比較敏感。一般情況下,文本越長,出現(xiàn)新詞類型的可能性就越低。因此,為了計(jì)算TTR,我們還一并計(jì)算了每個生成故事的平均詞語(Words)個數(shù)和唯一詞(Terms)個數(shù)。我們對基線模型生成的故事和本文模型所生成的故事進(jìn)行了TTR指標(biāo)、平均Words個數(shù),平均Terms個數(shù)的對比。具體結(jié)果如表3所示。

表3 故事文本豐富性TTR 評價對比結(jié)果

需要指出的是,KG-Story生成的故事文本平均Words個數(shù)最少,僅為27.27,遠(yuǎn)遠(yuǎn)低于其他模型,因此雖然其對應(yīng)的TTR 值接近1,但我們認(rèn)為不具有對比意義。相比之下,PR-VIST,CKVS 以及本文模型,文本長度和Terms類型的數(shù)量均與“Gold”文本接近,因此,TTR 指標(biāo)對該三個模型具有一定的可比性。

從表3的實(shí)驗(yàn)結(jié)果我們可以看出,PR-VIST 模型雖然TTR 指標(biāo)略高于本文算法,但是其平均Words個數(shù)和平均Terms個數(shù)均低于本文模型。盡管CKVS模型的平均Words個數(shù)最多,但是其TTR值并不高,我們的模型較CKVS模型TTR值提高了9%。

綜合表2和表3的結(jié)果來看,本文模型生成的故事在多樣性指標(biāo)上較當(dāng)前主流的方法有了較大的提升,特別是與沒有引入外部知識圖譜的方法相比,多樣性得到了顯著提升。這不僅得益于本文考慮了細(xì)粒度視覺特征,更多的是由于引入了外部知識數(shù)據(jù)并構(gòu)造合理的知識圖譜,并將構(gòu)造的知識圖譜與已有的圖像抽象概念信息結(jié)合,因此取得了較好的多樣性效果。從后續(xù)的人工評價結(jié)果中也可以再次證明我們的模型生成的故事文本,在保證圖文相關(guān)性和準(zhǔn)確性的基礎(chǔ)上,具有較好的文本豐富性。

3.4 人工評價及結(jié)果

對于視覺故事生成任務(wù),沒有任何指標(biāo)能夠完美地衡量生成故事的好壞[10]。為了更好地評估生成故事的質(zhì)量,我們對生成的故事進(jìn)行了了人工評價,將多個模型的成對輸出進(jìn)行比較。

我們從測試集中隨機(jī)抽取100個圖像序列,并使用每個模型生成故事。對于每個樣本故事對,有兩名評價員參與判斷,評價員需要選擇每個樣本故事對,在圖文相關(guān)性、故事邏輯性、文本豐富性方面對其中一個故事的偏好。其中,“文本豐富性”主觀評價與“Distinct-N”客觀指標(biāo)所度量的意義有相似之處。

為了保證評價員自身的水平及選取評價員的合理性和有效性,我們招募了具有良好英文水平的在校大學(xué)生作為評價員進(jìn)行人工評價。結(jié)果如表4所示。其中,“中立”表示對比的兩個模型結(jié)果不相上下,沒有傾向。

表4 人工評價結(jié)果

表4的結(jié)果表明,本文模型所生成的故事文本在圖文相關(guān)性、故事邏輯性、文本豐富性上均遠(yuǎn)超過KG-Story和PR-VIST 模型。與CKVS模型相比,本文模型在圖文相關(guān)性、故事邏輯性兩方面具有較明顯的優(yōu)勢,在文本豐富性上略高于CVKS 模型。文本豐富性評價的結(jié)論與前述“Distinct-N”指標(biāo)的結(jié)論接近,這也從側(cè)面反映了本文的人工評價結(jié)果質(zhì)量較高,具有良好的合理性。

3.5 消融實(shí)驗(yàn)

為了評估細(xì)粒度視覺特征和外部知識圖譜在模型中的作用,我們以本文模型為基線模型進(jìn)行消融比較。

人工撰寫的故事敘述“Gold”最大的優(yōu)勢就在于文字邏輯性強(qiáng)、句式豐富、圖文內(nèi)容相關(guān)性強(qiáng)等。我們使用自然語言處理領(lǐng)域常用客觀評價指標(biāo)BLEU、METEOR、ROUGE、CIDEr來評估所生成的故事與人工撰寫的故事在詞句上的相似性,從而衡量所生成的故事文本與人工撰寫版本的忠實(shí)還原程度。

3.5.1 消融實(shí)驗(yàn)1:細(xì)粒度視覺特征的有效性

本文模型將細(xì)粒度視覺特征作為視覺信息輸入,以經(jīng)過外部知識圖譜擴(kuò)充后的抽象概念詞集作為文本信息輸入,基于BART 解碼器生成故事。“全局視覺特征變體模型”是將本文模型中的細(xì)粒度視覺特征替換為全局視覺特征的變體模型,其他設(shè)置如解碼器和概念詞集合等均保持不變。實(shí)驗(yàn)結(jié)果如表5所示。

表5 在VIST數(shù)據(jù)集上,細(xì)粒度視覺特征消融實(shí)驗(yàn)在5種客觀評價指標(biāo)上的性能對比

表5的結(jié)果表明,在不改變基線模型框架的前提下,采用細(xì)粒度視覺特征相較于采用全局視覺特征,在 BLEU[34]、METEOR[35]、ROUGE[36]、CIDEr[37]等指標(biāo)評價上均有所提升,其中BLEU-3提升了11.8%,BLEU-4提升了19.0%,ROUGE 提升了0.9%,METEOR 提升了1.1%,CIDEr提升了16.6%。這說明采用細(xì)粒度視覺特征所生成的故事文本在詞句表達(dá)方面比采用全局視覺特征更忠實(shí)于人工撰寫的故事文本,即在圖文相關(guān)性上表現(xiàn)更好。

3.5.2 消融實(shí)驗(yàn)2:外部知識圖譜擴(kuò)充的有效性

我們將本文模型中的外部知識圖譜刪除后的變體模型與基線模型進(jìn)行比較。

本文模型將細(xì)粒度視覺特征作為視覺信息輸入,以經(jīng)過外部知識圖譜擴(kuò)充后的抽象概念詞集作為文本信息輸入,基于BART 解碼器生成故事?!盁o外部知識圖譜變體模型”是將本文模型中的外部知識圖譜刪除,即對抽象概念詞集不利用外部知識圖譜進(jìn)行任何豐富性擴(kuò)充操作后的變體模型,其他設(shè)置如細(xì)粒度視覺特征和解碼器等均保持不變的變體模型。實(shí)驗(yàn)結(jié)果如表6所示。

表6 在VIST數(shù)據(jù)集上,有關(guān)外部知識圖譜擴(kuò)充的消融實(shí)驗(yàn)在5種客觀評價指標(biāo)上的性能對比

結(jié)果表明,模型采用外部知識圖譜對抽象概念詞集進(jìn)行豐富性擴(kuò)充后的概念詞集合,相較于不使用任何外部知識進(jìn)行處理的抽象概念詞集作為輸入,在BLEU、METEOR、ROUGE、CIDEr等指標(biāo)評價上均有所提升,其中BLEU-3提升了16.8%,BLEU-4提升了25.0%,ROUGE提升了1.3%,METEOR提升了2.6%,CIDEr提升了16.6%。

3.6 可視化故事生成示例

為了更好、更形象地展示我們生成的故事質(zhì)量和詞語豐富性,我們提供了使用VIST 數(shù)據(jù)集訓(xùn)練的基線模型和本文模型實(shí)際生成的示例,如表7所示??傮w而言,相比基線模型,本文模型所生成的故事文本更加忠實(shí)于圖像視覺內(nèi)容,而且語句之間的邏輯性更好,表達(dá)也更為自然、流暢。我們在表7的示例中也可以看出,本文模型故事文字所表達(dá)的語境比“Gold”文本還要自然一些。

表7 在VIST數(shù)據(jù)集訓(xùn)練的基線模型和本文模型實(shí)際生成的示例

續(xù)表

綜上所述,本文模型所生成的故事文本兼具多樣性高、圖文相關(guān)性強(qiáng)、故事邏輯性好的優(yōu)勢,能夠較好地解決前述的目前視覺故事生成任務(wù)存在的兩個突出問題。

4 總結(jié)

本文提出了一種有效的、基于細(xì)粒度視覺特征和知識圖譜的視覺故事生成算法。算法通過圖像實(shí)體關(guān)系場景圖學(xué)習(xí)關(guān)系嵌入型細(xì)粒度視覺特征,利用外部知識圖譜豐富擴(kuò)充序列圖像的高層語義概念表示,能夠有效地對圖像內(nèi)容進(jìn)行充分挖掘。本文算法在公開的VIST數(shù)據(jù)集上與主流先進(jìn)算法進(jìn)行了測試比較。實(shí)驗(yàn)結(jié)果表明,本文算法在圖文相關(guān)性、故事邏輯性、文字多樣性等方面均取得較大領(lǐng)先優(yōu)勢。結(jié)合圖像細(xì)粒度視覺特征和外部知識圖譜,可以有效地增強(qiáng)對圖像細(xì)節(jié)的識別,提升生成故事文本的豐富多樣性、邏輯性和想象力。

猜你喜歡
細(xì)粒度圖譜語義
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
繪一張成長圖譜
語言與語義
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
主動對接你思維的知識圖譜
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
寻乌县| 加查县| 文水县| 手游| 岗巴县| 巢湖市| 贡嘎县| 城口县| 正镶白旗| 隆子县| 台安县| 潜江市| 新和县| 盐山县| 阜康市| 霍州市| 瑞安市| 射阳县| 德安县| 广德县| 家居| 九寨沟县| 黔江区| 信阳市| 利辛县| 方山县| 琼结县| 西峡县| 藁城市| 贞丰县| 梨树县| 垫江县| 喀喇| 调兵山市| 云安县| 海原县| 右玉县| 肇源县| 苏州市| 新巴尔虎右旗| 镇安县|