體現(xiàn)用戶意圖和風(fēng)格的圖像描述生成

2022-08-08 05:37王宇航張燦龍李志欣王智文

廣西師范大學(xué)學(xué)報（自然科學(xué)版） 2022年4期

王宇航，張燦龍*，李志欣，王智文

(1.廣西多源信息挖掘與安全重點實驗室(廣西師范大學(xué)),廣西桂林 541004；2.廣西科技大學(xué) 計算機科學(xué)與通信工程學(xué)院,廣西柳州 545006)

圖像描述(image captioning)是一個結(jié)合計算機視覺和自然語言處理的跨領(lǐng)域任務(wù)，其計算涉及自然文本的語義提取、圖像目標的檢測與特征提取、目標之間關(guān)系的識別與推理等，最終將圖像識別的結(jié)果表述為一個自然語句[1-3]。深度學(xué)習(xí)技術(shù)的應(yīng)用使計算機描述圖像場景的能力得到大幅提升，在某些評估指標上甚至超過人類。然而，若要讓機器按照用戶的意愿和個性去描述一個場景，就必須使它們擁有感知用戶興趣和個性的能力。

遺憾的是，現(xiàn)有的圖像描述模型[4-6]雖然可以生成較為流暢的描述語句，但是存在與用戶交互性差、多樣性低等問題。具體體現(xiàn)在以下2個方面：1)大多數(shù)圖像描述模型僅機械地生成描述圖像場景整體內(nèi)容的句子，并沒有考慮用戶感興趣的內(nèi)容或者期望描述的詳細程度[7-8]；2)這種生成模式傾向于使用常見的高頻詞來表達生成較為“簡單安全”的句子，容易造成句子缺乏多樣性[9-12]，無法體現(xiàn)用戶的個性特征和用語習(xí)慣。如圖1所示，現(xiàn)有模型[13-15]可以準確地描述出“兩個棒球運動員在運動場打球”，卻不能依據(jù)用戶的期望描述出男子的具體細節(jié)，如體態(tài)、衣服顏色、背景等細節(jié)內(nèi)容，也不能控制是全局描述還是局部描述某一個男子，并且只是用簡單的語言表達出來。

圖1 現(xiàn)有圖像描述實例

針對以上問題，本文提出場景細粒度控制的個性化圖像描述方法，圖2是本文提出模型的整體結(jié)構(gòu)。首先，構(gòu)建一個包含3類抽象節(jié)點的空間關(guān)系圖(spatial relation，SR)，這3類抽象節(jié)點分別代表目標(object)、屬性(feature)、目標之間的關(guān)系(relationship)，每個抽象節(jié)點在圖中有具體區(qū)域的定位(其中1、4為屬性節(jié)點，2、3為目標節(jié)點，5為關(guān)系節(jié)點)；然后利用圖注意力機制來獲取用戶所希望描述的內(nèi)容和順序，并通過添加控制閥門來調(diào)節(jié)圖流動的方向，再利用圖語義注意力機制結(jié)合上下文的關(guān)聯(lián)度使語句更為流暢；接著，加入動態(tài)訪問節(jié)點(dynamic access node)，記錄所訪問過的節(jié)點，加入沒有訪問過的節(jié)點，并擦除一些廢詞，如介詞(with)、助詞(have)等，從而使描述更具多樣性且不遺漏或重復(fù)描述；最后，在解碼器中加入基于用戶畫像的字幕風(fēng)格因子，如專業(yè)型(professional)、浪漫型(romantic)或幽默型(humorous)，從而輸出符合用戶期望的風(fēng)格化語句。

圖2 本文提出的個性化圖像描述模型

綜上所述，本文的主要貢獻如下：

1)構(gòu)建了基于細粒度的場景控制模型，以控制所希望描述的圖像內(nèi)容。如：描述幾個物體、是否描述背景、物體之間的關(guān)系、對物體進行簡要描述還是詳細描述，等等。

2)加入門控閥，將圖流動注意力機制與圖內(nèi)容注意力機制相結(jié)合，使描述語句更貼合圖像且更流暢。

3)提出基于用戶畫像的風(fēng)格因子生成方法，并將風(fēng)格因子加入到語言解碼器中，使生成的描述具有特定風(fēng)格，從而實現(xiàn)生成結(jié)果的個性化和多樣性。

1 相關(guān)工作

1.1 圖像描述

目前大多數(shù)圖像描述生成的模型都是基于傳統(tǒng)編解碼架構(gòu)，此舉改善了最原始的RNN結(jié)構(gòu)中映射長度不一致的問題[16-17]。為了解決圖像輸入LSTM只傳輸全局特征的問題，Wu等[18]提出att-LSTM通過圖像標簽分類提取圖像屬性，形成高頻詞。Xu等[19]引入視覺注意機制，強制每個單詞對應(yīng)于圖像的某個區(qū)域，使用深度網(wǎng)絡(luò)計算每個區(qū)域的對應(yīng)權(quán)重，然后將權(quán)重乘以對應(yīng)區(qū)域的特征。注意機制更符合生物視覺機制，但缺點是每個單詞都必須對應(yīng)一個區(qū)域。然而，一些介詞和動詞不能在圖像中實際表達，如“a”和“of”，它們在圖像中沒有特定意義，但仍然對應(yīng)于區(qū)域。為了解決這個問題，Lu等[20]提出哨兵機制，在生成每個詞時，首先計算該詞屬于視覺詞還是上下文詞的概率，然后根據(jù)權(quán)重計算整體特征。Chen等[21]利用CNN的空間、多通道和多層次特性，改進了CNN的網(wǎng)絡(luò)結(jié)構(gòu)，增加了空間注意、通道注意和特征圖。Rennie等[22]使用強化學(xué)習(xí)訓(xùn)練解碼器，將推理階段生成的描述句作為“基線”，刺激分數(shù)高于基線的結(jié)果，抑制分數(shù)低于基線的句子生成，并使用綠色編碼的方法取得了良好的效果。Anderson等[23]提出了自下而上和自上而下的注意機制，結(jié)合目標檢測，使目標區(qū)域劃分更加合理，并使用多層LSTM使生成的描述和圖像更加相關(guān)和平滑。

1.2 基于場景圖的圖像描述

場景圖包含圖像的結(jié)構(gòu)化語義信息，包括當前物體的知識、屬性和成對關(guān)系。因此，場景圖可以為圖像檢索、VQA、圖像生成等其他視覺任務(wù)提供有利的優(yōu)先級。通過觀察在視覺任務(wù)中利用場景圖的潛力，Wang等[24]提出了多種方法來改進從圖像生成場景圖的方法。另一方面，Zellers等[25]也嘗試從文本數(shù)據(jù)中提取場景圖。Yang等[26]以場景圖為橋梁，整合對象、屬性和關(guān)系知識，發(fā)現(xiàn)更有意義的語義上下文，以便更好地生成描述。本文將動態(tài)節(jié)點引入抽象場景圖中，作為控制信號來生成所需的和多樣的圖像描述，便于與人交互以達到更細粒度的控制。

1.3 個性化圖像描述

盡管在描述語句生成的流暢性和準確性方面取得了令人振奮的成果，但現(xiàn)有的主流圖像描述模型只能生成單調(diào)且風(fēng)格單一的描述語句，然而一些研究試圖引入更具吸引力的描述。其中，Park等[27]基于用戶先前的描述文本提取更活躍的詞匯，以模仿用戶個性化。Gan等[28]收集涵蓋2種風(fēng)格的數(shù)據(jù)集，并試圖通過無監(jiān)督學(xué)習(xí)來傳遞文字游戲(雙關(guān)語)，訓(xùn)練制作有趣的字幕。Shuster等[29]完成了更多關(guān)于人類性格風(fēng)格的描述模型。Chen等[30]通過ASG模型控制描述內(nèi)容，并在更精細的層次上完成圖像描述的生成。Liu等[31]將圖像描述應(yīng)用到藝術(shù)領(lǐng)域，使機器面對圖像，像詩人一樣寫詩。本文利用用戶級特征，如性別、年齡和教育程度，完成用戶的個性化分類，以達到更加精準的個性化圖像描述控制。

2 PICFCS模型

一個真正有用且能與人溝通的圖像描述模型，應(yīng)該是一個能體現(xiàn)用戶個性、可供用戶選擇的可控型圖像描述模型?；谶@一認知，本文提出一種細粒度場景控制的個性化圖像描述(personalized image captioning with fine-grained control of scene, PICFCS)模型，如圖2所示。該模型由場景細粒度控制模塊和用語風(fēng)格控制模塊組成，其中，場景控制模塊通過圖結(jié)構(gòu)來控制用戶所希望表達的場景中的特定目標、目標屬性和各目標間的關(guān)系，以反映用戶的描述意圖，從而生成更具多樣性的圖像描述。而用語風(fēng)格控制模塊則是通過由用戶畫像所控制的風(fēng)格因子來生成特定風(fēng)格的描述語句，以生成個性化的圖像描述。本文采用編碼器—解碼器框架來構(gòu)建模型，編碼器會根據(jù)用戶意圖和用戶畫像對給定圖像I和風(fēng)格因子進行編碼，而解碼器則會生成符合用戶意圖和個性的描述語句Y={y1,y2,…,yT}(T為最大生成語句長度)。

2.1 目標空間關(guān)系圖

首先，以輸入圖片I為基礎(chǔ)，通過在VisualGenome數(shù)據(jù)集上運用圖像卷積和目標檢測等一系列預(yù)處理，獲得場景圖像中的目標、目標屬性以及目標之間的空間關(guān)系，以此來生成抽象空間關(guān)系圖。具體如下：添加用戶感興趣的目標節(jié)點oi，構(gòu)建出目標在圖中的位置，如果對多個目標感興趣則添加多個目標節(jié)點，如果用戶希望具體了解目標的信息則添加一個或多個屬性節(jié)點f，并建立目標與屬性之間的有向邊。當用戶希望描述目標與目標之間的關(guān)系時，則生成目標與目標之間的關(guān)系節(jié)點r，并建立從主語目標指向關(guān)系r和從關(guān)系r指向賓語目標的2條邊。角色刻畫不僅需要描述節(jié)點在圖像中對應(yīng)的視覺特征，還要體現(xiàn)出它所代表的角色意圖。

由于PICFCS中的節(jié)點不是單獨的，結(jié)合相鄰節(jié)點的上下文信息有益于對節(jié)點的語義和角色信息的理解。盡管PICFCS中的邊是單向的，但節(jié)點之間的影響卻是相互的。此外，由于節(jié)點的類型不同，信息從一種類型節(jié)點傳遞到另一種類型節(jié)點的傳遞方式與其反方向也是不同的。因此，本文將原始PICFCS的邊擴展為不同的雙向邊，從而生成一個具有多關(guān)系的圖，利用多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)進行圖中上下文編碼。以圖3為例，模型先檢測到目標節(jié)點“horse”“man”“grass”，然后模型添加其屬性節(jié)點“a brown”“a young”“dry”，最后建立與“horse”相關(guān)的2個關(guān)系節(jié)點。

圖3 目標空間位置關(guān)系

角色感知圖編碼器將基于圖像I的目標空間關(guān)系圖編碼為節(jié)點嵌入的集合χ={x1,…,xi,…,x|v|}，其中節(jié)點xi不僅要表現(xiàn)出其在圖像中對應(yīng)的視覺特征，而且要能反映出它的角色意圖，這對于區(qū)分具有相同圖像區(qū)域的目標節(jié)點和屬性節(jié)點來說至關(guān)重要。此外，因為目標空間關(guān)系圖中的節(jié)點并不是單獨存在的，因此結(jié)合相鄰節(jié)點的上下文信息有利于節(jié)點的語義識別和角色理解。基于以上原因，本文構(gòu)建一個角色感知圖編碼器，在該編碼器中嵌入一個角色感知節(jié)點來體現(xiàn)用戶意圖，還使用一個多關(guān)系圖卷積網(wǎng)絡(luò)來進行上下文編碼。

(1)

式中：Wr∈R3×d為角色嵌入矩陣，d為特征維度；Wr[k]為Wr的第k行；而pos[i]是一種位置嵌入，用于區(qū)分同一目標的同屬性節(jié)點。

雖然目標空間關(guān)系圖中的邊是單向的，但相連節(jié)點之間的影響是相互的。而且，由于節(jié)點的類型不一樣，要怎樣才能使信息從A節(jié)點傳遞到B節(jié)點不同于它從B節(jié)點傳到A節(jié)點呢？針對這一問題，本文對原有的不具有雙向邊的目標空間關(guān)系圖進行擴展，從而得到一個多關(guān)系圖Gm={V,ε,R}。R中有6種邊來捕捉相鄰節(jié)點之間的相互關(guān)系，分別是：目標到目標、目標到屬性、目標到關(guān)系及其反方向。本文使用多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)在Gm中編碼圖的上下文信息，用式(2)來計算。

(2)

2.2 圖注意力機制

(3)

(4)

(5)

(6)

(7)

(8)

2.3 動態(tài)訪問節(jié)點

為了了解不同節(jié)點訪問的情況，本文在每個解碼階段進行了記錄，用αt表示每個節(jié)點的注意力得分。本文加入了視覺哨兵門來實現(xiàn)注意力強度的修改，使模型更專注于重點單詞而不是一些不可視的虛詞，用式(9)計算。

(9)

式中fvs是一個由θvs參數(shù)化的全連接網(wǎng)絡(luò)，它生成一個標量來表示是否生成節(jié)點相關(guān)的詞。為了保證圖中所有節(jié)點都應(yīng)被文本描述所表達，不能出現(xiàn)缺失或者重復(fù)的現(xiàn)象，本文采用一種圖節(jié)點動態(tài)更新機制。通過動態(tài)增加和動態(tài)擦除來實現(xiàn)動態(tài)節(jié)點更新，對于已表達過的節(jié)點采用式(10)和式(11)進行動態(tài)擦除。對第i個節(jié)點表示為xt,i，根據(jù)其強度ut,i更新。

(10)

xt+1,i=xt,i(1-ut,iet,i)。

(11)

如果一個節(jié)點并不需要再表達，則可置為0。采用式(12)和式(13)對新加入的節(jié)點進行更新，包括節(jié)點的屬性。

(12)

(13)

式中fers、fadd為擦除和添加具有不同參數(shù)的全連接網(wǎng)絡(luò)。

2.4 用戶畫像與風(fēng)格化

要實現(xiàn)可控的個性化圖像描述，就必須知道用戶的特征，而用戶的特征可以通過用戶畫像來刻畫。本文所采用的數(shù)據(jù)來源于2016年CCF競賽平臺，由搜狗公司提供的用戶搜索數(shù)據(jù)，其中每條數(shù)據(jù)包含用戶的搜索關(guān)鍵詞ID、Age(年齡)、Gender(性別)、Education(教育程度)。由于用戶在搜索數(shù)據(jù)的過程中，所使用的關(guān)鍵詞和用戶本身屬于從屬關(guān)系，對同一類用戶而言，他們所使用的關(guān)鍵詞通常具有一定的相似性和相關(guān)性，即同類用戶所用關(guān)鍵詞之間的相似度較高，因此我們對具有相似搜索關(guān)鍵詞的用戶聚為一類。如：1)18 歲以下的人群搜索學(xué)業(yè)相關(guān)的數(shù)據(jù)會更多；2)女性一般會比男性在護膚、化妝品上進行更多的搜索；3)受教育程度高的人會使用更專業(yè)的術(shù)語來搜索數(shù)據(jù)。因此，本文采用基于搜索關(guān)鍵詞的用戶畫像構(gòu)建方法。為了簡單起見，基于用戶畫像，本文將用戶的風(fēng)格簡化成3類：專業(yè)型、幽默型和浪漫型。本文提出的用戶畫像的構(gòu)建及其風(fēng)格歸類過程如下：

首先，采用句向量和詞向量混合訓(xùn)練的 Doc2vec 模型對關(guān)鍵詞進行向量構(gòu)建。

其次，采用式(14)的S-TFIWF 權(quán)重計算方法對關(guān)鍵詞加權(quán)，并基于K-means算法對加權(quán)后的數(shù)據(jù)進行聚類處理，通過計算關(guān)鍵詞之間的相似度建立用戶喜好詞庫。

(14)

最后，采用Stacking集成模型，融合SVM分類算法對搜索關(guān)鍵詞進行分類和預(yù)測，最終得到用戶的標簽信息，即用戶的用語風(fēng)格。

對本文所用的用戶數(shù)據(jù)集進行可視化處理，并根據(jù)用戶的一些特點做基本的風(fēng)格分類，結(jié)果如圖4所示。

圖4 用戶風(fēng)格聚類

2.5 語言解碼器

(15)

傳統(tǒng)的語言LSTM網(wǎng)絡(luò)用于生成圖像描述時，主要是捕捉句子中單詞之間的長期順序依賴關(guān)系，而沒有考慮語言中其他語言模式的風(fēng)格。為了解決這個問題，本文提出一個分解式語言LSTM模塊，將傳統(tǒng)語言LSTM模型中輸入xt的權(quán)重矩陣Wx分解為3個矩陣Ux、Sx、Vx的乘積，

Wx=UxSxVx。

(16)

在分解式LSTM模型中，矩陣集Ux、Vx在不同的樣式之間共享，這些樣式被設(shè)計用來對所有文本數(shù)據(jù)中的一般事實描述建模。矩陣Sx代表特定的用戶用語風(fēng)格，因此可以提取文本數(shù)據(jù)中的底層樣式因素。具體來說，本文用SP表示標準語言描述中的專業(yè)型文體的因子矩陣集，SR表示浪漫型文體的因子矩陣集，SH表示幽默型文體的因子矩陣集。最終，本文得到了分解式LSTM的計算過程用式(17)來表示。

(17)

3 實驗結(jié)果與分析

本章用實驗來評估所提出模型的有效性, 首先介紹實驗用的基準數(shù)據(jù)集和評估指標, 并給出實驗的實現(xiàn)細節(jié), 然后將本文方法與最新的一些方法進行比較, 并對生成描述語句的結(jié)果進行定量和定性分析。

3.1 數(shù)據(jù)集及評價標準

3.1.1 數(shù)據(jù)集

本文主要使用FlickrStyle 10K(1)https:∥zhegan27.github.io/Paper.html和MSCOCO 2014(2)http:∥cocodataset.org/數(shù)據(jù)集來驗證模型的有效性。FlickrStyle 10K是在Flickr 30K數(shù)據(jù)集中創(chuàng)建的，該數(shù)據(jù)包含10 000張圖片，每張圖片至少標注了1個幽默型語句、1個浪漫型語句和5個真實標注語句，實驗將7 000張圖像用于訓(xùn)練，2 000張圖像用于測試，1 000張圖像用于驗證，測試集中收集了由5名不同工作人員撰寫的5種浪漫和幽默型的評價說明。MSCOCO 2014數(shù)據(jù)集包含123 287張圖像, 每張圖像至少有5個真實標注語句用于圖像描述任務(wù)，實驗中將113 287幅圖像用于訓(xùn)練，5 000幅圖像用于驗證，5 000幅圖像用于測試。

3.1.2 評價標準

實驗中使用的評價指標包括BLEU1—BLEU4、METEOR、CIDEr[32]、SPICE[33]和ROUGE-L[34]。對于多樣性測量，首先對每個模型的相同數(shù)量的圖像標題進行采樣，并使用2種類型的度量來評估采樣標題的多樣性：1)n-gram多樣性(Div-n)，一種廣泛使用的度量[4,9]，即距離圖與總字數(shù)的比率；2)SelfCIDEr[35]，一種評估語義多樣性的最新指標，源自潛在語義分析，分數(shù)越高標題就越多樣化。

3.2 實驗細節(jié)

本文實驗在pytorch框架上實現(xiàn)，使用python 3.6語言編程, 在NVIDIA GeForce RTX 3090 GPU上進行實驗。本文使用Faster R-CNN來檢測圖像中包含的目標, Faster R-CNN首先在Visual Genome數(shù)據(jù)集上進行預(yù)訓(xùn)練, 然后在MSCOCO數(shù)據(jù)集上進行微調(diào)。因此, 對于每一幅經(jīng)過預(yù)處理得到的大小為256×256的圖像, 可以得到36個2 048維的圖像特征向量。在解碼階段，使用LSTM作為語言生成器, 其輸入層和隱藏層數(shù)量均設(shè)置為512，嵌入向量的維度設(shè)置為512。設(shè)置參數(shù)λ的值為0.2。整個訓(xùn)練過程分為以下2個階段: 在第一階段, 利用交叉熵損失函數(shù)訓(xùn)練模型, 訓(xùn)練的批量大小為64。設(shè)置動量大小為0.9，學(xué)習(xí)率為1×10-4。在訓(xùn)練過程中, 每經(jīng)過5個epoch, 學(xué)習(xí)率衰減為原來的0.7倍。使用集束搜索技術(shù)從候選語句集中選擇最合適的描述語句, 集束的大小設(shè)置為3。

3.3 實驗結(jié)果分析

3.3.1 在FlickrStyle上生成描述示例

表1展示了所提出的模型在FlickrStyle上的實驗結(jié)果,其中不同顏色代表描述對應(yīng)顏色的目標。從表1的第2列不難看出，本文提出的方法可以有效地從位置、屬性、關(guān)系等方面按照用戶的意圖生成相應(yīng)的圖像描述，以圖(a)為例，“Two people”既可描述成“A man and a woman”，也可以更加細粒度地描述成“A group of skiers”。從第2列的描述語句對圖(c)中目標與目標之間的動作關(guān)系“jumping to catch”的描述可知，模型可以通過有向節(jié)點的控制來表達用戶所希望描述的物體及物體之間的關(guān)系，更加細粒度地描述用戶所感興趣的內(nèi)容或要忽略的內(nèi)容，從而更高效地表達關(guān)鍵性的、用戶需要的細節(jié)信息。從圖(b)第4列可以看出，“Two horses graze in a field near trees”可以浪漫地表述成“Two horses graze in a field, as a landscape painting”,也可以幽默地表述成“A horse graze in a field near trees, wants go home”。本模型可以顯著提升句子的可讀性，豐富了圖像描述中文字的表現(xiàn)力。

表1 在數(shù)據(jù)集FlickrStyle上的實驗結(jié)果

表2展示了本文方法與其他方法的性能對比，其中Ours_P、Ours_R和Ours_H分別代表本文的專業(yè)型、浪漫型以及幽默型字幕生成方法。與普通的圖像描述數(shù)據(jù)集相比，F(xiàn)lickrStyle數(shù)據(jù)集中的標準描述語句更具多樣性、表現(xiàn)力和吸引力。從表2中可見本文方法的各項評價指標都要優(yōu)于對比方法，說明本文方法所產(chǎn)生的描述更具多樣性、更受歡迎和易于記憶。這種帶有樣式的圖像字幕任務(wù)有望為許多現(xiàn)實世界的應(yīng)用程序提供便利。

表2 不同圖像描述生成方法在FlickrStyle上的性能比較

從圖5中可以看出,本文模型能夠生成更細粒度的描述，描述的表達方式也更具個性化，更接近真人的文字表達。

圖5 基于場景圖的模型對比實例

3.3.2 多樣性評估

本文模型圖像描述生成的一個好處是可以基于多樣化生成不同的圖像描述，以不同層次的細節(jié)描述不同方面的圖像內(nèi)容。如表3所示，本文模型生成的描述比競爭者的模型更加多樣化，特別是在SelfCIDEr評分上，該評分側(cè)重于語義相似性。表1中演示了帶有不同用戶意圖的示例圖像，本文模型至少能生成3種不同用戶意圖的描述。

表3 與先進模型的多樣性評估對比

3.3.3 用戶喜愛度評估

本文設(shè)計了一個網(wǎng)站，使用500張圖片，每10張圖片為一組，調(diào)查對比風(fēng)格化的圖像描述和傳統(tǒng)無風(fēng)格的圖像描述。使用同一張圖片，將NIC、Multi-task、風(fēng)格浪漫型模型和風(fēng)格幽默型模型生成的4個描述呈現(xiàn)給用戶，讓他們選出更吸引他們的描述。表4的結(jié)果表明，88.5%的用戶認為帶個性化的描述更具吸引力，也更適合放入社交媒體中。

表4 用戶喜愛度投票結(jié)果

3.3.4 消融實驗結(jié)果分析

本文模型主要包含以下幾個模塊：空間關(guān)系圖(spatial relation，SR)、多關(guān)系卷積神經(jīng)網(wǎng)絡(luò)(MR-GCN，MG)、圖語義注意力(graph content attention，GCA)、圖流動注意力(graph flow attention，GLA)、動態(tài)訪問節(jié)點(dynamic access node，DAN)、風(fēng)格因子(factored，F(xiàn)AT)和集束搜索(beam search，BS)。為了驗證各模塊的貢獻，進行了消融實驗，結(jié)果如表5所示，其中“√”表示對應(yīng)的模塊被選中。由于MSCOCO數(shù)據(jù)集中的描述語句是不帶風(fēng)格化的，因此表5中最后一組在加入了風(fēng)格化模塊后就無法測試MSCOCO數(shù)據(jù)集了，對應(yīng)實驗結(jié)果用“—”表示。第3組在編碼器中加入了空間關(guān)系圖，極大地提升了模型的性能，這說明區(qū)分同一區(qū)域不同的節(jié)點至關(guān)重要；第4、5組中分別加入了圖語義注意力和圖流動注意力，可以看出2個注意力之間有一定的互補性，使得描述語句更通順；第6、7組中的動態(tài)訪問節(jié)點以及集束搜索均在數(shù)據(jù)量更大的MSCOCO上表現(xiàn)更佳；最后一組加入風(fēng)格因子后，模型的性能得到進一步提升，這主要得益于風(fēng)格因子的多樣性。

表5 消融實驗結(jié)果

4 結(jié)語

本文旨在探索一種可以同時實現(xiàn)對圖像描述內(nèi)容控制和描述語句風(fēng)格控制的方法。本文PICFCS模型不僅可以控制圖像描述生成中的不同細節(jié)(例如：描述什么物體，是否描述物體的屬性，以及物體之間的關(guān)系等)，還通過用戶的年齡、性別以及受教育程度等標簽構(gòu)建用戶畫像，并通過用戶畫像選擇更貼近用戶風(fēng)格的語句描述，從而提升描述模型與用戶之間的交互性。結(jié)合風(fēng)格化的圖像描述，使得描述語句更具可讀性，更接近真人的表達，使機器與人類之間的交流更自然、更順暢。

廣西師范大學(xué)學(xué)報（自然科學(xué)版）2022年4期