郭可心,張宇翔
(中國民航大學計算機科學與技術學院,天津 300300)
情感分析(Sentiment Analysis)作為社交媒體分析的前沿領域,被廣泛應用于針對用戶的產(chǎn)品營銷、政治預測、股票預測和心理健康分析。近年來,隨著移動攝影設備的廣泛應用和網(wǎng)絡環(huán)境的不斷進步,圖文并茂的用戶評論在各個社交媒體平臺和電子商務網(wǎng)站平臺已經(jīng)相當常見。多模態(tài)(Multimodal)的信息格局給公眾輿情的產(chǎn)生和傳播帶來了不可忽視的沖擊,也為情感分析的發(fā)展帶來了巨大的挑戰(zhàn)。
圖文情感分析的難點在于不同模態(tài)信息本身的異質(zhì)性及模態(tài)間關系的復雜性。為了更精簡、更準確地提取和融合圖文情感特征,研究者開始進一步探索圖像特征與文本特征之間的關聯(lián)性。受視覺問答(Visual Question Answering,VQA)、圖像描述(Image Caption)、跨模態(tài)檢索(Cross Modal Retrieval)等領域的影響,現(xiàn)有的圖文情感分析方法傾向于發(fā)掘文本和圖像之間的區(qū)域性對齊,通常使用空間注意力機制(Spatial Attention Mechanism)進行圖文特征的融合[1]。
空間注意力機制最早提出于計算機視覺(Computer Vision,CV)領域的相關任務,原理是模擬人類視覺系統(tǒng)(Human Visual System,HVS)的信號處理機制,更多地關注與任務目標相關的視覺區(qū)域。目前空間注意力在各類圖文結(jié)合的預測任務中已經(jīng)被證實是有效的,現(xiàn)有的圖文特征融合方法通常在文本特征與卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的特征圖之間進行空間注意力加權;然而不同于其他視覺特征,圖像的情感特征具有復雜性和主觀性的特點。心理學研究表明,不同的視覺特征會對人類的情感認知產(chǎn)生不同的影響[2]。傳統(tǒng)的CNN方法通常是為中心位置對象分類而設計,通過疊加層次化的視覺抽象圖層提取圖像特征[3],最高層卷積視野域較大,產(chǎn)生的特征圖側(cè)重于對圖像實體、圖像語義關系的抽象,不能針對性地提取中層圖像美學和低層視覺特征。
自然社交媒體中產(chǎn)生的情感評論具有隨意性、抽象性等特點,現(xiàn)有的特征融合方法對這兩種模態(tài)之間的自然聯(lián)系知之甚少。根據(jù)Chen 等[4]的研究,圖文之間不僅能產(chǎn)生實體層面的對應關系,還可以通過底層、中層的視覺特征體現(xiàn)情感的一致性。圖1 包含兩個表達積極情感的圖文推特評論。圖1(a)中詞“Bromeliads”與圖片中展示的實體統(tǒng)一,情感“vibrant”與該實體直接相關;而在圖2(b)中,用戶引入了一個抽象的圖片,圖文之間不存在實體聯(lián)系,文本通過詞“energetic”表現(xiàn)積極的情緒,而圖像則是通過明亮的色彩和有規(guī)則的紋理表達積極的情感。
圖1 情感評論的分類Fig.1 Classification of reviews with sentiment
受以上觀點啟發(fā),本文提出了一種基于多層次空間注意力(Multi-Level Spatial Attention,MLSA)的圖文情感分析方法。以文本特征為基準,采用多層次結(jié)構(gòu),在圖像不同層次卷積的特征圖上使用空間注意力。高層卷積上的注意過程主要突出圖像中與文本相關的實體,而低層卷積上的注意過程則更多地關注能表達情感的顏色、紋理等底層特征。本文使用公開的推特圖文情感評論數(shù)據(jù)集對MLSA 方法進行訓練和測試,并與多種情感分析方法進行對比。實驗結(jié)果表明MLSA方法在準確率和F1 值上取得了優(yōu)于其他對比方法的情感檢測結(jié)果。
傳統(tǒng)的情感分析方法主要集中于文本,基于詞典的方法因其效率和簡單而被廣泛使用[5-6]。隨著深度學習方法在自然語言處理的多項任務中展現(xiàn)出有競爭力的性能,神經(jīng)網(wǎng)絡已經(jīng)應用于許多情緒的提取和分析方法[7-8]中。
情感識別是視覺理解的一個關鍵部分,許多研究成果顯示,圖像情感與眾多低水平到高水平的因素有關[9]。早期的研究主要集中于分析圖像的顏色、形狀等低級特征(low-level features)對情緒進行分類[10-11]。隨后Borth 等[12]構(gòu)建了一個1 200個形容詞-名詞對(Adjective Noun Pairs,ANP)組成的大型視覺情感本體庫,并在此基礎上構(gòu)造了中層屬性(mid-level attributes)SentiBank作為圖像的情感檢測器。隨著遷移學習與CNN方法的建立,基于圖像高級特征(high-level feature)的情感分析方法逐漸成為主流。You 等[13]提出了一種逐步訓練的卷積神經(jīng)網(wǎng)絡(Progressive CNN,PCNN),使用遷移學習的思想解決數(shù)據(jù)量不足的問題。Rao 等[14]設計了MldrNet(Multi-level deep representations Network),整合情感、紋理和美學3個角度的圖像特征構(gòu)成圖像的情感語義,但由于過于注重美學特征,導致其在社交圖像數(shù)據(jù)集上的泛化效果不佳。
根據(jù)多模態(tài)特征的融合策略,多模態(tài)情感分析方法可分為早期融合(Early Fusion)、混合融合(Intermediate Fusion)和晚期融合(Late Fusion)。早期融合又稱特征級融合,在進行情感分數(shù)計算之前,將多個模態(tài)來源的數(shù)據(jù)整合成一個整體的特征向量[15-16]。許多早期的工作都使用早期融合進行多模態(tài)特征學習,但這些方法可能產(chǎn)生高維冗余的特征向量,且破壞了模態(tài)之間的獨立性和互補性。后期融合又稱為決策級融合,發(fā)生在每種模態(tài)建模之后,將多個模態(tài)情感分類器的決策結(jié)果進行平均計算,特點是不同模態(tài)的分類器訓練過程通常不相關[17-18]。后期融合提供了一個廉價而有效的模態(tài)融合方案,但忽略了模態(tài)之間的特征交互,難以有效地捕捉不同模式之間的關聯(lián)性。
現(xiàn)有的圖文情感分析方法大多采用混合融合的方法,通過共享神經(jīng)網(wǎng)絡表示層的特征向量實現(xiàn)模態(tài)間的特征交互,并設計特定的連接單元來實現(xiàn)多個模態(tài)特征的有效融合。You 等[19]利用注意力機制學習圖像區(qū)域和文本單詞之間的一一對應,并采取樹形結(jié)構(gòu)集成文本和圖像信息。Xu等[20]從圖文間的跨模態(tài)實體一致性入手,提出了一種圖像的區(qū)域特征與文本的多個語義層次相互作用的雙向多層次注意模型(Bi-Directional Multi-Level Attention model,BDMLA)。在此基礎上,Xu 等[21]首次提出了方面級的多模態(tài)情感分析任務,而Yu等[22]則進一步提出了社交媒體帖子的實體級(又稱目標依賴)情緒分析。此外,一部分研究更注重利用社交媒體中的特定圖文情境進行情感分析。針對電子評論中存在圖文話語關系不平等的情況,Truong 等[23]提出VistaNet,將圖像作為文本的附屬特征而非獨立信息,利用圖像作為注意力基準強調(diào)文本中的重點句子。隨著表達反諷情緒的圖文評論數(shù)量不斷增多,圖文情感不一致的問題愈加突出。Cai等[24]提出了一種層次融合方法,通過融合圖像、屬性和文本三種特征來解決具有挑戰(zhàn)性的多模態(tài)諷刺檢測任務。Zhang 等[25]則進一步考慮了網(wǎng)絡廣告圖像中普遍存在的視覺修辭現(xiàn)象,使用自適應編碼器理解圖像的視覺修辭,并采用多任務結(jié)構(gòu),加入主題分析來提高情感分析的效果。
上述研究通過對連接單元的設計和方法的理解,在某些特定場景中具有了聯(lián)系和理解多模態(tài)信息的能力,但仍缺乏對圖文情感共現(xiàn)現(xiàn)象及其原理的探究,提出的方法通常將CNN 視為從全局視角中學習圖像高層特征的“黑盒子”,并沒有充分挖掘文本特征與圖像美學相關的中層局部信息或低層視覺特征之間的情感共現(xiàn)。從實際問題出發(fā),本文方法運用文本引導的空間注意力機制,具體設計如何從圖像中獲取和使用與文本相關的高層語義特征和中、低級視覺特征。
本章將從模型結(jié)構(gòu)和模型訓練兩方面對MLSA 方法進行介紹。MLSA 模型采用端到端(end-to-end)的學習方式,根據(jù)功能的不同可以劃分為文本特征提取模塊、層次化圖像特征提取模塊、情感預測模塊3 個部分。區(qū)別于僅提取最高層次卷積輸出的作為圖像特征的方法,MLSA 構(gòu)建具有5層分支結(jié)構(gòu)的文本引導的空間注意力模塊,針對CNN 不同層次卷積的輸出進行空間注意力加權,加權后的特征矩陣作為下一層的卷積輸入,直到輸出最后一個卷積層的卷積結(jié)果。MLSA 的 總體架構(gòu)如圖2所示。
圖2 MLSA的基本結(jié)構(gòu)Fig.2 Basic structure of MLSA
2.1.1 文本特征提取
經(jīng)過預處理的推特文本作為特征提取網(wǎng)絡的輸入。給定的文本序列W=[w1,w2,…,wN],其中wn是位置n處單詞的一個one-hot 向量表示,下標N表示文本序列的總長度。首先使用嵌入矩陣Wglove將單詞嵌入到向量空間中:
其中:Wglove為預訓練的詞嵌入矩陣[26],隨后在訓練中進行了調(diào)整;E為嵌入向量的維度。對于每一個單詞嵌入向量,模型使用了長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡進行進一步編碼。LSTM 接受單詞嵌入xn作為輸入,并輸出一個新的隱藏狀態(tài)向量hn:
由于文本情感語義受上下文內(nèi)容的影響,MLSA 模型引入雙向LSTM 機制(Bi-directional LSTM),連接前向LSTM 和后向LSTM 生成的隱狀態(tài)向量,得到每個單詞最終的向量表示
一個句子里的每個單詞是“不平等”的。有些單詞能為情感提供更多的有效信息。為了計算和分配每個詞在情緒分類中的權重,模型加入了軟注意機制(soft attention)[23]:
其中:un是非規(guī)范化注意分數(shù),衡量單詞hn與文本情感之間的關系。權重矩陣Wh和偏置向量bh是需要學習的參數(shù)。αn用于規(guī)范化所有單詞hn上的注意力權重。文本整體的文本語義向量FT可以通過對單詞特征的加權平均來計算:
2.1.2 圖像特征提取
從圖像中理解情感的難度遠超從圖像中識別物體,如何兼顧多個抽象層次進行特征提取是構(gòu)筑完整的圖像情感特征的關鍵。事實上,CNN 模型本身支持多個抽象層次的情感特征提取,每個不同層對圖像的特征學習有著不同的偏好。Zeiler 等[27]在ImageNet 上的實驗表示,CNN 每一層卷積的投影體現(xiàn)了網(wǎng)絡中特征的層次性,低層卷積由于視野域較小,更傾向于提取低級的特性,比如顏色、邊緣和紋理,而高層卷積則因為擁有更大的視野域而傾向于概括對象特征和語義內(nèi)容?;谶@一事實,MLSA 方法將空間注意的思想從卷積的最高層擴展到卷積的每一層上,在每個卷積層的特征圖上計算文本引導的視覺注意力權重。為了能結(jié)合相關公式,進一步展示出圖像特征提取的整體流程,使用圖3 對文本引導的多層次空間注意機制的結(jié)構(gòu)細節(jié)進行進一步展示。
圖3 文本引導的多層次空間注意力機制Fig.3 Multi-level spatial attention guided by text
形式上,假設模型將生成圖像的第l層特征。在第l層,文本向量FT將決定空間注意權重pl和被注意權重所調(diào)制的圖像特征圖Yl[3]:
式中:Φ()為空間注意力函數(shù),詳見式(9)~(10);f()是將圖像特征與注意力權重進行線性組合的?;瘮?shù),詳見式(11)。Xl記作是l-1卷積層的特征映射輸出的圖形特征矩陣:
現(xiàn)有實現(xiàn)視覺軟注意力的方法有很多,如多層感知器、雙線性、點積、縮放點積和求和后的線性投影。其中求和后的線性投影會使注意力更加分散,有利于模型盡可能多地利用相關的視覺特征[28]。給定文本向量FT和第l層的圖像特征矩陣Xl∈RC×M,其中M是該層圖像矩陣的區(qū)域數(shù),C是該層的通道數(shù)。首先通過單層神經(jīng)網(wǎng)絡將其輸入投射到相同的維度中,然后在文本向量FT的引導下,通過softmax 函數(shù)生成文本對應于每個圖像區(qū)域的注意概率pl[1]:
其中:Wl∈Rk×C、WT∈Rk×d是將圖像視覺特征與文本向量映射到同一向量空間的變換矩陣;WP∈R1×k提供在通道方向的壓縮規(guī)則;bA∈Rk,bP∈R1是線性變換的偏置項。矩陣與向量之間的加法通過將矩陣的每一列與向量相加來實現(xiàn)。根據(jù)注意力分布,計算特征圖的像素區(qū)域和相應區(qū)域權重的乘積,在圖像特征生成過程中編碼了與文本相關的視覺信息:
考慮到CNN 的卷積過程,卷積層通過視野域的擴大而進一步學習到更高層次的視覺特征,在此期間圖像特征矩陣在CNN 中不斷進行傳遞,基于文本的注意力也能隨著圖像特征的進一步訓練而保留。為了得到包含多層次關聯(lián)的視覺特征,提取最后一個卷積層的輸出作為最終的圖像情感特征FI:
其中L為CNN卷積層的總層數(shù)。
2.1.3 情感分類
現(xiàn)有圖文評論的視覺特征FI和文本特征FT。首先使用融合層將它們聚合為最終的多模態(tài)表示,然后在頂部添加一個softmax分類器進行情感分類。
將交叉熵損失作為softmax 的目標函數(shù),以監(jiān)督的方式訓練模型:
其中:D為圖文評論樣本總數(shù),指評論樣本d的真實標簽。
在圖文評論中,文本作為主要內(nèi)容,通常承擔了情感的主要表達功能。從情感分析的角度,討論推特環(huán)境下文本的以下幾個特點:1)一條推文消息的最大長度是140 個字符。這意味著實際上可以將一條推文理解為一個獨立的句子,不包含復雜的語法結(jié)構(gòu)。2)推文中的語言往往更具口語化,而且含有很多短詞(長度小于3 個字母的單詞)、俚語和拼寫錯誤。3)推文中包含很多特定句柄(如@、RT等)和鏈接。為了保證模型的訓練,本文嘗試對文本進行預處理操作,包括處理文本中的標點符號、推特句柄、鏈接、特殊符號、短詞,以及對單詞進行大小寫轉(zhuǎn)換和詞干提取。
根據(jù)數(shù)據(jù)集的來源,選擇glove.twitter.27B.200d 作為文本嵌入;使用預訓練的VGG-T4SA FT-A[29]對MLSA 模型的5個卷積模塊進行初始化。網(wǎng)絡的初始學習率為0.001,隨著迭代次數(shù)的增加,學習率每一輪降低為前一輪的1/10。批處理數(shù)量為16,沖量為0.9。利用RMSProp 更新規(guī)則對最優(yōu)參數(shù)進行反向傳播訓練。為了避免過擬合,模型的訓練過程中還采用了dropout 正則化和早停法(early stopping)的技巧,截斷周期設置為10。
本文采用公開推特圖文聯(lián)合情感分析數(shù)據(jù)集MVSA[30]進行MLSA方法的性能分析,具體信息如表1所示。數(shù)據(jù)集的每個樣本包括1 個從推特上收集的圖文對和1 個手工標注的聯(lián)合標簽,并根據(jù)注釋者人數(shù)的不同,分為MVSA-Single 和MVSA-Multi兩個子數(shù)據(jù)集。
表1 數(shù)據(jù)集統(tǒng)計Tab.1 Statistics of datasets
首先對該數(shù)據(jù)集進行了預處理,將圖文標簽同時包含積極標簽和消極標簽的樣本去除。當一個標簽是中性的,而另一個標簽是積極或消極時,選擇積極或消極標簽作為該樣本的情緒標簽。其次,對于MVSA-Multi的樣本,只有當3個注釋者中的2個給出了相同的標記時,該樣本才被認為是有效的。
為了驗證本文MLSA方法的有效性,將該方法與3組對照方法進行比較,其中包括具有代表性的單模態(tài)情感分析方法。由于本實驗主要研究文本引導的多層次空間注意力機制,不涉及對于基礎網(wǎng)絡的優(yōu)化,故而先對比單模態(tài)的圖像情感分析方法和文本情感分析方法,對模型的基礎組件進行評估和選擇。然后從準確率和F1值兩個指標對MLSA方法進行性能分析。表2 總結(jié)了本文使用的對比方法,并提供了這些方法的簡要描述。
表2 對比方法的簡要描述Tab.2 Brief descriptions of comparison methods
MVSA 數(shù)據(jù)集被隨機分為訓練集(80%)、驗證集(10%)和測試集(10%),采用綜合評價指標F1值和準確率(Acc)對MLSA進行定量分析。表3給出了各方法在MVSA數(shù)據(jù)集上的結(jié)果。
表3 第1 組數(shù)據(jù)顯示了單模態(tài)的圖像情感分析方法的性能。使用VGG19 進行情感分類的效果明顯優(yōu)于SentiBank 方法,這展示了深度神經(jīng)網(wǎng)絡在圖像情感分類任務中的強大性能。由于物體識別任務與圖像情感識別任務在特征選取上具有較大差異,經(jīng)過全層次微調(diào)的VGG-T4SA FT-A 的準確率和F1 值在MVSA_Single 數(shù)據(jù)集上提高了1.92 和1.7 個百分點,在MVSA_Multi 數(shù)據(jù)集上提高了1.94 和1.28 個百分點,這一結(jié)果表明多層次特征學習在圖像情感挖掘中的有效性。
表3 第2 組數(shù)據(jù)顯示了單模態(tài)的文本情感分析方法的性能。由于深度神經(jīng)網(wǎng)絡在提取文本情感特征方面同樣具有優(yōu)勢,基于規(guī)則的SentiStrength 方法準確率和F1 值均低于LSTM-Avg 和LSTM-Att。與平均計算每個單詞權重的LSTMAvg 方法相比,LSTM-Att 加入了能強調(diào)文本情感相關詞的軟注意力機制,在準確率和F1值上均有小幅度的提升。
表3 第3 組數(shù)據(jù)顯示了圖文情感分析方法的性能。Sentibank 與SentiStrength 結(jié)合的方法效果仍遠不如基于深度學習的方法。Late Fusion 方法和Early Fusion 都是通過整合VGG-T4SA FT-A和LSTM-Att得到的深度神經(jīng)網(wǎng)絡,Late Fusion僅對情感分析的結(jié)果進行平均,缺少特征融合過程,在準確率和F1值上的平均性能低于其他的深度學習方法。Early Fusion在邏輯回歸前加入了串聯(lián)式的特征融合過程,在一定程度上提高了情感分析的效果,但通過觀察可以發(fā)現(xiàn),Early Fusion方法不僅在性能上低于SA(Spatial Attention)方法和MLSA方法,甚至低于第2組對照方法中的LSTM-Att方法,可以發(fā)現(xiàn),在推特圖文評論環(huán)境中,完全平等的圖文關系建??赡軙η楦蟹治龅男Чa(chǎn)生負面影響,這驗證了文本引導的注意力機制的正確性。SA方法在Early Fusion的基礎上,于CNN的最高卷積層增加了文本引導的空間注意力機制,準確率和F1值在兩個數(shù)據(jù)集上得到了大幅度提升。這一實驗結(jié)果表明了空間注意力機制可以有效捕捉圖文特征之間的情感關聯(lián),但該方法平均水平上的性能全面劣于MLSA方法,原因是僅使用了圖像的高層特征,忽略了對圖像低層次和中層次特征的利用,因此難以從一些更抽象的樣例中理解圖文之間的情感共現(xiàn)。MLSA 方法的準確率和F1值在兩個數(shù)據(jù)集中優(yōu)于所有其他對比方法,相較于次優(yōu)的SA方法,在MVSA_Single數(shù)據(jù)集上均提高了0.96個百分點,在MVSA_Multi 數(shù)據(jù)集上分別提高了1.06 個百分點和0.62 個百分點。性能的提升證明了圖像層次化特征對多模態(tài)情感分析的指導意義,也展現(xiàn)了層次化空間注意機制在圖文情感分析中的能力。
表3 不同情感分析方法的性能對比 單位:%Tab.3 Performance comparison of different sentiment analysis methods unit:%
為了更直觀地觀察文本引導的多層次空間注意力機制在特征融合中起到的作用,本節(jié)將從“文本引導”和“多層次空間注意力”兩個角度對MLSA 方法進行定性分析。圖4 和圖5 分別給出了VGG-T4SA FT-A、LSTM-Att 方法和Early Fusion、SA、MLSA方法根據(jù)預測分數(shù)排名得到的置信度最高的3個圖文樣例,其中預測錯誤的樣本用方框進行標記。所有高置信度圖文樣例均來自MVSA數(shù)據(jù)集,按照積極、中性、消極的情感分類依次進行展示,并在類內(nèi)按預測分數(shù)遞減順序從左到右排序。
圖4 使用VGG-T4SA FT-A和LSTM-Att方法得到置信度最高的樣例Fig.4 Examples with highest confidences by using VGG-T4SA FT-A and LSTM-Att
3.4.1 文本引導的圖文話語關系
不同的方法給出了不同的高置信度預測樣例。通過比較錯誤樣例的個數(shù)可以發(fā)現(xiàn),對于推特平臺上的圖文評論數(shù)據(jù),僅使用文本特征的LSTM-Att 方法樣例比僅使用視覺特征的VGG-T4SA FT-A 方法有更強的情感鑒別能力。從圖4(a)~(c)中的錯誤樣例可以看出,僅使用圖像特征的VGG-T4SA FT-A 方法幾乎不能僅通過預測圖像的情感傾向得出圖文評論的整體情感信息,這一結(jié)果說明在推特的圖文評論環(huán)境中,圖像很難獨立于文本表達情感。
相較于VGG-T4SA FT-A 方法,LSTM-Att 方法的錯誤率在高置信度樣例中有明顯降低,同時通過對圖4(e)中錯誤樣例觀察可以發(fā)現(xiàn),對于一些語氣不突出乃至不包含情感信息的文本,圖像通常起到為其加強情感語氣、增添情感色彩的作用。
3.4.2 多層次空間注意力
由于Early Fusion、SA、MLSA 使用相同的基礎網(wǎng)絡,僅在對空間注意力的使用上有所區(qū)別,故對三者的比較可以有效地展現(xiàn)出多層次空間注意力的情感特征捕捉能力。Early Fusion 較少考慮圖文之間的情感共現(xiàn),高評分樣例中出現(xiàn)的圖像和文本本身通常包含更強烈的情感傾向,故對中性樣例的識別效果較差。SA 方法僅對圖像的最高層卷積施加空間注意力,在效果上表現(xiàn)為更容易為含有突出實體對象的圖文樣例打出較高的評分;而MLSA 方法將空間注意力擴展到CNN 的每一個卷積層,兼顧了多尺度卷積得到的多層次圖像情感特征。對比代表中性樣例的圖5(e)和圖5(h)可以看出,MLSA 方法同樣能有效利用圖文之間的實體關聯(lián)進行情感分析;而圖5(g)和圖5(i)則表現(xiàn)出MLSA 在理解圖像情感時更積極地考慮了圖像的色彩、紋理以及構(gòu)圖??偟膩碚f,定性分析的結(jié)果證明了文本引導的多層次空間注意力機制在圖文情感特征融合過程中的合理性和有效性。
圖5 使用Early Fusion、SA、MLSA方法得到置信度最高的樣例Fig.5 Examples of the highest confidences by using Early Fusion,SA and MLSA
在自然社交媒體中,圖像豐富的情感表達手段為文本情感帶來了另一個角度的解讀,而當前大多方法忽略了圖像的層次化特征在圖文特征融合中的重要作用。針對這一挑戰(zhàn)性問題,本文提出了利用文本引導的多層次空間注意力機制進行特征融合的圖文情感分析方法MLSA,在特征融合過程中充分考慮圖像的高層實體特征和中低層視覺特征,進一步加強了圖文之間的情感關聯(lián)。MLSA 方法在圖文推特情感數(shù)據(jù)集上的實驗結(jié)果在準確率和F1值上都取得了更好的效果,表明文本引導的多層次空間注意力機制有效增強了神經(jīng)網(wǎng)絡模型捕捉情感語義的能力。此外,圖像和文本的關系問題是多模態(tài)話語分析中存在的“瓶頸”問題。在實驗探索中可以發(fā)現(xiàn),對圖文關系的理解也會對圖文情感分析的效果產(chǎn)生影響。在今后的研究中,進行情感分析的同時融入圖文關系分析,將是一個重要的研究方向。