張 沖,于玉海,孟佳娜
(大連民族大學 計算機科學與工程學院,遼寧 大連 116650)
情感分析,也稱意見挖掘,是指個人對許多話題表達的意見、情感和態(tài)度的分析。社會媒體的發(fā)展推動了信息發(fā)布形式的多樣化,目前社交媒體用戶除了用文本來表達自己的情感,也經(jīng)常上傳帶有感傷或者高興文字的圖片,使推文更生動、更容易理解。方面級情感分析是細粒度情感分析,在方面級情感分析任務中,使用注意力機制可以有效提高分類效果。Ma等人[1]提出一種基于分層注意力機制的長短期記憶網(wǎng)絡(Long-Short Term Memory,LSTM),同時將情感相關概念的常識性知識引入到深度神經(jīng)網(wǎng)絡端到端的訓練中進行情感分類。Wang等人[2]提出MemNet模型,應用記憶網(wǎng)絡的思想,通過上下文信息構建記憶網(wǎng)絡,通過注意力機制捕獲對方面情感傾向比較重要的信息,使用多層計算單元提取到更多的信息,進而提升模型的性能。引入圖像描述生成方法[3],通過圖像描述語句生成,增加語言模型可用的文本數(shù)量,然后通過圖像生成的圖像描述語句與目標方面詞構建一個輔助句子,輔助句子與文本標題一同輸入RoBERTa混合神經(jīng)網(wǎng)絡模型,將多模態(tài)交互應用于情感傳遞,最后利用自注意力機制對目標方面詞對應的關鍵信息賦予不同權重,并把編碼結果輸入到情感分類器中進行多模態(tài)方面級情感分析。模型用Twitter-15/17數(shù)據(jù)集來評估,實驗結果數(shù)據(jù)表明該模型具有效性。主要貢獻如下:
(1)提出一種混合神經(jīng)網(wǎng)絡模型(Hybrid Neural Networks,HNNet),并引入圖像描述生成方法準確提取圖像信息,生成圖像描述語句,更好應用到下游情感分析任務中。
(2)構建輔助句子與文本數(shù)據(jù)融合,彌補Twitter文本較短、包含信息量少,難以捕獲重要信息等問題。
(3)融入注意力機制,使模型更好的關注到目標方面詞所對應的句子關鍵信息上,從而有效地提高方面級情感分析的準確度。
基于多模態(tài)方面級情感分析的新任務來源于兩個研究方向,分別是方面級情感分析和多模態(tài)情感分析。
方面級情感分析的目的是識別文本句子在某一方面的情感極性。它的研究方法可以分為兩大類:基于傳統(tǒng)特征選擇的方法和基于神經(jīng)網(wǎng)絡的方法。
基于特征情感分析方法通過對文本內(nèi)容中出現(xiàn)情感詞的概率進行編碼來完成任務。情感詞語檢測[4]、統(tǒng)計模型[5]是典型的方法。情感詞語檢測是最常用的方法。統(tǒng)計模型是一個經(jīng)過大規(guī)模標記語料庫訓練的分類器,用于識別單詞的情感強度。
基于神經(jīng)網(wǎng)絡的方面級情感分析,也取得很好的效果。為了進一步處理多方位句和句法復雜的句子結構,Liu等人[6]提出了句子層面的內(nèi)容注意力機制,從全局角度捕捉給定方面的重要信息,語境注意力機制同時考慮語境詞的順序及其相互關系。然而以往的研究并未考慮語法規(guī)則對語篇情感分析的影響,并且注意力機制也過于簡單,難以從語境和目標中交互學習到重要的注意信息,所以Lu等人[7]提出一個交互規(guī)則注意網(wǎng)絡IRAN用于方面級情感分析,這種交互可以捕捉到更多重要的信息。Du等人[8]指出現(xiàn)有的神經(jīng)網(wǎng)絡模型大多傾向于利用靜態(tài)的集中操作或注意力機制來識別感傷詞,不足以處理重疊的特征。與他們的工作不同,本文主要使用深度混合模型RoBERTa、雙向長短期記憶網(wǎng)絡(Bi-directional Long-Short Term Memory,Bi-LSTM)和自注意力機制進行方面級情感分析。
隨著多種形式的用戶生成內(nèi)容(如文本、圖像、語音或視頻)在社交網(wǎng)站中的流行,情感分析已經(jīng)不限于基于文本的分析。多模態(tài)情感分析是將文本和非文本信息整合到用戶情感分析中的新興研究領域。
文本-圖像對是多模態(tài)數(shù)據(jù)最常見的形式。傳統(tǒng)方法采用基于特征的方法進行多模態(tài)情感分析。如Borth等人[9]從圖像中提取1 200對形容詞-名詞對作為圖像的視覺特征進行分類,然后根據(jù)英語語法和拼寫風格計算文本的情感得分生成文本特征。這些基于特征的方法在很大程度上依賴于費時費力的特征工程,未能建立視覺信息與文本信息之間的關系模型。隨著深度學習技術的發(fā)展,一些基于神經(jīng)網(wǎng)絡的多模態(tài)情感分析模型被提出,Cai等人[10]利用基于卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)從文本和圖像中提取特征表示,并取得顯著的進展。為了充分捕捉視覺語義信息,Xu等人[11]從圖像中提取場景和物體特征,并利用這些視覺語義特征聚合文本情緒信息詞,建模圖像對文本的影響。Wang等人[12]從每個模態(tài)中提取特征,然后對跨模態(tài)關聯(lián)進行建模,以獲得更具有識別力的表示,以此在多任務框架中同時感知事件和情感。Yang等人[13]引入多通道圖神經(jīng)網(wǎng)絡來學習基于數(shù)據(jù)集全局特征多模態(tài)表示,利用多頭注意機制實現(xiàn)多模態(tài)深度融合預測圖像-文本對的情感。
多模態(tài)方面級情感分析屬于細粒度的多模態(tài)情感分析任務。與基于純文本的情感分析相比,多模態(tài)方面級情感分析主要從文本、視覺等不同情感信息中獲取情感特征,這些方法的聯(lián)合應用不僅可以提高情感表達的質量,還可以提高情感分析的分類精度。Xu等人[14]提出一種基于方面的多交互記憶網(wǎng)絡,以及一個 Multi-ZOL多模態(tài)中文情感分析數(shù)據(jù)集,用于多模態(tài)情感分析。Wang等人[15]提出一種基于注意膠囊與多頭注意力機制的網(wǎng)絡模型,以及一個基于目標方面類別的多模態(tài)情感分析數(shù)據(jù)集用于模型評估。Yu等人[16]提出了一種多模態(tài)BERT架構,該架構將BERT用于跨模態(tài)交互以獲得目標敏感的文本與視覺表示,利用多個自注意力層來實現(xiàn)多模態(tài)融合。Khan等人[3]將圖像轉換為標題,作為情感分類的輔助句子,并利用BERT進行情感分類。本文在圖像處理部分引入圖像轉換為標題模塊,在此基礎上,進一步把文本與圖像描述語句以句子對形式輸入到混合神經(jīng)網(wǎng)絡模型進行方面級情感分類。
一組多模態(tài)樣本,每個樣本包含一個句子Si=(W1,W2,...,WL),其中L是單詞數(shù),句子旁邊是一個圖像Ii、一個目標方面Ti,對應的標簽Yi∈{negative,neutral,positive},目的是學習一個函數(shù)F:(Ti,Si,Ii)→Yi。
本文提出一種基于多模態(tài)方面級情感分析的混合神經(jīng)網(wǎng)絡模型,總體模型如圖1。首先對于圖像利用圖像描述生成器進行輸入轉換,將情感目標的標記與圖像描述生成語句的標記連接起來,從而創(chuàng)建一個輔助句子,然后把輔助句子與文本以句子對形式輸入預訓練模型RoBERTa,獲取文本特征表示,并將其輸出作為Bi-LSTM神經(jīng)網(wǎng)絡的輸入,利用Bi-LSTM對每個句子分別采用順序和逆序計算得到兩套不同的隱層表示,通過向量拼接得到最終的隱層表示。使用自注意力機制捕獲文本重要語義特征,在輸入序列中對標簽結果影響大的特征分配較大權重,在提取到最終的文本特征向量之后,送到池化層、全連接層,最后利用softmax進行情感分類。
圖1 總體模型圖
模型由兩部分組成。給定一個由目標方面、輸入句子和圖像組成的多模態(tài)輸入樣本mi=(Ti,Si,Ii),包含目標方面Ti、輸入語句Si和圖像Ii。首先將圖像經(jīng)過圖像描述生成器進行轉換,將圖像Ii∈R3×W×H轉換成輸入空間中的一個元素Ii'∈N0L,3,W,H分別表示圖像的通道數(shù)、寬度和高度。圖像描述生成的最大輸出長度為L。Ii',Si,Ti∈N0L,代表圖像上下文、句子和目標方面存在于同一個空間N0L中。通過圖像描述生成器和語言模型之間的共享標記器,將符號詞映射到詞匯表N0L里面,圖像的自然語言描述語句Ii'∈N0L。利用圖像的自然語言描述Ii',同目標方面語Ti構造一個輔助句Auxi,然后與輸入語句Si構建句子對(Si,Auxi),在句子對分類模式中使用大規(guī)模預訓練模型,通過混合神經(jīng)網(wǎng)絡模型得到目標方面語的情感預測。
引入圖像描述生成方法,給定輸入圖像,首先使用基于CNN骨干網(wǎng)絡的ResNet101[17]生成一個特征映射圖,然后通過固定的位置編碼增強后傳遞到DETR[18]編碼器層。最后利用Transformer解碼器轉換嵌入,使用解碼器通過預測前饋網(wǎng)絡預測輸入圖像的描述來生成非自回歸文本。圖像描述生成網(wǎng)絡結構圖如圖2。利用圖像的自然語言描述,與圖像對應的目標方面語構造一個輔助句子,采用輔助問題[19]機制使文本與圖像的自然語言描述進行融合。在輔助句分類方法中,將RoBERTa用于句子對分類模式,在句子對分類模式中,輸入到RoBERTa的句子對形為
圖2 圖像描述生成模塊結構圖
(1)
本文所提出的模型是穩(wěn)健優(yōu)化的RoBERTa和BiLSTM的混合神經(jīng)網(wǎng)絡模型。該模型利用預訓練的RoBERTa權重有效地將映射詞嵌入空間中,然后將輸出的詞嵌入輸入到BiLSTM以捕獲顯著的語義特征。
2.4.1 RoBERTa文本表示層
RoBERTa模型是雙向編碼器表示Transformers的擴展。BERT和RoBERTa都是屬于Transformers系列,該系列是為序列到序列建模而開發(fā)的,以解決長期依賴問題。Transformer模型包括三個組件,即編碼器、解碼器和頭。編碼器將原始文本轉換為稀疏索引編碼。解碼器將稀疏內(nèi)容重新轉換為上下文嵌入以進行更深入的訓練。頭部被用來包裝轉換器模型,以便上下文嵌入可用于下游任務。
BERT與現(xiàn)有的語言模型略有不同,它可以從句子兩端學習上下文表示。對于標記部分,BERT使用30K的字符級字節(jié)對編碼,相比之下,RoBERTa使用字節(jié)對編碼(Byte-Pair Encoding,BPE)結合字符級和單詞級表示,其詞匯集更大,由50K子字單元組成。除此之外,RoBERTa模型通過訓練更多數(shù)據(jù)、更長的序列和更長的時間來微調(diào)模型。RoBERTa基礎層旨在創(chuàng)建有意義的詞嵌入作為特征表示,以便后續(xù)層可以輕松地從詞嵌入中捕獲有用信息。
本文模型的文本表示層引入RoBERTa來獲取文本的字向量表示,將文本離散的序列轉換為計算機可識別的稠密向量。通過預訓練模型RoBERTa獲得的字向量組成的文本序列向量表示S為
(2)
2.4.2 雙向長短期記憶網(wǎng)絡層
LSTM模型能夠存儲先前的信息, 從而捕獲給定輸入中突出的遠程依賴關系。使用BiLSTM對序進行處理,捕獲文本的長期依賴特征,具體過程為
(3)
。
(4)
。
(5)
設每個單向LSTM的隱藏單元數(shù)為u,則BiLSTM的隱藏單元為T=2u,其輸出H如公式(6)所示。
H=(h1,h2,h3,...,hT)。
(6)
自注意力機制是從眾多信息中選擇對當前任務目標更關鍵的信息,然后對需要重點關注的目標區(qū)域投入更多的注意力資源。用Bi-LSTM神經(jīng)網(wǎng)絡提取文本的全局特征之后,運用自注意力機制,選擇性地對文本中關鍵的內(nèi)容賦予更多的權重,利用上下文的語義關聯(lián)信息可以有效彌補深度神經(jīng)網(wǎng)絡獲取局部特征方面的不足。文本局部特征表示文本中部分內(nèi)容之間的關聯(lián)特征,例如在句子“這家飯店的燒烤特別美味,啤酒也很棒!”中,“燒烤”是一個顯性的方面類別,與“特別”“美味”這樣的詞關系比較密切,就會給分配較大權重,而其余詞的關聯(lián)度小,分配相對較小權重,因為各個詞對方面類別詞的影響程度不同,所以為其分配的權重也不同。
引入注意力機制后,輸入句子的映射矩陣為Q,K,V,可將輸入句子的嵌入與對應的權值矩陣相乘進行初始化。
Q=WqI
,
(7)
K=WkI
,
(8)
V=WvI
。
(9)
式中,Wq,Wk,Wv為不同的向量空間,是可訓練的參數(shù),當對輸入序列I經(jīng)過多次變換得到不同的Q,K,V,可以得到I在不同子空間的特征以學習到不同的注意力特征。
用Q和K計算相似性,用softmax函數(shù)歸一化處理為
A=KTQ
。
(10)
式中,K是進行訓練之后的參數(shù),KT為K的轉置。
(11)
對V使用權重系數(shù)進行加權求和,得到輸出h*為
h*=A′V。
(12)
本文采用一個全連接層作為輸出網(wǎng)絡進行情感分類。首先將注意力層的輸出作為全連接層的輸入,然后通過softmax函數(shù)對輸出向量進行歸一化處理,最后得到模型的輸出向量為
y′=softmax(Wh*+b)。
(13)
式中,W為訓練權重參數(shù),b為偏置。
實驗中所使用的Twitter-15和Twitter-17兩個數(shù)據(jù)集是由多模態(tài)推文組成,其中每條多模態(tài)推文都包含文本、與推文一起發(fā)布的圖像、推文中的目標以及每個目標的情感。每個目標都被賦予來自集合{negative,neutral,positive}的標簽,任務是一個標準的多分類問題。數(shù)據(jù)集見表1~2。
表1 Twitter-15數(shù)據(jù)集基本統(tǒng)計數(shù)據(jù)
表2 Twitter-17數(shù)據(jù)集基本統(tǒng)計數(shù)據(jù)
本實驗中句子分詞最大長度設置為100,批量處理數(shù)量batchsize設置為8,LSTM單元狀態(tài)維度128,RoBERTa詞向量的維度為768,Dropout與Epoches值分別為0.000 02和6,Twitter-15與Twitter-17的學習率值分別為0.1和0.5。具體參數(shù)設置如見表3。
表3 實驗參數(shù)設置
為了驗證本文模型的有效性,將本文模型與經(jīng)典的文本情感分析方法(ATAE-LSTM、MemNet、MGAN、RAM、EF-Net(text))和具有代表性的多模態(tài)情感分析方法(Res-MGAN、TomBERT、EF-Net、EF-CapTrBERT)進行對比分析。
3.3.1 基于文本數(shù)據(jù)的對比實驗
ATAE-LSTM[2]:應用LSTM和連接過程來獲得方面嵌入,并使其參與到注意力權重的計算中,當涉及到不同的方面時,參與不同部分的計算。
MGAN[20]:一種細粒度注意力機制,用來捕捉方面和上下文之間的詞級交互,然后利用細粒度和粗粒度注意力機制來組成MGAN框架。
MemNet[21]:通過上下文信息構建記憶網(wǎng)絡,通過注意力機制捕獲對不同方面情感傾向較為重要的信息,使用多層計算單元提取到更多的信息,進而提升模型的性能。
RAM[22]:在Bi-LSTM的隱藏狀態(tài)上構建記憶,并生成同樣基于Bi-LSTM的方面表示,其多個注意層的輸出與遞歸神經(jīng)網(wǎng)絡非線性結合,增強全局記憶抽象的表達能力。
EF-Net(text)[15]:基于多頭注意力網(wǎng)絡對文本信息進行處理進行情感分析。
HNNet(text):在本文模型上去除掉圖像特征,只對文本信息方面級情感分析任務。
在基于文本數(shù)據(jù)的基線方法中,ATAE-LSTM表現(xiàn)不佳,因為沒有通過平等對待方面和上下文單詞來明確區(qū)分。比較結果見表4。與ATAE-LSTM相比,MemNet表現(xiàn)更好,在輸入記憶跳躍處側重方面記憶和單詞記憶,利用多次記憶跳躍提取更深層次的注意表征。RAM結合了遞歸網(wǎng)絡在考慮語境信息方面的優(yōu)勢,加入記憶信息的多重注意力機制,利用非線性組合,充分考慮所有記憶結果。EF-Net(text)利用注意力機制重點關注文本數(shù)據(jù)中有關方面的重點信息。HNNet(text)首先文本信息經(jīng)過預訓練模型RoBERTa獲取詞向量表示,然后通過Bi-LSTM提取上下文信息、最后利用自注意力機制重點關注文本數(shù)據(jù)中有關方面的重點信息,效果是最好的。
表4 HNNet模型與文本數(shù)據(jù)基線方法的比較結果 %
3.3.2 基于多模態(tài)數(shù)據(jù)的對比實驗
Res-MGAN:采用ResNet的最大池化層與MGAN的隱藏層簡單拼接起來進行多模態(tài)情感分類。
EF-Net[15]:基于多頭注意力的網(wǎng)絡和 ResNet-152分別處理文本和圖像,捕捉多模態(tài)輸入之間的交互。
TomBERT[16]:一種面向目標的多模態(tài) BERT(TomBERT)架構,可以有效地捕捉模態(tài)內(nèi)和模態(tài)間的動態(tài)表示。
EF-CapTrBERT[3]:將圖像轉換為標題,作為情感分類的輔助句子,利用BERT進行情感分析。
VLPMABSA[23]:一種基于多模態(tài)方面的情感分析的特定任務的視覺語言預訓練框架。
基于多模態(tài)數(shù)據(jù)的方法中,Res-MGAN結果是最低的,因為它對文本和圖像信息內(nèi)容只進行簡單的拼接見表5。與Res-MGAN相比,EF-Net表現(xiàn)更好,EF-Net利用一種注意力膠囊和多頭注意融合網(wǎng)絡對文本和圖像進行提取,促進多模態(tài)數(shù)據(jù)間交互。TomBERT和EF-CapTrBERT比EF-Net取得了更好的效果,TomBERT使用ResNet結合目標方面提取圖像特征,目標注意力機制在目標和圖像之間進行匹配,以獲得目標敏感的視覺表示,BERT提取文本句子特征,然后利用多頭注意力機制分配高注意力權重到與目標密切相關的圖像區(qū)域。EF-CapTrBERT利用輸入空間中的翻譯將圖像翻譯成文本,使用BERT進行情感分析,效果優(yōu)于TomBERT。本文模型HNNet在圖像轉換為自然語言描述之后,描述語句與文本信息融合豐富了信息,利用預訓練模型RoBERTa和Bi-LSTM更好的提取信息,然后利用自注意力機制,給目標方面關系密切的詞更大的權重,最后進行情感分析,在兩個數(shù)據(jù)集上的結果幾乎比具有視覺語言預訓練任務的VLP-MABSA模型效果好。
表5 HNNet模型與多模態(tài)數(shù)據(jù)基線方法的比較結果 %
從表4~5可以看出,本文模型在文本與圖像描述語句結合之后的效果比僅單文本的效果要好,也證明構建輔助句子進行融合可以彌補文本較短、包含信息量少,難以捕獲重要信息等問題。
3.3.3 單模態(tài)與多模態(tài)實驗結果分析
單模態(tài)實驗僅使用數(shù)據(jù)集中的文本數(shù)據(jù),多模態(tài)實驗使用數(shù)據(jù)集中的文本以及圖像數(shù)據(jù)。將本文單模態(tài)數(shù)據(jù)實驗結果與多模態(tài)數(shù)據(jù)實驗結果進行聯(lián)合分析,實驗結果對比如圖3~4。
圖3 Twitter-15數(shù)據(jù)集情感分析準確率與F1值對比
圖4 Twitter-17數(shù)據(jù)集情感分析準確率與F1值對比
結果表明,在傳統(tǒng)的基于方面的情感分析任務中引入圖像模態(tài)數(shù)據(jù)是非常有效的。在單模態(tài)數(shù)據(jù)實驗中,HNNet(text)模型比其它單模態(tài)模型的效果有了一定的提升,但是相對于多模態(tài)數(shù)據(jù)效果不理想。相比于單模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)之間的相互依賴、相互補充的特點,克服單一模態(tài)信息魯棒性差,表達片面的缺點,所以效果更優(yōu)。HNNet模型與最新的多模態(tài)方面級情感分析方法相比,在Twitter-15數(shù)據(jù)集上準確率提升了0.18%,F1值提升了1.36%。在Twitter-17數(shù)據(jù)集上F1值提升了0.46%。
3.3.4 消融實驗
為了驗證本文的預訓練模型RoBERTa、BiLSTM以及自注意力機制Attention的有效性,在使用預訓練模型RoBERTa的HNNet模型的基礎上設計一系列的變體進行相關實驗。
HNNet w/o Att:在HNNet模型的基礎上去掉自注意力機制模塊。
HNNet w/o BiLSTM:在HNNet模型的基礎上去掉BiLSTM模塊。
HNNet w/o BiLSTM Att:在HNNet模型的基礎上去掉BiLSTM模塊和自注意力機制模塊。
HNNet(BERT):把HNNet模型中的預訓練模型RoBERTa換成BERT。
消融實驗比較結果見表6。把HNNet模型中的預訓練模型RoBERTa換成BERT,說明在本實驗中RoBERTa比BERT具有更強大的嵌入能力,更全面地生成文本向量。在去除模型中其他模塊之后,結果有所下降,表明加入BiLSTM神經(jīng)網(wǎng)絡提取全局特征,運用自注意力機制,選擇性對文本中關鍵內(nèi)容賦予更多權重的有效性。
表6 消融實驗比較結果 %
文章提出了一種面向多模態(tài)方面級情感分析的混合神經(jīng)網(wǎng)絡模型。首先,使用圖像描述生成器對圖像進行輸入轉換,生成圖像描述輔助句。然后,將這個輔助句與相應的文本進行融合,通過整合上下文和圖像信息來增強目標方面的表示。同時利用自注意力機制來捕獲目標方面對應的文本中的重要語義特征,從而顯著提高多模態(tài)方面級情感分析的準確性。在多模態(tài)方面級情感數(shù)據(jù)集Twitter-15/17中對提出的模型HNNet進行評估。實驗結果表明,本文提出的混合神經(jīng)網(wǎng)絡模型優(yōu)于基線方法,驗證該模型在多模態(tài)方面級情感分析任務中的有效性。未來,考慮在方面級情感分析與多模態(tài)情感分析的交叉領域中引入文本圖像關系檢測模塊,以更好地控制視覺信息的正確利用,從而提高準確率。