面向多模態(tài)情感分析的雙模態(tài)交互注意力

2022-04-13 02:40包廣斌李港樂王國雄

計算機與生活 2022年4期

包廣斌，李港樂，王國雄

蘭州理工大學(xué) 計算機與通信學(xué)院，蘭州730050

隨著移動互聯(lián)網(wǎng)和和社交媒體的蓬勃發(fā)展，越來越多的用戶通過YouTube、微博、抖音等社交媒體討論時事、表達觀點、分享日常等，從而產(chǎn)生了海量的具有情感取向的多模態(tài)數(shù)據(jù)。在社交媒體平臺上，用戶上傳的視頻是多模態(tài)數(shù)據(jù)的重要來源之一。視頻數(shù)據(jù)通常包含三種模態(tài)：描述用戶觀點的文本、表達用戶面部表情的圖像以及記錄用戶語音語調(diào)的音頻。針對這些多模態(tài)數(shù)據(jù)進行情感分析將有利于了解人們對某些事件或商品的觀點和態(tài)度，在輿情分析、心理健康、政治選舉等方面都有著巨大的應(yīng)用價值。

與傳統(tǒng)的單模態(tài)情感研究相比，多模態(tài)情感分析的目標(biāo)是通過融合多個模態(tài)的數(shù)據(jù)來推斷目標(biāo)序列的情感狀態(tài)。如圖1 顯示了文本、面部表情和語音語調(diào)對于情感分類的作用。其中，視頻中說話人關(guān)于某部電影發(fā)表評論“The only actor who can really sell their lines is Erin.”這條評論是一個陳述句，而且沒有明顯體現(xiàn)情感取向的詞語，因此僅僅依據(jù)這句話所傳達的信息很難判斷出說話人的情感狀態(tài)，但如果為這句評論加入說話人的面部表情（facial expressions）和語音語調(diào)（voice intonation），則可以反映出說話人目前的情感狀態(tài)是消極的。因此，對于多模態(tài)情感分析任務(wù)，文本、語音和視頻模態(tài)之間的語義和情感關(guān)聯(lián)能夠為情感分類帶來重要的補充信息。

圖1 文本、面部表情和語音語調(diào)對于情感分類的作用Fig.1 Effect of text,facial expressions and voice intonation on sentiment classification

由于文本、語音和視頻特征在時間、語義維度上存在較大差異，目前大多數(shù)多模態(tài)情感分析方法是將所有可用的模態(tài)特征直接映射到一個共享空間中，學(xué)習(xí)不同模態(tài)之間復(fù)雜的交互作用。但是，大多數(shù)情況下，并不是融合的模態(tài)信息越豐富，情感分類的準(zhǔn)確率就越高，這主要是因為不同模態(tài)的信息對于情感分類的貢獻是不相等的。

為了解決上述問題，本文提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析方法，該方法首先采用BiGRU（bidirectional gated recurrent unit）分別捕獲文本、語音和視頻序列的上下文特征。然后利用不同模態(tài)之間存在的語義和情感關(guān)聯(lián)，設(shè)計了一種雙模態(tài)交互注意力，并結(jié)合自注意力和全連接層構(gòu)造了一個層次化的多模態(tài)特征融合模塊，旨在通過注意力機制更多地關(guān)注目標(biāo)序列及其上下文信息與各模態(tài)之間的相關(guān)性，從而幫助模型區(qū)分哪些模態(tài)信息對于判別目標(biāo)序列的情感分類更加重要，實現(xiàn)跨模態(tài)交互信息的有效融合。最后，在CMU-MOSI（CMU multimodal opinion-level sentiment intensity）數(shù)據(jù)集上進行實驗，實驗結(jié)果表明，相比現(xiàn)有的多模態(tài)情感分類模型，該模型在準(zhǔn)確率和1分數(shù)上均有所提升。

1 相關(guān)工作

多模態(tài)情感分析主要致力于聯(lián)合文本、圖像、語音與視頻模態(tài)的情感信息來進行情感的識別與分類，是自然語言處理、計算機視覺和語音識別相交叉的一個新興領(lǐng)域。與單一模態(tài)的情感分析相比，多模態(tài)情感分析不僅要學(xué)習(xí)單模態(tài)的獨立特征，還要融合多種模態(tài)的數(shù)據(jù)。多模態(tài)融合主要是通過建立能夠分析和處理不同模態(tài)數(shù)據(jù)的模型來為情感分類提供更多的有效信息。Zadeh 等人利用模態(tài)之間的聯(lián)系建立了一種張量融合網(wǎng)絡(luò)模型，采用三倍笛卡爾積以端到端的方式學(xué)習(xí)模態(tài)之間的動力學(xué)。Zadeh等人提出了一種可解釋的動態(tài)融合圖（dynamic fusion graph，DFG）模型，用于研究跨模態(tài)動力學(xué)的本質(zhì)，并根據(jù)每個模態(tài)的重要性動態(tài)改變其結(jié)構(gòu)，從而選擇更加合理的融合圖網(wǎng)絡(luò)。Chen 等人提出利用時間注意力的門控多模態(tài)嵌入式模型來實現(xiàn)多模態(tài)輸入時單詞級別的特征融合，該方法有效地緩解了噪聲對特征融合的影響。上述方法在進行特征提取時都將每個話語看作獨立的個體，忽略了與上下文之間的依賴關(guān)系。

多模態(tài)情感分析的研究數(shù)據(jù)通常來自社交網(wǎng)站上用戶上傳的視頻，這些視頻數(shù)據(jù)被人為地劃分成視頻片段序列，而片段序列之間往往存在著一定的語義和情感聯(lián)系。因此，當(dāng)模型對目標(biāo)序列進行情感分類時，不同片段序列之間的上下文可以提供重要的提示信息。Poria 等人建立了一種基于LSTM（long short-term memory）的層次模型來捕捉視頻片段間的上下文信息。Majumder 等人通過保持兩個獨立的門控循環(huán)單元來跟蹤視頻中對話者的狀態(tài)，有效地利用了說話者之間的區(qū)別和對話中的上下文信息。Shenoy 等人提出的基于上下文感知的RNN（recurrent neural network）模型能夠有效地利用和捕獲所有模態(tài)對話的上下文用于多模態(tài)情緒識別和情感分析。Kim 等人建立了一種基于多頭注意力的循環(huán)神經(jīng)網(wǎng)絡(luò)模型，該模型采用BiGRU 和注意力機制來捕獲會話的上下文信息的關(guān)鍵部分。但是，現(xiàn)在人們表達情感的方式已不再局限于單一的文字，往往通過文本、圖像、視頻等多種模態(tài)相結(jié)合的方式共同傳遞信息，那么如何有效利用多模態(tài)信息進行情感分析仍是一項艱巨的任務(wù)。

近年來，注意力機制已被廣泛應(yīng)用于NLP（natural language processing）領(lǐng)域。研究表明，注意力機制能夠聚焦于輸入序列的關(guān)鍵信息，并忽略其中不相關(guān)的信息，從而提高模型的整體性能。因此，越來越多的研究人員嘗試將注意力機制應(yīng)用于探索模態(tài)內(nèi)部和不同模態(tài)之間的交互作用。Zadeh 等人提出了一種多注意力循環(huán)神經(jīng)網(wǎng)絡(luò)（multi-attention recurrent network，MARN），利用多注意力模塊（multi-attention block，MAB）發(fā)現(xiàn)模態(tài)之間的相互作用，并將其存儲在長短時混合記憶（long-short term hybrid memory，LSTHM）的循環(huán)網(wǎng)絡(luò)中。Xi 等人提出利用多頭交互注意力來學(xué)習(xí)文本、語音和視頻模態(tài)之間的相關(guān)性。Verma 等人提出了一種高階通用網(wǎng)絡(luò)模型來封裝模態(tài)之間的時間粒度，從而在異步序列中提取信息，并利用LSTM 和基于張量的卷積神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)模態(tài)內(nèi)部和模態(tài)之間的動力學(xué)。

綜上所述，隨著深度學(xué)習(xí)研究的不斷深入，多模態(tài)情感分析實現(xiàn)了跨越式的進步和發(fā)展，但如何有效地利用單模態(tài)獨立特征和多模態(tài)交互特征進行建模依舊是多模態(tài)情感分析所面臨的主要問題。為此，本文在現(xiàn)有多模態(tài)情感分析方法的基礎(chǔ)上，提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型，旨在利用BiGRU 和注意力機制更多地關(guān)注相鄰話語之間的依賴關(guān)系以及文本、語音和視頻模態(tài)之間的交互信息并為其分配合理的權(quán)重，實現(xiàn)多模態(tài)特征的有效融合，從而提高多模態(tài)情感分類的準(zhǔn)確率。

2 融合上下文和雙模態(tài)交互注意力的模型

本文針對現(xiàn)有多模態(tài)情感分析方法中存在情感分類準(zhǔn)確率不高，難以有效融合多模態(tài)特征等問題，提出了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型（multimodal sentiment analysis model based on context and bimodal interactive attention，Con-BIAM），如圖2 所示。具體來說，Con-BIAM 模型分為以下四部分：

圖2 融合上下文和雙模態(tài)交互注意力的模型結(jié)構(gòu)Fig.2 Model structure combining context and bimodal interactive attention

（1）針對文本、語音和視頻模態(tài)數(shù)據(jù)的不同特點，構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)提取單模態(tài)特征。

（2）利用BiGRU 分別編碼文本、語音和視頻序列，然后將其映射到共享的語義空間中，在每個模態(tài)的不同時間步長上捕獲視頻目標(biāo)序列的上下文信息。

（3）利用不同模態(tài)之間的交互作用，設(shè)計了一種新穎的雙模態(tài)交互注意力機制融合不同模態(tài)的信息；然后通過雙模態(tài)交互注意力、自注意力和全連接層構(gòu)造多模態(tài)特征融合模塊，得到跨模態(tài)聯(lián)合特征。

（4）將得到的上下文特征和跨模態(tài)聯(lián)合特征連接起來，經(jīng)過一層全連接層后饋送至Softmax 進行最終的情感分類。

2.1 特征提取

為了獲取視頻中的文本、語音和視覺特征，采用卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)分析工具CMUMultimodal Data SDK進行提取。對于文本數(shù)據(jù)，首先將視頻中的每個話語進行轉(zhuǎn)錄，然后將其表示為Glove 詞向量，輸入至卷積神經(jīng)網(wǎng)絡(luò)中提取文本特征。為了有效地利用視頻中的動態(tài)信息，使用3DCNN（3D convolutional neural networks）從視頻中提取視覺特征。在實驗過程中，32 個特征圖（f）和5×5×5（f×f×f）的過濾器取得了最優(yōu)的結(jié)果。對于音頻模態(tài)數(shù)據(jù)，利用openSMILE工具包以30 Hz的幀速率和100 ms的滑動窗口提取音頻特征。

2.2 上下文特征表示

本文將預(yù)處理后的文本（）、語音（）和視頻（）特征分別輸入至BiGRU 中提取序列的上下文信息?？紤]到不同模態(tài)數(shù)據(jù)的異構(gòu)性，利用Dense層在時間維度上提取目標(biāo)序列與上下文特征之間的長跨度信息，獲得相同數(shù)據(jù)維度的上下文特征表示。

假設(shè)數(shù)據(jù)集包含個視頻片段，每個視頻片段對應(yīng)一個固定情感強度的觀點。視頻中包含的一系列片段序列可表示為：

此外，為了更加準(zhǔn)確地對視頻片段X進行情感分類，將X定義為X的上下文：

其中，表示視頻中其他片段序列的長度。

BiGRU 由兩個方向相反的GRU（gated recurrent unit）構(gòu)成，能夠有效地捕獲序列中上下文的長依賴關(guān)系，解決RNN 訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸問題。在BiGRU 中，正向和反向輸入的特征向量會得到對應(yīng)時刻的隱藏層表示，之后通過拼接操作得到具有上下文信息的文本、視覺和語音特征。雙向門控循環(huán)單元的結(jié)構(gòu)如圖3 所示。

圖3 BiGRU 結(jié)構(gòu)模型圖Fig.3 BiGRU structure model diagram

每個GRU 單元的工作原理如下：

其中，X是當(dāng)前節(jié)點的輸入序列，h是上一個GRU 單元傳輸下來的狀態(tài)，r是GRU 的重置門，z是GRU 的更新門，W,W,U,U∈R是訓(xùn)練過程中要學(xué)習(xí)的參數(shù)，是Sigmoid 函數(shù)，⊙表示對應(yīng)元素相乘。

為了深度挖掘單模態(tài)特征的內(nèi)部相關(guān)性，將得到的具有上下文信息的單模態(tài)特征分別映射到各自的語義空間中。計算過程如下：

其中，W、、、分別是激活函數(shù)tanh 的參數(shù)，、、是經(jīng)過BiGRU 得到的文本、語音和視覺特征。∈R,∈R,∈R分別表示最終輸出的具有上下文信息的文本、語音和視覺特征向量，表示Dense層中神經(jīng)元的數(shù)量。

2.3 特征融合模塊

對于多模態(tài)情感分析任務(wù)，不同模態(tài)的數(shù)據(jù)包含了各自的情感信息，它們彼此不同卻又相輔相成。因此，在基于模態(tài)內(nèi)部關(guān)系建模的同時關(guān)注另一種模態(tài)信息的補充作用，能夠有效地提升模型的分類性能。此外，在進行多模態(tài)信息融合時，不同模態(tài)的信息對情感分類結(jié)果的重要性也是不同的。因此，對多模態(tài)信息進行建模時，需要有選擇性地區(qū)分各模態(tài)信息對目標(biāo)序列的情感預(yù)測的重要程度，增強重要信息所占的權(quán)重，從而輸出更有效的跨模態(tài)聯(lián)合特征表示。

由此，本文提出了一種多模態(tài)特征融合模塊（multimodal feature fusion module，MFM）。該模塊采用層次化的融合策略融合所有的模態(tài)特征，主要由兩層注意力機制和一個全連接層串聯(lián)構(gòu)成。首先第一層是雙模態(tài)交互注意力（bimodal interactive attention，Bim_Att）層，Bim_Att 能夠?qū)煞N模態(tài)的融合特征作為條件向量，強化與模態(tài)間重要交互特征的關(guān)聯(lián)，弱化與次要交互特征的關(guān)聯(lián)，深度探索不同模態(tài)之間的交互性；第二層是自注意力層（self attention，Self_Att），用于捕獲目標(biāo)序列及其上下文信息與模態(tài)自身的相關(guān)性，從而減少對外部信息的依賴；最后一層是全連接層，用于提取雙模態(tài)交互融合信息和單模態(tài)內(nèi)部信息，輸出跨模態(tài)聯(lián)合特征。

為了進一步增強模態(tài)之間的交互性，本文提出了一種雙模態(tài)交互注意力機制，整體結(jié)構(gòu)如圖4 所示。雙模態(tài)交互注意力機制類似于一種門控機制，能夠?qū)⑽谋?、語音和視覺特征進行兩兩融合，即文本+視頻、文本+語音和語音+視頻，并有條件地計算不同模態(tài)之間的交互向量。以文本（）和語音（）為例，首先將兩種模態(tài)的信息進行拼接，并經(jīng)過一層全連接層捕獲模態(tài)之間的交互信息，得到雙模態(tài)聯(lián)合特征；接著在激活函數(shù)Sigmoid 的作用下生成條件向量，用于約束每個模態(tài)內(nèi)部的相似程度，增加強關(guān)聯(lián)特征所持的比重。計算過程如式（10）、式（11）所示。

圖4 雙模態(tài)交互注意力（Bim_Att）結(jié)構(gòu)圖Fig.4 Structure diagram of bimodal interactive attention(Bim_Att)

其中，⊕表示向量的拼接操作；表示隨機初始化的權(quán)重矩陣；表示偏置項。

其中，⊙表示對應(yīng)元素相乘，·表示矩陣乘法。

最后，將得到的注意力特征向量與上下文特征向量進行拼接，并使用全連接層整合得到的模態(tài)間交互特征和模態(tài)內(nèi)部特征，輸入至Softmax 進行情感分類，其計算過程如下：

其中，∈R，′表示全連接層輸出的特征維度，W和b是激活函數(shù)ReLU 的權(quán)重和偏置。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

本文使用多模態(tài)情感分析數(shù)據(jù)集CMU-MOSI 進行實驗，簡稱MOSI。該數(shù)據(jù)集由89 位不同英語演講者對來自YouTube網(wǎng)站中的主題進行評論，共有93個視頻。數(shù)據(jù)集中共包含3 702個觀點片段，共計26 295個單詞。每個視頻片段的情感強度在∈[-3.0,3.0]的線性范圍內(nèi)，其中大于或等于0 的情感值表示正面情緒，小于0 的情感值表示負面情緒。本實驗將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集，分別設(shè)置為52、10、31。每個集合分別包含1 151、296和752個視頻片段。

3.2 實驗設(shè)置

本實驗所有代碼都是在Pycharm 代碼編輯器上采用Tensorflow 和Keras 深度學(xué)習(xí)框架編寫，利用顯存為32 GB 的GPU（NVIDIA Tesla V100）進行模型的訓(xùn)練。實驗參數(shù)設(shè)置如表1 所示。

表1 實驗參數(shù)設(shè)置Table 1 Experimental parameter setting

本文選取1 分數(shù)和準(zhǔn)確率（Accuracy）作為分類性能的評價指標(biāo)。1 分數(shù)和Accuracy 的值越大，說明模型的整體性能越好。為了進一步驗證模型的有效性，將本文提出的Con-BIAM 模型與現(xiàn)有的一些多模態(tài)情感分析模型進行對比，實驗結(jié)果如表2 所示。

3.3 實驗結(jié)果分析

表2 列出了不同模型在MOSI 數(shù)據(jù)集上的實驗結(jié)果。圖5 是Con-BIAM 模型在MOSI 數(shù)據(jù)集上得到的混淆矩陣。

表2 在MOSI數(shù)據(jù)集上的實驗結(jié)果Table 2 Experimental results on MOSI dataset %

圖5 Con-BIAM 模型在MOSI數(shù)據(jù)集上的混淆矩陣Fig.5 Con-BIAM model confusion matrix on MOSI dataset

實驗結(jié)果表明，本文提出的Con-BIAM 模型在準(zhǔn)確率和1 分數(shù)這兩個評價指標(biāo)上的表現(xiàn)都要優(yōu)于其他對比模型，準(zhǔn)確率和1分數(shù)分別提升了5.41個百分點和12個百分點，尤其是對比現(xiàn)有先進的Multilogue-Net模型，準(zhǔn)確率提升了0.72 個百分點，1 提升了5.3個百分點。這充分地說明了融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析（Con-BIAM）在多模態(tài)情感分類任務(wù)上的有效性和先進性。此外，根據(jù)上述實驗結(jié)果可以看出，Con-BIAM 模型的1 值與其他模型相比具有較大提升，這可能是因為不同層次不同組合的模態(tài)融合方法關(guān)注到了模態(tài)的內(nèi)部信息和更高層次的模態(tài)交互信息，使得模型的精確率和召回率分別達到了85.22%和85.59%，進而增大了模型的1 值，提高了模型的分類性能。

4 對比實驗

為了進一步分析模態(tài)之間的聯(lián)合特征對模型最終分類效果的貢獻程度，在MOSI 數(shù)據(jù)集上分別針對雙模態(tài)和三模態(tài)聯(lián)合特征，選擇以下幾種多模態(tài)情感分析方法進行對比，實驗結(jié)果如表3 和表4 所示。

表3 不同模型在雙模態(tài)、三模態(tài)特征融合的準(zhǔn)確率Table 3 Accuracy of different models in bimodal and trimodal feature fusion %

表4 不同模型在雙模態(tài)、三模態(tài)特征融合的F1 分數(shù)Table 4 F1 scores of different models in bimodal and trimodal feature fusion %

實驗結(jié)果表明，與其他模型相比，除了語音和視頻模態(tài)的融合之外，Con-BIAM 模型的其他模態(tài)融合方式都達到了最好的結(jié)果。其中，三種模態(tài)（文本、語音和視覺）融合的分類效果最佳，證明了多模態(tài)信息的必要性。在雙模態(tài)融合的實驗中，文本+圖像和文本+語音融合分類準(zhǔn)確率高于語音+視頻的融合。這一方面說明了文本模態(tài)的情感特性更為顯著，另一方面也反映了語音和視頻模態(tài)的情感特性較弱，可能存在噪聲的干擾。

為了進一步分析視頻片段的上下文信息、自注意力和雙模態(tài)交互注意力對模型性能的貢獻，本文設(shè)計了三組對比實驗，比較不同模塊對于模型整體性能的影響。在MOSI 數(shù)據(jù)集上對比實驗的結(jié)果如圖6 所示。

圖6 在MOSI數(shù)據(jù)集上的對比實驗Fig.6 Comparative experiment on MOSI dataset

（1）Con-BIAM(GRU)：使用GRU代替模型中BiGRU，比較上下文信息對模型性能的影響。

（2）Con-BIAM(Self_Att)：舍棄雙模態(tài)交互注意力機制，保留自注意力機制，探究兩種模態(tài)之間的交互信息對分類效果的影響。

（3）Con-BIAM(Bim_Att)：舍棄自注意力機制，保留雙模態(tài)交互注意力，探究單模態(tài)情感信息對分類效果的影響。

（4）Con-BIAM：本文所提出模型。

實驗結(jié)果表明，對于MOSI 數(shù)據(jù)集，舍棄Con-BIAM 模型中的任一重要模塊，都會使得模型的分類性能下降。首先，相比于GRU 模型，基于BiGRU 的模型準(zhǔn)確率提升了2.52 個百分點，說明了對于視頻中某一片段序列，序列前面和后面的視頻片段都會對它產(chǎn)生一定的影響，而BiGRU 能夠同時捕捉到視頻片段序列前向和反向的信息。其次，多模態(tài)特征融合模塊中的雙模態(tài)交互注意力和自注意力對情感分類的準(zhǔn)確率分別貢獻了1.20 個百分點和0.94 個百分點，1 值也分別提升了2.67 個百分點和2.36 個百分點。這主要是因為文本、語音和視頻模態(tài)內(nèi)部與模態(tài)之間存在著大量的情感信息，而本文所設(shè)計的多模態(tài)特征融合模塊能夠同時提取單模態(tài)信息和雙模態(tài)融合信息，并通過注意力機制有選擇地關(guān)注有利于情感分類的模態(tài)信息，從而提高了模型分類性能。

5 結(jié)束語

本文建立了一種融合上下文和雙模態(tài)交互注意力的多模態(tài)情感分析模型，利用視頻片段的上下文信息和不同模態(tài)之間的交互信息來預(yù)測情感分類。該模型首先采用BiGRU 捕獲文本、語音和視頻序列之間的上下文信息。然后，通過雙模態(tài)交互注意力、自注意力和全連接層構(gòu)成的多模態(tài)特征融合模塊，關(guān)注目標(biāo)序列及其上下文信息與模態(tài)內(nèi)部和模態(tài)之間的關(guān)聯(lián)性，實現(xiàn)了多模態(tài)信息的有效融合。最后，將得到的上下文特征和跨模態(tài)聯(lián)合特征輸入至分類器進行情感分類。在MOSI 數(shù)據(jù)集上的實驗結(jié)果證明了所提出的模型在多模態(tài)情感分類任務(wù)上的有效性和優(yōu)異性。在未來的工作中，將針對多模態(tài)融合過程中所出現(xiàn)的語義沖突和噪聲問題展開進一步研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡