復(fù)合層次融合的多模態(tài)情感分析

2023-01-17 09:32:02王旭陽(yáng)

計(jì)算機(jī)與生活 2023年1期

王旭陽(yáng)，董帥，石杰

蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院，蘭州730050

情感分析，又稱為意向挖掘或者情感傾向分析，其在人機(jī)交互方面發(fā)揮著重大的作用[1]。隨著工業(yè)和互聯(lián)網(wǎng)的發(fā)展，越來越多的用戶傾向于在社交媒體（Tik Tok、Facebook、Twitter、YouTube 等）上分享、展示自己的生活狀況，并且發(fā)表自己對(duì)社會(huì)各類事物的看法。有關(guān)情感分析的研究已經(jīng)被廣泛地應(yīng)用到了各種領(lǐng)域，比如：通過對(duì)網(wǎng)民的情緒分析可以幫助政府掌握社會(huì)的輿論走向，優(yōu)化對(duì)消費(fèi)者的商品推薦，以及對(duì)輿情的監(jiān)測(cè)與引導(dǎo)等。

情感分析是傳統(tǒng)自然語(yǔ)言處理（natural language processing，NLP）中非常重要的一個(gè)研究領(lǐng)域。然而傳統(tǒng)的情感分析主要是針對(duì)用戶在網(wǎng)上的評(píng)論、留言等純文本內(nèi)容進(jìn)行分析、處理、歸納和推理的過程。僅使用文本不足以確定說話者的情感狀態(tài)，而且文本可能會(huì)產(chǎn)生誤導(dǎo)。隨著短視頻應(yīng)用的蓬勃發(fā)展，非語(yǔ)言行為（視覺和聽覺）被引入來解決上述缺點(diǎn)[2-3]。與純文本相比，視頻中的人物蘊(yùn)含豐富有關(guān)人物情感傾向的模態(tài)信息，其中包括文本、視頻、音頻。

多模態(tài)情感分析（multimodal sentiment analysis）是對(duì)文本、視頻、音頻的多模態(tài)數(shù)據(jù)進(jìn)行綜合挖掘，發(fā)現(xiàn)其隱藏信息，并最終預(yù)測(cè)出其情感狀態(tài)[4]。社交媒體是多模態(tài)數(shù)據(jù)的海量來源，以視頻為例，視頻中包含了文本、音頻和圖像這三種信息載體，文本能攜帶語(yǔ)義信息，音頻能攜帶語(yǔ)氣、音調(diào)等信息，圖像能攜帶表情、手勢(shì)等信息。三種模態(tài)的關(guān)系是相互補(bǔ)充、相互解釋的，單從一種模態(tài)上來分析其情感色彩是不全面的。如圖1 顯示為一個(gè)視頻片段中人物進(jìn)行對(duì)話的時(shí)候說的一句話：“what's wrong with you?”，這句對(duì)話是個(gè)疑問句而且沒有明顯體現(xiàn)情感取向的詞語(yǔ)，因此僅僅依據(jù)這句話所傳達(dá)的信息很難判斷出說話人的情感狀態(tài)，但如果結(jié)合說話人的面部表情（皺眉）和語(yǔ)音語(yǔ)調(diào)（低聲），則可以反映出說話人目前的情感狀態(tài)是消極的。這種不同模態(tài)之間的情感信息相互解釋、相互補(bǔ)充稱之為模態(tài)之間的交互性。

圖1 多模態(tài)表達(dá)實(shí)例Fig.1 Example of multimodal data

與單模態(tài)情感分析相比，多模態(tài)情感分析不僅要充分提取其單獨(dú)模態(tài)的特征，還要考慮不同模態(tài)之間的融合和信息的交互，傳統(tǒng)的多模態(tài)信息融合主要分為早期融合和晚期融合，又稱決策層融合。早期融合是在模態(tài)信息輸入到模型訓(xùn)練之前把各個(gè)模態(tài)的信息進(jìn)行拼接，然后進(jìn)行訓(xùn)練。一般的做法是在信息輸入的時(shí)候直接將多模態(tài)特征向量進(jìn)行整合，但是這種融合方法并沒有關(guān)注到不同模態(tài)特征之間的語(yǔ)義差異。假設(shè)三個(gè)模態(tài)信息單獨(dú)表達(dá)的情感是不完全相同的，那么就有可能其中的一種或兩種模態(tài)信息是真正結(jié)果情感狀態(tài)的噪聲干擾。晚期融合[5-6]是先把模態(tài)信息進(jìn)行單獨(dú)訓(xùn)練然后在決策層進(jìn)行投票最后得出預(yù)測(cè)結(jié)果。這種方法雖然能充分挖掘出各自模態(tài)中所蘊(yùn)含的情感信息，但是明顯缺失模態(tài)之間的交互性。

為了解決上述問題，本文提出了一種基于時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制結(jié)合復(fù)合層次融合的多模態(tài)情感分析的模型。首先，該模型將每個(gè)話語(yǔ)的單模態(tài)特征信息進(jìn)行復(fù)合層次融合，融合過程中使用TCN（temporal convolutional network）提取其序列特征，最后使用軟注意力機(jī)制減少噪聲和冗余信息的干擾，最終得到一個(gè)關(guān)于多模態(tài)融合的特征向量用于情感分類（詳細(xì)介紹見第3 章）。實(shí)驗(yàn)測(cè)試表明，該模型在多模態(tài)情感分析上的準(zhǔn)確率和F1 值均表現(xiàn)出良好效果。

1 相關(guān)工作

情感分析作為文本信息挖掘的主要內(nèi)容，近年來深度學(xué)習(xí)模型的引入在情感分析領(lǐng)域取得巨大成就。單模態(tài)信息提取通常使用的深度學(xué)習(xí)模型一般有卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）[7]、門控循環(huán)單元（gated recurrent unit，GRU）[8]、長(zhǎng)短期記憶網(wǎng)絡(luò)（long short-term memory，LSTM）[9]。

針對(duì)不同模態(tài)信息之間的相互融合，Cambria 等人[10]提出了一個(gè)通用的多模態(tài)情感分析框架，該框架由模態(tài)內(nèi)的表示學(xué)習(xí)和模態(tài)間的特征連接組成?；谶@個(gè)框架，許多研究集中在設(shè)計(jì)一個(gè)新的融合網(wǎng)絡(luò)來捕獲更好的多模態(tài)表示并獲得更好的性能。對(duì)于多模態(tài)間融合，Williams 等人[11]提出一種基于EFLSTM（early fusion-long short-term memory）的融合方式，先將三個(gè)模態(tài)的初始輸入連在一起，然后使用LSTM來捕捉序列中的長(zhǎng)距離依賴關(guān)系。與EF-LSTM相比，后期融合LF-DNN（late fusion-deep neural network）先學(xué)習(xí)單模態(tài)特征，然后在分類前將這些特征進(jìn)行串聯(lián)。雖然上述方法在一定程度上能夠解決相關(guān)問題，但是仍存在不足之處，都忽略了各模態(tài)內(nèi)部信息與模態(tài)之間交互作用的結(jié)合。如何提高模態(tài)之間的交互信息并進(jìn)行建模是一個(gè)值得關(guān)注的問題。Zadeh 等人[12]提出了一種記憶融合網(wǎng)絡(luò)（memory fusion network，MFN），對(duì)特定視圖和跨視圖的交互進(jìn)行核算，通過特殊的注意力機(jī)制對(duì)其進(jìn)行持續(xù)建模，并利用多視圖門控記憶進(jìn)行時(shí)間總結(jié)。MFN 需要在三個(gè)模態(tài)中進(jìn)行詞級(jí)對(duì)齊。Zadeh 等人[13]提出一種基于張量融合的特征融合網(wǎng)絡(luò)（tensor fusion network，TFN），TFN 屬于early fusion，是一個(gè)典型的通過矩陣運(yùn)算進(jìn)行特征融合的多模態(tài)網(wǎng)絡(luò)，同時(shí)考慮到模態(tài)內(nèi)部信息以及模態(tài)之間的交互作用，但是TFN 通過模態(tài)之間的張量外積（outer product）計(jì)算不同模態(tài)的元素之間的相關(guān)性，這會(huì)極大地增加特征向量的維度，造成模型過大，難以訓(xùn)練。因此，Liu 等人[14]采用低階多模態(tài)融合方法對(duì)權(quán)重張量進(jìn)行分解，降低了基于張量方法的計(jì)算復(fù)雜性，模型通過與模態(tài)特定的低階因子進(jìn)行高效的多模態(tài)融合來學(xué)習(xí)模態(tài)特定和跨模態(tài)的相互作用。Tsai 等人[15]提出一種多模態(tài)變換器（multimodal transformer），該模型利用跨模態(tài)注意力，實(shí)現(xiàn)多模態(tài)序列之間跨不同時(shí)間步長(zhǎng)的交互。Shenoy 等人[16]提出的基于上下文感知的RNN（recurrent neural network）模型能夠有效地利用和捕獲所有模態(tài)對(duì)話的上下文用于多模態(tài)情緒識(shí)別和情感分析。Hazarika等人[17]提出一種MISA（modalityinvariant and-specific representations for multimodal sentiment analysis）的多模態(tài)情感分析框架，把每個(gè)模態(tài)劃分為不同的子空間用來學(xué)習(xí)相關(guān)的情感表示，以幫助融合過程。雖然上述方法在精度上有一定提升，但是在多模態(tài)數(shù)據(jù)融合過程中如何有效地利用整合多模態(tài)信息進(jìn)行情感分析依舊是一項(xiàng)艱巨的任務(wù)。

綜上所述，隨著人工智能研究的不斷深入，多模態(tài)情感分析也得到了巨大的發(fā)展。但是如何有效地利用單模態(tài)特征和多模態(tài)特征之間的交互進(jìn)行建模依舊是多模態(tài)情感分析所面臨的主要問題。大多數(shù)關(guān)于多模態(tài)數(shù)據(jù)融合的工作都使用串聯(lián)或早期融合作為它們的融合策略。這種簡(jiǎn)單化方法的問題在于不能過濾從不同模態(tài)獲得的沖突或冗余信息。本文在早期模態(tài)特征信息融合的基礎(chǔ)上[11-15]和文獻(xiàn)[18]啟發(fā)下，結(jié)合時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制設(shè)計(jì)了一種復(fù)合層次融合的多模態(tài)情感分析模型（TCN-multimodal sentiment analysis with composite hierarchical fusion，TCN-CHF）。采用復(fù)合層次融合方法，能夠最大程度地挖掘和保留不同模態(tài)內(nèi)部的情感信息，并且通過復(fù)合層次融合不斷加強(qiáng)模態(tài)之間信息交互的表達(dá)。利用TCN 網(wǎng)絡(luò)和注意力機(jī)制更好地提取模態(tài)信息中的序列特征，以及文本、視頻、音頻不同模態(tài)信息之間的交互性，并在融合過程中為其分配更合理的權(quán)重，減少多模態(tài)信息中的噪聲以及過濾冗余信息，實(shí)現(xiàn)多模態(tài)特征信息的有效融合。

2 TCN 和Attention 結(jié)合復(fù)合層次融合模型

2.1 時(shí)域卷積網(wǎng)絡(luò)

時(shí)域卷積網(wǎng)絡(luò)是一種新型的可以用來解決時(shí)間序列的算法。TCN 相比傳統(tǒng)的RNN 網(wǎng)絡(luò)有諸多優(yōu)點(diǎn)。例如，TCN 網(wǎng)絡(luò)可以根據(jù)層數(shù)、卷積核大小、擴(kuò)張系數(shù)靈活控制感受野，同時(shí)梯度也更加穩(wěn)定，并且可以并行處理時(shí)序特征信息，所需要的內(nèi)存要求也更低。

2.1.1 TCN 網(wǎng)絡(luò)結(jié)構(gòu)

TCN 不同于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)CNN，其主要采用兩種結(jié)構(gòu)：因果卷積（causal convolution）和膨脹卷積（dilated convolution）。

（1）因果卷積：可以用圖2 直觀表示，因果卷積不能看到未來的數(shù)據(jù)，它是單向的結(jié)構(gòu)，不是雙向的。也就是說只有有了前面的因才有后面的果，假如要預(yù)測(cè)當(dāng)前時(shí)刻的信息，只能依靠當(dāng)前時(shí)刻之前的信息進(jìn)行預(yù)測(cè)，即只能通過當(dāng)前的時(shí)刻輸入xt和之前的輸入x1,x2,…,xt-1進(jìn)行計(jì)算，是一種嚴(yán)格的時(shí)間約束模型，因此被稱為因果卷積。

圖2 因果卷積Fig.2 Causal convolution

（2）膨脹卷積：?jiǎn)渭兊囊蚬矸e存在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的問題，即對(duì)時(shí)間的建模長(zhǎng)度受限于卷積核大小，如果要獲取更長(zhǎng)的依賴關(guān)系，就需要堆疊很多線性層。為了解決這個(gè)問題，TCN 網(wǎng)絡(luò)結(jié)構(gòu)采用膨脹卷積，其結(jié)構(gòu)如圖3 所示（圖中，xt為原始時(shí)序的輸入，yt為TCN 網(wǎng)絡(luò)預(yù)測(cè)值，d為膨脹卷積的空洞大?。Ｅc傳統(tǒng)卷積不同的是，膨脹卷積允許卷積時(shí)的輸入存在間隔采樣。其中d控制圖中的采樣率。最下面一層的d=1，表示輸入時(shí)每個(gè)點(diǎn)都采樣，中間層d=2，表示輸入時(shí)每2 個(gè)點(diǎn)采樣一個(gè)作為輸入。越高的層級(jí)使用的d的大小越大。膨脹卷積使得有效窗口的大小隨著層數(shù)呈指數(shù)型增長(zhǎng)。這樣卷積網(wǎng)絡(luò)用比較少的層，就可以獲得很大的感受野。

圖3 膨脹卷積Fig.3 Dilated convolution

2.1.2 殘差連接

當(dāng)模型中的網(wǎng)絡(luò)層數(shù)過深時(shí)，很容易出現(xiàn)梯度消失或梯度爆炸的現(xiàn)象，TCN 網(wǎng)絡(luò)結(jié)構(gòu)通過簡(jiǎn)單的殘差連接可以在一定程度上消除這一現(xiàn)象。具體做法是通過對(duì)輸入x和其經(jīng)過非線性映射得到的G(x) 求和，避免由于網(wǎng)絡(luò)層數(shù)不斷增加而對(duì)梯度造成影響。

本文所采取的膨脹和因果卷積模塊是在每一次進(jìn)行膨脹卷積計(jì)算Conv()之后將參數(shù)層級(jí)歸一化Hinorm()，然后使用ReLU 作為激活函數(shù)進(jìn)行非線性計(jì)算，并將其結(jié)果與輸入進(jìn)行求和，實(shí)現(xiàn)殘參連接。計(jì)算過程如下：

其中，Ti是i時(shí)刻卷積計(jì)算得到的狀態(tài)值；Wi為i時(shí)刻卷積計(jì)算的詞的矩陣；Fj為第j層的卷積核；bi為偏置矩陣；{T0,T1,…,Tn}是序列經(jīng)過一次完整的卷積計(jì)算后的編碼。

TCN 網(wǎng)絡(luò)層通過堆疊多個(gè)擴(kuò)張因果卷積層，擴(kuò)大卷積的感受野。較大的感受野可以獲取到更完整的序列特征，使得融合之后的特征提取到更深層次的語(yǔ)義信息。并且在逐步融合提取過程中增強(qiáng)不同模態(tài)之間的信息交互性，最終提升模型的整體性能。

2.2 注意力機(jī)制

注意力機(jī)制類似于人類的視覺注意力，人類的注意力是人類視覺所特有的大腦信號(hào)處理機(jī)制。深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上來講，它和人類的選擇性視覺注意力機(jī)制類似，目的也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。

注意力機(jī)制模型最初應(yīng)用于機(jī)器翻譯和文本摘要[19]，現(xiàn)在已成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要概念。本文所采用的是軟注意力機(jī)制，軟注意力機(jī)制是指在選擇信息的時(shí)候，不是從N個(gè)信息中只選擇1 個(gè)，而是計(jì)算N個(gè)輸入信息的加權(quán)平均，再輸入到神經(jīng)網(wǎng)絡(luò)中計(jì)算。

2.3 多模態(tài)融合方法

對(duì)于本文所使用的CMU-MOSI 和CMU-MOSEI數(shù)據(jù)集的單模態(tài)特征提取的方法在文中的3.1 節(jié)實(shí)驗(yàn)部分有詳細(xì)介紹。

雙模態(tài)融合：對(duì)于不同模態(tài)信息間的融合，首先對(duì)單模態(tài)信息進(jìn)行兩兩融合，過程如圖4 所示，對(duì)單模態(tài)信息進(jìn)行兩兩融合以后得到三個(gè)雙模態(tài)信息，即T+V（文本+視頻）、T+A（文本+音頻）和A+V（音頻+視頻）。這一步驟在圖4 中描述，并在第2.4 節(jié)中詳細(xì)討論。最后使用圖4 的倒數(shù)第二層作為雙模態(tài)特征。

三模態(tài)融合：將上一步得到的三個(gè)雙模態(tài)特征向量再進(jìn)行三融合得到一個(gè)三模態(tài)特征向量T+V+A，如圖5 所示。這一步驟在2.4 節(jié)進(jìn)行詳細(xì)的描述。

圖5 三模態(tài)信息融合Fig.5 Trimodal information fusion

復(fù)合融合：在融合三模態(tài)的基礎(chǔ)上，使用類似殘差網(wǎng)絡(luò)的結(jié)構(gòu)做復(fù)合層次的融合，其結(jié)構(gòu)如圖6 所示，實(shí)驗(yàn)表明使用復(fù)合層次模型的融合方式最終得到情感分類的結(jié)果更佳。

圖6 復(fù)合模態(tài)信息融合Fig.6 Composite modal information fusion

2.4 模型整體結(jié)構(gòu)

本文針對(duì)現(xiàn)有多模態(tài)情感分析方法中存在情感分類準(zhǔn)確率不高、難以有效融合多模態(tài)特征等問題，提出了一種時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制結(jié)合復(fù)合層次融合的多模態(tài)情感分析模型。

本文提出的多模態(tài)數(shù)據(jù)融合整體結(jié)構(gòu)如圖7 所示。使用以下條目代表單模態(tài)情感特征向量：

圖7 模型整體結(jié)構(gòu)圖Fig.7 Overall structure diagram of model

其中，fA、fT、fV分別代表視覺、文本、音頻單模態(tài)特征信息，N為視頻中話語(yǔ)的最大長(zhǎng)度。對(duì)于較短的視頻，使用相應(yīng)長(zhǎng)度的空向量對(duì)其進(jìn)行虛擬話語(yǔ)填充；對(duì)于較長(zhǎng)的視頻，做相應(yīng)的裁剪操作。本文中N=50。dA、dT、dV分別代表其對(duì)應(yīng)模態(tài)的特征維度，具體數(shù)值在本文的3.1 節(jié)有詳細(xì)的介紹。

單模態(tài)特征fA、fT、fV具有不同的維度特征dA≠dT≠dV，在進(jìn)行特征信息融合前，需要將它們映射到相同的維度。在該模型中均將其映射到DA=DT=DV=D，DA、DT、DV分別為映射后的視頻、文本、音頻等單模態(tài)特征向量的維度，在經(jīng)過多次實(shí)驗(yàn)后得到當(dāng)D=350 時(shí)模型的性能表現(xiàn)最好。

將上述得到的三個(gè)單模態(tài)特征信息FA、FT、FV作為TCN 網(wǎng)絡(luò)層的輸入進(jìn)行單模態(tài)序列特征的提取，有關(guān)TCN 網(wǎng)絡(luò)層在3.1 節(jié)已有詳細(xì)介紹。

將得到的3 個(gè)雙模態(tài)特征矩陣再次作為輸入傳入TCN 網(wǎng)絡(luò)層，進(jìn)行雙模態(tài)的序列特征提?。?/p>

然后用同樣的方法做三模態(tài)特征融合，融合過程與雙模態(tài)融合類似：

最后進(jìn)行復(fù)合層次融合，將得到的三模態(tài)情感特征FTAV和單模態(tài)情感特征GA、GT、GV進(jìn)行融合得到多模態(tài)情感特征向量：

模型的輸出層結(jié)構(gòu)如圖8 所示，在該模型中使用軟注意力機(jī)制，在進(jìn)行最后的情感分類之前，將得到的多模態(tài)情感特征向量傳入軟注意力機(jī)制層，使用Softmax 函數(shù)計(jì)算注意力分布矩陣，再將得到的注意力分布矩陣和多模態(tài)特征融合的矩陣相乘，得到最終加權(quán)的多模態(tài)特征矩陣用于最后情感分類結(jié)果的輸出，其具體計(jì)算過程如下：

圖8 輸出層結(jié)構(gòu)圖Fig.8 Output layer structure diagram

本文提出的模型采用復(fù)合融合方法結(jié)合TCN以及Soft-attention 機(jī)制。從單模態(tài)到雙模態(tài)再到最終的復(fù)合模態(tài)的融合過程中，經(jīng)過多次的融合提取，每次融合后經(jīng)過同一個(gè)TCN 網(wǎng)絡(luò)，使得三個(gè)模態(tài)信息緊密結(jié)合在一起，在這個(gè)過程中不斷提升不同模態(tài)信息之間的交互性。將得到的多模態(tài)特征向量全部傳入Soft-attention 機(jī)制中對(duì)其進(jìn)行最后的過濾冗余以及噪音，注意力機(jī)制處理的過程中可以弱化弱相關(guān)，強(qiáng)化強(qiáng)相關(guān)，從而提升模態(tài)信息之間的交互性。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

（1）數(shù)據(jù)集

本文的模型實(shí)驗(yàn)基于CMU-MOSI[20]數(shù)據(jù)集和CMU-MOSEI[21]數(shù)據(jù)集完成。下面對(duì)這兩個(gè)公共的多模態(tài)情感分析數(shù)據(jù)集進(jìn)行簡(jiǎn)要介紹。

MOSI：CMU-MOSI 數(shù)據(jù)集是最受歡迎的多模態(tài)情感分析數(shù)據(jù)集之一。MOSI數(shù)據(jù)集中包含YouTube電影評(píng)論視頻的93 個(gè)獨(dú)白片段，被劃分為2 199 個(gè)標(biāo)注了情感標(biāo)簽的視頻段。其中每個(gè)標(biāo)簽情感得分從-3（強(qiáng)消極）到3（強(qiáng)積極）。在本實(shí)驗(yàn)中，對(duì)于二分類問題，把情感值大于或等于0 的視頻段標(biāo)記為1，即正面情感類，情感值小于0 的視頻段標(biāo)記為0，即負(fù)面情感類；對(duì)于三分類問題，把情感值等于0 的視頻段標(biāo)記為中性情感，小于0 和大于0 的視頻片段分別標(biāo)記為負(fù)面情感和正面情感。

MOSEI：CMU-MOSEI 數(shù)據(jù)集擴(kuò)展了數(shù)據(jù)量，在CMU-MOSI 的基礎(chǔ)上增加了話語(yǔ)數(shù)量、樣本、說話者和話題的多樣性。該數(shù)據(jù)集包含22 856 個(gè)帶注釋的視頻片段（話語(yǔ)），來自5 000 個(gè)視頻、1 000 個(gè)不同的說話者和250 個(gè)不同的主題，兩個(gè)數(shù)據(jù)集的具體統(tǒng)計(jì)數(shù)據(jù)如表1 所示。

表1 兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)Table 1 Statistics of two datasets

（2）單模態(tài)信息抽取

為使模型的性能達(dá)到最佳，需要使不同模態(tài)之間的信息必須嚴(yán)格對(duì)齊。

對(duì)于本文中的視頻文本特征（Text），首先進(jìn)行轉(zhuǎn)錄，在這里只使用中文轉(zhuǎn)錄。轉(zhuǎn)錄時(shí)為每篇轉(zhuǎn)錄稿添加兩個(gè)唯一的標(biāo)記來表示開始和結(jié)束。而后，使用預(yù)先訓(xùn)練好的中文BERTbase 詞嵌入來從轉(zhuǎn)錄本中獲得詞向量[22]。值得注意的是，由于BERT 的特性，本文并沒有使用單詞分割工具。最終，每個(gè)詞都被表示為768 維的詞向量dt=768。

對(duì)于視頻中的聲學(xué)特征（audio），使用LibROSA[23]語(yǔ)音工具包，以默認(rèn)參數(shù)提取22 050 Hz 的聲學(xué)特征。在MOSEI 數(shù)據(jù)集中得到74 維的聲學(xué)特征da=74。

對(duì)于視頻中的視覺特征以30 Hz 的頻率從視頻片段中提取幀。本文使用MTCNN（multi-task convolutional neural network）人臉檢測(cè)算法[24]來提取對(duì)齊的人臉，使用MultiComp OpenFace2.0 工具包[25]提取68個(gè)面部地標(biāo)、17 個(gè)面部動(dòng)作單元、頭部姿勢(shì)、頭部方向和眼睛注視的集合。最終在MOSEI 數(shù)據(jù)集中得到35 維的視覺特征dv=35。

3.2 實(shí)驗(yàn)環(huán)境

為了全面評(píng)估模型性能，實(shí)驗(yàn)中使用準(zhǔn)確率（Accuracy）和F1 值（F1-score）作為評(píng)價(jià)指標(biāo)來對(duì)模型進(jìn)行評(píng)估。計(jì)算公式如下：

其中，TP是真正例，即實(shí)際為正樣本，被預(yù)測(cè)為正樣本的數(shù)量；FP是假正例，即實(shí)際為負(fù)樣本，被預(yù)測(cè)為正樣本的數(shù)量；TN是真負(fù)例，即實(shí)際為負(fù)樣本，被預(yù)測(cè)為負(fù)樣本的數(shù)量；FN假負(fù)例，即實(shí)際為正樣本，被預(yù)測(cè)為負(fù)樣本的數(shù)量。

3.3 優(yōu)化策略

在訓(xùn)練過程中，采用交叉熵作為損失函數(shù)，公式如下：

本模型基于Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn)，在Google colab 服務(wù)器上進(jìn)行訓(xùn)練和測(cè)試。參數(shù)的合理設(shè)置對(duì)于模型的訓(xùn)練有著至關(guān)重要的作用，在大數(shù)據(jù)集CMU-MOSEI 上進(jìn)行情感二分類任務(wù)測(cè)試。實(shí)驗(yàn)證明，當(dāng)模型參數(shù)設(shè)置如表2 所示時(shí)，模型的表現(xiàn)效果最佳。

表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Setting of experimental parameters

3.4 對(duì)比實(shí)驗(yàn)

在本節(jié)中，Acc_2、F1_score_2 分別代表模型在情感二分類中準(zhǔn)確率和F1 得分，Acc_3、F1_score_3 分別代表三分類情況下的準(zhǔn)確率和F1 得分。不同模型的實(shí)驗(yàn)對(duì)比結(jié)果如表3 和表4 所示。

通過表3、表4 的實(shí)驗(yàn)結(jié)果說明，本文提出的TCN-CHF 模型在MOSEI 數(shù)據(jù)集上的情感二分類準(zhǔn)確率和F1 分?jǐn)?shù)這兩個(gè)評(píng)價(jià)指標(biāo)的表現(xiàn)都要優(yōu)于其他對(duì)比模型，準(zhǔn)確率和F1 分?jǐn)?shù)分別提升了6.28 個(gè)百分點(diǎn)和6.12 個(gè)百分點(diǎn)，尤其是對(duì)比現(xiàn)有先進(jìn)的MISA 模型，準(zhǔn)確率提升了1.45 個(gè)百分點(diǎn)，F(xiàn)1 提升了2.34 個(gè)百分點(diǎn)。這充分地說明TCN-CHF 模型在多模態(tài)情感分類任務(wù)上的有效性和先進(jìn)性。此外，根據(jù)上述實(shí)驗(yàn)結(jié)果可以看出，TCN-CHF 模型的F1 值與其他模型相比具有較大提升，這可能是因?yàn)椴煌瑢哟尾煌M合的模態(tài)融合方法以及結(jié)合TCN 和注意力構(gòu)建模型的方法，關(guān)注到了模態(tài)的內(nèi)部信息和更高層次的模態(tài)交互信息，使得模型的精確率達(dá)到84.12%，從而增大了模型的F1 值，提高了模型的分類性能。但是TCN-CHF 模型的參數(shù)過多，在面對(duì)小的數(shù)據(jù)集時(shí)容易產(chǎn)生過擬合的現(xiàn)象，使得模型的效率降低。而在MOSEI 數(shù)據(jù)集上三分類的準(zhǔn)確率不明顯，原因?yàn)椋阂环矫?，分類?shù)目更多，粒度更細(xì)；另一方面，隨著數(shù)據(jù)量的增大，干擾因素也隨之上升，導(dǎo)致面對(duì)大規(guī)模的數(shù)據(jù)集時(shí)其準(zhǔn)確率不像小數(shù)據(jù)集的效果那樣突出。

表3 不同模型在MOSI數(shù)據(jù)集上的結(jié)果Table 3 Results of different models on MOSI dataset 單位：%

表4 不同模型在MOSEI 數(shù)據(jù)集上的結(jié)果Table 4 Results of different models on MOSEI dataset 單位：%

TCN-CHF 模型所需內(nèi)存較小，同時(shí)因?yàn)門CN 網(wǎng)絡(luò)可以并行處理數(shù)據(jù)，所以平均訓(xùn)練耗時(shí)較短。在Google colab 服務(wù)器，顯卡為NVIDIA Tesla V100，內(nèi)存為32 GB 的實(shí)驗(yàn)環(huán)境下，處理MOSI 數(shù)據(jù)集中的每個(gè)話語(yǔ)的平均預(yù)測(cè)耗時(shí)為2.352 ms，MOSEI 數(shù)據(jù)集下的每個(gè)話語(yǔ)平均處理速度為1.282 ms。綜上，模型的時(shí)間復(fù)雜度和空間復(fù)雜度較低。同時(shí)利用TCN 網(wǎng)絡(luò)來構(gòu)建模型，因?yàn)門CN 網(wǎng)絡(luò)本身的因果卷積是一種單向的結(jié)構(gòu)，并不能依據(jù)上下文信息進(jìn)行分析預(yù)測(cè)，只能根據(jù)當(dāng)前時(shí)刻的信息及之前的信息進(jìn)行預(yù)測(cè)分析，但是對(duì)于用來進(jìn)行情感分析的模型而言，上下文信息對(duì)情感的預(yù)測(cè)也尤為重要。

3.5 消融實(shí)驗(yàn)

（1）模態(tài)信息消融

為了驗(yàn)證多模態(tài)信息融合對(duì)于情感分析準(zhǔn)確性的重要影響，對(duì)單模態(tài)（T，A，V）、雙模態(tài)（V+T，T+A，V+A）、三模態(tài)（T+V+A）以及復(fù)合層次融合（TVA+T+V+A），一共8 種不同組合的模態(tài)特征進(jìn)行輸入，分別對(duì)其進(jìn)行情感分析實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較。對(duì)于單模態(tài)信息特征，只讓其經(jīng)過TCN 層進(jìn)行處理，然后直接用于情感傾向分析。類似地，對(duì)于雙模態(tài)，先對(duì)不同模態(tài)信息之間先進(jìn)行兩兩融合，再經(jīng)過相同的處理后用于情感傾向分析。對(duì)于三模態(tài)信息特征，把得到的雙模態(tài)特征T+A、T+V、V+T 融合以后得到三模態(tài)融合T+A+V，采用相同的處理方法最后用于情感分析。最后采用的是本文所提出來的融合處理方法，將得到的三模態(tài)信息再與單模態(tài)信息進(jìn)行融合處理得到最終的三模態(tài)特征（TVA+T+V+A）用于最終的情感分析。詳細(xì)的情感分類結(jié)果如表5 和表6 所示。

表5 和表6 所示為模態(tài)消融實(shí)驗(yàn)結(jié)果，通過表中的數(shù)據(jù)可以發(fā)現(xiàn)復(fù)合層次的情感分類模型表現(xiàn)最好，三模態(tài)特征輸入表現(xiàn)次之。證明了多模態(tài)信息的必要性，以及復(fù)合層次融合的方式可以進(jìn)一步補(bǔ)充不同模態(tài)信息之間的交互信息表達(dá)，從而提高了模型的準(zhǔn)確率。在單模態(tài)的實(shí)驗(yàn)中，文本情感分析的準(zhǔn)確率及F1 值最高，雙模態(tài)實(shí)驗(yàn)中使用了文本模態(tài)信息的模型性能也更優(yōu)異，表明文本模態(tài)特征的情感特性最顯著。那是因?yàn)樵谌藗儽磉_(dá)自身觀點(diǎn)的時(shí)候文本通常包含更豐富的信息。結(jié)合分類結(jié)果的兩個(gè)評(píng)價(jià)指標(biāo)，雙模態(tài)情感分析的效果普遍優(yōu)于單模態(tài)情感分析，利用三模態(tài)融合特征進(jìn)行分類時(shí)的效果最好。因此，將文本、語(yǔ)音和圖像這三種特征進(jìn)行有效融合有助于提高情感分類的性能。

表5 不同模態(tài)組合在MOSI數(shù)據(jù)集上的情感分類結(jié)果Table 5 Sentiment classification results of different modal combinations on MOSI dataset 單位：%

表6 不同模態(tài)組合在MOSEI數(shù)據(jù)集上的情感分類結(jié)果Table 6 Sentiment classification results of different modal combinations on MOSEI dataset 單位：%

（2）模型消融

為了進(jìn)一步分析復(fù)合層次融合結(jié)合TCN 及Softattention 機(jī)制對(duì)模型性能的貢獻(xiàn)，本文設(shè)計(jì)了三組對(duì)比實(shí)驗(yàn)，比較不同模塊對(duì)于模型整體性能的影響。在MOSI 和MOSEI 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如圖9、圖10 所示。

圖9 MOSI數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.9 Model ablation results on MOSI dataset

圖10 MOSEI數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.10 Model ablation results on MOSEI dataset

①TCN-CHF（more）在使用TCN 網(wǎng)絡(luò)進(jìn)行信息處理的時(shí)候，分別對(duì)其使用單獨(dú)的TCN 網(wǎng)絡(luò)，構(gòu)建多個(gè)TCN 網(wǎng)絡(luò)，不再使用同一個(gè)TCN 網(wǎng)絡(luò)。

②TCN-CHF（trimodal）舍棄最后復(fù)合特征信息融合機(jī)制，直接使用三模態(tài)信息進(jìn)行輸出分類。

③TCN-CHF（only）在最后輸出時(shí)不再使用軟注意力機(jī)制，對(duì)其直接進(jìn)行分類輸出得到情感分析結(jié)果。

④Bi-GRU-CHF 使用Bi-GRU（bidirectional-gated recurrent unit）替換本文提出模型中的TCN 網(wǎng)絡(luò)。

圖9、圖10 的實(shí)驗(yàn)結(jié)果表明，對(duì)于MOSI 和MOSEI 數(shù)據(jù)集，舍棄或者替換TCN-CHF 模型中的任一重要模塊，都會(huì)使得模型的分類性能下降。首先，相比多個(gè)TCN 網(wǎng)絡(luò)建模，使用單個(gè)TCN 網(wǎng)絡(luò)的模型準(zhǔn)確率提升了6 個(gè)百分點(diǎn)左右。原因可能是使用多個(gè)TCN 網(wǎng)絡(luò)在訓(xùn)練時(shí)內(nèi)部的參數(shù)相互獨(dú)立，導(dǎo)致不同模態(tài)信息之間的交互性減弱，從而使模型的準(zhǔn)確率下降。其次，丟棄最后的軟注意力機(jī)制層或更換TCN 網(wǎng)絡(luò)結(jié)構(gòu)為Bi-GRU 都會(huì)導(dǎo)致模型準(zhǔn)確率的下降。軟注意力機(jī)制層和TCN 網(wǎng)絡(luò)對(duì)情感類的準(zhǔn)確率貢獻(xiàn)了2%和1.3%（在大數(shù)據(jù)集二分類中）。這主要是因?yàn)樯釛壸⒁饬C(jī)制層以后，雖然得到的特征融合信息更為豐富，由于不同層次不同組合的模態(tài)融合信息存在大量冗余和噪聲干擾，對(duì)最終分類的結(jié)果產(chǎn)生較大的影響。使用Bi-GRU 網(wǎng)絡(luò)代替TCN，模型的性能有所下降，證明了TCN 相較于傳統(tǒng)的RNN網(wǎng)絡(luò)有更好的處理時(shí)間序列特征的能力，兩者共同提升模型最終的分類性能。

4 結(jié)束語(yǔ)

為了有效地提升視頻中的人物情感分析的結(jié)果，本文提出了一種基于TCN 與Soft-attention 機(jī)制復(fù)合層次融合的多模態(tài)情感分析方法。先將提取到的模態(tài)特征信息進(jìn)行復(fù)合層次融合。在融合過程中使用TCN 網(wǎng)絡(luò)提取信息中的序列特征，最后通過篩選注意力機(jī)制進(jìn)行信息過濾和特征降維，最終得到情感分類的預(yù)測(cè)結(jié)果。在數(shù)據(jù)集CMU-MOSI 和CMU-MOSEI 上的實(shí)驗(yàn)表明本文方法可以提高多模態(tài)情感分類性能。整體上，本文方法在準(zhǔn)確率以及F1 值上均優(yōu)于其他方法。

多模態(tài)情感分析主要的研究集中在兩方面：一個(gè)是單模態(tài)信息的提取，另一個(gè)是不同模態(tài)信息的融合。單模態(tài)信息提取需要依靠其他技術(shù)，但是模態(tài)數(shù)據(jù)融合有很多種方法。下一階段將在最新的單模態(tài)技術(shù)為前提的條件下，嘗試各種融合方式，包括早期融合和晚期融合。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡