王旭陽(yáng),董 帥,石 杰
蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,蘭州730050
情感分析,又稱為意向挖掘或者情感傾向分析,其在人機(jī)交互方面發(fā)揮著重大的作用[1]。隨著工業(yè)和互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶傾向于在社交媒體(Tik Tok、Facebook、Twitter、YouTube 等)上分享、展示自己的生活狀況,并且發(fā)表自己對(duì)社會(huì)各類事物的看法。有關(guān)情感分析的研究已經(jīng)被廣泛地應(yīng)用到了各種領(lǐng)域,比如:通過對(duì)網(wǎng)民的情緒分析可以幫助政府掌握社會(huì)的輿論走向,優(yōu)化對(duì)消費(fèi)者的商品推薦,以及對(duì)輿情的監(jiān)測(cè)與引導(dǎo)等。
情感分析是傳統(tǒng)自然語(yǔ)言處理(natural language processing,NLP)中非常重要的一個(gè)研究領(lǐng)域。然而傳統(tǒng)的情感分析主要是針對(duì)用戶在網(wǎng)上的評(píng)論、留言等純文本內(nèi)容進(jìn)行分析、處理、歸納和推理的過程。僅使用文本不足以確定說話者的情感狀態(tài),而且文本可能會(huì)產(chǎn)生誤導(dǎo)。隨著短視頻應(yīng)用的蓬勃發(fā)展,非語(yǔ)言行為(視覺和聽覺)被引入來解決上述缺點(diǎn)[2-3]。與純文本相比,視頻中的人物蘊(yùn)含豐富有關(guān)人物情感傾向的模態(tài)信息,其中包括文本、視頻、音頻。
多模態(tài)情感分析(multimodal sentiment analysis)是對(duì)文本、視頻、音頻的多模態(tài)數(shù)據(jù)進(jìn)行綜合挖掘,發(fā)現(xiàn)其隱藏信息,并最終預(yù)測(cè)出其情感狀態(tài)[4]。社交媒體是多模態(tài)數(shù)據(jù)的海量來源,以視頻為例,視頻中包含了文本、音頻和圖像這三種信息載體,文本能攜帶語(yǔ)義信息,音頻能攜帶語(yǔ)氣、音調(diào)等信息,圖像能攜帶表情、手勢(shì)等信息。三種模態(tài)的關(guān)系是相互補(bǔ)充、相互解釋的,單從一種模態(tài)上來分析其情感色彩是不全面的。如圖1 顯示為一個(gè)視頻片段中人物進(jìn)行對(duì)話的時(shí)候說的一句話:“what's wrong with you?”,這句對(duì)話是個(gè)疑問句而且沒有明顯體現(xiàn)情感取向的詞語(yǔ),因此僅僅依據(jù)這句話所傳達(dá)的信息很難判斷出說話人的情感狀態(tài),但如果結(jié)合說話人的面部表情(皺眉)和語(yǔ)音語(yǔ)調(diào)(低聲),則可以反映出說話人目前的情感狀態(tài)是消極的。這種不同模態(tài)之間的情感信息相互解釋、相互補(bǔ)充稱之為模態(tài)之間的交互性。
圖1 多模態(tài)表達(dá)實(shí)例Fig.1 Example of multimodal data
與單模態(tài)情感分析相比,多模態(tài)情感分析不僅要充分提取其單獨(dú)模態(tài)的特征,還要考慮不同模態(tài)之間的融合和信息的交互,傳統(tǒng)的多模態(tài)信息融合主要分為早期融合和晚期融合,又稱決策層融合。早期融合是在模態(tài)信息輸入到模型訓(xùn)練之前把各個(gè)模態(tài)的信息進(jìn)行拼接,然后進(jìn)行訓(xùn)練。一般的做法是在信息輸入的時(shí)候直接將多模態(tài)特征向量進(jìn)行整合,但是這種融合方法并沒有關(guān)注到不同模態(tài)特征之間的語(yǔ)義差異。假設(shè)三個(gè)模態(tài)信息單獨(dú)表達(dá)的情感是不完全相同的,那么就有可能其中的一種或兩種模態(tài)信息是真正結(jié)果情感狀態(tài)的噪聲干擾。晚期融合[5-6]是先把模態(tài)信息進(jìn)行單獨(dú)訓(xùn)練然后在決策層進(jìn)行投票最后得出預(yù)測(cè)結(jié)果。這種方法雖然能充分挖掘出各自模態(tài)中所蘊(yùn)含的情感信息,但是明顯缺失模態(tài)之間的交互性。
為了解決上述問題,本文提出了一種基于時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制結(jié)合復(fù)合層次融合的多模態(tài)情感分析的模型。首先,該模型將每個(gè)話語(yǔ)的單模態(tài)特征信息進(jìn)行復(fù)合層次融合,融合過程中使用TCN(temporal convolutional network)提取其序列特征,最后使用軟注意力機(jī)制減少噪聲和冗余信息的干擾,最終得到一個(gè)關(guān)于多模態(tài)融合的特征向量用于情感分類(詳細(xì)介紹見第3 章)。實(shí)驗(yàn)測(cè)試表明,該模型在多模態(tài)情感分析上的準(zhǔn)確率和F1 值均表現(xiàn)出良好效果。
情感分析作為文本信息挖掘的主要內(nèi)容,近年來深度學(xué)習(xí)模型的引入在情感分析領(lǐng)域取得巨大成就。單模態(tài)信息提取通常使用的深度學(xué)習(xí)模型一般有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[7]、門控循環(huán)單元(gated recurrent unit,GRU)[8]、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[9]。
針對(duì)不同模態(tài)信息之間的相互融合,Cambria 等人[10]提出了一個(gè)通用的多模態(tài)情感分析框架,該框架由模態(tài)內(nèi)的表示學(xué)習(xí)和模態(tài)間的特征連接組成?;谶@個(gè)框架,許多研究集中在設(shè)計(jì)一個(gè)新的融合網(wǎng)絡(luò)來捕獲更好的多模態(tài)表示并獲得更好的性能。對(duì)于多模態(tài)間融合,Williams 等人[11]提出一種基于EFLSTM(early fusion-long short-term memory)的融合方式,先將三個(gè)模態(tài)的初始輸入連在一起,然后使用LSTM來捕捉序列中的長(zhǎng)距離依賴關(guān)系。與EF-LSTM相比,后期融合LF-DNN(late fusion-deep neural network)先學(xué)習(xí)單模態(tài)特征,然后在分類前將這些特征進(jìn)行串聯(lián)。雖然上述方法在一定程度上能夠解決相關(guān)問題,但是仍存在不足之處,都忽略了各模態(tài)內(nèi)部信息與模態(tài)之間交互作用的結(jié)合。如何提高模態(tài)之間的交互信息并進(jìn)行建模是一個(gè)值得關(guān)注的問題。Zadeh 等人[12]提出了一種記憶融合網(wǎng)絡(luò)(memory fusion network,MFN),對(duì)特定視圖和跨視圖的交互進(jìn)行核算,通過特殊的注意力機(jī)制對(duì)其進(jìn)行持續(xù)建模,并利用多視圖門控記憶進(jìn)行時(shí)間總結(jié)。MFN 需要在三個(gè)模態(tài)中進(jìn)行詞級(jí)對(duì)齊。Zadeh 等人[13]提出一種基于張量融合的特征融合網(wǎng)絡(luò)(tensor fusion network,TFN),TFN 屬于early fusion,是一個(gè)典型的通過矩陣運(yùn)算進(jìn)行特征融合的多模態(tài)網(wǎng)絡(luò),同時(shí)考慮到模態(tài)內(nèi)部信息以及模態(tài)之間的交互作用,但是TFN 通過模態(tài)之間的張量外積(outer product)計(jì)算不同模態(tài)的元素之間的相關(guān)性,這會(huì)極大地增加特征向量的維度,造成模型過大,難以訓(xùn)練。因此,Liu 等人[14]采用低階多模態(tài)融合方法對(duì)權(quán)重張量進(jìn)行分解,降低了基于張量方法的計(jì)算復(fù)雜性,模型通過與模態(tài)特定的低階因子進(jìn)行高效的多模態(tài)融合來學(xué)習(xí)模態(tài)特定和跨模態(tài)的相互作用。Tsai 等人[15]提出一種多模態(tài)變換器(multimodal transformer),該模型利用跨模態(tài)注意力,實(shí)現(xiàn)多模態(tài)序列之間跨不同時(shí)間步長(zhǎng)的交互。Shenoy 等人[16]提出的基于上下文感知的RNN(recurrent neural network)模型能夠有效地利用和捕獲所有模態(tài)對(duì)話的上下文用于多模態(tài)情緒識(shí)別和情感分析。Hazarika等人[17]提出一種MISA(modalityinvariant and-specific representations for multimodal sentiment analysis)的多模態(tài)情感分析框架,把每個(gè)模態(tài)劃分為不同的子空間用來學(xué)習(xí)相關(guān)的情感表示,以幫助融合過程。雖然上述方法在精度上有一定提升,但是在多模態(tài)數(shù)據(jù)融合過程中如何有效地利用整合多模態(tài)信息進(jìn)行情感分析依舊是一項(xiàng)艱巨的任務(wù)。
綜上所述,隨著人工智能研究的不斷深入,多模態(tài)情感分析也得到了巨大的發(fā)展。但是如何有效地利用單模態(tài)特征和多模態(tài)特征之間的交互進(jìn)行建模依舊是多模態(tài)情感分析所面臨的主要問題。大多數(shù)關(guān)于多模態(tài)數(shù)據(jù)融合的工作都使用串聯(lián)或早期融合作為它們的融合策略。這種簡(jiǎn)單化方法的問題在于不能過濾從不同模態(tài)獲得的沖突或冗余信息。本文在早期模態(tài)特征信息融合的基礎(chǔ)上[11-15]和文獻(xiàn)[18]啟發(fā)下,結(jié)合時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制設(shè)計(jì)了一種復(fù)合層次融合的多模態(tài)情感分析模型(TCN-multimodal sentiment analysis with composite hierarchical fusion,TCN-CHF)。采用復(fù)合層次融合方法,能夠最大程度地挖掘和保留不同模態(tài)內(nèi)部的情感信息,并且通過復(fù)合層次融合不斷加強(qiáng)模態(tài)之間信息交互的表達(dá)。利用TCN 網(wǎng)絡(luò)和注意力機(jī)制更好地提取模態(tài)信息中的序列特征,以及文本、視頻、音頻不同模態(tài)信息之間的交互性,并在融合過程中為其分配更合理的權(quán)重,減少多模態(tài)信息中的噪聲以及過濾冗余信息,實(shí)現(xiàn)多模態(tài)特征信息的有效融合。
時(shí)域卷積網(wǎng)絡(luò)是一種新型的可以用來解決時(shí)間序列的算法。TCN 相比傳統(tǒng)的RNN 網(wǎng)絡(luò)有諸多優(yōu)點(diǎn)。例如,TCN 網(wǎng)絡(luò)可以根據(jù)層數(shù)、卷積核大小、擴(kuò)張系數(shù)靈活控制感受野,同時(shí)梯度也更加穩(wěn)定,并且可以并行處理時(shí)序特征信息,所需要的內(nèi)存要求也更低。
2.1.1 TCN 網(wǎng)絡(luò)結(jié)構(gòu)
TCN 不同于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)CNN,其主要采用兩種結(jié)構(gòu):因果卷積(causal convolution)和膨脹卷積(dilated convolution)。
(1)因果卷積:可以用圖2 直觀表示,因果卷積不能看到未來的數(shù)據(jù),它是單向的結(jié)構(gòu),不是雙向的。也就是說只有有了前面的因才有后面的果,假如要預(yù)測(cè)當(dāng)前時(shí)刻的信息,只能依靠當(dāng)前時(shí)刻之前的信息進(jìn)行預(yù)測(cè),即只能通過當(dāng)前的時(shí)刻輸入xt和之前的輸入x1,x2,…,xt-1進(jìn)行計(jì)算,是一種嚴(yán)格的時(shí)間約束模型,因此被稱為因果卷積。
圖2 因果卷積Fig.2 Causal convolution
(2)膨脹卷積:?jiǎn)渭兊囊蚬矸e存在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的問題,即對(duì)時(shí)間的建模長(zhǎng)度受限于卷積核大小,如果要獲取更長(zhǎng)的依賴關(guān)系,就需要堆疊很多線性層。為了解決這個(gè)問題,TCN 網(wǎng)絡(luò)結(jié)構(gòu)采用膨脹卷積,其結(jié)構(gòu)如圖3 所示(圖中,xt為原始時(shí)序的輸入,yt為TCN 網(wǎng)絡(luò)預(yù)測(cè)值,d為膨脹卷積的空洞大?。Ec傳統(tǒng)卷積不同的是,膨脹卷積允許卷積時(shí)的輸入存在間隔采樣。其中d控制圖中的采樣率。最下面一層的d=1,表示輸入時(shí)每個(gè)點(diǎn)都采樣,中間層d=2,表示輸入時(shí)每2 個(gè)點(diǎn)采樣一個(gè)作為輸入。越高的層級(jí)使用的d的大小越大。膨脹卷積使得有效窗口的大小隨著層數(shù)呈指數(shù)型增長(zhǎng)。這樣卷積網(wǎng)絡(luò)用比較少的層,就可以獲得很大的感受野。
圖3 膨脹卷積Fig.3 Dilated convolution
2.1.2 殘差連接
當(dāng)模型中的網(wǎng)絡(luò)層數(shù)過深時(shí),很容易出現(xiàn)梯度消失或梯度爆炸的現(xiàn)象,TCN 網(wǎng)絡(luò)結(jié)構(gòu)通過簡(jiǎn)單的殘差連接可以在一定程度上消除這一現(xiàn)象。具體做法是通過對(duì)輸入x和其經(jīng)過非線性映射得到的G(x) 求和,避免由于網(wǎng)絡(luò)層數(shù)不斷增加而對(duì)梯度造成影響。
本文所采取的膨脹和因果卷積模塊是在每一次進(jìn)行膨脹卷積計(jì)算Conv()之后將參數(shù)層級(jí)歸一化Hinorm(),然后使用ReLU 作為激活函數(shù)進(jìn)行非線性計(jì)算,并將其結(jié)果與輸入進(jìn)行求和,實(shí)現(xiàn)殘參連接。計(jì)算過程如下:
其中,Ti是i時(shí)刻卷積計(jì)算得到的狀態(tài)值;Wi為i時(shí)刻卷積計(jì)算的詞的矩陣;Fj為第j層的卷積核;bi為偏置矩陣;{T0,T1,…,Tn}是序列經(jīng)過一次完整的卷積計(jì)算后的編碼。
TCN 網(wǎng)絡(luò)層通過堆疊多個(gè)擴(kuò)張因果卷積層,擴(kuò)大卷積的感受野。較大的感受野可以獲取到更完整的序列特征,使得融合之后的特征提取到更深層次的語(yǔ)義信息。并且在逐步融合提取過程中增強(qiáng)不同模態(tài)之間的信息交互性,最終提升模型的整體性能。
注意力機(jī)制類似于人類的視覺注意力,人類的注意力是人類視覺所特有的大腦信號(hào)處理機(jī)制。深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上來講,它和人類的選擇性視覺注意力機(jī)制類似,目的也是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。
注意力機(jī)制模型最初應(yīng)用于機(jī)器翻譯和文本摘要[19],現(xiàn)在已成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要概念。本文所采用的是軟注意力機(jī)制,軟注意力機(jī)制是指在選擇信息的時(shí)候,不是從N個(gè)信息中只選擇1 個(gè),而是計(jì)算N個(gè)輸入信息的加權(quán)平均,再輸入到神經(jīng)網(wǎng)絡(luò)中計(jì)算。
對(duì)于本文所使用的CMU-MOSI 和CMU-MOSEI數(shù)據(jù)集的單模態(tài)特征提取的方法在文中的3.1 節(jié)實(shí)驗(yàn)部分有詳細(xì)介紹。
雙模態(tài)融合:對(duì)于不同模態(tài)信息間的融合,首先對(duì)單模態(tài)信息進(jìn)行兩兩融合,過程如圖4 所示,對(duì)單模態(tài)信息進(jìn)行兩兩融合以后得到三個(gè)雙模態(tài)信息,即T+V(文本+視頻)、T+A(文本+音頻)和A+V(音頻+視頻)。這一步驟在圖4 中描述,并在第2.4 節(jié)中詳細(xì)討論。最后使用圖4 的倒數(shù)第二層作為雙模態(tài)特征。
三模態(tài)融合:將上一步得到的三個(gè)雙模態(tài)特征向量再進(jìn)行三融合得到一個(gè)三模態(tài)特征向量T+V+A,如圖5 所示。這一步驟在2.4 節(jié)進(jìn)行詳細(xì)的描述。
圖5 三模態(tài)信息融合Fig.5 Trimodal information fusion
復(fù)合融合:在融合三模態(tài)的基礎(chǔ)上,使用類似殘差網(wǎng)絡(luò)的結(jié)構(gòu)做復(fù)合層次的融合,其結(jié)構(gòu)如圖6 所示,實(shí)驗(yàn)表明使用復(fù)合層次模型的融合方式最終得到情感分類的結(jié)果更佳。
圖6 復(fù)合模態(tài)信息融合Fig.6 Composite modal information fusion
本文針對(duì)現(xiàn)有多模態(tài)情感分析方法中存在情感分類準(zhǔn)確率不高、難以有效融合多模態(tài)特征等問題,提出了一種時(shí)域卷積網(wǎng)絡(luò)和軟注意力機(jī)制結(jié)合復(fù)合層次融合的多模態(tài)情感分析模型。
本文提出的多模態(tài)數(shù)據(jù)融合整體結(jié)構(gòu)如圖7 所示。使用以下條目代表單模態(tài)情感特征向量:
圖7 模型整體結(jié)構(gòu)圖Fig.7 Overall structure diagram of model
其中,fA、fT、fV分別代表視覺、文本、音頻單模態(tài)特征信息,N為視頻中話語(yǔ)的最大長(zhǎng)度。對(duì)于較短的視頻,使用相應(yīng)長(zhǎng)度的空向量對(duì)其進(jìn)行虛擬話語(yǔ)填充;對(duì)于較長(zhǎng)的視頻,做相應(yīng)的裁剪操作。本文中N=50。dA、dT、dV分別代表其對(duì)應(yīng)模態(tài)的特征維度,具體數(shù)值在本文的3.1 節(jié)有詳細(xì)的介紹。
單模態(tài)特征fA、fT、fV具有不同的維度特征dA≠dT≠dV,在進(jìn)行特征信息融合前,需要將它們映射到相同的維度。在該模型中均將其映射到DA=DT=DV=D,DA、DT、DV分別為映射后的視頻、文本、音頻等單模態(tài)特征向量的維度,在經(jīng)過多次實(shí)驗(yàn)后得到當(dāng)D=350 時(shí)模型的性能表現(xiàn)最好。
將上述得到的三個(gè)單模態(tài)特征信息FA、FT、FV作為TCN 網(wǎng)絡(luò)層的輸入進(jìn)行單模態(tài)序列特征的提取,有關(guān)TCN 網(wǎng)絡(luò)層在3.1 節(jié)已有詳細(xì)介紹。
將得到的3 個(gè)雙模態(tài)特征矩陣再次作為輸入傳入TCN 網(wǎng)絡(luò)層,進(jìn)行雙模態(tài)的序列特征提?。?/p>
然后用同樣的方法做三模態(tài)特征融合,融合過程與雙模態(tài)融合類似:
最后進(jìn)行復(fù)合層次融合,將得到的三模態(tài)情感特征FTAV和單模態(tài)情感特征GA、GT、GV進(jìn)行融合得到多模態(tài)情感特征向量:
模型的輸出層結(jié)構(gòu)如圖8 所示,在該模型中使用軟注意力機(jī)制,在進(jìn)行最后的情感分類之前,將得到的多模態(tài)情感特征向量傳入軟注意力機(jī)制層,使用Softmax 函數(shù)計(jì)算注意力分布矩陣,再將得到的注意力分布矩陣和多模態(tài)特征融合的矩陣相乘,得到最終加權(quán)的多模態(tài)特征矩陣用于最后情感分類結(jié)果的輸出,其具體計(jì)算過程如下:
圖8 輸出層結(jié)構(gòu)圖Fig.8 Output layer structure diagram
本文提出的模型采用復(fù)合融合方法結(jié)合TCN以及Soft-attention 機(jī)制。從單模態(tài)到雙模態(tài)再到最終的復(fù)合模態(tài)的融合過程中,經(jīng)過多次的融合提取,每次融合后經(jīng)過同一個(gè)TCN 網(wǎng)絡(luò),使得三個(gè)模態(tài)信息緊密結(jié)合在一起,在這個(gè)過程中不斷提升不同模態(tài)信息之間的交互性。將得到的多模態(tài)特征向量全部傳入Soft-attention 機(jī)制中對(duì)其進(jìn)行最后的過濾冗余以及噪音,注意力機(jī)制處理的過程中可以弱化弱相關(guān),強(qiáng)化強(qiáng)相關(guān),從而提升模態(tài)信息之間的交互性。
(1)數(shù)據(jù)集
本文的模型實(shí)驗(yàn)基于CMU-MOSI[20]數(shù)據(jù)集和CMU-MOSEI[21]數(shù)據(jù)集完成。下面對(duì)這兩個(gè)公共的多模態(tài)情感分析數(shù)據(jù)集進(jìn)行簡(jiǎn)要介紹。
MOSI:CMU-MOSI 數(shù)據(jù)集是最受歡迎的多模態(tài)情感分析數(shù)據(jù)集之一。MOSI數(shù)據(jù)集中包含YouTube電影評(píng)論視頻的93 個(gè)獨(dú)白片段,被劃分為2 199 個(gè)標(biāo)注了情感標(biāo)簽的視頻段。其中每個(gè)標(biāo)簽情感得分從-3(強(qiáng)消極)到3(強(qiáng)積極)。在本實(shí)驗(yàn)中,對(duì)于二分類問題,把情感值大于或等于0 的視頻段標(biāo)記為1,即正面情感類,情感值小于0 的視頻段標(biāo)記為0,即負(fù)面情感類;對(duì)于三分類問題,把情感值等于0 的視頻段標(biāo)記為中性情感,小于0 和大于0 的視頻片段分別標(biāo)記為負(fù)面情感和正面情感。
MOSEI:CMU-MOSEI 數(shù)據(jù)集擴(kuò)展了數(shù)據(jù)量,在CMU-MOSI 的基礎(chǔ)上增加了話語(yǔ)數(shù)量、樣本、說話者和話題的多樣性。該數(shù)據(jù)集包含22 856 個(gè)帶注釋的視頻片段(話語(yǔ)),來自5 000 個(gè)視頻、1 000 個(gè)不同的說話者和250 個(gè)不同的主題,兩個(gè)數(shù)據(jù)集的具體統(tǒng)計(jì)數(shù)據(jù)如表1 所示。
表1 兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)Table 1 Statistics of two datasets
(2)單模態(tài)信息抽取
為使模型的性能達(dá)到最佳,需要使不同模態(tài)之間的信息必須嚴(yán)格對(duì)齊。
對(duì)于本文中的視頻文本特征(Text),首先進(jìn)行轉(zhuǎn)錄,在這里只使用中文轉(zhuǎn)錄。轉(zhuǎn)錄時(shí)為每篇轉(zhuǎn)錄稿添加兩個(gè)唯一的標(biāo)記來表示開始和結(jié)束。而后,使用預(yù)先訓(xùn)練好的中文BERTbase 詞嵌入來從轉(zhuǎn)錄本中獲得詞向量[22]。值得注意的是,由于BERT 的特性,本文并沒有使用單詞分割工具。最終,每個(gè)詞都被表示為768 維的詞向量dt=768。
對(duì)于視頻中的聲學(xué)特征(audio),使用LibROSA[23]語(yǔ)音工具包,以默認(rèn)參數(shù)提取22 050 Hz 的聲學(xué)特征。在MOSEI 數(shù)據(jù)集中得到74 維的聲學(xué)特征da=74。
對(duì)于視頻中的視覺特征以30 Hz 的頻率從視頻片段中提取幀。本文使用MTCNN(multi-task convolutional neural network)人臉檢測(cè)算法[24]來提取對(duì)齊的人臉,使用MultiComp OpenFace2.0 工具包[25]提取68個(gè)面部地標(biāo)、17 個(gè)面部動(dòng)作單元、頭部姿勢(shì)、頭部方向和眼睛注視的集合。最終在MOSEI 數(shù)據(jù)集中得到35 維的視覺特征dv=35。
為了全面評(píng)估模型性能,實(shí)驗(yàn)中使用準(zhǔn)確率(Accuracy)和F1 值(F1-score)作為評(píng)價(jià)指標(biāo)來對(duì)模型進(jìn)行評(píng)估。計(jì)算公式如下:
其中,TP是真正例,即實(shí)際為正樣本,被預(yù)測(cè)為正樣本的數(shù)量;FP是假正例,即實(shí)際為負(fù)樣本,被預(yù)測(cè)為正樣本的數(shù)量;TN是真負(fù)例,即實(shí)際為負(fù)樣本,被預(yù)測(cè)為負(fù)樣本的數(shù)量;FN假負(fù)例,即實(shí)際為正樣本,被預(yù)測(cè)為負(fù)樣本的數(shù)量。
在訓(xùn)練過程中,采用交叉熵作為損失函數(shù),公式如下:
本模型基于Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn),在Google colab 服務(wù)器上進(jìn)行訓(xùn)練和測(cè)試。參數(shù)的合理設(shè)置對(duì)于模型的訓(xùn)練有著至關(guān)重要的作用,在大數(shù)據(jù)集CMU-MOSEI 上進(jìn)行情感二分類任務(wù)測(cè)試。實(shí)驗(yàn)證明,當(dāng)模型參數(shù)設(shè)置如表2 所示時(shí),模型的表現(xiàn)效果最佳。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Setting of experimental parameters
在本節(jié)中,Acc_2、F1_score_2 分別代表模型在情感二分類中準(zhǔn)確率和F1 得分,Acc_3、F1_score_3 分別代表三分類情況下的準(zhǔn)確率和F1 得分。不同模型的實(shí)驗(yàn)對(duì)比結(jié)果如表3 和表4 所示。
通過表3、表4 的實(shí)驗(yàn)結(jié)果說明,本文提出的TCN-CHF 模型在MOSEI 數(shù)據(jù)集上的情感二分類準(zhǔn)確率和F1 分?jǐn)?shù)這兩個(gè)評(píng)價(jià)指標(biāo)的表現(xiàn)都要優(yōu)于其他對(duì)比模型,準(zhǔn)確率和F1 分?jǐn)?shù)分別提升了6.28 個(gè)百分點(diǎn)和6.12 個(gè)百分點(diǎn),尤其是對(duì)比現(xiàn)有先進(jìn)的MISA 模型,準(zhǔn)確率提升了1.45 個(gè)百分點(diǎn),F(xiàn)1 提升了2.34 個(gè)百分點(diǎn)。這充分地說明TCN-CHF 模型在多模態(tài)情感分類任務(wù)上的有效性和先進(jìn)性。此外,根據(jù)上述實(shí)驗(yàn)結(jié)果可以看出,TCN-CHF 模型的F1 值與其他模型相比具有較大提升,這可能是因?yàn)椴煌瑢哟尾煌M合的模態(tài)融合方法以及結(jié)合TCN 和注意力構(gòu)建模型的方法,關(guān)注到了模態(tài)的內(nèi)部信息和更高層次的模態(tài)交互信息,使得模型的精確率達(dá)到84.12%,從而增大了模型的F1 值,提高了模型的分類性能。但是TCN-CHF 模型的參數(shù)過多,在面對(duì)小的數(shù)據(jù)集時(shí)容易產(chǎn)生過擬合的現(xiàn)象,使得模型的效率降低。而在MOSEI 數(shù)據(jù)集上三分類的準(zhǔn)確率不明顯,原因?yàn)椋阂环矫?,分類?shù)目更多,粒度更細(xì);另一方面,隨著數(shù)據(jù)量的增大,干擾因素也隨之上升,導(dǎo)致面對(duì)大規(guī)模的數(shù)據(jù)集時(shí)其準(zhǔn)確率不像小數(shù)據(jù)集的效果那樣突出。
表3 不同模型在MOSI數(shù)據(jù)集上的結(jié)果Table 3 Results of different models on MOSI dataset 單位:%
表4 不同模型在MOSEI 數(shù)據(jù)集上的結(jié)果Table 4 Results of different models on MOSEI dataset 單位:%
TCN-CHF 模型所需內(nèi)存較小,同時(shí)因?yàn)門CN 網(wǎng)絡(luò)可以并行處理數(shù)據(jù),所以平均訓(xùn)練耗時(shí)較短。在Google colab 服務(wù)器,顯卡為NVIDIA Tesla V100,內(nèi)存為32 GB 的實(shí)驗(yàn)環(huán)境下,處理MOSI 數(shù)據(jù)集中的每個(gè)話語(yǔ)的平均預(yù)測(cè)耗時(shí)為2.352 ms,MOSEI 數(shù)據(jù)集下的每個(gè)話語(yǔ)平均處理速度為1.282 ms。綜上,模型的時(shí)間復(fù)雜度和空間復(fù)雜度較低。同時(shí)利用TCN 網(wǎng)絡(luò)來構(gòu)建模型,因?yàn)門CN 網(wǎng)絡(luò)本身的因果卷積是一種單向的結(jié)構(gòu),并不能依據(jù)上下文信息進(jìn)行分析預(yù)測(cè),只能根據(jù)當(dāng)前時(shí)刻的信息及之前的信息進(jìn)行預(yù)測(cè)分析,但是對(duì)于用來進(jìn)行情感分析的模型而言,上下文信息對(duì)情感的預(yù)測(cè)也尤為重要。
(1)模態(tài)信息消融
為了驗(yàn)證多模態(tài)信息融合對(duì)于情感分析準(zhǔn)確性的重要影響,對(duì)單模態(tài)(T,A,V)、雙模態(tài)(V+T,T+A,V+A)、三模態(tài)(T+V+A)以及復(fù)合層次融合(TVA+T+V+A),一共8 種不同組合的模態(tài)特征進(jìn)行輸入,分別對(duì)其進(jìn)行情感分析實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較。對(duì)于單模態(tài)信息特征,只讓其經(jīng)過TCN 層進(jìn)行處理,然后直接用于情感傾向分析。類似地,對(duì)于雙模態(tài),先對(duì)不同模態(tài)信息之間先進(jìn)行兩兩融合,再經(jīng)過相同的處理后用于情感傾向分析。對(duì)于三模態(tài)信息特征,把得到的雙模態(tài)特征T+A、T+V、V+T 融合以后得到三模態(tài)融合T+A+V,采用相同的處理方法最后用于情感分析。最后采用的是本文所提出來的融合處理方法,將得到的三模態(tài)信息再與單模態(tài)信息進(jìn)行融合處理得到最終的三模態(tài)特征(TVA+T+V+A)用于最終的情感分析。詳細(xì)的情感分類結(jié)果如表5 和表6 所示。
表5 和表6 所示為模態(tài)消融實(shí)驗(yàn)結(jié)果,通過表中的數(shù)據(jù)可以發(fā)現(xiàn)復(fù)合層次的情感分類模型表現(xiàn)最好,三模態(tài)特征輸入表現(xiàn)次之。證明了多模態(tài)信息的必要性,以及復(fù)合層次融合的方式可以進(jìn)一步補(bǔ)充不同模態(tài)信息之間的交互信息表達(dá),從而提高了模型的準(zhǔn)確率。在單模態(tài)的實(shí)驗(yàn)中,文本情感分析的準(zhǔn)確率及F1 值最高,雙模態(tài)實(shí)驗(yàn)中使用了文本模態(tài)信息的模型性能也更優(yōu)異,表明文本模態(tài)特征的情感特性最顯著。那是因?yàn)樵谌藗儽磉_(dá)自身觀點(diǎn)的時(shí)候文本通常包含更豐富的信息。結(jié)合分類結(jié)果的兩個(gè)評(píng)價(jià)指標(biāo),雙模態(tài)情感分析的效果普遍優(yōu)于單模態(tài)情感分析,利用三模態(tài)融合特征進(jìn)行分類時(shí)的效果最好。因此,將文本、語(yǔ)音和圖像這三種特征進(jìn)行有效融合有助于提高情感分類的性能。
表5 不同模態(tài)組合在MOSI數(shù)據(jù)集上的情感分類結(jié)果Table 5 Sentiment classification results of different modal combinations on MOSI dataset 單位:%
表6 不同模態(tài)組合在MOSEI數(shù)據(jù)集上的情感分類結(jié)果Table 6 Sentiment classification results of different modal combinations on MOSEI dataset 單位:%
(2)模型消融
為了進(jìn)一步分析復(fù)合層次融合結(jié)合TCN 及Softattention 機(jī)制對(duì)模型性能的貢獻(xiàn),本文設(shè)計(jì)了三組對(duì)比實(shí)驗(yàn),比較不同模塊對(duì)于模型整體性能的影響。在MOSI 和MOSEI 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如圖9、圖10 所示。
圖9 MOSI數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.9 Model ablation results on MOSI dataset
圖10 MOSEI數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.10 Model ablation results on MOSEI dataset
①TCN-CHF(more)在使用TCN 網(wǎng)絡(luò)進(jìn)行信息處理的時(shí)候,分別對(duì)其使用單獨(dú)的TCN 網(wǎng)絡(luò),構(gòu)建多個(gè)TCN 網(wǎng)絡(luò),不再使用同一個(gè)TCN 網(wǎng)絡(luò)。
②TCN-CHF(trimodal)舍棄最后復(fù)合特征信息融合機(jī)制,直接使用三模態(tài)信息進(jìn)行輸出分類。
③TCN-CHF(only)在最后輸出時(shí)不再使用軟注意力機(jī)制,對(duì)其直接進(jìn)行分類輸出得到情感分析結(jié)果。
④Bi-GRU-CHF 使用Bi-GRU(bidirectional-gated recurrent unit)替換本文提出模型中的TCN 網(wǎng)絡(luò)。
圖9、圖10 的實(shí)驗(yàn)結(jié)果表明,對(duì)于MOSI 和MOSEI 數(shù)據(jù)集,舍棄或者替換TCN-CHF 模型中的任一重要模塊,都會(huì)使得模型的分類性能下降。首先,相比多個(gè)TCN 網(wǎng)絡(luò)建模,使用單個(gè)TCN 網(wǎng)絡(luò)的模型準(zhǔn)確率提升了6 個(gè)百分點(diǎn)左右。原因可能是使用多個(gè)TCN 網(wǎng)絡(luò)在訓(xùn)練時(shí)內(nèi)部的參數(shù)相互獨(dú)立,導(dǎo)致不同模態(tài)信息之間的交互性減弱,從而使模型的準(zhǔn)確率下降。其次,丟棄最后的軟注意力機(jī)制層或更換TCN 網(wǎng)絡(luò)結(jié)構(gòu)為Bi-GRU 都會(huì)導(dǎo)致模型準(zhǔn)確率的下降。軟注意力機(jī)制層和TCN 網(wǎng)絡(luò)對(duì)情感類的準(zhǔn)確率貢獻(xiàn)了2%和1.3%(在大數(shù)據(jù)集二分類中)。這主要是因?yàn)樯釛壸⒁饬C(jī)制層以后,雖然得到的特征融合信息更為豐富,由于不同層次不同組合的模態(tài)融合信息存在大量冗余和噪聲干擾,對(duì)最終分類的結(jié)果產(chǎn)生較大的影響。使用Bi-GRU 網(wǎng)絡(luò)代替TCN,模型的性能有所下降,證明了TCN 相較于傳統(tǒng)的RNN網(wǎng)絡(luò)有更好的處理時(shí)間序列特征的能力,兩者共同提升模型最終的分類性能。
為了有效地提升視頻中的人物情感分析的結(jié)果,本文提出了一種基于TCN 與Soft-attention 機(jī)制復(fù)合層次融合的多模態(tài)情感分析方法。先將提取到的模態(tài)特征信息進(jìn)行復(fù)合層次融合。在融合過程中使用TCN 網(wǎng)絡(luò)提取信息中的序列特征,最后通過篩選注意力機(jī)制進(jìn)行信息過濾和特征降維,最終得到情感分類的預(yù)測(cè)結(jié)果。在數(shù)據(jù)集CMU-MOSI 和CMU-MOSEI 上的實(shí)驗(yàn)表明本文方法可以提高多模態(tài)情感分類性能。整體上,本文方法在準(zhǔn)確率以及F1 值上均優(yōu)于其他方法。
多模態(tài)情感分析主要的研究集中在兩方面:一個(gè)是單模態(tài)信息的提取,另一個(gè)是不同模態(tài)信息的融合。單模態(tài)信息提取需要依靠其他技術(shù),但是模態(tài)數(shù)據(jù)融合有很多種方法。下一階段將在最新的單模態(tài)技術(shù)為前提的條件下,嘗試各種融合方式,包括早期融合和晚期融合。