吳曉 牟璇 劉銀華 劉曉瑞
摘要 針對當(dāng)前多模態(tài)情感識別算法在模態(tài)特征提取、模態(tài)間信息融合等方面存在識別準(zhǔn)確率偏低、泛化能力較差的問題,提出了一種基于語音、文本和表情的多模態(tài)情感識別算法。首先,設(shè)計了一種淺層特征提取網(wǎng)絡(luò)(Sfen)和并行卷積模塊(Pconv)提取語音和文本中的情感特征,通過改進(jìn)的Inception-ResnetV2模型提取視頻序列中的表情情感特征;其次,為強(qiáng)化模態(tài)間的關(guān)聯(lián)性,設(shè)計了一種用于優(yōu)化語音和文本特征融合的交叉注意力模塊;最后,利用基于注意力的雙向長短期記憶(BiLSTM based on attention mechanism,BiLSTM-Attention)模塊關(guān)注重點信息,保持模態(tài)信息之間的時序相關(guān)性。實驗通過對比3種模態(tài)不同的組合方式,發(fā)現(xiàn)預(yù)先對語音和文本進(jìn)行特征融合可以顯著提高識別精度。在公開情感數(shù)據(jù)集CH-SIMS和CMU-MOSI上的實驗結(jié)果表明,所提出的模型取得了比基線模型更高的識別準(zhǔn)確率,三分類和二分類準(zhǔn)確率分別達(dá)到97.82%和98.18%,證明了該模型的有效性。
關(guān)鍵詞 多模態(tài);情感識別;并行卷積;交叉注意力
A multimodal emotion recognition algorithm basedon speech, text and facial expression
Abstract Aiming at the problems of low recognition accuracy and poor generalization ability of current multimodal emotion recognition algorithms in modal feature extraction and information fusion between modalities, a multimodal emotion recognition algorithm based on speech, text and expression is proposed. Firstly, a shallow feature extraction network (Sfen) combined with parallel convolution module (Pconv) is designed to extract the emotional features in speech and text. A modified Inception-ResnetV2 model is adopted to capture the emotional features of expression in video stream. Secondly, in order to strengthen the correlation among modalities, a cross attention module is designed to optimize the fusion between speech and text modalities. Finally, a bidirectional long and short-term memory module based on attention mechanism (BiLSTM-Attention) is used to focus on key information and maintain the temporal correlation between modalities. By comparing the different combinations of the three modalities, it is found that the hierarchical fusion strategy that processes speech and text in advance can obviously improve the accuracy of the model. Experimental results on the public emotion datasets CH-SIMS and CMU-MOSI show that the proposed model achieves higher recognition accuracy than the baseline model, with three-class and two-class accuracy reaching 97.82% and 98.18% respectively, which proves the effectiveness of the model.
Keywords multimodal; emotion recognition; parallel convolution; cross attention
近年來,隨著人工智能技術(shù)的快速發(fā)展,人機(jī)交互逐漸成為了當(dāng)前科研人員研究的熱點。情感分析作為人機(jī)交互的重要組成部分,也呈現(xiàn)出了模態(tài)多元化的趨勢[1],比如使用語音、文本、表情,甚至腦電等生理信號來進(jìn)行情感分析。因此,如何處理和融合這些異構(gòu)信息,實現(xiàn)對其準(zhǔn)確的分析與判斷,成為了當(dāng)前需要解決的重點問題。
在情感識別領(lǐng)域中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法如樸素貝葉斯(naive Bayes,NB)、支持向量機(jī)(support vector machine,SVM)等[2-3]被廣泛應(yīng)用。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)[4-6]為代表的數(shù)據(jù)驅(qū)動方法逐漸成為情感分析的主流。目前,研究人員已經(jīng)在單模態(tài)情感識別領(lǐng)域取得了一定進(jìn)展。在文本情感識別方面,Xu等人提出一種基于CNN的微博情緒分類模型CNN-Text-Word2vec,使模型的整體準(zhǔn)確率比主流方法提高了7.0%[7];在圖像情感識別方面,鄭劍等人提出了一種基于DCNN的FLF-TAWL網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠自適應(yīng)捕捉人臉重要區(qū)域,提高人臉識別的有效性[8];在語音情感識別方面,部分研究將聲學(xué)特征和RNN進(jìn)行結(jié)合,如Dutta等人提出一種語音識別模型,利用RNN提取線性預(yù)測編碼(linear predictive coding,LPC)和Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)特征,并在識別阿薩姆語上取得了一定效果[9]。
近期的研究表明,多模態(tài)情感模型能夠?qū)碜圆煌兄B(tài)的信息有效融合。由于充分利用了數(shù)據(jù)的多樣性,多模態(tài)模型表現(xiàn)出比單模態(tài)模型更大的優(yōu)勢。針對多模態(tài)情感識別,國內(nèi)外學(xué)者已經(jīng)開展了深入的研究工作。如HOU等人提出一種早期融合模型EF-LSTM,通過拼接語音、文本和表情3種模態(tài)的特征并利用LSTM進(jìn)行編碼,有效提取了模態(tài)間的交互信息[10]。Zadeh等人設(shè)計一種張量融合網(wǎng)絡(luò)(TFN),通過采用多維張量的外積操作,較好地捕獲了不同模態(tài)間的交互信息[11]。Liu等人設(shè)計一種低秩多模態(tài)融合算法(LMF),在TFN的基礎(chǔ)上進(jìn)行低秩多模態(tài)張量融合,使網(wǎng)絡(luò)效果得到一定的提升[12]。Zadeh等人提出一種記憶融合網(wǎng)絡(luò)(MFN),通過利用注意力機(jī)制和多視圖門控網(wǎng)絡(luò),同步捕捉了時序序列和模態(tài)間的交互信息[13]。Tsai等人提出一種跨模態(tài)網(wǎng)絡(luò)Transformer(MulT),通過擴(kuò)展多式Transformer結(jié)構(gòu),成功解決了不同模態(tài)數(shù)據(jù)的長期依賴性問題,進(jìn)一步提高了模型性能[14]。Yu等人提出一種自監(jiān)督多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)Self-MM,通過設(shè)計基于自監(jiān)督學(xué)習(xí)策略的標(biāo)簽生成模塊,并引入權(quán)重自調(diào)整策略,較好地實現(xiàn)了對情感的預(yù)測分類[15]。雖然研究者不斷探索新的情感識別模型以提升多模態(tài)情感識別的準(zhǔn)確率,但仍存在一些不足。在情感特征提取方面,上述多模態(tài)情感模型主要通過預(yù)訓(xùn)練模型實現(xiàn)對情感特征提取。但預(yù)訓(xùn)練模型往往需要進(jìn)行微調(diào)或遷移學(xué)習(xí)來達(dá)到適應(yīng)特定任務(wù)的目的,可能會導(dǎo)致在小樣本數(shù)據(jù)集或特定應(yīng)用中出現(xiàn)泛化性能力不足的問題。在特征融合方面,上述多模態(tài)模型雖然采用了一些改進(jìn)型的融合方法,但在融合過程中沒有很好地考慮模態(tài)特征間的相關(guān)性及模態(tài)的選擇性問題,導(dǎo)致最終的識別準(zhǔn)確率偏低。
針對上述問題,本文在現(xiàn)有研究的基礎(chǔ)上提出了一種基于語音、文本和表情的多模態(tài)情感識別算法。該算法利用Sfen網(wǎng)絡(luò)和Pconv模塊充分提取語音和文本情感特征;采用改進(jìn)的Inception-ResnetV2網(wǎng)絡(luò)[16]提取表情情感特征;通過交叉注意力融合(cross attention fusion,CAF)模塊強(qiáng)化語音和文本特征的相關(guān)性;最后,利用BiLSTM-Attention模塊獲取關(guān)鍵信息,保持信息在時間上的連續(xù)性。
1 多模態(tài)情感識別模型
構(gòu)建多模態(tài)情感識別模型通常包括以下幾個方面:多模態(tài)信息預(yù)處理、情感特征提取、情感識別模型的設(shè)計與選擇、特征融合方案[17]。如何確定有效的模態(tài)組合方案,并實現(xiàn)有效的特征融合是本文需要研究的重點問題。本文利用語音(A)、文本(T)與表情(V)3種模態(tài)構(gòu)建多模態(tài)情感識別模型,該模型主要是由Sfen網(wǎng)絡(luò)、Pconv模塊、BiLSTM-Attention模塊和交叉注意力融合(CAF)模塊組成,整體框架如圖1所示。
在圖1所示的模型框架中,首先利用Sfen網(wǎng)絡(luò)和Pconv模塊提取語音和文本的情感特征,并通過CAF模塊實現(xiàn)2個模態(tài)間的信息互補,優(yōu)化模態(tài)間的信息融合。對于基于視頻的表情信息,該情感識別方法以圖片識別分類常用的Inception-ResnetV2模型為基礎(chǔ)進(jìn)行改進(jìn),以提高在多種環(huán)境背景下的魯棒性。在融合策略上,本文將語音-文本特征與表情特征進(jìn)行特征級[18]融合,并通過BiLSTM-Attention模塊后,利用Softmax實現(xiàn)對情感的識別分類。
1.1 數(shù)據(jù)預(yù)處理
目前語音信號預(yù)處理的方法主要有傅里葉變換、 神經(jīng)網(wǎng)絡(luò)、 動態(tài)時間規(guī)劃和梅爾頻率倒譜系數(shù)(MFCC)[19]等, 其中, 梅爾頻率倒譜系數(shù)提取到的特征參數(shù)更接近人耳感知的特點。 本文利用MFCC對視頻中的原始語音信號進(jìn)行預(yù)處理,通過對提取到的語音數(shù)據(jù)進(jìn)行預(yù)加重、分幀和加窗等操作,將原始語音信號轉(zhuǎn)換為語音特征參數(shù)。針對原始文本數(shù)據(jù),首先,采用文本分類中常用的jieba分詞工具[20]對文本中的分詞進(jìn)行分類;然后,利用停止詞數(shù)據(jù)庫去除文本信息中的停止詞,避免無用信息的干擾;最后,通過word2vec[7]模型將文本轉(zhuǎn)換成詞向量形式,構(gòu)建詞向量字典。針對研究中使用的文本數(shù)據(jù)量,使用了word2vec中的CBOW[21]作為本文的神經(jīng)網(wǎng)絡(luò)語言模型。
數(shù)據(jù)集中原始視頻片段的背景、 光線和環(huán)境等因素[22]可能會導(dǎo)致從視頻中提取到的連續(xù)幀無法被準(zhǔn)確地識別為人臉。 因此, 本文首先將每個視頻片段逐幀處理成連續(xù)的圖片, 利用MTCNN[23]模型和OpenCV庫中的CascadeClassifier[24]人臉級聯(lián)檢測器實現(xiàn)對人臉的檢測,提高對人臉的檢測精度;然后,將檢測到的人臉圖像裁剪成149×149的統(tǒng)一尺寸大小;最后,經(jīng)過歸一化、灰度化后,輸出處理后的圖片序列。
1.2 語音文本特征提取
在情感識別的過程中,淺層特征提取主要從輸入的文本、語音或圖像中提取有關(guān)情感的表層信息,是數(shù)據(jù)預(yù)處理后的一項關(guān)鍵步驟。針對語音和文本模態(tài),本文設(shè)計了一種Sfen網(wǎng)絡(luò)實現(xiàn)對2種模態(tài)淺層特征的提取,Sfen網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
對于音頻輸入,語音特征參數(shù)經(jīng)過Sfen1網(wǎng)絡(luò)中一維卷積層和池化層的處理后得到語音淺層特征(卷積核大小為3×3)。類似地,對于文本輸入,詞向量字典通過Sfen2網(wǎng)絡(luò)中的Embedding和BiLSTM層后得到文本淺層特征。其中,Embedding層增強(qiáng)了文本特征之間的相關(guān)性,在Embedding層之后引入BiLSTM能夠捕獲更豐富的上下文信息,同時保持文本間的序列關(guān)系。語音特征參數(shù)和詞向量字典經(jīng)過各自的Sfen網(wǎng)絡(luò)處理后,其輸出特征維度保持相同,確保了后續(xù)語音和文本特征融合的可行性。
為獲取深層次的情感特征,本文利用殘差網(wǎng)絡(luò)[25](residual network,ResNet)的思想將最大池化層與卷積層進(jìn)行拼接,針對語音和文本2個模態(tài)設(shè)計了一種Pconv模塊,其結(jié)構(gòu)如圖3所示。
在圖3中,Pconv模塊由最大池化層、Bconv單元和Sconv單元3部分組成。其中,Bconv單元由3層組成:傳統(tǒng)卷積層、LeakyReLU激活函數(shù)、批標(biāo)準(zhǔn)化(Batch Normalization)。Sconv單元與Bconv單元類似,但在輸入環(huán)節(jié)使用了卷積核大小為3×3的深度可分離卷積層[26](Depth Separable Convolution),進(jìn)一步減少運算參數(shù)的數(shù)量,提高運算效率。在次級輸出環(huán)節(jié),本文將最大池化層的輸出和Bconv單元的輸出進(jìn)行拼接,其輸出再與Sconv單元的輸出特征進(jìn)行疊加。上述設(shè)計中的拼接環(huán)節(jié)可以增加最終輸出特征的多樣性,而疊加環(huán)節(jié)又可以在輸出前對每個維度的特征進(jìn)行增強(qiáng)和補充。該Pconv模塊采用的殘差連接的方法,避免了神經(jīng)網(wǎng)絡(luò)中的信息冗余和梯度爆炸[27]問題,使得網(wǎng)絡(luò)能夠更有效地學(xué)習(xí)到數(shù)據(jù)的特征表示,保證了特征提取的充分性。
1.3 表情特征提取
目前處理視頻序列中面部表情信息的方法主要是3D卷積和2D卷積,其中,3D卷積能夠在時間維度上捕捉連續(xù)視頻幀之間的動態(tài)信息,2D卷積能夠在每個視頻幀中提取空間特征。本文將3D卷積與2D卷積相結(jié)合,先利用2D卷積提取圖像幀的空間特征,再使用3D卷積捕捉時間維度的特征,不僅可以形成更深層次的特征表示,還能夠有效地提高面部表情的識別效率。
Inception-ResnetV2神經(jīng)網(wǎng)絡(luò)模型具有良好的特征提取能力和泛化性能,常用于圖像分類、目標(biāo)檢測等任務(wù)。本研究采用的表情情感識別模型是在Inception-ResnetV2模型的基礎(chǔ)上進(jìn)行的改進(jìn),利用3D卷積與2D卷積相結(jié)合的多尺度卷積核[28]處理表情數(shù)據(jù)信息。改進(jìn)后的模型結(jié)構(gòu)如圖4所示。在傳統(tǒng)的Inception-ResnetV2模型的基礎(chǔ)上,將其前半部分的特征提取層由2D轉(zhuǎn)換為3D,利用三維卷積核滑動提取相應(yīng)特征。由于時間維度較小,當(dāng)時間維度卷積為1時,再次通過壓縮方式(squeeze)將3D卷積轉(zhuǎn)換為2D卷積,減少訓(xùn)練參數(shù)的產(chǎn)生,降低運算難度。
1.4 交叉注意力融合模塊
模態(tài)特征的融合需要考慮不同模態(tài)間的耦合關(guān)系。目前的研究表明T(文本)和A(語言)2種模態(tài)之間存在緊密的時序與特征耦合關(guān)系[29]。本文改變了傳統(tǒng)的特征融合方式,設(shè)計了一種基于交叉注意力的融合模塊,在保留模態(tài)內(nèi)特征的同時,有效地編碼T和A模態(tài)間的信息。該融合模塊結(jié)構(gòu)如圖5所示。
在圖5所示的交叉注意力融合模塊中, Xt和Xa分別代表數(shù)據(jù)集中的視頻序列X經(jīng)過Pconv模塊后提取出的T和A的深層特征。 為使模態(tài)間的異質(zhì)性最小化, 設(shè)置了一個可學(xué)習(xí)的權(quán)重矩陣W∈Rk×k,相互計算的關(guān)系如式(1)所示,
Y=XTa WXt(1)
式中:Y∈Rl×l;W代表文本和語音的相互關(guān)系權(quán)重;k代表文本和語音的特征維度。相關(guān)矩陣Y給出了T和A特征之間的相關(guān)性度量,較高的相關(guān)系數(shù)說明子序列對應(yīng)的T和A特征之間具有較強(qiáng)的相關(guān)性?;谝陨纤悸罚謩e利用YT和Y的softmax函數(shù)進(jìn)一步計算T和A特征的交叉注意力權(quán)重Zt和Za。計算如式(2)和(3)所示。
式中:i和j表示矩陣Y的第i行和第j列元素;Ts表示softmax系數(shù)。
式中:Zt和Za分別代表T和A特征的交叉注意力權(quán)重。通過將重加權(quán)的注意力圖添加到相應(yīng)的特征上,可獲得2種模態(tài)的深層特征表征Xatt,t與Xatt,a,如式(6)和(7)所示。
Xatt,t=tanh(Xt+t)(6)
Xatt,a=tanh(Xa+a)(7)
將Xatt,t和Xatt,a拼接起來,得到T和A的特征表示,即[AKX]=[Xatt,t,Xatt,a]。經(jīng)過交叉注意力模塊融合后的特征將再次輸入到下一級Pconv模塊中,通過其并行結(jié)構(gòu)充分提取融合后的信息。
1.5 BiLSTM-Attention模塊
長短時記憶網(wǎng)絡(luò)[30](long short term memory,LSTM)利用3個不同門結(jié)構(gòu),有效解決了序列數(shù)據(jù)的依賴性和語序問題,其結(jié)構(gòu)如圖6所示。
在t時刻,將當(dāng)前隱層狀態(tài)記為ht,各門狀態(tài)更新如下:
ft=σ(Wf·[ht-1,xt]+bf)(8)
Ct=ft*Ct-1+it*tanh(Wc·[ht-1,xt]+bc)(9)
it=σ(Wi·[ht-1,xt]+bi)(10)
ot=σ(Wo·[ht-1,xt]+bo)(11)
ht=ot*tanh(Ct)(12)
式中:xt表示當(dāng)前輸入單元狀態(tài);ft、Ct、it、ot分別表示當(dāng)前遺忘門、存儲單元、輸入門、輸出門;b*表示偏置項;W*表示權(quán)重矩陣;σ是激活函數(shù)。
LSTM只能獲取輸出時刻前的信息, 不能利用反向信息, 本文利用了2個單向LSTM構(gòu)成雙向長短時記憶網(wǎng)絡(luò)(BiLSTM), 同時處理前向與后向信息。 此外, 注意力機(jī)制[31](attention)能夠在訓(xùn)練過程中根據(jù)特征序列信息的重要程度賦予權(quán)重值, 選擇性忽略非重要信息,最大化相關(guān)向量的貢獻(xiàn)。 為使模型更好獲取輸入序列中不同位置的重要性, 在BiLSTM層的基礎(chǔ)上添加注意力層提高網(wǎng)絡(luò)對關(guān)鍵信息的感知和利用能力。BiLSTM-Attention模塊結(jié)構(gòu)如圖7所示。
2 多模態(tài)情感識別實驗
2.1 數(shù)據(jù)集
實驗數(shù)據(jù)集選用公開的多模態(tài)情感數(shù)據(jù)集CH-SIMS[32]和CMU-MOSI[33]。CH-SIMS數(shù)據(jù)集取材自60部電影、電視劇與綜藝節(jié)目,包括2 281個視頻片段。每個視頻片段中的情感狀態(tài)由5個人給予標(biāo)注,以平均標(biāo)注結(jié)果作為該片段的情緒狀態(tài)。CMU-MOSI數(shù)據(jù)集包含YouTube上收集的90個視頻,并將其人工劃分為2 199個視頻片段。其中,CH-SIMS數(shù)據(jù)集的情緒狀態(tài)分為消極、中性和積極3種(對應(yīng)標(biāo)簽0、1、2),CMU-MOSI數(shù)據(jù)集的情緒狀態(tài)分為消極和積極2種(對應(yīng)標(biāo)簽0、1)。同時,將數(shù)據(jù)集劃分訓(xùn)練集、驗證集和測試集。數(shù)據(jù)集信息如表1所示。
2.2 參數(shù)設(shè)置與評估指標(biāo)
實驗基于TensorFlow深度學(xué)習(xí)框架進(jìn)行模型搭建,在NF5468型24*GPU服務(wù)器上進(jìn)行模型訓(xùn)練。訓(xùn)練中采用SGD作為網(wǎng)絡(luò)優(yōu)化函數(shù),LeakRelu作為激活函數(shù)。訓(xùn)練時的Batch size設(shè)置為32,Epoch=1 000,學(xué)習(xí)率為1e-4,LSTM層的隱藏層單元數(shù)量為128。為防止網(wǎng)絡(luò)在訓(xùn)練中出現(xiàn)過擬合現(xiàn)象,在BiLSTM-Attention層后使用P=0.5的Dropout作為補償。
本文采用了準(zhǔn)確率(Accuracy,式中簡記RAcc)和F1值(F1-score,式中簡記F1)作為模型整體性能的評估指標(biāo)。具體計算如式(13)和(14)所示。
式中:NTP表示實際與預(yù)測均為正的樣本數(shù);NFP表示實際為負(fù)但預(yù)測為正的樣本數(shù);NTN表示實際與預(yù)測均為負(fù)的樣本數(shù);NFN表示實際為正但預(yù)測為負(fù)的樣本數(shù)。
2.3 組合方案討論
為驗證提出的多模態(tài)情感框架中采用的模態(tài)組合方式的有效性,本文共討論了4種(AT-V、AV-T、TV-A、A-T-V)模態(tài)組合方案,如圖8所示。
為保證實驗的可靠度,4組實驗均在CH-SIMS和CMU-MOSI數(shù)據(jù)集上進(jìn)行驗證且訓(xùn)練超參數(shù)保持一致,實驗結(jié)果如表2所示。其中,Acc-2和Acc-3分別表示二分類和三分類的準(zhǔn)確率。通過表2可以看出,方案1中的模態(tài)組合AT-V在2類數(shù)據(jù)集上都取得比另外3種方案更好的識別效果。其中,方案1在CH-SIMS上的Acc-3、F1分別達(dá)到了96.94%、96.67%;在CMU-MOSI上分別達(dá)到97.73%和97.52%。表明本文采用的語音和文本先進(jìn)行特征融合是最優(yōu)的三模態(tài)組合方式。
2.4 消融實驗
2.4.1 融合方式消融實驗
在確定2.3節(jié)中方案1為最優(yōu)的三模態(tài)組合(AT-V)后,為驗證本文提出的交叉注意力融合模塊(CAF)的優(yōu)勢,進(jìn)一步將方案1中的語音和文本特征融合的方式由Concat分別替換為Self-Attention[34]和CAF并進(jìn)行消融實驗。其中,Concat表示不添加注意力的簡單特征拼接,Self-Attention表示自注意力融合方式,其強(qiáng)調(diào)相關(guān)特征的組成部分。實驗結(jié)果如表3所示。
通過表3可以看出,在引入了交叉注意力后,該模型在2類數(shù)據(jù)集上的評估指標(biāo)均得到了顯著的提升。在CH-SIMS數(shù)據(jù)集上,Acc-3和F1值分別達(dá)到97.82%和97.33%;在CMU-MOSI數(shù)據(jù)集上,Acc-2和F1值分別達(dá)到98.18%和97.87%。相對于簡單的特征拼接(Concat)的融合方式,自注意力(Self-Attention)融合方法雖在一定程度提高了系統(tǒng)的性能,凸顯了相關(guān)的特征組成部分,但是其計算方式較為復(fù)雜,增加了模型的復(fù)雜性。相對于自注意力融合,由于交叉注意力融合(CAF)機(jī)制通過利用A-T特征之間的相互關(guān)聯(lián)性,且計算方式更為簡便,有效地捕獲了2種模態(tài)的互補性,進(jìn)一步提高了模型性能。以上結(jié)果符合本文的預(yù)期設(shè)想,證明了提出的交叉注意力能夠更好地利用語音和文本間的特征互補關(guān)系,進(jìn)一步提高特征融合的效果。
2.4.2 BiLSTM-Attention模塊消融實驗
為驗證本文利用的BiLSTM-Attention模塊的作用,做了3組對比實驗。①FC:語音、文本與表情3種模態(tài)進(jìn)行特征融合后輸入到全連接層輸出;②LSTM:在特征融合后通過LSTM網(wǎng)絡(luò)輸出;③BiLSTM:特征融合后通過雙向LSTM輸出。實驗結(jié)果如表4所示。
從表4可以看出,在以上4種模型對比實驗結(jié)果中,本文的BiLSTM-Attention模塊在Acc和F1值上均取得了最優(yōu)。在CH-SIMS數(shù)據(jù)集上較其他3種模型至少高出了0.004 5和0.001 5;在CMU-MOSI數(shù)據(jù)集上至少高出了0.004 5和0.002 2。通過以上不同模型的對比實驗結(jié)果可知,本文采用的BiLSTM與Attention相結(jié)合的方法有助于更好地實現(xiàn)對多模態(tài)情感的分析和預(yù)測,進(jìn)一步表明了該網(wǎng)絡(luò)模塊對多模態(tài)情感模型的重要性。
2.4.3 模態(tài)消融實驗
為驗證本文提出的網(wǎng)絡(luò)模型的適用性,在CH-SIMS數(shù)據(jù)集分別進(jìn)行了單模態(tài)、雙模態(tài)及三模態(tài)7種組合的消融實驗。具體的消融實驗結(jié)果如表5所示。
通過表5可以觀察到三模態(tài)的Acc-3和F1指標(biāo)均優(yōu)于單模態(tài)和雙模態(tài),效果最好。在單模態(tài)情感識別實驗中,表情模態(tài)信息預(yù)測真實情感能力最強(qiáng),Acc-3達(dá)到87.81%,F(xiàn)1達(dá)到87.26%。在雙模態(tài)情感識別實驗中,A+V組合效果最好,Acc-3、F1分別達(dá)到95.20%、94.64%,T+V和T+A次之。心理學(xué)家Mehrabian的研究發(fā)現(xiàn),人們在日常生活中的情感信息主要是通過表情與語言傳達(dá)的[35],這也與消融實驗中A+V模態(tài)組合的實驗結(jié)果相符。以上的消融實驗不僅驗證了利用語音、文本和表情進(jìn)行多模態(tài)情感識別的必要性,也證明了本文提出的引入CAF思想的多模態(tài)情感融合方法的可行性和有效性。
2.5 對比實驗
本節(jié)將提出的多模態(tài)模型與目前多種經(jīng)典的情感模型進(jìn)行對比,基線模型介紹如下。
EF-LSTM[10]:早期融合的LSTM模型。首先拼接3種模態(tài)的特征向量,然后利用LSTM對拼接后的特征進(jìn)行編碼。
LF-LSTM[10]:晚期融合的LSTM模型。首先LSTM編碼3個模態(tài)特征向量,然后結(jié)合LSTM最后一層的隱層向量構(gòu)成多模態(tài)的特征表示。
MAG-BERT[36]:多模態(tài)自適應(yīng)門模型。通過提出一種多模態(tài)自適應(yīng)門機(jī)制(MAG),使BERT和XLNet能夠在微調(diào)過程中接受多模態(tài)數(shù)據(jù)的輸入。
MuIT[14]:多模態(tài)Transformer模型。通過考慮不同模態(tài)之間的時序依賴關(guān)系,實現(xiàn)在非對齊數(shù)據(jù)集上的跨模態(tài)交互。
MMIM[37]:多模態(tài)分層互信息最大化框架。在多模態(tài)分析任務(wù)中引入互信息理論,最大化輸入級和融合級特征表征的互信息。
MISA[38]:模態(tài)不變和模態(tài)特定表征框架。針對不同模態(tài)學(xué)習(xí)模態(tài)不變和模態(tài)特定的特征表示,對不同種類的表示向量提出分布相似性損失、重建損失、正交損失及任務(wù)預(yù)測損失。
Self-MM[15]:自監(jiān)督多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)。通過一種基于自監(jiān)督策略的標(biāo)簽生成模塊獲取單模態(tài)表征,并在訓(xùn)練階段設(shè)計一種平衡不同任務(wù)損失的權(quán)重調(diào)整策略。
CMFIB[39]:跨模態(tài)融合與信息瓶頸模型。利用互信息估計模塊優(yōu)化多模態(tài)表示向量與真實標(biāo)簽之間的互信息下限,最小化輸入數(shù)據(jù)與多模態(tài)表示向量間的互信息。
經(jīng)過多次對比實驗,在2類數(shù)據(jù)集上和其他基線模型的評估指標(biāo)對比結(jié)果如表6所示。
由表6可知,本文提出的模型在Acc和F1值2類評估指標(biāo)上要優(yōu)于對比的基線模型,尤其在CMU-MOSI數(shù)據(jù)集上表現(xiàn)更好,Acc-2和F1指標(biāo)比最優(yōu)基線模型分別提升了0.116 2和0.113 7;在CH-SIMS數(shù)據(jù)集上,Acc-3和F1值比最優(yōu)基線模型分別提升了0.175 4和0.170 6。該結(jié)果表明,本文設(shè)計的特征提取網(wǎng)絡(luò)以及交叉注意力機(jī)制等組件能夠有效地挖掘模態(tài)間的特征關(guān)系,增強(qiáng)模態(tài)間的相互依賴性。這對于多模態(tài)數(shù)據(jù)的融合和各項評估指標(biāo)的提升產(chǎn)生了顯著效果。
在上述基線模型中,EF-LSTM和LF-LSTM效果表現(xiàn)最差。這是因為2種模型直接拼接3種特征,保留了大量噪聲,無法篩選出重要信息。本文的注意力機(jī)制能夠?qū)﹃P(guān)鍵信息進(jìn)行加權(quán)處理,增強(qiáng)其顯著性,進(jìn)而提升模型的性能。與MuIT和MAG-BERT相比,本文的模型的Acc指標(biāo)在CH-SIMS上至少提升了約21個百分點,在CMU-MOSI上至少提升了約14個百分點。MuIT在計算模態(tài)間的依賴關(guān)系時,未考慮上下文信息,且網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜。MAG-BERT雖較MuIT有一定的提升,但在預(yù)訓(xùn)練或微調(diào)過程中需要大量的多模態(tài)數(shù)據(jù),可能會導(dǎo)致模型計算困難。本文模型在情感計算時通過利用多尺度卷積核和BiLSTM網(wǎng)絡(luò),降低了計算量并保持了上下文時序相關(guān)性,提高了計算效率。
與MMIM和MISA相比,本文模型采用的交叉注意力融合機(jī)制更加適用于多模態(tài)識別任務(wù),在有效利用不同模態(tài)互補特性的同時增強(qiáng)了模態(tài)間的相關(guān)性。與Self-MM和CMFIB相比,所提出的方法在2類數(shù)據(jù)集的評估指標(biāo)上表現(xiàn)出色,取得了較好的效果。Self-MM在任務(wù)間特征共享方面容易過擬合某些任務(wù),可能導(dǎo)致其性能的下降。CMFIB在情感分析時只能捕捉到變量之間的關(guān)聯(lián)性,難以充分捕捉模態(tài)的深層情感特征。本文設(shè)計的Pconv模塊利用并行架構(gòu)和特定網(wǎng)絡(luò)層降低了過擬合的風(fēng)險,并有效提取了深層次的特征。
3 結(jié)語
針對當(dāng)前多模態(tài)情感模型存在識別精度低等問題,本文提出了一種基于語音、文本和表情的多模態(tài)情感識別算法。該模型由Sfen網(wǎng)絡(luò)、Pconv模塊和改進(jìn)的Inception-ResnetV2網(wǎng)絡(luò)提取多模態(tài)特征,利用交叉注意力融合機(jī)制強(qiáng)化語音-文本雙模態(tài)的關(guān)聯(lián)性,并通過BiLSTM-Attention模塊實現(xiàn)對情感的預(yù)測和分類。在CH-SIMS和CMU-MOSI數(shù)據(jù)集上的實驗表明,該模型可以更好地提取模態(tài)特征并進(jìn)行特征融合,顯著提高情感識別的精度。接下來本研究將進(jìn)一步細(xì)化情感類別,并探討在細(xì)粒度識別任務(wù)下的多模態(tài)融合算法的架構(gòu)設(shè)計。
參考文獻(xiàn)
[1] 李霞, 盧官明, 閆靜杰, 等. 多模態(tài)維度情感預(yù)測綜述[J]. 自動化學(xué)報, 2018, 44(12): 2142-2159.
LI X, LU G M, YAN J J, et al. A review of multimodal dime-nsional sentiment prediction[J]. Journal of Auctomatica Sinica, 2018, 44(12): 2142-2159.
[2] RISH I. An empirical study of the naive Bayes classifier [J].Journal of Universal Computer Science, 2001, 1(2):127.
[3] 趙健, 周莉蕓, 武孟青, 等. 基于人工智能的抑郁癥輔助診斷方法[J].西北大學(xué)學(xué)報(自然科學(xué)版), 2023, 53(3): 325-335.
ZHAO J, ZHOU L Y, WU M Q, et al. Assistant diagnosis method of depression based on artificial intelligence [J]. Journal of Northwest University (Natural Science Edition), 2023, 53(3): 325-335.
[4] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[5] ELMAN J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.
[6] MAJUMDER N, HAZARIKA D, GELBUKH A, et al. Multimodal sentiment analysis using hierarchical fusion with context modeling[J]. Knowledge-Based Systems, 2018, 161: 124-133.
[7] XU D L, TIAN Z H, LAI R F, et al. Deep learning based emotion analysis of microblog texts[J]. Information Fusion, 2020, 64: 1-11.
[8] 鄭劍, 鄭熾, 劉豪, 等. 融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的面部表情識別[J]. 計算機(jī)應(yīng)用研究, 2022, 39(3): 889-894.
ZHENG J, ZHENG C, LIU H, et al. Deep convolutional neural network fusing local feature and two-stage attention weight learning for facial expression recognition[J]. Application Research of Computers, 2022, 39(3): 889-894.
[9] DUTTA K, SARMA K K. Multiple feature extraction for RNN-based Assamese speech recognition for speech to text conversion application[C]∥2012 International Conference on Communications, Devices and Intelligent Systems. Kolkata: IEEE, 2012: 600-603.
[10]HOU M, TANG J J, ZHANG J H, et al. Deep multimodal multilinear fusion with high-order polynomial pooling[C]∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc.,2019:12156-12166.
[11]ZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1103-1114.
[12]LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: Association for Computational Linguistics, 2018: 2247-2256.
[13]ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 5634-5641.
[14]TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[J].Proceedings of the? Conference? Association for Computational Linguistics Meeting, 2019, 2019: 6558-6569.
[15]YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12): 10790-10797.
[16]ZHAO J, ZHANG M, HE C, et al. A novel facial attractiveness evaluation system based on face shape, facial structure features and skin[J]. Cognitive Neurodynamics, 2020, 14(5): 643-656.
[17]賈寧, 鄭純軍. 融合音頻、文本、表情動作的多模態(tài)情感識別[J]. 應(yīng)用科學(xué)學(xué)報, 2023, 41(1): 55-70.
JIA N, ZHENG C J. Multimodal emotion recognition by fusing audio, text, and expression-action[J]. Journal of Applied Sciences, 2023, 41(1): 55-70.
[18]WANG Y Y, GU Y, YIN Y F, et al. Multimodal transformer augmented fusion for speech emotion recognition[J]. Frontiers in Neurorobotics, 2023, 17: 1181598.
[19]焦亞萌, 周成智, 李文萍, 等. 融合多頭注意力的VGGNet語音情感識別研究[J]. 國外電子測量技術(shù), 2022, 41(1): 63-69.
JIAO Y M, ZHOU C Z, LI W P, et al. Research on speech emotion recognition with VGGNet incorporating multi-headed attention [J]. Foreign Electronic Measurement Technology, 2022, 41(1): 63-69.
[20]ZHANG Y M, SUN M H, REN Y, et al. Sentiment analysis of sina weibo users under the impact of super typhoon lekima using natural language processing tools: A multi-tags case study[J]. Procedia Computer Science, 2020, 174: 478-490.
[21]劉亞姝, 侯躍然, 嚴(yán)寒冰. 基于異質(zhì)信息網(wǎng)絡(luò)的惡意代碼檢測[J]. 北京航空航天大學(xué)學(xué)報, 2022, 48(2): 258-265.
LIU Y S, HOU Y R, YAN H B. Malicious code detection based on heterogeneous information networks[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(2): 258-265.
[22]邱世振, 白靖文, 張晉行, 等. 基于六軸機(jī)械臂驅(qū)動的微波球面掃描成像系統(tǒng)[J]. 電子測量與儀器學(xué)報, 2023, 37(4): 98-106.
QIU S Z, BAI J W, ZHANG J X, et al. Microwave spherical scanning imaging system driven by six-axis manipulator [J]. Journal of Electronic Measurement and Instrumentation, 2023, 37(4): 98-106.
[23]KU H C, DONG W. Face recognition based on MTCNN and convolutional neural network[J]. Frontiers in Signal Processing, 2020, 4(1): 37-42.
[24]付而康, 周佳玟, 姚智, 等. 基于機(jī)器視覺識別的戶外環(huán)境情緒感受測度研究[J]. 景觀設(shè)計學(xué)(中英文), 2021, 9(5): 46-59.
FU E K, ZHOU J C, YAO Z, et al. A study on the measurement of emotional feelings in outdoor environments based on machine vision recognition[J]. Landscape Architecture Frontiers, 2021, 9(5): 46-59.
[25]ZHANG K, SUN M, HAN T X, et al. Residual networks of residual networks: Multilevel residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(6): 1303-1314.
[26]DING W, HUANG Z Y, HUANG Z K, et al. Designing efficient accelerator of depthwise separable convolutional neural network on FPGA[J]. Journal of Systems Architecture, 2019, 97(C): 278-286.
[27]梁宏濤, 劉碩, 杜軍威, 等. 深度學(xué)習(xí)應(yīng)用于時序預(yù)測研究綜述[J]. 計算機(jī)科學(xué)與探索, 2023, 17(6): 1285-1300.
LIANG H T, LIU S, DU J W, et al. Research review on application of deep learning to time series prediction [J].Journal of Frontiers of Computer Science and Technology, 2023, 17(6): 1285-1300.
[28]焦義, 徐華興, 毛曉波, 等. 融合多尺度特征的腦電情感識別研究[J]. 計算機(jī)工程, 2023, 49(5): 81-89.
JIAO Y, XU H X, MAO X B, et al. Research on EEG emotion recognition by fusing multi-scale features[J]. Computer Engineering, 2023, 49(5): 81-89.
[29]XU Y R, SU H, MA G J, et al. A novel dual-modal emotion recognition algorithm with fusing hybrid features of audio signal and speech context[J]. Complex & Intelligent Systems, 2023, 9(1): 951-963.
[30]王蘭馨, 王衛(wèi)亞, 程鑫. 結(jié)合Bi-LSTM-CNN的語音文本雙模態(tài)情感識別模型[J]. 計算機(jī)工程與應(yīng)用, 2022, 58(4): 192-197.
WANG L X, WANG W Y, CHENG X. Combined Bi-LSTM-CNN for speech-text bimodal emotion recognition model[J]. Computer Engineering and Applications, 2022, 58(4): 192-197.
[31]祁宣豪, 智敏. 圖像處理中注意力機(jī)制綜述[J].計算機(jī)科學(xué)與探索,2024,18(2):345-362.
QI X H, ZHI M. A review of attention mechanisms in image processing [J].Journal of Frontiers of Computer Science and Technology, 2024,18(2):345-362.
[32]YU W M, XU H, MENG F P, et al. CH-SIMS: A Chinese multimodal sentiment analysis dataset with fine-grained annotation of modality[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 3718-3727.
[33]ZADEH A, ZELLERS R, PINCUS E, et al. MOSI: Multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos[EB/OL].(2016-08-12)[2023-09-25].http:∥arxiv.org/abs/1606.06259.
[34]ZHANG X C, QIU X P, PANG J M, et al. Dual-axial self-attention network for text classification[J]. Science China Information Sciences, 2021, 64(12): 80-90.
[35]WANG Y, SONG W, TAO W, et al. A systematic review on affective computing: Emotion models, databases, and recent advances[J]. Information Fusion, 2022, 83/84: 19-52.
[36]RAHMAN W, HASAN M K, LEE S W, et al. Integrating multimodal information in large pretrained transformers[J].Proceedings of the Conference Association for Computational Linguistics? Meeting,? 2020, 2020: 2359-2369.
[37]HAN W, CHEN H, PORIA S. Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis[EB/OL].(2021-09-16)[2023-09-25].http:∥arxiv.org/abs/2109.00412.
[38]HAZARIKA D, ZIMMERMANN R, PORIA S. MISA: Modality-invariant and-specific representations for multimodal sentiment analysis[C]∥Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1122-1131.
[39]程子晨, 李彥, 葛江煒, 等. 利用信息瓶頸的多模態(tài)情感分析[J]. 計算機(jī)工程與應(yīng)用, 2024, 60(2):137-146.
CHENG Z C, LI Y, GE J W, et al. Multi-modal sentiment analysis using information bottleneck [J].Computer Engineering and Applications, 2024, 60(2):137-146.