基于輔助模態(tài)監(jiān)督訓(xùn)練的情緒識別神經(jīng)網(wǎng)絡(luò)

2020-11-17 09:43鄒紀云許云峰

河北科技大學(xué)學(xué)報 2020年5期

鄒紀云許云峰

摘要：為了解決多模態(tài)數(shù)據(jù)中數(shù)據(jù)樣本不平衡的問題，利用資源豐富的文本模態(tài)知識對資源貧乏的聲學(xué)模態(tài)建模，構(gòu)建一種利用輔助模態(tài)間相似度監(jiān)督訓(xùn)練的情緒識別神經(jīng)網(wǎng)絡(luò)。首先，使用以雙向門控單元為核心的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，分別學(xué)習(xí)文本與音頻模態(tài)的初始特征向量;其次，使用SoftMax函數(shù)進行情緒識別預(yù)測，同時使用一個全連接層生成2個模態(tài)對應(yīng)的目標特征向量;最后，利用該目標特征向量計算彼此之間的相似度輔助監(jiān)督訓(xùn)練，提升情緒識別的性能。結(jié)果表明，該神經(jīng)網(wǎng)絡(luò)可以在IEMOCAP數(shù)據(jù)集上進行情緒4分類，實現(xiàn)了826%的加權(quán)準確率和813%的不加權(quán)準確率。研究結(jié)果為人工智能多模態(tài)領(lǐng)域的情緒識別以及輔助建模提供了參考依據(jù)。

關(guān)鍵詞：計算機神經(jīng)網(wǎng)絡(luò);情緒識別;有監(jiān)督訓(xùn)練;深度學(xué)習(xí);多模態(tài)

中圖分類號：TP31113 ? 文獻標識碼：A ? doi：10.7535/hbkd.2020yx05006

Abstract：In order to solve the problem of imbalance of data samples in multi-modal data， the resource-rich text modal know-ledge was used to model the resource-poor acoustic mode， and an emotion recognition neural network was constructed by using the similarity between auxiliary modes to supervise training. Firstly， the neural network with bi-GRU as the core was used to learn the initial feature vectors of the text and acoustic modalities. Secondly， the SoftMax function was used for emotion recognition prediction， and simultaneously a fully connected layer was used to generate the target feature vectors corresponding to the two modalities. Finally， the target feature vector assisted the supervised training by calculating the similarity between each other to improve the performance of emotion recognition. The results show that this neural network can perform four emotion classifications on the IEMOCAP data set to achieve a weighted accuracy of 82.6% and an unweighted accuracy of 81.3%. The research result provides a reference and method basis for emotion recognition and auxiliary modeling in the multi-modal field of artificial intelligence.

Keywords：computer neural network; emotion recognition; supervised training; deep learning; multimodal

情緒通常由組合的多模態(tài)信息表示[1-2]。在表達不同情緒時，每個模態(tài)信息具有不同的比例。例如，驚奇和憤怒往往包含較少的文本模態(tài)信息，而聲學(xué)模態(tài)信息在識別這2種情緒方面更為重要和有效。針對多模態(tài)情緒識別問題，本文著重從文本和聲學(xué)2種模態(tài)進行情緒識別研究。

提取不同模態(tài)特征并尋找互補信息進行融合是解決模態(tài)信息缺失、提高多模態(tài)情緒識別性能的關(guān)鍵。目前已有的表示方法通常分為聯(lián)合表示和協(xié)調(diào)表示。聯(lián)合表示最簡單的例子是不同模態(tài)特征的直接組合。DMELLO等[3]和PORIA等[4]利用雙向長期短期記憶網(wǎng)絡(luò)分別提取不同模態(tài)特征，控制它們在相同尺寸后進行拼接融合。在此基礎(chǔ)上，PORIA等[5]又引入了注意力機制，進一步改進了融合方法。在協(xié)調(diào)表示方法上，GHOSAL等[6]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的多模態(tài)注意力框架，該框架利用上下文信息進行話語水平的情感預(yù)測。LEE等[7]利用可訓(xùn)練的注意力機制學(xué)習(xí)這些形態(tài)特征向量之間的非線性相關(guān)性，有助于在時域中保留數(shù)據(jù)的情緒信息，限制不同模態(tài)之間的信息協(xié)調(diào)表示[1]。PAN等[8]提出了一種聯(lián)合嵌入模型，探索了視頻模態(tài)與文本模態(tài)語義之間的關(guān)系。XU等[9]將聯(lián)合空間中的深層視頻模型和合成語言模型的輸出距離最小化，共同更新這2個模型，提高了情緒識別任務(wù)性能。除表示方法外，多任務(wù)聯(lián)合學(xué)習(xí)已廣泛用于情感識別領(lǐng)域。AKHTAR等[10]提出了一個深度多任務(wù)學(xué)習(xí)框架，該框架共同執(zhí)行情感和情緒分析。LI等[11]利用傳統(tǒng)的機器學(xué)習(xí)方法對情緒進行分類，使用文本模態(tài)提取情緒誘因。XIA等[12-13]提取文檔中潛在的情緒和誘因，進一步提出了一種基于循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)分層網(wǎng)絡(luò)的聯(lián)合情緒-誘因提取框架。

這些代表性的融合方法在很大程度上依賴于有效的輸入功能，如果缺失了某些模態(tài)信息，則無法有效完成情緒識別任務(wù)。同時，多任務(wù)聯(lián)合學(xué)習(xí)的子任務(wù)大多通過損失函數(shù)直接進行交互，缺乏進一步捕獲子任務(wù)之間相關(guān)信息的方法。

本文并沒有使用統(tǒng)一的框架學(xué)習(xí)不同模態(tài)信息的特征表示，而是針對不同模態(tài)構(gòu)建了不同的神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)表示，為了更有效地利用豐富的模態(tài)資源，提出了一種使用輔助模態(tài)監(jiān)督訓(xùn)練的多任務(wù)情緒識別模型，通過最大化與輔助模態(tài)的相似性，提高情感識別任務(wù)的性能。

1 模態(tài)表示及多任務(wù)學(xué)習(xí)

11 模態(tài)表示

在文本模態(tài)中，使用word2vec預(yù)訓(xùn)練詞典進行嵌入，并透過雙向遞歸神經(jīng)網(wǎng)絡(luò)獲取包含上下文信息的高階特征仍然是一種主流且有效的方法。JIAO等[14]使用分層門控遞歸單元網(wǎng)絡(luò)在話語級別探索文本模態(tài)的特征表示。在聲學(xué)模態(tài)中，本文將現(xiàn)有基于特征工程的特征表示分為2種：局部特征和全局特征，認為語音片段內(nèi)的局部特征信號是穩(wěn)定的，全局特征是通過測量多個統(tǒng)計數(shù)據(jù)（例如平均、局部特征的偏差）進行計算。ZHOU等[15]利用openSMILE工具包[16]提取聲學(xué)的全局特征，每個聲音片段都會獲得1 582個統(tǒng)計聲學(xué)特征。LI等[17]使用LibROSA語音工具包[18]，從原始語音中以25 ms幀窗口大小和10 ms幀間隔提取聲音的局部特征，最終提取了41維幀級聲學(xué)局部特征。同時考慮這2種特征的原因是全局特征缺少時間信息，且在2個片段之間缺乏依存關(guān)系。根據(jù)不同特征的特點，本文使用深度學(xué)習(xí)方法將它們?nèi)诤显谝黄穑垣@得更有效的聲學(xué)模態(tài)表示信息。

12 多任務(wù)學(xué)習(xí)

AKHTAR等[10]提出了基于上下文級別的模態(tài)注意框架，用于同時預(yù)測多模態(tài)樣本的情感和表達的情緒。在分類任務(wù)設(shè)置上，情感分類分支包含用于分類的SoftMax層，而對于情緒分類，每種情緒分別使用Sigmoid層。XU等[9]提出了一個解決情緒誘因提取（ECPE）任務(wù)的2步框架，該框架執(zhí)行獨立的情緒提取或者誘因提取，進行情緒-誘因配對和過濾。為了進一步獲得任務(wù)之間可以相互促進的信息，本文提出將計算聲學(xué)和文本模態(tài)之間的相似度作為輔助任務(wù)的方法，以便將一個任務(wù)的預(yù)測值直接參與到另一個任務(wù)中。

2 問題定義

4.4 訓(xùn)練細節(jié)和參數(shù)設(shè)置

采用PyTorch框架實現(xiàn)整體模態(tài)相似性和情緒識別多任務(wù)模型。在每個訓(xùn)練時期開始時隨機打亂訓(xùn)練集，在提取文本和聲音模態(tài)特征的過程中，將最后1個維度參數(shù)d設(shè)置為100，當(dāng)在句子級別上進行上下文信息學(xué)習(xí)時，雙向GRU隱藏狀態(tài)的維度設(shè)置為300，最后1個完全連接層包含100個神經(jīng)元。聲學(xué)模態(tài)的不同特征是在模態(tài)內(nèi)進行拼接的，每個聲學(xué)特征模型的隱藏狀態(tài)尺寸設(shè)置為50，所有GRU模塊的層數(shù)設(shè)置為1。采用Adam函數(shù)[27]作為優(yōu)化器，將學(xué)習(xí)率設(shè)置為1×10-4。終止訓(xùn)練的條件是驗證集的loss值連續(xù)10輪不再下降。

4.5 對比基線

將本文模型的各個模塊與當(dāng)前最新的4個基線模型進行比較，4個模型如下。

1）bcLSTM：可以包含句子級雙向上下文信息LSTM，使用CNN提取的多模態(tài)特征。

2）MDNN：半監(jiān)督的多路徑生成神經(jīng)網(wǎng)絡(luò)，通過openSMILE提取的聲學(xué)特征。

3）HiGRU：一個分層的門控循環(huán)單元（HiGRU）框架，文本模態(tài)特征由較低級別的GRU提取。

4）HFFN：使用雙向LSTM，直接連接不同的局部交互作用，并將2個級別的注意力機制與CNN提取的多模態(tài)特征整合在一起。

4.6 實驗結(jié)果與討論

1）將使用輔助模態(tài)監(jiān)督訓(xùn)練情緒識別神經(jīng)網(wǎng)絡(luò)的性能分析結(jié)果在IEOMCAP和MOSI數(shù)據(jù)集上與4個基線進行比較，如表3所示。

由表3可以看出，本文模型在4個評估指標上均優(yōu)于其他方法。其中聲學(xué)模態(tài)未加權(quán)準確率在IEMOCAP數(shù)據(jù)集上有顯著改善，文本模態(tài)的WA和UWA也均有所改善，分別實現(xiàn)了0.5%和0.7%的提升。在CMU-MOSI數(shù)據(jù)集上，文本和聲學(xué)模態(tài)的F1值分別比最高基準提高0.7%和0.3%。基于以上實驗結(jié)果，分析如下：①本文模型對提高精度有一定的作用，聲學(xué)模態(tài)的改進效果比文本模態(tài)更勝一籌。 CMU-MOSI數(shù)據(jù)集是一種情感分類任務(wù)，在CMU-MOSI數(shù)據(jù)集上2種模態(tài)的F1值已得到改善，表明獲得了更加平衡的識別結(jié)果，在避免大多數(shù)預(yù)測都只具有一種情感的情況下提高了準確性。此外，文本模態(tài)似乎對聲學(xué)模態(tài)更有幫助。②本文模型在IEMOCAP數(shù)據(jù)集所有模態(tài)上的性能都有所提高，但在CMU-MOSI數(shù)據(jù)集上卻沒有顯著提高。由于從YouTube抓取的CMU-MOSI數(shù)據(jù)集是從實際情況中獲得的，IEMOCAP數(shù)據(jù)集是基于演員的表演，因此，本文模型還需要改進對更多隱藏句子情感的識別。

2）對情緒識別任務(wù)和模態(tài)相似性任務(wù)的目標函數(shù)設(shè)置權(quán)重，分析權(quán)重對最終任務(wù)性能的影響，并通過權(quán)重參數(shù)λ進行調(diào)節(jié)。

首先，使用非端到端技術(shù)實現(xiàn)原始輸入模態(tài)和預(yù)測生成模態(tài)的融合，作為最終性能檢測方法。MSER模型訓(xùn)練后分別獲得預(yù)測模態(tài)（Apred，Tpred），預(yù)測生成模態(tài)用于替換模型測試階段中的原始輸入模態(tài)T或A之一。融合實驗（Apred+T，Tpred+A）的結(jié)果如圖3所示，通過混淆矩陣可以更加直觀地發(fā)現(xiàn)，聲學(xué)模態(tài)在得到預(yù)測生成的文本模態(tài)向量后，其性能得到了明顯改善。

其次，將文本模態(tài)和聲學(xué)模態(tài)情緒識別任務(wù)的目標函數(shù)權(quán)重μ設(shè)置為0.5，利用不同的情緒識別和模態(tài)相似性任務(wù)權(quán)重，分析對整體框架的影響，如圖4所示。本文使用的權(quán)重設(shè)置為01～05，其中水平軸代表權(quán)重，垂直軸代表情感識別任務(wù)的未加權(quán)準確性（UWA）。由圖4可知，當(dāng)權(quán)重為0.3時，文本模態(tài)和聲學(xué)模態(tài)的情緒識別性能最佳。綜上所述，設(shè)置計算出的模態(tài)相似度影響目標函數(shù)的任務(wù)，可以促進情緒識別任務(wù)性能的提高;情緒識別任務(wù)仍應(yīng)設(shè)置為權(quán)重較大的主要任務(wù)，情緒識別任務(wù)上的參數(shù)更新對整個框架具有較大的影響。

5 結(jié) 語

1）本文提出了一個模態(tài)相似度和情緒識別多任務(wù)框架，利用輔助模態(tài)監(jiān)督訓(xùn)練方法，解決了跨模態(tài)情緒識別過程中的一些缺陷。

2）使用非端到端方法完成了最終任務(wù)，大量實驗證明了該方法對情緒識別的有效性。

3）所提方法通過使用來自一種模態(tài)的知識對另一種模態(tài)進行建模，這種通過計算模態(tài)之間相似度擬合其他模態(tài)情緒分類的特征向量方法，可以以一種真正有效的方式利用不同模態(tài)之間的補充信息，實現(xiàn)了多模態(tài)數(shù)據(jù)相關(guān)性的更有效利用。

4）本文方法尚未構(gòu)建端到端模型，未來將繼續(xù)探索使用輔助模態(tài)的端到端方法，以實現(xiàn)在缺失某些模態(tài)情況下提高單個模態(tài)性能的目標。

參考文獻/References：

[1] BALTRUSAITIS T，AHUJA C，MORENCY L P.Multimodal machine learning：A survey and taxonomy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2019，41（2）：423-443.

[2] CHEN J. Natural Language Processing and Attentional-Based Fusion Strategies for Multimodal Sentiment Analysis[D]. London： Imperial College London， 2018.

[3] DMELLO S K， KORY J. A review and meta-analysis of multimodal affect detection systems[J]. ACM Computing Surveys， 2015， 47（3）： 1-36.

[4] PORIA S，CAMBRIA E，HAZARIKA D，et al.Context-dependent sentiment analysis in user-generated videos[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics（Volume 1：Long Papers）.[S.l.]： Association for Computational Linguistics，2017：873-883.

[5] PORIA S， CAMBRIA E， HAZARIKA D， et al. Multi-level multiple attentions for contextual multimodal sentiment analysis[C]//2017 IEEE International Conference on Data Mining（ICDM）. [S.l.]： IEEE， 2017： 1033-1038.

[6] GHOSAL D， AKHTAR M S， CHAUHAN D， et al. Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. [S.l.]： Association for Computational Linguistics，2018： 3454-3466.

[7] LEE C W，SONG K Y，JEONG J，et al.Convolutional Attention Networks for Multimodal Emotion Recognition From Speech and Text Data[EB/OL]. [2020-07-10]. https：//arxiv.org/abs/1805.06606.

[8] PAN Y W， MEI T， YAO T， et al. Jointly modeling embedding and translation to bridge video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.[S.l.]：[s.n.]， 2016： 4594-4602.

[9] XU R， XIONG C， CHEN W， et al. Jointly modeling deep video and compositional text to bridge vision and language in a unified framework[C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. [S.l.]：[s.n.]， 2015： 2346-2352.

[10] AKHTAR M S，CHAUHAN D S，GHOSAL D，et al.Multi-task Learning for Multi-modal Dmotion Recognition and Sentiment Analysis[EB/OL]. [2020-07-15]. https：//arxiv.org/abs/1905.05812.

[11] LI W Y， XU H. Text-based emotion classification using emotion cause extraction[J]. Expert Systems with Applications， 2014， 41（4）： 1742-1749.

[12] XIA R，DING Z X.Emotion-cause Pair Extraction：A New Task to Emotion Analysis in Texts[EB/OL]. [2020-07-15]. https：//arxiv.org/abs/1906.01267.

[13] XIA R，ZHANG M R，DING Z X.RTHN：A RNN-transformer Hierarchical Network for Emotion Cause Extraction[EB/OL].[2020-07-15]. https.//arxiv.org/abs/1906.01236.

[14] JIAO W X，YANG H Q，KING I，et al.HiGRU：Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition[EB/OL].[2020-07-15]. https：//arxiv.org/abs/1904.04446.

[15] ZHOU Suping， JIA Jia， WANG Qi，et al. Inferring emotion from conversational voice data： A semi-supervised multi-path generative neural network approach[C]// Thirty-Second AAAI Conference on Artificial Intelligence.[S.l.]：[s.n.]，2018：579-587.

[16] EYBEN F， WLLMER M， SCHULLER B. Opensmile： The munich versatile and fast open-source audio feature extractor[C]//Proceedings of the 18th ACM international conference on Multimedia. New York：ACM Press，2010： 1459-1462.

[17] LI R N，WU Z Y，JIA J，et al.Inferring user emotive state changes in realistic human-computer conversational dialogs[C]//2018 ACM Multimedia Conference on Multimedia Conference.New York：ACM Press，2018：136-144.

[18] MCFEE B，RAFFEL C，LIANG D W，et al.Librosa：Audio and music signal analysis in python[C]//Proceedings of the 14th Python in Science Conference.Austin： SciPy，2015：18-25.

[19] CHO K，VAN MERRIENBOER B，GULCEHRE C，et al.Learning Phrase Representations using RNN Encoder-decoder for Statistical Machine Translation[EB/OL].[2020-07-16]. https.//arxiv.org/abs/1406.1078.

[20] SLIZOVSKAIA O，GMEZ E，HARO G.A Case Study of Deep-learned Activations via Hand-crafted Audio Features[EB/OL].[2020-07-16]. https：//arxiv.org/abs/1907.01813.

[21] BADSHAH A M， AHMAD J， RAHIM N， et al. Speech emotion recognition from spectrograms with deep convolutional neural network[C]//2017 International Conference on Platform Technology and Service（PlatCon）. [S.l.]：IEEE， 2017： 1-5.

[22] BUSSO C，BULUT M，LEE C C，et al.IEMOCAP：Interactive emotional dyadic motion capture database[J].Language Resources and Evaluation，2008，42（4）：335-359.

[23] ZADEH A， ZELLERS R， PINCUS E， et al. Multimodal sentiment intensity analysis in videos： Facial gestures and verbal messages[J]. IEEE Intelligent Systems， 2016， 31（6）： 82-88.

[24] MIKOLOV T，CHEN K，CORRADO G，et al.Efficient Estimation of Word Representations in Vector Space[EB/OL]. [2020-07-07]. https：//arxiv.org/abs/1301.3781.

[25] ROZGIC V， ANANTHAKRISHNAN S， SALEEM S， et al. Ensemble of SVM trees for multimodal emotion recognition[C]//Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. [S.l.]： IEEE， 2012： 1-4.

[26] POWERS D M. Evaluation： From precision， recall and F-measure to ROC， informedness， markedness and correlation[J]. J Mach Learn Technol， 2011， 2（1）：37-63.

[27] KINGMA D P，BA J.Adam：A Method for Stochastic Optimization[EB/OL]. [2020-07-10]. https：//arxiv.org/abs/1412.6980.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于輔助模態(tài)監(jiān)督訓(xùn)練的情緒識別神經(jīng)網(wǎng)絡(luò)