国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SGD的決策級(jí)融合維度情感識(shí)別方法

2022-04-25 08:09:50胡新榮陳志恒劉軍平何儒漢
關(guān)鍵詞:語(yǔ)音模態(tài)決策

胡新榮,陳志恒,劉軍平,彭 濤,何儒漢,何 凱

(1.紡織服裝智能化湖北省工程研究中心 湖北 武漢 430200;2.湖北省服裝信息化工程技術(shù)研究中心 湖北 武漢 430200; 3.武漢紡織大學(xué) 計(jì)算機(jī)與人工智能學(xué)院 湖北 武漢 430200)

0 引言

實(shí)現(xiàn)人機(jī)之間高效、智能、和諧的交互需要計(jì)算機(jī)具備理解和分析人類情緒狀態(tài)的能力。由于概括人類情感存在復(fù)雜性,有效的情感識(shí)別仍然是一項(xiàng)艱巨的任務(wù),情感識(shí)別技術(shù)在其中扮演著重要的角色。人的情感狀態(tài)隨著時(shí)間動(dòng)態(tài)變化,并通過(guò)音頻信號(hào)、文本中的語(yǔ)義信息、面部表情、身體姿態(tài)以及生理信號(hào)等多種方式表現(xiàn)出來(lái)[1]。但是,僅依靠單模態(tài)信息來(lái)判斷情感狀態(tài)會(huì)發(fā)生混淆,情感識(shí)別性能不高。隨著機(jī)器學(xué)習(xí)算法的發(fā)展,可以充分利用多模態(tài)信息之間存在的關(guān)聯(lián)性和互補(bǔ)性,通過(guò)融合多模態(tài)特征來(lái)提高情感識(shí)別任務(wù)的預(yù)測(cè)性能。

多模態(tài)融合方法是情感識(shí)別任務(wù)中的一個(gè)重要環(huán)節(jié),如何更好地融合不同來(lái)源的數(shù)據(jù)形成一致的預(yù)測(cè)結(jié)果是目前面臨的挑戰(zhàn)。文獻(xiàn)[2]使用concatenate方法在不同網(wǎng)絡(luò)之間進(jìn)行串聯(lián),以實(shí)現(xiàn)離散情感識(shí)別。文獻(xiàn)[3]認(rèn)為該離散情感描述模型在時(shí)間軸上是非連續(xù)的,無(wú)法精準(zhǔn)描述情緒變化過(guò)程,且特征級(jí)融合方法無(wú)法針對(duì)不同模態(tài)特征選擇各自最合適的模型,因此提出一種兩階段的決策級(jí)融合方法:第一階段使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)分別對(duì)語(yǔ)音和文本特征進(jìn)行訓(xùn)練;第二階段將第一階段的輸出結(jié)果作為支持向量回歸(support vector regression,SVR)的輸入,進(jìn)行決策級(jí)融合。

然而,該多模態(tài)融合框架存在以下問(wèn)題:① 使用簡(jiǎn)單的LSTM很難訓(xùn)練出高質(zhì)量特征,需要在深度學(xué)習(xí)建模階段加強(qiáng)研究。② 需要在語(yǔ)音和文本模態(tài)的基礎(chǔ)上增加包含情感信息的非語(yǔ)言數(shù)據(jù),以提高情感識(shí)別的預(yù)測(cè)值。③ SVR可以有效地解決小樣本、高維、非線性等問(wèn)題,但對(duì)缺失數(shù)據(jù)問(wèn)題敏感且無(wú)法處理大樣本。針對(duì)上述問(wèn)題,本文將包含效價(jià)維、喚醒維和支配維三個(gè)維度的情感空間模型(please-arousal-dominance,PAD)作為情感描述模型[4],結(jié)合添加權(quán)重因子的多任務(wù)學(xué)習(xí)機(jī)制(multi-task learning,MTL)[5],使用深度學(xué)習(xí)模型分別對(duì)語(yǔ)音和文本特征進(jìn)行訓(xùn)練,利用2D-CNN對(duì)動(dòng)作捕捉(motion capture,Mocap)特征進(jìn)行訓(xùn)練,最后基于隨機(jī)梯度下降法(stochastic gradient descent,SGD)進(jìn)行建模并預(yù)測(cè)出情感識(shí)別結(jié)果。在IEMOCAP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于本文提出的LSTM+BiLSTM+CNN多模態(tài)情感識(shí)別框架,并使用基于SGD的決策級(jí)融合方法進(jìn)行情感識(shí)別,一致性相關(guān)系數(shù)(concordance correlation coecient, CCC)均值有所提升。

1 相關(guān)工作

在多模態(tài)情感識(shí)別領(lǐng)域中,離散情感描述模型和維度情感描述模型是廣泛使用的兩種模型。其中,離散情感描述模型使用形容詞標(biāo)簽將情感表示為獨(dú)立的情感類別[6-7],例如快樂(lè)、悲傷、憤怒、恐懼、厭惡和驚訝六種基本情感。文獻(xiàn)[8]提出一種深度雙循環(huán)編碼器模型,對(duì)語(yǔ)音和文本信息進(jìn)行編碼,并對(duì)特征進(jìn)行串聯(lián);文獻(xiàn)[9]提出一種跳躍注意力機(jī)制,經(jīng)過(guò)訓(xùn)練可以推斷不同模態(tài)之間的相關(guān)性并進(jìn)行融合。多模態(tài)情感識(shí)別領(lǐng)域的大多數(shù)研究只采用兩種模態(tài)進(jìn)行情感識(shí)別[10-11],而文獻(xiàn)[12]對(duì)三模態(tài)情感識(shí)別進(jìn)行了研究,首先使用3D-CNN、text-CNN和openSMILE技術(shù)分別對(duì)視覺(jué)、文本和語(yǔ)音模態(tài)進(jìn)行特征提取,然后使用把徑向基函數(shù)作為核函數(shù)的支持向量機(jī),對(duì)不同模態(tài)特征進(jìn)行特征級(jí)融合。

離散情感描述模型簡(jiǎn)單直觀,但存在以下不足:情感類別能夠表達(dá)的情感范圍有限;無(wú)法度量情感類別之間存在的高度相關(guān)性;無(wú)法描述情感完整的變化過(guò)程[6]。相比之下,維度情感描述模型可以彌補(bǔ)這些不足,該模型把情感看作是逐漸的、平滑的轉(zhuǎn)變,不同的情感映射到高維空間上的一個(gè)點(diǎn)。例如,PAD就是通過(guò)效價(jià)維、喚醒維和支配維三個(gè)連續(xù)維度將情感刻畫(huà)為一個(gè)多維信號(hào)。

目前,多模態(tài)情感識(shí)別領(lǐng)域的研究呈現(xiàn)出由離散情感描述模型轉(zhuǎn)向維度情感描述模型的趨勢(shì)[13-14]。文獻(xiàn)[15]提出一種帶有兩個(gè)參數(shù)的MTL,通過(guò)不同的方法對(duì)語(yǔ)音和文本數(shù)據(jù)進(jìn)行特征提取,然后利用LSTM模型對(duì)語(yǔ)音和文本特征進(jìn)行訓(xùn)練并進(jìn)行單模態(tài)情感識(shí)別,最后通過(guò)concatenate方法進(jìn)行網(wǎng)絡(luò)串聯(lián),實(shí)現(xiàn)雙模態(tài)維度情感識(shí)別。本文基于改進(jìn)的多模態(tài)情感識(shí)別框架和決策級(jí)融合方法,在IEMOCAP數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,通過(guò)分析效價(jià)維、喚醒維和支配維三個(gè)情感維度對(duì)應(yīng)的值以及CCC均值,對(duì)多模態(tài)維度情感識(shí)別展開(kāi)研究。

2 多任務(wù)學(xué)習(xí)機(jī)制(MTL)

MTL可以在學(xué)習(xí)過(guò)程中對(duì)多個(gè)損失函數(shù)進(jìn)行同時(shí)優(yōu)化,并利用多個(gè)相關(guān)任務(wù)中包含的信息來(lái)提高模型在各個(gè)任務(wù)中的泛化能力和性能。因此,本文采用一種可以同時(shí)預(yù)測(cè)效價(jià)維、喚醒維和支配維三個(gè)情感維度與其真實(shí)情感標(biāo)簽之間CCC的MTL方法。將CCC作為預(yù)測(cè)性能的評(píng)價(jià)指標(biāo),其計(jì)算公式為

(1)

其中:ρxy是x和y之間的Pearson系數(shù)相關(guān)性;σ是標(biāo)準(zhǔn)偏差;μ是平均值。

CCC評(píng)價(jià)指標(biāo)反映了預(yù)測(cè)值與真實(shí)值的協(xié)同變化關(guān)系和偏差,取值范圍為[-1,1]。相比Pearson相關(guān)系數(shù)和均方誤差,CCC能夠更好地反映預(yù)測(cè)值與真實(shí)值的吻合程度[6]。

將CCC損失函數(shù)最大化,以使預(yù)測(cè)值與真實(shí)值之間的一致性達(dá)到最大,效價(jià)維、喚醒維和支配維對(duì)應(yīng)損失函數(shù)的加權(quán)因子區(qū)間為[0.1,0.8],步長(zhǎng)為0.1,進(jìn)行36組線性搜索。

3 實(shí)驗(yàn)過(guò)程與結(jié)果分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)使用由南加州大學(xué)開(kāi)發(fā)的互動(dòng)式情感二元運(yùn)動(dòng)捕捉數(shù)據(jù)集IEMOCAP[16]。該數(shù)據(jù)集包含來(lái)自10位演員的視聽(tīng)數(shù)據(jù),共計(jì)12 h,是在男演員和女演員之間通過(guò)即興創(chuàng)作的話題進(jìn)行對(duì)話而錄制的,包括視頻、語(yǔ)音、Mocap和文本轉(zhuǎn)錄,使用的語(yǔ)言是美式英語(yǔ)。數(shù)據(jù)集中提供了情感類別標(biāo)簽和維度情感標(biāo)簽,本實(shí)驗(yàn)使用維度情感標(biāo)簽對(duì)情感狀態(tài)進(jìn)行分析,并對(duì)標(biāo)簽進(jìn)行歸一化處理,將標(biāo)簽分?jǐn)?shù)轉(zhuǎn)換為[-1,1]區(qū)間內(nèi)的浮點(diǎn)值。

使用說(shuō)話者相關(guān)條件下的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,分為訓(xùn)練集和測(cè)試集兩個(gè)部分,分別為6 400和2 039條,再將20%的訓(xùn)練數(shù)據(jù)作為驗(yàn)證集。每次實(shí)驗(yàn)重復(fù)20次,三個(gè)維度對(duì)應(yīng)的值以及CCC均值都取20次實(shí)驗(yàn)的平均值,以驗(yàn)證模型的泛化性。Batchsize設(shè)置為32,將RMSprop作為優(yōu)化器進(jìn)行訓(xùn)練,epoch最大值設(shè)為50,使用Early-Stopping功能,當(dāng)連續(xù)10次epoch沒(méi)達(dá)到更高的結(jié)果,停止訓(xùn)練。

在訓(xùn)練開(kāi)始之前,初始化固定隨機(jī)數(shù),以使每次運(yùn)行結(jié)果一致。實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)代碼用python語(yǔ)言編寫(xiě),深度學(xué)習(xí)模型由tensorflow和keras實(shí)現(xiàn),SVR和SGD回歸算法由scikit-learn工具包實(shí)現(xiàn),CPU為Xeon Gold系列5218。

3.2 語(yǔ)音情感識(shí)別

3.2.1特征提取 在交流過(guò)程中人們可以通過(guò)感知語(yǔ)音信號(hào)中的聲學(xué)線索,從中提取出所攜載的情感屬性。語(yǔ)音特征獨(dú)立于語(yǔ)言內(nèi)容之外,不會(huì)受到文化差異的影響[17]。語(yǔ)音特征分為低級(jí)描述特征(low-level descriptors, LLDs)和高級(jí)統(tǒng)計(jì)特征(high-level statistical functions, HSFs)。實(shí)驗(yàn)中語(yǔ)音特征使用pyAudioAnalysis(pAA)特征集[18],pAA是一個(gè)開(kāi)源的python庫(kù),提供了音頻分析程序,包括特征提取、音頻信號(hào)分類和內(nèi)容可視化等。LLDs以幀為單位進(jìn)行特征提取,每幀總共提取34個(gè)特征,例如zero crossing rate, energy, entropy of energy等。以25 ms的窗口大小和10 ms的跳躍大小作為標(biāo)準(zhǔn)對(duì)幀進(jìn)行處理,用于提取語(yǔ)音特征的每條語(yǔ)音數(shù)據(jù)為16 kHz單通道,最長(zhǎng)的發(fā)聲用于定義幀邊距,沒(méi)有達(dá)到幀邊距的短發(fā)聲用0進(jìn)行填充。將LLDs在獨(dú)立的語(yǔ)句上進(jìn)行統(tǒng)計(jì), 包括均值和標(biāo)準(zhǔn)差,得到的HSFs作為語(yǔ)音模型的輸入。

3.2.2語(yǔ)音模型 首先使用批量歸一化,目的是對(duì)輸入數(shù)據(jù)進(jìn)行處理以加快網(wǎng)絡(luò)訓(xùn)練,然后添加LSTM層。語(yǔ)音模型由五層堆疊的LSTM組成,每層包含64個(gè)神經(jīng)元,接著添加Flatten層對(duì)數(shù)據(jù)進(jìn)行壓平,最后添加三個(gè)僅包含一個(gè)神經(jīng)元的Dense層,用來(lái)生成效價(jià)維(V)、喚醒維(A)和支配維(D)三個(gè)維度的連續(xù)值。

3.2.3實(shí)驗(yàn)結(jié)果 表1列出了語(yǔ)音單模態(tài)的實(shí)驗(yàn)結(jié)果。當(dāng)MTL對(duì)應(yīng)權(quán)重因子比例為0.5∶0.3∶0.2時(shí),CCC均值達(dá)到最高,為41.24%,與語(yǔ)音基線模型相比,提升1.64個(gè)百分點(diǎn)。該基線模型每層網(wǎng)絡(luò)包含256個(gè)神經(jīng)元,相比之下,本文構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)中使用更多的層數(shù),但每層包含更少的神經(jīng)元,在提升訓(xùn)練速度的同時(shí),喚醒維對(duì)應(yīng)的值也有明顯提高。

表1 語(yǔ)音單模態(tài)的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of speech single modality

3.3 文本情感識(shí)別

3.3.1特征提取 由于計(jì)算機(jī)無(wú)法對(duì)文本這類非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行直接處理,必須先將文本轉(zhuǎn)換為數(shù)值,生成的文本特征是詞的向量表示,稱為詞嵌入。這些值的維度數(shù)等于詞匯量大小,詞嵌入將這些點(diǎn)嵌入到較低維度的特征空間中。在原始空間中,每個(gè)詞都由一個(gè)one-hot向量表示,對(duì)應(yīng)詞的值為1,其他詞的值為0,值為1的元素被轉(zhuǎn)換為詞向量大小范圍內(nèi)的一個(gè)點(diǎn)[3]。在此基礎(chǔ)上,使用預(yù)訓(xùn)練的詞嵌入模型Glove對(duì)原始詞嵌入進(jìn)行加權(quán)[19]。實(shí)驗(yàn)中使用維度為300的向量,最大序列長(zhǎng)度為100,當(dāng)序列長(zhǎng)度低于100時(shí),用0填充以達(dá)到相同的長(zhǎng)度。將得到的特征饋送到文本網(wǎng)絡(luò)中的嵌入層,然后通過(guò)深度學(xué)習(xí)模型訓(xùn)練獲取更深層的特征,最后輸入到Dense層中進(jìn)行文本情感識(shí)別。

3.3.2文本模型 文本模型中首先添加嵌入層embedding,其次是兩層BiLSTM,每層包含64個(gè)神經(jīng)元,然后添加包含64個(gè)神經(jīng)元的Dense層,最后添加三個(gè)僅包含一個(gè)神經(jīng)元的Dense層。

3.3.3實(shí)驗(yàn)結(jié)果 表2列出了文本單模態(tài)的實(shí)驗(yàn)結(jié)果。當(dāng)MTL對(duì)應(yīng)權(quán)重因子比例為0.5∶0.4∶0.1時(shí),CCC均值達(dá)到最高,為40.12%,與文本基線模型相比,提升0.62個(gè)百分點(diǎn)。該基線模型使用三層網(wǎng)絡(luò)結(jié)構(gòu),每層網(wǎng)絡(luò)包含256個(gè)神經(jīng)元,相比之下,本文構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)不僅使用更少的層數(shù),并且每層包含更少的神經(jīng)元,在提升訓(xùn)練效率的同時(shí),喚醒維和支配維對(duì)應(yīng)的值均有提高。

表2 文本單模態(tài)的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of text single modality

3.4 Mocap情感識(shí)別

3.4.1預(yù)處理 在由IEMOCAP數(shù)據(jù)集提供的Mocap數(shù)據(jù)中,每位演員在進(jìn)行對(duì)話的同時(shí)都會(huì)佩戴Mocap攝像機(jī),對(duì)該演員的面部表情以及頭部和手部動(dòng)作進(jìn)行記錄,本實(shí)驗(yàn)中使用的Mocap數(shù)據(jù)包含面部、手部和頭部三種。Mocap數(shù)據(jù)的預(yù)處理方法參照文獻(xiàn)[2]。首先,對(duì)開(kāi)始時(shí)間值和結(jié)束時(shí)間值之間的所有特征值進(jìn)行采樣,并分成200個(gè)按時(shí)間順序排列的數(shù)組;其次,對(duì)200個(gè)數(shù)組中的每一個(gè)數(shù)組求平均(面部165個(gè),頭部6個(gè),手部18個(gè));最后,連接所有數(shù)組,獲得形狀為(200,189,1)的三維張量作為深度學(xué)習(xí)模型的輸入。

3.4.2CNN模型 使用五層堆疊的2D-CNN,每個(gè)卷積的內(nèi)核大小為3,步幅為2,分別具有32、64、128、64和32個(gè)過(guò)濾器,每層之后均添加值為0.2的Dropout層和激活函數(shù)ReLU,最后添加Flatten層以及三個(gè)僅包含一個(gè)神經(jīng)元的Dense層。

3.4.3實(shí)驗(yàn)結(jié)果 表3列出了Mocap單模態(tài)的實(shí)驗(yàn)結(jié)果。當(dāng)MTL對(duì)應(yīng)權(quán)重因子比例為0.3∶0.5∶0.2時(shí),CCC均值最高,為27.89%。與使用不添加權(quán)重因子的損失函數(shù)的實(shí)驗(yàn)結(jié)果相比,提升1.18個(gè)百分點(diǎn),并且三個(gè)維度對(duì)應(yīng)的值均有提高。相比語(yǔ)音和文本的預(yù)測(cè)結(jié)果,Mocap實(shí)驗(yàn)的CCC均值是最低的。

表3 Mocap單模態(tài)的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of Mocap single modality

3.5 多模態(tài)情感識(shí)別

多模態(tài)特征融合是抽取不同模態(tài)的信息整合為一個(gè)穩(wěn)定的多模態(tài)表征的過(guò)程,根據(jù)融合位置的不同可分為特征級(jí)融合和決策級(jí)融合。由于特征級(jí)融合方法不能針對(duì)不同模態(tài)的特征選擇各自最合適的模型進(jìn)行預(yù)測(cè),因此本文基于決策級(jí)融合方法進(jìn)行多模態(tài)維度情感識(shí)別。首先利用深度學(xué)習(xí)模型分別對(duì)不同模態(tài)特征進(jìn)行訓(xùn)練,然后對(duì)多個(gè)模型的輸出結(jié)果進(jìn)行融合[17]。本文基于機(jī)器學(xué)習(xí)回歸算法對(duì)不同模態(tài)預(yù)測(cè)結(jié)果之間的復(fù)雜關(guān)系進(jìn)行建模,并得到最終的預(yù)測(cè)值。

3.5.1SVR 利用深度學(xué)習(xí)模型分別對(duì)語(yǔ)音、文本和Mocap特征進(jìn)行訓(xùn)練,產(chǎn)生的數(shù)據(jù)點(diǎn)作為SVR的輸入,應(yīng)用回歸分析將其映射到給定標(biāo)簽,實(shí)現(xiàn)決策級(jí)融合。計(jì)算公式為

subject towTφ(xi)+b-yi≤ε+ζi,

(2)

其中:xi=[xs[i],xt[i],xm[i]]是深度學(xué)習(xí)模型對(duì)語(yǔ)音、文本和Mocap數(shù)據(jù)的效價(jià)維的預(yù)測(cè)輸出;yi是對(duì)應(yīng)維度的標(biāo)簽;w是權(quán)重向量;C是懲罰參數(shù);ζ和ζ*是引入的松弛變量;φ是核函數(shù)。選擇徑向基函數(shù)內(nèi)核作為核函數(shù),其函數(shù)表示式為

K(xi,xj)=eγ(xi-xj)2,

(3)

其中:γ定義了單一訓(xùn)練樣本能對(duì)模型起到多大的影響。將上述過(guò)程同樣應(yīng)用于喚醒維和支配維。

3.5.2SGD 在語(yǔ)音和文本的基礎(chǔ)上增加Mocap數(shù)據(jù)的同時(shí),樣本數(shù)也隨之增大,而SVR無(wú)法有效處理大樣本。因此,本文使用基于SGD的決策級(jí)融合方法與SVR算法進(jìn)行對(duì)比實(shí)驗(yàn)?;赟GD的決策級(jí)融合多模態(tài)情感識(shí)別如圖1所示。

圖1 基于SGD的決策級(jí)融合多模態(tài)情感識(shí)別Figure 1 Decision-level fusion multi-modal emotion recognition based on SGD

將訓(xùn)練后的數(shù)據(jù)點(diǎn)作為SGD的輸入,應(yīng)用回歸分析將其映射到給定標(biāo)簽。目標(biāo)是一個(gè)線性評(píng)價(jià)函數(shù)f(x)=wTx+b,其中模型參數(shù)w∈Rn,截距b∈R。通過(guò)如下的最小化公式給出正則化訓(xùn)練誤差:

(4)

其中:L是用來(lái)衡量模型擬合程度的損失函數(shù);R是懲罰模型復(fù)雜度的正則化項(xiàng);α>0是一個(gè)非負(fù)超平面。

3.5.3實(shí)驗(yàn)結(jié)果 使用基于SVR和SGD的決策級(jí)融合方法進(jìn)行雙模態(tài)和多模態(tài)融合實(shí)驗(yàn),結(jié)果列于表4。表中S代表語(yǔ)音,T代表文本,M代表Mocap。可以看出,在雙模態(tài)實(shí)驗(yàn)中,語(yǔ)音加文本組合的CCC均值最高;文本加Mocap組合的CCC均值雖然最低,但是效價(jià)維的值高于其他兩種組合;語(yǔ)音加文本的組合中,SVR的預(yù)測(cè)性能要比SGD高,相比雙模態(tài)基線模型提高了0.51個(gè)百分點(diǎn)。

表4 基于SVR和SGD兩種決策級(jí)融合方法的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of two decision-level fusion methods based on SVR and SGD

在多模態(tài)實(shí)驗(yàn)中,由于結(jié)合了Mocap特征,樣本數(shù)量隨之增加。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),SGD更適合對(duì)此時(shí)的回歸任務(wù)進(jìn)行預(yù)測(cè),CCC均值為60.16%,相比雙模態(tài)基線模型提升了3.66個(gè)百分點(diǎn),驗(yàn)證了本文提出的基于SGD的決策級(jí)融合方法對(duì)提升情感預(yù)測(cè)性能的有效性;相比使用SVR進(jìn)行預(yù)測(cè)的多模態(tài)實(shí)驗(yàn)結(jié)果,CCC均值提升了1.71個(gè)百分點(diǎn),表現(xiàn)出SGD回歸算法在處理大樣本上的優(yōu)勢(shì)。

將雙模態(tài)實(shí)驗(yàn)和多模態(tài)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果表明,添加Mocap數(shù)據(jù)后,基于SVR和SGD兩種融合方法的CCC均值分別提升了1.44個(gè)百分點(diǎn)和4.40個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了Mocap數(shù)據(jù)對(duì)提升情感識(shí)別性能的有效性。此外,發(fā)現(xiàn)Mocap數(shù)據(jù)對(duì)三個(gè)維度中效價(jià)維的值提升最大。

3.5.4其他決策級(jí)融合方法 本文還基于其他機(jī)器學(xué)習(xí)回歸算法進(jìn)行多模態(tài)融合,實(shí)驗(yàn)結(jié)果列于表5。其中,普通最小二乘法、嶺回歸、Lasso、LARS-Lasso、貝葉斯嶺回歸和主動(dòng)相關(guān)決策理論都屬于廣義線性模型??梢钥闯?,相比其他機(jī)器學(xué)習(xí)回歸算法,SGD展現(xiàn)出明顯的優(yōu)勢(shì),三個(gè)維度的值均為最高。

表5 基于其他決策級(jí)融合方法的多模態(tài)實(shí)驗(yàn)結(jié)果Table 5 Multi-modal experimental results based on other decision-level fusion methods

4 小結(jié)

本文提出一種基于SGD回歸算法的決策級(jí)融合維度情感識(shí)別方法,結(jié)合多任務(wù)學(xué)習(xí)機(jī)制,利用深度學(xué)習(xí)模型分別對(duì)語(yǔ)音、文本和Mocap特征進(jìn)行訓(xùn)練,通過(guò)在損失函數(shù)上添加適當(dāng)比例的權(quán)重因子以及對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化等方法提高單模態(tài)情感識(shí)別性能。在IEMOCAP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,使用LSTM+BiLSTM+CNN多模態(tài)情感識(shí)別框架進(jìn)行決策級(jí)融合,維度情感預(yù)測(cè)性能有明顯提升;基于SGD的決策級(jí)融合方法在三個(gè)情感維度上都表現(xiàn)出最好的預(yù)測(cè)性能。但是,由于決策級(jí)融合策略無(wú)法考慮不同模態(tài)之間的情感信息關(guān)聯(lián),下一步研究將通過(guò)利用特征級(jí)和決策級(jí)兩種融合策略各自的優(yōu)點(diǎn),使用兩者相結(jié)合的混合融合策略來(lái)實(shí)現(xiàn)多模態(tài)情感識(shí)別。

猜你喜歡
語(yǔ)音模態(tài)決策
為可持續(xù)決策提供依據(jù)
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
決策為什么失誤了
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
多模態(tài)話語(yǔ)模態(tài)的協(xié)同及在外語(yǔ)教學(xué)中的體現(xiàn)
苗栗市| 新密市| 太仓市| 汶川县| 南岸区| 阳朔县| 阿拉善右旗| 新田县| 景德镇市| 罗城| 赣州市| 苍溪县| 古交市| 寻乌县| 金乡县| 阿合奇县| 遵义市| 仲巴县| 贺兰县| 阿拉善左旗| 民县| 江阴市| 武强县| 班玛县| 黔江区| 白玉县| 贺州市| 喜德县| 大城县| 泾川县| 绵竹市| 建昌县| 高台县| 海南省| 台北县| 封开县| 乡城县| 克拉玛依市| 唐河县| 诸城市| 林甸县|