国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)

2022-10-18 03:39:56賴金水萬(wàn)中英曾雪強(qiáng)
關(guān)鍵詞:集上先驗(yàn)標(biāo)簽

賴金水,萬(wàn)中英,曾雪強(qiáng)

(江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)

0 引言

圖像情感分析任務(wù)的目標(biāo)是挖掘出圖像中隱含的人們的情感傾向,是一項(xiàng)涉及計(jì)算機(jī)視覺(jué)、心理學(xué)和美學(xué)的多學(xué)科交叉任務(wù)[1].近年來(lái),圖像情感分析因其在人工智能領(lǐng)域中的廣泛應(yīng)用而已成為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)并受到大量關(guān)注[2-3].

與傳統(tǒng)的計(jì)算機(jī)視覺(jué)任務(wù)相比,圖像情感分析任務(wù)更具有挑戰(zhàn)性,主要體現(xiàn)在2個(gè)方面:(i)圖像很少表達(dá)單一的情緒,而往往是多種不同情緒的混合[4];(ii)人類各種情緒之間存在較高的相關(guān)性[5].圖1展示了來(lái)自Emotion6數(shù)據(jù)集的6個(gè)樣本及其對(duì)應(yīng)的情緒標(biāo)注,由圖1(a)和圖1(e)可見(jiàn),高興情緒與驚訝情緒表現(xiàn)出較高正相關(guān)性;由圖1(d)可見(jiàn),該圖像的主導(dǎo)情緒是憤怒,但同時(shí)也蘊(yùn)含了大量的恐懼與驚訝的情緒.因此,多情緒分析和情緒間的相關(guān)性是情緒分析模型需要考慮的重要因素.

目前,圖像情感分析方法主要包括2個(gè)大類.一類是基于單標(biāo)簽學(xué)習(xí)或多標(biāo)簽學(xué)習(xí)[6]的方法,其主要特點(diǎn)是為每幅圖像分配1個(gè)或多個(gè)情緒標(biāo)簽.基于單標(biāo)簽學(xué)習(xí)或多標(biāo)簽學(xué)習(xí)的方法可以借鑒經(jīng)典的分類模型來(lái)實(shí)現(xiàn)情緒標(biāo)簽的預(yù)測(cè),但不能對(duì)圖像在各種情緒上的表達(dá)程度進(jìn)行定量分析.另一類是基于情感分布學(xué)習(xí)的方法.Zhou Ying等[7]提出情感分布學(xué)習(xí)(emotion distribution learning,EDL),其核心思想是將圖像在各個(gè)基本情緒上的表達(dá)程度作為圖像的情感分布,學(xué)習(xí)圖像中的特征與情感分布之間的相關(guān)信息.EDL模型對(duì)圖像中蘊(yùn)含的多種情緒同時(shí)建模,從而可以更好地處理多情緒標(biāo)簽的相關(guān)性和模糊性.

近年來(lái),國(guó)內(nèi)外學(xué)者在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表了多個(gè)EDL相關(guān)的研究工作,其中在EDL模型中考慮情緒類別之間的相關(guān)性是一個(gè)重要的研究思路.如Jia Xiuyi等[8]提出了一種利用局部低秩結(jié)構(gòu)捕捉標(biāo)簽局部相關(guān)性的EDL方法,Zhou Deyu等[9]提出了一種基于情緒之間的約束關(guān)系的EDL方法,Xiong Haitao等[10]提出了利用情感極性和情緒標(biāo)簽稀疏性的EDL方法.這些研究工作都表明,考慮在訓(xùn)練數(shù)據(jù)中的情緒相關(guān)性可明顯提升EDL模型的性能.情緒間的相關(guān)性既可從訓(xùn)練數(shù)據(jù)中抽取,也可基于心理學(xué)先驗(yàn)知識(shí)獲得.但是,目前較少有基于圖像的EDL研究工作,特別是在預(yù)測(cè)模型中直接運(yùn)用心理學(xué)先驗(yàn)知識(shí)考慮情緒之間的相關(guān)性.

Mikel′s情感輪(Mikel′s emotion wheel)是心理學(xué)家J.A. Mikels等[11]提出的心理學(xué)情緒模型.Mikel′s情感輪描述了人類的8種基本情緒之間的相關(guān)性,分別是憤怒(anger)、厭惡(disgust)、悲傷(sadness)、恐懼(fear)、興奮(excitement)、驚訝(awe)、滿意(contentment)、高興(amusement).這8種情緒按一定順序組成一個(gè)情感輪,在情感輪上的位置關(guān)系反映了情緒類別之間的相關(guān)性,處于相鄰位置的2種情緒呈正相關(guān),處于相對(duì)位置的2個(gè)情緒呈負(fù)相關(guān).

本文將Mikel′s情感輪心理學(xué)先驗(yàn)知識(shí)引入情感分布學(xué)習(xí)中,提出了一種基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)(emotion wheel enhanced multi-task convolutional neural network for image emotion distribution learning,EW-MTCNN)模型.EW-MTCNN的深度神經(jīng)網(wǎng)絡(luò)模型包括3個(gè)模塊:圖像特征提取層、情感輪先驗(yàn)知識(shí)層和多任務(wù)損失層.圖像特征提取層通過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的特征信息;情感輪先驗(yàn)知識(shí)層基于Mikel′s情感輪計(jì)算成對(duì)情緒間的相關(guān)程度,將圖像特征提取層的輸出轉(zhuǎn)換為情感分布;多任務(wù)損失層采用交叉熵?fù)p失和Kullback-Leibler(KL)損失分別度量情緒分類任務(wù)和情感分布預(yù)測(cè)任務(wù),通過(guò)綜合這2種損失訓(xùn)練目標(biāo),同時(shí)優(yōu)化情緒分類和情感分布預(yù)測(cè)任務(wù).EW-MTCNN模型以端到端的方式進(jìn)行訓(xùn)練,將在輸出的情感分布中表達(dá)程度最大的情緒作為情緒分類任務(wù)的預(yù)測(cè)值.在圖像情感分布數(shù)據(jù)集(Emotion6)和情緒單標(biāo)簽數(shù)據(jù)集(Artphoto)上的對(duì)比實(shí)驗(yàn)結(jié)果表明:EW-MTCNN模型在情感分布預(yù)測(cè)和情緒分類任務(wù)上的性能優(yōu)于對(duì)比的其他情感分布學(xué)習(xí)方法.

1 相關(guān)工作

圖像情感分析的相關(guān)工作主要包括圖像特征提取和情感分布學(xué)習(xí).

1.1 圖像特征提取

傳統(tǒng)的圖像特征提取方法主要基于特征工程,人工提取圖像中的底層特征(如顏色[12]、紋理[13]和構(gòu)圖[14]等).C. Colombo等[15]將圖像分割成若干個(gè)區(qū)域,將每個(gè)區(qū)域和其他區(qū)域在顏色、飽和度、色調(diào)等特征上進(jìn)行比對(duì),將圖像分為4種不同情緒.J. Machajdik等[16]基于藝術(shù)原理和心理學(xué)理論定義了多種人工處理特征的組合,包括構(gòu)圖、顏色變化和圖像語(yǔ)義.研究表明,這些數(shù)據(jù)大多來(lái)源于抽象繪畫與藝術(shù)照片,通過(guò)人工處理的圖像特征在一些特定的數(shù)據(jù)集上是有效的.因?yàn)榛谔卣鞴こ痰姆椒ㄌ^(guò)于經(jīng)驗(yàn)化,且需要耗費(fèi)大量的人力,因此不適用于大規(guī)模數(shù)據(jù)集.此外,對(duì)于來(lái)自不同領(lǐng)域的圖像,人工提取圖像中情感信息的方法往往存在一定差異.因此,傳統(tǒng)的圖像情感分析方法不具有泛化性能.

近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在許多計(jì)算機(jī)視覺(jué)任務(wù)上取得成功,CNN也被運(yùn)用到圖像情感分析中.基于CNN的圖像特征提取方法主要通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)提取在圖像中的深層特征,不再需要人工從圖像中提取特征,實(shí)現(xiàn)了從圖像中學(xué)習(xí)特征和參數(shù),并且在各種數(shù)據(jù)集上具有良好的泛化性能.如Rao Tianrong等[17]提出了一個(gè)多層深度網(wǎng)絡(luò)(MldrNet),它將圖像的底層特征與深層特征進(jìn)行統(tǒng)一.Yang Jufeng等[18]將人工提取的圖像底層特征與深層卷積神經(jīng)網(wǎng)絡(luò)提取的深層特征進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明深層特征在情感分析模型上表現(xiàn)更優(yōu).

1.2 情感分布學(xué)習(xí)

傳統(tǒng)的圖像情感分析致力于圖像的情感極性分類,即判別在一幅圖像中的情感是正面還是負(fù)面.然而,這種情感極性識(shí)別只能適用于簡(jiǎn)單的情感分析任務(wù)(如情感二分類問(wèn)題),無(wú)法實(shí)現(xiàn)對(duì)多個(gè)情緒類別的識(shí)別.因此,單標(biāo)簽學(xué)習(xí)(single label learning)將簡(jiǎn)單的正面、負(fù)面情緒細(xì)分為若干個(gè)基本情緒,通過(guò)人工標(biāo)注,從細(xì)分的情緒類別中為每幅圖像分配一個(gè)情緒標(biāo)簽.在此基礎(chǔ)上,多標(biāo)簽學(xué)習(xí)(multi label learning)為每幅圖像分配多個(gè)情緒標(biāo)簽進(jìn)行區(qū)分,這種標(biāo)注方法適用于細(xì)粒度的圖像情感分析.

雖然基于單標(biāo)簽或多標(biāo)簽的方法可以實(shí)現(xiàn)在細(xì)粒度情緒上的情緒分類,但是無(wú)法對(duì)圖像在每種情緒上的表達(dá)程度進(jìn)行定量分析.因此,Zhou Ying等[7]提出了情感分布學(xué)習(xí)(emotion distribution learning,EDL),情感分布學(xué)習(xí)能夠?qū)Χ喾N情緒進(jìn)行建模,學(xué)習(xí)圖像特征與圖像真實(shí)情感分布之間的相關(guān)信息,適用于處理具有情緒模糊性的任務(wù).此外,Geng Xin[19]提出了標(biāo)簽分布學(xué)習(xí)(label distribution learning,LDL),其中包括3種策略,即問(wèn)題轉(zhuǎn)化(PT)、算法改造(AA)和專用算法(SA);基于這3種策略提出了6種LDL模型,它們分別是PT-Bayes、PT-SVM、AA-kNN、AA-BP、SA-IIS和SA-BFGA模型,本文將在后續(xù)實(shí)驗(yàn)中展示這6種標(biāo)簽分布學(xué)習(xí)模型的性能.

目前,許多學(xué)者在國(guó)內(nèi)外頂級(jí)會(huì)議與期刊上發(fā)表了關(guān)于EDL的相關(guān)工作.Zhang Yuxiang等[20-21]提出了基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-task convolutional neural network,MT-CNN)模型用于文本情感分布學(xué)習(xí).由于未考慮情緒標(biāo)簽之間的相關(guān)性,MT-CNN模型的性能有限.Jia Xiuyi等[8]提出一種利用局部低秩結(jié)構(gòu)捕捉標(biāo)簽局部相關(guān)性的情感分布學(xué)習(xí)方法并將它用于面部表情識(shí)別任務(wù),該方法旨在從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)情緒標(biāo)簽之間的相關(guān)性,在不同數(shù)據(jù)集上不具有泛化性能.He Tao等[22]通過(guò)引入外部先驗(yàn)知識(shí)來(lái)表示情緒之間的相關(guān)性,提出一種基于情感輪的情緒圖卷積網(wǎng)絡(luò)的方法(EmotionGCN),但由于EmotionGCN模型結(jié)構(gòu)較為簡(jiǎn)單,不能有效地學(xué)習(xí)情緒之間的相關(guān)性,模型性能有限.與MT-CNN和EmotionGCN模型不同,本文提出的EW-MTCNN模型將Mikel′s情感輪心理學(xué)先驗(yàn)知識(shí)引入情感分布學(xué)習(xí)中,并采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),以端到端的方式進(jìn)行訓(xùn)練,學(xué)習(xí)情緒之間的相關(guān)性,共同優(yōu)化情感分布預(yù)測(cè)與情緒分類任務(wù).

2 基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)

2.1 Mikel′s情感輪

有心理學(xué)研究表明:人類情緒之間存在高度相關(guān)性[5],一些正相關(guān)的情緒經(jīng)常同時(shí)出現(xiàn),一些負(fù)相關(guān)的情緒則通?;コ獬霈F(xiàn).基于心理學(xué)理論,J.A. Mikels等[11]提出了Mikel′s情感輪(Mikel′s emotion wheel),用于描述8種基本情緒之間的相關(guān)性,它們分別是憤怒(anger)、厭惡(disgust)、悲傷(sadness)、恐懼(fear)、興奮(excitement)、驚訝(awe)、滿意(contentment)、高興(amusement),這8種基本情緒在情感輪的相對(duì)位置如圖2所示.根據(jù)Mikel′s情感輪,將2個(gè)情緒之間的距離定義為在Mikel′s情感輪上從一個(gè)情緒到另一個(gè)情緒所經(jīng)過(guò)的步數(shù).如興奮與驚訝之間的距離為1,高興與恐懼之間的距離為4.總體而言,距離近的2類情緒之間相關(guān)程度高,距離遠(yuǎn)的2類情緒相關(guān)程度低.

圖2 Mikel′s情感輪

目前已有一些研究工作將情感輪運(yùn)用于情感分布學(xué)習(xí),如He Tao等[22]提出一種基于情感輪的圖卷積網(wǎng)絡(luò),但由于未能很好地學(xué)習(xí)情緒標(biāo)簽之間的相關(guān)性信息,所以該模型性能有限.總體而言,基于情感輪的情感分布學(xué)習(xí)方法仍比較少,本文基于Mikel′s情感輪定義成對(duì)情緒之間的相關(guān)程度,并采用基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)模型,同時(shí)優(yōu)化情感分布預(yù)測(cè)與情緒分類任務(wù).

2.2 基于Mikel′s情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)

本文提出的基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)(emotion wheel enhanced multi-task convolutional neural network for image emotion distribution learning,EW-MTCNN)模型主要由3個(gè)模塊組成,它們分別為圖像特征提取層、情感輪先驗(yàn)知識(shí)層和多任務(wù)損失層,具體的模型架構(gòu)如圖3所示.

1)圖像特征提取層.鑒于VGGNet[23]在許多計(jì)算機(jī)視覺(jué)任務(wù)的特征提取上表現(xiàn)出優(yōu)秀的性能,本文基于VGGNet構(gòu)建圖像特征提取層,取VGGNet倒數(shù)第2層的全連接層作為圖像信息的表示,即采用了VGGNet的5組卷積層與池化層和2層全連接層用于提取圖像中隱含的深層圖像特征.對(duì)于給定彩色圖像xi∈Rw×Rh×R3,在VGGNet之后增加一個(gè)全連接層,用于對(duì)應(yīng)各個(gè)目標(biāo)情緒.最后,圖像特征提取層提取出圖像信息表征向量v=(v1,v2,…,vC),C為目標(biāo)情緒的數(shù)量.

(1)

(2)

其中σ為先驗(yàn)情感分布標(biāo)準(zhǔn)差,用于描述先驗(yàn)情感分布fμ的離散程度,|j-μ|為情緒j與情緒μ在Mikel′s情感輪上的距離.

采用基于Mikel′s情感輪的轉(zhuǎn)換矩陣W,對(duì)圖像特征提取層的輸出v=(v1,v2,…,vC)進(jìn)行加權(quán)計(jì)算,將其轉(zhuǎn)換為包含心理學(xué)先驗(yàn)知識(shí)的情感分布,其計(jì)算公式為

p=v1f1+v2f2+…,vCfC.

3)多任務(wù)損失層.采用情緒分類和情感分布預(yù)測(cè)2個(gè)任務(wù),同時(shí)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,用基于情感輪先驗(yàn)知識(shí)層預(yù)測(cè)情感分布.多任務(wù)損失層采用交叉熵?fù)p失和Kullback-Leibler(KL)損失分別度量情緒分類任務(wù)和情感分布預(yù)測(cè)任務(wù),通過(guò)加權(quán)的方式,將這2種損失函數(shù)綜合起來(lái),同時(shí)優(yōu)化情緒分類和情感分布預(yù)測(cè)任務(wù),具體的損失函數(shù)為

L=(1-λ)Lcls(x,y)+λLsdl(x,d),

(3)

其中Lcls和Lsdl分別表示情緒分類損失和情感分布預(yù)測(cè)損失,參數(shù)λ用于控制在訓(xùn)練過(guò)程中這2種損失的相對(duì)權(quán)重.

在訓(xùn)練過(guò)程中,由于交叉熵?fù)p失用于最大化正確類別的概率,因此采用交叉熵?fù)p失用于情緒分類任務(wù).交叉熵?fù)p失為

圖3 基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)模型總體框架

KL損失是度量預(yù)測(cè)情感分布與先驗(yàn)情感分布或真實(shí)情感分布之間的相似性的指標(biāo)之一,因此,將KL損失用于情感分布預(yù)測(cè)任務(wù),KL損失為

對(duì)于式(3),采用隨機(jī)梯度下降(SGD)來(lái)最小化損失函數(shù).根據(jù)鏈?zhǔn)椒▌t,梯度的計(jì)算公式為

(4)

多任務(wù)損失層根據(jù)式(4)進(jìn)行梯度的反向傳播.

3 實(shí)驗(yàn)結(jié)果與分析

為了評(píng)估EW-MTCNN模型的性能,本文在2個(gè)圖像情感數(shù)據(jù)集上設(shè)置了3組實(shí)驗(yàn):對(duì)比EW-MTCNN模型與多種情感分布學(xué)習(xí)模型在情感分布預(yù)測(cè)與情緒分類任務(wù)上的性能、分析先驗(yàn)情感分布參數(shù)σ對(duì)EW-MTCNN模型性能的影響以及對(duì)比EW-MTCNN模型與基于深度網(wǎng)絡(luò)的情緒分析模型在傳統(tǒng)情緒分類任務(wù)上的性能.

3.1 數(shù)據(jù)集

本文采用圖像情感分布數(shù)據(jù)集(Emotion6)和情緒單標(biāo)簽數(shù)據(jù)集(Artphoto)進(jìn)行EDL模型的對(duì)比實(shí)驗(yàn).Emotion6數(shù)據(jù)集是從Flickr中集成而來(lái),常用于情感預(yù)測(cè)基準(zhǔn)數(shù)據(jù)集,其中標(biāo)注了7個(gè)情緒類別:憤怒、厭惡、高興、恐懼、悲傷、驚訝、中性,總共包含1 980幅圖像.在Emotion6數(shù)據(jù)集中每幅圖像都對(duì)應(yīng)一個(gè)真實(shí)情感分布,即圖像在每個(gè)情緒上的表達(dá)程度.Artphoto數(shù)據(jù)集來(lái)源于一個(gè)藝術(shù)圖像分享網(wǎng)站,每幅圖像都分配至8個(gè)情緒標(biāo)簽中的一個(gè),8個(gè)情緒分別是憤怒、厭惡、悲傷、恐懼、興奮、驚訝、滿意和高興,該數(shù)據(jù)集總共包含806幅藝術(shù)圖像.Emotion6數(shù)據(jù)集和Artphoto數(shù)據(jù)集各個(gè)情緒的圖像數(shù)量如表1所示.

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)設(shè)置采用分層十折交叉驗(yàn)證.具體實(shí)驗(yàn)步驟如下:在保持各種情緒的圖像數(shù)量比例的前提下,將數(shù)據(jù)集平均分成10份,每份數(shù)據(jù)作為測(cè)試集使用1次,剩余9份數(shù)據(jù)作為訓(xùn)練集,如此重復(fù)10次,取各評(píng)價(jià)指標(biāo)在10次實(shí)驗(yàn)中的平均值作為模型的最終性能.為了合理對(duì)比EW-MTCNN模型與其他圖像情感分布學(xué)習(xí)模型,參與對(duì)比的模型均采用相同的數(shù)據(jù)劃分.

表1 實(shí)驗(yàn)數(shù)據(jù)集的各個(gè)情緒的圖片數(shù)量

將EW-MTCNN模型的圖像特征提取層的權(quán)重初始化為VGGNet[23]在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,并在Emotion6或Artphoto數(shù)據(jù)集上進(jìn)行了微調(diào).這種訓(xùn)練方法能夠有效提高模型的收斂速率,適用于大規(guī)模數(shù)據(jù)集上的訓(xùn)練.

參照Yang Jingyuan等[28]的方法,將多任務(wù)損失函數(shù)權(quán)重系數(shù)λ設(shè)為0.7.此外,EW-MTCNN模型的其余參數(shù)設(shè)置如下:圖像特征提取層和多任務(wù)損失層的學(xué)習(xí)率分別設(shè)為0.001和0.010;為防止過(guò)擬合,在全連接層采用Dropout比率為0.5,設(shè)置Batch Size為32,并采用隨機(jī)梯度下降(SGD)對(duì)整個(gè)網(wǎng)絡(luò)的所有層的權(quán)重進(jìn)行微調(diào),具體的模型參數(shù)設(shè)置如表2所示.

表2 EW-MTCNN模型參數(shù)設(shè)置

對(duì)于情感分布預(yù)測(cè)任務(wù),采用6種常用于評(píng)價(jià)真實(shí)情感分布和情感分布預(yù)測(cè)之間距離或相似度的指標(biāo),它們分別是Chebyshev distance、Clark distance、Canberra metric、KL divergence、Cosine和Intersection.其中,前4個(gè)指標(biāo)為距離指標(biāo),值越小表明模型性能越優(yōu);后2個(gè)指標(biāo)為相似度指標(biāo),值越大表明模型越優(yōu).由于當(dāng)分母為0時(shí),KL divergence無(wú)定義,因此設(shè)ε=1×10-10(近似0值).對(duì)于情緒分類任務(wù),采用準(zhǔn)確率評(píng)估模型的性能,將在情感分布預(yù)測(cè)中表達(dá)程度最大的情緒作為圖像的情緒標(biāo)簽用于情緒分類.

本文實(shí)驗(yàn)的硬件配置為Intel酷睿i9-10900X 3.70 GHz 10核CPU,128 G內(nèi)存,NVIDIA GeForce RTX 3060顯卡.操作系統(tǒng)為Ubuntu 18.04,深度學(xué)習(xí)框架采用Tensorflow2.4和Keras2.4.3.

3.3 多種圖像情感分析模型的情感分布預(yù)測(cè)和情緒分類性能對(duì)比

為了評(píng)估EW-MTCNN模型在圖像情感分布數(shù)據(jù)集上的情感分布預(yù)測(cè)和情緒分類性能,將EW-MTCNN模型與7種LDL模型(分別是PT-Bayes、PT-SVM、AA-kNN、AA-BP、SA-IIS、SA-BFGA和SA-CPNN[24]模型)進(jìn)行對(duì)比.參照Yang Jufeng等[29]的方法,將VGGNet中倒數(shù)第2層全連接層的輸出作為圖像信息表征,并采用主成分分析(PCA)將圖像信息表征的維度降至280維,將降維后的圖像信息表征作為輸入,采用上述LDL模型作為分類器進(jìn)行訓(xùn)練,輸出情感分布預(yù)測(cè).此外,將EW-MTCNN模型與圖像情感分布學(xué)習(xí)模型DLDL模型[30]進(jìn)行對(duì)比,DLDL模型通過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的深層特征,并采用KL損失函數(shù)進(jìn)行訓(xùn)練,在情感分布預(yù)測(cè)上具有良好性能,對(duì)比實(shí)驗(yàn)的具體結(jié)果如表3所示.

表3 在Emotion6數(shù)據(jù)集上9種情感分布學(xué)習(xí)模型的性能對(duì)比結(jié)果

表3展示了EW-MTCNN模型與8種情感分布學(xué)習(xí)模型在Emotion6數(shù)據(jù)集上的情感分布預(yù)測(cè)和情緒分類性能,括號(hào)中展示了在單項(xiàng)指標(biāo)上各模型性能的排序結(jié)果.實(shí)驗(yàn)結(jié)果表明:在情感分布預(yù)測(cè)和情緒分類任務(wù)的7個(gè)指標(biāo)上,EW-MTCNN模型均優(yōu)于PT-Bayes、PT-SVM、AA-kNN、AA-BP、SA-IIS、SA-BFGA和SA-CPNN模型.在情感分布預(yù)測(cè)任務(wù)上,EW-MTCNN模型除了在Canberra指標(biāo)上略低于DLDL模型外,在其余5項(xiàng)情感分布預(yù)測(cè)指標(biāo)上均優(yōu)于對(duì)比的情感分布學(xué)習(xí)模型.在情緒分類任務(wù)上,EW-MTCNN模型在準(zhǔn)確率上表現(xiàn)出優(yōu)秀的性能,比次優(yōu)的DLDL模型高4.16%.由此可見(jiàn),EW-MTCNN模型比其他情感分布學(xué)習(xí)模型在情感分布預(yù)測(cè)和情緒分類任務(wù)上均取得了優(yōu)越的性能.實(shí)驗(yàn)結(jié)果表明:EW-MTCNN模型能夠有效利用情緒之間的相關(guān)性信息,綜合度量情感分布預(yù)測(cè)損失與情緒分類損失,同時(shí)優(yōu)化情感分布預(yù)測(cè)和情緒分類任務(wù).

圖4展示了在Emotion6數(shù)據(jù)集上AA-kNN、DLDL和EW-MTCNN模型的情感分布預(yù)測(cè)結(jié)果.由圖4可見(jiàn):EW-MTCNN模型在情緒極性、情緒類型和情感分布上都與真實(shí)情感分布相似度最高.此外,與DLDL模型僅采用KL損失函數(shù)相比,EW-MTCNN模型結(jié)合交叉熵?fù)p失與KL損失,在情感分布預(yù)測(cè)上具有優(yōu)越的性能.

情緒標(biāo)簽1:憤怒、2:厭惡、3:恐懼、4:高興、5:悲傷、6:驚訝、7:中立;橫軸是情緒,縱軸是表達(dá)程度.

3.4 先驗(yàn)情感分布參數(shù)σ對(duì)模型性能的影響

先驗(yàn)情感分布參數(shù)σ是先驗(yàn)情感分布的標(biāo)準(zhǔn)差,用于描述由情緒標(biāo)簽生成先驗(yàn)情感分布的離散程度,是影響EW-MTCNN模型的重要參數(shù).σ越小,生成的先驗(yàn)情感分布越集中,曲線越瘦高.σ越大,生成的先驗(yàn)情感分布越分散,曲線越扁平.為了分析先驗(yàn)情感分布參數(shù)σ對(duì)EW-MTCNN模型性能的影響,在Artphoto數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).首先根據(jù)圖像情緒標(biāo)簽,由式(1)~(2)為每幅圖像生成對(duì)應(yīng)先驗(yàn)情感分布,其次將參數(shù)σ從0~1取值,每隔0.1取值1次,采用情感分布預(yù)測(cè)指標(biāo)KL divergence和情緒分類指標(biāo)的準(zhǔn)確率來(lái)評(píng)估先驗(yàn)情感分布參數(shù)σ對(duì)EW-MTCNN模型性能的影響.由式(1)可知,當(dāng)σ=0時(shí)無(wú)定義,因此采用ε=1×10-10近似0值.先驗(yàn)情感分布參數(shù)σ對(duì)EW-MTCNN模型性能的影響如圖5所示.

圖5 在Artphoto數(shù)據(jù)集上參數(shù)σ對(duì)模型性能的影響

由圖5可見(jiàn):隨著σ的增加,EW-MTCNN模型在情緒分類指標(biāo)的準(zhǔn)確率上的性能逐步上升,并在σ=0.6時(shí)達(dá)到最高(42.19%),隨后逐步下降,在情感分布預(yù)測(cè)指標(biāo)KL divergence上的性能逐步下降,在σ=0.6時(shí)達(dá)到最低(0.608 2),隨后逐步上升.實(shí)驗(yàn)結(jié)果表明:相比于傳統(tǒng)的基于單標(biāo)簽的情緒分類模型(σ=0),將情緒標(biāo)簽擴(kuò)展為情感分布能有效提高模型在情感分布預(yù)測(cè)和情緒分類任務(wù)上的性能,并且適當(dāng)增加先驗(yàn)情感分布的離散程度能有效促進(jìn)EW-MTCNN模型的性能.當(dāng)σ=0.6時(shí),先驗(yàn)情感分布的離散程度最佳.以恐懼情緒為例,當(dāng)σ=0.6時(shí)先驗(yàn)情感分布為[1.48×10-10,2.47×10-6,2.57×10-3,1.66×10-1,6.64×10-1,1.66×10-1,2.57×10-3,2.47×10-6].當(dāng)σ取值為0.6~1.0時(shí),EW-MTCNN模型在準(zhǔn)確率指標(biāo)上的性能逐步下降,這說(shuō)明先驗(yàn)情感分布離散程度過(guò)大會(huì)混淆主導(dǎo)情緒標(biāo)簽,影響EW-MTCNN模型情緒分類性能.由于EW-MTCNN模型在σ=0.6時(shí)性能最優(yōu),因此,在實(shí)驗(yàn)中設(shè)σ=0.6.

3.5 基于深度網(wǎng)絡(luò)的情緒識(shí)別模型的情緒分類性能對(duì)比

為了評(píng)估EW-MTCNN模型在傳統(tǒng)情緒分類任務(wù)上的性能,本文在Emotion6和Artphoto數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn).對(duì)于Emotion6數(shù)據(jù)集,采用在真實(shí)情感分布中表達(dá)程度最高的情緒作為圖像的情緒標(biāo)簽.鑒于AlexNet[31]、VGGNet[23]和ResNet[32]3種深度網(wǎng)絡(luò)模型在圖像特征提取上已經(jīng)表現(xiàn)出優(yōu)越的性能,本文展示了這3種模型在傳統(tǒng)情緒分類任務(wù)上的性能,以及在對(duì)應(yīng)數(shù)據(jù)集上對(duì)這3種模型進(jìn)行微調(diào)后的模型性能,具體的9種基于深度網(wǎng)絡(luò)的情緒識(shí)別模型在情緒分類任務(wù)上的性能對(duì)比結(jié)果如表4所示,9種對(duì)比模型簡(jiǎn)要介紹如下:

1)AlexNet、VGGNet和ResNet.模型權(quán)重初始化為3種模型在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,將最后一層用于分類的全連接層神經(jīng)元數(shù)量修改為數(shù)據(jù)集的情緒類別數(shù)量,采用交叉熵?fù)p失,將其余層權(quán)重凍住,只對(duì)最后一層全連接層權(quán)重進(jìn)行更新.

2)Fine-tuned AlexNet、Fine-tuned VGGNet和Fine-tuned ResNet.基于AlexNet、VGGNet和ResNe模型,在目標(biāo)數(shù)據(jù)集上對(duì)3個(gè)模型的權(quán)重進(jìn)行微調(diào).

3)EW-MTCNN(AlexNet)、EW-MTCNN(VGGNet)和EW-MTCNN(ResNet).為了分析不同圖像特征提取層對(duì)EW-MTCNN模型的性能的影響,基于3種深度網(wǎng)絡(luò)模型構(gòu)建圖像特征提取層,得到對(duì)應(yīng)的模型.

表4 9種基于深度網(wǎng)絡(luò)的情緒識(shí)別模型在Emotion6數(shù)據(jù)集和Artphoto數(shù)據(jù)集上的情緒分類性能對(duì)比

表4的實(shí)驗(yàn)結(jié)果表明:相比于基于AlexNet的情緒識(shí)別模型,基于ResNet或VGGNet模型的表現(xiàn)更優(yōu).具體而言,在Emotion6數(shù)據(jù)集上,EW-MTCNN(ResNet)模型性能最優(yōu)(53.60%),在Artphoto數(shù)據(jù)集上,EW-MTCNN(VGGNet)模型性能最優(yōu)(42.19%).同時(shí),在Emotion6和Artphoto數(shù)據(jù)集上,基于ResNet或VGGNet的模型之間的性能差異都比較小.即ResNet和VGGNet均可以較好地提取圖像中的圖像特征信息.

從預(yù)訓(xùn)練模型是否進(jìn)行微調(diào)的角度觀察,在Emotion6和Artphoto數(shù)據(jù)集上進(jìn)行了微調(diào)的情緒識(shí)別模型的情緒分類性能均優(yōu)于只在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型的情緒分類性能.這說(shuō)明對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)可以提高情緒識(shí)別模型的性能.

另外,EW-MTCNN模型總體上表現(xiàn)出最優(yōu)的性能,其準(zhǔn)確率比次優(yōu)的模型在Emotion6數(shù)據(jù)集上高出5.68%,在Artphoto數(shù)據(jù)集上高出5.34%.實(shí)驗(yàn)結(jié)果表明:相比于只使用交叉熵?fù)p失進(jìn)行訓(xùn)練的情緒分類模型,多任務(wù)同時(shí)進(jìn)行訓(xùn)練,可以提高情緒識(shí)別模型在情緒分類任務(wù)上的性能.

4 總結(jié)與展望

針對(duì)多情緒分析任務(wù),本文提出了一種基于情感輪和多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的圖像情感分布學(xué)習(xí)模型.EW-MTCNN模型將Mikel′s情感輪心理學(xué)先驗(yàn)知識(shí)引入情感分布學(xué)習(xí)中,基于Mikel′s情感輪計(jì)算成對(duì)情緒之間的相關(guān)程度,采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練,有效利用情緒之間的相關(guān)性,共同優(yōu)化情感分布預(yù)測(cè)與情緒分類任務(wù).在圖像情感分布數(shù)據(jù)集和情緒單標(biāo)簽數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明:EW-MTCNN模型在情感分布預(yù)測(cè)與情緒分類任務(wù)上比現(xiàn)有的EDL模型具有更優(yōu)越的性能.

在下一步的工作中,將對(duì)提高圖像特征提取層與多任務(wù)學(xué)習(xí)的性能上加以研究,嘗試將EW-MTCNN的圖像特征提取層更換為更加有效的預(yù)訓(xùn)練圖像特征提取模型,并提出能夠更有效的學(xué)習(xí)情緒間相關(guān)性的多任務(wù)損失函數(shù),進(jìn)一步提高圖像情感分布學(xué)習(xí)模型的性能.

猜你喜歡
集上先驗(yàn)標(biāo)簽
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
復(fù)扇形指標(biāo)集上的分布混沌
基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
標(biāo)簽化傷害了誰(shuí)
基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
阿坝| 石河子市| 正阳县| 桃园县| 玛纳斯县| 林西县| 景洪市| 华安县| 广南县| 孟津县| 靖宇县| 庆云县| 武功县| 抚宁县| 房产| 白河县| 太仓市| 绥化市| 光山县| 郧西县| 淮滨县| 金川县| 资兴市| 凤城市| 呼玛县| 石景山区| 巴林右旗| 呼图壁县| 吉隆县| 项城市| 徐水县| 洪江市| 沈阳市| 西林县| 西城区| 海南省| 顺义区| 赤峰市| 东丽区| 四子王旗| 佳木斯市|