楊 松, 劉佳欣, 吳 桐
(1 大連外國(guó)語(yǔ)大學(xué) 軟件學(xué)院, 遼寧 大連 116044; 2 大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能中心, 遼寧 大連 116044;3 網(wǎng)絡(luò)空間大數(shù)據(jù)安全院級(jí)研究中心, 遼寧 大連 116044)
隨著微博、微信、論壇等社交媒體的廣泛使用,越來(lái)越多的用戶喜歡以文本、圖像及視頻的形式分享信息、表達(dá)觀點(diǎn)和宣泄情緒。 網(wǎng)絡(luò)中的海量信息往往存在很多主觀的感情色彩,基于文本的情感分析技術(shù)已在信息情感的把握中發(fā)揮了重要作用,而基于圖像的情感分析技術(shù)仍有待深入的研究。 圖像情感分類(lèi)作為計(jì)算機(jī)視覺(jué)、模式識(shí)別、認(rèn)知科學(xué)等多個(gè)學(xué)科的交叉技術(shù),近年來(lái)受到國(guó)內(nèi)外研究人員的廣泛關(guān)注。 希望借助計(jì)算機(jī)技術(shù)研究和建立符合人類(lèi)感知的情感映射機(jī)制,理解并準(zhǔn)確分類(lèi)圖像中蘊(yùn)含的高層情感語(yǔ)義。 目前在一些特定場(chǎng)景的圖像情感分類(lèi)研究已取得一些成果,例如人臉表情、自然風(fēng)景、服飾面料等,而以藝術(shù)圖像為目標(biāo)的情感分類(lèi)研究相對(duì)較少。 藝術(shù)圖像作為藝術(shù)作品的重要組成部分,本身具有豐富的情感語(yǔ)義信息,能夠通過(guò)顏色搭配、線條手法、紋理特征及抽象主體特寫(xiě)等方式向人們傳遞作品內(nèi)在的情感,相對(duì)于文本情感,圖像情感表現(xiàn)得更為抽象、理解的難度更大。 研究藝術(shù)圖像的情感識(shí)別與分類(lèi),對(duì)藝術(shù)圖像的鑒賞、保護(hù)等具有重要指導(dǎo)意義。
本文從情感角度出發(fā),以藝術(shù)圖像作為研究對(duì)象,通過(guò)深度學(xué)習(xí)來(lái)挖掘藝術(shù)作品帶給欣賞者的情感變化,提出一種基于深層特征和注意力機(jī)制的藝術(shù)圖像情感分類(lèi)模型FeaturesNet,抽取藝術(shù)圖像的CLAHE 顏色特征和Laplacian 紋理特征,與學(xué)習(xí)到的深度情感語(yǔ)義特征融合,彌補(bǔ)情感語(yǔ)義特征抽取的不足。 引入CBAM 注意力機(jī)制,在降低模型過(guò)擬合的同時(shí)提高對(duì)藝術(shù)圖像情感分類(lèi)的準(zhǔn)確率,為基于深度學(xué)習(xí)的圖像情感分類(lèi)提供一定參考。
近年來(lái),國(guó)內(nèi)外的一些學(xué)者在藝術(shù)圖像情感分類(lèi)領(lǐng)域取得了一些成果。 雷晶晶以木板套色版畫(huà)為研究對(duì)象,提出基于SVM 算法和模糊聚類(lèi)算法的圖像情感分類(lèi)模型,實(shí)驗(yàn)采用人工標(biāo)注的數(shù)據(jù)集,由于數(shù)據(jù)集小導(dǎo)致情感分類(lèi)的準(zhǔn)確率不高;李博等提取顏色直方圖、Itten 對(duì)比、二階矩特征,驗(yàn)證加權(quán)K 近鄰算法在Abstract 數(shù)據(jù)集上離散情感分布預(yù)測(cè)的有效性,但參數(shù)K 需要人工選取。 傳統(tǒng)的機(jī)器學(xué)習(xí)算法在圖像情感語(yǔ)義分類(lèi)中的應(yīng)用已達(dá)到瓶頸,深度學(xué)習(xí)模型被引入到圖像情感語(yǔ)義分類(lèi)領(lǐng)域,能夠解決圖像特征需要人為構(gòu)造的問(wèn)題,有利于縮小圖像底層視覺(jué)特征和深層語(yǔ)義特征之間的“語(yǔ)義鴻溝”。
盛家川等將人類(lèi)認(rèn)知與CNN 模型結(jié)合,根據(jù)中國(guó)畫(huà)顯著性區(qū)域和筆道復(fù)雜度提取感興趣區(qū)域,利用預(yù)訓(xùn)練的微調(diào)GoogLeNet 模型提取中國(guó)畫(huà)的深層特征并進(jìn)行可視化,結(jié)合中國(guó)畫(huà)情感表達(dá)手法知識(shí),調(diào)整模型結(jié)構(gòu),優(yōu)化訓(xùn)練參數(shù),提升中國(guó)畫(huà)情感分類(lèi)的準(zhǔn)確率;盛家川等提出基于CNN 特征聚合重標(biāo)定的中國(guó)畫(huà)情感分類(lèi)算法,重定向圖像為正方形,在ResNet 模型上融合同一模塊下各卷積層特征并反饋至卷積層輸出,重新標(biāo)定通道特征值并強(qiáng)化不同特征的激活強(qiáng)度。 將預(yù)測(cè)值作為權(quán)重,計(jì)算各類(lèi)別激活映射,加權(quán)融合所有類(lèi)別的激活定位,視覺(jué)解釋情感區(qū)域特征,實(shí)現(xiàn)對(duì)中國(guó)畫(huà)的情感特征可視化及情感分類(lèi)任務(wù)。 白茹意等利用抽象畫(huà)的基本元素與人類(lèi)情感之間存在的關(guān)系,提取抽象畫(huà)的底層視覺(jué)特征,采用遷移學(xué)習(xí)方法,將預(yù)訓(xùn)練模型的參數(shù)遷移至目標(biāo)模型并對(duì)模型進(jìn)行微調(diào),提取抽象畫(huà)的深層語(yǔ)義特征,最后將兩者線性融合,利用SVM 方法實(shí)現(xiàn)抽象畫(huà)的情感分類(lèi)任務(wù);王征等利用AlexNet 模型提取中國(guó)畫(huà)的深層特征并與顏色特征融合,將得到的特征組合進(jìn)行特征處理,使用SVM 分類(lèi)器進(jìn)行情感分類(lèi);張浩等為深入分析云南少數(shù)民族繪畫(huà)作品所蘊(yùn)含的情感,微調(diào)預(yù)訓(xùn)練VGG16 模型,將該模型應(yīng)用于Twitter 數(shù)據(jù)集中訓(xùn)練,以提升模型學(xué)習(xí)能力,采用不同方法分別對(duì)繪畫(huà)作品進(jìn)行數(shù)據(jù)增強(qiáng),輸入訓(xùn)練好的微調(diào)模型中,比較各方法以及組合處理方法對(duì)民族繪畫(huà)作品的情感分類(lèi)結(jié)果,以達(dá)到情感分類(lèi)的最優(yōu)狀態(tài)。
深度卷積神經(jīng)網(wǎng)絡(luò)屬于有監(jiān)督學(xué)習(xí)方法,分類(lèi)效果依賴于大量樣本數(shù)據(jù)的訓(xùn)練,通過(guò)模型訓(xùn)練提取圖像深度特征并與傳統(tǒng)的圖像底層特征融合,可以給模型性能帶來(lái)一定的改善。 同時(shí),圖像情感的極性僅與圖像特定的區(qū)域有關(guān),而其他區(qū)域?qū)Ψ诸?lèi)的影響極小,通過(guò)在深度學(xué)習(xí)中引入視覺(jué)注意力機(jī)制,使模型更加關(guān)注那些影響圖像情感分類(lèi)結(jié)果的關(guān)鍵區(qū)域。 此外,隨著模型層數(shù)逐漸加深,訓(xùn)練過(guò)程容易造成圖像細(xì)節(jié)信息的丟失,改進(jìn)模型結(jié)構(gòu)仍存在著巨大的提升空間。 圖像情感分類(lèi)可以在圖像深度特征融合、注意力機(jī)制引入、模型結(jié)構(gòu)改進(jìn)等方面開(kāi)展深入研究,提升圖像情感分類(lèi)的準(zhǔn)確率和效率,同時(shí)降低模型的過(guò)擬合度。
顏色特征是圖像最基本的底層視覺(jué)特征,是圖像中關(guān)鍵與敏感的視覺(jué)信息。 在心理學(xué)的相關(guān)研究中,有學(xué)者認(rèn)為顏色是表達(dá)情感的普遍方式,具有藝術(shù)性、鮮明性、聯(lián)想性、獨(dú)特性、合適性及喚醒性等特點(diǎn)。積極情感的圖像整體色彩較為鮮艷明亮,消極情感的圖像顏色則暗淡壓抑。 在研究圖像底層顏色特征時(shí),大部分學(xué)者習(xí)慣采用顏色直方圖表達(dá)顏色特征,可直觀看出圖像像素的分布情況。 在同一數(shù)據(jù)集中,圖像的像素分布存在較大差異,針對(duì)像素分布不均勻的圖像,部分區(qū)域與整體圖像相比較為明亮或光線較暗,因此采用普通顏色直方圖均衡進(jìn)行全局圖像增強(qiáng),效果不太理想。 自適應(yīng)直方圖均衡(AHE)與顏色直方圖相比,優(yōu)勢(shì)在于該方法通過(guò)計(jì)算圖像每一處顯著區(qū)域的直方圖,重新調(diào)節(jié)圖像亮度值,進(jìn)行均勻分布,以改善圖像每個(gè)區(qū)域的局部對(duì)比度,增強(qiáng)圖像邊緣的清晰度,但該方法容易導(dǎo)致圖像產(chǎn)生噪聲,進(jìn)而產(chǎn)生圖像過(guò)度增強(qiáng)的現(xiàn)象。 限制對(duì)比度自適應(yīng)直方圖均衡(CLAHE)與AHE 相比,通過(guò)對(duì)每一像素鄰域的對(duì)比度限制,得到對(duì)應(yīng)的變換函數(shù),可有效抑制圖像噪聲。與原圖像相比,經(jīng)CLAHE 方法處理后的圖像細(xì)節(jié)更為突出,特征更加豐富,顏色直方圖較原圖像相比也更為平滑,如圖1 所示。
圖1 CLAHE 顏色特征可視化圖Fig.1 Figure of CLAHE color feature visualization
經(jīng)過(guò)CLAHE 算法處理后的顏色特征輸入到兩個(gè)卷積層、兩個(gè)最大池化層、一個(gè)全連接層、3 個(gè)BN層和3 個(gè)激活層的網(wǎng)絡(luò)中。 其中,卷積核大小為3×3,64,2,1;最大池化層均為22,2;全連接層神經(jīng)元為1 000個(gè);激活層使用激活函數(shù);卷積層和全連接層后均連接BN 層,用于防止模型過(guò)擬合。 將該網(wǎng)絡(luò)模型命名為ColorNet,輸出結(jié)果即為圖像的顏色特征,記為,CLAHE 顏色特征提取過(guò)程,如圖2 所示。
圖2 CLAHE 顏色特征提取過(guò)程Fig.2 Extraction process of CLAHE color features
通常物體的表面都具有紋理特征,包含了對(duì)比度和空間頻率等因素,其目的是描述圖像相鄰像素之間灰度空間的分遍歷情況。 圖像紋理特征同屬于圖像底層特征,雖然視覺(jué)效果沒(méi)有顏色特征更直觀,但不同的紋理特征同樣能夠?qū)θ祟?lèi)的情感產(chǎn)生影響。 拉普拉斯算子(Laplacian)是圖像鄰域內(nèi)像素灰度差分計(jì)算的基礎(chǔ),利用二階微分運(yùn)算推導(dǎo)出的一種圖像鄰域增強(qiáng)算法,可用于描述圖像區(qū)域的變化速度。 其基本思想是當(dāng)鄰域的中心像素灰度低于其所在鄰域內(nèi)的其他像素的平均灰度時(shí),中心像素的灰度應(yīng)該進(jìn)一步降低;反之進(jìn)一步提高中心像素的灰度,進(jìn)而實(shí)現(xiàn)圖像銳化處理。 與一階微分運(yùn)算相比,拉普拉斯算子邊緣定位能力更強(qiáng),獲取的邊界信息更加細(xì)致。 因此,利用拉普拉斯算子對(duì)圖像進(jìn)行銳化邊緣檢測(cè)、提取圖像紋理特征有助于圖像分類(lèi)、目標(biāo)檢測(cè)識(shí)別、圖像分割等任務(wù)。 二維圖像拉普拉斯算子公式(1):
其離散化形式可表示為式(2):
Laplacian 算子對(duì)噪聲很敏感,為了獲取較好的紋理,突出邊緣特征信息,使用高斯濾波對(duì)圖像進(jìn)行降噪處理。 本文提取圖像紋理特征具體步驟為:
(1)利用高斯濾波去除圖像噪聲;
(2)將降噪后的圖像轉(zhuǎn)為灰度圖像;
(3)使用Laplacian 算子提取處理后的灰度圖像的邊緣特征;
(4)將處理后的灰度圖像與邊緣特征圖像融合。
經(jīng)Laplacian 算子等處理后得到的紋理特征輸入兩個(gè)卷積層、兩個(gè)最大池化層、一個(gè)全連接層、3個(gè)BN 層和3 個(gè)激活層的網(wǎng)絡(luò)中。 其中,卷積核為3×3,64,2,1;最大池化層均為22,2;全連接層神經(jīng)元為1 000個(gè);3個(gè)激活層使用函數(shù);卷積層和全連接層后均連接BN 層,防止過(guò)擬合。 將該網(wǎng)絡(luò)模型命名為L(zhǎng)apNet,輸出結(jié)果即為圖像的紋理特征,記為,Laplacian 紋理特征的提取過(guò)程,如圖3 所示。
圖3 Laplacian 紋理特征提取過(guò)程Fig.3 Extraction process of texture features
在圖像深度語(yǔ)義特征提取的過(guò)程中,采用ResNet101 與CBAM 注意力機(jī)制融合的網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,在不改變ResNet101 模型原結(jié)構(gòu)的前提下,將通道注意力機(jī)制和空間注意力機(jī)制融入ResNet101 模型的第一層卷積層和最后一層卷積層中,集中關(guān)注圖像主體區(qū)域和局部區(qū)域的特征信息,充分挖掘藝術(shù)圖像的整體特征和細(xì)節(jié)特征,使模型訓(xùn)練和測(cè)試的準(zhǔn)確率較傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型有所提升。 將該融合模型所提取的圖像深層情感語(yǔ)義特征記為,在ResNet101 與CBAM 注意力機(jī)制融合模型中輸入特征圖后,模型不同層所提取到的特征可視化效果圖如圖4 所示。 由此可見(jiàn),隨著融合網(wǎng)絡(luò)模型層數(shù)的不斷加深,肉眼可見(jiàn)的可視化效果逐漸模糊,圖像深層特征變得更加抽象。
圖4 不同層深層特征可視化圖Fig.4 Visualization map of deep features in different layers
將上述提取到的 CLAHE 顏色特征、Laplacian 紋理特征和CBAM 深層語(yǔ)義特征利用() 函數(shù)并按照維數(shù)1(列)進(jìn)行拼接融合,整體輸入到含有兩個(gè)全連接層、兩個(gè)BN 層、一個(gè)激活層的網(wǎng)絡(luò)中,將該卷積神經(jīng)網(wǎng)絡(luò)模型命名為FeaturesNet,其結(jié)構(gòu)如圖5 所示。
圖5 FeaturesNet 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.5 Network model structure of FeaturesNet
2015 年,微軟團(tuán)隊(duì)提出了ResNet 模型,模型結(jié)構(gòu)較其他CNN 模型更深,整體性能也有所提高。 該模型的基本殘差模塊由短路連接路徑和殘差路徑組成,通過(guò)引入網(wǎng)絡(luò)前層與網(wǎng)絡(luò)后層的短路連接路徑加深模型的網(wǎng)絡(luò)深度,有助于訓(xùn)練過(guò)程中梯度的反向傳播,解決其他模型容易引發(fā)的梯度消失問(wèn)題,提升深層次模型的網(wǎng)絡(luò)性能。 殘差路徑結(jié)構(gòu)包括卷積層、BN 層和ReLU 激活層,在連續(xù)兩層卷積層中,將輸入特征與卷積層輸出特征合并,導(dǎo)致輸出結(jié)果由原來(lái)兩層輸出() 變成()。 基于短路連接路徑部分沒(méi)有引進(jìn)其他參數(shù)增加計(jì)算復(fù)雜度,因此即使增加模型層數(shù),也能加快模型的訓(xùn)練速度,提升模型的訓(xùn)練效果。 ResNet 模型共有5 種網(wǎng)絡(luò)結(jié)構(gòu),其中ResNet101 為殘差神經(jīng)網(wǎng)路中最常見(jiàn)的模型,其短路連接路徑中共有3 個(gè)卷積層,分別為兩層1×1 卷積層和一層3×3 卷積層,通過(guò)這3 層卷積層之間的短路連接路徑加深各網(wǎng)絡(luò)結(jié)構(gòu)。
在計(jì)算機(jī)視覺(jué)領(lǐng)域中,注意力機(jī)制(Attention)與人類(lèi)視覺(jué)機(jī)制十分相似,將關(guān)注焦點(diǎn)聚焦在圖像局部顯著區(qū)域位置。 早期研究中,L Itti 等受靈長(zhǎng)類(lèi)生物的視覺(jué)系統(tǒng)啟發(fā),提出視覺(jué)注意力機(jī)制模型,構(gòu)建并融合顏色、方向和亮度特征圖,最終提取復(fù)雜場(chǎng)景圖像的顯著區(qū)域位置。 隨著深度學(xué)習(xí)的普及,將注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,通過(guò)快速掃描數(shù)據(jù)集,判定主要特征區(qū)域,并將注意力集中分布在感興趣區(qū)域或重要信息特征位置,忽略非感興趣區(qū)域及無(wú)關(guān)信息,可更快、更準(zhǔn)確地獲取數(shù)據(jù)集的主要特征信息,提升網(wǎng)絡(luò)模型工作效率。 CBAM 注意力機(jī)制是由Sanghyun Woo 等人于2018 年提出的,其本質(zhì)是前饋卷積神經(jīng)網(wǎng)絡(luò),由通道注意力機(jī)制( ChannelAttention ) 和 空 間 注 意 力 機(jī) 制(SpatialAttention)混合組成。 其工作原理是首先向模型中輸入一張?zhí)卣鲌D,CBAM 注意力機(jī)制依次通過(guò)通道和空間兩個(gè)維度提取特征圖對(duì)應(yīng)的注意力特征圖;將注意力特征圖與輸入特征相乘得到自適應(yīng)優(yōu)化特征。 在通道注意力機(jī)制和空間注意力機(jī)制模塊內(nèi)均包含池化操作,利用平均值池化和最大值池化對(duì)圖像全局區(qū)域和局部區(qū)域給予關(guān)注,同時(shí)保留特征圖細(xì)節(jié)處的語(yǔ)義信息。 考慮到CBAM注意力機(jī)制具有輕量性和通用性的特點(diǎn),本文將CBAM 注意力機(jī)制與ResNet101 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)合,通過(guò)端到端的訓(xùn)練,提升傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的性能。
將實(shí)驗(yàn)整體網(wǎng)絡(luò)模型命名為FeaturesNet,輸入的圖像大小為224×224×3。 由于處理CLAHE 顏色特征和Laplacian 紋理特征均在OpenCV 庫(kù)中進(jìn)行,因此要將向量轉(zhuǎn)換為numpy 數(shù)組形式,再分別進(jìn)行底層特征處理;將CLAHE 顏色特征和Laplacian 紋理特征再轉(zhuǎn)回向量形式,分別輸入ColorNet 和LapNet 網(wǎng)絡(luò)中,進(jìn)一步提取圖像底層特征,ColorNet 輸出的特征記為, LapNet 輸出的特征記為,圖像數(shù)據(jù)輸入ResNet101 與CBAM 融合網(wǎng)絡(luò)模型中得到的深層語(yǔ)義特征記為; 最后,將得到的圖像底層特征和深層情感語(yǔ)義特征融合,輸入ClassNet 網(wǎng)絡(luò)中,進(jìn)而對(duì)藝術(shù)圖像進(jìn)行情感語(yǔ)義分類(lèi)。
本文實(shí)驗(yàn)環(huán)境:處理器為Intel i5-8279U,主頻2.40 GHZ,實(shí)驗(yàn)基于Python 3.7 的深度學(xué)習(xí)框架Pytorch,開(kāi)發(fā)工具為PyCharm,使用Linux 操作系統(tǒng),GPU 進(jìn)行訓(xùn)練,GPU 為NVIDIA Tesla V100-SXM2-16 GB,顯存總量為16 160 MiB。
缺少圖像情感數(shù)據(jù)會(huì)導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的不充分或模型易出現(xiàn)過(guò)擬合的問(wèn)題。 實(shí)驗(yàn)使用Machajdik 等在2010 年所創(chuàng)建ArtPhoto 和Abstract兩個(gè)公開(kāi)數(shù)據(jù)集,其中ArtPhoto 數(shù)據(jù)集由806 幅藝術(shù)圖像及情感標(biāo)簽組成,Abstract 數(shù)據(jù)集包含280 張藝術(shù)抽象畫(huà)。 由于ArtPhoto 和Abstract 數(shù)據(jù)集情感標(biāo)簽完全相同,積極類(lèi)情感和消極類(lèi)情感數(shù)據(jù)集劃分方式一致,通過(guò)對(duì)積極類(lèi)情感和消極類(lèi)情感的標(biāo)簽進(jìn)行投票統(tǒng)計(jì),將得票數(shù)高的標(biāo)簽作為圖像的最終情感類(lèi)別,若積極類(lèi)情感和消極類(lèi)情感求和票數(shù)相同,則剔除該圖像。 經(jīng)情感標(biāo)簽重新劃分后,最終將ArtPhoto 數(shù)據(jù)集和Abstract 數(shù)據(jù)集合并作為本文實(shí)驗(yàn)的數(shù)據(jù)集,其中Positive 類(lèi)共540 張圖像,Negative 類(lèi)共538 張圖像。 數(shù)據(jù)集各標(biāo)簽的示例圖像如圖6 所示。
圖6 圖像情感數(shù)據(jù)集示例圖像Fig.6 The schematic figures of image sentiment dataset
由于原數(shù)據(jù)集大多數(shù)圖像格式是通道數(shù)為3 的RGB 格式圖像,其中也存在少數(shù)通道數(shù)為1 的灰度圖像,為方便后續(xù)實(shí)驗(yàn)的展開(kāi),在數(shù)據(jù)預(yù)處理階段統(tǒng)一將圖像轉(zhuǎn)為RGB 格式。
情感語(yǔ)義信息的主觀性和復(fù)雜性導(dǎo)致帶有情感語(yǔ)義標(biāo)簽的圖像數(shù)據(jù)集較少,而利用深度學(xué)習(xí)方法訓(xùn)練模型的本質(zhì)是在海量數(shù)據(jù)集中學(xué)習(xí)深層次圖像特征,進(jìn)而獲取圖像情感語(yǔ)義信息,因此在數(shù)據(jù)集預(yù)處理階段,還需對(duì)其進(jìn)行數(shù)據(jù)增強(qiáng)操作。 具體操作包括對(duì)數(shù)據(jù)集中各圖像翻轉(zhuǎn)及旋轉(zhuǎn)操作,數(shù)據(jù)集的增強(qiáng)示例圖像如圖7 所示。 對(duì)數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集進(jìn)行人工篩選,最終形成各情感標(biāo)簽均為1 920張實(shí)驗(yàn)數(shù)據(jù)集。
圖7 數(shù)據(jù)增強(qiáng)示例圖Fig.7 The schematic figures of data enhancement
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為圖像情感分類(lèi)準(zhǔn)確率,采用K折交叉驗(yàn)證方法,因此準(zhǔn)確率最終為經(jīng)K 折交叉驗(yàn)證后測(cè)試集的平均準(zhǔn)確率。將標(biāo)準(zhǔn)差() 和(Area Under Curve)作為實(shí)驗(yàn)補(bǔ)充評(píng)價(jià)指標(biāo),通過(guò)記錄每折測(cè)試集的準(zhǔn)確率,計(jì)算測(cè)試集準(zhǔn)確率集合的離散程度,得 出模型值,而值域?yàn)椋?,1],模型值越大,證明模型分類(lèi)的準(zhǔn)確率越高。
在訓(xùn)練過(guò)程中,設(shè)置迭代次數(shù)為20,學(xué)習(xí)率為0.01, BatchSize 為64, 采 用SGD 優(yōu) 化 器, 選 擇損失函數(shù),動(dòng)量梯度下降參數(shù)設(shè)為0.9,使用5 折交叉驗(yàn)證方法。 為驗(yàn)證本文模型對(duì)藝術(shù)圖像情感識(shí)別的效果,選擇經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型ResNet50、ResNet101、ResNet101 與CBAM融合算法及李志義提出改進(jìn)VGGNet 模型、Satoshi Iizuka 提出的ColorNet 中ClassificationNet以及本文提出的特征融合模型進(jìn)行比較,分析各模型對(duì)情感識(shí)別準(zhǔn)確率變化的情況,5 折交叉驗(yàn)證后測(cè)試集的平均準(zhǔn)確率見(jiàn)表1。 由表1 可知,以ResNet101 與CBAM 融合特征作為主干特征,分別用、和3 組特征組合逐一對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,所得的準(zhǔn)確率較經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型及改進(jìn)模型相比均有所提升,本文所提出的基于圖像底層特征和深層情感語(yǔ)義特征融合的FeaturesNet 模型準(zhǔn)確率可達(dá)93.36%,較ResNet50提 升 10.31%, 較 ResNet101 提 升 9.01%, 較ResNet101 與CBAM 融合模型即特征提升6.98%;與改進(jìn)模型VGGNet 相比提升16.59%;與ClassificationNet 相比提升5.31%。 從實(shí)驗(yàn)結(jié)果也可以看出,與的特征組合所得準(zhǔn)確率同比與的特征組合高033。 同時(shí),和模型所對(duì)應(yīng)的標(biāo)準(zhǔn)差較其他模型標(biāo)準(zhǔn)差也較低,的值趨近于1,說(shuō)明在測(cè)試集上本文模型的準(zhǔn)確率表現(xiàn)穩(wěn)定,波動(dòng)較小。在各模型的5 折交叉驗(yàn)證中,選取在訓(xùn)練集上預(yù)測(cè)結(jié)果最好的一折,繪制該折訓(xùn)練全過(guò)程的準(zhǔn)確率及損失值變化情況,各模型的準(zhǔn)確率隨迭代次數(shù)變化的折線對(duì)比圖如圖8 所示,各模型隨迭代次數(shù)變化的損失情況如圖9 所示,橫坐標(biāo)代表迭代次數(shù),縱坐標(biāo)分別代表準(zhǔn)確率和損失值。 由模型在訓(xùn)練集的表現(xiàn)情況可以得出,特征組合模型、和與經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型和他人改進(jìn)模型相比,收斂速度更快,當(dāng)4 時(shí),F(xiàn)eaturesNet 模型的損失值從4 降至05 以下;當(dāng)6 時(shí),F(xiàn)eaturesNet 模型的損失值已經(jīng)趨近于0,準(zhǔn)確率能夠達(dá)到100。
表1 不同模型的準(zhǔn)確率對(duì)比Tab.1 Accuracy comparison with different models
圖8 不同模型的準(zhǔn)確率變化折線圖Fig.8 Line chart of accuracy changes of different models
圖9 不同模型的損失值變化折線圖Fig.9 Line chart of loss value changes of different models
綜上,將圖像的深度特征與傳統(tǒng)特征融合作為藝術(shù)圖像情感分類(lèi)模型的輸入,能夠充分發(fā)揮兩者對(duì)情感分類(lèi)的重要作用,同時(shí)引入基于CBAM 的注意力機(jī)制,使模型的關(guān)注點(diǎn)更集中在圖像的重點(diǎn)區(qū)域,即決定圖像情感傾向的區(qū)域,從而能夠快速有效地提升藝術(shù)圖像的情感語(yǔ)義分類(lèi)的準(zhǔn)確率。
本文提出一種基于深度特征和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型FeaturesNet,將藝術(shù)圖像的傳統(tǒng)底層視覺(jué)特征與深層特征相結(jié)合,從多角度提取容易激發(fā)情感反應(yīng)的藝術(shù)圖像特征,可有效解決模型層數(shù)的加深帶來(lái)細(xì)節(jié)特征丟失的問(wèn)題,同時(shí)引入CBAM 注意力機(jī)制使模型更關(guān)注圖像中決定情感傾向的重要區(qū)域,從而提升藝術(shù)圖像情感分類(lèi)的準(zhǔn)確率。 實(shí)驗(yàn)結(jié)果表明,該模型對(duì)藝術(shù)圖像情感分類(lèi)的準(zhǔn)確率可達(dá)到93.36%,證明其對(duì)藝術(shù)圖像情感分類(lèi)的有效性,為藝術(shù)圖像的鑒賞與保護(hù)工作提供參考。