趙婧琦,李宇蕊,杜明晶+,劉靜瑋
(1.江蘇師范大學(xué) 美術(shù)學(xué)院,江蘇 徐州 221100;2.江蘇師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221100;3.中國航天科工集團第二研究院 七〇六所,北京 100854)
長久以來,針對繪畫作品情感分析的研究備受關(guān)注。隨著計算機視覺技術(shù)的日益成熟,研究人員開始運用計算機進行大規(guī)模的繪畫情感分析[1]。
相對于具象畫,抽象畫采用的是無邏輯的創(chuàng)作風(fēng)格和非具象的表現(xiàn)手法[2]。由于缺少具體物象的描述,因此其較難與特定的情感建立直觀聯(lián)系。這使得抽象畫的情感分析變得非常困難和復(fù)雜。該問題引起了諸多學(xué)者的關(guān)注,涌現(xiàn)了諸多采用監(jiān)督學(xué)習(xí)方法的抽象畫情感分析的研究。監(jiān)督學(xué)習(xí)表現(xiàn)取決于數(shù)據(jù)集規(guī)模和標注質(zhì)量,但人工標注耗時且易受主觀影響。因此,無監(jiān)督學(xué)習(xí)在抽象畫情感分析中具有極大的應(yīng)用前景。
針對抽象畫的情感分析問題,本文提出了一種基于三支特征表示的多核聚類方法(multiple kernel K-means using three-way features,MKKM-3WF)。首先采用本文提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進的深度學(xué)習(xí)模型,分別提取抽象畫的顏色特征、紋理特征和高層語義特征;然后使用核函數(shù)構(gòu)建不同特征的相似度矩陣;最后采用多核聚類算法完成多特征融合與圖像的情感劃分。
本節(jié)主要探討抽象畫圖像情感分析領(lǐng)域的研究進展。該領(lǐng)域的早期研究深受自然語言處理工作的啟發(fā)。例如,Yanulevskaya等[3]將文本處理中的詞袋模型引入到抽象畫圖像處理中,提出了一套視覺詞袋表征框架,并運用支持向量機分類模型實現(xiàn)情感預(yù)測。Sartori等[4]將該算法運用到了業(yè)余抽象畫的情感分析中,也取得了良好的預(yù)測結(jié)果。在圖像情感分析中,紋理特征也扮演著至關(guān)重要的角色。文獻[5]通過所設(shè)計的特征濾波器提取這些灰度圖像的紋理特征,在此基礎(chǔ)上采用支持向量機進行情感分類。深度學(xué)習(xí)技術(shù)的出現(xiàn)給抽象畫情感分析注入新的動力。文獻[6]除了利用人工特征表示方式提取抽象畫圖像底層顏色、紋理特征外,還運用卷積神經(jīng)網(wǎng)絡(luò)提取圖像的高層語義特征。白茹意等[7]在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入遷移學(xué)習(xí)的思想,提取抽象畫圖像的高層語義信息。楊子文等[8]針對抽象畫圖像標注困難、標注較少的問題,提出了兩層遷移學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)設(shè)計方案。上述抽象畫圖像情感分析工作均采用監(jiān)督學(xué)習(xí)策略,而應(yīng)用無監(jiān)督學(xué)習(xí)方法的工作尚未得到廣泛關(guān)注。
為解決現(xiàn)實世界中的不確定信息決策問題,Yao[9]提出了三支決策(three-way decisions,3WD)理論。近年來,學(xué)者們將三支決策進行了拓展,構(gòu)建了諸多理論模型,如三支屬性約簡[10]、三支分類[11,12]、三支聚類[13,14]和三支沖突分析[15]等。針對混合型數(shù)據(jù),胡聲丹等[16]將三支決策和主動學(xué)習(xí)思想引入標簽傳播算法中,提出了三支標簽傳播的半監(jiān)督屬性約簡方法。Du等[17]結(jié)合序貫三支決策的思想,提出多步三支聚類方法。為解決q環(huán)正交模糊信息中的沖突問題,Li等[18]提出基于三支決策和粗糙集理論的三支沖突分析和解決模型。三支決策理論在處理復(fù)雜動態(tài)的不確定性問題方面得到了廣泛應(yīng)用。該理論在信用評價[19]、文本分析[20]和推薦系統(tǒng)[21]等領(lǐng)域發(fā)揮著重要作用。但是,當前鮮有應(yīng)用于圖像特征表示的相關(guān)工作。
本文選擇使用HSL顏色空間,該顏色空間基于人類對顏色的感知能力,更適用于圖像的情感分析工作。此外,相比于其它類似的顏色空間,如HSV顏色空間和L*a*b*顏色空間,HSL顏色空間在后續(xù)劃分操作中更具優(yōu)勢。
HSL顏色空間將顏色分為3個分量:色調(diào)(Hue)、飽和度(Saturation)和明度(Lightness)。色調(diào)通過角度來表示,范圍為0°到360°。從0°的紅色開始,逆時針旋轉(zhuǎn),經(jīng)過120°的綠色和240°的藍色,然后回到360°的紅色。圓柱的直徑方向表示飽和度,圓柱軸心的飽和度為0,表示最低飽和度;圓柱邊緣的飽和度為1,表示最高飽和度。圓柱的垂直方向表示明度,圓柱頂部的明度為1,呈現(xiàn)白色;圓柱底部的明度為0,呈現(xiàn)黑色;圓柱中間部分的明度為0.5,表示中等明度,對應(yīng)HSV中亮度V等于1的情況。
傳統(tǒng)的顏色量化方式采用的是硬化分的方式,將某個區(qū)間指定為某種顏色,即顏色量化采用二支劃分的方式(屬于或者不屬于)。這種劃分方式將導(dǎo)致非此即彼的問題,而人類對顏色的視覺感知具有模糊特性,因此會產(chǎn)生與人們視覺感知的偏差。本文采用三支決策理論來解決該問題。
下文將介紹本文提出的三支決策方案。首先,從HSL顏色空間中提取出3類不包含色彩信息的顏色,它們分別是白色、黑色和灰色。白色的范圍是明度L>0.95;黑色的范圍是明度L<0.05;灰色為明度處于0.05≤L≤0.95且飽和度S<0.1。
接下來,將針對剩余的顏色空間開展三支劃分。在H通道上,我們將依據(jù)人類對顏色的感知將色調(diào)設(shè)定為10個子集,并將它們命名為紅、橙、黃、綠、青、天藍、藍、紫、洋紅、玫紅。在S通道上,我們將飽和度設(shè)定為2個子集:不飽和與飽和。在L通道上,我們將明度設(shè)定為3個子集:暗、中、明。
(1)
(2)
通過笛卡爾積,可以將3個通道上的子集組合成60個HSV顏色空間的子集,再加上3種不含色彩的顏色子集(白色、黑色和灰色),共63個顏色特征。
本文提出一種基于三支決策的紋理特征表示方法可以有效地獲取抽象畫中的紋理信息。
首先,將抽象畫圖像轉(zhuǎn)換為灰度圖像,該灰度圖像表示為矩陣G。
接著定義4種濾波矩陣形式,分別是近似(低通)矩陣、細節(jié)(高通)矩陣、伴隨近似(伴隨低通)矩陣和伴隨細節(jié)(伴隨高通)矩陣。
近似矩陣A中各元素的定義如下[22]
(3)
式中:下標 (i,j) 被用來標識矩陣A的i行第j列的元素。
細節(jié)矩陣D中各元素的定義如下[22]
(4)
伴隨近似矩陣A?中各元素的定義如下[22]
(5)
伴隨細節(jié)矩陣D?中各元素的定義如下[22]
(6)
接下來,對灰度圖像矩陣進行二級小波變換,提取圖像水平、垂直和對角方向的信息。一級小波分解得到的低頻子圖的計算公式如下[22]
G′2n×2m=A?2n×4n·G4n×4m·A4m×2m
(7)
式中:下標2n×2m表示矩陣G′是一個2n行2m列的矩陣。其它矩陣的下標也采用這種表示方法標識矩陣的大小。
在子圖G′2n×2m的基礎(chǔ)上進行二級小波分解,所得水平、垂直和對角方向的子圖分別表示為TH、TV和TD,它們的計算公式如下[22]
(8)
類似于顏色特征的計算,紋理特征上的三支量化計算公式為
(9)
式中:[p1,p2]為紋理特征子集Ti的最小區(qū)間,[b1,b2]為其最大區(qū)間。
通過笛卡爾積,可以將3個方向的信息子集組合成8個紋理特征。
本文提出VGG16的改進模型,用于提取抽象畫圖像中的高層語義特征。
為去除特征中無用信息和噪聲,在VGG16的輸出層之前增加一層包含10個神經(jīng)元的全連接層。本研究在原VGG16最后一個全連接層(包含4096個神經(jīng)元)和新增的全連接層(包含10個神經(jīng)元)之間,增加了兩個全連接層。這樣做是為了讓網(wǎng)絡(luò)結(jié)構(gòu)更穩(wěn)定,并且增強模型的非線性變換能力和表達能力。兩個額外添加的全連接層的神經(jīng)元個數(shù)分別為1024和256。本文最終目標是提取最后一層全連接層(包含10個神經(jīng)元)上的權(quán)重,這樣的低維特征有助于提升后續(xù)處理步驟的效率和聚類精度。
本文采用多核k均值算法(multiple kernel K-means,MKKM)[23]實現(xiàn)圖像的聚類。
在多核學(xué)習(xí)中,X={x1,x2,…,xn} 表示一個包含n個樣本的數(shù)據(jù)集。φp(·) 表示第p個特征映射函數(shù),這類函數(shù)可以將數(shù)據(jù)從原始空間映射到新的特征空間。因此,數(shù)據(jù)x在m個特征函數(shù)的融合表達形式為φβ(x)=[β1φ1(x)T,…,βmφm(x)T]T,其中β=[β1,…,βm]T為m個特征函數(shù)的權(quán)重向量。因此,融合后的核函數(shù)形式如下所示[24]
(10)
式中:Kp(·,·) 為第p個特征映射函數(shù)φp(·) 所對應(yīng)的核函數(shù)形式。
可以用上述核函數(shù)形式,把原始數(shù)據(jù)集表征轉(zhuǎn)換成核矩陣形式Kβ[24]
(11)
式中:Kp是第p個核函數(shù)所轉(zhuǎn)換的數(shù)據(jù)核矩陣。
在上述定義的基礎(chǔ)上,MKKM的目標函數(shù)可以定義為如下形式[25]
(12)
式中:H是一個聚類劃分矩陣,大小為n×k,其中n是樣本數(shù)目,k是聚類數(shù)目;In和Ik分別表示大小為n×n和k×k的單位矩陣;βp為權(quán)重向量β的第p個分量。
可以通過一種兩步迭代優(yōu)化算法來自適應(yīng)地更新權(quán)重β并求解式(12)的目標函數(shù)[26]。
(1)固定β,更新H。該種情況下,式(12)與下式等價[27]
(13)
可以通過特征分解進行求解,H的最優(yōu)解為Kβ最大的前k個特征值所對應(yīng)的特征向量。
(2)固定H,更新β。該種情況下,式(12)與下式等價[27]
(14)
可以將上述問題看作帶有線性約束條件的二次規(guī)劃問題,進而求解相應(yīng)的β。
基于特征融合的聚類情感分析框架如圖1所示。
圖1 本文方法框架
首先對抽象畫圖像進行預(yù)處理:將不同規(guī)格的圖像縮放為統(tǒng)一大??;將部分灰度圖像轉(zhuǎn)換到RGB空間中。
第一個核心階段是使用2.1節(jié)~2.3節(jié)描述的方法分別提取抽象畫圖像的顏色特征、紋理特征以及高層語義特征。
本文選用高斯核函數(shù)作為特征映射函數(shù)。高斯核函數(shù)是多核學(xué)習(xí)中最常用的核函數(shù)之一,其形式如下
(15)
式中:σ為高斯核函數(shù)的帶寬參數(shù),控制著高斯函數(shù)的寬度。本文將該參數(shù)設(shè)置為1。
令K1、K2、K3分別表示使用高斯核函數(shù)對抽象畫圖像的顏色特征、紋理特征和高層語義特征計算得到的核矩陣??梢允褂眉訖?quán)平均的方式得到初始融合核矩陣,其形式如下
(16)
第二個核心階段是使用2.4節(jié)描述的MKKM聚類算法實現(xiàn)抽象畫圖像情感劃分。
本文選用廣泛應(yīng)用于抽象畫情感分析領(lǐng)域的MART數(shù)據(jù)集和DeviantArt數(shù)據(jù)集[3,4]。MART數(shù)據(jù)集共包含500張專業(yè)的抽象畫作。DeviantArt數(shù)據(jù)集共包含500張業(yè)余愛好者繪制的抽象畫作。
為了驗證所提方法的有效性,本文選擇了幾種性能優(yōu)異的聚類方法作為基準。
PCA+k-means[28]:對原始圖像采用主成分分析(principal component analysis,PCA)進行降維,在降維后的特征上進行k-means聚類。本文將此種策略記作PCA+k-means。
UMAP+k-means[29]:對原始圖像采用統(tǒng)一流形逼近與投影方法(uniform manifold approximation and projection,UMAP)[30]進行降維,在降維后的特征上進行k-means聚類。本文將此種策略記作UMAP+k-means。
AE+k-means[31]:采用自動編碼器(AutoEncoder,AE)[32]對圖像進行特征提取,在提取的特征上進行k-means聚類。本文將此種策略記作AE+k-means。
DCEC[33]:一種經(jīng)典的深度卷積嵌入聚類模型,該模型直接可以讀入圖像數(shù)據(jù)并給出聚類結(jié)果。本文將此種策略記作DCEC。
為衡量聚類結(jié)果的好壞,本文采用3種常用的聚類評價指標:準確度(accuracy,ACC)、Fowlkes-Mallows指數(shù)(Fowlkes-Mallows index,F(xiàn)MI)和歸一化互信息(norma-lized mutual information,NMI)。
將本文的方法與4種基準聚類方法進行對比,表1展示了這些方法在MART和DeviantArt數(shù)據(jù)集上的聚類效果。從表1中可以看出,本文方法在ACC、FMI和NMI這3類指標上都顯著優(yōu)于其它4種基準方法。在MART數(shù)據(jù)集上,本文方法的ACC指標達到了0.872,而4種方法的ACC值均低于0.7;本文方法的FMI值為0.807,其相較于4種基準方法平均提高了20個百分點;在NMI指標上,本文方法得分為0.46,超過4種基準方法一個數(shù)量級以上。而DeviantArt數(shù)據(jù)集上,本文方法的ACC指標達到了0.884,而4種方法的ACC值均低于0.6;本文方法的FMI值為0.819,其相較于4種基準方法提高了26個百分點以上;在NMI指標上,本文方法得分為0.543,同樣超過4種基準方法一個數(shù)量級以上。
表1 方法性能
綜上所述,該方法明顯優(yōu)于其它基準方法,包括兩種基于深度學(xué)習(xí)的基準方法(AE+k-means和DCEC)。這充分說明在處理抽象畫圖像的情感分析問題時,采用多特征融合的聚類策略具有更為明顯的優(yōu)勢。3種不同特征(顏色特征、紋理特征和高層語義特征)能夠捕捉抽象畫的不同方面或視角。多核聚類算法有助于發(fā)現(xiàn)這些特征之間的一致性和差異性,通過整合3種特征,實現(xiàn)信息的互補和校正,從而提供更全面、更準確的情感表征,最終達到更高的聚類精度。
本節(jié)通過消融實驗驗證本文提出的顏色特征表示方法和紋理特征表示方法的有效性。將本算法中基于三支決策的顏色特征分別替換為Itten顏色特征[34]和顏色命名特征[35],并分別記作MKKM-Itten和MKKM-Name。將本算法中基于三支決策的紋理特征分別替換為GLCM紋理統(tǒng)計特征[36]和Tamura紋理特征[37],并分別記作MKKM-GLCM和MKKM-Tamura。此外,還同時替換掉了顏色特征和紋理特征。將本算法使用顏色特征和紋理特征同時替換Itten顏色特征[34]和GLCM紋理統(tǒng)計特征[36],將此種模型記作MKKM-IG。將本算法使用顏色特征和紋理特征同時替換顏色命名特征[35]和Tamura紋理特征[37],將此種模型記作MKKM-NT。
表2展示了消融實驗的結(jié)果。從表中的聚類結(jié)果可以看出,本方案的聚類表現(xiàn)明顯優(yōu)于改動方案。相較于基于顏色特征的改動方案(MKKM-Itten和MKKM-Name),本方案在ACC、FMI和NMI上的平均提升分別為31個、24個和49個百分點。相較于基于紋理特征的改動方案(MKKM-GLCM和MKKM-Tamura),本方案在ACC、FMI和NMI上的平均提升分別為15個、15個和26個百分點。相較于顏色和紋理特征同時改動的方案(MKKM-IG和MKKM-NT),本方案在ACC、FMI和NMI上的平均提升分別為36個、26個和50個百分點?;谌Q策的顏色特征相較于兩種經(jīng)典的顏色特征(Itten顏色特征和顏色命名特征),在應(yīng)對抽象畫情感聚類任務(wù)時具有明顯優(yōu)勢。同樣地,基于三支決策的紋理特征相比于兩種經(jīng)典的紋理特征(GLCM紋理統(tǒng)計特征和Tamura紋理特征),也有較大提升。同時融合三支決策的顏色特征和紋理特征的方案相較于同時融合經(jīng)典顏色特征和紋理特征的方案具有非常顯著提升,且優(yōu)于僅改動一種特征的方案。這可能源于三支決策在不確定處理方面具有天然優(yōu)勢。
表2 消融結(jié)果
綜上所述,本文提出的兩種圖像特征表示方式顯著提高了抽象畫的情感聚類分析表現(xiàn)。
本文提出了一種抽象畫圖像自動情感聚類方法。所提出的基于三支決策的顏色特征表示方法和紋理特征表示方法以及改進的深度學(xué)習(xí)模型能夠有效地提取抽象畫中的顏色特征、紋理特征和高層語義特征。多核k均值算法能夠自適應(yīng)地融合從抽象畫圖像中提取的3種特征,并實現(xiàn)情感聚類分析。實驗結(jié)果表明,相較于4種基準方法,本文方法取得了更好的聚類表現(xiàn)。多模態(tài)環(huán)境下的情感聚類分析是未來的研究方向。