邵 曦,劉君芳,季茜成
(南京郵電大學(xué) 通信與信息工程學(xué)院,南京 210003)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,電子相冊(cè)服務(wù)逐漸成為互聯(lián)網(wǎng)基礎(chǔ)服務(wù)之一.近年來(lái)隨著低存儲(chǔ)成本以及高分辨率性能的多媒體技術(shù)的發(fā)展,數(shù)字圖像的數(shù)量也得到了爆炸式的增長(zhǎng).Facebook(www.facebook.com)和Flickr(www.flickr.com)的相冊(cè)就是典型的代表.截至2013年9月,F(xiàn)lickr已擁有超60億張的圖片.而很多其他的社交網(wǎng)站如Facebook,甚至擁有更大規(guī)模的圖片數(shù)量.截至2012年5月,F(xiàn)acebook擁有約9億用戶,截至2013年11月每天會(huì)上傳大約3.5億張照片.此外,這些年來(lái)隨著移動(dòng)互聯(lián)網(wǎng)平臺(tái)的不斷發(fā)展,用戶們更多地傾向于使用智能手機(jī)或平板拍攝照片并添加相冊(cè).這一切都使得電子相冊(cè)的數(shù)量得到迅猛地增長(zhǎng).總之,不管是在個(gè)人電腦領(lǐng)域,線上服務(wù),或者是移動(dòng)平臺(tái),電子相冊(cè)服務(wù)都占著相當(dāng)重要的位置.因而在改進(jìn)其用戶體驗(yàn)以及完善其功能上,也具有很大的研究發(fā)展空間.
除了相冊(cè)的發(fā)布與共享,一些軟件例如iphoto還能提供為相冊(cè)選擇背景音樂(lè)的功能.當(dāng)用戶在瀏覽相冊(cè)時(shí),如果能同時(shí)欣賞到符合照片情境的背景音樂(lè),也會(huì)帶來(lái)與眾不同的感受.比如,為婚禮的圖片搭配浪漫的背景音樂(lè);為籃球比賽的圖片搭配緊張刺激的音樂(lè).在這種氛圍下瀏覽圖片,會(huì)帶來(lái)更美妙的視覺(jué)聽覺(jué)感受.但讓用戶親手選擇背景音樂(lè)也存在費(fèi)時(shí)費(fèi)力不夠?qū)I(yè)的缺點(diǎn).因此,若能自動(dòng)生成音樂(lè)相冊(cè)則可以解決上述的一系列問(wèn)題,提高瀏覽電子相冊(cè)時(shí)的用戶體驗(yàn).但是如何跨越音樂(lè)與圖片之間的語(yǔ)義鴻溝是個(gè)很困難的問(wèn)題.無(wú)論是一張圖片還是一段音樂(lè)都包含了一段故事,而這段故事包含了相關(guān)的情感.根據(jù)兩者之間這一共通點(diǎn),可以聯(lián)想到跨模態(tài)檢索,其研究對(duì)象是不同模態(tài)的多媒體數(shù)據(jù),這些數(shù)據(jù)的特征有各自不同的表示方法和提取方法,因而具有異構(gòu)性,但是在情感語(yǔ)義上又相互關(guān)聯(lián),即不同模態(tài)的特征可以表征同一個(gè)情感語(yǔ)義概念,比如一張圖片或者一段音樂(lè)都能同時(shí)感受出“愉快”的感覺(jué).由此可以看出多媒體時(shí)代的數(shù)據(jù)呈現(xiàn)出多模態(tài)數(shù)據(jù)混合并存,不同類型的多媒體數(shù)據(jù)表達(dá)相似情感且數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特性[1].由于多媒體數(shù)據(jù)的這種特性,不同模態(tài)的多媒體數(shù)據(jù)之間的相似性度量就變得非常困難.另一方面,從不同模態(tài)提取出來(lái)的特征向量往往維數(shù)不同,具有異構(gòu)性和不可比擬性,不能直接進(jìn)行相似性計(jì)算.所以若能實(shí)現(xiàn)音樂(lè)相冊(cè)的自動(dòng)生成研究,則也是實(shí)現(xiàn)了跨越不同模態(tài)處理多媒體數(shù)據(jù)的檢索,即跨模態(tài)檢索.
目前大部分的圖像瀏覽系統(tǒng)如美圖看看,Picasa等都是傳統(tǒng)的幻燈片形式,人們?yōu)g覽了一定數(shù)量的圖片之后難免會(huì)產(chǎn)生審美疲勞.雖然也有不少軟件擁有制作電子相冊(cè)的功能,其主要目的是把一張張圖像集合成幻燈片模式自動(dòng)播放,也有手動(dòng)為其添加背景音樂(lè)的功能.例如iphoto能提供讓用戶為相冊(cè)指定背景音樂(lè)的功能,用戶通過(guò)搜索手機(jī)中存在的音樂(lè)為相冊(cè)添加背景音樂(lè).然而當(dāng)要添加背景音樂(lè)過(guò)多時(shí),會(huì)顯得繁瑣.人們一直在尋求更加智能便捷的方式,使得在瀏覽相冊(cè)的同時(shí)獲得更好的用戶體驗(yàn).
盡管現(xiàn)代的演示系統(tǒng)提供強(qiáng)大的編輯和組織的功能,連續(xù)的瀏覽模式依然很難滿足視覺(jué)和聽覺(jué)的要求.因此,在過(guò)去的幾十年中,有相當(dāng)數(shù)量的研究[2-3]已經(jīng)對(duì)視覺(jué)和聽覺(jué)進(jìn)行了關(guān)聯(lián),按關(guān)聯(lián)類型,大致可分為兩種: 1) 以音樂(lè)為中心的關(guān)聯(lián);2) 以圖片為中心的關(guān)聯(lián).
1) 以音樂(lè)為中心的關(guān)聯(lián)
這種類型是給定一個(gè)音樂(lè)片段,為它關(guān)聯(lián)圖片.目前廣泛使用的有Winamp和微軟的媒體播放器,但它只是在播放音樂(lè)的同時(shí)生成簡(jiǎn)單的圖像.這些視覺(jué)動(dòng)畫不一定與播放的音樂(lè)內(nèi)容相關(guān).Chen等[4]提出一種音樂(lè)可視化系統(tǒng),它在播放用戶選取的音樂(lè)片段的同時(shí),播放一組基于視覺(jué)和聽覺(jué)相似性的圖像.其想法與本文大致相似,只是在實(shí)驗(yàn)時(shí)先對(duì)圖像進(jìn)行情感的分類,再將情感標(biāo)簽與音樂(lè)的情感相聯(lián)系,并沒(méi)有對(duì)其底層特征進(jìn)行相似性的研究.Xiang等[5]挖掘美學(xué)能量作為媒介建立一個(gè)自動(dòng)的圖片瀏覽系統(tǒng).美學(xué)能量的基本思想是“聽見顏色,看見聲音”.Hua等[6]提出了一種家庭視頻自動(dòng)編輯系統(tǒng).在這個(gè)系統(tǒng)中,用戶可以指定一個(gè)音樂(lè)片段,然后系統(tǒng)會(huì)按一定的編輯規(guī)則自動(dòng)提取一系列的視頻片段.盡管上述提到的一系列研究在一定程度上將圖像和音樂(lè)進(jìn)行了關(guān)聯(lián),這類系統(tǒng)的功能被限定在某些特定的情感空間,因?yàn)橐粋€(gè)音樂(lè)片段包含了某些固定的情感.因此,照片的類型也總是收斂到一個(gè)特定的類型,并且一(音樂(lè))對(duì)多(照片)的展示方式可能會(huì)讓用戶感到無(wú)聊.
2) 以圖片為中心的關(guān)聯(lián)
與上一種關(guān)聯(lián)模式相比,以圖片為中心的關(guān)聯(lián)模式則以圖片開始,展示了一組與圖片相關(guān)的音樂(lè)伴奏.多對(duì)多的關(guān)聯(lián)關(guān)系使這種類型的系統(tǒng)更加復(fù)雜,但這比以音樂(lè)為中心的關(guān)聯(lián)模式更加有趣.Wu等[7-8]提出根據(jù)圖像的視覺(jué)特征生成音樂(lè)的方法.Chen等[9]提出以平鋪幻燈片方式顯示照片,將照片和用戶選擇的音樂(lè)進(jìn)行瓦狀方式的組合.Su等[10]提出了一種基于情感的視聽演示系統(tǒng),利用分類器來(lái)識(shí)別視覺(jué)和聽覺(jué)中的情緒.Li等[11-12]提出基于情感的專門針對(duì)印象派繪畫和古典音樂(lè)片段的視聽演示系統(tǒng).在文獻(xiàn)[11]中,具有相似情感的繪畫被分為一個(gè)集群.對(duì)每個(gè)集群挑選相對(duì)應(yīng)的音樂(lè)片段作為背景音樂(lè).文獻(xiàn)[7-8]為一張圖片生成音樂(lè)并不是我們的目標(biāo).對(duì)于文獻(xiàn)[9],這項(xiàng)工作的主要觀點(diǎn)是設(shè)計(jì)自適應(yīng)照片布局.此外,該研究中背景音樂(lè)是手動(dòng)選擇的.對(duì)于文獻(xiàn)[10],簡(jiǎn)單的對(duì)應(yīng)方式導(dǎo)致音樂(lè)和圖像的組合局限在一個(gè)有限的情感空間.對(duì)于文獻(xiàn)[11],主要的問(wèn)題是在實(shí)際應(yīng)用中計(jì)算成本太高.另外在這種關(guān)聯(lián)模式中,最大的一個(gè)難點(diǎn)在于如何處理不同音樂(lè)片段之間的平滑銜接問(wèn)題.
此外,近幾年多媒體情感分析[12-13]一直是一個(gè)熱門話題.在圖片情感分析方面,Wang等[14]定義了一個(gè)三維情感空間,并且為藝術(shù)作品設(shè)計(jì)了3種情感因素.Mehrabian[15]通過(guò)顏色直方圖,基于心理物理學(xué)的特征和基于情感色彩的特征來(lái)描述圖像的全局外觀.Yoo[16]提出情感量表來(lái)查詢?cè)L問(wèn)圖像.Solli等[17-18]提出幾種來(lái)自于心理物理學(xué)實(shí)驗(yàn)的顏色情感度量,從而進(jìn)行基于內(nèi)容的圖像檢索.Shin等[19]提出一種基于小林規(guī)模[20]的概率模型來(lái)預(yù)測(cè)圖像的情感.在音樂(lè)情感分析方面,Myint等[21]根據(jù)情感的變化分割音樂(lè)片段,并據(jù)此對(duì)片段添加心情標(biāo)簽.
我們所提出的基于情感的家庭音樂(lè)相冊(cè)自動(dòng)生成研究的框架如圖1所示.在訓(xùn)練階段,分別對(duì)圖像和音樂(lè)提取合適的情感特征,并選擇合適的情感模型與情感分類標(biāo)準(zhǔn)建立訓(xùn)練集,然后,通過(guò)典型相關(guān)算法分析具有相同情感的圖像特征與音頻特征之間潛在的相關(guān)性,從而得出每種情感類別的子空間映射模型.在音樂(lè)相冊(cè)自動(dòng)生成階段,通過(guò)對(duì)一段輸入的未知情感的音頻片段,先進(jìn)行情感的判別,再根據(jù)情感判別結(jié)果和訓(xùn)練階段學(xué)習(xí)到的子空間映射模型,在待篩選的測(cè)試圖像庫(kù)中,得出與音頻片段情感表達(dá)最接近的圖像序列來(lái)生成家庭相冊(cè).下面將分別介紹本文音樂(lè)特征提取和圖像特征提取方法,以及使用典型相關(guān)分析(Canonical Correlation Analysis, CCA)算法進(jìn)行子空間映射的方法.
圖1 音樂(lè)相冊(cè)自動(dòng)生成研究框架Fig.1 The framework of music album generation
本文主要分析圖像與音頻特征之間的典型相關(guān)性,因而在特征提取上,未進(jìn)行過(guò)多的討論研究,根據(jù)文獻(xiàn)[22]的研究結(jié)果,提取典型的梅爾頻率頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC)特征和在感知線性預(yù)測(cè)(Perceptual Linear Predictive, PLP)基礎(chǔ)之上引出的相關(guān)譜感知線性預(yù)測(cè)(RelAtive SpecTrA-Perceptual Linear Predictive, RASTA-PLP)特征,實(shí)驗(yàn)表明,這兩種特征在音樂(lè)情感表征上具有較好的效果.對(duì)于一段30s左右的音樂(lè)片段,我們?nèi)?0階MFCC系數(shù)特征,21階PLP頻譜參數(shù),9階PLP倒譜參數(shù)RASTA-PLP,計(jì)算其均值和方差,獲得100維的特征值,將其組成最終的特征向量來(lái)描述一個(gè)音樂(lè)片段.
在圖像蘊(yùn)含的眾多信息中,最直觀的是顏色特征,而人對(duì)顏色的敏銳程度會(huì)直接影響人的感受,如圖2(見第152頁(yè))所示.近幾年,在顏色心理學(xué)的理論基礎(chǔ)上,研究者們更加深入地探討了不同的顏色與其產(chǎn)生的不同情感之間的關(guān)系,獲得了很大的收獲.
從色調(diào)上,人們一般把顏色分成暖色和冷色.所說(shuō)的顏色冷暖其實(shí)是心理上的一種感受,和真實(shí)的溫度并沒(méi)有直接的聯(lián)系.暖色即為當(dāng)人們?cè)诳吹郊t色、黃色、橙色以及類似的顏色時(shí),內(nèi)心會(huì)產(chǎn)生愉快、調(diào)皮、溫暖的感受.而冷色即為在看到藍(lán)色、紫色、白色及類似的顏色時(shí),會(huì)產(chǎn)生一種清冷、高貴、神圣的感覺(jué)[23].此外,紅顏色象征著火熱與激情,會(huì)讓人激昂、愉悅、興奮;橙顏色給人充滿活力和溫暖的感覺(jué);黃顏色像太陽(yáng)一樣給人希望與光明,象征智慧之光;綠顏色讓人聯(lián)想青山綠水,給人舒適、朝氣蓬勃,充滿生命力的感覺(jué);藍(lán)顏色讓人聯(lián)想起大海,藍(lán)天,給人純凈、清新自然的感覺(jué);紫顏色讓人聯(lián)想紫氣東來(lái),九五至尊,給人虔誠(chéng)和雍容華貴的感覺(jué);白顏色常與雕像、白鴿、醫(yī)生聯(lián)系,給人純潔高尚和干凈清爽的感覺(jué);黑顏色讓人想起黑夜、陰謀、死亡,給人以肅穆、恐怖、神秘的感覺(jué)[24].
圖2 顏色與情感的圖像舉例Fig.2 Examples of color and emotion
此外,人們對(duì)于不同飽和度的顏色也會(huì)產(chǎn)生不一樣的感受,顏色的純度越高,給人的視覺(jué)沖擊力越大,越會(huì)引發(fā)更加強(qiáng)烈的感官刺激,如大紅、大綠等,顏色越鮮艷,越能吸引人的注意.人們常說(shuō)的中性色算是一種純度較低的顏色,如灰紅、灰藍(lán)等給人的視覺(jué)沖擊力較弱,給人柔和、平易樸實(shí)的感覺(jué),顏色相對(duì)較暗,但是別有一番韻味.就顏色的明度來(lái)說(shuō),明亮色讓人感到輕松,暗色讓人感到厚重;此外,不同的顏色疊加對(duì)情感也會(huì)產(chǎn)生一定程度的影響,如紅藍(lán)黃一起疊加后的顏色會(huì)使人感覺(jué)協(xié)調(diào)、愉悅,互補(bǔ)色使人感到寧?kù)o舒適,而非互補(bǔ)色會(huì)使人感覺(jué)惡心[25].
考慮到顏色特征在圖像情感研究中的重要性,我們選取顏色矩以及文獻(xiàn)[26]提出的顏色對(duì)比度作為圖像特征.具體特征抽取過(guò)程如下: 將輸入圖像分成5×5=25張大小相等的子圖,將每張子圖的圖像數(shù)據(jù)從RGB(Red, Green, Blue)空間轉(zhuǎn)換到HSV(Hue, Saturation, Value)空間.顏色矩為計(jì)算每一張子圖在HSV空間各個(gè)分量上的一階矩(均值)、二階矩(方差)和三階矩(偏度).
此外,本文還提取了顏色對(duì)比度作為其特征之一,顏色對(duì)比空間(Opponent Color Space, OPP)計(jì)算公式如下:
(1)
式中:r,g,b為RGB顏色空間內(nèi)任意像素點(diǎn)的R、G、B通道的值,取值范圍為0~1.顏色對(duì)比度定義如下:
(2)
通過(guò)該方法提取每張子圖在色調(diào),飽和度,明度分量上的均值、方差和偏度,以及顏色對(duì)比度,即3×3×25=225個(gè)顏色特征值和25個(gè)顏色對(duì)比度值,由此一張圖像可以由250維特征向量來(lái)描述.
一般在多模態(tài)分析中,人們普遍使用語(yǔ)義標(biāo)簽作為連接橋梁,即將音樂(lè)特征與基于內(nèi)容的語(yǔ)義標(biāo)簽對(duì)應(yīng),分析之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)音樂(lè)底層特征與高層語(yǔ)義的關(guān)聯(lián).圖像問(wèn)題也是如此.本文直接研究圖像特征和音樂(lè)特征之間的關(guān)系,并將其歸結(jié)為典型相關(guān)分析問(wèn)題.一般地,假設(shè)兩組變量的數(shù)據(jù)x=(x1,x2,…,xp)和y=(y1,y2,…,yq),典型相關(guān)分析就是分析兩組變量之間的相關(guān)性.
分析相關(guān)性最普通的方法是對(duì)兩組中的所有變量都計(jì)算一下它們兩兩之間的相關(guān)性,最終求得p×q個(gè)相關(guān)系數(shù),利用求得的系數(shù)來(lái)描述這兩組變量之間的相關(guān)性特點(diǎn),但這種做法常導(dǎo)致數(shù)據(jù)量太大;另一種方法與主分量分析法相似,取每組變量的線性組合,組成典型變量,這樣只需要研究幾個(gè)典型的變量,就可以描繪出兩者總體的關(guān)系,并且確保這些典型變量之間是不相關(guān),如此做法既能降低數(shù)據(jù)的維度又對(duì)變量之間的典型相關(guān)關(guān)系進(jìn)行分析.在實(shí)際使用中,一般只需針對(duì)幾組相關(guān)性較強(qiáng)的變量進(jìn)行分析,因?yàn)樗鼈兓旧虾w了所有的變量間的相關(guān)信息.圖3(a)是典型相關(guān)分析的示意圖,我們需要找到兩個(gè)變換a和b,使得數(shù)據(jù)x經(jīng)過(guò)a變換后的變量u(u=〈a,x〉)和數(shù)據(jù)y經(jīng)過(guò)b變換后的變量v(v=〈b,y〉)之間的相關(guān)度最大.這樣,不同模態(tài)之間的特征向量通過(guò)變換被映射到了同一維度的子空間,而同一模態(tài)具有相似特征的向量就會(huì)被映射到子空間的臨近區(qū)域,從而不同模態(tài)之間的相似性就有了衡量的依據(jù).
然而,典型相關(guān)分析的前提是基于假定的線性空間,考慮到實(shí)際中不同模態(tài)數(shù)據(jù)之間存在非線性相關(guān)的特點(diǎn),我們提出使用核化典型相關(guān)分析(Kernel Canonical Correlation Analysis, KCCA)來(lái)解決這個(gè)問(wèn)題.核化典型相關(guān)分析的示意圖如圖3(b)所示.先將特征向量x和y分別經(jīng)過(guò)非線性映射Φ(·)從低維映射到高維,然后再對(duì)高維向量Φ(x)和Φ(y)做典型相關(guān)分析.
圖3 典型相關(guān)分析與核化典型相關(guān)分析示意圖Fig.3 The diagrams of CCA and KCCA approach
4.1.1 音樂(lè)數(shù)據(jù)集
本文根據(jù)MIREX(the Music Information Retrieval Evaluation eXchange)的5類情感分類標(biāo)準(zhǔn)建立音樂(lè)數(shù)據(jù)集和圖像數(shù)據(jù)集,如表1(見第154頁(yè))所示.第2列表示每個(gè)類別的中心情感詞,其他的詞都是對(duì)中心詞的相近描述.這樣描述比用單一標(biāo)簽的方法更精確.
在音樂(lè)情感識(shí)別領(lǐng)域,目前還沒(méi)有通用的中文音樂(lè)情感數(shù)據(jù)庫(kù),因此本文所有的訓(xùn)練測(cè)試數(shù)據(jù)都是自行搜集和篩選的.具體步驟如下:
1) 找10位同學(xué),根據(jù)表1的5類音樂(lè)情感描述,在百度音樂(lè)庫(kù)中下載每類情感對(duì)應(yīng)的歌曲,每人20首,對(duì)音樂(lè)進(jìn)行分割,選取每首歌中最能表達(dá)情感的30s片段,從而獲得5個(gè)類別共計(jì)1000個(gè)音樂(lè)片段.
2) 由于對(duì)音樂(lè)情感標(biāo)注存在很大的主觀性,為了增強(qiáng)音樂(lè)數(shù)據(jù)集的可信度,本文采用多人同時(shí)標(biāo)注的辦法.讓10名同學(xué)對(duì)這1000個(gè)音樂(lè)片段進(jìn)行判定,對(duì)同一音樂(lè)片段有5人以上標(biāo)注為同一情感的,則認(rèn)定該音樂(lè)片段屬于此類情感.否則放棄該片段數(shù)據(jù).經(jīng)此步驟篩選出了800個(gè)音樂(lè)片段,每類160首.
3) 讓10位同學(xué)對(duì)第2)步產(chǎn)生的音樂(lè)片段進(jìn)行VA(Valence,Arousal)值的標(biāo)注,每人800首,為實(shí)驗(yàn)方便,VA值的范圍取{-1,-0.8,-0.6,…,0,…,0.8,1},標(biāo)注后再取平均值.
4) 對(duì)標(biāo)注后的800個(gè)音樂(lè)片段進(jìn)行篩選,劃定每類情感的VA值范圍如表2(見第154頁(yè))所示,刪除超出范圍的音樂(lè)片段,選取500個(gè)音樂(lè)片段作為實(shí)驗(yàn)數(shù)據(jù)集,每類100個(gè)音樂(lè)片段.
5) 用格式轉(zhuǎn)換軟件,將音樂(lè)片段統(tǒng)一為采樣率16kHz,wav格式,單聲道.每次實(shí)驗(yàn)時(shí),在每個(gè)類別中隨機(jī)選取90首作為訓(xùn)練數(shù)據(jù),測(cè)試時(shí)從剩下的10首中選擇作為測(cè)試數(shù)據(jù).另外在百度音樂(lè)庫(kù)上任意下載50首歌曲,不進(jìn)行任何情感標(biāo)注處理,只摘取其中最體現(xiàn)情感的30s片段組成測(cè)試庫(kù).至此,音樂(lè)訓(xùn)練庫(kù)共有音樂(lè)片段450首,測(cè)試庫(kù)有已知情感的音樂(lè)片段50首和未知情感的音樂(lè)片段50首.
表1 MIREX的5類情感分類標(biāo)準(zhǔn)
表2 5類音樂(lè)情感的VA值范圍
4.1.2 圖像數(shù)據(jù)集
為了實(shí)現(xiàn)基于典型相關(guān)分析的音樂(lè)相冊(cè)自動(dòng)生成研究,本文采用兩個(gè)圖像數(shù)據(jù)集: 從共享網(wǎng)站上下載的藝術(shù)類圖像集[27]和國(guó)際情緒圖像系統(tǒng)(the International Affective Picture System, IAPS)[28]數(shù)據(jù)庫(kù).IAPS圖像庫(kù)是由美國(guó)研究中心和國(guó)立精神衛(wèi)生研究所花費(fèi)多年時(shí)間收集的,包含大多數(shù)情感的圖像庫(kù).圖像庫(kù)中涵蓋了許多描述起來(lái)復(fù)雜的關(guān)于自然場(chǎng)景的記錄型圖像,例如昆蟲、人臉表情、疾病、車禍災(zāi)難、優(yōu)美風(fēng)景、獵狗、蟒蛇、攻擊場(chǎng)景等等.Mikels等[29]、Lang[30]從中挑選了394幅具有顯著代表性的圖像組成圖像庫(kù),進(jìn)行情感分類相關(guān)的研究,他們把圖像細(xì)分成8類,包括憤怒(A)、厭惡(D)、害怕(F)、敬畏(Aw)、悲傷(S)、滿足(C)、娛樂(lè)(Am)和興奮(E).
本文實(shí)驗(yàn)為了與音樂(lè)的情感相對(duì)應(yīng),在圖像上同樣采用MIREX的5類情感分類標(biāo)準(zhǔn).由于IAPS中對(duì)每一幅圖像都有Valance和Arousal的標(biāo)注,因此給本文的數(shù)據(jù)庫(kù)準(zhǔn)備帶來(lái)了很大的方便.根據(jù)文獻(xiàn)[31]提出IAPS圖像在Valance和Arousal軸上的映射,可以看出圖像情感VA值所處范圍為1~9,與音樂(lè)數(shù)據(jù)集的VA值相對(duì)應(yīng),本文界定出5類圖像情感的VA值范圍如表3所示.
根據(jù)表3,在圖像庫(kù)中摘錄表1中所列5種情感類別下,滿足該表標(biāo)準(zhǔn)的圖像作為樣本來(lái)構(gòu)建圖像數(shù)據(jù)集,圖像數(shù)據(jù)集的情況如表4所示.訓(xùn)練集中共有圖像樣本450張,測(cè)試集中共有圖像樣本255張.
表3 5類圖像情感對(duì)應(yīng)的VA值
表4 圖像訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)分為客觀評(píng)價(jià)指標(biāo)和主觀評(píng)價(jià)指標(biāo).
客觀評(píng)價(jià)指標(biāo)我們采用查準(zhǔn)率,這是評(píng)價(jià)一般系統(tǒng)最常用、最直接的指標(biāo),它最能反映實(shí)驗(yàn)結(jié)果的準(zhǔn)確程度和可靠性,定義為
(3)
其中“正確返回的圖像數(shù)目”是指該返回圖像與輸入的音樂(lè)屬于同一個(gè)情感類別.
主觀評(píng)價(jià)指標(biāo)我們采用邀請(qǐng)學(xué)生打分的方式,共邀請(qǐng)20名同學(xué)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià).對(duì)于為歌曲推薦出的圖像,所有這20名同學(xué)按以下規(guī)則做標(biāo)記:
5分: 如果認(rèn)為系統(tǒng)推薦的所有圖像都符合音樂(lè)所表達(dá)的情感,則標(biāo)記為5.
4分: 如果認(rèn)為系統(tǒng)推薦的所有圖像中有80%都符合音樂(lè)所表達(dá)的情感,則標(biāo)記為4.
3分: 如果認(rèn)為系統(tǒng)推薦的所有圖像中有60%都符合音樂(lè)所表達(dá)的情感,則標(biāo)記為3.
2分: 如果認(rèn)為系統(tǒng)推薦出的所有圖像中有40%符合音樂(lè)所表達(dá)的情感,則標(biāo)記為2.
1分: 如果認(rèn)為系統(tǒng)推薦出的所有圖像中有20%符合音樂(lè)所表達(dá)的情感,則標(biāo)記為1.
0分: 如果認(rèn)為系統(tǒng)推薦出的所有圖像中沒(méi)有一張符合音樂(lè)所表達(dá)的情感,則標(biāo)記為0.
定義每一類情感的滿意度r為所有實(shí)驗(yàn)數(shù)據(jù)的標(biāo)記分值的平均值占的比例,計(jì)算如下:
(4)
式中:τi為第i個(gè)音樂(lè)測(cè)試樣本的平均得分;t為音樂(lè)測(cè)試樣本的總數(shù).
首先,對(duì)于查準(zhǔn)率返回圖像個(gè)數(shù)M的取值實(shí)驗(yàn).本文考慮到有可能是檢索圖像的數(shù)量影響最終的查準(zhǔn)率,因而對(duì)實(shí)驗(yàn)進(jìn)行驗(yàn)證,在不同檢索需求下,分析實(shí)驗(yàn)查準(zhǔn)率的差別.實(shí)驗(yàn)結(jié)果如圖4所示.由圖4可以看出,實(shí)驗(yàn)返回在5張圖像時(shí),查準(zhǔn)率普遍較高,主要是因?yàn)镵CCA能有效地描述音樂(lè)特征與圖像特征之間的相關(guān)性,根據(jù)歐氏距離返回與音樂(lè)情感最接近的圖像時(shí),距離最短的圖像也就是與測(cè)試音樂(lè)情感最接近的.但由于數(shù)據(jù)過(guò)少,實(shí)驗(yàn)存在的偶然偏差性也會(huì)更大,因而選擇10張圖像,在該點(diǎn)處的實(shí)驗(yàn)結(jié)果普遍具有較高的查準(zhǔn)率,因?yàn)殡S著返回?cái)?shù)量逐漸增加時(shí),每一情感類別查準(zhǔn)率會(huì)越來(lái)越低.
我們通過(guò)查準(zhǔn)率來(lái)觀察KCCA方法的有效性,對(duì)測(cè)試音樂(lè)在情感已知和未知兩種情況下進(jìn)行實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)返回10張與測(cè)試音樂(lè)情感表達(dá)最接近的圖像,查準(zhǔn)率為返回的10張圖像中與測(cè)試音樂(lè)情感相同的圖像所占比例.實(shí)驗(yàn)結(jié)果的數(shù)據(jù)均取多次實(shí)驗(yàn)的平均值,如圖5所示.
圖4 不同返回個(gè)數(shù)M下的查準(zhǔn)率對(duì)比Fig.4 Accurancy comparison with different number of returned images
圖5 KCCA方法與CCA方法的查準(zhǔn)率對(duì)比Fig.5 Accurancy comparison of KCCA and CCA
由圖5結(jié)果可以看出,總體而言,KCCA的方法查準(zhǔn)率高于純CCA方法.在測(cè)試音樂(lè)情感已知的情況下,本文提出的KCCA方法的查準(zhǔn)率相對(duì)較高,其中第1,4,5類的查準(zhǔn)率分別達(dá)到77.27%,77.78%,74.54%,主要是由于這3類情感下的圖像與音樂(lè)訓(xùn)練集的特征區(qū)分度較高,且KCCA在分析兩者的相關(guān)性上,得出了較準(zhǔn)確的映射模型,并且情感分類器對(duì)測(cè)試音樂(lè)的情感識(shí)別和分類方面在這幾類中效果較好.在測(cè)試音樂(lè)情感未知的前提下,由于測(cè)試音樂(lè)需要先經(jīng)過(guò)情感分類器進(jìn)行情感的分類,再分別輸入到不同的KCCA映射模型,情感分類的偏差也會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果的偏差.但總體差距并不大,說(shuō)明本文采用的情感分類器以及KCCA算法都具有有效性,同時(shí)也表明圖像特征與音樂(lè)特征之間的非線性相關(guān)性模型要優(yōu)于線性相關(guān)模型.
在主觀評(píng)測(cè)實(shí)驗(yàn)中,我們將實(shí)驗(yàn)結(jié)果與以下3種方法進(jìn)行比較.
1) Lower Bound(LB): 輸入一段音樂(lè)片段,隨機(jī)推薦本文測(cè)試圖像數(shù)據(jù)集中的圖像.由于是隨機(jī)推薦,其實(shí)驗(yàn)結(jié)果應(yīng)該作為本實(shí)驗(yàn)的下限.
2) Manually Selection(MS): 輸入一段音樂(lè)片段,人工推薦測(cè)試圖像數(shù)據(jù)集中的圖像.
3) CCA: 輸入一段音樂(lè)片段,采用經(jīng)典CCA方法推薦圖像.
本文將此衡量方法應(yīng)用于所有的測(cè)試音樂(lè),每個(gè)測(cè)試音樂(lè)都通過(guò)隨機(jī)推薦、本文提出的KCCA方法、經(jīng)典CCA方法以及人工推薦這4種方法來(lái)推薦相應(yīng)的圖像,各位同學(xué)在評(píng)價(jià)時(shí)并不知道所看到的圖像是來(lái)自哪種推薦算法,在這個(gè)前提下根據(jù)本文提出的標(biāo)記方法進(jìn)行標(biāo)記,得到最后的滿意度結(jié)果.表5顯示了隨機(jī)推薦的LB方法、本文的KCCA方法、傳統(tǒng)CCA方法和人工推薦的MS方法得到的滿意度結(jié)果.從表中可以看出,采用KCCA方法在人工評(píng)價(jià)時(shí)得到了69.45%的滿意度,這一數(shù)值與隨機(jī)推薦方法(滿意度平均在31.6%左右)和傳統(tǒng)CCA方法相比有明顯地提升,但與人工推薦的結(jié)果(滿意度平均在78.09%左右)還有一定差距,然而差距并不大.由此可以表明,本文采用KCCA方法確實(shí)能夠提高音樂(lè)相冊(cè)自動(dòng)生成的效果,為用戶推薦出一組滿意度較高的圖像.
本文主要進(jìn)行了基于情感的家庭音樂(lè)相冊(cè)自動(dòng)生成研究,采用KCCA方法分析圖像與音樂(lè)特征之間潛在的相關(guān)性,實(shí)現(xiàn)了為音樂(lè)推薦出與其情感表達(dá)相近的圖像,并與人工推薦和隨機(jī)推薦等方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明本文采用KCCA方法具有一定的有效性,同時(shí)也表明本文提取的圖像特征與音樂(lè)特征之間存在著一定的相關(guān)性.
對(duì)于未來(lái)可以繼續(xù)展開的工作,有以下幾點(diǎn):
1) 音樂(lè)情感數(shù)據(jù)庫(kù)是根據(jù)MIREX提出的情感分類標(biāo)準(zhǔn)創(chuàng)建的,但該標(biāo)準(zhǔn)采用英文進(jìn)行描述情感的類別,經(jīng)中文翻譯后所表達(dá)的情感也許產(chǎn)生誤差.另外由于目前還沒(méi)有統(tǒng)一的音樂(lè)情感數(shù)據(jù)庫(kù),僅僅依靠少數(shù)同學(xué)創(chuàng)建,獲得的音樂(lè)庫(kù)只代表了一部分人的意愿,并不具有權(quán)威性.所以希望在未來(lái)的研究中,可以創(chuàng)建一個(gè)更完整、更有權(quán)威的中文音樂(lè)情感數(shù)據(jù)庫(kù).
2) 本文在圖像特征提取時(shí),提取的是圖像在色調(diào)、飽和度以及亮度分量上的均值、方差和偏度,還有圖像的顏色對(duì)比度特征.在以后的實(shí)驗(yàn)中可以嘗試挖掘圖像更多能表征情感的特征.
3) 本文在音樂(lè)特征提取方面,未進(jìn)行更多的挖掘,只是選取現(xiàn)有的MFCC特征參數(shù)和RASTA-PLP的倒譜和頻譜特征參數(shù)來(lái)描述音樂(lè)片段.在以后的研究中,可以進(jìn)行更多的實(shí)驗(yàn)與篩選,尋找更準(zhǔn)確的特征來(lái)表達(dá)音樂(lè)的情感.
[1] ZHANG H, ZHUANG Y, WU F.Cross-modal correlation learning for clustering on image-audio dataset [C]∥The 15th ACM International Conference on Multimedia. Augsburg, Germany: ACM,2007: 1245-1344.
[2] HANJALIC A. Extracting moods from pictures and sounds: Towards truly personalized TV [J].JournalofIEEESignalProcessingMagazine,2006,23(2): 90-100.
[3] YANG Y H, WANG J C, JHUO I H,etal. The acoustic visual emotion Guassians model for automatic generation of music video [C]∥Proceedings of the 20th ACM International Conference on Multimedia. Nara, Japan: ACM,2012: 1379-1380.
[4] CHEN C H, WENG M F, JENG S K. Emotional-based music visualization using photos [C]∥Proceedings of the 14th International Conference on Advances in Multimedia Modeling. Kyoto, Japan: Springer,2008: 358-368.
[5] XIANG Y, KANKANHALLI M S. A synesthetic approach for image slideshow generation [C]∥IEEE International Conference on Multimedia & Expo.Melbourne, Australia: IEEE,2012: 985-990.
[6] HUA X S, LU L, ZHANG H J. Optimization-based automated home video editing system [J].IEEETransactionsonCircuitandSystemsforVideoTechnology,2004,14(5): 572-583.
[7] WU X, LI Z N. Exploring visual-auditory associations for generating music from image [C]∥Proceedings of International Conference on Multimedia.Vancouver, Canada: ACM,2008: 1122-1125.
[8] WU X, LI Z N. A study of image-based composition [C]∥Proceedings of IEEE International Conference on Multimedia & Expo.Hannover, Germany: ICME,2008: 1345-1348.
[9] CHEN J C, CHU W T, KUO J H. Tiling slideshow: An audio visual presentation method for consumer photos [C]∥Proceedings of ACM Multimedia.Santa Barbara, USA: ACM,2006: 36-45.
[10] SU J H, HSIE M H, MEI T. Photosense: Make sense of your photos with enriched harmonic music via emotion association [C]∥Proceedings of IEEE International Conference on Multimedia & Expo. Barcelona, Spain: IEEE,2011: 1-6.
[11] LI C T, SHAN M K. Emotion-based impressionism slideshow with automatic music accompaniment [C]∥Proceedings of the 15th International Conference on Multimedia. Augsburg, Germany: ACM,2007: 839-842.
[12] MACHAJDIK J, HANBURY A. Affective image classification using features inspired by psychology and art theory [C]∥Proceedings of the International Conference on Multimedia. Firenze, Italy: ACM,2010: 83-92.
[13] LU L, LIU D, ZHANG H J. Automatic mood detection and tracking of music audio signals [J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2006,14(1): 5-18.
[14] WANG W N, YU Y L, JIANG S M. Image retrieval by emotional semantics: A study of emotional space and feature extraction [C]∥Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Papeete, French: IEEE,2006: 3534-3539.
[15] MEHRABIAN A. Framework for a comprehensive description and measurement of emotionalstates [J].GeneticSocialandGeneralPsychologyMonographs,1995,121(3): 339-361.
[16] YOO H W. Visual-based emotional descriptor and feedback mechanism for image retrieval [J].JournalofInformationScienceandEngineering,2006,22(5): 1205-1227.
[17] SOLLI M, LENZ R. Color based bags-of-emotions [C]∥Proceedings of the 13th International Conference on Computer Analysis of Images and Patterns. Münster, Germany: IEEE,2009: 573-580.
[18] SOLLI M, LENZ R. Color emotion for image classification and retrieval [C]∥Proceedings of IS &Ts Conference on Color in Graphics, Imaging, and Vision(CGIV). Terrassa, Spain: CGIV,2008: 367-371.
[19] SHIN Y, KIM E Y. Affective prediction in photographic images using probabilistic affective model [C]∥Proceedings of the ACM International Conference on Image and Video Retrieval. Xi’an, China: ACM,2010: 390-397.
[20] KOBAYASHI S. Color image scale [M]. Tokyo, Japan: Publishing of Kodansha,1991.
[21] MYINT E E P, PWINT M. An approach for multi-label music mood classification [C]∥Proceedings of International Conference on Signal Processing System. Dalian, China: IEEE,2010: 290-294.
[22] 查美麗.基于情感的音樂(lè)分類系統(tǒng)的研究與實(shí)現(xiàn) [D].南京: 南京郵電大學(xué),2014.
[23] HAYASHI T, HAGIWARA M. Image query by impression words—The IQI system [J].IEEETransactionsonConsumerElectronics,1998,44(2): 347-352.
[24] 古大治.色彩與圖形視覺(jué)原理 [M].北京: 科學(xué)出版社,2000.
[25] JONHANNES I. 色彩藝術(shù)——色彩的主觀經(jīng)驗(yàn)與客觀原理(The Art of Color) [M]. 滕守堯譯.上海: 上海人民美術(shù)出版社, 1985.
[26] RUIZ-DEL-SOLAR J, JOCHMANN M. On determining human description of textures [C]∥Proceedings of SCIA 2001 Scandinavian Conference on Image Analysis. Bergen, Norway: SCIA, 2001: 288-294.
[27] LANG P J, BRADLEY M M, CUTHBERT B N. International affective picture system(IAPS): Affective ratings of pictures and instruction manual [R]. Gainesville, FL: University of Florida,2008: A-8.
[28] YANULEVSHAYA V, VAN GEMERT J C, ROTH K. Emotional valence categorization using holistic image features [C]∥Proceedings of IEEE International Conference on Image Processing(ICIP’08). San Diego, CA, USA: IEEE,2008: 101-104.
[29] MIKELS J A, FREDRICKSON B L, LARKIN G R,etal.Emotional category data on images from the international affective picture system [J].BehaviorResearchMethods,2005,37(4): 626-630.
[30] LANG P J. The emotion probe studies of motivation and attention [J].AmericanPsychologist,1995,50(5): 372-385.
[31] ANWER R M, VAZQUEZ D, LOPEZ A M. Opponent colors for human detection [M]∥VITRIJ, SANCHES J D, HERNNDEZ M. Pattern Recognition and Image Analysis. New York, USA: Springer Science & Business Media, 2011: 363-370.