国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)融合的家庭音樂相冊自動生成

2017-05-30 05:19劉君芳邵曦
南京信息工程大學學報 2017年6期

劉君芳 邵曦

摘要 隨著大數(shù)據(jù)以及社交網(wǎng)絡的發(fā)展,電子相冊與在線服務成為如今人們使用計算機與互聯(lián)網(wǎng)的基礎應用.尤其是近年社交網(wǎng)絡的流行,電子相冊的數(shù)量得到了爆炸增長,而如何增強相冊的用戶體驗變得尤為重要.具有某種主題的相冊一般都帶有一定的情感信息,因此,本文研究了基于多模態(tài)融合的家庭音樂相冊自動生成問題,旨在使用戶能夠在享受音樂的同時配以與音樂情感相同的相冊圖片.針對音樂與圖片中所蘊含的情感,本文在音樂和圖像中分別選取能夠表達其情感的句子級別的音頻特征和圖像特征,然后在圖像與音樂之間異構(gòu)和跨模態(tài)的特征融合問題上,采用局部保持投影(LPP)方法,將圖像特征與音樂特征映射到更具情感分類能力的隱式特征空間中,實現(xiàn)了音樂相冊的自動生成.在實驗中,客觀評測結(jié)果表明,采用LPP方法在查準率方面高于純CCA方法;在主觀評測中LPP獲得72.06%的滿意度,與人工推薦的評價結(jié)果(78.09%)比較接近,明顯高于隨機推薦和CCA方法的滿意度.關鍵詞音樂相冊;情感模型;句子級別;多模態(tài)融合;隱式空間

中圖分類號 TN912

文獻標志碼 A

0 引言

隨著大數(shù)據(jù)和信息技術(shù)的飛速發(fā)展,電子相冊與在線服務是如今人們使用計算機與互聯(lián)網(wǎng)的基礎應用.作為一種越來越重要的多媒體服務,自動音樂、圖像檢索問題逐漸成為一個引人關注的研究課題.

這些年來隨著移動互聯(lián)網(wǎng)平臺的不斷發(fā)展,數(shù)字圖像的數(shù)量也得到了爆炸式的增長.Facebook(www.facebook.com)和Flickr(www.flickr.com)的相冊就是典型的代表.截至2013年9月,F(xiàn)lickr已擁有超60億張的圖片.2012年5月,F(xiàn)acebook已擁有約9億用戶,每天均會上傳數(shù)億張照片.總之,不管是在線上服務還是移動平臺,電子相冊服務占據(jù)著越來越重要的位置,因而在改進其用戶體驗以及完善其功能上,具有很大的研究發(fā)展空間.

具有某種主題的電子相冊一般都帶有一定的情感信息,例如:一組婚禮的相冊可能具有歡樂與浪漫的氛圍,而一組拳擊比賽的相冊可能帶有激烈和讓人興奮的感覺.假使用戶使用不同的移動終端通過互聯(lián)網(wǎng)瀏覽他們的照片時,可以同時欣賞到符合照片情境的背景音樂,便會帶來與眾不同的感受.但讓用戶自己選擇背景音樂存在費時費力不夠?qū)I(yè)的缺點.因此,若能自動生成音樂相冊則可以解決上述問題,提高瀏覽電子相冊時的用戶體驗感.如何跨越音樂與圖片之間的語義鴻溝是個很困難的問題.因為,一張圖片和一段音樂是屬于不同模態(tài)間的數(shù)據(jù)結(jié)構(gòu),其特征提取方式的不同使得不同模態(tài)特征間的維度往往不同,這將導致特征中所蘊含的信息無法直觀地進行比較,因而具有異構(gòu)性和不可比擬性,不能直接進行相似性計算,但是在情感語義上又相互關聯(lián),即不同模態(tài)的特征可以表征同一個情感語義概念,比如一張圖片或者一段音樂都能同時感受出“高興”或“悲傷”的感覺.由此可以看出多媒體時代的數(shù)據(jù)呈現(xiàn)出多模態(tài)數(shù)據(jù)結(jié)構(gòu)復雜的特性[1],所以若要實現(xiàn)音樂相冊的自動生成研究,就要實現(xiàn)跨模態(tài)檢索,通過挖掘數(shù)據(jù)的潛在語義,將不同模態(tài)的數(shù)據(jù)信息投影到共同的隱藏語義空間中,并在該語義空間中利用不同模態(tài)數(shù)據(jù)間的相似度進行比較與檢索,從而實現(xiàn)音樂相冊的自動生成.

1 國內(nèi)外研究現(xiàn)狀

當人們欣賞了一定數(shù)量的音樂或瀏覽了一定數(shù)量的圖片后難免會產(chǎn)生聽覺和視覺疲勞,因此,如果能同時滿足人們在視覺和聽覺上LIU Junfang,et al.Automatic generation of family music album based on multi-modal fusion.的需求,那么將會獲得更好的用戶體驗.目前除了相冊的發(fā)布與共享,一些軟件例如iPhoto也能提供為相冊選擇背景音樂的功能.但是,讓用戶手動選擇背景音樂也存在較大的缺點:若用戶要為多個相冊挑選背景音樂時,只能一一挑選著實有些麻煩,此外用戶可能對音樂敏感度不高或者在較短時間內(nèi)找不到合適的音樂,又或者用戶正好有一首特別喜歡的音樂想為它添加一些情感比較接近的相冊圖片,然而卻并沒有這種途徑.因此,若能自動生成音樂相冊,即當用戶在瀏覽相冊時能同時欣賞到符合照片情境的背景音樂,就可獲得更好的用戶體驗.

首先,音樂與圖片所帶來的共同體驗,需要將音樂與圖片進行相關性分析,即對音樂和圖像特征的多模態(tài)融合分析.目前,針對各種多模態(tài)信息進行融合的方法已經(jīng)廣泛應用到了檢索、分類、事件檢測等多媒體領域中.Liu等[2]使用分層檢索結(jié)構(gòu)融合音頻、視頻信息提高了在線視頻檢索的效率與準確率;Chen等[3]利用文字信息與視覺空間的相互映射,消除用戶在文字描述上的二義性,補全其在視覺空間上的信息,提升了垂直搜索的準確率;Jeon等[4]建立CRM(Cross-media Relevance Model)模型用于解決跨模態(tài)標注問題;Feng等[5]在CRM模型的基礎上使用多項伯努利分布估計圖像與文本的概率分布提升了標注的準確率;Su等[6]使用基于最近鄰圖學習模型,融合標簽相似度以及圖像相似度作為權(quán)值在圖模型上傳播及預測圖像標簽,同時還利用了圖像與標簽的相似度進行預測,在多個數(shù)據(jù)集上取得了不錯的實驗結(jié)果;Yang等[7]基于分類器融合模型利用3種模態(tài)信息進行網(wǎng)絡視頻分類取得了不錯的效果.

此外,音樂與圖片所帶來的共同體驗,需要對視覺和聽覺進行關聯(lián)分析[8-9],本文主要研究以音樂為中心的關聯(lián).以音樂為中心的關聯(lián)就是給定一定的音樂樂句,為它關聯(lián)圖片.目前,在播放音樂的同時能夠生成簡單圖像的只有Winamp和微軟的媒體播放器,但其視覺動畫不一定與播放的音樂在情感上相關.Chen等[10]提出一種音樂可視化系統(tǒng),它在播放用戶選取的音樂樂句的同時,播放一組基于視覺和聽覺相似性的圖像.其想法與本文大致相似,只是在實驗時先對圖像進行情感的分類,再將情感標簽與音樂的情感相聯(lián)系,并沒有對其底層特征進行相似性研究.Xiang等[11]挖掘美學能量作為媒介建立一個自動的圖片瀏覽系統(tǒng).美學能量的基本思想是“聽見顏色,看見聲音”.Hua等[12]提出了一種家庭視頻自動編輯系統(tǒng).在這個系統(tǒng)中,用戶可以指定一個音樂片段,然后系統(tǒng)會按一定的編輯規(guī)則自動提取一系列的視頻片段.盡管上述研究在一定程度上將圖像和音樂進行了關聯(lián),但這類系統(tǒng)的功能被限定在某些特定的情感空間,因為一個音樂片段包含了某些固定的情感.因此,照片的類型也總是收斂到一個特定的類型,并且一(音樂)對多(照片)的展示方式可能不會引起用戶的興趣.

本文提出采用多模態(tài)隱空間學習算法來解決音樂相冊的自動生成問題.音樂相冊的自生成其主要難點在于音樂和圖片分屬于2種媒體空間,這將導致特征中所蘊含的信息無法直觀地進行比較,無法消除不同模態(tài)之間特征的異構(gòu)性,為此需要找到某種方法來衡量兩者之間的相關程度,是否包含了相同的情感,從而進行合適的推薦.為了解決這個問題,首先根據(jù)MIREX的情感分類標準,人工創(chuàng)建圖像和音樂訓練庫,并對圖像和音樂數(shù)據(jù)進行情感值的標注和分類;然后,通過多模態(tài)LPP算法,將音樂和圖像特征映射到低維子空間,并分析兩者之間的相關性,在每一種情感類別下,生成一種映射模型;輸入測試音樂樂句樣本,利用情感分類器進行情感分類后,輸入到不同的映射模型,實現(xiàn)為音樂樂句推薦與其情感相近的圖像.整個研究框架如圖1所示.下面將分別介紹本文的音樂特征提取和圖像特征提取方法,以及使用局部保持投影(Locality Preserving Projection,LPP)算法進行子空間映射的方法.

2 音視頻特征提取

2.1 音樂特征提取

以前的音樂特征提取方法大多采用音樂片段級別的特征向量來描述音頻.但是音樂所表達的情感在整個音樂的演奏期間是有起伏的,因此音樂片段級別的特征表示方法無法準確刻畫音樂所蘊含的真正情感.為了從音樂數(shù)據(jù)中挖掘出更加豐富的音樂情感信息,本文提出了句子級別的特征表示方法以刻畫音樂的情感.本文主要分析圖像與音頻特征之間的典型相關性,根據(jù)文獻[13]的研究結(jié)果,在提取典型的Mel Frequency Cepstral Coefficients(MFCC)特征和在Perceptual Linear Predictive(PLP)基礎之上引出Relative Spectral-Perceptual Linear Predictive(RASTA-PLP)特征.為了挖掘句子級別的音樂特征,本文根據(jù)每個句子的起始時間將音樂片段分割成多個音樂樂句,均有音頻特征集{v1,v2,v3,…,vn},計算該集合中所有特征向量的均值和方差,將此均值向量與方差向量拼接起來得到最終的句子級別音頻特征.于是對于音樂樂句,取20階MFCC系數(shù)特征,21階PLP頻譜參數(shù),9階PLP倒譜參數(shù)RASTA-PLP,計算其均值和方差,獲得100維的特征值,將其組成最終的特征向量來描述一個音樂樂句.

2.2 圖像特征提取

在圖像蘊含的眾多信息中,最直觀的是顏色特征.顏色特征相比于其他的視覺類特征,具有良好的穩(wěn)定性,對大小和方向具有不敏感性,因而被普遍用于各類研究中.因此,在一般情況中,用顏色特征來表征一張圖像比較方便并且具有重要意義,使得更多的學者更加深入地探討了不同的顏色與其產(chǎn)生的不同情感之間的關系,獲得了很大的收獲.

從色調(diào)上,人們一般把顏色分成暖色和冷色.顏色冷暖其實和真實的溫度并沒有直接的聯(lián)系,它只是人們心理上的一種感受.暖色,即為人們看到紅色、黃色、橙色以及類似的顏色時,內(nèi)心會產(chǎn)生愉快、調(diào)皮、溫暖的感受,冷色即為在看到藍色、紫色,白色及類似的顏色時,會產(chǎn)生一種清冷、高貴、神圣的感覺[14],而黑色讓人想起陰暗、死亡,給人以肅穆、恐懼的感覺[15].

從飽和度上,人們對于不同飽和度的顏色也會產(chǎn)生不一樣的感受.顏色的純度越高,如大紅、大綠等,給人的視覺沖擊力越大,越會引發(fā)更加強烈的感官刺激.顏色越鮮艷,越能吸引人的注意.

Boyatzis等[16]在觀察兒童對情感的反饋中,像黃色、玫紅色等暖色一般使兒童感覺積極和熱情,像藍色、綠色則容易讓兒童產(chǎn)生平靜和春意盎然之感,而如黑色、灰色等較深的顏色則會產(chǎn)生一些悲觀之感.Itten[17]發(fā)現(xiàn)在藝術(shù)圖像中,顏色與高階情感語義有一定的聯(lián)系,此外他還發(fā)現(xiàn)顏色的不同疊加會產(chǎn)生協(xié)調(diào)、不協(xié)調(diào)、亢奮或平和等效果.Hemphill[18]探索發(fā)現(xiàn)亮的顏色容易激發(fā)正面的情緒,而暗的顏色會激發(fā)負面的情緒.Saito[19]研究發(fā)現(xiàn)暗的顏色也可以引發(fā)正面和負面的情緒.另外,人對色性的感受也強烈受光線和鄰近顏色的影響.色彩的冷暖感覺是人們在長期生活實踐中由于聯(lián)想而形成的.紅、橙、黃色常使人聯(lián)想起東方旭日和燃燒的火焰,因此有溫暖的感覺,所以稱為“暖色”;藍色常使人聯(lián)想起高空的藍天、陰影處的冰雪,因此有寒冷的感覺,所以稱為“冷色”;綠、紫等色給人的感覺是不冷不暖,故稱為“中性色”.色彩的冷暖是相對的.在同類色彩中,含暖意成分多的較暖,反之較冷.

考慮到顏色特征在圖像情感研究中的重要性,本文選取顏色矩以及文獻[20]提出的顏色對比度作為圖像特征.具體特征抽取過程如下:將輸入圖像分成5×5=25張大小相等的子圖,將每張子圖的圖像數(shù)據(jù)從RGB(Red,Green,Blue)空間轉(zhuǎn)換到HSV(Hue,Saturation,Value)空間.顏色矩為計算每一張子圖在HSV空間各個分量上的一階矩(均值)、二階矩(方差)和三階矩(偏度).

此外,本文還提取了顏色對比度作為其特征之一,顏色對比空間(OPP)計算公式如下:

通過該方法提取每張子圖在色調(diào)、飽和度、明度分量上的均值、方差和偏度,以及顏色對比度,即3×3×25=225個顏色特征值和25個顏色對比度值,由此一張圖像可以由250維特征向量來描述.

3 隱空間學習方法的分析

由于音樂特征與圖片特征空間的異構(gòu)性,使得直接挖掘這2個模態(tài)之間的相關性變得異常棘手.本文提出了一種針對音樂情感分類的有監(jiān)督多模態(tài)LPP隱空間學習方法,為音樂的不同模態(tài)數(shù)據(jù)學習一個共同的具有情感區(qū)分度的隱式空間,該空間不僅保持了原有空間的特性,并且拉近了同個情感類別中不同模態(tài)音樂數(shù)據(jù)間的距離,提高了特征在不同情感類別中的區(qū)分能力.

LPP是一種線性降維算法,該算法的特性是在線性投影之后仍可以保持特征在原始空間的局部特性,并將使得在原始特征空間中與新特征空間中的最近鄰搜索結(jié)果相似.原始的LPP目標函數(shù)如下所示:

通過上述目標函數(shù),可以得到一個音樂特征、圖片特征模態(tài)共同的隱式空間,該空間不禁消除了模態(tài)間的異構(gòu)性,使得不同模態(tài)的特征可以進行相互計算,同時拉近了相同類的不同模態(tài)間的距離.以上特性令使用一個模態(tài)的數(shù)據(jù)補充另一個模態(tài)數(shù)據(jù)缺陷而提高音樂與圖片匹配的準確率成了可能.

4 實驗及分析

4.1 實驗數(shù)據(jù)集

4.1.1 音樂數(shù)據(jù)集

根據(jù)MIREX(The Music Information Retrieval Evaluation eXchange)的情感分類標準,如表1所示,人工創(chuàng)建音樂訓練庫,并對音樂數(shù)據(jù)進行情感值的標注和分類.

在音樂情感識別領域,目前還沒有通用的中文音樂情感數(shù)據(jù)庫,因此本文所有的訓練測試數(shù)據(jù)都是自行搜集和篩選的.具體步驟如下:

1)找20位同學,根據(jù)表1的5類音樂情感描述,在百度音樂庫中下載每類情感對應的歌曲,每人10首,并對音樂按句子級別進行分割,選取每首歌中最能表達情感的5個音樂樂句,從而獲得5個類別共計5 000個音樂樂句.

2)采用多人同時標注的辦法,來增強音樂數(shù)據(jù)集的真實性.讓20名同學對這5 000個音樂樂句進行標注,如果對同一音樂樂句有5人以上標注為同一情感的,則認定該音樂樂句屬于此類情感,否則放棄該樂句數(shù)據(jù).經(jīng)此步驟篩選出了3 000個音樂樂句,每類600個.

3)讓20位同學對步驟2)產(chǎn)生的音樂樂句進行VA(Valence,Arousal)值的標注,每人150個,為實驗方便,VA值的范圍取{-1,-0.8,-0.6,…,0,…,0.8,1},標注后再取平均值.

4)對標注后的3 000個音樂樂句進行篩選,劃定每類情感的VA值范圍如表2所示,刪除超出范圍的音樂樂句,選取2 000個音樂樂句作為實驗數(shù)據(jù)集,每類400個.

5)用格式轉(zhuǎn)換軟件,將音樂片段統(tǒng)一為采樣率16 kHz,wav格式,單聲道.每次實驗時,在每個類別中隨機選取1 800個音樂樂句作為訓練數(shù)據(jù),測試時從剩下的200個音樂樂句中選擇作為測試數(shù)據(jù).另外在百度音樂庫上任意下載40首歌曲,并按照句子級別進行分割得到200個音樂樂句,不進行任何情感標注處理,只摘取其中最體現(xiàn)情感的音樂樂句組成測試庫.至此,音樂訓練庫共有1 800個音樂樂句,測試庫有已知情感的音樂樂句200個和未知情感的音樂樂句200個.

4.1.2 圖像數(shù)據(jù)集

IAPS圖像庫包含大多數(shù)情感的圖像庫,而藝術(shù)類圖像集取自于一個藝術(shù)分享網(wǎng)站,所以這類圖像的最初情感注釋來源于分享的攝影師們.攝影師們通過對圖像的構(gòu)成、顏色和燈光等進行有意的操縱,從而激起人們某些特定的情感.為了實現(xiàn)基于典型相關分析的音樂相冊自動生成研究,本文主要采用了這2個圖像數(shù)據(jù)集:從共享網(wǎng)站上下載的藝術(shù)類圖像集[21]和國際情緒圖像系統(tǒng)(the International Affective Picture System,IAPS)[22]數(shù)據(jù)庫.

為了與音樂的情感相對應,在圖像上同樣采用MIREX的5類情感分類標準.根據(jù)文獻[23]提出的IAPS圖像在Valance和Arousal軸上的映射,可以看出圖像情感VA值所處范圍為1~9,與音樂數(shù)據(jù)集的VA值相對應,本文界定出5類圖像情感的VA值范圍如表3所示.

根據(jù)表3,在圖像庫中摘錄表1中所列5種情感類別下,滿足該表標準的圖像作為樣本來構(gòu)建圖像數(shù)據(jù)集,圖像數(shù)據(jù)集的情況如表4所示.訓練集中共有圖像樣本450張,測試集中共有圖像樣本255張.

4.2 實驗評價指標

實驗評價指標分為客觀評價指標和主觀評價指標.

其中“正確返回的圖像數(shù)目”是指該返回圖像與輸入的音樂屬于同一個情感類別.

主觀評價指標采用邀請學生打分的方式,共邀請20名同學對實驗結(jié)果進行評價.對于為歌曲推薦出的圖像,所有這20名同學按以下規(guī)則做標記:

5分:認為實驗推薦的所有圖像都符合音樂所表達的情感,標記為5.

4分:認為實驗推薦的所有圖像中有80%符合音樂所表達的情感,標記為4.

3分:認為實驗推薦的所有圖像中有60%符合音樂所表達的情感,標記為3.

2分:認為系統(tǒng)推薦的所有圖像中有40%符合音樂所表達的情感,標記為2.

1分:認為系統(tǒng)推薦的所有圖像中有20%符合音樂所表達的情感,標記為1.

0分:認為系統(tǒng)推薦的所有圖像中沒有一張符合音樂所表達的情感,標記為0.

定義每一類情感的滿意度r為所有實驗數(shù)據(jù)的標記分值的平均值所占的比例,計算如下:

4.3 實驗結(jié)果及分析

本文共設計了3組實驗并進行分析和統(tǒng)計,第1組是將3種算法在每一種情感類別下得到的對推薦圖像平均滿意度的對比;第2組是當輸入測試音樂在情感已知和未知2種情況下,使用LPP方法獲得的查準率對比;第3種是不同檢索數(shù)量需求下,對實驗查準率的影響.

在第1組實驗中,將實驗結(jié)果與以下3種方法進行比較:

1)Lower Bound(LB):輸入幾個音樂樂句,隨機推薦本文測試圖像數(shù)據(jù)集中的圖像.由于是隨機推薦,其實驗結(jié)果應該作為本實驗的下限.

2)Manually Selection(MS):輸入幾個音樂樂句,人工推薦測試圖像數(shù)據(jù)集中的圖像.

3)CCA:輸入幾個音樂樂句,采用經(jīng)典CCA方法推薦圖像.

表5顯示了隨機推薦的LB方法、本文的LPP方法和CCA方法、人工推薦的MS方法得到的滿意度結(jié)果.可以看出,采用LPP方法在人工評價時得到了72.06%的滿意度,這一數(shù)值與隨機推薦方法(滿意度平均為31.6%)和傳統(tǒng)CCA方法相比有明顯地提升,但與人工推薦的結(jié)果(滿意度平均為78.09%)還有一定差距,但差距并不大.因此,本文采用LPP方法確實能夠提高音樂相冊自動生成的效果,為用戶推薦出一組滿意度較高的圖像.

第2組實驗是不同檢索數(shù)量需求下,對實驗查準率的影響.

本文實驗選取返回10張圖片,是考慮到檢索圖像的數(shù)量可能會影響最終的查準率,因而對實驗進行驗證.在不同檢索需求下,分析實驗查準率的差別,實驗結(jié)果如圖2所示.可以看出,因為LPP能有效地描述音樂特征與圖像特征之間的相關性,在實驗返回5張圖像時,查準率普遍較高.但由于數(shù)據(jù)過少,實驗存在的偶然偏差也會更大,因而選擇10張圖像.

第3組實驗是當輸入測試音樂樂句在情感已知和未知情況下,使用LPP方法獲得的查準率對比.

通過查準率來觀察LPP方法的有效性,對測試音樂樂句在情感已知和未知2種情況下進行實驗對比.實驗返回10張與測試音樂樂句情感表達最接近的圖像,查準率為返回的10張圖像中與測試音樂樂句情感相同的圖像所占比例.實驗結(jié)果均取多次平均,如圖3所示.可以看出,總體而言,LPP的方法查準率高于純CCA方法.在測試音樂樂句情感已知的情況下,本文提出的LPP方法的查準率相對較高,因為LPP在分析兩者的相關性上,得出了較準確的映射模型,并且情感分類器對測試音樂的情感識別和分類方面效果較好.在測試音樂樂句情感未知的前提下,由于測試音樂需要先經(jīng)過情感分類器進行情感的分類,再分別輸入到不同的LPP映射模型,情感分類的偏差也會導致實驗結(jié)果的偏差.

5 結(jié)論與未來工作展望

本文主要進行了基于多模態(tài)融合的家庭音樂相冊自動生成研究,采用LPP方法分析圖像與音樂特征之間潛在的相關性,實現(xiàn)了為音樂推薦出與之情感表達相近的圖像,并與人工推薦和隨機推薦等方法進行比較,結(jié)果表明LPP方法是有效的,同時也表明本文提取的圖像特征與音樂特征之間存在著一定的相關性.

未來可以繼續(xù)展開的工作:

1)本文實驗是在國際情緒系統(tǒng) IAPS數(shù)據(jù)集上完成的,主要是國外的圖像,今后還應選取更多符合中國人審美的圖像數(shù)據(jù)集進行測試,以減少人工評價或者人工標注時可能產(chǎn)生的誤差.

2)本文的音樂情感數(shù)據(jù)庫,僅僅依靠少數(shù)同學一起創(chuàng)建,獲得的音樂庫只代表了一部分人的意愿,并不具有權(quán)威性,所以希望在未來的研究中,可以創(chuàng)建一個更完整、更有權(quán)威的音樂情感數(shù)據(jù)庫.

3)本文在音樂特征提取方面,只是選取了音頻特征參數(shù)來描述音樂樂句,在以后的研究中,可以嘗試結(jié)合歌詞文本特征和音頻特征進行多模態(tài)融合進行更多的實驗與篩選,尋找更準確的特征來表達音樂的情感.

4)本文在圖像特征提取時,提取的是圖像的顏色特征,在以后的實驗中可以嘗試挖掘圖像的紋理、形狀特征等更多能表征圖像情感的特征.

參考文獻

References

[1] Zhang H,Zhuang Y T,Wu F.Cross-modal correlation learning for clustering on image-audio dataset[C]∥ACM International Conference on Multimedia,2007:273-276

[2] Liu W,Mei T,Zhang Y D,et al.Listen,look,and gotcha:Instant video search with mobile phones by layered audio-video indexing[C]∥ACM International Conference on Multimedia,2013:887-896

[3] Chen Y X,Yu N H,Luo B,et al.iLike:Integrating visual and textual features for vertical search[C]∥ACM International Conference on Multimedia,2010:221-230

[4] Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2003:119-126

[5] Feng S L,Manmatha R,Lavrenko V.Multiple Bernoulli relevance models for image and video annotation[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004,DOI:10.1109/CVPR.2004.1315274

[6] Su F,Xue L K.Graph learning on K nearest neighbours for automatic image annotation[C]∥ACM International Conference on Multimedia Retrieval,2015:403-410

[7] Yang L,Liu J,Yang X,et al.Multi-modality web video categorization[C]∥ACM SIGMM International Workshop on Multimedia Information Retrieval,2007:265-274

[8] Hanjalic A.Extracting moods from pictures and sounds:Towards truly personalized TV[J].IEEE Signal Processing Magazine,2006,23(2):90-100

[9] Wang J C,Yang Y H,Jhuo I H,et al.The acoustic visual emotion Gaussians model for automatic generation of music video[C]∥ACM International Conference on Multimedia,2012:1379-1380

[10] Chen C H,Weng M F,Jeng S K.Emotional-based music visualization using photos[C]∥International Conference on Advances in Multimedia Modeling,2008:358-368

[11] Xiang Y Y,Kankanhalli M S.A synesthetic approach for image slideshow generation[C]∥IEEE International Conference on Multimedia & Expo,2012:985-990

[12] Hua X S,Lu L,Zhang H J.Optimization-based automated home video editing system[J].IEEE Transactions on Circuit and Systems for Video Technology,2004,14(5):572-583

[13] 查美麗.基于情感的音樂分類系統(tǒng)的研究與實現(xiàn)[D].南京:南京郵電大學通信與信息工程學院,2014

ZHA Meili.The research and realization of music classification system based on emotion[D].Nanjing:College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,2014

[14] Hayashi T,Hagiwara M.Image query by impression words:The IQI system[J].IEEE Transactions on Consumer Electronics,1998,44(2):347-352

[15] 古大治.色彩與圖形視覺原理[M].北京:科學出版社,2000

GU Dazhi.Color and graphic visual principles[M].Beijing:Science Press,2000

[16] Boyatzis C J,Varghese R.Childrens emotional associations with colors[J].Journal of Genetic Psychology,1994,155(1):77-85

[17] Itten J.Art of color(Kunst der Farbe)[M].Ravensburg,Germany:Otto Maier Verlag,1961

[18] Hemphill M.A note on adults color-emotion associations[J].Journal of Genetic Psychology,2010,157(3):275-281

[19] Saito M.Comparative studies on color preference in Japan and other Asian regions,with special emphasis on the preference for white[J].Color Research and Application,21(1):35-49

[20] Ruiz-Del-Solar J,Jochmann M.On determining human description of textures[C]∥Proceedings of SCIA 2001 Scandinavian Conference on Image Analysis,2001:288-294

[21] Cuthbert B N,Lang P J,Bradley M M.International affective picture system(IAPS):Affective ratings of pictures and instruction manual[R].Technical Report of University of Florida,2008

[22] Yanulevshaya V,Van Gemert J C,Roth K.Emotion alvalence categorization using holistic image features[C]∥IEEE International Conference on Image Processing,2008:101-104

[23] Rao M A,Vazquez D,Lopez A M.Opponent colors for human detection[J].Iberian Conference on Pattern Recognition and Image Analysis,2011,6669:363-370