国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音樂情感識別研究進展

2017-03-22 02:05:38陳曉鷗楊德順
關(guān)鍵詞:音頻特征情感

陳曉鷗,楊德順

(北京大學(xué) 計算機科學(xué)技術(shù)研究所,北京 100080)

隨著互聯(lián)網(wǎng)音樂的發(fā)展,對數(shù)以千萬計在線音樂作品的組織和檢索問題,越來越受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注.鑒于音樂表達(dá)和喚起情感的普遍共識,基于音樂情感屬性來組織和檢索音樂的需求是客觀存在的.有研究發(fā)現(xiàn),檢索和描述音樂最常用的詞就是情感詞[1].

為了實現(xiàn)基于情感的音樂檢索,往往需要標(biāo)注音樂作品的情感.如果使用人工方式對海量音樂進行情感標(biāo)注,不僅工作量巨大,而且質(zhì)量無法保證.因此,研究音樂情感自動識別技術(shù),實現(xiàn)音樂作品的自動情感標(biāo)注就成為必然的選擇.

音樂情感自動識別是指,根據(jù)音樂的音頻數(shù)據(jù)和其他相關(guān)信息構(gòu)建計算模型,實現(xiàn)音樂情感自動判別的過程.音樂情感識別技術(shù)涉及多個領(lǐng)域,包括音樂學(xué)、心理學(xué)、音樂聲學(xué)、音頻信號處理、自然語言處理和機器學(xué)習(xí)等,是一個多學(xué)科交叉的研究領(lǐng)域.

音樂情感自動識別研究已有十幾年的歷史,且研究者漸多,研究成果更新很快,及時對這些新的成果進行總結(jié)十分必要.2010年,Kim等曾對當(dāng)時音樂情感識別研究的最新進展做了全面綜述[2].2012年,Yang等又對基于音頻的音樂情感機器識別做了詳盡的總結(jié)[3].盡管經(jīng)過了三、四年的發(fā)展,現(xiàn)在看來他們的不少判斷和結(jié)論依然是正確的,例如:

1) 與其他的音樂概念識別任務(wù)相比,情感識別還處于初級階段;

2) 音樂本身是表達(dá)情感的,但這種情感是非常主觀且難以量化的.音樂情感識別是個很困難的問題,主要是因為人的情感固有的模糊性;

3) 音樂情感識別都依賴一個情感模型,但情感模型仍然是心理學(xué)研究的一個活躍課題;

4) 音樂情感并不是完全包含在音頻中.單靠音頻數(shù)據(jù)本身,不能完全識別音樂情感;

5) 基于音頻的音樂情感識別是音樂信息檢索研究者的一項長期目標(biāo).

本文擬對音樂情感識別研究的基本理論和概念進行梳理,并對近些年音樂情感識別研究的新進展進行歸納總結(jié),同時對下一步的研究問題提出一些看法.

1 音樂情感定義和表示

音樂情感識別系統(tǒng)基本上都是采用機器學(xué)習(xí)的方法來建立計算模型的,圖1為該類系統(tǒng)的一個典型結(jié)構(gòu)圖.本文將依照圖1的邏輯展開討論.

圖1 音樂情感識別系統(tǒng)基本框架Fig.1 Framework of music emotion recognition systems

基于機器學(xué)習(xí)的音樂情感識別系統(tǒng)中,情感模型貫穿始終.這里的情感模型是指情感的區(qū)分和刻度體系.選擇何種情感模型,直接關(guān)系到整個系統(tǒng)的識別行為.

1.1 情感的心理學(xué)界定

心理學(xué)中關(guān)于情感的定義有多種說法,普通心理學(xué)中一種比較通行的說法是“情緒和情感是人對客觀事物的態(tài)度體驗及相應(yīng)的行為反應(yīng),它們是以個體的愿望和需要為中介的心理活動”.概括起來情感的內(nèi)涵包括人的主觀體驗、生理喚醒和外部表現(xiàn)(行為反應(yīng))3個方面.就主觀體驗而言,情感體驗可發(fā)生在多個層面,如直覺層、認(rèn)知層、意識層、語言意識層等,但最成熟的情感體驗應(yīng)該出現(xiàn)在語言意識層,比如人們往往可以用語言清楚地描述自己的情感感受,如高興、傷心、害怕、生氣等.關(guān)于情感的生理喚醒是指情感所產(chǎn)生的生理反應(yīng),如心跳加快、血壓升高、臉色發(fā)白等;所謂情感的外部表現(xiàn),是指情感所產(chǎn)生的行為或表情,主要通過人的面部肌肉、肢體姿勢和語音語調(diào)等方面的變化表現(xiàn)出來[4-5].

1.2 音樂情感的表達(dá)說與喚起說

從情感的定義可見,情感的主體是人.對作為客體的音樂而言,應(yīng)該如何界定情感這一概念呢?就情感主體而言,所謂音樂的情感一定是指人的情感,那么是誰的情感呢?是作曲家、演奏(演唱)者的情感,還是聆聽音樂的人的情感?由于對音樂情感主體的不同認(rèn)定,導(dǎo)致學(xué)術(shù)界對音樂情感的界定一直存在兩種不同的觀點,即: 音樂情感的“表達(dá)說”和“喚起說”.“表達(dá)說”認(rèn)為,所謂音樂的情感是指作曲家或演奏者情感體驗的表達(dá).而“喚起說”則認(rèn)為,音樂的情感是聆聽音樂過程中聽者所經(jīng)歷的情感體驗[6].從情感內(nèi)涵的角度來理解,“表達(dá)說”傾向于認(rèn)為,音樂情感是作曲家、表演者情感的外部表現(xiàn),而“喚起說”傾向于認(rèn)為,音樂情感是聽者情感的主觀體驗和生理喚醒.

有超過百項的相關(guān)研究結(jié)果表明,不同人在判斷音樂表達(dá)的情感時通常是一致的.也就是說,人對音樂表達(dá)的情感的判斷是系統(tǒng)的、可靠的,因此可以以較高的精度進行預(yù)測.同樣有大量的研究結(jié)果證實,表達(dá)不同情感的音樂,確實可以使人產(chǎn)生不同的生理反應(yīng)(喚起情感).但是,聽者感知到的音樂所“表達(dá)的”情感,與體驗到的音樂“喚起的”情感之間是有很大差別的[7].

對基于機器學(xué)習(xí)的音樂情感識別研究來說,“表達(dá)說”和“喚起說”意味著標(biāo)注在訓(xùn)練樣本上的情感標(biāo)簽,代表的是詞曲作家和演唱者情感的外部表現(xiàn),還是聽眾聆聽音樂后情感的主觀體驗和生理喚起.由于采集生理數(shù)據(jù)困難的原因,多數(shù)研究者采納了“表達(dá)說”.Kim等在2010年的音樂情感識別綜述[2]中,就明確說明聚焦在音樂“表達(dá)的”情感識別上.近年來,隨著具有人體生理數(shù)據(jù)采集能力的移動和可穿戴設(shè)備的發(fā)展,對基于喚起說的音樂情感識別的研究也開始活躍起來.就應(yīng)用而言,“表達(dá)說”更符合音樂檢索的需求,因為表達(dá)說排除了個體差異的影響,反映的是大多數(shù)人對一首音樂作品所表達(dá)情感的一致看法,更具有客觀性.“喚起說”則更接近音樂推薦的需求.

1.3 音樂情感模型

音樂情感表示是情感心理學(xué)和音樂學(xué)研究的一個課題.相關(guān)研究已有數(shù)十年的積累,盡管研究成果還值得繼續(xù)研究,但已經(jīng)有多種方案可供音樂情感識別研究人員來選擇.從情感識別的角度看,情感空間可以用離散類別模型或連續(xù)維度模型來表示,這樣,情感識別問題就分別對應(yīng)到機器學(xué)習(xí)的分類問題或回歸問題.

在十幾年的音樂情感識別研究實踐中,研究人員從不同的研究角度出發(fā),選用了多種不同的情感模型.一般來說,情感模型分為通用模型(或日常情感模型)和領(lǐng)域?qū)S媚P?對于音樂來說就是音樂情感模型)兩大類.每大類都包含離散類別模型和連續(xù)維度模型兩種具體類型.對于音樂情感模型,還有表達(dá)模型和喚起模型之分.

在音樂情感識別中,使用比較多的是通用連續(xù)維度情感模型、音樂表達(dá)情感離散類別模型和音樂喚起情感離散類別模型這3種模型.采用通用情感模型的優(yōu)點是,在研究多模態(tài)情感識別時,情感模型可作為各模態(tài)數(shù)據(jù)情感語義關(guān)聯(lián)的媒介.采用音樂情感模型的優(yōu)點是,描述音樂情感時更準(zhǔn)確、更細(xì)致,與人的情感體驗更一致.

1.3.1 通用連續(xù)維度模型

連續(xù)維度模型將人類情感狀態(tài)表示為二維或三維連續(xù)空間中的點.維度模型的優(yōu)點在于,它可以描述和刻畫情感狀態(tài)的細(xì)微差別,且不限于描述情感的主觀體驗,也可用于情感外部表現(xiàn)和生理喚醒的描述.缺點是與人們認(rèn)知上的情感語義有很大距離.例如用二維坐標(biāo)表示的情感狀態(tài)與人們常說的快樂、悲傷的關(guān)系,在語義上是不直觀的.在音樂情感識別研究中,被廣泛采用的通用連續(xù)維度模型是環(huán)形(circomplex)模型(也稱為VA模型)和PAD模型.

環(huán)形情感模型是由Russell提出的[8-9].該模型認(rèn)為情感狀態(tài)是分布在一個包含效價度(快樂基調(diào)程度)(valence)和激活度(arousal)的二維環(huán)形空間上的點(參見圖2).其中縱軸表示激活度,橫軸表示效價度,圓心代表中性的效價度和中等水平的激活度.

PAD情感模型是由Mehrabian等提出的.該模型使用P、A、D這3個數(shù)值來表示所有的情感狀態(tài)[10-11].PAD模型的3個維度分別代表愉悅度(pleasure)、激活度(arousal)和優(yōu)勢度(dominance).其中,愉悅度表示個體情感狀態(tài)的正負(fù)特性;激活度表示個體的神經(jīng)生理激活水平;優(yōu)勢度表示個體對情景和他人的優(yōu)勢程度.PAD模型的優(yōu)勢在于,它能夠很好地區(qū)分VA模型難以區(qū)分的某些情感狀態(tài),如區(qū)分憤怒和恐懼等.

1.3.2 音樂表達(dá)情感離散類別模型

出現(xiàn)最早、影響最為廣泛的音樂表達(dá)情感的離散類別模型,當(dāng)屬1936年Hevner在“音樂中表達(dá)元素的實驗研究”[12]一文中提出的音樂情感離散類別模型.Hevner用67個情感形容詞來描述音樂表達(dá)的情感空間,并且將這67個情感形容詞分成8個類別,每個類別有一個代表性的形容詞: 莊嚴(yán)的(dignified)、悲傷的(sad)、如夢的(dreamy)、寧靜的(serene)、優(yōu)雅的(graceful)、快樂的(happy)、激動的(exciting)、有力的(vigorous).Hevner情感模型如圖3所示.

圖2 VA情感模型Fig.2 VA emotion model

圖3 Hevner情感模型Fig.3 Hevner emotion model

由于Hevner情感詞表是針對音樂藝術(shù)表現(xiàn)而建立的,因此在音樂心理學(xué)相關(guān)的研究中被廣泛引用.而且,不少研究人員對Hevner情感模型進行了持續(xù)的研究和改進[13-15].

1.3.3 音樂喚起情感離散類別模型

基于“喚起說”的音樂情感離散類別模型研究的主要問題是,選擇哪些詞來準(zhǔn)確描述和區(qū)分音樂喚起的情感.日內(nèi)瓦情感音樂量表(the Geneva Emotional Music Scales, GEMS)被認(rèn)為是第一個專門為度量音樂喚起的情感而設(shè)計的工具[16],是這方面研究的一個典型成果.

GEMS-45包含45個情感標(biāo)簽,這45個情感狀態(tài)又被分為9大類,即: wonder、transcendence、tenderness、nostalgia、peacefulness、power、joyful activation、tension、sadness(奇妙的、超越的、溫柔的、懷舊的、歌舞升平的、強大的、快活的、緊張的、悲傷的).相關(guān)實驗表明,這些情感標(biāo)簽在描述音樂喚起的情感狀態(tài)時,聽眾的選擇具有一致性.

1.4 情感模型的應(yīng)用

在音樂情感識別研究實踐中,在采用離散類別模型時,往往將音樂情感表示為一個有限符號集合(每個符號有一個默認(rèn)的情感語義),情感識別問題被作為分類問題來對待.當(dāng)采用連續(xù)維度模型時,則可以將音樂情感表示為一個向量(每一維有默認(rèn)的情感語義),每一維的值都可以是實數(shù)(表示情感的程度).情感識別問題被作為回歸問題來處理.

從情感模型實際采用的情況來看,音樂情感回歸的研究者大多采用VA模型或PAD模型.音樂情感分類研究者的情況比較復(fù)雜.其中一些人將不同的情感類別看成是互斥的(即一首音樂只能屬于某一個情感類),有些人則認(rèn)為一首音樂可以屬于多個情感類.研究者采用的類別模型十分龐雜,一些模型是基于音樂心理學(xué)研究成果的,也有的不是,比如MIREX情感分類評測使用的5類模型[17].

此外還有一些研究者采用的情感模型介于類別模型和維度模型之間,可稱之為“擴展的”類別模型.在這種模型中,除了若干可區(qū)分的類別外,每個類別還對應(yīng)一個表示該類別程度的實數(shù)[18].還有的研究者用回歸方式處理分類任務(wù),此時都會涉及維度空間到類別空間的映射問題,如將VA空間映射為(+V+A)、(-V+A)、(-V-A)和(+V-A)的4個離散類別.

2 音樂及相關(guān)數(shù)據(jù)

音樂情感識別系統(tǒng)的輸入是音樂及相關(guān)數(shù)據(jù)(見圖1).其中,音樂數(shù)據(jù)是音樂最原始的表示,是識別音樂情感的惟一可靠依據(jù).音樂數(shù)據(jù)的來源為各種編碼格式的音樂音頻文件.所謂音樂相關(guān)數(shù)據(jù)包括與音樂相關(guān)的歌詞、樂譜、評論和社會標(biāo)簽等.音樂相關(guān)數(shù)據(jù)的來源是互聯(lián)網(wǎng)和印刷出版物.

在音樂相關(guān)數(shù)據(jù)中,歌詞和樂譜屬于音樂作品的組成部分,它們包含與音樂數(shù)據(jù)相同或相關(guān)的情感傾向,大多在音樂情感的多模態(tài)識別中被用到.有音樂情感回歸研究表明,歌詞在愉悅度上的表現(xiàn),明顯優(yōu)于音頻數(shù)據(jù)[19].音樂評論和社會標(biāo)簽不屬于音樂作品的組成部分,因此,這類數(shù)據(jù)僅用于音樂情感模型建模和訓(xùn)練集的間接情感標(biāo)注[17].基于上述考慮,本文將聚焦在基于音頻數(shù)據(jù)的音樂情感識別的相關(guān)研究上.

3 訓(xùn)練集構(gòu)建與情感標(biāo)注

音樂訓(xùn)練集的建設(shè)是開展基于機器學(xué)習(xí)的音樂情感識別技術(shù)研究的基礎(chǔ),主要包括兩方面的工作,即訓(xùn)練樣本的選定和情感標(biāo)注.從某種角度講,音樂情感識別的研究活動都是圍繞訓(xùn)練集來展開的,訓(xùn)練集左右著音樂情感識別研究和發(fā)展的水平.在沒有權(quán)威的共享數(shù)據(jù)集的情況下,很難客觀、公平地比較和評價各種識別方法的優(yōu)劣.

構(gòu)建音樂情感識別的訓(xùn)練集,一般而言有如下幾個方面的基本要求:

1) 音樂數(shù)量和多樣性 音樂數(shù)量要多,覆蓋的音樂類型要多、要典型;

2) 音樂元數(shù)據(jù) 元數(shù)據(jù)要豐富,如曲風(fēng)、詞曲、樂器、語種,便于綜合分析;

3) 音樂情感模型 盡量采用標(biāo)準(zhǔn)的情感模型,便于學(xué)術(shù)界共享交流;

4) 音樂情感標(biāo)注 標(biāo)注者多且典型,有原始標(biāo)注數(shù)據(jù)(可對其做相關(guān)分析);

5) 數(shù)據(jù)集的說明文檔 包括數(shù)據(jù)集的相關(guān)統(tǒng)計信息、采用的情感模型及情感標(biāo)注方法、標(biāo)注者情況、情感標(biāo)注執(zhí)行過程及標(biāo)注結(jié)果處理方法等的介紹.

訓(xùn)練集建設(shè)的主要困難和代價來自兩個方面: 一是保證樣本音樂的多樣性;二是情感標(biāo)注.選定具有多樣性、代表性的訓(xùn)練樣本,除了要考慮曲風(fēng)、樂器、歌手等因素外,更要考慮音樂樣本情感的多樣性、代表性.在沒有進行標(biāo)注前,要滿足情感多樣性的要求是比較困難的.一種解決辦法是,盡量采集有情感社會標(biāo)簽的音樂樣本.在標(biāo)注完成后,發(fā)現(xiàn)樣本分布有缺陷時,可以用同樣的方法補足.就情感標(biāo)注而言,無論采用“表達(dá)說”,還是“喚起說”,都要經(jīng)過情感模型選擇、情感測量對象的選擇、標(biāo)注活動的組織和標(biāo)注數(shù)據(jù)處理等階段.目前常見的方法是采用專門開發(fā)的工具軟件來完成整個標(biāo)注過程.另外,采用眾包方式進行標(biāo)注也開始流行起來.

目前學(xué)術(shù)界公開的音樂情感識別訓(xùn)練集的情況并不樂觀.很多研究工作,都是基于研究者私有的訓(xùn)練集.實驗表明,訓(xùn)練集規(guī)模越大,訓(xùn)練出來的模型性能越好[20].下面簡單介紹一下幾種典型的數(shù)據(jù)集.

3.1 CAL500(Computer Audio Lab)

CAL500是一個包含500首西方流行音樂的公開數(shù)據(jù)集[18].該數(shù)據(jù)集采用了135個音樂相關(guān)的概念,涉及情感、曲風(fēng)、樂器、場合和演唱特性等方面的174個語義關(guān)鍵詞,對每首音樂進行標(biāo)注.其中,情感相關(guān)的概念(關(guān)鍵詞)有18個: angry/aggressive, arousing, bizarre/weird, calming, carefree/lighthearted, cheerful/festive, emotional/passionate, exciting/thrilling, happy, laid-back/mellow, light/playful, loving/romantic, pleasant, positive/optimistic, powerful/strong, sad, tender/soft, touching/loving.

CAL500所采用的情感模型屬于離散類別模型,但18個情感概念間不是完全互斥的,且對于每個概念,其標(biāo)注值是1到5之間的整數(shù).基于CAL500,如對每個情感概念對應(yīng)的值做二值化(即有或無),就可以做音樂情感分類研究;如將每個情感概念對應(yīng)的值看作連續(xù)值,也可以做相應(yīng)的維度情感回歸研究.

3.2 MIREX 2007 AMC(Audio Mood Classification)數(shù)據(jù)集

MIREX(Music Information Retrieval Evaluation eXchange)從2007年開始組織音樂情感分類算法評測活動.這個數(shù)據(jù)集就是那時創(chuàng)建的,且一直沿用至今[17].MIREX 2007 AMC數(shù)據(jù)集由600首音樂組成(均為30 s的音樂片段),來自APM Music音樂庫[21].數(shù)據(jù)集中的音樂被分成5個情感類,每類120首.

MIREX 2007 AMC數(shù)據(jù)集采用一種5類的類別模型來表示音樂情感,且情感類之間是互斥的.這個類別模型是通過對互聯(lián)網(wǎng)音樂情感相關(guān)的社會標(biāo)簽做聚類分析而得來的[21],每個情感類用若干情感詞來代表,如表1所示.由于是作為評測數(shù)據(jù),所以該數(shù)據(jù)集沒有公開.

3.3 MIREX 2013 K-POP Mood Classification數(shù)據(jù)集

從2013年開始,MIREX為音樂情感分類算法評測引入一個新的數(shù)據(jù)集,稱為K-POP音樂數(shù)據(jù)集[23].該數(shù)據(jù)集有1437首韓國流行歌曲.采用的情感類別模型與MIREX 2007 AMC數(shù)據(jù)集所采用的模型相同,歌曲也是被分成互不重疊的5類(各類歌曲數(shù)不完全相同),且被標(biāo)注了兩次: 一次由美國人標(biāo)注,另一次由韓國人標(biāo)注.這樣做目的有兩個: 一個是檢驗在西方音樂集上開發(fā)的分類模型是否適于韓國流行音樂;另一個是檢驗分類算法預(yù)測美國人標(biāo)注的標(biāo)簽和預(yù)測韓國人標(biāo)注的標(biāo)簽是否一樣有效.由于評測的需要,這個數(shù)據(jù)集沒有公開.

3.4 MediaEval Emotion in Music任務(wù)數(shù)據(jù)集

MediaEval Emotion in Music是一個動態(tài)(連續(xù)時間)音樂情感識別算法評測[24].這個評測所使用的數(shù)據(jù)集來源于Mohammad Soleymani等的研發(fā)成果[25].評測用數(shù)據(jù)集包含約1744首音樂,均為45s的片段.每段都標(biāo)有一個段級的靜態(tài)VA值和一組間隔為0.5s的動態(tài)VA值.該數(shù)據(jù)集的音樂情感標(biāo)注是通過眾包方式(采用Amazon Mechanical Turk)完成的,每首歌至少有10個人標(biāo)注.動態(tài)VA值是以連續(xù)時間方式標(biāo)注的,可根據(jù)需要做欠采樣(例如,每0.5s一個采樣).這個數(shù)據(jù)集的曲目、音頻和情感標(biāo)注是完全公開的.

3.5 AMG1608數(shù)據(jù)集

AMG1608數(shù)據(jù)集[20]包含1608首當(dāng)代西方音樂(均為30s片段).音樂情感標(biāo)注也是采用眾包方式,有665個標(biāo)注者參與了標(biāo)注.其中,46個標(biāo)注者每人至少標(biāo)注了150個片段.音樂情感模型采用VA維度模型,每個音樂片段只標(biāo)注一個VA值.

這個數(shù)據(jù)集最主要的特點是: 因為有46個標(biāo)注者每人至少標(biāo)注了150個片段,所以這個數(shù)據(jù)集可以用來分析和研究情感識別的個性化問題.這個數(shù)據(jù)集對研究界是公開的.

4 基于音頻的音樂情感識別情況

最近幾年,基于音頻的音樂情感識別研究主要圍繞以下幾個方面:

1) 特征提取 尋找語義明顯或反映音樂時間結(jié)構(gòu)的特征;

2) 生成式及高斯過程模型 可解釋或可高效地訓(xùn)練和運行的情感識別模型;

3) 深度學(xué)習(xí) 通過深度神經(jīng)網(wǎng)絡(luò)建立識別模型;

4) 曲風(fēng)輔助情感識別 對不同曲風(fēng)的音樂采取不同的識別模型;

5) 動態(tài)音樂情感識別 識別連續(xù)時間音樂情感;

6) 音樂喚起及個性化情感識別;

7) 跨文化音樂情感識別 考慮文化因素帶來的音樂情感感知差別.

下面僅就上述7個方面的研究進展情況進行介紹.

4.1 特征提取

音樂情感識別常用的音頻特征是以“幀袋”(bag of frames)方式提取的.這種特征提取方法忽略了音樂的時間結(jié)構(gòu)及相關(guān)語義.然而,音樂隨時間呈現(xiàn)的變化(具體體現(xiàn)為旋律、和弦進行和節(jié)奏等高層語義)對音樂情感識別來說可能很重要.

Madsen等[26]為了驗證時間信息對預(yù)測音樂表達(dá)的情感的重要性,提出一個驗證過程: 1)將音樂變成一個特征向量時間序列;2)用生成式模型(高斯混合模型、自回歸模型、向量空間模型、馬爾可夫和隱馬爾可夫模型)來表示該時間序列(后3種模型都基于特征向量量化結(jié)果);3)通過使用概率乘積核(probability product kernel),將生成式模型用于情感區(qū)分任務(wù).實驗表明,利用時間信息后,情感預(yù)測性能得到了提高.

長時調(diào)制特征能反映音樂的速度、旋律和節(jié)奏等高層語義.Ren等[27]認(rèn)為,Lee等[28]的調(diào)制分析中的兩個操作可能平滑掉有用的調(diào)制信息.所以,他們提出一種聲音頻率和調(diào)制頻率聯(lián)合的特征.用新提出的特征(Acoustic-Modulation Spectral Contrast/Valley(AMSC/AMSV)和Acoustic-Modulation Spectral Flatness/Crest Measure(AMSFM/AMSCM)),輔助以Mel-scale Frequency Cepstral Coefficients(MFCC)調(diào)制特征和短時音色統(tǒng)計特征,在3個情感數(shù)據(jù)集上實驗,都得到比以前方法更好的結(jié)果.

低層音頻特征與人理解的音樂語義相去甚遠(yuǎn),所以不好解釋,實際效果也有限.Gao等提出一種基于音樂字典對音樂的每一幀頻譜做稀疏分解的方法[29],并以音樂字直方圖作為音樂的特征,用于情感識別.音樂字語義明確可解釋性好.作者在兩個(純音樂)數(shù)據(jù)集上驗證了這種稀疏表示對情感識別的有效性.

Caetano等提出一個聽覺記憶計算模型的理論框架,明確地將時間信息結(jié)合到情感識別系統(tǒng)中[30].他們主張,聽覺記憶的組織方式將時間信息放在了聯(lián)系音樂意義和音樂情感的核心位置.

4.2 生成式及高斯過程模型

4.2.1 聲音情感高斯模型

多個人對同一首音樂的情感標(biāo)注經(jīng)常是有所不同的.因此,Wang等認(rèn)為音樂情感應(yīng)表示為概率分布.針對VA音樂情感標(biāo)注和檢索,他們提出一個音樂情感生成式模型,稱為聲音情感高斯(Acoustic Emotion Gaussians, AEG)模型[31].先學(xué)習(xí)一組聲音隱特征類(高斯分布),然后為每個隱特征類學(xué)習(xí)一個VA高斯分布.音樂情感表示為該組VA高斯分布的加權(quán)混合,混合權(quán)重取決于該音樂在各個隱特征類上的權(quán)重.因為是生成式模型,所以其學(xué)習(xí)過程容易解釋.他們在兩個數(shù)據(jù)集上做了情感自動標(biāo)注實驗,結(jié)果表明AEG模型的效果比此前的最好方法要好.

AEG模型的一個好處就是便于針對具體用戶構(gòu)建個性化情感識別模型.Chen等就是采用AEG模型來為VA音樂情感識別建模,并且提出一個基于線性回歸的調(diào)整方法來對一般模型進行個性化調(diào)整[32].

4.2.2 聲音情感直方圖混合模型

用VA概率分布來表示音樂情感時,一般的概率密度模型都有相應(yīng)的假設(shè)(如文獻(xiàn)[31]中的),但這種假設(shè)實際上不一定成立.Wang等[33]提出一個直方圖密度混合(Histogram Density Mixture, HDM)模型,來預(yù)測音樂的VA概率分布.將VA空間劃分為G×G格,用G×G二維直方圖表示音樂情感.HDM方法先學(xué)習(xí)一組音頻“主題”,然后為每個音頻主題學(xué)習(xí)一個VA隱直方圖.未知音樂的情感表示為這些隱直方圖的線性組合.HDM方法的優(yōu)點是: 不需要VA值的概率分布的任何假設(shè),易于用EM算法實現(xiàn),可擴展成實時預(yù)測連續(xù)時間情感,而且可以高效地訓(xùn)練模型和做預(yù)測(適合大規(guī)模數(shù)據(jù)集).

4.2.3 高斯過程方法

高斯過程(Gaussian Process, GP)方法是一種貝葉斯非參數(shù)模型,因其能捕捉高度非線性的數(shù)據(jù)關(guān)系,故其應(yīng)用越來越多.與支持向量機(Support Vector Machine, SVM)方法類似,GP方法也是基于核函數(shù),但GP方法給出的是真正概率意義上的輸出,帶有顯式的預(yù)測不確定度取值.另外,GP方法有現(xiàn)成的超參數(shù)學(xué)習(xí)算法.

Markov等將GP方法用于音樂曲風(fēng)分類和VA情感估計,研究其可行性和可用性[34].他們用GP和SVM做曲風(fēng)分類和VA情感估計實驗.研究了不同的特征(MFCC、LPC、音色特征和Chroma等)及其組合的效果.實驗表明,GP方法的效果一致優(yōu)于SVM方法.但是,與SVM方法相比,GP方法的計算復(fù)雜度高,所以很難直接用于大規(guī)模任務(wù).

Chen等提出一種基于深度高斯過程(deep Gaussian process)的音樂情感識別方法[35].他們提取節(jié)奏、力度、音色、音高和音調(diào)相關(guān)的特征(共38維),以回歸方式處理分類問題,為每個情感類構(gòu)建一個GP回歸器.

一種較好的音樂情感回歸方法,是訓(xùn)練并聚合多個回歸器.但是,訓(xùn)練完成之后,聚合方式就固定了,因此不能適應(yīng)新輸入的音樂特征.針對這個問題,F(xiàn)ukuyama等提出一種采用某GP回歸器并對其進行自適應(yīng)聚合的方法[36].GP回歸器給出的方差越大,說明該回歸結(jié)果的重要性(可靠性)也應(yīng)較低.

4.2.4 情感類聯(lián)合建模

Saari等[37]研究了語義層映射(Semantic Layer Projection, SLP)方法在音頻音樂情感預(yù)測上的應(yīng)用.與其他方法不同,SLP將音頻特征映射到一個低維度的語義層(與一個情感類模型對應(yīng)),而不是為每個情感類分別建一個識別模型.他們用兩個音樂網(wǎng)站的眾包標(biāo)簽及編輯標(biāo)注來構(gòu)造語義層,并用其中的部分?jǐn)?shù)據(jù)來訓(xùn)練SLP.

Wang等認(rèn)為現(xiàn)實中的音樂情感類之間有重疊(有關(guān)聯(lián)),所以不應(yīng)該孤立地為單個情感類建模,而應(yīng)該對所有類別綜合建模[38].他們提出一種“層次狄利克雷過程混合模型(Hierarchical Dirichlet Process Mixture Model, HDPMM)”,在音樂情感類之間共享一組全局分量(component),將音樂情感表示為與這些分量對應(yīng)的權(quán)重系數(shù).

4.3 深度學(xué)習(xí)方法

深度學(xué)習(xí)(deep learning)方法能從數(shù)據(jù)中學(xué)習(xí)更一般的從底層特征到高層概念的多層抽象表示,已經(jīng)在分類、回歸和特征提取等學(xué)習(xí)問題中取得成功,其應(yīng)用已涉及圖像、視頻、音頻[39]和自然語言等的識別和理解.

目前的音樂情感識別系統(tǒng)性能遇到“天花板”,根本原因在于音頻信號低層特征和音樂的高層概念之間有一道難以跨越的語義“鴻溝”.將深度學(xué)習(xí)方法用于音頻音樂情感識別,可能有助于跨越語義鴻溝.

針對在線(on-line)連續(xù)時間音樂情感回歸,Weninger等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的情感識別方法[40].他們先從幀頻譜提取低層特征,然后再以1s為一段,在低層特征的輪廓上計算矩、百分位數(shù)和回歸系數(shù)等一般特征(共4777個,反映音樂短時變化),作為RNN的前端輸入.他們具體采用LSTM(Long Short-Term Memory)型的RNN,且是做多變量回歸(同時計算愉悅度和激活度).在MediaEval 2013音樂情感數(shù)據(jù)集上,他們提出的模型的性能優(yōu)于支持向量回歸(Support Vector Regression, SVR)及前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN),R2值達(dá)0.70(對激活度)和0.50(對愉悅度).

Li等提出一種基于DBLSTM(Deep Bidirectional Long Short-Term Memory)的音樂動態(tài)情感預(yù)測方法[41].該方法的主要特點是基于多種不同尺度的時間序列,訓(xùn)練多個DBLSTM,然后通過超限學(xué)習(xí)機(Extreme Learning Machine, ELM)方法將多尺度DBLSTM的結(jié)果融合成最終結(jié)果.前端輸入的音樂特征都是些常用的短時特征.在MediaEval 2015音樂情感數(shù)據(jù)集上,對愉悅度回歸,均方根誤差(Root-Mean-Square Error, RMSE)值最好達(dá)到0.308;對激活度回歸,RMSE值最好達(dá)到0.230(顯著好于其他方法).

4.4 曲風(fēng)輔助的情感識別

與情感識別相比,曲風(fēng)識別的性能要好很多.因情感與曲風(fēng)有一定關(guān)聯(lián),故利用音樂曲風(fēng)信息可能有助于情感預(yù)測.

Chin等針對不同曲風(fēng)分別構(gòu)建情感識別模型[42].他們基于字典對音樂進行稀疏表示,并據(jù)此表示計算音樂的曲風(fēng)指數(shù)(genre index).另外,針對每種曲風(fēng)訓(xùn)練一個情感識別模型(SVM),然后根據(jù)待識別音樂的曲風(fēng)指數(shù)來聚合各個模型的結(jié)果.

Saari等也對不同曲風(fēng)分別建立情感預(yù)測模型[43].除音頻外,他們還使用了包含情感相關(guān)信息的社會標(biāo)簽,并提出將具有曲風(fēng)適應(yīng)性的標(biāo)簽語義計算和音頻建模結(jié)合起來.

4.5 動態(tài)音樂情感識別

音樂是一種時間的藝術(shù).音樂情感隨音樂進行而變化.所以,用一個情感值來代表一首音樂的情感顯然不夠具體細(xì)致.動態(tài)音樂情感識別就是要識別音樂在各個時間點的情感,即: 連續(xù)時間情感.

Yang[44]等提出一種融合多時長局部預(yù)測結(jié)果的連續(xù)條件隨機場(Continuous Conditional Random Field, CCRF)回歸算法.用多個基于不同時長的支持向量回歸器(SVR)對每個時刻的情感做局部預(yù)測,然后通過CCRF在縱向融合每個時刻的多個局部預(yù)測結(jié)果,并在橫向?qū)η楦兄禃r間序列建模,以修正各個時刻的情感預(yù)測值.

Xianyu等通過音樂實例觀察發(fā)現(xiàn),一首音樂的情感有整體(區(qū)別于其他音樂的基本情感)和局部(情感變化)特性.基于此,他們提出一種雙尺度支持向量回歸(Double Scale SVR, DS-SVR)模型,分別對整體情感和局部情感變化進行識別[45].該方法在MediaEval 2015音樂情感數(shù)據(jù)集上,對愉悅度回歸,RMSE值最好達(dá)到0.303(明顯好于其他模型);對激活度回歸,RMSE值最好達(dá)到0.245.

Weninger等提出的基于RNN深度學(xué)習(xí)的音樂情感識別建模方法[40],以及Li等提出的基于DBLSTM的方法[41],都是面向連續(xù)時間音樂情感預(yù)測的.而且,Weninger等的方法適合于做在線(on-line)預(yù)測.另外,Wang等[33]提出的HDM模型也適合預(yù)測連續(xù)時間情感.

4.6 音樂喚起及個性化音樂情感識別

4.6.1 音樂喚起的情感識別

Liu等試圖從音樂信號中挖掘音樂喚起情感的關(guān)聯(lián)因素[46],并將這一問題具體化為維數(shù)約簡問題.人在標(biāo)注音樂情感時,一般只能指出情感有無,而難以指出程度.為此,他們提出一種基于腦電信號(Electroencephalography,EEG)的“情感平滑”技術(shù),利用腦電信號來補正情感程度.在降維之后的(維度很低的)特征空間上,情感類之間的關(guān)系得到更明確的展示.

Aljanaki等[47]認(rèn)為,VA模型不足以表示音樂情感的多樣性,尤其是對音樂喚起的情感.因此,他們采用一個專為表示音樂喚起的情感而提出的模型GEMS.盡管音樂喚起的情感還取決于音樂本身之外的其他因素,但他們只根據(jù)音樂的音頻特征來預(yù)測音樂喚起的情感.

4.6.2 個性化音樂情感識別

不同的人對音樂情感的感知有所不同.要給某個用戶構(gòu)建個性化的情感識別模型,就需要該用戶標(biāo)注一些訓(xùn)練樣本,但不能要求用戶標(biāo)注大量樣本(工作量很大).

Chen等提出一種對一般模型做個性化調(diào)整的方法.他們采用以前提出的AEG概率框架[31]來為VA音樂情感識別建模,并且提出一個基于線性回歸的調(diào)整方法來對一般模型進行個性化[32].在個性化標(biāo)注數(shù)據(jù)有限的情況下,該方法更有效,而且可以利用領(lǐng)域知識.

Hsu等的工作也是構(gòu)建個性化的情感識別模型.考慮到自我報告方式的問題,Hsu等將腦電信號(EEG)引入音樂情感研究,提出一個基于證據(jù)的個性化的音樂情感識別模型[48].基于特定用戶的聽歌腦電信號對一般模型做個性化調(diào)整.

4.7 跨文化音樂情感識別

一般認(rèn)為,具有不同文化背景的人對音樂情感的感知是有差別的.跨文化音樂情感識別相關(guān)研究的問題包括: 不同民族和文化的人,對音樂情感感知有什么不同?音樂情感識別系統(tǒng)在不同文化的數(shù)據(jù)集之間的交叉泛化情況如何?

Yang等對英文歌曲和中文歌曲情感分類做了比較研究,試圖回答上述問題[49].他們收集了一組中文流行歌曲,用現(xiàn)有的針對英文歌曲的情感類別對其做標(biāo)注,并采用6種常用的音頻特征,實驗比較英文歌曲和中文歌曲分類性能,還測試了分類模型在英文歌曲和中文歌曲之間的交叉泛化能力.

Hu等研究了數(shù)據(jù)集大小、人工標(biāo)注的可靠性、音樂的文化背景和標(biāo)注者的文化背景等因素對回歸模型性能及模型泛化能力的影響[50].他們基于3個數(shù)據(jù)集做了5組實驗,結(jié)果表明,訓(xùn)練集大小和測試集標(biāo)注的可靠性影響情感回歸性能.當(dāng)上述兩個因素受控時,在兩個不同的音樂集之間,當(dāng)所含音樂的文化背景相同時,或情感標(biāo)注者的文化背景相同時,回歸模型是可較好地泛化的.

Kosta等以希臘音樂為樣本,研究文化因素對人感知的音樂情感的決定作用[51].他們構(gòu)建了希臘歌曲集.音樂按曲風(fēng)分成兩類: 受東方影響的和受西方影響的.參與者分成兩組: 希臘和非希臘人.結(jié)果表明,希臘人之間情感感知的一致性高于非希臘人之間的一致性.另外,對東方曲風(fēng)的音樂,兩組人的情感感知有明顯差別.

Singhi等以加拿大人和華人為例,研究了語言熟練程度和文化背景等不同而導(dǎo)致的音樂情感感知的差別[52].

5 情感識別算法的國際評測

公開的算法評測都是基于相同樣本音樂數(shù)據(jù)集,對算法的性能進行客觀評測和比較.目前國際上主要有兩個評測活動,一個是MIREX Audio Mood Classification任務(wù)[23],另一個是MediaEval Emotion in Music任務(wù)[24].

5.1 MIREX Audio Mood Classification任務(wù)

該評測活動從2007年開始舉辦,評測任務(wù)數(shù)據(jù)集情況見3.2,3.3節(jié).最近3年提交評測算法的性能見表2和表3(詳細(xì)評測結(jié)果見文獻(xiàn)[53]).

表2 算法在600首歌曲數(shù)據(jù)集上的表現(xiàn)

表3 算法在1437首韓國流行歌曲數(shù)據(jù)集上的表現(xiàn)

注: 2016年只有兩個算法被提交到韓國流行歌曲數(shù)據(jù)集上參加評測.

5.2 MediaEval Emotion in Music任務(wù)

這個評測活動的評測任務(wù)是預(yù)測音樂的連續(xù)時間情感(VA值),從2013年開始舉辦,已舉辦3次(2016年未舉辦).向參評者提供一個算法開發(fā)用的數(shù)據(jù)集(詳見本文3.4節(jié)),另提供專門的測試歌曲集(不帶情感標(biāo)注).

2013年到2015年的3次評測結(jié)果可參見文獻(xiàn)[54-56](Emotion in Music任務(wù)).

6 結(jié) 語

目前,音樂情感識別研究還處于初級階段,識別的準(zhǔn)確率不高且似乎觸及“天花板”.音樂情感識別是一個很困難的問題.首先,音樂是表達(dá)和喚起情感,但這種情感比較主觀且難以精確量化.不同人之間對音樂感知和態(tài)度體驗有不一致的地方;同一個人在不同處境下也有不一致.其次,樣本音樂真實情感(ground truth)標(biāo)注的代價很高,尤其是當(dāng)樣本數(shù)量較大時.樣本音樂集規(guī)模小,或真實情感標(biāo)注不準(zhǔn)確,將直接制約識別模型的性能.第三,音樂要素與音樂情感之間的關(guān)系非常復(fù)雜.音樂學(xué)和心理學(xué)中雖然對音樂要素與音樂情感之間的關(guān)系有研究,但研究成果定性的居多,定量程度不夠,因此對音樂情感自動識別研究的指導(dǎo)意義不夠.第四,音樂高層特征(直接體現(xiàn)旋律、節(jié)奏和和聲等音樂要素)提取非常困難.所以,一般只能采用底層信號特征來表示音樂.這些底層特征與人所能理解和交流的音樂高層語義相去甚遠(yuǎn),因而其效果有限且難以解釋.

良好的音頻特征,對音樂情感識別算法的有效性起著非常關(guān)鍵的作用.目前音樂情感識別中選取特征的策略,或根據(jù)研究者的經(jīng)驗選擇一組頻域和時域特征,或運用特征選擇算法在更大范圍的頻域和時域特征集中篩選.大量的研究成果顯示,沒有任何一種特征能單獨使用而達(dá)到最佳效果.現(xiàn)有特征工程方法具有很大的盲目性和不確定性.采用現(xiàn)有頻域和時域特征的機器學(xué)習(xí)方法,很難使音樂情感識別的性能再有太大的改善.

我們認(rèn)為,將深度學(xué)習(xí)方法應(yīng)用到音樂情感識別,很有可能有效地提高識別性能.深度學(xué)習(xí)是一種基于特征層次結(jié)構(gòu)的、可無監(jiān)督特征學(xué)習(xí)的學(xué)習(xí)方法,具有很多隱層的人工神經(jīng)網(wǎng)絡(luò)所有的優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)而來的特征對數(shù)據(jù)有更本質(zhì)的刻畫.盡管我們只能標(biāo)注少量樣本音樂的真實情感,但數(shù)以百萬計的音樂無需情感標(biāo)注即可用于特征學(xué)習(xí).目前雖已有研究者將深度學(xué)習(xí)技術(shù)用于音樂情感識別,但隨著研究的不斷深入,基于深度學(xué)習(xí)的方法有望給音樂情感識別研究帶來新的面貌.

[1] KIM J Y, BELKIN N J. Categories of music description and search terms and phrases used by non-music experts [C]∥3rd International Society for Music Information and Retrieval Conference. Paris, France: IRCAM—Centre Pompidou, ISMIR,2002: 209-214.

[2] KIM E Y, SCHMIDT E M, MIGNECO R,etal. State of the art report: Music emotion recognition: A state of the art review [C]∥11th International Society for Music Information and Retrieval Conference.Utrecht, Netherlands: ISMIR,2010: 255-266.

[3] YANG Y H, CHEN H H. Machine recognition of music emotion: A review [J].ACMTransactionsonIntelligentSystemsandTechnology,2012,3(3): 40.

[4] 孔維民.情感心理學(xué)新論 [M].長春: 吉林人民出版社,2002.

[5] 張積家.普通心理學(xué) [M].北京: 中國人民大學(xué)出版社,2015.

[6] 斯蒂芬·戴維斯.音樂的意義與表現(xiàn) [M].宋 瑾,柯 楊譯.長沙: 湖南文藝出版社,2007.

[7] JUSLIN P N, LAUKKA P. Expression, perception, and induction of musical emotions: A review and a questionnaire study of everyday listening [J].JournalofNewMusicResearch,2004,33(3): 217-238.

[8] RUSSELL J A. A circumplex model of affect [J].JournalofPersonalityandSocialPsychology,1980,39(6): 1161-1178.

[9] POSNER J, RUSSELL J A, PETERSON B S. The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development, and psychopathology [J].DevelopmentandPsychopathology,2005,17(3): 715-734.

[10] MEHRABIAN A. Basic dimensions for a general psychological theory [M]. Cambridge, MA: Oelgeschlager, Gunn & Hain, Incorporated,1980: 39-53.

[11] BALES R F. Social interaction systems: Theory and measurement [M]. Piscataway, New Jersey, USA: Transaction Publishers,2001: 139-140.

[12] HEVNER K. Experimental studies of the elements of expression in music [J].AmericanJournalofPsychology,1936,48(2): 246-268.

[13] FARNSWORTH P R. A study of the Hevner adjective list [J].TheJournalofAestheticsandArtCriticism,1954,13(1): 97-103.

[14] 孫守遷,王 鑫,劉 濤,等. 音樂情感的語言值計算模型研究 [J]. 北京郵電大學(xué)學(xué)報,2006,29(s2): 41-44.

[15] SCHUBERT E. Update of the Hevner adjective checklist [J].PerceptualandMotorSkills,2003,96(3 Pt 2): 1117-1122.

[16] The Personality, Emotion and Music Laboractory. The Geneva emotional music scales [EB/OL]. http:∥www.zentnerlab.com/psychological-tests/geneva-emotional-music-scales.

[17] HU X, DOWNIE J S, LAURIER C,etal. The 2007 MIREX audio mood classification task: Lessons learned [C]∥Proceedings of the 9th International Society for Music Information Retrieval Conference. Philadelphia, USA: ISMIR,2008: 462-467.

[18] TURNBULL D, BARRINGTON L, TORRES D,etal. Semantic annotation and retrieval of music and sound effects [J].IEEETransactionsonAudio,Speech,LanguageProcess,2008,16(2): 467-476.

[19] GUAN D, CHEN X O, YANG D S. Music emotion regression based on multi-modal features [C]∥The 9th International Symposium on Computer Music Modeling and Retrieval(CMMR2012). London, UK: CMMR,2012: 70-77.

[20] CHEN Y A, YANG Y H, WANG J C,etal. The AMG1608 dataset for music emotion recognition [C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). South Brisbane, QLD: ICASSP,2015: 693-697.

[21] APM Music. APM collection [EB/OL]. https:∥www.apmmusic.com/.

[22] HU X, DOWNIE J S. Exploring mood metadata: Relationships with genre, artist and usage metadata [C]∥Proceedings of the 8th International Conference on Music Information Retrieval. Vienna, Austria: ISMIR,2007: 67-72.

[23] International Music Information Retrieval Systems Evaluation Laboratory(IMIRSEL). 2013: Audio K-POP Mood Classification [EB/OL]. http:∥www.music-ir.org/mirex/wiki/2013: Audio_K-POP_Mood_Classification.

[24] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http:∥www.multimediaeval.org/mediaeval2015/emotioninmusic2015/.

[25] SOLEYMANI M, CARO M N, SCHMIDT M E,etal.1000 songs for emotional analysis of music [C]∥Proceedings of the 2nd ACM international workshop on Crowdsourcing for multimedia. New York, USA: ACM,2013: 1-6.

[26] MADSEN J, JENSEN B S, LARSEN J. Modeling temporal structure in music for emotion prediction using pairwise comparisons [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 319-324.

[27] REN J M, WU M J, JANG J S R. Automatic music mood classification based on timbre and modulation features [J].IEEETransactionsonAffectiveComputing,2015,6(3): 236-246.

[28] LEE C H, SHIH J L, YU K M,etal.Automatic music genre classification based on modulation spectral analysis of spectral and cepstral features [J].IEEETransactionsonMultimedia,2009,11(4): 670-682.

[29] GAO B, DELLANDRéA E, CHEN L. Music sparse decomposition onto a MIDI dictionary of musical words and its application to music mood classification [C]∥10th International Workshop on Content-Based Multimedia Indexing. Annecy, France: CBMI,2012: 1-6.

[30] CAETANO M F, WIERING F. Theoretical framework of a computational model of auditory memory for music emotion recognition [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 331-336.

[31] WANG J C, YANG H Y, WANG H M,etal. The acoustic emotion Gaussians model for emotion-based music annotation and retrieval [C]∥Proceedings of the ACM Multimedia. Nara, Japan: ACM,2012: 89-98.

[32] CHEN Y A, WANG J C, YANG Y H,etal. Linear regression-based adaptation of music emotion recognition models for personalization [C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: ICASSP, 2014: 2149-2153.

[33] WANG J C, WANG H M, LANCKRIET G. A histogram density modeling approach to music emotion recognition [C]∥2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). South Brisbane, QLD: ICASSP,2015: 698-702.

[34] MARKOV K, MATSUI T. Music genre and emotion recognition using Gaussian processes [J].IEEEAccess,2014,2: 688-697.

[35] CHEN S H, LEE Y S, HSIEH W C,etal. Music emotion recognition using deep Gaussian process [C]∥2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Hong Kong, China: APSIPA,2015: 495-498.

[36] FUKUYAMA S, GOTO M. Music emotion recognition with adaptive aggregation of Gaussian process regressors [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai: ICASSP,2016: 71-75.

[37] SAARI P, EEROLA T, FAZEKAS G,etal. The role of audio and tags in music mood prediction: A Study using semantic layer projection [C]∥Proceedings of the 14th International Society for Music Information Retrieval Conference(ISMIR 2013). Curitiba, Brazil: ISMIR,2013: 201-206.

[38] WANG J C, LEE Y S, CHIN Y H,etal. Hierarchical Dirichlet process mixture model for music emotion recognition [J].IEEETransactionsonAffectiveComputing,2015,6(3): 261-271.

[39] SEIDE F, LI G, YU D. Conversational speech transcription using context-dependent deep neural networks [C]∥Proceedings of the International Conference on Spoken Language Processing. Florence, Italy: INTERSPEECH,2011: 437-440.

[40] WENINGER F, EYBEN F, SCHULLER B. On-line continuous-time music mood regression with deep recurrent neural networks [C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: ICASSP,2014: 5412-5416.

[41] LI X X, XIANYU H S, TIAN J S,etal. A deep bidirectional long short-term memory based multi-scale approach for music dynamic emotion prediction [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai: ICASSP,2016: 544-548.

[42] CHIN Y H, LIN P C, TAI T C,etal. Genre based emotion annotation for music in noisy environment [C]∥2015 International Conference on Affective Computing and Intelligent Interaction(ACII). Xi’an: ACII,2015: 863-866.

[43] SAARI P, FAZEKAS G, EEROLA T,etal. Genre-adaptive semantic computing and audio-based modelling for music mood annotation [J].IEEETransactionsonAffectiveComputing,2016,7(2): 122-135.

[44] YANG W Y, CAI K, YANG D S,etal. Pyramid continuous conditional random fields: An exploration on dynamic music emotion recognition [C]∥11th International Symposium on Computer Music Multidisciplinary Research. Plymouth, UK: CMMR,2015: 1-16.

[45] XIANYU H S, LI X X, CHEN W X,etal. SVR based double-scale regression for dynamic emotion prediction in music [C]∥2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai: ICASSP,2016: 549-553.

[46] LIU Y, LIU Y, WANG C G,etal. What strikes the strings of your heart?-Multi-label dimensionality reduction for music emotion analysis via brain imaging [J].IEEETransactionsonAutonomousMentalDevelopment,2015,7(3): 176-188.

[47] ALJANAKI A, WIERING F, VELTKAMP R C. Computational modeling of induced emotion using GEMS [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference(ISMIR 2014). Taipei, China Taiwan: ISMIR,2014: 373-378.

[48] HSU J L, ZHEN Y L, LIN T C,etal. Personalized music emotion recognition using electroencephalography(EEG) [C]∥2014 IEEE International Symposium on Multimedia (ISM). Taichung, China Taiwan: ISM,2014: 277-278.

[49] YANG Y H, HU X. Cross-cultural music mood classification: A comparison on English and Chinese songs [C]∥Proceedings of the 13th International Society for Music Information Retrieval Conference, ISMIR 2012. Mosteiro de S. Bento da Vitória, Porto, Portugal: ISMIR,2012: 19-24.

[50] HU X, YANG Y H. Cross-dataset and cross-cultural music mood prediction: A case on western and Chinese pop songs [J].IEEETransactionsonAffectiveComputing,2016,PP(99): 1-14.

[51] KOSTA K, SONG Y D, FAZEKAS G,etal. A Study of cultural dependence of perceived mood in Greek music [C]∥Proceedings of the 14th International Society for Music Information Retrieval Conference(ISMIR 2013). Curitiba, Brazil: ISMIR,2013: 317-322.

[52] SINGHI A, BROWN D G. On cultural, textual and experiential aspects of music mood [C]∥Proceedings of the 15th International Society for Music Information Retrieval Conference. Taipei, China Taiwan: ISMIR,2014: 3-8.

[53] International Music Information Retrieval Systems Evaluation Laboratory (IMIRSEL). Audio music mood classification [EB/OL]. http:∥www.music-ir.org/mirex/wiki/MIREX_HOME.

[54] Sun SITE Central Europe. 2013 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1043/.

[55] Sun SITE Central Europe. 2014 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1263/.

[56] Sun SITE Central Europe. 2015 emotion in music [EB/OL]. http:∥ceur-ws.org/Vol-1436/.

猜你喜歡
音頻特征情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
不忠誠的四個特征
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
如何在情感中自我成長,保持獨立
抓住特征巧觀察
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
深泽县| 富源县| 和静县| 托克托县| 林口县| 固安县| 砚山县| 永定县| 镇赉县| 噶尔县| 彰武县| 井研县| 门源| 乐安县| 镇康县| 东乡| 宿迁市| 扶沟县| 什邡市| 靖边县| 得荣县| 旬阳县| 甘德县| 壶关县| 乌兰察布市| 德钦县| 抚州市| 静乐县| 偏关县| 鲁甸县| 东丰县| 灵山县| 砀山县| 仁怀市| 长岛县| 青铜峡市| 仁化县| 彝良县| 江川县| 宣威市| 望城县|