唐霞 張晨曦 李江峰
摘要:隨著互聯(lián)網(wǎng)多媒體技術(shù)的發(fā)展,越來越多的音樂歌曲通過網(wǎng)絡(luò)發(fā)布并存儲在大型數(shù)字音樂數(shù)據(jù)庫中。針對傳統(tǒng)音樂情感識別模型音樂情感識別率低的問題,本文提出一種基于深度學(xué)習(xí)的音樂情感識別模型。該模型使用音樂信號特征語譜圖作為音樂特征輸入,使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對語譜圖進行特征提取和情感分類。實驗表明,相比于單獨使用CNN、RNN等情感識別模型,該模型對音樂情感識別率更高,對音樂情感識別的研究具有重大意義。
關(guān)鍵詞: 音樂情感識別; 深度學(xué)習(xí); 語譜圖; 卷積神經(jīng)網(wǎng)絡(luò); 循環(huán)神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2019)11-0232-06
Abstract:With the development of Internet multimedia technology, more and more music songs are issued through the Internet and stored in large digital music databases. Aiming at the problem that the emotion recognition accuracy of traditional music emotion recognition model is low, this paper proposes a music emotion recognition model based on deep learning. The model uses the music signal feature spectrogram as the music feature input, and uses the combination of convolutional neural network and recurrent neural network to extract features of spectrograms and classify their emotions finally. Experiments show that compared with the emotion recognition models such as CNN and RNN, the model has higher emotion recognition accuracy for music, which is of great significance for the study of music emotion recognition.
Key words:music emotion recognition; deep learning; spectrogram; convolutional neural network; recurrent neural network
引言
隨著計算機多媒體技術(shù)的不斷發(fā)展進步,人類與計算機的關(guān)系日益密切,人們通過計算機網(wǎng)絡(luò)獲取大量的視頻、音頻和文字信息并從中得到精神上的享受,其中音樂對于人類來說至關(guān)重要。由于互聯(lián)網(wǎng)音樂的快速發(fā)展,大量的歌曲通過網(wǎng)絡(luò)發(fā)布并存儲在大型數(shù)字音樂數(shù)據(jù)庫中,而檢索和描述音樂最常用的就是情感詞[1],因此對海量音樂作品基于情感的組織和檢索問題,越來越受到人們的關(guān)注。
為了實現(xiàn)基于情感的音樂檢索,往往需要標注音樂作品的情感,如果使用人工方式對海量音樂進行情感標注,不僅工作量巨大,而且工作效率較低。因此,研究音樂情感識別技術(shù),實現(xiàn)音樂作品的自動情感標注就成為必然的選擇。音樂情感識別模型就是通過分析音樂的音頻信號構(gòu)建計算模型,從而實現(xiàn)音樂情感自動識別[2]。
在音樂情感識別模型中,音樂情感模型貫穿始終,它決定了情感分類的類別。1936年Hevner [3]提出了音樂離散類別情感模型,用67個情感形容詞來描述音樂表達的情感空間,并且將這67個情感形容詞分成8個類別,每個類別有一個代表性的形容詞。除了音樂離散類別情感模型,還有學(xué)者提出音樂情感通過連續(xù)的空間維度來表示,這便是Russell提出的Valence-Arousal情感模型(后文簡稱為V-A模型)[4][5]。該模型認為情感狀態(tài)是分布在一個包含Valence(效價度)和Arousal(激活度)的二維空間上的點,效價度反映情感的積極和消極程度,激活度反映情感的激烈程度。本文正是采用Russell提出的Valence-Arousal情感模型作為音樂情感模型。
傳統(tǒng)的機器學(xué)習(xí)方法是從音樂音頻信號中手動提取聲學(xué)特征作為特征輸入,例如手動提取出音樂信號的音調(diào)特征,節(jié)奏特征和音色特征等,但是這樣帶來的問題是在大樣本上面表現(xiàn)力不足,效果不佳。除此外還有使用處理后的音樂信號特征,例如梅爾倒譜系數(shù)MFCC,但實際取得的效果也不明顯。因此在本文中特征輸入采用包含了音樂音頻信號所有頻譜信息,沒有經(jīng)過任何加工過的語譜圖。很顯然,使用完整的音樂信號特征能更加完善的保留音樂信號的特征,為后續(xù)特征提取提供完整的特征原本。
深度學(xué)習(xí)(deep learning)能從音頻數(shù)據(jù)中學(xué)習(xí)音頻的底層特征與高層概念的關(guān)系。而音樂情感識別面臨的巨大挑戰(zhàn)在于音頻信號的特征與音樂的情感語義之間存在著難以用物理參數(shù)描述的差異,通過深度學(xué)習(xí)進行情感識別,也許能夠跨越這一差異。其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)已經(jīng)在許多音樂分類任務(wù)中展現(xiàn)了它的優(yōu)秀性能,例如,音樂標注[6][7],體裁分類[8][9]和音樂推薦[10]。
因此,本文提出基于深度學(xué)習(xí)的音樂情感識別模型采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Convolutional Recurrent neural network(CRNN),通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN),充分利用CNN對于圖像極強的綜合特征提取能力和RNN對于時間序列數(shù)據(jù)時序特征的提取能力,對語譜圖從綜合特征和時序特征二個方面進行特征提取,從而實現(xiàn)音樂的情感分類。通過在公開音樂數(shù)據(jù)集上進行實驗,與單獨使用CNN和RNN比較,CRNN具有更好的音樂情感準確率。
1 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
1.1 模型框架
本文基于深度學(xué)習(xí)的音樂情感識別模型是采用機器學(xué)習(xí)的方法來建立分類模型,圖1所示為該模型的基本框架圖。
模型設(shè)計思路為:將包含音樂信號和對應(yīng)情感標簽的音樂數(shù)據(jù)集分為訓(xùn)練集和測試集,在訓(xùn)練階段,先對訓(xùn)練集中的音樂信號樣本進行預(yù)處理,再對其進行特征的提取,之后與對應(yīng)的情感標簽通過分類模型進行訓(xùn)練。在測試階段,對測試樣本提取相同的特征,并利用訓(xùn)練階段得到的分類模型,進行音樂情感的分類判別。
1.2 情感模型
本文采用Russell提出的Valence-Arousal情感模型作為音樂情感模型,情感狀態(tài)是分布在一個包含Valence(效價度)和Arousal(激活度)的二維空間上的點,其中縱軸表示激活度,橫軸表示效價度??偟膩碚f就是,效價度反映了情感的積極和消極程度,Valence值越大,則情感的積極程度越高,反之則消極程度越高;激活度反映了情感的激烈程度,Arousal值越大,則情感的激烈程度越高,反之則越低。V-A情感模型如圖2所示。
本文將V-A二維空間映射為(+ V + A )、(-V+A)、(-V-A)和(+V-A)的4個離散類別,再分別對應(yīng)離散類別情感模型中的四種典型情感,從而獲得本文的音樂情感類別,更適合實驗的開展。四個類別的音樂情感的對應(yīng)關(guān)系如表1中所示。
1.3 語譜圖
語譜圖(Spectrogram)是時序相關(guān)的傅里葉分析的顯示圖像,是一種可以反映音樂信號頻譜隨時間改變而變換的二維時頻圖,其橫坐標表示時間,縱坐標表示頻率。語譜圖中顯示了大量與音樂信號特性相關(guān)的信息,如共振峰、能量等頻域參數(shù)隨時間的變化情況,它同時具有時域波形與頻譜圖的特點。也就是說,語譜圖本身包含了音樂信號的所有的頻譜信息,沒有經(jīng)過任何加工,所以語譜圖關(guān)于音樂的信息是無損的。這也是本文選擇語譜圖作為音樂信號特征輸入的原因。語譜圖的生成流程如圖3所示。
語譜圖的生成需要先進行分幀加窗、短時傅里葉變換將是時域信息轉(zhuǎn)換為頻域信息,進行刻度轉(zhuǎn)換成振幅的分貝表示,然后將處理后的頻域信息按照時序拼接形成語譜圖。針對具體的音樂信號,從波形圖到語譜圖的生成過程如圖4所示。
在本文中,考慮到人耳聽覺特性,所以所選擇的頻率為Mel頻率,由此得到的語譜圖是Mel范圍內(nèi)的語譜圖(Mel-Spectrogram)。語譜圖的橫坐標是時間,縱坐標是Mel頻率,坐標點值為音樂信號數(shù)據(jù)能量。由于是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。如圖5所示就是本文使用的灰度化的語譜圖。
1.4 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型
1.4.1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)之所以可以在音樂情感分析中進行應(yīng)用,是因為音樂的特征除了時域特征,還有頻域特征??梢詫⑾葘⒄Z音信號分幀,對每一幀進行傅里葉變換成頻譜圖,然后將頻譜圖在時間維度上進行連接,形成成語譜圖。一張語譜圖中可以包含所有的音頻信息,再加上卷積神經(jīng)網(wǎng)絡(luò)對于圖片超強的自動特征提取的能力,所以可以使用語譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的原始輸入,從而將音樂信號和卷積神經(jīng)網(wǎng)絡(luò)聯(lián)系在一起。
在卷積神經(jīng)網(wǎng)絡(luò)模型中,輸入是音頻的語譜圖,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行自動特征提取,在此過程中不斷將特征進行降維以及特征再提取,最后將提取出來的特征向量展平,輸入到全連接網(wǎng)絡(luò)后通過Softmax回歸得到輸出結(jié)果。關(guān)于該網(wǎng)絡(luò)模型的詳細結(jié)構(gòu)流程如圖6所示。
如圖6所示,在CNN音樂情感識別模型中輸入的語譜圖生成參數(shù)是幀長256,幀移是128,由此得到的音樂片段語譜圖的大小以height*width的形式表示為96*1366,因為是由一個音樂片段生成的一張語譜圖,所以輸入層就表示為1@96*1366。將輸入數(shù)據(jù)1@96*1366進行Batch Normalization處理后再輸入到大的卷積層中,在每個大的卷積層里面,都要進行卷積、池化(子采樣)、標準化,dropout等操作。進行了5層的卷積層操作后,將輸入數(shù)據(jù)由1@96*1366特征提取,降維處理為256@1*1的形式。在CNNs 計算完畢后將輸出進行展開為256維的向量,然后輸入到一層全連接層中,得到一個4維的向量,最后將這個4維的向量輸入Softmax中進行分類處理得到最后的分類結(jié)果。
1.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)模型
由于生成的語譜圖具有時間序列的特征,所以可以考慮使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN提取其時序方面的特征進行分類處理。RNN音樂情感識別模型的輸入是一張原始音頻生成的語譜圖,經(jīng)過RNN網(wǎng)絡(luò)后將最后一個step的輸出連接全連接神經(jīng)網(wǎng)絡(luò)中,最后通Softmax回歸得到分類結(jié)果。圖7展示了RNN音樂情感識別模型的詳細結(jié)構(gòu)網(wǎng)絡(luò)流程圖。
如圖7所示,在RNN音樂情感識別模型中輸入的語譜圖生成參數(shù)是幀長256,幀移是128,由此得到的音樂片段語譜圖的大小以width*height的形式表示為1366*96,因為是由一個音樂片段生成的一張語譜圖,所以輸入層就表示為1@96*1366。對于輸入數(shù)據(jù)1@96*1366先對數(shù)據(jù)進行Batch Normalization處理,然后再輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,這里采用GRU作為RNN的cell單元,在每一個cell單元中都包含dropout層,以此來防止過擬合。在經(jīng)過RNN網(wǎng)絡(luò)后將最后一個step的輸出連接全連接神經(jīng)網(wǎng)絡(luò)中,得到一個4維向量,最后將這個4維的向量輸入Softmax中進行分類處理得到最后的分類結(jié)果。
1.4.3 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)CRNN模型
為了能充分利用語譜圖中的時序特征,獲得更好的分類效果,我們將語譜圖作為特征輸入,先使用CNN對語譜圖進行特征提取,在此過程中同時保留語譜圖的時序特征,以此獲得綜合特征的時序數(shù)據(jù)特征圖,再將特征圖輸入到RNN中,利用RNN的時序特征提取能力,對特征圖針對時序特征再進行特征提取,以此獲得最終的特征向量。這就是本文使用的CRNN模型。CRNN模型系統(tǒng)是一個以音頻為原始輸入,語譜圖為音樂信號特征,CRNN模型進行特征訓(xùn)練的一個端到端的音樂情感識別模型。如圖8所示為CRNN模型的結(jié)構(gòu)圖。
在圖8中,CRNN模型以音樂信號語譜圖(橫軸為時間方向,縱軸為頻率方向,單聲道灰度表示)為輸入。在CNN子結(jié)構(gòu)中,利用CNN神經(jīng)網(wǎng)絡(luò)對于圖像二維數(shù)據(jù)特征提取的能力,將蘊含在語譜圖中頻率方向的音樂情感特征提取出來并保留其時序特征,從而獲得1*15*N(頻率*時間*特征圖數(shù)目)的特征圖,這樣就可以去掉頻率維度,獲得了形如(時間*特征圖數(shù)目)的二維特征數(shù)據(jù)。在RNN子結(jié)構(gòu)中,利用RNN模型提取時間序列數(shù)據(jù)時間方面特征的能力,把形如(時間*特征圖數(shù)目)的二維數(shù)據(jù)輸入到RNN模型進行情感分析,最后獲得one-hot向量。
CRNN模型的關(guān)鍵在于卷積神經(jīng)網(wǎng)絡(luò)CNN的卷積和池化過程中,通過卷積核,步長,層數(shù)等參數(shù)設(shè)計,巧妙地使最后獲得的特征圖頻率方向的維度降為1,這樣既提取了頻率方向的特征,又保留了一定的時序特征。
該模型綜合了CNN對于圖像(二維數(shù)據(jù))極強的綜合特征提取能力和RNN對于時間序列數(shù)據(jù)時間特征的提取能力,對語譜圖從綜合特征和時序特征二個方面進行特征提取,既考慮到語譜圖作為圖像角度的特征提取,又兼顧了音樂信號時間序列角度的特征提取。如圖9所示為CRNN音樂情感識別模型的流程圖。
如圖9所示,CRNN音樂情感識別模型的流程為:將一段音樂歌曲信號進行切分,獲得合適大小子音頻信號然后轉(zhuǎn)換為語譜圖。在本文中,獲得的是大小形為height*width的96*1366的語譜圖,然后將每張語譜圖輸入到卷積神經(jīng)網(wǎng)絡(luò)CNN中。在圖9中,輸入層是1@96*1366的數(shù)據(jù),表示為CNN的輸入形狀(shape)[batch_size, height, width, channels]就是[batch_size, 96, 1366, 1],其中batch_size為訓(xùn)練集中所取的批數(shù)據(jù)的大小,channels是圖像的通道數(shù),因為本文的語譜圖都處理為單通道灰度圖,所以channels取1。
為了數(shù)據(jù)的方便處理,本文對輸入數(shù)據(jù)[batch_size, 96, 1366, 1]進行pad操作,于是獲得的輸入數(shù)據(jù)shape為[batch_size, 96, 1440, 1]。進行4層卷積神經(jīng)網(wǎng)絡(luò)CNN操作后(每個CNN中,卷積、池化、標準化,dropout等操作),獲得shape為[batch_size, 1, 15, 128]的向量,過程中的特征圖shape如圖中所示。
對于shape為[batch_size, 1, 15, 128]的向量可以理解為高度為1,寬度為15,通道數(shù)為128的圖像。因為高度為1,所以可以降維處理為[batch_size, 15, 128],此時,向量的shape就是理解為[batch_size, time_steps, features],把寬度15看作是RNN輸入的time steps,1*128就是每個step的特征向量,這樣就符合RNN的輸入格式了。于是把[batch_size, 15, 128]的向量,通過GRU為cell的RNN,取最后一個step的結(jié)果,在經(jīng)過一層全連接神經(jīng)網(wǎng)絡(luò)通過Softmax回歸分類就可以得到分類結(jié)果了。
2 實驗過程及結(jié)果
2.1 數(shù)據(jù)集
為了對以上模型進行訓(xùn)練和測試,我們使用MediaEval Emotion in Music任務(wù)數(shù)據(jù)集[11]。在MediaEval Emotion in Music任務(wù)數(shù)據(jù)集中,1000首歌曲片段以1到1000作為歌曲片段id保存在一個文件夾database中,在annotations文件夾中注釋了每首歌曲的描述信息,以第二首歌曲為例,所使用到的描述信息如表2所示。
數(shù)據(jù)集中每個歌曲片段的時長是45s,45s的歌曲片段均采用44.1kHZ的采樣頻率,單通道,1000首歌曲片段的保存格式為MPEG layer 3(MP3)格式。
由于去除了重復(fù)片段,所以有744個片段被標注。在數(shù)據(jù)集的靜態(tài)注釋中,每段音樂的靜態(tài)V-A值設(shè)置在范圍1到9中。本文取平均Arousal值和平均Valence值作為整個片段的V-A值,然后采用Valence-Arousal情感模型,將V-A值映射到四類情感上,以(5,5)作為坐標原點,得到表2中的情感標簽。
然而,在上述數(shù)據(jù)集中,每個音樂歌曲片段有45s的時長,不管是對人還是對分類模型而言,45s對于識別一首音樂的情感類別綽綽有余。因此,本文將45s的音樂片段分隔成若干4s左右的音樂片段,以擴充音樂數(shù)據(jù)集,同時以整個片段的情感標注作為子片段的情感標注,最終得到包含8184個音樂片段的數(shù)據(jù)集。
2.2 參數(shù)設(shè)置
本實驗中CRNN模型的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表3和表4中所示,該網(wǎng)絡(luò)的輸入?yún)?shù)形式是[batch_size, height, width, channels],考慮到電腦內(nèi)存情況以及模型的復(fù)雜度,batch_size取24,也就是一次輸入24張大小為96*1366的語譜圖,該語譜圖的生成參數(shù)幀長256,幀移是128,每張圖片都是單通道。對輸入數(shù)據(jù)[batch_size, 96, 1366, 1]進行pad操作,于是獲得的輸入數(shù)據(jù)shape為[batch_size, 96, 1440, 1]。然后經(jīng)過4層卷積神經(jīng)網(wǎng)絡(luò),每層都進行卷積+標準化+ReLu激活函數(shù),然后進行池化+dropout,卷積層的padding方式取“same”,池化層的padding方式取“valid”。經(jīng)過CNN的處理獲得shape為[batch_size, 1, 15, 128]的特征圖向量。把shape為[batch_size, 1, 15, 128] 的特征圖向量進行reshape操作,獲得shape為 [batch_size, 15, 128]的向量,此時向量的shape就是理解為[batch_size, time_steps, features]。
之后將shape為 [batch_size, 15, 128]的向量輸入到RNN中。輸入到RNN的時候,將 1x128 作為一個time step的輸入,這樣共有15個time_step。內(nèi)部的RNN結(jié)構(gòu)設(shè)置為多層GRU-Cell,并且用dropout進行包裝處理,keep_prob參數(shù)設(shè)置為0.7。在RNN多層GRU-Cell處理結(jié)束后,將最后一次time_step的輸出結(jié)果形如[bacth_size, state_size]的向量輸入到全連接層中,輸出形如[batch_size, num_class]的特征,接著進行Softmax回歸進行分類處理。
本實驗中,超參數(shù)設(shè)置為CNN部分dropout為0.5,RNN部分dropout為0.3,初始學(xué)習(xí)率設(shè)置為0.001,迭代周期epoch設(shè)置為400,損失函數(shù)選擇交叉熵cross entropy,優(yōu)化器選擇Adam優(yōu)化器。
2.3 實驗結(jié)果
本實驗的分類結(jié)果列在表5-7中。表5是使用CNN網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示)的情感分類的結(jié)果,表6是使用RNN網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7所示)的情感分類的結(jié)果,表7是使用CRNN網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示)的情感分類的結(jié)果。為了驗證模型的泛化性能,本文采用10折交叉驗證,將數(shù)據(jù)集分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進行測試,每次取模型收斂后最后10組性能指標數(shù)據(jù)的算數(shù)平均值作為本次的訓(xùn)練的性能指標,指標使用宏平均的計算方式,重復(fù)10次獲得測試數(shù)據(jù)。
通過上述實驗結(jié)果可以看出,相比于單獨使用CNN對語譜圖進行綜合特征提取和單獨使用RNN對語譜圖進行時序特征提取,先將語譜圖通過CNN進行綜合特征提取再使用RNN對保留時序特征的特征圖進行時序特征提取的CRNN模型實驗取得的分類效果更好。
3 結(jié)論
隨著機器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,與日俱增的實際應(yīng)用問題也不斷被提出,其中音樂情感的識別問題依舊是具有挑戰(zhàn)的。在本文中,我們沒有使用傳統(tǒng)的手工特征,而是使用包含了音樂信號所有頻譜信息沒有經(jīng)過任何加工的語譜圖作為特征輸入,與單獨使用CNN的音樂情感識別模型和單獨使用RNN的音樂情感識別模型相比,先將語譜圖通過CNN進行綜合特征提取再使用RNN對保留時序特征的特征圖進行時序特征提取的CRNN音樂情感識別模型實驗取得的分類效果更好。這個比較為我們以后的研究提供了堅實的基礎(chǔ)。在以后的研究中,我們將著力于音頻和視頻的多模型情感識別任務(wù)。
參考文獻:
[1] Woo W,J I Park,Y lwadate. Emotion Analysis from Dance Performance Using ime-delay Neural Networks [J]. 2000,Atlantic City,NJ,United States: Duke University,Association for Intelligent Machinery,Durham,NC 27708-0291,United States.
[2] Kim Y E,Schmidt E M,Migneco R. State of the Art Report: Music Emotion Recognition: A State of the Art Review[C]. International Society for Music Information Retrieval Conference,Ismir 2010, Utrecht, Netherlands, August,DBLP,2010,255-266 .
[3] Hevner K. Experimental studies of the elements of expression in music[J]. American Journal of Psychology, 1936, 48(2): 246-268.
[4] Russell J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology,1980, 39(6): 1161-1178.
[5] Posner J, Russell J A, Peterson B S. The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development and psychopathology[J]. Development and Psychopathology, 2005,17(3): 715-734.
[6] Sander Dieleman, Benjamin Schrauwen. End-to- end learning for music audio[C]. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014:6964-6968.
[7] Keunwoo Choi, George Fazekas, Mark Sandler. Automatic tagging using deep convolutional neural net- works[C]. International Society of Music Information Retrieval Conference. ISMIR, 2016.
[8] Siddharth Sigtia, Simon Dixon. Improved music feature learning with deep neural networks[C]. 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2014.
[9] Paulo Chiliguano, Gyorgy Fazekas. Hybrid music recommender using content-based and social information[C]. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016:2618-2622.
[10] Aaron Van den Oord, Sander Dieleman, Benjamin Schrauwen. Deep content based music recommendation[C]. Advances in Neural Information Processing Systems, 2013:2643–2651.
[11] MediaEval Benchmarking Initiative for Multimedia Evaluation. 2015 emotion in music task [EB/OL]. http://www.multimediaeval.org/mediaeval2015/emotioninmusic,2015.
【通聯(lián)編輯:唐一東】