国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音樂推薦系統(tǒng)綜述

2020-04-09 04:42:52劉嬋娟
關鍵詞:冷啟動音頻物品

劉 帥, 劉嬋娟

(1. 廣州大學 計算科技研究院, 廣東 廣州 510006; 2. 大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)字音樂成為當前主流消費內(nèi)容.然而其海量的音樂數(shù)據(jù)大大超出了受眾的承受能力,在海量曲庫中尋找個人喜歡的音樂可能引發(fā)用戶信息疲勞.為了提升用戶體驗,音樂推薦系統(tǒng)應運而生[1].近年來,研究者們提出了很多相關的算法和解決方案以提高推薦系統(tǒng)的性能和體驗,對音樂推薦系統(tǒng)的發(fā)展做出了重要貢獻.

1 研究背景及意義

1.1 研究背景

根據(jù)第45次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[2],截至2020年3月28日,我國網(wǎng)民規(guī)模為9.04億,手機網(wǎng)民規(guī)模為8.97億,網(wǎng)民中使用手機上網(wǎng)的比例高達99.3%.移動互聯(lián)網(wǎng)大規(guī)模普及的同時,帶來了海量信息和數(shù)據(jù),信息過載的問題日趨嚴重,從而促進了搜索引擎和推薦系統(tǒng)的蓬勃發(fā)展.

推薦系統(tǒng)是一種繪制用戶畫像、預測用戶愛好,以避免信息過載,為用戶提供個性化服務的方法.隨著推薦算法的成熟,推薦系統(tǒng)的應用也成為近年的熱點,并在各個領域發(fā)揮著越來越重要的作用,音樂領域也不例外[3].好的推薦系統(tǒng)可以吸引更多用戶加入,與用戶產(chǎn)生共鳴,從而創(chuàng)造經(jīng)濟價值.

傳統(tǒng)的推薦方法主要包括協(xié)同過濾、基于內(nèi)容的推薦、基于標簽的推薦、基于上下文的推薦、基于深度學習的推薦和混合推薦.

用戶使用音樂平臺的時候,會看到海量的音樂作品,為了盡快找到自己心儀的作品,用戶可能會選擇查看排行榜或者詢問朋友,看看別人在聽什么歌曲,喜歡什么歌曲,然后選擇一些名列前茅的歌曲收聽.這樣的方式可以擴展為找到和該用戶歷史興趣相似的用戶,將他們最近聽過和收藏過的歌曲作為推薦結果推送給用戶,推薦的結果會更加有參考價值,這種方法就是基于協(xié)同過濾的推薦.協(xié)同過濾是經(jīng)典的推薦算法,如矩陣因子分解方法,其數(shù)據(jù)的來源是用戶的歷史交互數(shù)據(jù).協(xié)同過濾的應用非常廣泛,但同時也面臨著數(shù)據(jù)稀疏和冷啟動等問題,同時,由于協(xié)同過濾的模型所限,在特征提取方面存在著很多不足,從而會限制推薦系統(tǒng)的準確率[4].

基于內(nèi)容的推薦方法是通過提取物品特征,將用戶已選擇過(如點擊、收藏、不感興趣和單曲循環(huán)等操作)的物品與其他物品計算相似度,將相似度較高的物品以列表的形式推薦給用戶.而傳統(tǒng)的協(xié)同過濾所使用的特征是人工添加的,制約了該方法的性能及其擴展性.

基于標簽的推薦則是利用用戶對物品打上的標簽來分析用戶的偏好,但這種推薦方法更適用于樂于打標簽的用戶.而且,由于用戶打標簽是一種主觀意愿的表達,為了實現(xiàn)標簽的客觀性,可以通過網(wǎng)站官方對歌曲或歌單打上客觀標簽來補足.與此同時,基于標簽的推薦會存在一定的數(shù)據(jù)稀疏和冷啟動的問題.

混合推薦是將多種推薦方法取長補短,來克服冷啟動和數(shù)據(jù)稀疏問題.移動互聯(lián)網(wǎng)的普及,使得用戶的數(shù)據(jù)信息變得更加具體、更加多樣化,包括用戶的評分、為物品所打的標簽、所處的位置、與智能終端的交互等.但由于上述數(shù)據(jù)存在著信息規(guī)模大、數(shù)據(jù)非結構化和來源廣泛等問題,如何有效地利用這些數(shù)據(jù)仍然面臨著挑戰(zhàn)[5-6].

近年來,深度學習在多個方面取得突破,同時為推薦系統(tǒng)帶來了新的機遇.一方面,由于深度學習所使用的是深層次的神經(jīng)網(wǎng)絡,因此,可以從大量數(shù)據(jù)中學習提取特征,能夠用多維度、多層次的特征來表示用戶和物品;另一方面,深度學習能夠?qū)⒉煌S度、不同層次的數(shù)據(jù)表征到同一個隱空間,更加便于處理復雜數(shù)據(jù),提取更接近本質(zhì)的特征.在此基礎上融合了傳統(tǒng)的推薦方法,能夠有效地挖掘數(shù)據(jù)特征,在一定程度上可以解決傳統(tǒng)推薦系統(tǒng)中的數(shù)據(jù)稀疏和冷啟動問題[7].近年來,基于深度學習的推薦系統(tǒng)研究成為新的研究趨勢.

1.2 研究意義

移動互聯(lián)網(wǎng)的迅速發(fā)展為人們的生活帶來了便利,日常生活內(nèi)容大都可以在網(wǎng)絡上完成,如訂外賣、打車、聽音樂、看電影及網(wǎng)購等,同時也帶來了海量的數(shù)據(jù),這些行為數(shù)據(jù)對研究人們的偏好大有益處.但是海量的內(nèi)容同樣會困擾用戶,難以在巨大的信息庫中找到自己感興趣的內(nèi)容,因此,推薦系統(tǒng)正在變得越來越重要.例如,在線視頻門戶Netflix中有80%的點擊量來自推薦[8],知名視頻網(wǎng)站YouTube大約有60%的點擊量來自于推薦[9].推薦系統(tǒng)的廣泛應用,為用戶和平臺帶來了更加良性的關系,好的推薦系統(tǒng)可以實現(xiàn)用戶和平臺雙贏.對用戶而言,可以從枯燥繁瑣的尋找中解脫出來;對平臺而言,可以使用戶更加依賴平臺,從而成為穩(wěn)定的用戶群體,平臺可以通過提供付費服務和廣告投放得到利潤.

移動互聯(lián)網(wǎng)和移動終端的普及帶來了數(shù)以億計的網(wǎng)民群體,但對于音樂這樣的藝術作品,不同的用戶之間的品味和喜好各不相同,因此,為了擴大平臺的用戶群、增強用戶黏性,音樂個性化服務已成為當前在線音樂平臺的核心競爭力之一,如網(wǎng)易云音樂、QQ音樂及國外的iTunes、Spotify等.

一個好的音樂推薦系統(tǒng),需要有效地結合音頻特征、用戶及平臺所打標簽、用戶交互等方面,來使推薦系統(tǒng)更加精準,用戶體驗更加良好.本文著力于概述音樂推薦系統(tǒng)目前主要的研究方法以及面臨的問題和挑戰(zhàn).

2 音樂推薦系統(tǒng)的研究方法

一個好的推薦算法可以取得良好的準確率、召回率,這些指標是衡量推薦系統(tǒng)性能的重要因素.推薦系統(tǒng)的研究大都集中于如何提升算法的推薦效果.

二十世紀90年代,為了解決郵件過濾的問題,協(xié)同過濾算法隨之誕生,從此推薦系統(tǒng)的研究進入了飛速發(fā)展的階段.隨著推薦系統(tǒng)的影響日益擴大,ACM主辦了推薦系統(tǒng)會議RecSys,會議致力于推動推薦系統(tǒng)的發(fā)展,其論文涵蓋了推薦系統(tǒng)的各個方面.在此之后,Netflix采用大賽的形式征集可以有效提高電影預測準確率的算法,由于比賽所使用的數(shù)據(jù)集開源,也有力推動了電影推薦算法的發(fā)展.與此同時,人工智能各個領域之間相互影響、相互促進,其他領域的突破性成果也促進了推薦系統(tǒng)的發(fā)展.

音樂推薦系統(tǒng)常用的方法有協(xié)同過濾、基于評論、基于內(nèi)容、基于標簽、基于上下文、基于深度學習和混合推薦等方法.

2.1 基于協(xié)同過濾的推薦方法

協(xié)同過濾的基本思想是“物以類聚,人以群分”,將喜好相似度高的用戶作為一個群體,并將群體內(nèi)其他成員所喜歡的物品作為推薦列表推送給用戶,這就是基于用戶的協(xié)同過濾;基于物品的協(xié)同過濾是將相似的物品推薦給相似的用戶.傳統(tǒng)的協(xié)同過濾利用的不是物品的本身特征,而是用戶和物品的交互數(shù)據(jù),因此,引入深度學習方法可以挖掘出潛在特征,以使得推薦結果更加符合用戶偏好.其中,主要有基于受限玻爾茲曼機[10]和自動編碼器[11-12]等方法,文獻[12]將評分矩陣作為輸入,預測結果即為編碼器輸出.而文獻[11]認為由于評分和輔助信息的稀疏性質(zhì),學習到的潛在因素效果受到限制,提出了一種基于深度學習,將概率矩陣分解和自動編碼器相結合的可擴展框架.

協(xié)同過濾分為基于物品和基于用戶兩類,由于兩種方法都不直接利用物品本身內(nèi)容的相似度,因此,有很強的擴展性,這種方法可以不受物品類別的限制應用于各個方面,所以在推薦系統(tǒng)發(fā)展的初期廣受青睞.

傳統(tǒng)的協(xié)同過濾只利用了用戶和物品的交互信息,除此之外還有諸多可利用的上下文信息,如位置、天氣、特殊的節(jié)日和音樂平臺內(nèi)的操作日志,如最近收藏的歌曲、最近單曲循環(huán)的歌曲、新建的歌單及用戶停留時長,為了實現(xiàn)更加精準的推薦,可以將這些信息都融入?yún)f(xié)同過濾.Hansen等[13]采用列表中歌曲同時出現(xiàn)的概率來衡量歌曲間的相似度,歌曲同時出現(xiàn)的概率越大,則歌曲越相似.Pampalk等[14]提出通過以種子歌曲為主創(chuàng)建啟發(fā)式隨機列表,基于音頻相似度為用戶推薦,并融入用戶交互操作(如“跳過”“喜歡”等)進一步完善推薦列表.實驗證明,該方法能夠明顯降低用戶對推薦歌曲的不滿意度.文獻[14]和[15]通過“喜歡”“跳過”等用戶交互信息來實時調(diào)整各類音樂特征在實際應用環(huán)境中所占的比例,使得用戶有更高的滿意度.Park等[16]認為用戶喜歡的音樂與位置、天氣等上下文信息緊密相關,因此,提出一種情境感知音樂推薦系統(tǒng)CA-MRS,該系統(tǒng)利用模糊系統(tǒng)、貝葉斯網(wǎng)絡和效用理論來針對當前情境實現(xiàn)更加精準的推薦.

傳統(tǒng)的協(xié)同過濾分別通過計算用戶或者物品的相似性來進行推薦,如基于物品的協(xié)同過濾是通過共同喜好的用戶計算物品之間的相似度.1998年,Amazon公司首次將基于物品的推薦系統(tǒng)服務大規(guī)模應用[17].

以下為三種相似度的計算方式:

(1)Pearson相關系數(shù),如下公式所示:

(2)余弦相似性,如下公式所示:

(3)Jaccard相似性,如下公式所示:

協(xié)同過濾的兩種方法從本質(zhì)上來說,都是以交互信息為核心,因此,面臨著數(shù)據(jù)稀疏的問題,數(shù)據(jù)量越大,數(shù)據(jù)稀疏帶來的影響也越大.為了克服數(shù)據(jù)稀疏帶來的負面影響,基于模型的協(xié)同過濾應運而生.其中,文獻[18]和[19]都是基于矩陣分解的模型,文獻[18]提出了SVD模型,認為矩陣因子分解模型生成的推薦效果優(yōu)于經(jīng)典的最近鄰技術,并且加入了隱反饋、時間效應和置信度等因素.文獻[19]提出了CF算法交替最小二乘加權正則化(ALS-WR),實驗證明,ALS-WR的性能(均方根誤差)隨功能數(shù)量和ALS迭代數(shù)量的增加而單調(diào)提高.但基于模型的算法只能處理線性特征.在現(xiàn)實要處理的數(shù)據(jù)中,充斥著非線性的因素,后來出現(xiàn)了一些新的算法,如因子分解機[20]就是這類算法的擴展.

2.2 基于評論的推薦方法

音樂是一種以聲音為媒介的藝術形式,是一種包含著情感、風格和宗教等的文化表達,聽眾對不同音樂之間的偏好大相徑庭,因此,個性化推薦十分重要.評論作為用戶對該音樂的直接評價,從評論中可以發(fā)現(xiàn)用戶的興趣偏好、對歌曲本身的評價、對這種音樂風格的評價以及對音樂派別的偏好.

Mandel等[21]設計了一個基于網(wǎng)絡的游戲MajorMiner,測量了可訓練二進制分類器以提取標簽內(nèi)容,進而實現(xiàn)基于標簽的推薦.Kaji等[22]使用歌詞和注釋來發(fā)現(xiàn)音樂種類及用戶口味之間的相似性.它根據(jù)基于內(nèi)容的方法結合用戶的喜好和情況生成一個播放列表,通過“喜歡”“跳過”等用戶交互數(shù)據(jù)來實時改變播放列表,以更加符合用戶偏好.

基于評論的音樂推薦優(yōu)勢在于,首先,評論是用戶感受的直觀表達,相比于其他方法,與用戶真實理解之間有更小的歧義[23];其次,可以實時獲取用戶的情感狀態(tài),以形成跟隨用戶情緒變化的推薦,因此,時效性較強.

然而,基于評論的推薦也面臨冷啟動和長尾效應等問題.首先,要有大量樂于評論的用戶來填充評論區(qū),對于沒有足夠樂于評論的用戶的平臺則無法使用這種方法;其次,熱門歌曲會吸引更多用戶來評論,而相對冷門的歌曲本身曝光率較低,得到評論的概率會比較低,可能難以提取足夠的信息進行推薦.

2.3 基于內(nèi)容的推薦方法

音頻內(nèi)容本身包含著吸引用戶的特征,如節(jié)奏、旋律和樂器等影響用戶偏好的因素,因此,有效提取出對用戶產(chǎn)生吸引的本質(zhì)特征是重中之重.早期基于內(nèi)容的推薦是通過音頻處理方法(如離散傅里葉變換)等方法處理音頻數(shù)據(jù)來提取特征,其中涉及一些常用的音樂特征參數(shù),包括頻率中心、短時平均能量、過零率、梅爾頻率倒譜系數(shù)及帶寬等[24-25].

(1)頻率中心

頻率中心是指頻率在信號功率譜中的加權平均值.公式如下:

其中,F(xiàn)(w)是經(jīng)過離散傅里葉變換得到的幀頻譜,w=fs/2,fs是采樣頻率.

(2)短時平均能量

短時平均能量指在一個固定的短時區(qū)間內(nèi),音頻信號幀內(nèi)采樣點信號所累積能量的平均值.公式如下:

(3)過零率

過零率表示語音信號波穿過橫軸的次數(shù).廣泛用于區(qū)分高低頻段[26],公式如下:

其中,sgn[]為符號函數(shù),即

(4)均方根

(5)節(jié)拍直方圖

節(jié)拍直方圖可以直觀地表示節(jié)拍和節(jié)奏的變化[27].首先,利用小波變換得到原始音頻信號的一系列子頻帶,公式如下:

然后,對子頻帶分別進行低通濾波、下采樣操作得到時域上的振幅包絡線,再對其求和,結合自相關函數(shù)分析,將得到的前5個峰值相加即得到節(jié)拍直方圖.

(6)梅爾頻率倒譜系數(shù):

梅爾頻率倒譜系數(shù)是組成梅爾頻率倒譜(基于聲音頻率的非線性梅爾刻度的對數(shù)能量頻譜的線性變換)的系數(shù),它源于音頻片段的倒頻譜.

(7)帶寬

帶寬表示音頻信號所占有的頻率寬度,這個寬度由傳輸信號的最高頻率和最低頻率決定,兩者之差就是帶寬值.

音樂作為一種藝術形式,吸引用戶、與用戶產(chǎn)生共鳴的因素有很多,其中最重要的就是音頻本身的特征,如語言、旋律、樂器、流派、歌詞和音樂人等.因此,根據(jù)音頻本身來進行推薦,推薦效果會更加精準.

在實際應用中,實現(xiàn)基于內(nèi)容的音樂推薦主要分為以下四個部分:

(1)繪制用戶畫像,用戶畫像包括用戶的年齡、性別、國籍、聽歌偏好及與系統(tǒng)的交互信息等;

(2)將音樂embedding為相應的特征向量;

(3)按選定的推薦方法生成候選集;

(4)將用戶畫像、音樂的特征向量按照推薦方法建模,在候選集中以TopN的方式為用戶推薦相似度高的音樂列表.

用戶畫像是用戶信息的數(shù)據(jù)化,其目的是為了更加貼合用戶的喜好和使用習慣,用戶畫像也與用戶所處情境密切相關.為了更加準確地描繪出音樂作品,第一步需要提取盡可能多的會影響用戶偏好的特征,使得推薦更加符合用戶需求.音頻形式可以通過卷積神經(jīng)網(wǎng)絡來提取特征,這部分就是特征工程,特征工程的目的就是將音頻embedding為特征向量;第二步是生成候選集,這一步的目的在于簡化處理問題的規(guī)模,在保證推薦效果的前提下減小計算量;第三步是排序,排序需要用到前兩步的結果,利用用戶畫像及音頻的特征向量作為排序的依據(jù),以用戶交互數(shù)據(jù)來訓練回歸模型.文獻[28]提出了一種潛在因素模型,該模型通過濾波器組處理音頻,濾波器通過卷積神經(jīng)網(wǎng)絡提取梅爾頻譜系數(shù)[29].梅爾頻譜系數(shù)是可以用于表示人的聽覺效應的特征,基于梅爾頻譜特征建??梢詫W習到潛在的與用戶偏好相關的特征,并證明了使用潛在特征可以給出相比于協(xié)同過濾更加明確的推薦,而且在一定程度上克服了冷啟動的問題.因此,梅爾頻譜系數(shù)廣泛應用于音頻信息分析等領域[30].文獻[31]提出另外一種重要的音頻特征——色度向量,可用于判斷音階,從而使推薦效果更加精準.

基于內(nèi)容推薦的優(yōu)勢在于推薦的依據(jù)來源于物品的本身屬性,可以有效地避免冷啟動和長尾效應問題,但其面臨著特征提取難度高、計算復雜、難以挖掘用戶的潛在興趣等問題.

2.4 基于標簽的推薦方法

基于標簽的推薦本質(zhì)上是根據(jù)標簽之間的相似度來為用戶推薦物品.標簽最常見的用法是,用戶會為自己感興趣的物品打上一些標簽,這些標簽可以作為分類的依據(jù),也是用戶個人偏好的反映.因此,標簽數(shù)據(jù)成為推薦系統(tǒng)獲得用戶偏好的一個新來源,這些標簽是用戶表達主觀判斷想法的一種方式,是一種較為主觀的方法.但有些電商網(wǎng)站也會給用戶或商品打上一些客觀的標簽,例如經(jīng)常網(wǎng)購數(shù)碼產(chǎn)品的用戶,就會被打上“數(shù)碼達人”的標簽,在今后的推薦中,可以更多地向該用戶推薦數(shù)碼類產(chǎn)品.如國外著名音樂網(wǎng)站Last.fm,會通過分析用戶的聽歌行為為用戶推薦個性化的音樂.由于音樂屬于流媒體,分析音頻內(nèi)容較為復雜,因此,Last.fm引入了標簽系統(tǒng),用戶可以在聽音樂時對音樂或歌手打標簽.歌曲標簽的來源一般有兩個:專業(yè)音樂人打的標簽和音樂所屬歌單的標簽.當用戶創(chuàng)建一個歌單時,會為歌單打標簽,這些標簽也可以作為這個歌單里歌曲的標簽.歌單是用戶主觀創(chuàng)造的,在一定程度上表達了用戶的偏好信息,這些標簽便可以更緊密地將用戶和歌曲連接起來[32].

Nanopoulos等[33]提出了使用三階張量對社交標簽數(shù)據(jù)進行建模的方法,這些張量捕獲了用戶、標簽和音樂項目等三個方面之間的相關性,該模型通過高階奇異值分解發(fā)現(xiàn)潛在結構,可以提供更加準確和個性化的推薦.Kim[34]從標簽數(shù)據(jù)中提取出情感的類別,在此基礎上提出基于情感標簽的音樂推薦方法.

標簽作為連接用戶與物品之間的紐帶,增加了推薦系統(tǒng)的可解釋性和多樣性,但基于標簽的推薦方法同樣面臨著無法解決冷啟動和數(shù)據(jù)稀疏性的問題.

2.5 基于上下文的推薦方法

為了不向用戶推薦不合時宜的物品,推薦系統(tǒng)需要對用戶所處的情境有一定的感知能力,應結合用戶的情感變化、節(jié)日等影響用戶聽歌習慣的信息來進行推薦.其中,時間效應是最重要的因素,用戶的興趣會隨著時間推移而發(fā)生變化.時間效應對用戶的興趣偏好變化以及推薦系統(tǒng)的效果有著直接的影響,主要表現(xiàn)在以下四個方面:①偏好遷移:隨著時間的推移,用戶的偏好、興趣發(fā)生改變;②生命周期,即事物合理存在的時間周期;③季節(jié)效應:事物的流行度與季節(jié)是強相關的,反映時間本身對用戶偏好的影響;④節(jié)日選擇:不同的節(jié)日會對用戶的選擇產(chǎn)生影響[32].Shen等[35]提出了一種人格與情感相結合的專注模型(PEIA),該模型充分利用社交媒體數(shù)據(jù),結合用戶穩(wěn)定的興趣偏好,即個性以及短期的興趣偏好愛好——情感建模,該模型充分利用了個性化的用戶特征、情感化的用戶特征等多方面屬性的音樂特征,實驗證明,該模型取得了良好的推薦效果.

由于音頻信號處理需要耗費大量的計算資源,所提取的特征和用戶的主觀感受之間有著較大的差距,因此,研究者們將目光轉向了基于上下文的推薦.上下文指的是用戶在與音樂平臺交互期間及其前后所產(chǎn)生的交互數(shù)據(jù),如播放次數(shù)、用戶評價等[36].Markus[37]提出了以用戶為中心,基于位置感知的推薦方法,根據(jù)音樂上下文和用戶上下文來推斷用戶喜好的方法.Yapriady等[38]首先通過年齡、性別和國籍等三類個人信息計算當前用戶和其他用戶的相似度權值Da,u:

其中,

然后結合Da,u和Pearson相關系數(shù)來預測當前用戶a對歌曲i的喜好程度.其中,ru,i為用戶u對歌曲i的評分,N是用戶總數(shù),a為當前用戶,rm為五分制評分體系的中值3[36].

基于上下文特征的推薦系統(tǒng)不能單獨作為推薦系統(tǒng)使用,但是可以極大地提高推薦的效率和準確率[36],缺點是存在冷啟動和數(shù)據(jù)稀疏的問題,且推薦結果的多樣性不足.

2.6 基于深度學習的推薦方法

在過去的幾十年里,深度學習取得了巨大的成功.深度學習取得的大幅進步極大地改變了推薦體系結構,也極大地提高了推薦系統(tǒng)的性能.基于深度學習的推薦系統(tǒng)使用了深度神經(jīng)網(wǎng)絡,可以有效地表達非線性的抽象關聯(lián),表征復雜關系,推薦效果更加突出.

Oord等[28]提出一種使用卷積神經(jīng)網(wǎng)絡從音頻信號中提取特征的方法,即使用矩陣分解的方法得到音樂的特征向量,將音頻信號embedding為特征向量,該神經(jīng)網(wǎng)絡可以檢測到和弦、樂器等音頻固有特征,有效克服了基于歷史數(shù)據(jù)推薦不能提取用戶興趣特征的缺陷.

深度學習使用多層網(wǎng)絡來發(fā)現(xiàn)用戶和歌曲之間深層次的關系,并將用戶與歌曲并向量化表示用戶或物品.此外,深度學習還可以學習到用戶信息以及物品信息的多維度特征,例如文本、音頻、視頻等內(nèi)容的深層次特征,從而獲得更好的推薦效果.最初基于深度學習的推薦系統(tǒng)源于受限玻爾茲曼機算法[10].近年來,由于硬件的進步與深度學習算法的日趨成熟,基于深度學習推薦系統(tǒng)的研究也取得了大幅進步.Covington等[39]提出了一種基于Wide & Deep神經(jīng)網(wǎng)絡的YouTube視頻推薦系統(tǒng).Okura等[40]提出了基于RNN的新聞推薦,并將其應用于Yahoo的新聞推薦系統(tǒng).Li 等[11]提出一個自動編碼與協(xié)同過濾相結合的框架,該模型的損失函數(shù)公式如下:

βL(Y,V)+γL(X,U).

損失函數(shù)的第一部分是矩陣分解部分的損失,第二部分是矩陣分解的正則化項,第三部分和第四部分分別表示用戶側和物品側自動編碼器的損失函數(shù).自動編碼器將編碼器編碼用于輸入,編碼向量則分別對應矩陣U和矩陣V.

YouTube是世界上規(guī)模最大的視頻網(wǎng)站,其推薦系統(tǒng)也卓有成效. Covington 等[39]在2016年發(fā)表了使用Wide & Deep神經(jīng)網(wǎng)絡做YouTube推薦的技術細節(jié).該論文所述的YouTube推薦系統(tǒng)主要由兩部分構成:產(chǎn)生候選集和對候選集進行排序.通過多層網(wǎng)絡產(chǎn)生候選集,其為用戶U(場景C)在視頻庫V中預測出視頻的類別是i,公式如下所示:

其中,vi表示視頻的特征向量,u表示用戶的特征向量.候選集可以在C的情境下,利用用戶信息學習到用戶和視頻的特征,并embedding為向量.使用Word Embedding方式將用戶的觀看歷史、搜索記錄向量化,并結合用戶本身的特征信息以及視頻的其他特征作為神經(jīng)網(wǎng)絡的輸入,使用ReLU作為激活函數(shù),然后通過兩個全連接層學習用戶和視頻的特征向量,產(chǎn)生TopN的候選集.排序是將連續(xù)的類別特征歸一化,然后通過幾層ReLU輸出結果.

基于深度學習的推薦方法及優(yōu)勢在于利用深度模型學習到深層次的特征及潛在的用戶和物品之間的關聯(lián),同時也面臨著可解釋性差、超參數(shù)調(diào)優(yōu)難度較大等方面的問題.

2.7 混合推薦

由于各個推薦方法都存在自己的缺陷,因此,將多種推薦方法融合,取長補短,成為大勢所趨,同時也可以獲得更好的推薦結果.利用混合推薦算法,能夠更好地避免當前主流推薦算法存在的冷啟動和數(shù)據(jù)稀疏性問題.

混合型推薦系統(tǒng)一般可分為三類[41]:①將基于內(nèi)容和基于協(xié)同過濾的推薦使用線性組合等方法融合;②將一種方法融入另一種方法中;③將兩種方法做前期融合得到一個統(tǒng)一的推薦結果.另外,文獻[42]顯示,結合豐富的上下文數(shù)據(jù),如消費記錄、評分、標簽等數(shù)據(jù)有利于推薦更符合用戶當前情境的音樂.推薦系統(tǒng)另一個重要方面是透明度,如果推薦系統(tǒng)只提供推薦結果而沒有對推薦原因的解釋,用戶難以產(chǎn)生對推薦系統(tǒng)的信任.因此,系統(tǒng)應增加對推薦的解釋,明確告知用戶推薦理由,從而增強用戶的信任度和參與感[43].關于對推薦結果的解釋有兩種常用的方法,即激勵法和滿足法[44].文獻[43]認為好的解釋能說服用戶樂于參與到推薦系統(tǒng)中,文獻[44]則認為好的解釋能讓用戶更易接受推薦結果.Bilgic等[44]提出了三種解釋方法:①基于關鍵詞:主要適用于基于內(nèi)容的推薦系統(tǒng),通過提取音頻特征,將音頻特征相似的音樂通過關鍵詞的形式作為推薦的解釋;②基于近鄰:主要適用于基于協(xié)同過濾的推薦系統(tǒng),將相似用戶的選擇作為推薦理由;③基于影響:將用戶過往對某物品的評論及評分作為推薦理由.實驗結果顯示,基于關鍵詞和影響的解釋方式效果更為明顯,而基于近鄰的解釋可能導致用戶因被推薦對象的過高評價而不信任系統(tǒng)[36].

由于在基于內(nèi)容的推薦中,提取出的底層音頻特征和用戶理解之間存在較大的差距,即底層音頻特征難以具體全面地表征歌曲本身.因此,從音頻信號中獲取情感等高級的音樂特征成為了新的趨勢.Feng等[45]認為音樂與情緒緊密相關,并建立模型訓練反向傳播神經(jīng)網(wǎng)絡分類器,通過節(jié)奏和發(fā)音兩個特征來檢測情緒.在常規(guī)節(jié)奏的基礎上計算相對節(jié)奏,公式如下:

其中,s和f分別表示整首歌曲中節(jié)奏的最快值和最慢值.

平均靜率ASR及短時間平均能量avgSTE計算公式如下:

其中,N為單位時間內(nèi)的幀數(shù),STE(n)為第n幀的短時能量,ρ為常數(shù),a(k)為第k幀中時間點k所對應的信號幅度.然后對歌曲進行情感分類,包含快樂、悲傷、憤怒和恐懼四類.

文獻[46]數(shù)量化地度量了興趣度.Silbershatz等[47]將主觀的用戶興趣度定義為用戶偏好因新物品產(chǎn)生的變化,即“不可預測性”,客觀度量了用戶的主觀感受,并提出對興趣度I的度量公式:

其中,α為用戶想法,E為新的根據(jù),ε為支持用戶想法的原本根據(jù),p(α|ε)是對α的信心,p(α|E,ε)為根據(jù)E對用戶想法做出的新判斷[36].

3 常用的音樂數(shù)據(jù)集

數(shù)據(jù)是推薦系統(tǒng)的基石,一個優(yōu)質(zhì)的數(shù)據(jù)集可以對推薦算法起到至關重要的作用,有助于實驗的順利進行和算法的有效驗證.本章將介紹音樂推薦系統(tǒng)中常用的幾個數(shù)據(jù)集:Million Song Dataset數(shù)據(jù)集、Last.fm數(shù)據(jù)集、FMA數(shù)據(jù)集和HetRec 2011數(shù)據(jù)集.

3.1 Million Song Dataset

Million Song Dataset(MSD)包含了100萬首歌曲的信息,總量約280GB.使用了h5的文件壓縮格式,并提供了一些code用于讀取.每首歌對應一個文件,字段包括歌曲的方方面面,如 artist_id,artist_name,title,tempo等[48].

3.2 Last.fm數(shù)據(jù)集

Last.fm是一個音樂網(wǎng)站,提供了音樂推薦的數(shù)據(jù)集[49].該數(shù)據(jù)集包含了用戶對藝術家的喜歡列表和播放次數(shù)交互數(shù)據(jù)及所打標簽.

Last.fm數(shù)據(jù)集可以從GroupLens網(wǎng)站下載,分別有1 K users和360 K users兩個規(guī)模,該數(shù)據(jù)集包含7個文件,分別是README,artists.dat, tags.dat,user_artists.dat,user_friends.dat,user_taggedartists.dat和user_taggedartists-timestamps.dat.

3.3 Free Music Archive(FMA)

FMA是一個開放的有音頻的數(shù)據(jù)集,F(xiàn)MA以161個流派的分級分類法,提供來自16 341位藝術家和14 854張專輯的106 574條曲目共917 GB音頻.該數(shù)據(jù)集提供了全長和高質(zhì)量的音頻、預先計算的功能、軌道和用戶級別的元數(shù)據(jù)、標簽以及諸如傳記之類的自由格式文本[49].

壓縮文件fma_metadata.zip(342 MB)中囊括了所有曲目的所有元數(shù)據(jù)和功能,共包含四個條目:①tracks.csv:包含106 574條音軌的元數(shù)據(jù),例如ID、標題、藝術家、流派、標簽和播放次數(shù);②genres.csv:包含163個流派ID及其名稱和父級(用于推斷流派);③features.csv:使用librosa提取的常用功能;④echonest.csv:由Echonest(現(xiàn)在為Spotify)提供的音頻功能,用于13 129條音軌的子集.

通過FMA可以得到各種大小的MP3編碼音頻數(shù)據(jù):①fma_small.zip:8 000首30 s曲目,8種平衡類型(類似GTZAN)(7.2 GB);②fma_medium.zip:25 000首30 s曲目,16種不平衡類型(22 GB);③fma_large.zip:30 s的106 574首曲目,161種不平衡類型(93 GB);④fma_full.zip:106 574個未修飾的曲目,161個不平衡的類型(879 GB).

3.4 HetRec 2011

這是2011年HetRec會議發(fā)布的從Last.fm獲取的數(shù)據(jù)集[49].它包含社會好友關系及標簽信息.數(shù)據(jù)集內(nèi)容統(tǒng)計數(shù)據(jù)如下:1 892 users,17 632 artists,12 717個好友關系,92 834 user-listened artist relations,11 946 tags,186 479 tag assignments (tas),i.e., tuples [user, tag, artist].

3.5 場景分析

本章介紹了四種常用數(shù)據(jù)集.其中,Million Song Dataset數(shù)據(jù)集、Last.fm數(shù)據(jù)集及HetRec 2011數(shù)據(jù)集既適用于基于標簽的推薦場景,也適用于社交關系類的推薦場景.而FMA數(shù)據(jù)集包含音頻信息,適用于基于內(nèi)容和基于標簽的推薦.

4 未來的研究方向和待解決的問題

關于推薦系統(tǒng)的研究還面臨著一些關鍵問題和挑戰(zhàn).下面就冷啟動、評價指標難以統(tǒng)一、針對移動終端的音樂推薦以及特征提取和選擇等問題展開分析.

4.1 冷啟動

目前,有關推薦系統(tǒng)的研究方法,都需要借助于用戶物品及其交互行為等大規(guī)模的歷史數(shù)據(jù)集來進行推薦,而對于沒有用戶積累的平臺或網(wǎng)站則面臨著冷啟動的問題.冷啟動是指對于新的網(wǎng)站、平臺或面臨新加入用戶的情況下,由于沒有大量用戶的歷史交互數(shù)據(jù),在設計推薦系統(tǒng)的時候無法使用需大量歷史數(shù)據(jù)訓練的推薦方法.

解決冷啟動的關鍵是如何在沒有歷史數(shù)據(jù)的基礎上做出讓用戶滿意的推薦內(nèi)容.冷啟動問題的類型主要分為三大類:①用戶冷啟動:由于新用戶沒有與平臺的歷史交互數(shù)據(jù),無法對用戶興趣進行建模,需要解決如何給新用戶做個性化推薦的問題;②物品冷啟動:由于新物品沒有與用戶產(chǎn)生過交互,需要解決如何將新的物品推薦給可能對它感興趣的用戶的問題;③系統(tǒng)冷啟動:新平臺沒有用戶和用戶交互的歷史數(shù)據(jù),只存在物品信息,需要解決如何推薦物品的問題.由于冷啟動需要在沒有歷史數(shù)據(jù)的情況下進行推薦,問題就在于系統(tǒng)沒有用戶和物品數(shù)據(jù)的情況下做算法推薦分析,因此,用戶冷啟動和物品冷啟動需要優(yōu)先解決.

對于冷啟動的解決方法有:①將熱門物品推薦給用戶;②利用用戶注冊時填寫的偏好信息;③利用用戶上下文信息;④利用第三方數(shù)據(jù);⑤利用用戶和系統(tǒng)間的交互;⑥利用物品內(nèi)容屬性;⑦利用平臺的標簽數(shù)據(jù)[32].其中,熱門物品排行榜在實際場景中應用范圍最為廣泛,如微博的“熱搜”和美團的美食頻道會把附近的商家根據(jù)熱度排序展示給新用戶.

RecSys 2017會議上,Oramas等[50]著力于解決如何推薦缺乏歷史交互數(shù)據(jù)的藝術家,通過使用深度網(wǎng)絡體系結構,將文本和音頻信息與用戶反饋數(shù)據(jù)相結合,以解決這個音樂推薦中的物品冷啟動問題.

4.2 評價指標的單一

目前,很多音樂推薦系統(tǒng)都是通過點擊率、轉化率、網(wǎng)站成交額和召回率度量推薦結果或者產(chǎn)生一個TopN推薦列表.以上的評價指標本質(zhì)上都是基于預測準確率.因此,當前系統(tǒng)的評價結構過于單一.

針對這一問題,出現(xiàn)了一些新的評測指標如新穎性[51]以及驚喜度[52]等.通過最優(yōu)化其中一個評測指標,同時綜合其他指標進行推薦,使得推薦效果更加符合用戶需求.Celma[53]提出流行度長尾尾部的音樂可能更加讓用戶覺得新穎.假設S表示用戶集合,那么用戶u的推薦列表的新穎性定義如下[54]:

其中,R是一個TopN函數(shù),Ru,20表示把推薦列表中前20項推薦給用戶u,popi表示對音樂偏好程度的預期.

文獻[55]和文獻[56]提出用戶需求還應包括意外和驚喜,并提出驚喜度以度量推薦者系統(tǒng)生成推薦列表的偶然性.驚喜度是指推薦結果與所使用的推薦方法得出的用戶偏好不同,但用戶對結果感到滿意.一般通過Unserendipity來度量驚喜度,公式如下:

Unserendipity=

其中,cosSim(i,h)的值是指用戶歷史興趣Hu和新的推薦結果之間的平均相似度,表示推薦結果和用戶歷史興趣的相似程度,相似程度越小,則推薦的驚喜度越大.Zhang等[57]認為理想的推薦系統(tǒng)應模仿可信賴的朋友或?qū)<业男袨?,并在此基礎上提出了Auralist推薦框架,在準確性、多樣性、新穎性和偶然性等四個因素之間取得平衡.使用“偶然發(fā)現(xiàn)”的新穎性算法,演示了一種將偶然性、新穎性和多樣性成功注入建議中的方法,同時限制了對準確性的影響.研究結果顯示,Auralist框架對偶然性的重視提高了用戶滿意度.

4.3 移動終端的音樂推薦

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,用戶通過移動終端使用音樂推薦服務已成為新的趨勢.當前的音樂推薦系統(tǒng)依賴音頻特征和用戶歷史交互日志來進行音樂推薦,忽略了用戶所處情境對用戶選擇音樂的影響,而導致推薦的滯后性明顯[58].用戶所處情境主要包括用戶訪問推薦系統(tǒng)的時間、地點、心情、天氣和當前活動等,人受不同的情境影響,對一首歌的感受也會發(fā)生變化.因此,根據(jù)情境因素推薦音樂,有利于做出更加準確的推薦.

Wang等[59]利用通過移動設備收集的上下文信息來滿足用戶的短期音樂播放需求,并提出一種概率模型,結合上下文信息與音樂內(nèi)容以提供日?;顒拥囊魳吠扑].Braunhofer等[60]提出一個基于情境感知的音樂推薦系統(tǒng),該系統(tǒng)能夠考慮在特定時刻影響用戶偏好的情境條件(如用戶的心情或位置)來做出推薦,開發(fā)了一種移動應用程序,可以為每個訪問感興趣的地點提出路線并播放推薦的音樂,并做出實時評估.研究表明,這種情況下推薦的音樂更加適合感興趣的地點,用戶的滿意度也更高.

由于移動設備的智能化以及高度依賴性,移動智能終端能夠?qū)崟r捕捉用戶聽音樂時的情境信息,及時獲取大量上下文數(shù)據(jù),可以更加具體地感知用戶所處的情境.因此,如何在實現(xiàn)移動環(huán)境下基于情景感知的音樂推薦系統(tǒng)中提升用戶體驗,增加用戶黏性,將成為下一個研究熱點.

4.4 特征提取與選擇問題

音樂是一種表達情感的藝術形式,其情感表達作為音樂的高階屬性,是用戶偏好的重要影響因素,很難被流派、旋律、節(jié)奏等低層次的音頻特征完整地表示出來.因此,如何縮小所提取的特征與音樂情感屬性及用戶理解之間的差距成為亟待解決的問題[3].

5 結 語

本文從對音樂信息處理方法的角度對當前音樂推薦研究成果進行了較為全面的概述,指出當前研究中存在冷啟動難以有效推薦、評測指標唯準確率論、缺乏對用戶行為和需求的系統(tǒng)研究以及提取的特征與音樂情感屬性及用戶理解之間差距較大的問題.本文認為可以從冷啟動、拓展評價指標、移動終端的音樂推薦及音頻特征提取和選擇等方面展開研究與探討.

猜你喜歡
冷啟動音頻物品
輕型汽油車實際行駛排放試驗中冷啟動排放的評估
稱物品
基于學習興趣的冷啟動推薦模型
客聯(lián)(2021年2期)2021-09-10 07:22:44
“雙十一”,你搶到了想要的物品嗎?
誰動了凡·高的物品
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
找物品
佛山市| 营口市| 积石山| 西宁市| 陕西省| 乐至县| 临朐县| 海城市| 黄平县| 安达市| 渭源县| 开封市| 三原县| 松溪县| 舞阳县| 临澧县| 沅陵县| 永善县| 隆子县| 阳山县| 柘城县| 桦川县| 伊通| 丰原市| 合阳县| 双峰县| 吉安县| 台东市| 都匀市| 修武县| 青龙| 阜阳市| 莫力| 鲁山县| 区。| 葫芦岛市| 沐川县| 宜川县| 宕昌县| 咸阳市| 平泉县|