趙圓圓 張小雷
摘? 要:隨著互聯(lián)網(wǎng)技術(shù)及音樂資源電子化地發(fā)展,用戶獲取音樂資源越來越容易。但音樂庫不斷增大卻使得用戶快速找到心儀音樂變得愈發(fā)困難。為解決傳統(tǒng)單一音樂推薦算法的不足問題,提高音樂推薦質(zhì)量,在深入研究基于內(nèi)容和協(xié)同過濾推薦算法基礎(chǔ)上,文章提出在基于協(xié)同過濾推薦算法中融入時間因素并與基于內(nèi)容推薦算法加權(quán)融合的音樂推薦算法。實驗結(jié)果表明,與傳統(tǒng)單一推薦算法和部分相關(guān)算法相比,這種算法為用戶推薦音樂的效果更好。
關(guān)鍵詞:基于內(nèi)容的推薦算法;基于協(xié)同過濾的推薦算法;時間因素;加權(quán)融合
中圖分類號:TP399???????? 文獻標(biāo)識碼:A???????? ???文章編號:1672-4437(2023)03-0051-05
0 引言
近年來,互聯(lián)網(wǎng)數(shù)據(jù)量急劇增加,有專家預(yù)估,全球數(shù)據(jù)總量到2025年將會增加到175ZB[1]。音樂是人們?nèi)粘I钪胁豢色@取的一部分[1],各音樂網(wǎng)站存在著大量音樂資源和用戶,以兩知名音樂網(wǎng)站網(wǎng)易云音樂和酷狗音樂為例,統(tǒng)計顯示,截止到2022年6月,網(wǎng)易云音樂用戶超1.8億人,樂庫音樂曲目超1.06億首。2022年酷狗全年新發(fā)1936萬首新歌,音樂人總粉絲超7億。面對海量音樂資源,用戶越來越難以快速找到喜歡的音樂,嚴(yán)重影響用戶聽歌體驗。較差的聽歌體驗,會導(dǎo)致音樂網(wǎng)站和用戶間黏性降低,音樂網(wǎng)站也就無法獲取相應(yīng)利潤。
各大音樂網(wǎng)站都嵌有推薦系統(tǒng),以滿足用戶個性化聽歌需求。目前音樂網(wǎng)站多采用傳統(tǒng)單一的基于內(nèi)容(Content-Based)推薦算法或基于協(xié)同過濾(CF-Based)推薦算法[2]為用戶推薦音樂。Content-Based推薦算法在分析用戶所聽音樂記錄基礎(chǔ)上,構(gòu)造音樂屬性特征,計算出音樂相似度,為用戶推薦相似音樂,但推薦新穎度不夠,推薦質(zhì)量不高。CF-Based推薦算法包括基于用戶(User-CF-Based)推薦算法和基于物品(Item-CF-Based)推薦算法兩種。User-CF-Based推薦算法根據(jù)用戶對音樂偏好情況計算用戶相似度,依據(jù)相似用戶音樂偏好預(yù)測目標(biāo)用戶音樂偏好。Item-CF-Based推薦算法首先計算音樂間相似度,然后預(yù)測目標(biāo)用戶的音樂偏好。CF-Based算法在推薦過程中,缺少新用戶和新音樂歷史記錄,難以有效推薦,同時用戶對音樂交互較少也嚴(yán)重影響相似度計算,這就是CF-Based推薦算法面臨的冷啟動和稀疏性問題。音樂流行度對用戶的選擇影響很大,過去用戶喜歡的音樂現(xiàn)階段用戶不一定喜歡,所以在推薦音樂時還要考慮時間因素的影響。
在改進傳統(tǒng)推薦算法,提高推薦效果方面,很多學(xué)者做了大量研究。彭余輝等在融合基于內(nèi)容和協(xié)同過濾算法基礎(chǔ)上,提出了MR_CCFI算法,該算法能夠降低冷啟動影響,提高推薦質(zhì)量,但未考慮時間因素影響[3]。包玄等在傳統(tǒng)協(xié)同過濾算法中融合時間因素和興趣點,推薦準(zhǔn)確度有所提高,但冷啟動問題依然存在[4]。付文靜在加權(quán)融合用戶和文本內(nèi)容基礎(chǔ)上,構(gòu)造出RC-DFM算法。該算法能降低數(shù)據(jù)稀疏性影響,但當(dāng)數(shù)據(jù)集較大時,推薦效率會降低[5]。楊明極等混合注意力機制和改進的RNN進行音樂推薦,提高了準(zhǔn)確度,但在推薦多樣性上有所欠缺[6]。付峻宇等提出了一種基于圖卷積的雙通道CF-Based推薦算法GCNCF-2C,緩解了冷啟動問題,取得不錯效果[7]。
針對傳統(tǒng)單一音樂推薦算法的不足,在深入研究Content-Based推薦算法和CF-Based推薦算法基礎(chǔ)上,本研究提出在CF-Based推薦算法中融入時間因素并與Content-Based推薦算法加權(quán)融合,以此降低冷啟動影響,緩解數(shù)據(jù)稀疏性,提高音樂推薦質(zhì)量。
1 加權(quán)融合基于內(nèi)容和融入時間因素的協(xié)同過濾的音樂推薦算法
1.1 算法基本框架
Content-Based推薦算法依據(jù)用戶和歌曲自身屬性推薦音樂,缺乏新穎性,存在用戶偏好音樂和特征間的語義差異,但不會面臨數(shù)據(jù)稀疏性和冷啟動問題[8]。CF-Based推薦算法通過計算用戶和音樂相似度來推薦音樂,推薦質(zhì)量較高,但面臨數(shù)據(jù)稀疏性和冷啟動問題。在深入研究這兩種算法基礎(chǔ)上,考慮時間因素影響,本研究提出在CF-Based推薦算法中融入時間因素分別構(gòu)造融入時間因素基于用戶(TF-User-CF-Based)和融入時間因素基于物品(TF-Item-CF-Based)的推薦算法,并與Content-Based推薦算法加權(quán)融合,構(gòu)造出加權(quán)融合(MR_CTCFI)推薦算法。該算法包括加權(quán)融合基于用戶和基于內(nèi)容(TF-User-Content)以及基于物品和基于內(nèi)容(TF-Item-Content)推薦算法。根據(jù)不同用戶數(shù)和音樂數(shù),計算用戶間及音樂間相似度,同時關(guān)注用戶歷史聽歌信息,為用戶推薦預(yù)測評分較高的音樂。
MR_CTCFI推薦算法基本框架如圖1所示:
1.2 Content-Based音樂推薦算法的處理
1.3 融合時間因素的CF-Based音樂推薦算法的處理
隨著音樂流行度變化和用戶聽歌習(xí)慣的改變,時間因素對用戶音樂選擇影響很大,所以在音樂推薦中要考慮時間因素。本研究通過融入時間因素并加入懲罰熱門音樂項改進CF-Based推薦算法。
1.3.1 TF-User-CF-Based推薦算法
1.3.2 TF-Item-CF-Based推薦算法
1.3.3 MR_CTCFI推薦算法
2 實驗結(jié)果與分析
在不同大小音樂數(shù)據(jù)集下測試算法的推薦準(zhǔn)確率。實驗數(shù)據(jù)源來自于網(wǎng)易云音樂2022年上半年的一部分?jǐn)?shù)據(jù),在其中選取1000首歌曲,獲取其歌單、用戶、音樂以及評分等信息。實驗前,預(yù)處理數(shù)據(jù),選擇音樂集中80%數(shù)據(jù)作訓(xùn)練數(shù)據(jù)集(40%作小數(shù)據(jù)集),剩下的音樂集中20%數(shù)據(jù)作測試數(shù)據(jù)集。
2.1 數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)如圖2所示:
2.1.1 對音樂集數(shù)據(jù)分類標(biāo)注,得到標(biāo)簽列表。部分標(biāo)簽見表1。
2.1.2 對歌曲文本中的內(nèi)容使用jieba對其分詞,再去詞停用,通過TF-IDF算法把關(guān)鍵詞提取出來,最終得出用戶對音樂的偏好矩陣。
2.1.3 對音樂集數(shù)據(jù)處理后,選擇音樂編號、名稱、發(fā)表時間、類型等維度,部分?jǐn)?shù)據(jù)見表2。
2.2 實驗結(jié)果分析
將本研究中MR_CTCFI推薦算法與文獻[4]中的MR_CCFI以及Content-Based算法進行實驗對比,比較這些算法的平均絕對誤差(MAE),分析在不同音樂集下的推薦質(zhì)量,MAE值越小,推薦準(zhǔn)確率越高。
2.2.1 參數(shù)設(shè)置
2.2.2 相似度計算
為驗證所選相似度計算方法的有效性,在把K分別設(shè)為10、15、20、25、30、35情況下比較Cosine、TF-User-content-Cosine和TF-Item-content-Cosine計算下的MAE值。如圖4所示,在較大音樂集,固定K值情況下,TF-Item-content-Cosine計算下MAE最小。如圖5所示,在較小音樂集,固定K值,TF- User content-Cosine計算下MAE最小。實驗結(jié)果表明,本研究所用余弦相似度計算法推薦結(jié)果較好。
2.2.3 MAE
實驗中,比較MR_CTCFI推薦算法與文獻[4]中MR_CCFI以及Content-Based算法的MAE值,檢驗本研究中算法的推薦效果。如圖6所示,在較大音樂集,固定K值,TF-User-content和TF-Item-content算法MAE值都較小,K為20時,MAE值最小。對比TF-User-content和TF-Item-content算法,較大音樂集下,TF-Item-content算法推薦效果更好。如圖7所示,在較小音樂集,固定K值,TF-User-content和TF-Item-content算法MAE值都較小,K為20時,MAE值最小。對比TF-User-content和TF-Item-content算法,較小音樂集下,TF- User -content算法推薦效果更好。
3 結(jié)語
本研究通過加權(quán)融合Content-Based和融入時間因素的CF-Based推薦算法構(gòu)造出MR_CTCFI音樂推薦算法,以此降低冷啟動影響,緩解數(shù)據(jù)稀疏性,并提高推薦質(zhì)量。在不同音樂集下進行實驗,結(jié)果表明,音樂集較大時,TF-Item-content更適合為用戶推薦音樂;音樂集較小時,TF- User –content更適合為用戶推薦音樂。在實際應(yīng)用環(huán)境中,MR_CTCFI也適用。但本研究算法還無法解決社會網(wǎng)絡(luò)等方面問題,仍需進一步進行改良,以此來提高推薦算法的精確率和質(zhì)量。
參考文獻:
[1]張全貴,張新新,李志強.基于注意力機制的音樂深度推薦算法[J]計算機應(yīng)用研究,2019,36(08):2297-2304.
[2]張小雷.基于協(xié)同過濾和隱語義模型的圖書推薦算法研究與實現(xiàn)[D].阜陽:阜陽師范大學(xué),2021.
[3]彭余輝,張小雷,孫剛.基于內(nèi)容和協(xié)同過濾加權(quán)融合的音樂推薦算法[J].安慶師范大學(xué)學(xué)報(自然科學(xué)版),2021,27(2):44-53.
[4]包玄,陳紅梅,肖清.融入時間的興趣點協(xié)同推薦算法[J].計算機應(yīng)用,2021,41(08):2406-2411.
[5]付文靜.基于評論和內(nèi)容深度融合的跨域推薦問題研究[D].濟南:山東大學(xué),2019.
[6]楊明極,劉暢,宋澤.注意力機制與改進 RNN 的混合音樂推薦算法研究[J].小型微型計算機系統(tǒng),2020,41(10):2235-2240.
[7]付峻宇,朱小棟,陳晨.基于圖卷積的雙通道協(xié)同過濾推薦算法[J].計算機應(yīng)用研究,2023,40(01):129-135.
[8]苗雨欣,宋春花,牛保寧,等.雙通道圖協(xié)同過濾推薦算法[J].計算機工程,2022,48(08):121-128.
[9]BREESE J S, HECKERMAN D, KADIE C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering[J].uncertainty in artificial intelligence, 2013:3-5.