余莉娟
摘要:互聯(lián)網(wǎng)技術(shù)和電子信息技術(shù)的迅速發(fā)展為整個時代提供了巨大的計算能力,個性化推薦系統(tǒng)成為時代產(chǎn)物的縮影。結(jié)合常用的推薦系統(tǒng)核心算法,設(shè)計了一種針對個性化音樂的Apriori改進(jìn)算法,此算法通過用戶信息進(jìn)行深度學(xué)習(xí),利用候選矩陣壓縮的方法進(jìn)行推薦優(yōu)化,采用準(zhǔn)確性、召回率等參數(shù)作為評價標(biāo)準(zhǔn)。以Last.fm音樂網(wǎng)站的部分?jǐn)?shù)據(jù)作為分析樣本,對選定音樂按個性化音樂推薦方式進(jìn)行試驗,Apriori改進(jìn)算法在準(zhǔn)確率和召回率方面均得到優(yōu)化,推薦效果更優(yōu)。在考慮推薦數(shù)量的前提下,Apriori改進(jìn)算法的準(zhǔn)確率和召回率均高于Plaucount算法,而相似度方面低于Plaucount算法。
關(guān)鍵詞:深度學(xué)習(xí);推薦系統(tǒng);個性化;音樂
中圖分類號:G643
文獻(xiàn)標(biāo)志碼:A
ResearchonPersonalizedMusicRecommendationAlgorithmBasedonDeepLearning
YULijuan
(CollegeofArt,ShangluoCollege,Shangluo726000,China)
Abstract:RapiddevelopmentoftheInternettechnologyandelectronicinformationtechnologyhasprovidedhugecomputingpowerforthewholeera,andpersonalizedrecommendationsystemhasbecometheepitomeoftheproductoftheera.Combinedwiththecommoncorealgorithmofrecommendationsystem,thispaperprovidesanimprovedApriorialgorithmforpersonalizedmusic.Thisalgorithmappliesuserinformationforindepthlearning,candidatematrixcompressionforrecommendationoptimization,accuracy,recallrateandotherparametersasevaluationcriteria.TakingpartofthedataofLast.fmmusicWebsiteastheanalysissample,theselectedmusicistestedaccordingtothepersonalizedmusicrecommendationmode.TheAprioriimprovedalgorithmisoptimizedinaccuracyandrecallrate,andtherecommendationeffectisbetter.Onthepremiseofconsideringthenumberofrecommendations,theaccuracyandrecallrateofAprioriimprovedalgorithmarehigherthanthatofPlaucountalgorithm,andthesimilarityislowerthanPlaucountalgorithm.
Keywords:deeplearning;recommendationsystem;personalization;music
0引言
伴隨著互聯(lián)網(wǎng)技術(shù)和電子信息技術(shù)的迅速崛起,大數(shù)據(jù)技術(shù)、云計算技術(shù)、機(jī)器人技術(shù)、人工智能技術(shù)、深度學(xué)習(xí)技術(shù)[1]等方面的發(fā)展尤為突出,對整個信息時代的進(jìn)步與發(fā)展提供了巨大的計算能力。在如此海量的信息中,快速準(zhǔn)確地找到所需信息變得越來越重要,而且有價值。由此而誕生的推薦系統(tǒng)[23]成為了用戶需求與內(nèi)容之間的橋梁,既可以滿足用戶找到感興趣的潛在內(nèi)容,也能夠更好地展示冷門內(nèi)容,發(fā)掘潛在用戶。
當(dāng)今社會已擁有更為強(qiáng)大的包容性,不同領(lǐng)域也均呈現(xiàn)出獨有的個性化和多元化,個性化推薦系統(tǒng)則能夠滿足不同用戶的需求,精準(zhǔn)地為用戶提供更好地體驗,由此產(chǎn)生了巨大的商業(yè)價值,成為互聯(lián)網(wǎng)企業(yè)爭相搶奪的“蛋糕”。
目前,個性化推薦系統(tǒng)早已得到廣泛認(rèn)可,并悄然融入到我們的生活中。音樂作為一種古老的藝術(shù)形式,能夠為人們帶來愉悅,但從海量的音樂作品中精準(zhǔn)地找到滿足用戶需求的音樂,則需要個性化音樂推薦系統(tǒng)根據(jù)用戶行為篩選適合用戶的個性化音樂,滿足用戶在當(dāng)時情景的需求,從而達(dá)到“眾口可調(diào)”的目的。
1推薦系統(tǒng)及核心算法
電子商務(wù)領(lǐng)域的推薦系統(tǒng)應(yīng)用最為廣泛,隨著互聯(lián)網(wǎng)在各領(lǐng)域的不斷滲透發(fā)展,音樂推薦系統(tǒng)也映入眼簾,根據(jù)用戶偏好、音樂描述信息等內(nèi)容構(gòu)建推薦模型,將滿足用戶需求的音樂內(nèi)容推送出來。目前,常用的推薦方法主要分為基于內(nèi)容的推薦方法、協(xié)同過濾推薦方法和混合推薦方法三種類型[4]。
(1)基于內(nèi)容的推薦算法[5]
該方法為一類傳統(tǒng)的推薦方法,其基本思路就是根據(jù)用戶的歷史信息,對用戶的偏好行為進(jìn)行特征分析,得到用戶偏好集合,將這些集合與代推薦內(nèi)容進(jìn)行信息匹配,從而實現(xiàn)推薦。常用的音樂推薦算法有基于標(biāo)注內(nèi)容的推薦算法和基于音樂特征的音樂算法[6]。
以基于音樂標(biāo)注內(nèi)容的推薦算法為例,用戶A和用戶B對音樂的偏好類型分別為歐美、電音和華語、民謠,其中歐美、電音、華語、民謠均代表歌曲的風(fēng)格和類型,當(dāng)新歌曲c出現(xiàn)時,華語和民謠就成為該歌曲的標(biāo)注內(nèi)容,屬于特征信息,推薦系統(tǒng)則會根據(jù)這些特征信息優(yōu)先向用戶B推薦,從而實現(xiàn)精準(zhǔn)推薦,如圖1所示。
(2)協(xié)同過濾推薦算法
鑒于協(xié)同過濾算法具有普遍適應(yīng)性的特點,該算法被廣泛應(yīng)用于眾多領(lǐng)域。利用用戶偏好的相同性或相似性進(jìn)行內(nèi)容推薦是該算法的核心思想。協(xié)同過濾推薦算法主要包含基于用戶的協(xié)同過濾推薦算法、基于物品的協(xié)同過濾推薦
算法和基于模型的協(xié)同過濾推薦算法3種類型[7]。
以基于用戶的協(xié)同過濾推薦算法為例,用戶A、C在歌曲偏好的相似程度更高,如圖2所示。
推薦系統(tǒng)首先了解到兩位用戶對歌曲偏好的歷史數(shù)據(jù),再利用數(shù)據(jù)挖掘或深度學(xué)習(xí)的方式建立預(yù)測模型,雖然用戶A沒有關(guān)注歌曲d,但推薦系統(tǒng)仍可將歌曲d向用戶A實行預(yù)測推薦。
(3)混合推薦算法
單一的推薦算法在使用過程中都存在不足和局限性,很難滿足準(zhǔn)確推薦的要求。隨著用戶個性化要求的日益嚴(yán)苛和數(shù)據(jù)量的激增,需結(jié)合多種推薦算法發(fā)掘用戶信息和需求信息之間的相關(guān)性。目前混合推薦算法的發(fā)展方向主要有加權(quán)的混合、切換的混合、融入其他因素的混合和分層混合四種[68]。
1)加權(quán)的混合如式(1)。
fu,i=α1s1u,i+α2s2u,i+…+αnsnu,i
(1)
式中:u——任一用戶;
i——任一物品;
αn——不同的權(quán)重系數(shù);
sn——不同的推薦算法。
2)切換的混合如式(2)。
fu,i=β1u,is1u,i+β2u,is2u,i+…+
βnu,isnu,i
(2)
式中:β1u,i——用戶u推薦物品i時,snu,i所占的比重。
3)融入其他因素的混合如式(3)。
fu,i=∑nj=1λjsju,i,e1,e2,…,ek
(3)
式中:ek——需要特別考慮的因素。
4)分層的混合如式(4)。
fu,i=g∑nj=1λjsju,i
(4)
式中:g()——外層嵌套推薦算法;
∑nj=1λjsju,i——內(nèi)層推薦算法,加權(quán)、切換或融入其它因素的混合。
2個性化音樂推薦方法
2.1改進(jìn)的Apriori算法原理
關(guān)聯(lián)規(guī)則主要應(yīng)用于數(shù)據(jù)挖掘中發(fā)掘用戶行為,最早由Srikan提處[8],已在教育、保險等眾多領(lǐng)域內(nèi)得到廣泛應(yīng)用。Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中的基本類型之一,屬于一類頻集理論遞推的方法,主要依靠“頻繁項集的所有非空子集必定是頻繁的”[9]這一性質(zhì)得以實現(xiàn)。
Apriori算法通常是在首次循環(huán)實現(xiàn)對數(shù)據(jù)庫的掃描后得到1階大項集;在后續(xù)的第k次循環(huán)中對k-1階大項集Lk-1(第k-1次循環(huán)時產(chǎn)生)進(jìn)行Apriori_gen運(yùn)算,從而得到Ck,即k階候選項集;繼續(xù)對數(shù)據(jù)庫進(jìn)行掃面后得到Ck的支持?jǐn)?shù),進(jìn)一步會得到不小于最小支持?jǐn)?shù)的k階大項集;對上述步驟進(jìn)行重復(fù),當(dāng)出現(xiàn)某一階的大項集為空時,算法則會停止。
Apriori算法的詳細(xì)過程如下:
L1=large1-itemsets;
fork=2;Lk-1≠φ;k=k+1do
Ck=Apriori_genLk-1;//構(gòu)造候選項集
Foralltransactionst∈Ddo
Ct=subsetCk,t;//搜索事物t中包含的候選項集
ForallC∈CtdoC.sup=C.sup+1;Endfor//計算支持?jǐn)?shù)
Endfor
Lk=C∈CkC.sup≥minsup;//得到k階大項集
Endfor
L=∪kLk
Apriori算法同其他算法一樣,也具有自身的優(yōu)缺點。優(yōu)點在于當(dāng)支持度較高時,數(shù)據(jù)庫的掃描次數(shù)會較少且空間復(fù)雜程度低,缺點就是在數(shù)據(jù)庫掃描過程中會產(chǎn)生海量的候選集,存在重復(fù)掃面的現(xiàn)象出現(xiàn)。由于Apriori算法存在耗時長、效率低的劣勢,本文通過候選矩陣壓縮的方法進(jìn)行了優(yōu)化,在準(zhǔn)確性和效率方面均有所提升。具體步驟如下:
1)掃描整個音樂數(shù)據(jù)庫得到事務(wù)矩陣D;
2)對矩陣中的事務(wù)信息進(jìn)行編碼、排序處理,記錄為一行,對于小于閾值的項進(jìn)行刪除,得到只含0和1的d1,d2,d3,…,dn;
3)將矩陣H分解并升序排列為H1,H2,H3,…,Hm;
4)掃描列向量Dm,并對dnm進(jìn)行判斷;
5)若dnm=1,則取前m項(含dnm在內(nèi))形成子矩陣Hm,如式(5)。
M1M2M3M4M5M6
H=110001011000110100101011010011110011000011T1T2T3T4T5T6T7
(5)
假設(shè)支持度閾值為2,則得到的個性化音樂事務(wù)如表1所示。
與權(quán)重相結(jié)合,得到子集Ti的支持度如式(6)。
SupportTi=1l∑j∈tiwj×SupportTi
(6)
其中,l表示Ti的長度。
計算得到列向量和行向量分別為4,5,2,1,4,5T和3,2,3,4,3,4,2,經(jīng)降序排列得到矩陣H′,如式(7)。
M2M6M1M5M3M4
554421
H′=1100010110001101001010110100111100110000114433322
(7)
將行列和不滿足支持度閾值2的項處理后,得到矩陣H″,如式(8)。
M2M6M1M5
5544
H″=111101011110101011010101
(8)
矩陣H″經(jīng)分解處理后可知,M2、M6和矩陣H″經(jīng)分解處理后可知,M2、M6和M2、M1具有很強(qiáng)的關(guān)聯(lián)性。實際情況下,如果M2屬于用戶的關(guān)注音樂作品,即使M6、M1與M2缺乏內(nèi)容上的相似性,也會因強(qiáng)關(guān)聯(lián)性而被推薦給用戶。
2.2個性化音樂推薦方法
個性化音樂推薦的第一步計算用戶的興趣度。為了方便計算,需先對音樂庫中樂曲進(jìn)行分類編號,則用戶在第i類歌曲中第j首歌曲的欣賞時間占音樂欣賞的總時間比如式(9)。
ρij=tij-αijβij-αij
(9)
式中:βij為收聽時間最大值,αij為收聽時間最小值,tij的取值如式(10)。
tij=αij,t′ij≤αij
t′ij,αij≤t′ij≤βij
βij,t′ij≥βij
ρij,t′ij∈R,收藏歌曲
(10)
根據(jù)公式(9)中用戶對不同音樂收聽時間比例,則可計算用戶對i類音樂的興趣度,其計算如式(11)。
Inti=∑mj=1tij∑ni=1∑mj=1tij
(11)
獲取用戶興趣度后,利用音樂本身標(biāo)簽等音樂信息和基于用戶興趣的音樂標(biāo)簽之間的對應(yīng)關(guān)系,通過音樂信息預(yù)測和用戶興趣度計算的方式,從音樂庫中將強(qiáng)關(guān)聯(lián)性的音樂向用戶進(jìn)行推薦,滿足用戶的個性化需求,總體推薦流程,如圖3所示。
3試驗結(jié)果評估分析
(1)樣本數(shù)據(jù)集及試驗環(huán)境
為了減小數(shù)據(jù)采集對試驗結(jié)果造成的誤差,必須選用一個含有足夠數(shù)據(jù)量的數(shù)據(jù)庫,且各類算法的數(shù)據(jù)采集均出自于相同數(shù)據(jù)庫。因此本文選用了公開的Last.fm音樂網(wǎng)站數(shù)據(jù),目前該數(shù)據(jù)庫已包含近40萬條用戶記錄,且該數(shù)據(jù)庫
能夠支持用戶進(jìn)行自定義標(biāo)簽,方便對數(shù)據(jù)進(jìn)行標(biāo)定。本次試驗隨機(jī)選取4281條用戶記錄,其中包含音樂信息245314條和音樂標(biāo)簽14263個,利用數(shù)據(jù)處理軟件TRIFACTA軟件對數(shù)據(jù)庫進(jìn)行信息統(tǒng)計分析后得到標(biāo)簽分布情況如圖4所示。
由于本次試驗是對不同推薦系統(tǒng)推薦效率的橫向?qū)Ρ?,因此對比試驗的外部環(huán)境應(yīng)該是相同的,試驗的外部環(huán)境,如表2所示。
(2)試驗結(jié)果評價標(biāo)準(zhǔn)
本文是從評價的準(zhǔn)確性作為結(jié)果評價的首要標(biāo)準(zhǔn),在準(zhǔn)確性相同時引入結(jié)果多樣性指標(biāo)作為評價的輔助標(biāo)準(zhǔn)。根據(jù)相關(guān)研究[10],推薦系統(tǒng)的準(zhǔn)確度評價標(biāo)準(zhǔn)分類較多,各種分類標(biāo)準(zhǔn)間各有優(yōu)勢和不足,而本文的準(zhǔn)確度評價采用了目前較為普遍的準(zhǔn)確率和召回率兩個定量指標(biāo),如式(12)、式(13)。
準(zhǔn)確率=∑u∈URu∩Tu∑u∈URu
(12)
召回率=∑u∈URu∩Tu∑u∈UTu
(13)
式中:Ru——系統(tǒng)向用戶u推薦音樂集;
Tu——用戶u感興趣的原有音樂集;
U——用戶集。
在某些算法中,這兩個定量指標(biāo)在面對特定的數(shù)據(jù)集時的計算結(jié)果十分相近,難以對計算準(zhǔn)確度進(jìn)行客觀評價,因此本文參考相關(guān)文獻(xiàn)[1012],在計算準(zhǔn)確度基礎(chǔ)上引入結(jié)果多樣性指標(biāo),如式(14)。
Simu,r=∑ti∈M(r)Mti1+countr∈Mti
(14)
式中:ti——音樂標(biāo)簽;
Mti——采用音樂標(biāo)簽ti標(biāo)注的音樂集;
1+countr∈Mti——采用音樂標(biāo)簽ti的總數(shù)。
(3)試驗結(jié)果分析
通過調(diào)查分析,目前較為受歡迎的軟件大多采用Plaucount算法,因此本文采用Plaucount算法與改進(jìn)的Apriori算法進(jìn)行推薦對比分析,并以準(zhǔn)確率及召回率為判斷標(biāo)準(zhǔn),得到的試驗結(jié)果如圖5、圖6所示。
從圖5可以看出,當(dāng)音樂推薦次數(shù)不超過18次時,Plaucount算法和改進(jìn)的Apriori算法在準(zhǔn)確率方面相差不大;當(dāng)音樂推薦次數(shù)超過18次時,改進(jìn)的Apriori算法在準(zhǔn)確率方面則會顯著優(yōu)于Plaucount算法;對比結(jié)果表明,當(dāng)音樂推薦次數(shù)相同且達(dá)到一定數(shù)量時,改進(jìn)的Apriori算法的推薦效果明顯優(yōu)于Plaucount算法,更容易滿足用戶的個性化要求。
從圖6可以看出,改進(jìn)的Apriori算法在召回率方面優(yōu)于Plaucount算法,表明改進(jìn)的Apriori算法推薦的音樂在數(shù)量方面也高于Plaucount算法,更容易成為用戶感興趣的音樂。
在音樂推薦系統(tǒng)中,過多或過少的音樂推薦均得不到理想的效果。推薦結(jié)果過多,則需用戶在推薦音樂中進(jìn)行二次篩選,系統(tǒng)推薦得不到認(rèn)可,用戶滿意度會降低;推薦結(jié)果過少,則會出現(xiàn)篩選遺漏的現(xiàn)象,將用戶感興趣的內(nèi)容直接過濾掉,造成內(nèi)容缺少,達(dá)不到理想的推薦效果,如圖7所示。
從圖7可以看出,改進(jìn)的Apriori算法在相似度方面低于Plaucount算法,表明改進(jìn)的Apriori算法在推薦音樂時充分考慮了用戶興趣的相似性,在音樂相似性的冗余度方面做了考慮,實現(xiàn)了音樂推薦的多樣化,避免出現(xiàn)篩選遺漏現(xiàn)象,相比于Plaucount算法,推薦結(jié)果的同質(zhì)化相對較弱。
4總結(jié)
本文在概括介紹推薦系統(tǒng)常用的核心算法的基礎(chǔ)上,結(jié)合個性化音樂推薦提供了Apriori算法的改進(jìn)應(yīng)用,并給出了基于深度學(xué)習(xí)的個性化音樂推薦的具體流程。通過選取Last.fm上的部分?jǐn)?shù)據(jù)作為樣本,經(jīng)對比分析后得到如下結(jié)論:
(1)以推薦準(zhǔn)確度為計算標(biāo)準(zhǔn),采用候選矩陣壓縮的方法對Apriori的計算原理進(jìn)行了分析,在此基礎(chǔ)上設(shè)計了個性化音樂推薦的流程。
(2)考慮到推薦數(shù)量對推薦效果的影響,將改進(jìn)的Apriori算法與Plaucount算法對比可知,在準(zhǔn)確率和召回率方面,改進(jìn)的Apriori算法均優(yōu)于Plaucount算法,表明改進(jìn)的Apriori算法推薦的音樂能容易滿足用戶需求;在相似度方面,改進(jìn)的Apriori算法則低于Plaucount算法,表明改進(jìn)的Apriori算法的推薦在考慮了用戶興趣的基礎(chǔ)上實現(xiàn)音樂推薦的多樣化。
參考文獻(xiàn)
[1]徐正巧,趙德偉.深度學(xué)習(xí)理論視角下的移動學(xué)習(xí)推薦系統(tǒng)的設(shè)計和研究[J].智能計算機(jī)與應(yīng)用,2014,4(2):5758.
[2]GoldbergD.Usingcollaborativefilteringtoweaveaninformationtapestry[J].CommunicationsoftheACM,1992,35(12):6170.
[3]EpplerMJ,MengisJ.Theconceptofinformationoverload:Areviewofliteraturefromorganizationscience,accounting,marketing,MIS,andrelateddisciplines[J].TheInformationSociety,2004,20(5):325344.
[4]鄧騰飛.個性化音樂推薦系統(tǒng)的研究[D].廣州:華南理工大學(xué),2018.
[5]朱志慧,田婧,林捷.大數(shù)據(jù)環(huán)境下基于用戶位置的個性化音樂推薦系統(tǒng)設(shè)計[J].無線互聯(lián)科技,2019,16(2):7980.
[6]艾筆.個性化音樂推薦系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2018.
[7]楊凱,王利,周志平,等.基于內(nèi)容和協(xié)同過濾的科技文獻(xiàn)個性化推薦[J].信息技術(shù),2019,43(12):1114.
[8]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計算機(jī)學(xué)報,2018,41(7):16191647.
[9]陳波.基于Apriori算法及其改進(jìn)算法綜述[C].中國通信學(xué)會第五屆學(xué)術(shù)年會論文集.江蘇南京:中國通信學(xué)會,2008(2):176181.
[10]李臻.應(yīng)用于音樂節(jié)目分類的Apriori挖掘算法設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(19):9094.
[11]王彩強(qiáng),趙憲中,劉涌,等.大數(shù)據(jù)環(huán)境下改進(jìn)的Apriori算法研究[J].科技通報,2019,35(7):182185.
[12]AgrawalR,ImielińskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases[J].ACMSIGMODRecord,1993,22(2):207216.
(收稿日期:2020.02.25)