国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法

2024-03-25 02:11陸勁宇
關(guān)鍵詞:負(fù)反饋樣本用戶(hù)

夏 翔,劉 姜,倪 楓,陸勁宇

(上海理工大學(xué) 管理學(xué)院,上海 200093)

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)和短視頻平臺(tái)的飛速發(fā)展,用戶(hù)獲取信息的能力不斷增強(qiáng),方式不斷增多,各類(lèi)信息的種類(lèi)和數(shù)量也急劇增加。在海量信息資源條件下,用戶(hù)由于其認(rèn)知能力和特點(diǎn)的限制,很難在有限的時(shí)間內(nèi)選擇到符合需求的信息,這就呈現(xiàn)出“信息過(guò)載”和“信息缺失”的矛盾[1]。與以往搜索引擎需要用戶(hù)輸入關(guān)鍵字才能從數(shù)據(jù)庫(kù)中檢索所需內(nèi)容不同,推薦系統(tǒng)根據(jù)每個(gè)客戶(hù)的用戶(hù)資料自動(dòng)生成推薦列表,從而顯示出更大的便利性[2]。

推薦算法是推薦系統(tǒng)的核心,主要分為3類(lèi):(1)基于內(nèi)容的推薦[3-4];(2)協(xié)同過(guò)濾推薦[5];(3)混合推薦[6]。其中協(xié)同過(guò)濾(CF)算法廣泛應(yīng)用于推薦領(lǐng)域,通常依賴(lài)于用戶(hù)的歷史評(píng)分或行為(如購(gòu)買(mǎi)或觀(guān)看、收聽(tīng)等)。核心思想是具有相同或相似的價(jià)值觀(guān)、思想觀(guān)、知識(shí)水平和興趣偏好的用戶(hù),其對(duì)信息的需求也是相似的[7]。

用戶(hù)行為數(shù)據(jù)通常在項(xiàng)目推薦中起著至關(guān)重要的作用,基本分為兩類(lèi):顯式反饋[8]和隱式反饋[9]。顯式反饋是指用戶(hù)主動(dòng)或者在一定的提示和指引下,根據(jù)自身偏好對(duì)某個(gè)推薦對(duì)象或者某種服務(wù)的主觀(guān)使用或者體驗(yàn)感受進(jìn)行打分、評(píng)級(jí)或是進(jìn)行語(yǔ)言評(píng)價(jià)等行為,以此來(lái)很明顯地表達(dá)用戶(hù)體驗(yàn)感受和偏好程度[10]?,F(xiàn)實(shí)生活中,顯式反饋的數(shù)據(jù)收集依賴(lài)于用戶(hù)的主動(dòng)配合,數(shù)據(jù)十分稀疏。而隱式反饋是在用戶(hù)并不知情的情況下,系統(tǒng)記錄的用戶(hù)在系統(tǒng)中的所有操作行為數(shù)據(jù)[11],數(shù)據(jù)量大,數(shù)據(jù)更稠密、更穩(wěn)定,通??梢哉鎸?shí)反映用戶(hù)態(tài)度,具有很好的應(yīng)用價(jià)值。然而,隱式反饋推薦也存在一些常見(jiàn)的問(wèn)題,例如缺少正負(fù)反饋維度的區(qū)分、用戶(hù)偏好程度不明確、隱式反饋數(shù)據(jù)樣本利用度低等。

根據(jù)上述隱式反饋推薦存在的問(wèn)題,現(xiàn)有的隱式反饋推薦算法主要分為3類(lèi):面向單類(lèi)協(xié)同過(guò)濾的推薦、引入輔助信息的推薦以及基于排序的推薦。

(1)單類(lèi)協(xié)同過(guò)濾推薦。Pan等[12]于2008年提出了單類(lèi)協(xié)同過(guò)濾問(wèn)題(One-Class Collaborative Filtering,OCCF),主要是指用戶(hù)所產(chǎn)生的隱式反饋行為僅能反映用戶(hù)對(duì)當(dāng)前項(xiàng)目進(jìn)行過(guò)一定的操作,但未被用戶(hù)進(jìn)行操作過(guò)的項(xiàng)目,不能直接反映用戶(hù)對(duì)其沒(méi)有偏好,也有可能是用戶(hù)沒(méi)有接觸到該項(xiàng)目。不少學(xué)者從權(quán)重、置信度加權(quán)及矩陣分解等角度對(duì)OCCF問(wèn)題進(jìn)行研究。Pan等人[13]提出利用wALS算法(weighted Alternating Least Squares)和權(quán)重來(lái)緩解負(fù)樣本問(wèn)題,其基本思想是:將所有的缺失數(shù)據(jù)作為負(fù)樣本,對(duì)所有樣本進(jìn)行加權(quán)。用戶(hù)對(duì)項(xiàng)目的操作行為代表了用戶(hù)偏好,具有較高的可行度,將其權(quán)重設(shè)置為1。相反若用戶(hù)對(duì)其沒(méi)有操作,即將其相關(guān)權(quán)重設(shè)置為0或1。Hu等人[14]提出了改進(jìn)的Implicit ALS算法,考慮了用戶(hù)偏好和置信度之間的聯(lián)系,將是否有過(guò)用戶(hù)操作行為的項(xiàng)目進(jìn)行二進(jìn)制量化,并給數(shù)據(jù)集中的正負(fù)樣本分別分配一個(gè)變化的信任權(quán)值,在經(jīng)典的矩陣分解模型基礎(chǔ)上進(jìn)行優(yōu)化。但都僅根據(jù)用戶(hù)是否有過(guò)操作對(duì)樣本進(jìn)行正負(fù)劃分,而忽略用戶(hù)操作頻次帶來(lái)的影響,且將缺失數(shù)據(jù)作為負(fù)反饋的推薦算法復(fù)雜度高,數(shù)據(jù)集較大。

(2)引入輔助信息的推薦。在單類(lèi)協(xié)同過(guò)濾方法的基礎(chǔ)上引入輔助信息,便可以挖掘用戶(hù)潛在興趣偏好,進(jìn)而提高推薦效果,引入的輔助信息包含用戶(hù)或項(xiàng)目?jī)?nèi)容、時(shí)間或位置的上下文信息、用戶(hù)的信任網(wǎng)絡(luò)或社交關(guān)系等。Chen等人[15]引入項(xiàng)目信息,提出一種基于項(xiàng)目的相似性的模型(HCoM)來(lái)處理用戶(hù)購(gòu)買(mǎi)行為等隱式反饋數(shù)據(jù)的稀疏問(wèn)題,在提高OCCF的準(zhǔn)確性的基礎(chǔ)上還緩解了數(shù)據(jù)稀疏問(wèn)題,但引入項(xiàng)目信息的算法針對(duì)的特征需求不同,需要根據(jù)用戶(hù)偏好合理選取,所以缺乏一定的通用性。俞東進(jìn)等人[16]基于玩家操作次數(shù)和操作時(shí)常等隱式反饋數(shù)據(jù)及其時(shí)效性,提出了一種基于隱式反饋數(shù)據(jù)的網(wǎng)吧游戲推薦方法(DIIF-SVD++),克服了用戶(hù)偏好不完整性問(wèn)題,實(shí)現(xiàn)了游戲的實(shí)時(shí)個(gè)性化推薦。陳婷等人[17]通過(guò)計(jì)算用戶(hù)間的相似度和信任度構(gòu)建用戶(hù)之間的偏好關(guān)系,提出了一種基于信任的社交推薦算法(Trust-PMF),但對(duì)于隱式反饋推薦中負(fù)樣本的缺失問(wèn)題依然沒(méi)有解決。

(3)基于排序的隱式反饋推薦。Rendle等人[18]于2009年圍繞隱式反饋提出了貝葉斯個(gè)性化排序(BPR),其關(guān)鍵思想是實(shí)現(xiàn)最大后驗(yàn)概率估計(jì)規(guī)則,以確保觀(guān)察項(xiàng)目的排名應(yīng)高于未知項(xiàng)目。Guo等人[19]利用項(xiàng)目?jī)?nèi)容信息和隱式反饋進(jìn)行建模,提出一種自適應(yīng)個(gè)性化排序方法(CA-BPR),加快了個(gè)性化排序的成對(duì)學(xué)習(xí),提高了個(gè)性化排序的準(zhǔn)確性。申艷梅等人[20]針對(duì)BPR未能充分利用用戶(hù)行為信息導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題,提出了均值貝葉斯個(gè)性化排序算法(MBPR),并通過(guò)引入遺忘函數(shù),根據(jù)用戶(hù)評(píng)分信息對(duì)項(xiàng)目進(jìn)行了正負(fù)反饋劃分,進(jìn)一步挖掘了用戶(hù)對(duì)未知項(xiàng)目的偏好,實(shí)驗(yàn)結(jié)果表明該算法的推薦性能及魯棒性均有顯著提高。

綜上所述,現(xiàn)有的單類(lèi)協(xié)同過(guò)濾以及引入輔助信息推薦方法中存在正負(fù)樣本劃分不合理、忽略用戶(hù)操作頻次、無(wú)法準(zhǔn)確建模用戶(hù)偏好等問(wèn)題。針對(duì)這些問(wèn)題,該文引入輔助信息并提出了一種基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法(IFW-LFM)。該算法首先對(duì)wALS算法進(jìn)行改進(jìn),考慮用戶(hù)操作頻次與正負(fù)樣本劃分間的關(guān)系,從缺失的數(shù)據(jù)集中劃分正負(fù)樣本,并不再需要人為引入負(fù)樣本;其次考慮了用戶(hù)操作頻次對(duì)用戶(hù)偏好程度的影響,定義了置信度這一概念,明確了用戶(hù)偏好程度,并將其應(yīng)用在隱因子模型的框架中;對(duì)于隱式反饋數(shù)據(jù)利用度低的問(wèn)題,通過(guò)動(dòng)態(tài)考慮時(shí)間問(wèn)題,將用戶(hù)收聽(tīng)歌曲起止時(shí)間、收聽(tīng)時(shí)長(zhǎng)等隱式反饋樣本利用進(jìn)來(lái),提高了隱式反饋數(shù)據(jù)利用價(jià)值;最后,在兩組真實(shí)數(shù)據(jù)集上對(duì)算法進(jìn)行了測(cè)試,從兩個(gè)不同的數(shù)據(jù)集得出結(jié)論,比一個(gè)數(shù)據(jù)集更為嚴(yán)格可信。

1 基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法

為了便于形式化描述,符號(hào)定義見(jiàn)表1。

表1 符號(hào)定義

1.1 隱式反饋中正負(fù)反饋維度區(qū)分

針對(duì)隱式反饋數(shù)據(jù)缺少正負(fù)反饋維度的區(qū)分問(wèn)題,即隱式反饋一般只有正反饋而缺失負(fù)樣本的問(wèn)題,常見(jiàn)的思路是人為引入負(fù)樣本或者將所有的缺失值均作為負(fù)樣本來(lái)使用,這兩種解決策略都與實(shí)際數(shù)據(jù)有較大偏差。Pan等人[13]提出利用wALS算法(weighted Alternating Least Squares)和權(quán)重來(lái)緩解負(fù)樣本問(wèn)題,僅僅只考慮了用戶(hù)是否進(jìn)行過(guò)操作,但將所有缺失數(shù)據(jù)都當(dāng)成負(fù)反饋其實(shí)是不合理的,忽略了用戶(hù)頻次對(duì)正負(fù)反饋劃分的影響。因此,該文學(xué)習(xí)wALS算法的思想從缺失值中劃分潛在的正負(fù)樣本。首先,定義用戶(hù)u和項(xiàng)目i,設(shè)置Aui>1,這與wALS中將Aui=0設(shè)為正樣本不同,原因在于表示用戶(hù)u對(duì)項(xiàng)目i進(jìn)行了不止一次的操作,說(shuō)明用戶(hù)對(duì)該項(xiàng)目有一定的偏好,且這種推斷具有較強(qiáng)的可信度,即設(shè)置該項(xiàng)目的偏好值pui=1。對(duì)于缺失值來(lái)說(shuō)Aui=0,表示用戶(hù)u對(duì)項(xiàng)目i沒(méi)有進(jìn)行過(guò)操作,但只能推斷這些項(xiàng)目可能并不一定為負(fù)樣本,因此設(shè)置其偏好pui=δ∈[0,1]。對(duì)于臨界值A(chǔ)ui=1,即用戶(hù)對(duì)推薦項(xiàng)目i只進(jìn)行過(guò)一次操作,該文也將其偏好設(shè)定為與Aui=0時(shí)取值一致,這是因?yàn)橐淮吸c(diǎn)擊并不能推斷用戶(hù)偏好,可能為正樣本,也可能為負(fù)樣本,如公式1所示:

(1)

其中,當(dāng)δ=0時(shí),說(shuō)明所有缺失值都無(wú)法劃分正負(fù)樣本,即將所有樣本都作為正樣本,當(dāng)δ=1時(shí),即將所有缺失值都當(dāng)做負(fù)反饋樣本。

1.2 引入偏好程度

單純將用戶(hù)有無(wú)隱式行為作為區(qū)分用戶(hù)偏好與否的標(biāo)準(zhǔn),這樣簡(jiǎn)單的判斷是有問(wèn)題的。比如當(dāng)用戶(hù)點(diǎn)擊某一首歌曲時(shí),用戶(hù)可能對(duì)這首歌曲沒(méi)有偏好,可能只是分享給朋友收聽(tīng),也可能用戶(hù)不知道該首歌曲的存在。而當(dāng)用戶(hù)某種隱式行為的操作頻次增加時(shí),用戶(hù)對(duì)該項(xiàng)目的喜好程度隨之增加。因此,結(jié)合音樂(lè)收聽(tīng)背景,文中模型引入一個(gè)新的概念偏好程度Eui,它表示用戶(hù)u在某一操作頻次下對(duì)該項(xiàng)目i具有偏好的置信度,如公式2所示:

Eui=1+βAui

(2)

其中,Aui為用戶(hù)收聽(tīng)歌曲操作頻次;β為偏好程度的計(jì)算系數(shù),通過(guò)控制其大小可以為每一個(gè)用戶(hù)-項(xiàng)目對(duì)提供最小置信度。由式2可以看出,當(dāng)用戶(hù)隱式反饋中收聽(tīng)歌曲的頻次數(shù)值越大,其偏好程度Eui越大。

1.3 提高隱式反饋樣本利用度

如上所述,通過(guò)劃分正負(fù)反饋以及引入用戶(hù)偏好程度只能解決隱式反饋數(shù)據(jù)中的前兩個(gè)問(wèn)題,并沒(méi)有解決傳統(tǒng)隱式反饋推薦算法樣本利用度低的問(wèn)題。例如,音樂(lè)推薦背景中的用戶(hù)收聽(tīng)歌曲的起止時(shí)間、收聽(tīng)時(shí)長(zhǎng)等數(shù)據(jù)在傳統(tǒng)的LFM模型中并沒(méi)有加以利用,因而不能充分發(fā)揮隱式反饋推薦作用。時(shí)間敏感性對(duì)于隱式反饋推薦系統(tǒng)同樣至關(guān)重要。對(duì)此,Li等人[21]提出用戶(hù)偏好呈指數(shù)衰減,這一觀(guān)點(diǎn)與艾賓浩斯遺忘曲線(xiàn)相吻合,即人們忘記事情的速度先快后慢。申艷梅[20]也將遺忘函數(shù)加入到了MBPR算法中,考慮了用戶(hù)興趣隨時(shí)間變化的特征。但統(tǒng)一的遺忘函數(shù)并未實(shí)現(xiàn)用戶(hù)遺忘規(guī)律的個(gè)性化,對(duì)用戶(hù)收聽(tīng)時(shí)長(zhǎng)數(shù)據(jù)也沒(méi)有加以利用。因此,該文結(jié)合音樂(lè)推薦背景,用戶(hù)收聽(tīng)歌曲起止時(shí)間,對(duì)歌曲收聽(tīng)時(shí)長(zhǎng)等數(shù)據(jù),利用經(jīng)典的矩陣分解方法,提出了如下優(yōu)化目標(biāo)函數(shù):

(3)

1.4 用戶(hù)興趣預(yù)測(cè)和推薦算法

在實(shí)際應(yīng)用中,較多顯式反饋中的推薦算法并不能直接應(yīng)用于隱式反饋推薦中。該文選取LFM方法實(shí)現(xiàn)用戶(hù)對(duì)某首歌曲的興趣預(yù)測(cè),通過(guò)將用戶(hù)和項(xiàng)目都投射至隱因子空間得到隱式特征,分別計(jì)算用戶(hù)以及項(xiàng)目每一個(gè)隱因子類(lèi)別之間的關(guān)系,如式4所示:

(4)

綜上,需要對(duì)優(yōu)化的如下?lián)p失函數(shù)找到合適的參數(shù)puk,qik:

(5)

其中,正則化參數(shù)λ‖pu‖2+λ‖qi‖2是為了避免模型過(guò)度擬合,即利用隨機(jī)梯度下降法求解puk和qik。主要步驟如下:

(1)通過(guò)反復(fù)實(shí)驗(yàn)設(shè)定合適的學(xué)習(xí)率Learning rate和正則化參數(shù)λ。

(2)計(jì)算puk和qik的偏導(dǎo)數(shù),找到最速下降方向:

(6)

(7)

(3)根據(jù)最速下降方向,不斷更新puk和qik,反復(fù)迭代優(yōu)化參數(shù):

(8)

(9)

具體算法描述如下:

算法:基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法(IFW-LFM)

輸入:用戶(hù)-項(xiàng)目操作矩陣A,偏好程度計(jì)算系數(shù)β,偏好值δ∈[0,1]

輸出:用戶(hù)-項(xiàng)目預(yù)測(cè)偏好程度矩陣R'

Step 1:讀取數(shù)據(jù)集,初始化用戶(hù)-項(xiàng)目操作矩陣A;

Step 2:根據(jù)式1計(jì)算用戶(hù)偏好pui,根據(jù)偏好程度計(jì)算系數(shù)β計(jì)算式2用戶(hù)偏好程度;

Step 3:根據(jù)用戶(hù)收聽(tīng)歌曲起止時(shí)間,對(duì)歌曲收聽(tīng)時(shí)長(zhǎng)等信息,得到式3的優(yōu)化函數(shù);

Step 4:根據(jù)式6~9反復(fù)迭代更新計(jì)算puk,qik,使得式5的損失函數(shù)最小;

Step 6:設(shè)定Top-N推薦中N的數(shù)值,根據(jù)步驟5中得到的R',選取前N個(gè)產(chǎn)生推薦列表。

2 實(shí)驗(yàn)評(píng)估

2.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)利用了兩組國(guó)外大型音樂(lè)數(shù)據(jù)集,以便更好地呈現(xiàn)出算法的性能。數(shù)據(jù)集1為last.fm-1k,包含兩個(gè)表,其中用戶(hù)歷史交互記錄表記錄了從2005年7月到2009年5月992個(gè)用戶(hù)的全部收聽(tīng)歷史記錄(約2 000萬(wàn)條),包括userID,event timestamp, artistID,artist_name,songID,song_name等信息,用戶(hù)特征表包含性別、年齡、國(guó)家、注冊(cè)時(shí)間等。另一組數(shù)據(jù)是來(lái)自數(shù)據(jù)集last.fm-360k,包含六個(gè)表,記錄了1 892個(gè)用戶(hù)的全部收聽(tīng)歷史記錄,last.fm 360k數(shù)據(jù)的格式與1k數(shù)據(jù)大致相同,增加了user對(duì)artist收聽(tīng)次數(shù)的記錄。

2.2 評(píng)價(jià)指標(biāo)

在一般的推薦算法指標(biāo)評(píng)價(jià)中,評(píng)分預(yù)測(cè)通常使用平均絕對(duì)誤差和均方根誤差來(lái)度量,但在隱式反饋中不存在用戶(hù)“實(shí)際”評(píng)分,因此,上述兩個(gè)由用戶(hù)實(shí)際評(píng)分與預(yù)測(cè)評(píng)分之間的誤差來(lái)評(píng)估推薦性能的指標(biāo)不適合計(jì)算。該文的目的是對(duì)用戶(hù)進(jìn)行個(gè)性化的音樂(lè)推薦,注重的是最終的推薦效果,而不是預(yù)測(cè)評(píng)分與實(shí)際評(píng)分間的誤差。因此,選取準(zhǔn)確率、召回率和NDCG作為實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)。準(zhǔn)確率為相關(guān)的推薦物品數(shù)占推薦物品總數(shù)的比率,召回率為相關(guān)的推薦數(shù)占實(shí)際相關(guān)物品總數(shù)的比率,NDCG表示歸一化折損累計(jì)概率,與DCG相比,可以更準(zhǔn)確地評(píng)估排序性能。其計(jì)算方法如式10~12所示:

(10)

(11)

(12)

其中,N為推薦列表中的項(xiàng)目數(shù)量,reli表示推薦列表中第i個(gè)位置的項(xiàng)目的相關(guān)分?jǐn)?shù)。實(shí)驗(yàn)中,如果結(jié)果為正,則reli=1,否則,reli=0。IDCG(理想折損累計(jì)增益)表示可得到的DCG的最大值。

2.3 參數(shù)影響分析

在文中算法中,4個(gè)重要參數(shù)分別為隱性特征個(gè)數(shù)F,負(fù)樣本比例ratio,正則化參數(shù)λ,以及學(xué)習(xí)速率Learning rate,實(shí)驗(yàn)研究了這4個(gè)參數(shù)對(duì)推薦結(jié)果的影響。

由圖1可以看出,隨著隱性特征數(shù)目的增多,算法的Precision、Recall和NDCG值均成下降趨勢(shì)。這是由于在音樂(lè)推薦背景中,隱性特征個(gè)數(shù)相對(duì)來(lái)說(shuō)比較單一,用戶(hù)的興趣偏好主要受幾個(gè)關(guān)鍵的隱性特征影響,并不是隱性特征越多越好。

圖1 隱性特征個(gè)數(shù)對(duì)性能的影響

如圖2所示,負(fù)樣本比例ratio對(duì)算法的性能也有一定影響。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)ratio小于等于5時(shí),準(zhǔn)確率、召回率和NDCG值均隨ratio的增加而提高,當(dāng)ratio大于5后,圖像趨于平緩,三類(lèi)評(píng)價(jià)指標(biāo)基本保持穩(wěn)定。

圖2 負(fù)樣本比例對(duì)性能的影響

圖3展示了數(shù)據(jù)集1中準(zhǔn)確率等指標(biāo)在不同正則化參數(shù)λ值下的變化。當(dāng)λ在0.07至0.4之間時(shí)推薦效果最好,當(dāng)λ<0.07時(shí),推薦效果隨λ值的增大而提升,當(dāng)λ>0.4時(shí),模型不能很好擬合,經(jīng)過(guò)實(shí)驗(yàn)可以選取合適的λ值,使得算法的推薦效果更好。

圖3 正則化參數(shù)對(duì)性能的影響

在梯度下降法中,學(xué)習(xí)率Learning rate會(huì)直接影響算法的收斂速度和最終優(yōu)化效果。由圖4可知,推薦效果隨迭代次數(shù)的增加會(huì)先有一個(gè)增強(qiáng)趨勢(shì)至峰值,而后逐漸下降。在數(shù)據(jù)集1中,當(dāng)初始學(xué)習(xí)率為0.002時(shí),推薦效果最為理想,但需要30次左右的迭代才能達(dá)到,當(dāng)學(xué)習(xí)率為0.001時(shí),推薦效果反而下降,這說(shuō)明當(dāng)學(xué)習(xí)率過(guò)小時(shí),收斂速度變慢,推薦效果也隨之下降,這需要進(jìn)一步地動(dòng)態(tài)調(diào)整學(xué)習(xí)率,使得迭代次數(shù)也調(diào)整為合適的值。

圖4 學(xué)習(xí)率對(duì)性能的影響

2.4 實(shí)驗(yàn)結(jié)果與分析

基于隱式反饋的音樂(lè)推薦算法較少,同時(shí)考慮到隱式反饋應(yīng)用到音樂(lè)推薦場(chǎng)景本身的特點(diǎn),一些已有的隱式反饋推薦算法不適用于音樂(lè)推薦場(chǎng)景。該文選擇以下5種算法作為對(duì)比算法。

(1)UserCF:基于用戶(hù)的協(xié)同過(guò)濾推薦算法。

(2)ItemCF:基于項(xiàng)目的協(xié)同過(guò)濾推薦算法。

(3)BPR[18]:將推薦問(wèn)題轉(zhuǎn)化為成對(duì)排序問(wèn)題,將用戶(hù)參與項(xiàng)與未參與項(xiàng)分別作為正負(fù)反饋,構(gòu)造矩陣參數(shù),從而對(duì)每名用戶(hù)產(chǎn)生推薦列表。

(4)SVD[21]:采用隨機(jī)梯度下降法優(yōu)化用戶(hù)及物品特征矩陣,使其接近原始的評(píng)分矩陣,常應(yīng)用于隱式反饋推薦中。

(5)LFM[22]:通過(guò)隱含特征聯(lián)系用戶(hù)興趣和物品,是經(jīng)典的隱式反饋推薦方法之一。

為達(dá)到理想的推薦效果,實(shí)驗(yàn)選取了80%的數(shù)據(jù)作為訓(xùn)練集,20%作為測(cè)試集,隱性特征個(gè)數(shù)F=10,負(fù)樣本比例Ratio=5,正則化參數(shù)λ=0.07,學(xué)習(xí)率Learning rate=0.002,模型迭代次數(shù)為30,實(shí)驗(yàn)結(jié)果如表2和表3所示。

表2 last.fm 1k數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表3 last.fm 360k數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

由表2和表3可以觀(guān)察到,文中算法在兩個(gè)數(shù)據(jù)集下明顯優(yōu)于5種對(duì)比算法,其中Item CF算法的召回率、準(zhǔn)確率和NDCG值最低,比UserCF的值都要低,這說(shuō)明基于項(xiàng)目的協(xié)同過(guò)濾算法沒(méi)有利用用戶(hù)行為數(shù)據(jù),其推薦效果最差。而相較于SVD僅考慮了隱式特征,并未涉及隱式正負(fù)反饋樣本的劃分,BPR算法將所有缺失值都當(dāng)做負(fù)樣本,LFM缺乏時(shí)間敏感性的問(wèn)題,文中提出的基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法對(duì)隱式反饋正負(fù)樣本進(jìn)行了合理的劃分,同時(shí)考慮了收聽(tīng)時(shí)長(zhǎng)等時(shí)效性隱式反饋數(shù)據(jù),推薦性能均有顯著提升。數(shù)據(jù)集2中,IFW-LFM算法在時(shí)間跨度為180天時(shí),其召回率、準(zhǔn)確率和NDCG值較UserCF、ItemCF、LFM、BPR、SVD分別最大平均提升了45.81%,83.83%和60.33%,這說(shuō)明考慮用戶(hù)操作頻次從缺失值中劃分正負(fù)樣本與考慮其和用戶(hù)偏好間的關(guān)系并引入時(shí)間輔助信息的思路是行之有效的。

3 結(jié)束語(yǔ)

針對(duì)現(xiàn)有隱式反饋中存正負(fù)樣本劃分不合理、忽略用戶(hù)操作頻次、無(wú)法準(zhǔn)確建模用戶(hù)偏好的問(wèn)題,提出了基于隱式反饋和加權(quán)用戶(hù)偏好的推薦算法(IFW-LFM)。該算法借助wALS思想,考慮用戶(hù)操作頻次與正負(fù)樣本劃分間的關(guān)系,并對(duì)臨界值的用戶(hù)偏好進(jìn)行了討論;接著考慮了用戶(hù)收聽(tīng)歌曲頻次對(duì)用戶(hù)偏好程度的影響,根據(jù)用戶(hù)操作頻次定義了置信度,明確了用戶(hù)偏好程度這一重要信息;最后提高了隱式反饋樣本中關(guān)于時(shí)效性信息的利用,根據(jù)用戶(hù)收聽(tīng)歌曲起止時(shí)間與收聽(tīng)時(shí)長(zhǎng)等樣本數(shù)據(jù),構(gòu)建了隱式反饋推薦模型,并利用LFM算法預(yù)測(cè)用戶(hù)興趣,提高了推薦性能。然而,在考慮樣本利用率低的問(wèn)題時(shí),僅加入了時(shí)效性信息而未考慮其他輔助信息,未來(lái)將在此模型的基礎(chǔ)上考慮加入更多的輔助信息,以進(jìn)一步提高樣本利用率。此外,該文是基于純粹隱式反饋數(shù)據(jù)上的推薦,對(duì)顯式反饋數(shù)據(jù)沒(méi)有加以利用,下一步也可以考慮這兩種反饋數(shù)據(jù)如何進(jìn)行有效的結(jié)合以提高推薦性能。

猜你喜歡
負(fù)反饋樣本用戶(hù)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
全新的虛短虛斷概念與兩類(lèi)集成運(yùn)放之導(dǎo)出
負(fù)反饋放大電路設(shè)計(jì)
推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
村企共贏(yíng)的樣本
基于Multisim的負(fù)反饋放大電路仿真分析