盧澤倫 古萬榮 毛宜軍 陳梓明1
摘 要:推薦系統(tǒng)中用戶的評分往往會受到評分上下文的影響,即用戶先前對一些物品的評分會影響其對當(dāng)前物品評分的客觀性。稀疏線性方法在計(jì)算物品相似度時(shí)將受到上下文影響的用戶評分與其他評分同等看待,然而該部分評分并不能客觀地反映出物品之間的相似度。針對以上問題,在稀疏線性方法的基礎(chǔ)上提出了融合評分上下文和物品相似度的推薦算法,算法分為三個(gè)階段:第一個(gè)階段使用加權(quán)評分計(jì)算物品最近鄰進(jìn)行特征選擇;第二個(gè)階段利用評分誤差權(quán)重減少算法模型對受到上下文影響的評分的擬合,訓(xùn)練得出物品相似度矩陣;第三個(gè)階段根據(jù)用戶評分和物品相似度進(jìn)行評分預(yù)測以完成物品推薦。在MovieLens的四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采用平均準(zhǔn)確率(MAP)、平均倒數(shù)排名(MRR)和歸一化折損累計(jì)增益(NDCG)指標(biāo)來評估算法效果。實(shí)驗(yàn)結(jié)果表明,融合評分上下文將進(jìn)一步提高物品相似度的準(zhǔn)確性,從而提高推薦的性能。
關(guān)鍵詞:顯式反饋; 推薦系統(tǒng); 評分上下文; 物品相似度; 稀疏線性方法
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2023)10-024-3040-07
doi:10.19734/j.issn.1001-3695.2023.02.0057
Recommendation algorithm with rating context and item similarity
Lu Zelun1, Gu Wanrong1, 2, Mao Yijun1, Chen Ziming1
(1. College of Mathematics & Informatics, South China Agricultural University, Guangzhou 510642, China; 2. Guangzhou Key Laboratory of Intelligent Agriculture, Guangzhou 510642, China)
Abstract:In the recommendation system, the users ratings are often affected by the rating context, that is, the users previous ratings of some items will affect the objectivity of his rating of the current item. Sparse linear method treats user ratings affected by context as the same as other ratings when calculating item similarity. However, this partial ratings cannot objectively reflect the similarity between items. To solve the above problems, this paper proposed a recommendation algorithm combining rating context and item similarity based on sparse linear method. It divided the algorithm into three stages.The first stage used weighted ratings to calculate the items nearest neighbor for feature selection.In the second stage,it used the rating error weight to reduce the fitting of the ratings affected by the context of the algorithm model, and trained the item similarity matrix. In the third stage,it predicted the ratings according to the users ratings and the item similarity, and finally sorted the predicted ratings to complete the item recommendation. Experiments were conducted on four datasets of MovieLens, it used mean average precision (MAP) , mean reciprocal rank (MRR) and normalized discounted cumulative gain (NDCG) to evaluate the effectiveness of the algorithm. The experimental results show that the fusion rating context will further improve the accuracy of item similarity and thus improve the performance of recommendation.
Key words:explicit feedback; recommendation system; rating context; item similarity; sparse linear method
0 引言
隨著互聯(lián)網(wǎng)的高速發(fā)展和數(shù)據(jù)信息的爆炸式增長,人們面臨著嚴(yán)重的信息過載問題,推薦系統(tǒng)作為解決信息過載問題的主要技術(shù)之一,可根據(jù)用戶的歷史數(shù)據(jù)將物品準(zhǔn)確地推薦給用戶,同時(shí)獲取用戶對物品的評分,進(jìn)一步分析出用戶的偏好以進(jìn)行更好的推薦[1~3]。用戶的歷史數(shù)據(jù)常分為隱式數(shù)據(jù)和顯式數(shù)據(jù),隱式數(shù)據(jù)包括用戶對物品的點(diǎn)擊等[4, 5],顯式數(shù)據(jù)包括用戶對物品的評分等[6, 7]。然而在顯式數(shù)據(jù)中,用戶對物品的評分往往不完全代表用戶的實(shí)際偏好或者物品的質(zhì)量,該評分還受到其他因素的影響[8]。在很多情況下,用戶先前對其他物品的評分情況會影響其對當(dāng)前物品的評分,如在觀看電影的場景中,當(dāng)用戶先前觀看的電影的質(zhì)量很低且用戶對該電影的評分也很低,那么用戶很有可能會給當(dāng)前觀看的電影評一個(gè)高分,即使當(dāng)前電影的質(zhì)量一般,這種情況稱為用戶的評分受到評分上下文的影響。例如,用戶A對劇情電影A的評分原本只能打到3分,然而因?yàn)橛脩鬉在觀看劇情電影A之前看了一部十分差勁的劇情電影B,導(dǎo)致其在兩部電影間作出對比之下給劇情電影A打了5分的高分。在包括稀疏線性方法(sparse linear method,fsSLIM)[9]等使用物品相似度進(jìn)行推薦的推薦算法中,計(jì)算物品相似度?;谟脩魧ξ锲返脑u分,且將用戶的所有評分同等對待[10~12],忽略了受到上下文影響的用戶主觀評分并不能客觀地反映出物品之間的相似度這一問題,即物品之間的相似度不應(yīng)受到用戶評分先后順序的影響。針對上述問題,本文在稀疏線性方法的基礎(chǔ)上提出一種利用時(shí)間信息來融合評分上下文和物品相似度的推薦算法(fsSLIM with rating context,RCfsSLIM)。首先,利用時(shí)間信息對用戶評分進(jìn)行加權(quán)處理,使用加權(quán)處理后的評分計(jì)算并選擇出物品最近鄰;然后,在基于物品最近鄰的基礎(chǔ)上,使用評分誤差權(quán)重減少算法模型對受到上下文影響的評分的擬合,訓(xùn)練得出物品相似度矩陣,再通過結(jié)合用戶評分矩陣和物品相似度矩陣計(jì)算得到預(yù)測評分,最終完成物品的推薦;最后,本文在四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,結(jié)果表明融合評分上下文將進(jìn)一步提高物品相似度的準(zhǔn)確性,從而提高推薦的性能。
1 相關(guān)工作
本文提出的基于物品相似度的推薦算法利用時(shí)間信息將評分上下文融入其中,與之相關(guān)的工作包括用戶評分上下文的影響、融合時(shí)間信息的推薦算法、基于物品相似度的推薦算法三方面。
1.1 用戶評分上下文的影響
Lu等人[8]統(tǒng)計(jì)用戶閱讀新聞的數(shù)據(jù)發(fā)現(xiàn),用戶的評分經(jīng)常發(fā)生變化,且這些變化與用戶交互的上下文高度相關(guān)。其將數(shù)據(jù)分為閱讀前、閱讀后和任務(wù)后。前兩個(gè)階段是在用戶瀏覽有順序的新聞列表上下文中收集的,這可能會受到新聞在列表中的位置、周圍新聞和以前閱讀的新聞的影響。為了消除這些影響,任務(wù)后階段在用戶完成新聞閱讀后,將所有新聞重新顯示給用戶,然后再一次要求用戶提供對每個(gè)新聞的實(shí)際評分,文獻(xiàn)[8]認(rèn)為此階段中新聞在列表中的位置和上下文的影響都被消除了,并以此當(dāng)做用戶對每個(gè)新聞的實(shí)際評分。將收集的數(shù)據(jù)經(jīng)過T檢驗(yàn)后分析發(fā)現(xiàn),用戶對前一個(gè)點(diǎn)擊的新聞的評分會影響當(dāng)前閱讀新聞的用戶體驗(yàn),當(dāng)用戶先前閱讀不喜歡的新聞時(shí),其在閱讀后階段中對當(dāng)前閱讀的新聞的評分會高于實(shí)際評分。分析數(shù)據(jù)表明,用戶交互上下文將影響用戶對當(dāng)前閱讀的新聞的即時(shí)評分,這可能與用戶的實(shí)際評分不一致。因此本文利用時(shí)間信息體現(xiàn)出評分的上下文關(guān)系,將同一用戶的評分按時(shí)間順序排序后,對受到評分上下文影響的評分進(jìn)行加權(quán)處理以改變其對算法模型的影響。
1.2 融合時(shí)間信息的推薦算法
傳統(tǒng)的推薦系統(tǒng)傾向于利用用戶對物品的所有評分來學(xué)習(xí)用戶的長期偏好,在這種情況下用戶的全部評分是同等重要的。然而用戶對物品的選擇往往受其最近的短期偏好以及最近瀏覽或購買物品等時(shí)間相關(guān)的上下文場景所影響[11,13]。針對上述問題,研究人員將時(shí)間信息融合進(jìn)推薦算法中[14],近年來,基于序列和基于會話的推薦系統(tǒng)悄然興起,其中一項(xiàng)重要的工作是處理物品中如時(shí)間、用戶等上下文信息。Tang等人[15]認(rèn)為用戶最近的偏好對其當(dāng)前如何選擇物品會造成更大的影響,于是通過卷積神經(jīng)網(wǎng)絡(luò)對用戶短期序列的信息進(jìn)行提取。Kang等人[16]和Sun等人[17]使用自注意力機(jī)制對用戶最近的若干個(gè)歷史行為進(jìn)行信息提取,以此將時(shí)間信息融合進(jìn)推薦算法中。這些算法都表明融合了時(shí)間信息的推薦模型能有效地獲得更好的推薦結(jié)果,也從另一角度表明融合時(shí)間信息有助于模型構(gòu)建用戶偏好或物品屬性。因此,本文利用時(shí)間信息將評分上下文融合到推薦算法中,以獲得更好的推薦效果。
1.3 基于物品相似度的推薦算法
推薦系統(tǒng)主要分為基于內(nèi)容的推薦、基于協(xié)同過濾的推薦和混合推薦[18,19]三大類。結(jié)合用戶評分和物品相似度進(jìn)行推薦是基于協(xié)同過濾的推薦中常用的一種技術(shù)[11,20]。Kabbur等人[21]通過用戶評分訓(xùn)練出兩個(gè)低維的隱因子矩陣,同時(shí)將兩個(gè)隱因子矩陣乘積得到的高維矩陣視為物品的相似度矩陣。Lin等人[22]將自注意力機(jī)制融合到算法中以獲得更加準(zhǔn)確的物品相似度。Ning等人[9]提出了fsSLIM模型,該模型可通過基于鄰域的方法提前計(jì)算出物品的相似物品進(jìn)行特征選擇。對于某一物品,模型只使用其相似物品對其進(jìn)行學(xué)習(xí),而不需要考慮其他所有物品,其目的是為了減小模型的訓(xùn)練時(shí)間。在特征選擇步驟中,常用皮爾森系數(shù)度量相似度,物品u和v的皮爾森相似度計(jì)算方法如下:
其中:Ri,u和Ri,v分別表示用戶i對物品u的評分和用戶i對物品v的評分;Ru和Rv分別表示物品u所有評分的平均分和物品v所有評分的平均分;Iuv表示對物品u和v都有評分的用戶。接著fsSLIM模型可使用評分矩陣結(jié)合特征選擇訓(xùn)練出物品的相似度矩陣,其目標(biāo)函數(shù)如下:
其中:Rj是評分矩陣R的第j列;Wj是物品相似度矩陣W的第j列。最后fsSLIM模型使用用戶評分和物品相似度進(jìn)行評分預(yù)測以進(jìn)行物品推薦。然而,無論是在特征選擇階段還是模型訓(xùn)練階段,fsSLIM模型都忽略了用戶的評分上下文對部分評分的影響,降低了訓(xùn)練得到的物品相似度矩陣的準(zhǔn)確性和推薦效果。因此,本文在fsSLIM模型的基礎(chǔ)上利用時(shí)間信息對用戶評分進(jìn)行加權(quán)處理,將受到上下文影響的評分與其他評分進(jìn)行區(qū)分,并在特征選擇階段使用加權(quán)評分更加準(zhǔn)確地計(jì)算出物品最近鄰。同時(shí)在模型訓(xùn)練階段根據(jù)評分的權(quán)重情況減少算法模型對受到上下文影響的評分的擬合,以此將評分上下文融入其中,從而提高推薦的性能。
2 融合評分上下文和物品相似度的推薦算法
本文所提出的RCfsSLIM算法框架如圖1所示,主要分為三個(gè)階段:在第一個(gè)階段即特征選擇階段中,使用加權(quán)評分計(jì)算物品最近鄰進(jìn)行特征選擇以減少算法模型訓(xùn)練時(shí)間;在第二個(gè)階段即模型訓(xùn)練階段中,使用評分誤差權(quán)重減少算法模型對受到上下文影響的評分的擬合,以減少該評分對物品相似度的影響,訓(xùn)練得出物品相似度矩陣;在第三個(gè)階段即評分預(yù)測與物品推薦階段中,通過用戶評分矩陣和物品相似度矩陣完成評分預(yù)測,最終將預(yù)測的評分進(jìn)行排序后形成推薦的物品列表。
2.1 符號定義
在提出本文模型之前,先對本文主要使用到的三個(gè)矩陣進(jìn)行說明:
矩陣R為用戶—物品評分矩陣,即用戶的評分矩陣。評分矩陣的每一行代表一個(gè)用戶,每一列代表一個(gè)物品。評分矩陣第u行第i列的值Rui表示用戶u對物品i的評分。
矩陣A是評分權(quán)重矩陣,大小與評分矩陣R相同。在評分權(quán)重矩陣A中,每一個(gè)位置上不為0的值A(chǔ)ui是對應(yīng)評分矩陣R中評分Rui的權(quán)值,權(quán)值大小經(jīng)過以下處理:a)對同一用戶的評分按時(shí)間先后進(jìn)行排序,若前一個(gè)評分等于最高評分,則當(dāng)前評分權(quán)值大于1;b)對同一用戶的評分按時(shí)間先后進(jìn)行排序,若前一個(gè)評分等于最低評分,則當(dāng)前評分權(quán)值小于1;c)其他情況下評分權(quán)值等于1。其中,加權(quán)評分不應(yīng)高于原始評分的更高一級評分且不應(yīng)低于原始評分的更低一級評分,如用戶評分為4分(評分區(qū)間為1~5分,評分間隔為1分),則加權(quán)評分不超過5分且不低于3分。
矩陣W為物品相似度矩陣,其行數(shù)與列數(shù)都和物品數(shù)量相等,通過學(xué)習(xí)用戶—物品評分矩陣得出。矩陣W的每一行或是每一列都代表一種物品,且W的每一列可視為此物品和此列對應(yīng)物品的相似度。相似度矩陣第u行第i列的值Wui表示第u個(gè)和第i個(gè)物品的相似度。
2.2 RCfsSLIM的模型
RCfsSLIM模型計(jì)算用戶i對未評分物品j的預(yù)測評分公式如下:
排序由式(18)得到的預(yù)測評分,即可獲得向用戶推薦的物品列表。RCfsSLIM模型的算法描述如下:
輸入:用戶的評分?jǐn)?shù)據(jù),每一評分?jǐn)?shù)據(jù)包括用戶ID、物品ID、評分值和時(shí)間戳。
輸出:用戶的物品推薦列表。
a)使用每一評分?jǐn)?shù)據(jù)的時(shí)間戳信息計(jì)算出該評分的評分權(quán)重值。同時(shí)將每一評分?jǐn)?shù)據(jù)的評分值和評分權(quán)重值相乘,得出加權(quán)評分。
b)根據(jù)式(8)使用加權(quán)評分計(jì)算出物品之間的相似度,得到物品的最近鄰。
c)初始化物品相似度矩陣,根據(jù)式(16)使用物品的最近鄰、評分值和評分權(quán)重,通過坐標(biāo)下降法更新物品相似度矩陣。
d)物品相似度矩陣更新完成后利用式(18)計(jì)算得出評分預(yù)測矩陣。
e)對預(yù)測的評分進(jìn)行排序,取預(yù)測評分高的多個(gè)物品作為物品推薦列表。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用MovieLens的四個(gè)數(shù)據(jù)集,分別是ml-100k、ml-latest-small(ml-ls)、Hetrec2011-movielens-2k(ml-10m2k)和ml-1m。其中,Hetrec2011-movielens-2k數(shù)據(jù)集將MovieLens數(shù)據(jù)集的電影與其在IMDb和爛番茄中的相應(yīng)網(wǎng)頁鏈接起來,是Movie-Lens10M數(shù)據(jù)集的擴(kuò)展。數(shù)據(jù)集的具體信息如表1所示。
3.2 評價(jià)指標(biāo)
實(shí)驗(yàn)采用top-N推薦評價(jià)指標(biāo)來評估推薦算法的性能,其中包括平均準(zhǔn)確率(mean average precision,MAP)、平均倒數(shù)排名(mean reciprocal rank,MRR)和歸一化折損累計(jì)增益(normalized discounted cumulative gain,NDCG)。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)在四個(gè)數(shù)據(jù)集上都隨機(jī)抽取了70%的訓(xùn)練數(shù)據(jù)和30%的測試數(shù)據(jù)。由于數(shù)據(jù)集ml-ls和ml-10m2k的評分間隔為0.5分,數(shù)據(jù)集ml-100k和ml-1m的評分間隔為1分,所以這四個(gè)數(shù)據(jù)集的評分權(quán)值進(jìn)行如下設(shè)置:a)對同一用戶的評分按時(shí)間先后進(jìn)行排序,若前一個(gè)評分等于最高評分,則在數(shù)據(jù)集ml-ls和ml-10m2k中,當(dāng)前評分的權(quán)值設(shè)為1.1,在數(shù)據(jù)集ml-100k和ml-1m中,當(dāng)前評分的權(quán)值設(shè)為1.2;b)對同一用戶的評分按時(shí)間先后進(jìn)行排序,若前一個(gè)評分等于最低評分,則在數(shù)據(jù)集ml-ls和ml-10m2k中,當(dāng)前評分的權(quán)值設(shè)為0.9,在數(shù)據(jù)集ml-100k和ml-1m中,當(dāng)前評分的權(quán)值設(shè)為0.8;c)其他情況下評分權(quán)值等于1。
除了fsSLIM模型以外,本文提出的RCfsSLIM模型還與以下五種基線模型進(jìn)行了對比:
a)ItemKNN[10]:一種經(jīng)典的基于物品的推薦算法,ItemKNN根據(jù)物品之間的相似度大小進(jìn)行排序后完成推薦。
b)WRMF[24,25]:該算法使用加權(quán)的方法來表征用戶對物品行為的置信度,以此改變部分訓(xùn)練數(shù)據(jù)對模型的影響。
c)FISM[21]:該算法通過用戶評分訓(xùn)練出兩個(gè)低維的隱因子矩陣,兩個(gè)矩陣乘積得到的高維矩陣視為物品的相似度矩陣。
d)LRML[26]:該算法使用用戶和物品之間的潛在關(guān)系進(jìn)行建模,以此提高特征選擇的能力和推薦的性能。
e)AutoInt[27]:該算法使用多頭自注意力來進(jìn)行特征的交叉學(xué)習(xí),有效地構(gòu)造了高階特征以獲得更好的推薦效果。
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 推薦結(jié)果比較
本文提出的RCfsSLIM模型與六個(gè)基線模型應(yīng)用于稀疏度不同的數(shù)據(jù)集上的整體效果如表2所示。本文算法RCfsSLIM明顯優(yōu)于其他六種對比方法,相比于fsSLIM模型,RCfsSLIM模型在特征選擇階段使用加權(quán)評分計(jì)算物品相似度以找出更加準(zhǔn)確的相似物品,并在模型訓(xùn)練時(shí)減小對部分受到用戶評分上下文影響的評分的擬合,提高了訓(xùn)練得到的物品相似度矩陣的準(zhǔn)確性,體現(xiàn)出更好的推薦效果。
3.4.2 第一個(gè)階段中使用加權(quán)評分進(jìn)行特征選擇的作用
RCfsSLIM模型第一個(gè)階段中特征選擇的本質(zhì)是使用加權(quán)評分提前計(jì)算出物品之間的相似度,接著只使用物品的多個(gè)相似物品進(jìn)行訓(xùn)練即可,由此可見在特征選擇階段中更加準(zhǔn)確地找出某一物品的多個(gè)相似物品的重要性。
本節(jié)實(shí)驗(yàn)使用物品最近鄰算法(item K-nearest neighbor,ItemKNN)探究使用加權(quán)評分進(jìn)行特征選擇的作用。ItemKNN算法首先使用式(1)通過評分矩陣R中的物品向量來計(jì)算得到物品之間的相似度;接著對于一個(gè)用戶未評分的物品,該算法將該物品和用戶已評分物品的相似度進(jìn)行累加;最后對每一個(gè)未評分物品累加的相似度進(jìn)行排序從而達(dá)到推薦的目的。從相似度計(jì)算式(1)可以看出,計(jì)算物品相似度完全基于用戶評分,即對于兩個(gè)物品而言,若用戶評分越相近,則兩個(gè)物品的相似度越高,且ItemKNN在推薦物品的過程中僅累加物品之間的相似度進(jìn)行排序,所以可將使用該算法進(jìn)行推薦的性能視為物品之間相似度的準(zhǔn)確性。
作為與式(1)的對比,本文在ItemKNN算法中使用式(8)通過加權(quán)評分計(jì)算物品之間的相似度,除此之外其余所有參數(shù)保持不變。實(shí)驗(yàn)結(jié)果如表3所示,使用加權(quán)評分計(jì)算物品之間的相似度表現(xiàn)出更好的推薦效果,即對于某一個(gè)物品而言,使用加權(quán)評分可以更加準(zhǔn)確地尋找出與其相似的k個(gè)物品,這也正是RCfsSLIM模型中特征選擇階段所需要的效果。
3.4.3 第二個(gè)階段中評分誤差權(quán)重的影響
RCfsSLIM模型的第二個(gè)階段中,一個(gè)評分的評分誤差權(quán)重δ的大小影響著模型對該評分的擬合程度。若δ為1,則表示模型對該評分進(jìn)行完全擬合,僅在特征選擇時(shí)使用加權(quán)評分計(jì)算物品相似度;若δ為0,則表示模型不對該評分進(jìn)行擬合;δ的值在0~1,則表示模型將減小對該評分的擬合??梢娫u分誤差權(quán)重δ在RCfsSLIM推薦模型中的重要性。
本節(jié)實(shí)驗(yàn)進(jìn)一步研究了評分誤差權(quán)重對推薦結(jié)果的影響,在數(shù)據(jù)集ml-100k、ml-ls、ml-10m2k中,top-N取5的情況下,各個(gè)評估指標(biāo)的實(shí)驗(yàn)結(jié)果如圖2所示。作為對比,圖2將同時(shí)畫出同樣條件下fsSLIM的評估指標(biāo)情況,由于不存在評分誤差權(quán)重,所以fsSLIM在所有圖中都是直線,每一條直線代表的數(shù)據(jù)集為距離其最近的折線所代表的數(shù)據(jù)集。
由圖2可看出,RCfsSLIM的推薦效果普遍都比fsSLIM要好。同時(shí)當(dāng)評分誤差權(quán)重偏大或偏小時(shí),推薦效果都有所下降。在數(shù)據(jù)集ml-100k中,評分誤差權(quán)重取0.4時(shí)推薦效果普遍最好;在數(shù)據(jù)集ml-ls中,評分誤差權(quán)重取0.8時(shí)推薦效果普遍最好;在數(shù)據(jù)集ml-10m2k中,評分誤差權(quán)重取0.5時(shí)推薦效果普遍最好。
另外,在評分誤差權(quán)重很小的情況下,部分?jǐn)?shù)據(jù)集的RCfs-SLIM的推薦效果比fsSLIM差,說明RCfsSLIM在不對受到用戶評分上下文影響的評分進(jìn)行完全擬合的同時(shí),也不可完全舍去這一部分評分,其在一定程度上有助于模型構(gòu)建物品相似度矩陣。
3.4.4 在RCfsSLIM模型的兩個(gè)階段中進(jìn)行加權(quán)處理的有效性
本文RCfsSLIM模型在第一個(gè)階段即特征選擇階段中,對評分進(jìn)行加權(quán)處理以計(jì)算物品的最近鄰;在第二個(gè)階段即模型訓(xùn)練階段中,使用坐標(biāo)下降法進(jìn)行目標(biāo)函數(shù)的優(yōu)化時(shí),對評分誤差進(jìn)行加權(quán)處理以減少算法模型對受到上下文影響的評分的擬合,從而減少該部分評分對物品相似度的影響。
本節(jié)實(shí)驗(yàn)進(jìn)一步研究了僅在第一階段或者僅在第二階段進(jìn)行加權(quán)處理的推薦效果,在數(shù)據(jù)集ml-100k、ml-ls、ml-10m2k中,top-N取3的情況下,各個(gè)評估指標(biāo)的實(shí)驗(yàn)結(jié)果如圖3所示。其中,fsSLIM模型表示第一個(gè)階段和第二個(gè)階段都不進(jìn)行加權(quán)處理的情況;fsSLIM-weightknn模型表示僅在第一個(gè)階段即特征選擇階段進(jìn)行加權(quán)處理的情況;fsSLIM-weighterror模型表示僅在第二個(gè)階段對評分誤差進(jìn)行加權(quán)處理的情況;RCfs-SLIM模型即本文方法則表示同時(shí)在兩個(gè)階段進(jìn)行加權(quán)處理的情況。
由圖3可看出,無論是僅在第一個(gè)階段對評分進(jìn)行加權(quán)處理,還是僅在第二個(gè)階段對評分誤差進(jìn)行加權(quán)處理,其推薦效果都比不進(jìn)行加權(quán)處理的情況要好,這是因?yàn)樵诘谝粋€(gè)階段即特征選擇階段中對評分進(jìn)行加權(quán)處理可以更好地找出某個(gè)物品的相似物品,在第二個(gè)階段即模型訓(xùn)練階段中對評分誤差進(jìn)行加權(quán)處理可以減少算法模型對受到上下文影響的評分的擬合,從而減少該部分評分對物品相似度的影響以提高物品相似度矩陣的準(zhǔn)確性。同時(shí),本文提出的在第一個(gè)階段和第二個(gè)階段都進(jìn)行加權(quán)處理的RCfsSLIM模型表現(xiàn)出最好的推薦效果。
4 結(jié)束語
在一些使用用戶評分計(jì)算物品相似度的推薦算法中,受到評分上下文影響的用戶主觀評分并不能客觀地反映出物品之間的相似度,從而影響推薦的性能。本文在fsSLIM模型的基礎(chǔ)上提出了融合評分上下文和物品相似度的RCfsSLIM推薦模型。RCfsSLIM模型首先使用加權(quán)評分計(jì)算物品相似度的方法進(jìn)行特征選擇,在進(jìn)一步使用坐標(biāo)下降法優(yōu)化目標(biāo)函數(shù)時(shí),對受到用戶評分上下文影響的評分誤差進(jìn)行加權(quán)處理,使RCfs-SLIM推薦模型減小對這些評分的擬合以減小該評分對計(jì)算物品相似度的影響,從而提高模型訓(xùn)練得到的物品相似度矩陣的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的可行性和有效性。
未來將進(jìn)行以下兩方面的工作:a)當(dāng)前設(shè)置某一評分的權(quán)重的做法是將用戶評分按時(shí)間排序后,考慮該評分的先前一個(gè)評分的情況,未來工作將綜合考慮該評分的先前多個(gè)評分的情況,以另一種角度分析評分上下文;b)由于評分權(quán)重矩陣的值為人工提前設(shè)置,下一步將研究通過算法模型自動(dòng)學(xué)習(xí)出各個(gè)評分的權(quán)重值以提高推薦性能。
參考文獻(xiàn):
[1]Xu Kerui, Yang Jingxuan, Xu Jun, et al. Adapting user preference to online feedback in multi-round conversational recommendation[C]// Proc of the 14th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2021: 364-372.
[2]Srivastava R, Palshikar G K, Chaurasia S, et al. Whats next? A recommendation system for industrial training[J].Data Science and Engineering,2018,3(3):232-247.
[3]Liu Luyao, Du Xingzhong, Zhu Lei, et al. Learning discrete hashing towards efficient fashion recommendation[J].Data Science and Engineering,2018,3(4):307-322.
[4]陳碧毅, 黃玲, 王昌棟, 等. 融合顯式反饋與隱式反饋的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào), 2020,31(3): 794-805. (Chen Biyi, Huang Ling, Wang Changdong, et al. Explicit and implicit feedback based collaborative filtering algorithm[J].Journal of Software,2020,31(3): 794-805.)
[5]Askari B, Szlichta J, Salehi-Abari A. Variational autoencoders for top-k recommendation with implicit feedback[C]// Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2021: 2061-2065.
[6]Lin Guanyu, Liang Feng, Pan Weike, et al. FedRec: federated re-commendation with explicit feedback[J].IEEE Intelligent Systems,2021,36(5):21-30.
[7]Jadidinejad A H, Macdonald C, Ounis I. Unifying explicit and implicit feedback for rating prediction and ranking recommendation tasks [C]// Proc of ACM SIGIR International Conference on Theory of Information Retrieval. New York: ACM Press, 2019: 149-156.
[8]Lu Hongyu, Zhang Min, Ma Shaoping. Between clicks and satisfaction: study on multi-phase user preferences and satisfaction for online news reading [C]// Proc of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2018: 435-444.
[9]Ning Xia, Karypis G. SLIM: sparse linear methods for top-n recommender systems [C]// Proc of the 11th IEEE International Confe-rence on Data Mining. Piscataway, NJ: IEEE Press, 2011: 497-506.
[10]Deshpande M, Karypis G. Item-based top-N recommendation algorithms[J].ACM Trans on Information Systems,2004,22(1):143-177.
[11]Choi M, Kim J, Lee J, et al. Session-aware linear item-item models for session-based recommendation [C]// Proc of Web Conference. New York: ACM Press, 2021: 2186-2197.
[12]Linden G, Smith B, York J. Amazon.com recommendations: item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.
[13]Wang Shoujin, Cao Longbing, Wang Yan. A survey on session-based recommender systems [J].ACM Computing Surveys,2022,54:1-38.
[14]包玄,陳紅梅,肖清.融入時(shí)間的興趣點(diǎn)協(xié)同推薦算法[J].計(jì)算機(jī)應(yīng)用,2021,41(8):2406-2411.(Bao Xuan, Chen Hongmei, Xiao Qing. Time-incorporated point-of-interest collaborative recommendation algorithm[J].Journal of Computer Applications,2021,41(8):2406-2411.)
[15]Tang Jiaxi, Wang Ke. Personalized top-N sequential recommendation via convolutional sequence embedding [C]// Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.
[16]Kang Wangcheng, McAuley J. Self-attentive sequential recommendation [C]// Proc of the 18th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2018: 197-206.
[17]Sun Fei, Liu Jun, Wu Jian, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer [C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2019: 1441-1450.
[18]Ozgobek O, Gulla J A, Erdur R C. A survey on challenges and me-thods in news recommendation [C]// Proc of the 10th International Conference on Web Information Systems and Technologies. 2014: 278-285.
[19]Van B J, Goethals B. High-dimensional sparse embeddings for collaborative filtering [C]// Proc of Web Conference. New York: ACM Press, 2021: 575-581.
[20]Bhattacharya M, Barapatre A. Query as context for item-to-item re-commendation [C]// Proc of the 14th ACM Conference on Recommender Systems. New York: ACM Press, 2020: 575-576.
[21]Kabbur S, Ning X, Karypis G. FISM: factored item similarity models for top-N recommender systems [C]// Proc of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2013: 659-667.
[22]Lin Jing, Pan Weike, Ming Zhong. FISSA: fusing item similarity models with self-attention networks for sequential recommendation [C]// Proc of the 14th ACM Conference on Recommender Systems. New York: ACM Press, 2020: 130-139.
[23]Friedman J, Hastie T, Tibshirani R. Regularization paths for genera-lized linear models via coordinate descent[J].Journal of Statistical Software,2010,33(1):1-22.
[24]Pan Rong, Zhou Yunhong, Cao Bin, et al. One-class collaborative filtering [C]// Proc of the 8th IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2008: 502-511.
[25]Hu Yifan, Koren Y, Volinsky C. Collaborative filtering for implicit feedback datasets [C]// Proc of the 8th IEEE International Confe-rence on Data Mining. Piscataway, NJ: IEEE Press, 2008: 263-272.
[26]Tay Y, Anh T L, Hui S C. Latent relational metric learning via me-mory-based attention for collaborative ranking [C]// Proc of the 26th International Conference on World Wide Web. New York: ACM Press, 2018: 729-739.
[27]Song Weiping, Shi Chence, Xiao Zhiping, et al. AutoInt: automatic feature interaction learning via self-attentive neural networks [C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2019: 1161-1170.
收稿日期:2023-02-18;修回日期:2023-04-20
基金項(xiàng)目:中山大學(xué)廣東省計(jì)算科學(xué)重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目(2021010);廣東省自然科學(xué)基金面上項(xiàng)目(2022A1515011489);國家社科基金后期資助項(xiàng)目(19FTJB001);廣東省哲學(xué)社會科學(xué)規(guī)劃項(xiàng)目(GD19CGL34)
作者簡介:盧澤倫(1997-),男,廣東惠州人,碩士,CCF會員,主要研究方向?yàn)橥扑]系統(tǒng)、機(jī)器學(xué)習(xí);古萬榮(1982-),男(通信作者),廣東梅州人,講師,碩導(dǎo),博士,主要研究方向?yàn)樗阉饕妗⒒ヂ?lián)網(wǎng)大數(shù)據(jù)分析與挖掘、推薦系統(tǒng)(guwanrong@scau.edu.cn);毛宜軍(1979-),男,湖北公安人,講師,博士,主要研究方向?yàn)榛驍?shù)據(jù)處理、信息安全、人工智能;陳梓明(1998-),男,廣東廣州人,碩士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí).