吳佳煒
摘要:協(xié)同過濾推薦算法從龐大的數(shù)據(jù)資源中為用戶推薦其感興趣的內(nèi)容,在推薦系統(tǒng)中該算法得到廣泛應(yīng)用。但是隨著用戶數(shù)目和項(xiàng)目資源的不斷增加,傳統(tǒng)的協(xié)同過濾算法暴露出數(shù)據(jù)稀疏和冷啟動等問題,大大降低了用戶相似度和項(xiàng)目相似度計(jì)算的準(zhǔn)確度。本篇文章介紹了協(xié)同過濾算法的基本概念,指出該算法的局限性以及在此基礎(chǔ)上研究人員所做的一系列優(yōu)化改進(jìn)。
關(guān)鍵詞:協(xié)同過濾;推薦系統(tǒng);用戶相似性;項(xiàng)目相似性
一、引言
現(xiàn)今互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而生,數(shù)據(jù)資源的增長速度以幾何數(shù)量級呈現(xiàn),個(gè)性化推薦技術(shù)[1]的出現(xiàn)解決了龐大的用戶群體對數(shù)據(jù)的需求問題,更是廣泛應(yīng)用于數(shù)字圖書館[2]、電子商務(wù)[3]、新聞網(wǎng)站[4]等系統(tǒng)中。協(xié)同過濾(collaborative filtering)[5]在推薦系統(tǒng)中最為常用,它的根本思想是根據(jù)相似的用戶群體或者項(xiàng)目群體來向目標(biāo)用戶推薦其可能感興趣的項(xiàng)目資源。
基于用戶的協(xié)同過濾推薦算法[6]和基于項(xiàng)目的協(xié)同過濾推薦算法[7,8]是構(gòu)成傳統(tǒng)的協(xié)同過濾算法的兩大主體。在基于用戶的協(xié)同過濾推薦算法中,算法依據(jù)目標(biāo)用戶的類似用戶對項(xiàng)目的評分來預(yù)測目標(biāo)用戶對該項(xiàng)目是否感興趣,然而鑒于部分用戶與之相關(guān)聯(lián)的信息量有限,所以對相關(guān)項(xiàng)目的評分并不完全,導(dǎo)致用戶-項(xiàng)目評分矩陣稀疏度高而不能完全體現(xiàn)其相對關(guān)系,從而加大了相似用戶群的選擇程度,降低了推薦系統(tǒng)的效率。若通過基于項(xiàng)目的協(xié)同過濾推薦算法,依靠未評分目標(biāo)項(xiàng)目的相似項(xiàng)目的評分來預(yù)測目標(biāo)用戶對未評分項(xiàng)目的評分,但是當(dāng)用戶對項(xiàng)目的評分較少時(shí),易導(dǎo)致忽略項(xiàng)目自身屬性的問題,降低了推薦效率。
二、協(xié)同過濾推薦算法
(一)核心內(nèi)容
1、計(jì)算相似度
為了計(jì)算用戶或項(xiàng)目之間的相似度,協(xié)同過濾推薦算法主要利用皮爾遜相關(guān)度系數(shù)[9](Pearson Correlation Coefficient,PCC)來實(shí)現(xiàn),其中PCC的取值范圍是[-1,1]。在基于用戶的協(xié)同過濾算法中,PCC可以用來計(jì)算用戶之間的相似度,公式如下:
(二)局限性及解決方案
傳統(tǒng)的協(xié)同過濾推薦算法只偏重于用戶相似度或者項(xiàng)目相似度的計(jì)算?;谟脩舻膮f(xié)同過濾算法由于用戶接觸信息量有限,用戶-項(xiàng)目評分矩陣嚴(yán)重稀疏從而導(dǎo)致數(shù)據(jù)的冷啟動?;陧?xiàng)目的協(xié)同過濾算法因?yàn)橛脩魧?xiàng)目的評分過少或者不夠全面,從而在推薦過程中容易忽略項(xiàng)目的自身屬性。
針對傳統(tǒng)的協(xié)同過濾算法在大數(shù)據(jù)時(shí)代背景下暴露出的問題,相關(guān)研究人員對其進(jìn)行了改進(jìn)。針對數(shù)據(jù)稀疏性多帶來的問題,計(jì)算的項(xiàng)目相似度準(zhǔn)確度不高,文獻(xiàn)[10]提出了一種結(jié)合類別偏好信息的item-based協(xié)同過濾算法,引出了類別偏好相似,根據(jù)類別偏好相似找出一組與目標(biāo)項(xiàng)目類別偏好相似的候選鄰居集合,再在其中搜尋最近鄰,刪減了與目標(biāo)項(xiàng)目共同評分較少的項(xiàng)目,使得最近鄰搜尋的準(zhǔn)確性得以提高。因?yàn)閭鹘y(tǒng)的協(xié)同過濾推薦算法不能及時(shí)捕捉用戶興趣變化,文獻(xiàn)[11]提出了一種適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法,該算法提出了分別基于時(shí)間和基于資源相似度的數(shù)據(jù)權(quán)重,并將它們結(jié)合在一起,然后引入基于項(xiàng)目的協(xié)同過濾算法的生成推薦中。文獻(xiàn)[12]和文獻(xiàn)[13]都提出了一種基于用戶-項(xiàng)目的混合協(xié)同過濾算法來解決數(shù)據(jù)稀疏和冷啟動的問題,通過改進(jìn)相似度的計(jì)算來提高預(yù)測精度,同時(shí)在預(yù)測未評分值時(shí),加入平衡參數(shù)對兩種預(yù)測評分進(jìn)行加權(quán)綜合,產(chǎn)生推薦。
三、總結(jié)
綜上所述,協(xié)同過濾推薦算法越來越被優(yōu)化,所以在現(xiàn)今的推薦系統(tǒng)中,協(xié)同過濾推薦算法仍被廣泛使用。但隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的協(xié)同過濾算法也逐漸暴露出冷啟動和數(shù)據(jù)稀疏等一系列問題,導(dǎo)致推薦質(zhì)量大大下降。因此,研究人員對傳統(tǒng)的協(xié)同過濾算法做了大大的改進(jìn),在計(jì)算用戶相似度時(shí)引入時(shí)間權(quán)重因子來捕捉用戶興趣隨時(shí)間變化的特點(diǎn),在計(jì)算項(xiàng)目相似度是又引入了類別偏好因素,使得最近鄰項(xiàng)目更為相似,同時(shí)還將基于用戶的和基于項(xiàng)目的協(xié)同過濾算法相結(jié)合,引入平衡因子等等,從而使得預(yù)測精度大大提高。
但是隨著數(shù)據(jù)量幾何級的增長,研究人員也需要不斷改進(jìn)算法來滿足推薦系統(tǒng)的需求,對傳統(tǒng)的協(xié)同過濾算法的研究也會更為深入,挖掘更多影響因素,從而提高推薦質(zhì)量。(作者單位:南京師范大學(xué))
參考文獻(xiàn):
[1] 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2).
[2] Jayawardana C,Hewagamage K P,Hirakawa M.A Personalized Information Environment for Digital Libraries[J].Information Technology & Libraries,2001,20(4).
[3] Schafer J B,Konstan J,Riedl J.Recommender systems in e-commerce[C].USA:ACM,1999.
[4] Konstan J A,Miller B N,Maltz D.GroupLens:applying collaborative filtering to Usenet news[J].Communications of the Acm,2000,40(3).
[5] Al-Shamri M Y H.Power coefficient as a similarity measure for memory-based collaborative recommender systems[J].Expert Systems with Applications,2014,41(13).
[6] Zhao Z D,Shang M S.User-Based Collaborative-Filtering Recommendation Algorithms on Hadoop[C].New York:IEEE Computer Society,2010.
[7] 鄧愛林,朱揚(yáng)勇,施伯樂.基于項(xiàng)目評分預(yù)測的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2003,14(9).
[8] 羅奇,余英,趙呈領(lǐng)等.自適應(yīng)推薦算法在電子超市個(gè)性化服務(wù)系統(tǒng)中的應(yīng)用研究[J].通信學(xué)報(bào),2006,(11).
[9] 朱銳,王懷民,馮大為.基于偏好推薦的可信服務(wù)選擇[J].軟件學(xué)報(bào),2011,22(5):852-864.
[10] 冷亞軍,陸青,張俊嶺.結(jié)合類別偏好信息的item-based協(xié)同過濾算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(3):669-672.
[11] 邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(2):296-301.
[12] 陳彥萍,王賽.基于用戶-項(xiàng)目的混合協(xié)同過濾算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(12):88-91.
[13] Xiong W,Li B,Cui X,et al.A Learning Approach to the Prediction of Reliability Ranking for Web Services[C].The,International Conference on Web Services.2015:169-176.