国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

個性化推薦算法研究

2014-08-28 07:59陳潔敏李建國蔡奕彬
關(guān)鍵詞:協(xié)同預(yù)測算法

陳潔敏, 湯 庸, 李建國, 蔡奕彬

(華南師范大學(xué)計算機(jī)學(xué)院,廣州 510631)

在網(wǎng)絡(luò)數(shù)據(jù)爆炸的年代,人們面對的是海量信息,例如亞馬遜上面有數(shù)百萬種獨特的商品,Google Music曲庫有過千萬首歌,Del.icio.us上面有超過10億的網(wǎng)頁收藏,淘寶在線商品數(shù)已經(jīng)超過了8億件,新浪微博用戶數(shù)及騰訊微信用戶數(shù)均超過5億.用戶在海量的信息中難以找到自己感興趣的信息,這就是所謂的“信息過載(information overload)”問題,搜索引擎和推薦系統(tǒng)是目前解決該問題的主要技術(shù).與搜索引擎相比,用戶更青睞于使用個性化推薦系統(tǒng),因為它能主動地從用戶注冊信息、用戶瀏覽日志、歷史評分記錄和項目信息等方面進(jìn)行分析,從而挖掘用戶的興趣偏好和項目的特征,然后為用戶實現(xiàn)個人感興趣信息的私人定制,并根據(jù)用戶需求和項目信息的變化及時調(diào)整推薦的內(nèi)容和服務(wù)方式,實現(xiàn)“以用戶為中心”的個性化服務(wù).個性化推薦系統(tǒng)具有良好的發(fā)展和應(yīng)用前景,目前電子商務(wù)網(wǎng)站、社交網(wǎng)站、電影和視頻網(wǎng)站、個性化音樂網(wǎng)絡(luò)電臺、個性化閱讀和個性化廣告等領(lǐng)域都使用了不同形式的推薦系統(tǒng)并獲得巨大的效益.本文闡述了推薦系統(tǒng)概念定義,對比各類推薦算法優(yōu)點和缺點,總結(jié)了常用數(shù)據(jù)集和評測指標(biāo), 最后提出未來面臨的主要問題及可能的研究方向.

1 推薦系統(tǒng)概念定義

推薦系統(tǒng)利用輸入的數(shù)據(jù)來預(yù)測系統(tǒng)對象未來潛在的喜好和興趣,將個性化推薦對象的清單推送給用戶.因此,系統(tǒng)用戶、推薦對象及個性化推薦算法是推薦系統(tǒng)的重要組成部分.推薦系統(tǒng)根據(jù)用戶注冊信息、歷史行為數(shù)據(jù)和需求為用戶建模,例如用戶年齡、職業(yè)、愛好、社交網(wǎng)絡(luò)關(guān)系等,同時也根據(jù)推薦對象的相關(guān)信息來構(gòu)造對象模型,最后推薦算法根據(jù)推薦策略、用戶信息和對象信息為用戶進(jìn)行個性化推薦.一般的推薦系統(tǒng)模型流程如圖1所示[1-2].

圖1 推薦系統(tǒng)模型

(1)

2 推薦算法的主要分類

推薦系統(tǒng)利用不同的信息源為用戶提供預(yù)測和項目的推薦,推薦算法在這個過程中起著重要的作用.根據(jù)可用信息不同,例如標(biāo)簽、信任度、社交網(wǎng)絡(luò)關(guān)系、人口統(tǒng)計信息等,及對各種評測指標(biāo)的考慮,目前流行的推薦算法主要分為四大類:基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法、基于知識的推薦算法和混合的推薦算法(圖2).下面對該4類算法進(jìn)行介紹并對比優(yōu)缺點.

圖2 常用推薦算法分類

2.1 基于內(nèi)容的推薦算法

基于內(nèi)容的推薦(content-based recommendation)也稱為基于內(nèi)容的信息過濾推薦,它不需要用戶對推薦對象進(jìn)行評價,而是把推薦對象的內(nèi)容特征抽取出來,然后從用戶以往選擇對象的內(nèi)容特征去學(xué)習(xí)用戶的偏好興趣,最后與用戶偏好興趣匹配度較高的對象將被推薦給用戶.

在基于內(nèi)容的推薦算法中,f(u,c)為被推薦對象c對用戶u的效用函數(shù),主要利用對象內(nèi)容特征和用戶資料模型.對象內(nèi)容特征(Content(c))一般釆用基于TF-IDF[4]權(quán)重的向量空間模型(Vector Space Model)模型進(jìn)行表示[5].用機(jī)器學(xué)習(xí)的方法來獲取用戶的資料模型(ContentBasedProfile(u)),例如神經(jīng)網(wǎng)絡(luò)、決策樹、貝葉斯分類算法等[2].基于內(nèi)容的推薦算法中的效用函數(shù)f(u,c)可表示為[3]:

f(u,c)=score(ContentBasedProfile(u),Content(c)).

(2)

Score的計算可以采用不同方法,例如可以用二者的余弦相似度計算,如:

f(u,c)=cos(wu,wc)=

(3)

最后按所得到的f數(shù)值對對象排序,將最前面的項目作為推薦對象.雖然該算法的推薦結(jié)果比較符合用戶的喜好,但缺乏新穎度和驚喜度.

2.2 協(xié)同過濾推薦

協(xié)同過濾推薦(collaborative filtering recommendation)是推薦系統(tǒng)中最為流行且應(yīng)用廣泛的算法,它基于系統(tǒng)里其他用戶的評分記錄或其他歷史數(shù)據(jù)(例如,在亞馬遜上用戶購買商品的歷史記錄).目前2種主要的協(xié)同推薦技術(shù)是基于內(nèi)存的協(xié)同推薦和基于模型的協(xié)同推薦,前者利用歷史數(shù)據(jù)來尋找相似的推薦項目,后者通過歷史數(shù)據(jù)構(gòu)造預(yù)測模型,再通過模型進(jìn)行評分預(yù)測,它們的不同在于對用戶-項目評分矩陣的分析和使用方式上的差異.

2.2.1 基于內(nèi)存的協(xié)同推薦 基于內(nèi)存的協(xié)同推薦(memory-based collaborative filtering)也稱為啟發(fā)式的協(xié)同推薦,主要直接利用用戶的歷史數(shù)據(jù)來提供預(yù)測結(jié)果,例如用戶-電影的評分矩陣.根據(jù)考慮角度的不同,可以分為基于項目 (Item-based)和基于用戶(User-based)的協(xié)同推薦.前者是根據(jù)項目之間的相似度來尋找與目標(biāo)項目近似的項目集,后者則利用用戶之間相似的興趣偏好來獲得近鄰用戶集,這2種基于近鄰的推薦算法主要依賴用戶數(shù)與項目數(shù)的比例,當(dāng)用戶數(shù)大大超過項目數(shù)時,基于項目的系統(tǒng)推薦能提供更準(zhǔn)確的推薦,反之亦然.

基于用戶的協(xié)同推薦的基本步驟:首先尋找與用戶歷史評分行為相似的其他用戶形成近鄰用戶集,然后根據(jù)近鄰用戶的歷史偏好或評分來為目標(biāo)用戶進(jìn)行推薦或評分預(yù)測.在User-based模型中,用戶之間的相似度可以選擇不同的相似度函數(shù)來計算,例如皮爾遜相關(guān)系數(shù):

(4)

確定鄰居集合后,由于不同用戶對項目的評分標(biāo)準(zhǔn)存在差異,User-based模型先對評分進(jìn)行歸一化, 同時由于用戶評分存在波動性,可以引入對評分波動情況的考慮,例如Z-scores歸一化方法,通過引入用戶評分偏差值σ來平衡用戶間的差異:

(5)

2.2.2 基于模型的推薦算法 由于用戶規(guī)模和項目數(shù)量的快速增長,數(shù)據(jù)集的稀疏問題會更嚴(yán)重,例如neflix的電影評分?jǐn)?shù)據(jù)集將近99%的數(shù)據(jù)缺失,那么基于內(nèi)存的協(xié)同算法的計算量將大規(guī)模增長,同時由于數(shù)據(jù)的稀疏問題,其推薦結(jié)果的質(zhì)量無疑會下降.因此,文獻(xiàn)[6]、[7]提出了基于模型的推薦算法(model-based collaborative filtering),主要思想是利用用戶對項目的評分來構(gòu)造一個評分預(yù)測模型,其中使用了多種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的計算模型[7-8],然后通過該模型實現(xiàn)對未知評分的預(yù)測.常用模型有貝葉斯網(wǎng)絡(luò)[9-10]、聚類算法[11-12]、降維的技術(shù)、圖模型和回歸模型等.

(1)基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾. 貝葉斯網(wǎng)絡(luò)是一種基于概率推理的圖形化網(wǎng)絡(luò),也是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一.貝葉斯網(wǎng)絡(luò)包括兩部分:有向無環(huán)圖及條件概率表.其中圖里的節(jié)點代表隨機(jī)變量,節(jié)點間的有向邊代表了節(jié)點間的概率依賴關(guān)系,條件概率表中每一行代表一對節(jié)點之間的條件概率值,該值反映了關(guān)系的強(qiáng)度[6].

基于樸素貝葉斯的協(xié)同過濾算法認(rèn)為用戶或者項目都具有某些吸引人的特征,用戶對該類特征的偏好是短期穩(wěn)定的,因此可以利用貝葉斯理論分析用戶或項目特征值.假設(shè)用戶和項目屬性組成特征集X={x1,x2,…,xn},將推薦項目分為2類:推薦給用戶的項目集合c1和不推薦給用戶的項目集合c2,p(xi|c1)、p(xi|c2)分別表示項目在推薦、不推薦給用戶的項目集合中出現(xiàn)特征值xi的概率,然后選擇概率最大的類別作為項目所屬類別.令X表示特征集合,C表示類別集合,則樸素貝葉斯分類模型:

(6)

(2)基于聚類的協(xié)同過濾.根據(jù)聚類對象的不同可分為基于用戶聚類和基于項目聚類的協(xié)同過濾.該方法首先依據(jù)用戶-項目評分矩陣對用戶或項目進(jìn)行聚類,然后通過計算目標(biāo)用戶或項目與各類別的相似度,為其找到所屬的類別,最后通過所屬類別尋找用戶或項目的最近鄰作推薦.常用的聚類方法可以分為:基于密度的方法、基于劃分的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于模糊聚類的方法以及層次聚類的方法.在聚類分析模型中只將目標(biāo)用戶或項目與預(yù)先聚類好的簇進(jìn)行比較,而不必再與整個數(shù)據(jù)集進(jìn)行比較,所以在系統(tǒng)的實時性和可擴(kuò)展性等問題上要比傳統(tǒng)的協(xié)同過濾方法優(yōu)越[13].

(3)基于降維技術(shù)的協(xié)同過濾.隨著用戶和項目數(shù)量大規(guī)模增加,可用于預(yù)測評分的數(shù)據(jù)維度隨之增加,維數(shù)災(zāi)難[14]所帶來的各種問題將無法避免,例如在高維空間上搜索最近鄰居將非常困難并造成系統(tǒng)性能下降.因此不少學(xué)者引入降維技術(shù)把高維數(shù)據(jù)映射到低維空間中,從而提高系統(tǒng)的伸縮性.常用的降維技術(shù)有奇異值分解(singular value decomposition)、概率潛在語義分析(probabilistic latent semantic analysis)、主成分分析(principle component analysis)、最大邊際矩陣分解(maximum margin matrix factorization)等.

(4)基于圖模型的協(xié)同過濾.基于圖模型的協(xié)同過濾是以圖論作為理論基礎(chǔ),將用戶的歷史行為數(shù)據(jù)用圖的形式表示,用戶、項目和標(biāo)簽等信息可以看作圖結(jié)構(gòu)中不同類型的節(jié)點,分析不同節(jié)點之間的關(guān)系,構(gòu)造關(guān)系網(wǎng)絡(luò)圖.常用的基于圖模型的協(xié)同推薦算法有二分圖和三分圖.前者節(jié)點有2類,分別代表用戶和項目,節(jié)點間的邊代表用戶對項目的評分;后者比前者多了標(biāo)簽節(jié)點[15].如圖3A所示,該二分圖有3個用戶節(jié)點和4個項目節(jié)點,邊的權(quán)值為用戶對項目的評分.三分圖(圖3B)多了6個標(biāo)簽節(jié)點,用戶3-項目2-標(biāo)簽1之間的邊代表用戶3對項目2打了標(biāo)簽1.

圖3 基于圖模型的協(xié)同過濾

根據(jù)計算原理不同,可以分為基于物資擴(kuò)散、熱傳導(dǎo)和資源分配的二分圖/三分圖協(xié)同推薦.在基于物資擴(kuò)散的二分圖協(xié)同推薦中,用戶相似度為

(7)

其中k(u)表示用戶u的度,k(i)表示項目i的度,rui=1表示用戶u對項目i進(jìn)行了評分,否則rui=0.基于物資擴(kuò)散的三分圖協(xié)同推薦增加了用戶到標(biāo)簽的計算:

(8)

2.2.3 基于知識的推薦 很多推薦算法都無法解決冷啟動問題,因此不少專家提出基于知識的推薦(knowledge-based recommendation),希望利用用戶的需求愛好、產(chǎn)品知識和功能知識來為用戶推薦項目,該方法在某種程度可以看成是一種推理(inference)技術(shù).該方法可以分為3類: 基于約束的推薦(constraint based recommendation)[16]、基于實例的推薦(case based recommendation)[17]和基于知識推理的推薦系統(tǒng).由于不需要用戶的歷史行為數(shù)據(jù),所以不存在冷啟動問題,但也存在不少問題,例如如何獲取、如何表示領(lǐng)域知識以及在推薦系統(tǒng)中采用哪種交互模式等.

2.2.4 混合的推薦 組合推薦(hybrid recommendation)是多種推薦算法的組合,希望通過不同推薦算法的組合達(dá)到保留優(yōu)點避免缺點的應(yīng)用效果,在組合方式上,主要有7種組合思路[18]:加權(quán)融合、切換、混合、特征組合、級聯(lián)、特征擴(kuò)充及元層次混合.這7種思路又分成3種基本設(shè)計方式:整體式、流水線式和并行式.雖然理論上存在多種組合方法,但不同的組合思路適用于不同的應(yīng)用場景.按推薦算法組合發(fā)生的階段及融合的程度可以把組合推薦分為前融合、中融合和后融合[19-21]:(1)前融合:對各種推薦算法進(jìn)行直接融合,統(tǒng)一在一個框架模型里,從算法層次看是深度融合;(2)中融合:在以某種推薦算法為主的框架模型上,融合另一種推薦算法的部分特征;(3)后融合:直接將多種推薦算法各自計算得到的結(jié)果進(jìn)行融合.

常用的混合推薦有:(1)將協(xié)同推薦和基于內(nèi)容推薦單獨運(yùn)行的結(jié)果進(jìn)行組合推薦;(2)將基于內(nèi)容推薦的特征融合到某種協(xié)同推薦中;(3)建立具有基于內(nèi)容推薦和協(xié)同推薦特點的預(yù)測模型.

各種推薦算法都存在自身的優(yōu)、缺點,有各自適用的環(huán)境和數(shù)據(jù)源,在推薦的效果方面也存在差異(表1).

表1 常用協(xié)同過濾算法及其優(yōu)缺點Table 1 The advantages and disadvantages of collaborative algorithms

3 評測的方法及指標(biāo)

3.1 評測方法

評價推薦系統(tǒng)的方法一般分為3種:離線實驗(offline experiment)、在線實驗(online experiment)和用戶調(diào)查(user study)[20].離線實驗是將用戶數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集用于用戶興趣模型構(gòu)造,測試集用于對模型性能測試.該方法利用用戶的歷史數(shù)據(jù)進(jìn)行測試,不需要真正用戶的參與,比在線實驗的成本低,適用于對不同推薦算法的比較和過濾,然而由于缺乏實際用戶參與,算法的預(yù)測質(zhì)量難以保證.因此當(dāng)完成離線實驗后,還需要進(jìn)行在線實驗.在線實驗是根據(jù)用戶在線實時反饋或事后問卷調(diào)查等結(jié)果來衡量推薦系統(tǒng)的表現(xiàn)[20].用戶調(diào)查是讓測試用戶來完成被測試的推薦系統(tǒng)的一系列任務(wù)并對測試用戶的行為進(jìn)行記錄.優(yōu)點在于測試到推薦系統(tǒng)對用戶行為的影響,體現(xiàn)用戶主觀的指標(biāo)以及出現(xiàn)錯誤后容易彌補(bǔ),但是該方法由于成本高和需要大量人員參與,從而讓測試的范圍和次數(shù)受到了限制.

3.2 評測指標(biāo)

任何推薦算法都需要通過評測,這樣才能評估它的推薦質(zhì)量.常用的推薦評測指標(biāo)有:用戶滿意度(user preference)、預(yù)測準(zhǔn)確度(accuracy)、覆蓋率(coverage)、多樣性(diversity)和新穎性(novelty)等.

3.2.1 用戶滿意度 作為評測推薦系統(tǒng)的最重要指標(biāo)之一,用戶滿意度描述用戶對推薦結(jié)果的滿意程度.一般可采用調(diào)查問卷或用戶在線行為數(shù)據(jù)分析的形式來獲取用戶滿意度.

3.2.2 預(yù)測的準(zhǔn)確度 預(yù)測準(zhǔn)確度用于衡量推薦算法預(yù)測用戶對項目興趣偏好的能力,主要是采用統(tǒng)計學(xué)的方法來量化推薦系統(tǒng)產(chǎn)生的預(yù)測評分與實際評分之間的誤差.常用的預(yù)測準(zhǔn)確度分為評分預(yù)測準(zhǔn)確度、使用預(yù)測準(zhǔn)確度和排序準(zhǔn)確度.

常用評分預(yù)測有平均絕對誤差(Mean Absolute Error, MAE)、歸一化平均絕對誤差(Normalized Mean Absolute Error, NMAE)、均方根誤差(Root Mean Squared Error, RMSE)、歸一化均方根誤差(Normalized Root Mean Squared Error, NRMSE)[22].

平均絕對誤差(MAE)是最常用的評估方法之一,它是通過統(tǒng)計預(yù)測值和真實評分值之間的絕對誤差值得到的,計算公式為:

(9)

均方根誤差(RMSE)與MAE相比,RMSE加大了對預(yù)測不準(zhǔn)的用戶項目評分的懲罰,因而對系統(tǒng)的評測更加苛刻.其計算公式如下:

(10)

Top-N推薦屬于使用預(yù)測準(zhǔn)確度,由推薦網(wǎng)站采用個性化的推薦列表為用戶提供推薦.這類推薦的重點在于分類準(zhǔn)確率,常用分類衡量指標(biāo)有準(zhǔn)確率(precision)和召回率(recall).

3.2.3 覆蓋率 覆蓋率[22]體現(xiàn)的是推薦系統(tǒng)挖掘長尾的能力,主要通過研究推薦對象在推薦列表中出現(xiàn)次數(shù)的分布來描述,適用于那些需要為用戶找出所有感興趣商品的系統(tǒng).常用覆蓋率有預(yù)測覆蓋率(prediction coverage) 、帶權(quán)預(yù)測覆蓋率(weighted prediction coverage)、用戶覆蓋率(user coverage)、種類覆蓋率(catalog coverage)和帶權(quán)種類覆蓋率(weighted catalog coverage)等[23].

預(yù)測覆蓋率表示系統(tǒng)可以預(yù)測評分的項目占所有項目的比例,該指標(biāo)依賴于推薦算法和輸入值,定義為:

(11)

其中IP表示系統(tǒng)可以預(yù)測評分的項目集,I為所有項目集.

帶權(quán)預(yù)測覆蓋率[23]主要考慮了項目的效用性,該效用性主要從準(zhǔn)確性、新穎性和推薦有效性等方面獲取.用r(i)代表項目i的效用值,定義為:

(12)

用戶覆蓋率(UCOV)表示推薦算法能為多大比例用戶計算推薦結(jié)果的能力,與準(zhǔn)確性指標(biāo)結(jié)合使用,常用于分析新用戶對系統(tǒng)影響.

3.2.4 多樣性、新穎性和驚喜度 一個良好的推薦系統(tǒng)應(yīng)該能為用戶提供多樣化的選擇,即推薦結(jié)果應(yīng)具有多樣性.在推薦系統(tǒng)中,多樣性可以從個體層面和總體層面進(jìn)行評估.個體層面主要考慮的是推薦系統(tǒng)對單用戶推薦項目的多樣性,主要計算推薦項目差異平均值;總體層面則是衡量推薦系統(tǒng)對所有用戶推薦不同項目的能力[24].

新穎性[25]和驚喜度是最近2年推薦系統(tǒng)領(lǐng)域比較關(guān)注的指標(biāo).新穎的推薦是指給用戶推薦那些他們以前沒有聽說過的物品.新穎度是為了度量推薦列表中物品對于用戶的新穎程度.某種程度上,驚喜度同時兼顧了新穎性和準(zhǔn)確度.

4 推薦算法的常用數(shù)據(jù)集

隨著推薦系統(tǒng)的廣泛應(yīng)用,目前大部分推薦算法所用數(shù)據(jù)集都是來源現(xiàn)實的推薦系統(tǒng),每年數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽都采用企業(yè)提供的實際應(yīng)用數(shù)據(jù)集.但有時候為了測試一些特定應(yīng)用領(lǐng)域的算法需要采用人工數(shù)據(jù)集,但該類數(shù)據(jù)應(yīng)用具有局限性.目前在推薦算法研究中,已經(jīng)有很多被研究人員公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集并且成為推薦算法性能測試的基礎(chǔ)和依據(jù).常用公認(rèn)的標(biāo)準(zhǔn)測試數(shù)據(jù)集有:

(1)騰訊微博數(shù)據(jù)集.騰訊微博數(shù)據(jù)集是由2012年的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)競賽(Kdd-cup)所提供的.該數(shù)據(jù)集是從騰訊 4.25億微博用戶中的50天數(shù)據(jù)采樣得到,包含有200多萬活躍用戶、6千被推薦用戶或信息源、3億多條推薦記錄及其300多萬個收聽動作,7 000多萬條訓(xùn)練記錄,3 000多萬條測試記錄.該數(shù)據(jù)集的規(guī)模超過已往的 KDD Cup比賽.

(2)Netflix數(shù)據(jù)集[26]. 該數(shù)據(jù)集來自著名的電影網(wǎng)站Netflix.包含480 189位用戶對17 770部電影的100 480 507條評分記錄,與MovieLen評分不同,其數(shù)據(jù)為區(qū)間[1,5]的離散整數(shù)值,這是目前規(guī)模最大的電影評分?jǐn)?shù)據(jù)集.由于Netflix比賽己經(jīng)結(jié)束,該數(shù)據(jù)集已不對外公開.

(3)CiteULike數(shù)據(jù)集[27].CiteULike是由著名的施普林格出版社(Springer)提供的一個免費協(xié)助用戶存儲、管理和分享學(xué)術(shù)文章的網(wǎng)站,用戶可以收藏自己喜歡的論文并給它們打上標(biāo)簽.CiteULike公布了一個包含了用戶收藏論文及給論文打標(biāo)簽的數(shù)據(jù)集.這個數(shù)據(jù)集包含52 689個用戶,1 793 954篇論文以及2 119 200個用戶和論文之間的關(guān)系.

表2 推薦系統(tǒng)評價標(biāo)準(zhǔn)分類Table 2 Evaluation criteria of recommendation systems

(4)Yahoo!音樂數(shù)據(jù)集[28].Yahoo!音樂數(shù)據(jù)集包含了用戶對單曲、專輯、歌手以及流派等不同的音樂元素的評分.評分區(qū)間是0~100之間的整數(shù),總共涉及1 000 990個用戶、624 961個音樂元素以及262 810 175條評分記錄.

5 總結(jié)與展望

推薦系統(tǒng)可應(yīng)用于不同領(lǐng)域,在海量個性化需求的驅(qū)動下,隨著云計算、個性化服務(wù)、人工智能、決策科學(xué)和信息檢索等領(lǐng)域發(fā)展的推動,其發(fā)展應(yīng)用迅速并取得很好的研究成果.但也存在下面幾個問題,而這些問題也是未來研究的熱點[20,29-32].

(1)上下文感知推薦系統(tǒng).上下文包含多種多樣的信息,例如時間、位置和情感等.因此上下文感知推薦系統(tǒng)的主要任務(wù)就是如何將上下文信息應(yīng)用到推薦算法當(dāng)中,從而提高推薦的精確度和用戶滿意度.

(2)推薦的實時性研究.由于數(shù)據(jù)量的龐大,推薦系統(tǒng)的推薦精度和實時性一直都是一對矛盾.目前大部分系統(tǒng)采用離線計算,某種程度上是以推薦質(zhì)量為代價的,因此如何有效提高推薦系統(tǒng)的推薦質(zhì)量并兼顧系統(tǒng)的實時性,需要做進(jìn)一步深入的研究.

(3)稀疏性和冷啟動研究.這2個問題一直是推薦系統(tǒng)的研究難點,它們可以導(dǎo)致協(xié)同過濾模式的運(yùn)行效率和推薦精確度較低.盡管很多學(xué)者對該問題進(jìn)行研究并提出解決辦法,但效果并不十分顯著,還需要對其進(jìn)行研究.

參考文獻(xiàn):

[1] Pazzani M J, Billsus D. Content-based recommendation systems[M]∥Brusilovsky P,Kobsa A,Nejdl W.The Adaptive Web. Berlin,Heidelberg: Springer-Verlag,2007,4321:325-341.

[2] Melville P, Mooney R J, Nagarajan R. Content-boosted collaborative filtering for improved recommendations[C]∥Proceeding of the 18th national conference on artificial intelligence.Edmonton: AAAI Press, 2002: 187-192.

[3] Adomavicius G,Tuzhilin A.Toward the next generation recommender systems:A survey of the state-of-the-art and possible extensions[J].IEEE Trans on Knowledge and Data Engineering,2005,17(6):734-749.

[4] Belkin N,Croft B.Information filtering and information retrieval[J].Communications of the ACM,1992,35(12):29-37.

[5] Shardanand U, Maes P. Social information filtering: Algorithms for automating ‘Word of Mouth’[C]∥Proceedings of the ACM SIGCHI conference on human factors in computing systems.Denver:ACM Press, 1995:210-217.

[6] Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering[C]∥Proceedings of the 14th conference on uncertainty in artificial intelligence (UAI’98). San Francisco: Morgan Kaufmann Publishers, 1998:43-52.

[7] Sarwar B,Konstan J,Riedl J. Incremental singular value decomposition algorithms for highly scalable recommender systems[C]∥Proceedings of the 5th international conference on computer and information science. Dhaka,Bangladesh, 2002.

[8] Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model[C]∥Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. Las Vegas, USA, 2008.

[9] Su X, Khoshgoftaar T M.Collaborative filtering for multi-class data using belief nets algorithms[C]∥Proceedings of the 18th IEEE international conference on tools with artificial intelligence. Arlington, USA, 2006.

[10] Miyahara K, Pazzani M J. Collaborative filtering with the simple Bayesian classifier[C]∥Proceedings of the 6th pacific rim international conference on artificial intelligence. Melbourne, Australia, 2000.

[11] Connor M, Herlocker J. Clustering items for collaborative filtering[C]∥Proceedings of the ACM SIGIR workshop on recommender systems. Berkeley, California, 1999.

[12] Sarwar B,Karypis G,Konstan J, et al. Recommender systems for large-scale e-commerce: Scalable neighborhood formation using clustering[C]∥Proceedings of the 5th international conference on computer and information technology. Dhaka,Bangladesh, 2002.

[13] Kohrs A, Merialdo B. Cluster for collaborative filtering application[C]∥Proceedings of the international conference on computational intelligence for modelling control and automation. Amsterdam: IOS Press, 1999: 199-204.

[14] 楊風(fēng)召. 高維數(shù)據(jù)挖掘技術(shù)研究[M].南京:東南大學(xué)出版社, 2007.

[15] Zhang Z K, Zhou T, Zhang Y C. Personalized recommendation via integrated diffusion on User-Item-Tag tripartite graphs[J]. Physica A, 2010, 389: 179-186.

[16] Felfernig A,Kiener A.Knowledge-based interactive selling of financial services with FSAdvisor[C]∥Proceedings of the 17th innovative applications of artificial intelligence conference (AAAI).Pittsburgh: AAAI Press, 2005: 1475-1482.

[17] Bridge D, G?ker M H, McGinty L, et al. Case-based recommender systems[J]. Knowledge Engineering Review, 2005, 20(3):315-320.

[18] Robin B. Hybrid recommender systems: Survey and experiments[R]. Fullerton: California State University,2003.

[19] Claypool M, Gokhale A, Miranda T, et al. Combining content-based and collaborative filters in an online newspaper[C]∥Proceedings of the ACM SIGIR ′99 workshop on recommender systems: Algorithms and evaluation. Berkeley: ACM,1999.

[20] 項亮.推薦系統(tǒng)實踐[M].3版.北京:人民郵電出版社, 2012:41-43.

[21] 徐海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報, 2009,20(2): 350-362.

[22] Zhou T, Su R Q, Liu R R, et al. Accurate and diverse recommendations via eliminating redundant correlations[J]. New Journal of Physics, 2009, 11:123008-123026.

[23] Ge M, Delgado-Battenfeld C, Jannach D. Beyond accuracy: Evaluating recommender systems by coverage and serendipity[C]∥Proceedings of the fourth ACM conference on recommender systems. New York: ACM, 2010: 257-260.

[24] Celma O, Herrera Venue P. A new approach to evaluating novel recommendations[C]∥Proceedings of the 2008 ACM conference on recommender systems. New York: ACM, 2008: 179-186.

[25] Adomavicius G, Kwon Y.Maximizing aggregate recommendation diversity: A graph-theoretic approach[C]∥Proceeding of RecSys workshop on novelty and diversity in recommender systems. Chicago, USA, 2011:3-10.

[26] Bennett J, Lanning S. The netflix prize[C]∥Proceedings of KDD cup and workshop. San Jose: ACM, 2007.

[27] Zlatif V, Ghoshal G, Caldarelli G. Hypergraph topological quantities for tagged social networks[J]. Physical Review E, 2009, 80:8pp.

[28] Dror G, Koenigstein N, Koren Y, et al. The Yahoo! music dataset and KDD-cup’2011[DB/OL].(2011-06-30)[2014-02-10].http:∥webscope.sandbox.yahoo.com/catalog.php?datatype=c.

[29] 馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計算機(jī)系統(tǒng),2009,30(7):1282-1288.

Ma H W,Zhang G W,Li P. Survey of collaborative filtering algorithms[J]. Journal of Chinese Computer Systems,2009,30(7):1282-1288.

[30] 曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報, 2002,13(10):1952-1961.

Zeng C, Xing C X, Zhou L Z. A survey of personalization technology[J]. Journal of Software, 2002,13(10):1952-1961.

[31] 夏培勇.個性化推薦技術(shù)中的協(xié)同過濾算法研究[D].青島:中國海洋大學(xué),2011.

Xia P Y. Research on collaborative filtering algorithm of personalized recommendation technology[D].Qingdao: Ocean University of China,2011.

[32] 任磊.推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:華東師范大學(xué),2012.

Ren L. Research on some key issues of recommender systems[D].Shanghai:East China Normal University,2012.

猜你喜歡
協(xié)同預(yù)測算法
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
家校社協(xié)同育人 共贏美好未來
蜀道難:車與路的協(xié)同進(jìn)化
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
“四化”協(xié)同才有出路
進(jìn)位加法的兩種算法
不必預(yù)測未來,只需把握現(xiàn)在