魏茂
摘要:本文首先對基于用戶、項目和模型的協(xié)同過濾算法在新聞推薦系統(tǒng)中的應(yīng)用進行對比;接下來,著重對基于關(guān)聯(lián)規(guī)則、聚類、分類、回歸、矩陣分解模型的協(xié)同過濾算法在新聞推薦系統(tǒng)中的應(yīng)用進行對比;最后,闡述了協(xié)同過濾算法在新聞推薦系統(tǒng)中的運用所面臨的挑戰(zhàn)及今后需努力的方向。
關(guān)鍵詞:新聞推薦協(xié)同過濾算法算法比較
一、引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,上網(wǎng)瀏覽新聞已成為網(wǎng)民們的習(xí)慣,然而海量的新聞并不一定都是網(wǎng)民們所關(guān)注的,廣泛的閱讀會嚴重影響閱讀效率,因此新聞推薦應(yīng)運而生[1]。新聞推薦是指通過用戶信息和新聞內(nèi)容,根據(jù)一定的推薦算法,智能地找到與用戶興趣偏好相匹配的新聞,盡可能多地主動推薦給用戶,以提高用戶閱讀新聞的效率和質(zhì)量。
推薦算法是新聞推薦最核心和關(guān)鍵的部分,其性能的優(yōu)劣直接影響推薦的質(zhì)量,目前常用的推薦方法包括:基于內(nèi)容的推薦,基于協(xié)同過濾的推薦等,其中協(xié)同過濾推薦(Collaborative Filtering Recommendation)是目前應(yīng)用最為成功的個性化推薦技術(shù),包括在線和離線過濾兩部分,具體又涵蓋多個分支,其應(yīng)用促進了新聞推薦系統(tǒng)的發(fā)展。
二、新聞推薦系統(tǒng)的過程體系
新聞推薦系統(tǒng)的核心過程為:數(shù)據(jù)的收集和預(yù)處理,選用適合的推薦算法,推薦效果評價,如圖1所示。
1.數(shù)據(jù)的收集和預(yù)處理包括:1)形成用戶檔案和候選新聞集,包括:用戶的個人相關(guān)信息、用戶瀏覽新聞的數(shù)據(jù)、傳感器感知的上下文數(shù)據(jù),如:時間、地理位置、情緒等等;2)對收集的數(shù)據(jù)進行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成用戶對各新聞的二維評價矩陣。
如表1所示:其中Rij表示第i個用戶對第j條新聞的評分(0≦Rij≦10),一般說來,分數(shù)越高,表示用戶對該新聞的喜好程度越高。
2.選用推薦算法。一般先對預(yù)處理后的數(shù)據(jù)再進行最近鄰居搜索,計算目標用戶與用戶檔案集里面的其他用戶的相似度,相似度最高的作為最近鄰居集。其次,通過一定的推薦算法和最近鄰居集的評價值,產(chǎn)生推薦。目前己有的協(xié)同過濾算法有兩個主要的研究方向:基于用戶或項目(新聞)的協(xié)同過濾算法和基于模型的協(xié)同過濾算法。
3.對推薦效果的評價?;谟脩舴答?,利用點擊率、精確度、響應(yīng)時間等評估指標評價新聞推薦的性能[2]。
三、協(xié)同過濾算法比較
1.基于用戶或項目(新聞)的協(xié)同過濾算法
基于用戶的協(xié)同過濾算法主要考慮用戶之間的相似度,利用用戶間需求的相似性,智能的為用戶篩選有用信息。只要找出相似用戶偏好的新聞,并預(yù)測目標用戶對此新聞的評分,就可將評分較高的新聞推薦給用戶。而基于項目(新聞)的協(xié)同過濾算法則是找到新聞之間的相似度,只有找到目標用戶對這些新聞的評分,就可以將相似度高的新聞推薦給用戶。
兩種算法的主要區(qū)別在于前者需要在線計算用戶的相似度,計算復(fù)雜度較高。而后者,在考慮新聞的相似性在一定時間內(nèi)不變的前提下,可離線計算,精確度要求不高,推薦的多樣性較差。
2.基于模型的協(xié)同過濾算法
基于模型的協(xié)同過濾算法是目前用的較多的算法,它的優(yōu)勢在于可以利用現(xiàn)有數(shù)據(jù),構(gòu)建出新的預(yù)測和偏好數(shù)據(jù),通過機器學(xué)習(xí)的分類方法,或采用技術(shù)降維手段抽取特征數(shù)據(jù),映射到低維空間,使原始數(shù)據(jù)變得更為稠密。另外還可以利用原數(shù)據(jù)中的潛在結(jié)構(gòu)進行數(shù)據(jù)壓縮,以達到減少維度。能很好的解決數(shù)據(jù)稀疏性等問題。具體可分為:基于關(guān)聯(lián)規(guī)則、聚類、分類、回歸、矩陣分解等模型的算法。
2.1 基于關(guān)聯(lián)規(guī)則的協(xié)同過濾
找出用戶查看的所有新聞數(shù)據(jù)中頻繁出現(xiàn)的項集活序列,來做頻繁集挖掘,找到滿足支持度閾值的關(guān)聯(lián)新聞的頻繁N項集或者序列。如果用戶查看了頻繁N項集或者序列里的部分新聞,則可將頻繁項集或序列里的其他新聞按一定的評分準則推薦給用戶,這個評分準則可以包括支持度,置信度和提升度等。常用的關(guān)聯(lián)規(guī)則算法有Apriori,F(xiàn)P Tree等。
2.2 基于聚類的協(xié)同過濾
用聚類算法做協(xié)同過濾與基于用戶或項目(新聞)的協(xié)同過濾類似。可以基于一定的距離來聚類。如果基于用戶聚類,則可以將用戶分成不同的目標人群,將在同樣目標人群中評分較高的新聞推薦給目標用戶。基于新聞的聚類,則是將與目標用戶評分高的新聞相似的新聞推薦給他。常用的聚類推薦算法有K-Means, BIRCH等。
2.3 基于分類的協(xié)同過濾
對用戶的評分設(shè)置閾值,評分高于閾值的新聞進入推薦范疇,低于閾值不予推薦。常見的分類推薦算法有邏輯回歸和貝葉斯,基于分類的協(xié)同過濾不但解釋性強,而且可以對數(shù)據(jù)的特征再進行訓(xùn)練,不斷達到優(yōu)化。
2.4 基于回歸算法的協(xié)同過濾
用回歸算法做協(xié)同過濾比分類算法看起來更為直觀。通過回歸模型可以得到目標用戶對某新聞的預(yù)測打分,而此評分可以是一個連續(xù)值。常用的回歸推薦算法有回歸樹、支持向量回歸等。發(fā)
2.5 基于矩陣分解的協(xié)同過濾
代表算法是奇異值分解(SVD),它利用特征提取,對隱含語義的檢索有較好的效果。但缺點在于經(jīng)過預(yù)處理的二維評價表是典型的稀疏矩陣,SVD必須經(jīng)過算法的改進變種才能處理,比如FunkSVD、SVD++等[3],此外分解機(Factorization Machine)和張量分解(Tensor Factorization)也將成為矩陣分解的新趨勢。
四、結(jié)束語
協(xié)同過濾作為一種經(jīng)典的推薦算法,應(yīng)用廣泛,通用性強。近幾年來,協(xié)同過濾算法在新聞推薦系統(tǒng)中的運用已取得了一定的成績,在一定程度上解決了數(shù)據(jù)的可擴展性、稀疏性、冷啟動和強健性等問題,但隨著網(wǎng)絡(luò)應(yīng)用規(guī)模的不斷擴大,用戶對系統(tǒng)使用要求的不斷提高,推薦系統(tǒng)的在安全性、實時性、計算效率、推薦的精確性等方面還需進一步發(fā)展。
參考文獻:
[1]張同啟. 基于關(guān)聯(lián)規(guī)則和用戶喜好程度的綜合電子商務(wù)推薦系統(tǒng)的研究[D]. 北京郵電大學(xué), 2015:32-33.
[2]彭菲菲,錢旭.基于用戶關(guān)注度的個性化新聞推薦系統(tǒng)[J].計算機應(yīng)用研究,2012,29(3):1005-1006.
[3]孫小華,陳洪,孔繁勝.在協(xié)同過濾中結(jié)合奇異值分解與最近鄰方法.計算機應(yīng)用研究,2006,23(9):206-208.