協(xié)同過濾算法在新聞推薦系統(tǒng)中的比較研究

2018-08-22 08:07:48魏茂

東方教育 2018年14期

魏茂

摘要：本文首先對基于用戶、項目和模型的協(xié)同過濾算法在新聞推薦系統(tǒng)中的應(yīng)用進行對比；接下來，著重對基于關(guān)聯(lián)規(guī)則、聚類、分類、回歸、矩陣分解模型的協(xié)同過濾算法在新聞推薦系統(tǒng)中的應(yīng)用進行對比；最后，闡述了協(xié)同過濾算法在新聞推薦系統(tǒng)中的運用所面臨的挑戰(zhàn)及今后需努力的方向。

關(guān)鍵詞：新聞推薦協(xié)同過濾算法算法比較

一、引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展，上網(wǎng)瀏覽新聞已成為網(wǎng)民們的習(xí)慣，然而海量的新聞并不一定都是網(wǎng)民們所關(guān)注的，廣泛的閱讀會嚴重影響閱讀效率，因此新聞推薦應(yīng)運而生[1]。新聞推薦是指通過用戶信息和新聞內(nèi)容，根據(jù)一定的推薦算法，智能地找到與用戶興趣偏好相匹配的新聞，盡可能多地主動推薦給用戶，以提高用戶閱讀新聞的效率和質(zhì)量。

推薦算法是新聞推薦最核心和關(guān)鍵的部分，其性能的優(yōu)劣直接影響推薦的質(zhì)量，目前常用的推薦方法包括：基于內(nèi)容的推薦，基于協(xié)同過濾的推薦等，其中協(xié)同過濾推薦（Collaborative Filtering Recommendation）是目前應(yīng)用最為成功的個性化推薦技術(shù)，包括在線和離線過濾兩部分，具體又涵蓋多個分支，其應(yīng)用促進了新聞推薦系統(tǒng)的發(fā)展。

二、新聞推薦系統(tǒng)的過程體系

新聞推薦系統(tǒng)的核心過程為：數(shù)據(jù)的收集和預(yù)處理，選用適合的推薦算法，推薦效果評價，如圖1所示。

1.數(shù)據(jù)的收集和預(yù)處理包括：1）形成用戶檔案和候選新聞集，包括：用戶的個人相關(guān)信息、用戶瀏覽新聞的數(shù)據(jù)、傳感器感知的上下文數(shù)據(jù)，如：時間、地理位置、情緒等等；2）對收集的數(shù)據(jù)進行數(shù)據(jù)清理、轉(zhuǎn)換，最終形成用戶對各新聞的二維評價矩陣。

如表1所示：其中Rij表示第i個用戶對第j條新聞的評分（0≦Rij≦10），一般說來，分數(shù)越高，表示用戶對該新聞的喜好程度越高。

2.選用推薦算法。一般先對預(yù)處理后的數(shù)據(jù)再進行最近鄰居搜索，計算目標用戶與用戶檔案集里面的其他用戶的相似度，相似度最高的作為最近鄰居集。其次，通過一定的推薦算法和最近鄰居集的評價值，產(chǎn)生推薦。目前己有的協(xié)同過濾算法有兩個主要的研究方向：基于用戶或項目（新聞）的協(xié)同過濾算法和基于模型的協(xié)同過濾算法。

3.對推薦效果的評價?；谟脩舴答?，利用點擊率、精確度、響應(yīng)時間等評估指標評價新聞推薦的性能[2]。

三、協(xié)同過濾算法比較

1.基于用戶或項目（新聞）的協(xié)同過濾算法

基于用戶的協(xié)同過濾算法主要考慮用戶之間的相似度，利用用戶間需求的相似性，智能的為用戶篩選有用信息。只要找出相似用戶偏好的新聞，并預(yù)測目標用戶對此新聞的評分，就可將評分較高的新聞推薦給用戶。而基于項目（新聞）的協(xié)同過濾算法則是找到新聞之間的相似度，只有找到目標用戶對這些新聞的評分，就可以將相似度高的新聞推薦給用戶。

兩種算法的主要區(qū)別在于前者需要在線計算用戶的相似度，計算復(fù)雜度較高。而后者，在考慮新聞的相似性在一定時間內(nèi)不變的前提下，可離線計算，精確度要求不高，推薦的多樣性較差。

2.基于模型的協(xié)同過濾算法

基于模型的協(xié)同過濾算法是目前用的較多的算法，它的優(yōu)勢在于可以利用現(xiàn)有數(shù)據(jù)，構(gòu)建出新的預(yù)測和偏好數(shù)據(jù)，通過機器學(xué)習(xí)的分類方法，或采用技術(shù)降維手段抽取特征數(shù)據(jù)，映射到低維空間，使原始數(shù)據(jù)變得更為稠密。另外還可以利用原數(shù)據(jù)中的潛在結(jié)構(gòu)進行數(shù)據(jù)壓縮，以達到減少維度。能很好的解決數(shù)據(jù)稀疏性等問題。具體可分為：基于關(guān)聯(lián)規(guī)則、聚類、分類、回歸、矩陣分解等模型的算法。

2.1 基于關(guān)聯(lián)規(guī)則的協(xié)同過濾

找出用戶查看的所有新聞數(shù)據(jù)中頻繁出現(xiàn)的項集活序列，來做頻繁集挖掘，找到滿足支持度閾值的關(guān)聯(lián)新聞的頻繁N項集或者序列。如果用戶查看了頻繁N項集或者序列里的部分新聞，則可將頻繁項集或序列里的其他新聞按一定的評分準則推薦給用戶，這個評分準則可以包括支持度，置信度和提升度等。常用的關(guān)聯(lián)規(guī)則算法有Apriori，F(xiàn)P Tree等。

2.2 基于聚類的協(xié)同過濾

用聚類算法做協(xié)同過濾與基于用戶或項目（新聞）的協(xié)同過濾類似。可以基于一定的距離來聚類。如果基于用戶聚類，則可以將用戶分成不同的目標人群，將在同樣目標人群中評分較高的新聞推薦給目標用戶。基于新聞的聚類，則是將與目標用戶評分高的新聞相似的新聞推薦給他。常用的聚類推薦算法有K-Means， BIRCH等。

2.3 基于分類的協(xié)同過濾

對用戶的評分設(shè)置閾值，評分高于閾值的新聞進入推薦范疇，低于閾值不予推薦。常見的分類推薦算法有邏輯回歸和貝葉斯，基于分類的協(xié)同過濾不但解釋性強，而且可以對數(shù)據(jù)的特征再進行訓(xùn)練，不斷達到優(yōu)化。

2.4 基于回歸算法的協(xié)同過濾

用回歸算法做協(xié)同過濾比分類算法看起來更為直觀。通過回歸模型可以得到目標用戶對某新聞的預(yù)測打分，而此評分可以是一個連續(xù)值。常用的回歸推薦算法有回歸樹、支持向量回歸等。發(fā)

2.5 基于矩陣分解的協(xié)同過濾

代表算法是奇異值分解（SVD），它利用特征提取，對隱含語義的檢索有較好的效果。但缺點在于經(jīng)過預(yù)處理的二維評價表是典型的稀疏矩陣，SVD必須經(jīng)過算法的改進變種才能處理，比如FunkSVD、SVD++等[3]，此外分解機（Factorization Machine）和張量分解（Tensor Factorization）也將成為矩陣分解的新趨勢。

四、結(jié)束語

協(xié)同過濾作為一種經(jīng)典的推薦算法，應(yīng)用廣泛，通用性強。近幾年來，協(xié)同過濾算法在新聞推薦系統(tǒng)中的運用已取得了一定的成績，在一定程度上解決了數(shù)據(jù)的可擴展性、稀疏性、冷啟動和強健性等問題，但隨著網(wǎng)絡(luò)應(yīng)用規(guī)模的不斷擴大，用戶對系統(tǒng)使用要求的不斷提高，推薦系統(tǒng)的在安全性、實時性、計算效率、推薦的精確性等方面還需進一步發(fā)展。

參考文獻：

[1]張同啟. 基于關(guān)聯(lián)規(guī)則和用戶喜好程度的綜合電子商務(wù)推薦系統(tǒng)的研究[D]. 北京郵電大學(xué)， 2015：32-33.

[2]彭菲菲，錢旭.基于用戶關(guān)注度的個性化新聞推薦系統(tǒng)[J].計算機應(yīng)用研究，2012，29（3）：1005-1006.

[3]孫小華，陳洪，孔繁勝.在協(xié)同過濾中結(jié)合奇異值分解與最近鄰方法.計算機應(yīng)用研究，2006，23（9）：206-208.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

協(xié)同過濾算法在新聞推薦系統(tǒng)中的比較研究