【摘? 要】協(xié)同過濾是一種典型的推薦算法,在數(shù)據(jù)信息種類、表達(dá)方式越來越多的時(shí)代,很多技術(shù)都是圍繞協(xié)同過濾而展開研究的。本文概括介紹了基于用戶協(xié)同過濾推薦算法的理論思路,并對協(xié)同過濾推薦算法的發(fā)展趨勢做了簡單的闡述。
【關(guān)鍵詞】協(xié)同過濾 ;特征挖掘 ;推薦系統(tǒng) ;基于用戶
引言
在如今這個(gè)大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)應(yīng)用所產(chǎn)生了海量的數(shù)據(jù),那么在這么龐大的數(shù)據(jù)中,必定蘊(yùn)含了豐富的意義,也必定有其應(yīng)用價(jià)值。但是種類之繁雜的海量數(shù)據(jù)對于用戶來說不全是有用的,用戶提取有用數(shù)據(jù)會(huì)耗費(fèi)大量的時(shí)間成本,因此協(xié)同過濾推薦算法根據(jù)用戶的需求誕生了。
1.協(xié)同過濾推薦概述
1.1協(xié)同過濾概述
協(xié)同過濾分為在線協(xié)同和離線過濾。協(xié)同,對于用戶群體來說,就是從在線數(shù)據(jù)集中篩選出同類用戶可能共同偏好的集合。這個(gè)集合可以是與你歷史物品相似的物品,也可能是用戶喜好的某些抽象的概念。過濾,就是從龐大的數(shù)據(jù)集中濾掉一些與用戶偏好無關(guān)的冗余數(shù)據(jù),該類數(shù)據(jù)不值得推薦給用戶。
系統(tǒng)過濾模型可以理解為假設(shè)有N個(gè)物品和M個(gè)用戶數(shù)據(jù),但是現(xiàn)存的數(shù)據(jù)集中只存在部分物品與用戶之間的評(píng)分關(guān)系,而其余的用戶物品評(píng)分均為空缺,那么就需要基于已知的數(shù)據(jù)集來預(yù)測出其余的用戶物品評(píng)分,并從中篩選出較高評(píng)分推薦給用戶。
1.2協(xié)同過濾推薦分類
現(xiàn)階段協(xié)同過濾推薦基本可以分為三種類型:基于用戶的協(xié)同過濾,基于項(xiàng)目的協(xié)同過濾以及基于模型的協(xié)同過濾。
這里重點(diǎn)說明一下基于用戶的協(xié)同過濾,這種協(xié)同過濾主要針對于用戶與用戶之間的數(shù)據(jù)交互,通過對比分析有相同偏好用戶的數(shù)據(jù)來為其所喜歡的物品進(jìn)行評(píng)分,并基于該評(píng)分體系的建立來預(yù)測同類產(chǎn)品的其他評(píng)分,將評(píng)分高的若干物品推薦給其他用戶。
2.協(xié)同過濾算法實(shí)現(xiàn)
2.1算法理論基礎(chǔ)
(1)Jaccard相似系數(shù)
Jaccard相似系數(shù)用于比較有限樣本集之間的相似性與差異性,Jaccard系數(shù)值越大,樣本相似度越高。給定兩個(gè)集合A、B,Jaccard系數(shù)定義為A與B交集的大小與A與B并集的大小的比值,定義如下:
其中當(dāng)集合A、B都為空時(shí),J(A,B)定義為1。
(2)Jaccard距離
Jaccard距離是用來衡量Jaccard相似系數(shù)的指標(biāo),用于描述集合之間的不相似度。即Jaccard距離越大,樣本相似度越低,具體定義如下:
其中對參差 。
2.2算法實(shí)現(xiàn)思路
基于上述的理論解釋,我們可以將算法拆分為以下三個(gè)步驟:
基于Jaccard相似系數(shù)計(jì)算其他用戶與目標(biāo)用戶的相似度;
通過Jaccard距離來找出與目標(biāo)用戶最相似的N個(gè)其他用戶;
根據(jù)前兩個(gè)步驟所獲取的信息,推薦目標(biāo)用戶相對喜歡,而且未采取過的行為。
利用Jaccard相似系數(shù)對目標(biāo)用戶分別于其他試驗(yàn)用戶進(jìn)行相似度的求算,對所計(jì)算出的數(shù)據(jù)進(jìn)行處理,以用戶、行為為維度建立用戶相似度矩陣。
根據(jù)目標(biāo)用戶與K個(gè)目標(biāo)用戶的相似度集合以及未采取過行為的用戶集合,建立用戶行為權(quán)重模型:
表示用戶對行為的權(quán)重,表示和用戶相似的K個(gè)用戶,表示采取過行為的用戶集合,表示用戶和用戶的相似度,表示用戶對行為的權(quán)重。
通過計(jì)算出不同用戶之間對行為的不同權(quán)重之后,即可根據(jù)其權(quán)重來計(jì)算出該行為對于該類用戶群體的喜歡程度,并根據(jù)每一種行為的推薦度高低來為目標(biāo)用戶或者其他用戶進(jìn)行推薦。
3.協(xié)同過濾算法應(yīng)用以及發(fā)展趨勢
推薦算法具有非常多的應(yīng)用場景和商業(yè)價(jià)值,在如今這個(gè)大數(shù)據(jù)時(shí)代,很多的應(yīng)用在首頁以及需要推送咨詢等頁面中都會(huì)用到,根據(jù)用戶的操作行為歷史包括瀏覽、點(diǎn)擊、播放、收藏、評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)分等,為用戶個(gè)性化的提供他可能喜歡的物品。
協(xié)同過濾算法作為最經(jīng)典的算法,利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來推薦用戶感興趣的信息,個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)(如評(píng)分)并記錄下來以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。很多的應(yīng)用技術(shù)都是圍繞協(xié)同算法而展開研究的。在信息種類、表達(dá)方式越來越多的時(shí)代,舊式的信息分類過濾系統(tǒng)無法滿足的地方,期許未來能用協(xié)同過濾的方法來解決。
參考文獻(xiàn)
[1] 惠康華,計(jì)瑜,王進(jìn),賀懷清.基于深度神經(jīng)向量機(jī)自回歸的協(xié)同過濾算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(05):1308-1313.
[2] 趙小文. 基于協(xié)同過濾的推薦算法研究[D].西安電子科技大學(xué),2019.
[3] 于洪,李轉(zhuǎn)運(yùn).基于遺忘曲線的協(xié)同過濾推薦算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,46(5):520-527.
[4] 焦富森,李樹青.基于物品質(zhì)量和用戶評(píng)分修正的協(xié)同過濾推薦算法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(8):62-67.
[5] 基于用戶隱式行為特征的最大熵推薦算法[J].胡敏,陳元會(huì),黃宏程.計(jì)算機(jī)工程與設(shè)計(jì).2019(02)
[6] 協(xié)同過濾中一種有效的最近鄰選擇方法[J].冷亞軍,梁昌勇,丁勇,陸青.模式識(shí)別與人工智能.2013(10)
[7] 面向個(gè)性化推薦的強(qiáng)關(guān)聯(lián)規(guī)則挖掘[J].李杰,徐勇,王云峰,朱昭賢.系統(tǒng)工程理論與實(shí)踐.2009(08)
[8] 基于協(xié)同過濾的推薦算法研究[J].王興國.無線互聯(lián)科技.2016(03)
作者簡介:趙奕涵(1999.7-),男,漢族,黑龍江哈爾濱人,天津工業(yè)大學(xué)本科在讀,研究方向?yàn)檐浖こ獭?/p>