陳盛慶 龔 俊
寧波大紅鷹學(xué)院,浙江 寧波 315175
?
淺談協(xié)同過濾算法
陳盛慶龔俊
寧波大紅鷹學(xué)院,浙江寧波315175
隨著近年來中國互聯(lián)網(wǎng)的飛速發(fā)展,社會(huì)信息很快的趨向于數(shù)字化、網(wǎng)絡(luò)化,通過各種互聯(lián)網(wǎng)絡(luò)獲取信息的人迅速增加。在如今高度信息化的社會(huì),人們獲取信息的重要途徑是互聯(lián)網(wǎng)。在這樣的大環(huán)境下推薦算法應(yīng)運(yùn)而生,為了針對能更快的查找到所需的信息,提出了一種基于內(nèi)容相似度的知識(shí)協(xié)同過濾推送算法。本文介紹了協(xié)同過濾算法的知識(shí)框架和這個(gè)算法存在的問題和解決方案對推薦算法的發(fā)展有一定的意義。
協(xié)同過濾;知識(shí)推送;內(nèi)容相似度;個(gè)性化推薦
隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)信息的日益增長與大量用戶的需求形成了巨大矛盾。面對紛雜的信息資源我們感到無所適從,人們需要花費(fèi)大量的時(shí)間去搜索信息才能從互聯(lián)網(wǎng)中搜索到自己說需要的信息。所以有越來越多的人在查詢信息都會(huì)去使用一些有推薦算法的大型的搜索引擎,并且這些搜索引擎成為了人們生活與工作中的必備工具。
搜索引擎的搜索原理是:當(dāng)用戶搜索信息時(shí),搜索引擎就在數(shù)據(jù)庫中進(jìn)行無差別的搜索,找到相應(yīng)的信息按一定順序反饋給讀者。眾所周知,搜索引擎只是一種“一對多”的工具,它往往只能區(qū)分不同的搜索語句,忽略了重要的用戶信息和他們的所需信息。為了能按照用戶的興趣點(diǎn)和需求,為了給用戶提供快捷而準(zhǔn)確的推薦服務(wù),完善當(dāng)前的內(nèi)容推送算法是勢在必行。
協(xié)同過濾算法是當(dāng)今眾多的推薦系統(tǒng)運(yùn)用最為成熟的和最普遍的一個(gè)推薦算法。它的顧名思義就是通過用戶對網(wǎng)站的訪問與網(wǎng)站間的互動(dòng)例如:評(píng)價(jià)和留言等記錄通過計(jì)算推薦并反饋給用戶,使用戶更快,更有效率的找到自己所需的信息。
基于項(xiàng)目的協(xié)同過濾和基于用戶的協(xié)同過濾是如今協(xié)同過濾算法中運(yùn)用最多的。該算法是依據(jù)不同的用戶對每個(gè)物品的評(píng)分向量之間的相似度的計(jì)算,然后搜索當(dāng)前用戶的附近用戶,最后根據(jù)最近的用戶對項(xiàng)目的評(píng)分如果相似度相對較高則推薦給當(dāng)前用戶。
基于用戶的協(xié)同過濾推薦算法的步驟可分為以下幾點(diǎn):
(一)建立用戶模型:協(xié)同過濾算法的輸入的數(shù)據(jù)通常用一個(gè)m*n的矩陣R來表示用戶的評(píng)價(jià),其中的n表示有多少個(gè)項(xiàng)目,m表示用戶數(shù),Rxy表示第x個(gè)用戶對第y個(gè)物品的評(píng)分值。這個(gè)評(píng)分值可以表示用戶的隱形的數(shù)據(jù),比如對商品的購買次數(shù)等的隱形的數(shù)據(jù),還可以用來表示對商品的評(píng)價(jià)。
(二)尋找最近用戶:通過尋找周圍的鄰居與目標(biāo)用戶的進(jìn)行相似度匹配。并且通過鄰居用戶與目標(biāo)用戶對物品的評(píng)分值進(jìn)行比較與計(jì)算,算出最近用戶與目標(biāo)用戶最近似的集。
(三)產(chǎn)生推薦物品:基于項(xiàng)目的協(xié)同過濾是按照用戶的歷史的偏好數(shù)據(jù)(如商品瀏覽記錄和購買記錄),然后計(jì)算用戶瀏覽和購買的各物品之間的相似性,最后把產(chǎn)生與用戶感興趣的物品相類似的物品推薦給用戶。在某些大型的購物軟件上,已經(jīng)不同程度的運(yùn)用到推薦算法。如Taobao,Tmall在用戶瀏覽一些商品或者購買商品后系統(tǒng)會(huì)推薦給你一些符合算法的商品。
雖然協(xié)同過濾在購物網(wǎng)站推薦系統(tǒng)中的得到了大量的運(yùn)用,但是算法不是完美,對于協(xié)同過濾算法來說,一直存在系統(tǒng)延伸性問題,數(shù)據(jù)稀疏性問題,冷啟動(dòng)問題和這三大基本問題。
稀疏性問題:表面上需要用戶的評(píng)價(jià)矩陣來對用戶信息的表示實(shí)際上用戶在商城的購買率占商城的商品總量不足1%,所以所形成的矩陣將會(huì)很稀疏。在數(shù)據(jù)量大而且數(shù)據(jù)稀疏難以找到最近鄰居用戶集,和響應(yīng)時(shí)間會(huì)很長。
冷啟動(dòng)問題:冷啟動(dòng)問題,也可以看成是數(shù)據(jù)稀疏性問題的的一種特別的情況。傳統(tǒng)的協(xié)同過濾推薦,簡單來說,是指通過類似的用戶或物品計(jì)算,從而得到推薦的項(xiàng)目。但是,協(xié)同過濾沒有辦法對這個(gè)項(xiàng)目預(yù)測、評(píng)分以及推薦,原因在于每次出現(xiàn)一個(gè)新的項(xiàng)目不存在用戶的評(píng)價(jià)。而且由于新項(xiàng)目的出現(xiàn)時(shí)期不長,用戶評(píng)價(jià)會(huì)相對較少,這就造成了推薦內(nèi)容的準(zhǔn)確性也比較差。
可擴(kuò)展性問題:推薦系統(tǒng)的可擴(kuò)展性是制約協(xié)同過濾推薦算法的重要因素。隨著用戶的飛速增加和信息量的迅速擴(kuò)大,算法的響應(yīng)時(shí)間會(huì)隨這兩個(gè)因素增加而變長。
基于以上的問題,可以通過采用將協(xié)同過濾算法與基于內(nèi)容算法相結(jié)合的推薦方法,利用基于內(nèi)容推薦算法對相似度較大項(xiàng)目的計(jì)算彌補(bǔ)協(xié)同過濾推薦在新項(xiàng)目推薦方面的不足,從而可以相對有效的解決系統(tǒng)的冷啟動(dòng)和數(shù)據(jù)的稀疏性問題。
該組合算法通過以下三步就可以做到:首先,利用基于內(nèi)容算法的推薦項(xiàng)目分析找到與新項(xiàng)目相似的項(xiàng)目;其次,對新項(xiàng)目進(jìn)行評(píng)分。完成這步可以基于用戶對找出的相似項(xiàng)目的評(píng)價(jià)判斷新項(xiàng)目的評(píng)分值;最后,計(jì)算最終的項(xiàng)目預(yù)測評(píng)分。想要得到評(píng)分可以用傳統(tǒng)的協(xié)同過濾算法,計(jì)算出鄰居用戶,從而對最終項(xiàng)目評(píng)分并使新項(xiàng)目參與到推薦中來。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)民的人數(shù)越來越多,網(wǎng)站的用戶人數(shù)的持續(xù)增長和站點(diǎn)的結(jié)構(gòu)、內(nèi)容復(fù)雜度越來越高,單純的基于協(xié)同過濾的推薦系統(tǒng)已經(jīng)不能滿足用戶的需求,該算法面臨著以下要解決的問題:
(一)提高算法的可拓展性:雖然協(xié)同過濾算法能夠容易的為用戶提供個(gè)性化的推薦,但是對于商務(wù)網(wǎng)站,尤其是大型的商務(wù)網(wǎng)站,需要同時(shí)給大量用戶提供推薦服務(wù),對系統(tǒng)的響應(yīng)率和響應(yīng)速度要求很高,該算法要提高系統(tǒng)的響應(yīng)率,為用戶提供快速的推薦;另一方面還要考慮到系統(tǒng)的存儲(chǔ)空間的問題,應(yīng)減少推薦系統(tǒng)運(yùn)行對系統(tǒng)的負(fù)擔(dān)。
(二)提高對個(gè)性化的推薦的質(zhì)量:用戶得到的推薦產(chǎn)品要與用戶興趣產(chǎn)品相似。如果用戶多次得到的推薦產(chǎn)品不是自己想要的將不會(huì)使用該推薦系統(tǒng)。但是推薦算法的響應(yīng)率與推薦的質(zhì)量是相矛盾的,要提高響應(yīng)率就必須犧牲推薦的質(zhì)量。所以要解決和協(xié)調(diào)這兩個(gè)要求讓協(xié)調(diào)過濾推薦算法更加完善。
一個(gè)完善的推薦算法可以快速的幫助用戶在紛雜的信息資源中搜索到自己說需要的信息,不僅可以提高用戶對網(wǎng)站的信任度從而增加收益,而且提高了用戶的搜索時(shí)間成本。當(dāng)前社會(huì)上對推薦系統(tǒng)有龐大的需求得到了很大的關(guān)注。推薦系統(tǒng)已經(jīng)廣泛的運(yùn)用在電子商務(wù),視頻網(wǎng)站,音樂網(wǎng)站等。在廣泛的應(yīng)用中會(huì)慢慢的發(fā)現(xiàn)算法的問題和解決方法,算法會(huì)越來越完善。
[1]徐紅艷,杜文剛.一種基于多屬性評(píng)分的協(xié)同過濾算法[J].遼寧大學(xué)學(xué)報(bào):自然科學(xué)版,2015,42(2):136-142.
[2]孟祥武,胡勛,王立才,張玉潔.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
TP311.13
A
1006-0049-(2016)15-0149-01