周慶芳
摘 要:互聯(lián)網(wǎng)通信技術(shù)和社會(huì)化媒體的大力發(fā)展使得每個(gè)人既可以是信息的接收者,也可以是信息的創(chuàng)造者。本文著重介紹了目前應(yīng)用最為廣泛的協(xié)同過濾技術(shù),并在協(xié)同過濾算法實(shí)現(xiàn)的基礎(chǔ)上,利用一些通用的開源數(shù)據(jù)集以及常見的評(píng)估指標(biāo)對(duì)算法實(shí)現(xiàn)的效果做展示和分析,以完成對(duì)解決推薦系統(tǒng)的精確性與多樣性兩難問題的探討。
關(guān)鍵詞:協(xié)同過濾、二次優(yōu)化、多樣性
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:C 收稿日期:2015-12-09
一、基于協(xié)同過濾的推薦算法
1.基于用戶的協(xié)同過濾
基于用戶的協(xié)同過濾算法是目前應(yīng)用廣泛且效率較高的一種個(gè)性化推薦算法。它主要基于3 個(gè)假設(shè)。[1]
(1)用戶是可分的。
(2)用戶對(duì)不同商品的評(píng)價(jià)包含了用戶的興趣信息。
(3)用戶對(duì)未知商品的評(píng)價(jià)將和同類用戶的評(píng)價(jià)相似。
算法通過分析用戶對(duì)項(xiàng)目的歷史行為數(shù)據(jù)(如評(píng)分、購買、瀏覽等),生成與當(dāng)前用戶行為、興趣最相近(對(duì)相同產(chǎn)品有歷史行為)的用戶集,然后利用他們對(duì)其他一些項(xiàng)目的評(píng)分來預(yù)測(cè)當(dāng)前用戶對(duì)那些項(xiàng)目的評(píng)分,從而產(chǎn)生推薦列表。
2.基于項(xiàng)目的協(xié)同過濾
經(jīng)過前述基于用戶的協(xié)同過濾算法后獲得的推薦候選列表,進(jìn)一步做基于項(xiàng)目的協(xié)同過濾。其算法過程與前面相似,不過相似度的計(jì)算是針對(duì)推薦候選列表中的項(xiàng)目以及目標(biāo)用戶歷史已接觸過的項(xiàng)目集合。主要步驟如下。
(1)輸入準(zhǔn)備。同上一節(jié)相反。向量表示中的每個(gè)評(píng)論過項(xiàng)目的用戶對(duì)該項(xiàng)目的評(píng)分。
(2)針對(duì)項(xiàng)目的最近搜索。同上一節(jié)相似,仍然利用上述相似度計(jì)算公式,但是計(jì)算結(jié)果為項(xiàng)目與項(xiàng)目的相似度。
(3)推薦產(chǎn)生。同上一節(jié)相似,將上述推薦候選列表中每個(gè)項(xiàng)目與目標(biāo)用戶的評(píng)分向量進(jìn)行相似度計(jì)算后排序,獲取前Top-K個(gè)項(xiàng)目作為推薦結(jié)果。但是為了后續(xù)推薦結(jié)果的篩選,本文在這里的算法實(shí)現(xiàn)不會(huì)進(jìn)行取K個(gè)的操作,而是直接保留整個(gè)候選推薦項(xiàng)目列表。
上述基于用戶的協(xié)同過濾主要利用了用戶—項(xiàng)目之間的關(guān)系,省略了對(duì)項(xiàng)目的建模,能夠避免對(duì)于復(fù)雜項(xiàng)目?jī)?nèi)容分析不完全或不準(zhǔn)確的問題,具有簡(jiǎn)單易實(shí)現(xiàn)、性能較好、個(gè)性化、自動(dòng)化程度高等優(yōu)點(diǎn)。
二、多樣性增強(qiáng)算法
1.多樣性及其方法簡(jiǎn)介
一個(gè)好的推薦系統(tǒng)能夠開拓用戶的視野,就像一個(gè)凹透鏡,可將用戶的興趣發(fā)散出去。當(dāng)然,正如前面所述,精確性與多樣性時(shí)常是個(gè)魚與熊掌不可兼得的難題,所以這種發(fā)散也最好是在極可能不影響到精度的前提下進(jìn)行的。近年來針對(duì)提高推薦系統(tǒng)多樣的研究中,主要存在以下四類方法。[2]
(1)信息物理方法:將物理學(xué)中的物質(zhì)擴(kuò)散(Mass Diffusion )和熱傳導(dǎo)(Heat Conduction)理論應(yīng)用到個(gè)性化推薦系統(tǒng)中。
(2)二次優(yōu)化方法:采用啟發(fā)式策略對(duì)傳統(tǒng)推薦算法得到的候選推薦列表進(jìn)行二次優(yōu)化。
(3)社會(huì)化網(wǎng)絡(luò)方法:信息推薦中社會(huì)關(guān)系往往比推薦內(nèi)容與用戶喜好的匹配程度更加重要。
(4)時(shí)間感知方法:作為情境的一種,時(shí)間信息很容易采集,并且對(duì)提高推薦系統(tǒng)的時(shí)序多樣性具有重要的價(jià)值。
2.二次優(yōu)化的目標(biāo)函數(shù)建立
為了提高推薦列表的多樣性(Diver sity),一種可行的方式就是在從候選推薦集合篩選時(shí),不僅使用考慮相似度大小的Top-K方法,同時(shí)將多樣性考慮在內(nèi)。說明不相似度d(i , j)的計(jì)算依賴于相似度s(i ,j )的計(jì)算,而相似度的計(jì)算已經(jīng)在前文公式中進(jìn)行定義,所以最終的Top-K篩選過程是在每次從候選集合P中篩選項(xiàng)目到推薦列表R中時(shí),逐一計(jì)算候選集合P中的每個(gè)項(xiàng)目,并且選取項(xiàng)目c使得Quality最大的,放入推薦列表R中。
三、小結(jié)
本文主要研究了推薦系統(tǒng)的Top-K推薦列表選擇的多樣性增強(qiáng)問題。為了避免向用戶推薦過度同質(zhì)化的內(nèi)容,在考慮推薦內(nèi)容時(shí),不應(yīng)該僅僅以推薦精準(zhǔn)度作為唯一指標(biāo),推薦內(nèi)容的多樣性同樣是提高用戶體驗(yàn)、增加用戶粘度的重要指標(biāo)。因此,本文所實(shí)現(xiàn)的貪婪選擇算法,它可以在損失一定精準(zhǔn)度的條件下實(shí)現(xiàn)推薦列表的內(nèi)容多樣性目標(biāo)。
參考文獻(xiàn):
[1] 宋真真,王 浩,楊 靜.協(xié)同過濾技術(shù)在個(gè)性化推薦中的應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008,31(7):1059-1063.
[2] 安 維,劉啟華,張李義.個(gè)性化推薦系統(tǒng)的多樣性研究進(jìn)展[J].圖書情報(bào)工作,2013,57(20):127-135.