孫海威++鐘紹波++曹曦文++高云云++李思培++常泉
摘要:?jiǎn)晤悈f(xié)同過濾面臨的主要問題是:僅僅正例數(shù)據(jù)能夠被觀察到,類高度不平衡,大量數(shù)據(jù)點(diǎn)丟失。為解決該問題,基于迭代最小二乘法,采用一種加權(quán)的帶正則化項(xiàng)的單類協(xié)同過濾算法,即wALS算法。通過在真實(shí)的Foursquare、Movie Lens數(shù)據(jù)集上進(jìn)行驗(yàn)證,證明了這種算法性能優(yōu)于其它幾個(gè)經(jīng)典的單類協(xié)同過濾算法。
關(guān)鍵詞:推薦技術(shù);矩陣分解;wALS算法
DOIDOI:10.11907/rjdk.161572
中圖分類號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)009003603
基金項(xiàng)目基金項(xiàng)目:
作者簡(jiǎn)介作者簡(jiǎn)介:孫海威(1993-),男,江蘇南京人,碩士,江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院碩士研究生,研究方向?yàn)閿?shù)字信號(hào)處理、云計(jì)算;鐘紹波(1993-),男,福建龍巖人,江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院學(xué)生,研究方向?yàn)橥ㄐ殴こ獭?/p>
0引言
電子商務(wù)推薦系統(tǒng)具有良好的發(fā)展和應(yīng)用前景,推薦引擎已經(jīng)在電子商務(wù)(Ecommerce:例如Amazon、當(dāng)當(dāng)網(wǎng))和一些基于Social的社會(huì)化站點(diǎn)(包括音樂、電影和圖書分享:例如豆瓣、Mtime等)上取得了成功。推薦系統(tǒng)在電子商務(wù)平臺(tái)扮演著銷售人員的角色,向用戶推薦商品,幫助用戶找到所需商品,從而順利完成購買過程。協(xié)同過濾技術(shù)(Collaborative Filtering,簡(jiǎn)稱CF)[1] 是目前推薦系統(tǒng)中應(yīng)用最早和最為成功的技術(shù)之一,它的基本思想是:用戶可以按照興趣分類,具有相似興趣的用戶會(huì)購買相同的商品。盡管協(xié)同過濾技術(shù)在電子商務(wù)推薦系統(tǒng)中的應(yīng)用獲得了較大成功,但是隨著商務(wù)網(wǎng)站結(jié)構(gòu)的復(fù)雜化,商品信息量和用戶量與日俱增,協(xié)同過濾推薦系統(tǒng)面臨一些發(fā)展問題。例如,一些推薦系統(tǒng)往往只記錄了用戶的訪問記錄,如點(diǎn)擊網(wǎng)頁或者廣告次數(shù),缺乏顯示的評(píng)分信息,這種情況稱作“單類協(xié)同過濾”。
單類協(xié)同過濾問題研究還很少。C.Wang等[2]把概率矩陣分解(PMF)技術(shù)運(yùn)用到單類協(xié)同過濾問題,把觀察到的點(diǎn)擊數(shù)據(jù)作為正例數(shù)據(jù),其余的混合數(shù)據(jù)均作為負(fù)例數(shù)據(jù);Paterek等[3]提出運(yùn)用奇異值分解(SVD)技術(shù)來解決該類問題;Rendle S等[4]提出運(yùn)用基于KNN的協(xié)同過濾算法、Pan等[5]提出運(yùn)用加權(quán)的低秩逼近算法來解決該類問題。本文在真實(shí)的數(shù)據(jù)集(Foursquare、Movie Lens)上驗(yàn)證,證明了加權(quán)的低秩逼近算法性能優(yōu)于其它幾個(gè)經(jīng)典的單類協(xié)同過濾算法。
1矩陣分解算法
1.1協(xié)同過濾技術(shù)
協(xié)同過濾推薦算法(Collaborative Filtering,CF)是推薦系統(tǒng)中最為成功的推薦算法之一。經(jīng)過多年演變,協(xié)同過濾推薦算法從盡量考慮用戶的偏好轉(zhuǎn)而成為追求高效率的商業(yè)推薦。在常見的電子商務(wù)網(wǎng)站中,協(xié)同過濾算法是通過參考用戶對(duì)商品的喜歡程度和評(píng)分來實(shí)現(xiàn)推薦的,具體實(shí)現(xiàn)流程:首先,依據(jù)用戶興趣信息的相似度,將用戶分類為不同等級(jí),有共同興趣愛好的用戶分為同一個(gè)等級(jí),然后將用戶推薦給同一等級(jí)用戶。其次,依據(jù)用戶對(duì)該商品的評(píng)分,向用戶推薦(用戶的反饋、評(píng)分可以表現(xiàn)出對(duì)商品的重視程度)與其評(píng)分最高的類似商品。協(xié)同過濾算法的核心思想就是在用戶、商品和評(píng)價(jià)三者之間建立聯(lián)系。
1.2基于wALS的單類協(xié)同過濾算法
在單類協(xié)同過濾問題中,我們常將加權(quán)低秩逼近(wLRA)[6-7]方法應(yīng)用于CF問題中,即用“1”表示有記錄的樣本,“0”表示沒有記錄的缺失數(shù)據(jù)。因?yàn)槿笔ы?xiàng)中可能有隱含的正樣本,這樣的處理方式會(huì)有遺漏。因此,可以通過賦予丟失項(xiàng)以低權(quán)重來處理這個(gè)問題。這是從數(shù)據(jù)集中挖掘隱含信息來優(yōu)化單類協(xié)同過濾問題的思想,由此導(dǎo)出基于加權(quán)矩陣分解的單類協(xié)同過濾算法(wALS,即weight ALS) [8-10]。