陳媛媛,聶規(guī)劃,陳冬林,桂雁軍
(1.武漢理工大學經(jīng)濟學院,湖北 武漢 430070;2.武漢理工大學電子商務與智能服務研究中心,湖北 武漢 430070;3.新奇特車業(yè)服務股份有限公司,上海 201824)
1.1.1 基于內(nèi)容的推薦
基于內(nèi)容的推薦方法源自信息檢索領域,其基本思路是從用戶已訪問或已選擇的對象中獲取用戶興趣,將其與候選對象的特征進行比較,為用戶推薦特征最為相似的對象,屬于Schafer劃分中的Item-to-Item Correlation方法。該算法的關鍵在于考察用戶資料與項目的匹配程度,用戶資料通過機器學習獲取,常用的算法有決策樹、貝葉斯分類算法和神經(jīng)網(wǎng)絡等?;趦?nèi)容推薦的局限性在于內(nèi)容分析有限,只能推薦文本資源,無法處理圖像、視頻和音樂等結構復雜、難以體現(xiàn)內(nèi)容質量等特征的項目,并且無法提供新異推薦,即推薦的結果僅限于與用戶以往熟悉內(nèi)容相似的項目上[1],不利于挖掘用戶潛在興趣。
1.1.2 基于協(xié)同過濾的推薦
基于協(xié)同過濾推薦的基本思想是基于與目標用戶具有相同或相似興趣偏好的用戶的觀點來向目標用戶推薦項目。協(xié)同過濾推薦算法可以分為基于記憶的協(xié)同過濾和基于模型的協(xié)同過濾。基于記憶的算法依賴于最近鄰算法,計算用戶/項目之間的相似度,產(chǎn)生推薦?;谟洃浀乃惴梢苑譃榛谟脩舻乃惴ê突陧椖康乃惴??;谀P偷乃惴ㄖ饕谢谪惾~斯的網(wǎng)絡算法、基于馬爾科夫決策過程的算法等。協(xié)同過濾算法存在的問題有:冷啟動問題,由于算法必須依賴用戶與項目的歷史數(shù)據(jù)進行推薦,因而無法對新的用戶或項目進行推薦;數(shù)據(jù)稀疏性問題,即由于用戶數(shù)量與項目數(shù)量懸殊,導致評分覆蓋率低,只有少量的商品能夠得到推薦。目前這方面的研究重點在于對協(xié)同過濾算法的改進,如嚴冬梅[2]等引入了用戶對項目的興趣度,并用貝葉斯算法分析了用戶在具有不同特征時對項目的喜好程度,提高了最近鄰集合的有效性和準確度,推薦算法的質量也有很大改善。CHIH-FONG等在協(xié)同過濾系統(tǒng)中混合采用了兩種聚類方法和3種融合方法,利用MovieLens數(shù)據(jù)集的實驗證實,采用聚類融合的方法可以提高協(xié)同過濾的推薦效果[3]。
1.1.3 基于知識的推薦
基于知識的推薦也稱為基于規(guī)則的推薦,通過手動或自動生成一系列的決策規(guī)則來推薦商品。基于知識的推薦強調關于商品的明確的領域知識以及關于用戶的隱式知識(如心理的、人口統(tǒng)計學的或用戶的其他個性化屬性),并從中提取出相關的推薦規(guī)則。基于知識的推薦系統(tǒng)依賴于知識增強規(guī)則的開發(fā),向用戶推薦的項目需要精確地符合規(guī)則中定義的要求。推薦系統(tǒng)中手動規(guī)則的開發(fā)極其依賴于與目標領域特殊屬性相關的規(guī)則知識工程技術,如WALTER[4]等提出了在電影推薦系統(tǒng)中應用領域知識推薦和社交網(wǎng)絡,實驗結果證明新的推薦方法增強了系統(tǒng)的推薦效率。
1.1.4 基于復雜網(wǎng)絡鏈路預測的推薦
鏈路預測是指如何通過已知的網(wǎng)絡結構等信息評估預測網(wǎng)絡中尚未鏈接的兩個節(jié)點之間存在或產(chǎn)生鏈接的可能性[5]。鏈接預測包括:①預測已存在但尚未被發(fā)現(xiàn)的鏈接,即預測未知鏈接;②預測現(xiàn)在未存在但未來可能新產(chǎn)生的鏈接,即預測未來鏈接[6]。鏈路預測一直被應用于個性化推薦系統(tǒng)的設計中,鏈路預測可以作為準確分析社會網(wǎng)絡結構的有力輔助工具[7-8],其原理是基于網(wǎng)絡結構預測哪些現(xiàn)在尚未結交的用戶“應該是朋友”,并將此結果作為“朋友推薦”發(fā)送給用戶。在融合信任網(wǎng)絡的推薦方面,CHEN[9]等引進用戶之間的信任關系數(shù)據(jù),由用戶之間的信任關系和用戶對項目的評分信息分別構造用戶之間的信任圖和偏好相似度圖,進而將這兩類關系圖融合到一個圖模型中,并采用國際公認的Epinions數(shù)據(jù)集進行驗證,實驗結果表明該推薦算法能夠較好地解決冷啟動問題而不會對推薦的準確性造成很大影響。
1.1.5 混合推薦算法
混合推薦算法通過不同的方式結合了上述兩種或兩種以上的方法來改善推薦的性能,以解決基礎算法中存在的冷啟動和數(shù)據(jù)稀疏性等問題。例如,將基于內(nèi)容的算法與協(xié)同過濾算法相結合,推薦系統(tǒng)的健壯性會較單個算法時有所增強;基于內(nèi)容的算法可以為用戶興趣偏好缺少的新用戶獲取有用信息進行推薦,而協(xié)同過濾模塊可以幫助查找領域中擁有相似偏好的用戶從而進行推薦,這樣,推薦系統(tǒng)中的冷啟動問題和數(shù)據(jù)稀疏性問題可以得到緩解?;旌纤惴ㄖ袘米顝V的方法是基于內(nèi)容和協(xié)同過濾方法。另外,混合推薦根據(jù)不同的方式分為7種:權重組合、條件轉換、混合、基于特征(基于屬性)、特征組合、級聯(lián)和元層次[10]。然而,現(xiàn)有的混合算法依舊面臨著一些瓶頸[11]:①在用戶和項目建模上情境信息不足,因此在復雜領域對用戶的偏好預測較弱;②目前還不支持需要用戶根據(jù)多因素(如質量和用戶環(huán)境)進行決策的多標準評分。
在做理論研究的同時,也有很多電子商務推薦系統(tǒng)被開發(fā)出來。典型的基于內(nèi)容的推薦系統(tǒng)有Personal WebWatcher,該系統(tǒng)可以根據(jù)用戶的瀏覽記錄自動構建用戶模型,無需用戶提供任何內(nèi)容,系統(tǒng)通過比較資源與用戶模型的相似度來推薦信息?;趨f(xié)同過濾的推薦系統(tǒng)有新聞推薦系統(tǒng)GroupLens,系統(tǒng)收集了用戶對文章的評分,通過預測用戶對其他文章的評分進行推薦?;诨旌贤扑]的推薦系統(tǒng)有Web頁面推薦系統(tǒng)Fab,該系統(tǒng)結合了基于內(nèi)容的推薦與協(xié)同過濾推薦,克服了兩種推薦技術的缺點,同時提高了推薦精度。目前推薦系統(tǒng)的研究方向和存在的問題有:
(1)用戶興趣挖掘研究。推薦系統(tǒng)無法完全掌握用戶的興趣與偏好,導致推薦的結果與用戶需求太接近或者太相反,造成系統(tǒng)的過擬合問題。
(2)推薦精度與實時性研究。推薦系統(tǒng)實時性的提升是以降低推薦精度為前提的。隨著商品與用戶數(shù)量的不斷增加,推薦精度與實時性都受到了極大的挑戰(zhàn)。如何在滿足推薦精度的同時提高推薦的實時性則越來越受關注。
(3)安全性研究?,F(xiàn)有推薦系統(tǒng)普遍忽略的問題是如何保護用戶的隱私。個性化推薦技術必須有合理的用戶隱私保護機制,只有保障系統(tǒng)的安全性,才能更大程度地發(fā)揮推薦系統(tǒng)的作用。
在網(wǎng)絡購物環(huán)境下,用戶的各種行為會在一定程度上反映其個性化信息,即用戶的興趣。不同于表示人與人之間關系的社交圖譜,興趣圖譜關心的是事物而不是人。此外,社交圖譜基本是靜態(tài)的,而興趣圖譜對于單個用戶來說是靈活、動態(tài)、易變的。興趣圖譜的涵義有兩點:①標識個人身份特定的、多樣的興趣;②試圖基于這些興趣將人們連接起來。用戶的興趣由用戶的描述模型來表示,建立用戶描述模型需要建立興趣概念層次模型,明確興趣概念的范圍,研究興趣概念之間的關系,探索興趣分類方法,建立興趣分類標準。以興趣概念為對象的推薦可以有效改善現(xiàn)有推薦算法單純以商品實例為對象推薦,導致算法復雜度過高的問題。不同于通用的、相對靜態(tài)的興趣領域本體,興趣圖譜反映用戶個體對不同興趣概念的關聯(lián)以及喜愛程度,興趣圖譜具有個性化、動態(tài)化的特征。通過用戶興趣圖譜的動態(tài)演化可以發(fā)現(xiàn)和預測用戶的未知興趣,及時有效地更新推薦結果。另外,通過用戶的采納與購買商品行為調節(jié)感興趣程度,及時更新用戶的興趣圖譜?;谂d趣圖譜的個性化推薦原理如圖1所示。
圖1 基于興趣圖譜的個性化推薦原理
基于用戶興趣圖譜的推薦是以更新后用戶興趣圖譜為根據(jù),先推薦商品概念,再根據(jù)用戶的偏好推薦具體的商品實例,以實現(xiàn)高效率和精確性的推薦。首先,在用戶興趣圖譜中,興趣是按樹形結構從上到下分類,用戶與興趣概念喜愛程度采用[0~1]之間興趣度權重表示,通過興趣度權值計算用戶的語義相似度,同時分別研究用戶、興趣和商品重要性權值,即研究活躍的用戶對其他用戶的影響要大于不活躍的用戶。其次,根據(jù)構建含權的用戶-興趣-商品概念三部圖計算用戶語義相似度,向目標用戶推薦候選興趣集,再采用貝葉斯分類算法,基于興趣-商品概念的二維矩陣向目標用戶推薦商品概念。最后以推薦給用戶的商品概念為基礎,基于用戶偏好向用戶推薦商品。
已有的個性化推薦所用數(shù)據(jù)都來自單個的網(wǎng)站,存在數(shù)據(jù)稀疏性、缺乏用戶完整興趣信息等帶來的冷啟動問題與推薦精度低的問題,導致推薦的效率過低。從NIEDERéE[12]等2004年提出跨網(wǎng)的個性化推薦以來,眾多學者做了相關的研究,研究的熱點問題為跨系統(tǒng)的用戶建模。從單個網(wǎng)站環(huán)境延伸到全網(wǎng)環(huán)境可以全面了解用戶的興趣,綜合利用用戶數(shù)據(jù)庫、社交網(wǎng)絡、關聯(lián)開放數(shù)據(jù)等來構建用戶模型,構建基于全網(wǎng)數(shù)據(jù)的用戶興趣圖譜,可以解決全網(wǎng)環(huán)境跨系統(tǒng)之間的互操作問題。建立基于全網(wǎng)數(shù)據(jù)的用戶興趣圖譜,首先要以興趣圖譜本體為模板,從數(shù)據(jù)庫、結構化和半結構化文檔中獲取用戶感興趣的興趣概念,分析用戶網(wǎng)上購物、博客、微博、BBS論壇過程中是否對某興趣概念真正喜歡,計算用戶對某興趣概念的感興趣程度。其次,在基于全網(wǎng)數(shù)據(jù)的用戶興趣圖譜本體模型和建模方法的研究基礎上,基于用戶消費數(shù)據(jù)庫、微博數(shù)據(jù)資源、社會化標簽資源、關聯(lián)數(shù)據(jù)云LDB(linked data cloud)開展用戶興趣的挖掘和局部興趣圖譜的生成。最后,參照Gravity公司在新聞領域建立用戶興趣圖譜的方法,借鑒本體映射方法,通過來自不同網(wǎng)站的興趣概念、興趣關系、興趣度權重和規(guī)則的集成,生成全局興趣圖譜,并可基于復雜網(wǎng)絡實現(xiàn)用戶興趣圖譜的演化,利用用戶的興趣采納機制,通過用戶興趣采納的反饋,實現(xiàn)用戶興趣圖譜的更新。
現(xiàn)有推薦算法研究大多是基于顧客的特征或購買與瀏覽行為進行推薦的,但事實上購買與瀏覽行為并不能完美地反映顧客對某件商品的偏好,用戶在很多渠道(包括網(wǎng)絡購物網(wǎng)站、博客、論壇等)提出的評論信息[13]能夠在一定程度上反映用戶的興趣。基于興趣圖譜的推薦也由此成為近年來的一個研究熱點。馬建國[14]等認為建立用戶興趣圖譜是實現(xiàn)智能代理與主動服務的基礎,在這之前要對用戶的閱讀興趣有相當?shù)牧私?,并由此建立用戶的描述模型。LYNNE提出了興趣圖譜構建方法,包括興趣選擇、興趣分類、基于社交網(wǎng)站和其他物理數(shù)據(jù)的收集以及興趣集成問題[15]。FABRIZIO提出跨網(wǎng)站基于語義的用戶興趣圖譜建模設想[16],他們通過將在私有網(wǎng)站分享的用戶信息進行整合獲取用戶完整興趣圖譜[17],并采用混合鏈路預測和基于內(nèi)容的擴散激活方法進行推薦[18]。企業(yè)界已開始興趣圖譜的嘗試,Gravity公司通過自己開發(fā)的“興趣圖譜”技術,同時為多家網(wǎng)站服務,它會跟蹤用戶在其所有服務網(wǎng)站的行為,通過對閱讀歷史、興趣的分析,形成一個“興趣圖譜”,向出版商(內(nèi)容提供商)和廣告商提供新聞個性化服務。騰訊也提供了興趣圖譜的開發(fā)接口 API(http://wiki.open.t.qq.com),對外提供多種興趣相關信息,如一鍵轉播熱門排行、同話題熱門轉播排行和通過標簽搜索用戶等。但是,興趣圖譜還處于起步階段,興趣圖譜概念混亂、缺乏統(tǒng)一的標準,既包括用戶對產(chǎn)品的興趣和個人愛好,也包括其參加的社會活動。綜合而言,將這些元素統(tǒng)統(tǒng)視為鏈路預測的某個節(jié)點,不但無法進行用戶之間的興趣相似性計算,還增加了計算復雜度。而缺乏統(tǒng)一標準的用戶興趣建模又帶來了互操作性問題,大量的研究著重于解決用戶興趣的模型結構、語法和語義集成[19]。興趣圖譜的另一個研究難點是從結構和非結構文本中獲取基于語義的用戶興趣。此外,用戶興趣圖譜建模的質量直接關系到個性化推薦的質量[20],采用何種方法對用戶興趣進行建模需要進一步的研究。
國內(nèi)外關于興趣圖譜的電子商務推薦系統(tǒng)已有很大進展,基于跨多個電商和社交網(wǎng)站數(shù)據(jù)集的全網(wǎng)數(shù)據(jù)挖掘和推薦理論與方法研究也開始被關注。在跨電商網(wǎng)站方面,YUCHENG等利用集合概率模型(latent dirichlet allocation)將跨網(wǎng)站的用戶興趣集成,實現(xiàn)了交叉領域的個性化推薦[21]。在跨社交網(wǎng)絡方面,SAHEBI采用了一種社區(qū)劃分的方法,從多個維度對用戶進行社區(qū)劃分,如根據(jù)用戶對特定商品的喜好來推薦其他商品,根據(jù)用戶的社區(qū)劃分結果來度量用戶之間潛在的相似性,再采用協(xié)同過濾的方法為用戶推薦產(chǎn)品[22];BRACHA總結了現(xiàn)有社交網(wǎng)絡中利用用戶之間關系進行相似性推薦(如鏈路預測推薦方法)的局限性,提出通過集成facebook等社交網(wǎng)站獲取用戶興趣進行交叉推薦產(chǎn)品[23]。我國在跨網(wǎng)站的推薦應用方面也有探索,如國內(nèi)某電子商務推薦服務網(wǎng)已開始基于跨電商行為的交叉推薦算法探索[24]。但是,基于全網(wǎng)興趣圖譜的推薦理論研究與應用研究,國內(nèi)外目前還是空白。
在大數(shù)據(jù)時代到來之時,高效的電子商務推薦系統(tǒng)能夠為企業(yè)帶來客戶,實現(xiàn)利潤增長。基于全網(wǎng)興趣圖譜的電子商務推薦系統(tǒng)能夠集成全網(wǎng)的用戶數(shù)據(jù),全面挖掘用戶興趣,為用戶提供個性化的推薦,解決傳統(tǒng)推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題和冷啟動問題,提高推薦系統(tǒng)的推薦精度。因此,研究基于全網(wǎng)興趣圖譜的電子商務推薦技術具有很強的理論意義,在此基礎上開發(fā)電子商務推薦系統(tǒng)也具有重要的現(xiàn)實意義。
[1]蘇玉召,趙妍.個性化關鍵技術研究綜述[J].圖書與情報,2011,37(1):59 -65.
[2]嚴冬梅,魯城華.基于用戶興趣度和特征的優(yōu)化協(xié)同過濾推薦[J].計算機應用研究,2012,29(2):497 -500.
[3]CHIH -FONG T,CHIHLI H.Cluster ensembles in collaborative filtering recommendation[J].Applied Soft Computing,2012(12):1417 -1425.
[4]WALTER C N,MARIALUISA H A,RAFAEL V G.Social knowledge-based recommender system application to the movies domain[J].Expert Systems with Applications,2012(39):10990 -11000.
[5]LISE G.Link mining:a survey[J].ACM SIGK DD Explorations New sletter,2005,7(2):3 -12.
[6]Lü L Y,ZHOU T.Link prediction on complex networks:a survey[J].Physica A:Statistical Mechanics and Its Applications,2011,390(6):1150 -1170.
[7]SCHAFER L,GRAHAM J W.Missing data:our view of the state of the art[J].Psychol Methods,2002,7(2):147-177.
[8]KOSSINETS G.Effects of missing data in social networks[J].Social Networks,2006,28(3):247 -268.
[9]CHEN C C,WAN Y H,CHUNG M C.An effective recommendation method for cold start new users using trust and distrust networks[J].Information Sciences,2013(224):19-36.
[10]AMIR A,MOHAMMAD S.A hybrid recommendation technique based on product category attributes[J].Expert Systems with Applications,2009(36):11480-11488.
[11]GHAZANFAR M A,PR A.An improved switching hybrid recommender system using naive bayes classifier and collaborative filtering[J].Lecture Notes in Engineering and Computer Science,2010(2180):493 -502.
[12]NIEDERéE C,STEWART A,MEHTA B.A multidimensional,unified user model for cross - system personalization[C]∥Proceedings of the AVI 2004 Workshop on Environments for Personalized Information Access.Gallipoli:[s.n.],2004:34 -54.
[13]CHRYASNTHOS D,GAO G D,RITU N.Are customer more likely to contribute online reviews for hit or niche products?[J].Journal of Management Information System,2010,27(2):127 -158.
[14]馬建國,邢玲,李幼平.廣播型網(wǎng)格的用戶興趣圖譜[J].電子學報,2005,33(1):142 -146.
[15]LYNNE G.The interest graph architecture-social modeling and information fusion[C]∥Proceedings of SPIE.[S.l.]:[s.n.],2012:1 -46.
[16]FABRIZIO O.Multi-source provenance- aware user interest profiling on the social semantic web[C]∥20th International Conference on User Modeling,Adaptation,and Personalization.[S.l.]:[s.n.],2012:378-381.
[17]BENJAMIN H.An open framework for multi-source,cross-domain personalisation with semantic interest graphs[C]∥ACM Recommender Systems.Dublin:[s.n.],2012:313 -316.
[18]BENJAMIN H,MACIEJ D.Personalisation of social webservices in the enterprise using spreading activation for multi- source,cross - domain recommendations[C]//Association for the Advancement of Artificial Intelligence.[S.l.]:[s.n.],2012:46 - 51.
[19]FRANCESCA C,F(xiàn)EDERICA C,CRISTINA G.User model interoperability:a survey[J].User Modeling and User-adapted Interaction,2011(21):285 -331.
[20]王巧容,趙海燕,曹健.個性化服務中的用戶建模技術[J].小型微型計算機系統(tǒng),2011,32(1):39 -46.
[21]YUCHENG L,DEEPAK A,ALEX S.Multiple domain user personalization[C]∥Proceedings of the 17th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining.[S.l.]:[s.n.],2011:123 -131.
[22]SAHEBI S,COHEN W W.Community - based recommendations:a solution to the cold start problem[C]∥Workshop on Recommender Systems and the Social Web,RSWEB.[S.l.]:[s.n],2011:143 -147.
[23]BRACHA S,LIOR R,SHIRLEY F.Facebook single and cross domain data for recommendation systems[J].User Model User - Adap Inter,2013(23):211-247.
[24]張亮,柏林森,周濤.基于跨電商行為的交叉推薦算法[J].電子科技大學學報,2013,42(1):154 -161.