李奕杭 于世東
摘 要:電子商務(wù)以及社交網(wǎng)站的興起加快了網(wǎng)絡(luò)信息資源的增長速度,用戶越來越難從海量數(shù)據(jù)中找到需要的信息。個(gè)性化推薦技術(shù)應(yīng)運(yùn)而生,它可以分析用戶的歷史行為信息,根據(jù)用戶的偏好從海量數(shù)據(jù)中檢索用戶感興趣的內(nèi)容,并在實(shí)際應(yīng)用中取得了良好的效果。
關(guān)鍵詞:群體推薦;社交網(wǎng)絡(luò);推薦系統(tǒng)
1 概述
互聯(lián)網(wǎng)信息的迅速增長產(chǎn)生了海量的數(shù)據(jù),用戶往往要耗費(fèi)大量的時(shí)間和精力,才能找到自己感興趣的信息??梢院敛豢鋸埖卣f,低效率的互聯(lián)網(wǎng)信息檢索技術(shù)已經(jīng)成為阻礙用戶有效利用信息的瓶頸,推薦技術(shù)就是在這樣的背景下產(chǎn)生的。推薦技術(shù)可以有效解決信息過載的問題,從海量數(shù)據(jù)中檢索到對用戶有所幫助的內(nèi)容。
目前的推薦技術(shù)在同一時(shí)刻一般都是為單個(gè)用戶進(jìn)行推薦,但現(xiàn)實(shí)應(yīng)用中可能經(jīng)常需要為某一群體進(jìn)行推薦,比如一個(gè)旅游團(tuán)要旅游的目的地、一次聚會(huì)的用餐地點(diǎn)以及一個(gè)家庭的觀影計(jì)劃等。群體成員間的興趣愛好具有很大的差異性,所以傳統(tǒng)的推薦技術(shù)已經(jīng)難以適用于群體推薦的要求,研究基于社交網(wǎng)絡(luò)的群體推薦技術(shù)就具有重要的現(xiàn)實(shí)意義。
2 推薦系統(tǒng)及社交網(wǎng)絡(luò)
群體推薦系統(tǒng)的研究涉及到個(gè)人推薦系統(tǒng)、社交網(wǎng)絡(luò)以及群體決策等技術(shù)領(lǐng)域。
現(xiàn)存的推薦系統(tǒng)多數(shù)為個(gè)人推薦系統(tǒng),即推薦行為旨在為單個(gè)用戶提供服務(wù),其最常用的推薦算法為協(xié)同過濾推薦算法和基于內(nèi)容的推薦算法;協(xié)同過濾算法借鑒與被推薦用戶具有相似興趣的用戶的行為進(jìn)行推薦,基于內(nèi)容的推薦算法分析被推薦用戶訪問的歷史內(nèi)容,并利用不同內(nèi)容的相似程度來進(jìn)行推薦。不論是哪種推薦方法,在進(jìn)行推薦時(shí)都是先從用戶數(shù)據(jù)庫中挖掘相關(guān)的信息,比如用戶的標(biāo)簽數(shù)據(jù)、用戶對物品的評分?jǐn)?shù)據(jù)、用戶的瀏覽歷史數(shù)據(jù)等,然后依據(jù)這些信息為用戶進(jìn)行推薦[1]。
與個(gè)人推薦系統(tǒng)不同的是,群體推薦系統(tǒng)在進(jìn)行推薦時(shí),服務(wù)的并不是單一用戶,而是一個(gè)用戶群體。群體成員間可能具有不同的愛好、興趣等,所以不能單純得按照個(gè)人推薦系統(tǒng)的方法進(jìn)行推薦,而應(yīng)該要考慮到不同用戶的權(quán)重。目前主要有兩種群體推薦方法[2],一種方法是先為每個(gè)用戶提供推薦,然后將所有用戶的推薦列表綜合起來,得到群體推薦列表。
另外一種群體推薦算法先將所有用戶具有共性的項(xiàng)目綜合起來,然后再進(jìn)行推薦。
不論是哪種群體聚合策略都存在一定的局限性,用戶的評價(jià)特征進(jìn)行聚合后得到的單個(gè)評價(jià)向量,和群體中特定的用戶評價(jià)向量還有一定的差距。這兩種群體推薦方法得到的推薦結(jié)果是一個(gè)有序的內(nèi)容列表,例如,可以為一個(gè)具有一定聯(lián)系的群體提供合理的旅游線路,為一組家庭提供一系列的娛樂電影等。
社交網(wǎng)絡(luò)是最近幾年發(fā)展最火的互聯(lián)網(wǎng)產(chǎn)品,反應(yīng)了朋友、同事、同學(xué)等線下關(guān)系在網(wǎng)絡(luò)上建立起來的線上交互行為。社交網(wǎng)絡(luò)的基本概念包括:節(jié)點(diǎn)、關(guān)系、社區(qū)以及用戶群。節(jié)點(diǎn)指的是每一個(gè)用戶個(gè)體;多個(gè)用戶組成用戶群,用戶群可能是為達(dá)到某一目的而臨時(shí)組成的,也可以是因?yàn)榕d趣、愛好等組成的長期關(guān)系。一般而言,直接的節(jié)點(diǎn)關(guān)系比間接的節(jié)點(diǎn)關(guān)系可靠度更高,所以在進(jìn)行群體推薦時(shí)應(yīng)該注意到不同的節(jié)點(diǎn)關(guān)系所占的比重也應(yīng)該有所不同。另外,群體中不同用戶的重要性也不同,所以在進(jìn)行群體推薦時(shí)有必要引入權(quán)重的概念。
社交網(wǎng)絡(luò)的基礎(chǔ)是“社交圖譜”和“興趣圖譜”。社交圖譜表明了某一特定用戶和其他用戶之間的直接關(guān)系,將線下的用戶關(guān)系反應(yīng)到線上;社交圖譜反應(yīng)了以下幾種線下社交關(guān)系:用戶間聯(lián)系比較頻繁、交互密切的關(guān)系是一種強(qiáng)關(guān)系的社交圖譜,弱關(guān)系的社交圖譜正好相反;臨時(shí)關(guān)系的社交圖譜是一種臨時(shí)性的社交行為,聯(lián)系的雙方之間沒有承認(rèn)的契約關(guān)系。興趣圖譜和社交圖譜有所不同,它借助用戶間的興趣、愛好等建立網(wǎng)絡(luò)社交關(guān)系,用戶間的連接基礎(chǔ)是共同的愛好,所以興趣圖譜中存在聯(lián)系的兩個(gè)用戶在線下可能沒有直接的交互作用。一般而言,社交圖譜和興趣圖譜是相輔相成的,用戶可以利用興趣圖譜的重合點(diǎn)交互在一起,從而進(jìn)一步組成用戶群的社交圖譜。
社交網(wǎng)絡(luò)中在進(jìn)行群體決策時(shí),往往會(huì)由于群體中各成員的認(rèn)知不同而產(chǎn)生不一致的意見,真正決策時(shí)需要在多方意見中進(jìn)行妥協(xié)和協(xié)調(diào),所以群體決策只是綜合反應(yīng)了群體中多數(shù)成員的意見,并一定是最適合解決問題的方法。群體決策的相關(guān)原理也是基于個(gè)人用戶決策的,所以很多個(gè)體決策的理論在進(jìn)行群體決策時(shí)仍然適用,在進(jìn)行群體決策時(shí),最應(yīng)該注意的核心問題是,如何找到一種可以集結(jié)群體中各個(gè)用戶的偏好的方法,基于社交網(wǎng)絡(luò)的群體決策應(yīng)運(yùn)而生。
3 基于社交網(wǎng)絡(luò)的群體推薦系統(tǒng)
考慮到社交網(wǎng)絡(luò)的復(fù)雜性,基于社交網(wǎng)絡(luò)的群體推薦一般只適用于評價(jià)用戶比較多的項(xiàng)目。在進(jìn)行群體推薦時(shí),所需要的主要步驟如下:
(1)假設(shè)用戶群體G的規(guī)模為s(用戶數(shù)為s)都評價(jià)過的項(xiàng)目數(shù)達(dá)到預(yù)先設(shè)定的閾值n,且所有共同評價(jià)過的項(xiàng)目集合為I;(2)為使方便為具有強(qiáng)相似程度的用戶組成的用戶群推薦,可以先將用戶群劃分為m個(gè)不同的簇,借助K均值聚類方法可以很容易實(shí)現(xiàn)這一點(diǎn)。在用戶群分簇完成后,簇內(nèi)的用戶具有較高的相似度,進(jìn)行推薦時(shí)可以為這些用戶推薦同樣的內(nèi)容;簇間的用戶相似度比較低,推薦結(jié)果中如果為他們推薦的是同一內(nèi)容的話,說明群體推薦算法不夠精確。(3)求簇的權(quán)重。簇中每個(gè)用戶都有對應(yīng)的權(quán)重,簇的權(quán)重等于簇中每個(gè)用戶的權(quán)重之和。簇的權(quán)重越高,說明此簇在整個(gè)用戶群中所占的地位越高,其推薦列表在整個(gè)用戶群的推薦列表中也就占越高的比例。
有兩種方法可以確定推薦項(xiàng)目集合:評分?jǐn)?shù)據(jù)方法和標(biāo)簽數(shù)據(jù)方法。在應(yīng)用評分?jǐn)?shù)據(jù)方法時(shí),簇中的每個(gè)用戶事先都會(huì)有一些評分?jǐn)?shù)據(jù),對這些評分?jǐn)?shù)據(jù)進(jìn)行聚合后,可以得到該簇中每個(gè)用戶的評分向量,此評分向量可以看作是一個(gè)虛擬用戶。計(jì)算目標(biāo)用戶的推薦項(xiàng)目時(shí),首先計(jì)算虛擬用戶的評分向量與所有用戶群中其他用戶的皮爾遜相關(guān)性相似度,并選擇一定數(shù)目(比如10個(gè))的用戶作為虛擬用戶的鄰居用戶集合,接下來就可以再用傳統(tǒng)的協(xié)同過濾算法計(jì)算目標(biāo)用戶的預(yù)測評分;當(dāng)所有的虛擬用戶的相似度都計(jì)算完畢后,對預(yù)測評分值的集合進(jìn)行排序,選擇要推薦數(shù)目的推薦列表提供給目標(biāo)用戶即可。
在應(yīng)用標(biāo)簽數(shù)據(jù)方法進(jìn)行推薦時(shí),先提取簇中每個(gè)用戶的標(biāo)簽數(shù)據(jù),并統(tǒng)計(jì)每個(gè)標(biāo)簽在標(biāo)簽集合中出現(xiàn)的頻率,排序后選擇出現(xiàn)頻率最高的若干數(shù)目(比如10個(gè))的標(biāo)簽,作為能夠代表用戶的標(biāo)簽信息。然后可以利用余弦相似度等傳統(tǒng)方法計(jì)算標(biāo)簽之間的相似程度,進(jìn)而衡量項(xiàng)目的相似度。
基于評分?jǐn)?shù)據(jù)的群體推薦方法可以找出簇中用戶的相同點(diǎn),而基于標(biāo)簽數(shù)據(jù)的群體方法可以找到用戶間的不同點(diǎn),在使用時(shí)可以根據(jù)實(shí)際情況進(jìn)行選擇。
參考文獻(xiàn)
[1]徐莉.基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)的研究[D].北京郵電大學(xué),2013.
[2]唐曉玲.基于本體和協(xié)同過濾技術(shù)的推薦系統(tǒng)研究[J].情報(bào)科學(xué),2013(12).
作者簡介:李奕杭(1990,4-),男,籍貫:遼寧省丹東市,現(xiàn)職稱:學(xué)生,學(xué)歷:本科,研究方向:網(wǎng)絡(luò)工程。