高 榕 李 晶 杜 博 余永紅 宋成芳 丁永剛,3
1(武漢大學(xué)計(jì)算機(jī)學(xué)院 武漢 430072)2(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 (南京大學(xué)) 南京 210046)3(湖北大學(xué)教育學(xué)院 武漢 430062)(gaorong198149@163.com)
一種融合情景和評(píng)論信息的位置社交網(wǎng)絡(luò)興趣點(diǎn)推薦模型
高榕1李晶1杜博1余永紅2宋成芳1丁永剛1,3
1(武漢大學(xué)計(jì)算機(jī)學(xué)院武漢430072)2(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 (南京大學(xué))南京210046)3(湖北大學(xué)教育學(xué)院武漢430062)(gaorong198149@163.com)
摘要隨著位置社交網(wǎng)絡(luò)(location-based social network, LBSN)的快速增長(zhǎng),興趣點(diǎn)(point-of-interest, POI)推薦已經(jīng)成為一種幫助人們發(fā)現(xiàn)有趣位置的重要方式.現(xiàn)有的研究工作主要是利用用戶(hù)簽到的歷史數(shù)據(jù)及其情景信息(如地理信息、社交關(guān)系)來(lái)提高推薦質(zhì)量,而忽視了利用興趣點(diǎn)相關(guān)的評(píng)論信息.但是,現(xiàn)實(shí)中用戶(hù)在LBSN中只對(duì)少數(shù)興趣點(diǎn)進(jìn)行簽到,使得用戶(hù)簽到歷史數(shù)據(jù)及其情景信息極其稀疏,這對(duì)興趣點(diǎn)推薦來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn).為此,提出了一種新的興趣點(diǎn)推薦模型,稱(chēng)為GeoSoRev模型.該模型在已有的基于矩陣分解的經(jīng)典推薦模型的基礎(chǔ)上,融合關(guān)于興趣點(diǎn)的評(píng)論信息、用戶(hù)社交關(guān)聯(lián)和地理信息這3個(gè)因素進(jìn)行興趣點(diǎn)推薦.基于2個(gè)來(lái)自Foursquare的真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與其他主流的興趣點(diǎn)推薦模型相比,GeoSoRev模型在準(zhǔn)確率和召回率等多項(xiàng)評(píng)價(jià)指標(biāo)上都取得了顯著的提高.
關(guān)鍵詞地點(diǎn)推薦;矩陣分解;社交關(guān)系;地理信息;評(píng)論文本
近年來(lái),隨著Web2.0技術(shù)的快速發(fā)展、移動(dòng)設(shè)備的流行和定位方式的多樣化,用戶(hù)可以更加容易地獲得他們的實(shí)時(shí)位置信息,同時(shí)也催生了基于位置的社交網(wǎng)絡(luò)(location-based social network, LBSN)的出現(xiàn),如Foursquare和 Facebook.這個(gè)變化也使得基于位置的社交成為了一種新的社交模式.如圖1所示,數(shù)以百萬(wàn)的社交網(wǎng)絡(luò)用戶(hù)通過(guò)基于位置的社交網(wǎng)絡(luò)(LBSN)以簽到的形式與好友分享他們喜好的興趣點(diǎn)(point-of-interest, POI)(如餐廳、博物館等)和位置,并發(fā)表相關(guān)的評(píng)論.同時(shí),基于位置的社交網(wǎng)絡(luò)也能幫助人們更方便地了解周?chē)男畔⒁蕴剿髦車(chē)沫h(huán)境從而輔助自己的決策.為了達(dá)到這種目的,興趣點(diǎn)推薦就成為了一種重要的方式.
Fig. 1 A location-based social network.圖1 基于位置的社交網(wǎng)絡(luò)
位置社交網(wǎng)絡(luò)提供了大量的位置數(shù)據(jù)以及豐富的情景信息,這些情景包括:社交關(guān)系、類(lèi)別信息等,表現(xiàn)出規(guī)模巨大(volume)、快速傳播(velocity)、模態(tài)多樣(variety)等大數(shù)據(jù)特性[1],具有重要的應(yīng)用價(jià)值和研究意義[2].因此,興趣點(diǎn)的推薦已成為了一個(gè)近年來(lái)非常熱門(mén)的研究課題.目前,大多數(shù)的興趣點(diǎn)推薦方法[3-8]都是根據(jù)用戶(hù)基于興趣點(diǎn)的歷史簽到信息及其情景信息(如評(píng)級(jí)、時(shí)間、地點(diǎn)、社交關(guān)系、標(biāo)簽、類(lèi)別等)來(lái)挖掘用戶(hù)對(duì)于尚未簽到的興趣點(diǎn)的偏好.而上述推薦方法都是基于用戶(hù)對(duì)于興趣點(diǎn)的簽到頻率可以明確反映用戶(hù)對(duì)興趣點(diǎn)的偏好程度這樣一個(gè)前提.圖2是來(lái)自Foursquare數(shù)據(jù)集[9]中基于一個(gè)用戶(hù)對(duì)一個(gè)興趣點(diǎn)的簽到次數(shù)分布.如圖2所示,用戶(hù)對(duì)于興趣點(diǎn)的簽到并不是很積極,超過(guò)50%的興趣點(diǎn)都由同一用戶(hù)只簽到一次.因此,僅僅利用稀疏的用戶(hù)簽到數(shù)據(jù)及其情景信息作為推薦模型的依據(jù)會(huì)對(duì)最終的推薦結(jié)果帶來(lái)不小的偏差.
Fig. 2 Distribution of the number of a user’s check-ins in Foursquare[9].圖2 用戶(hù)在Foursquare[9]中簽到次數(shù)的分布
現(xiàn)實(shí)中,用戶(hù)的偏好除了可以通過(guò)分析用戶(hù)的歷史簽到信息及其情景信息進(jìn)行預(yù)測(cè)外,還可以分析用戶(hù)對(duì)興趣點(diǎn)的評(píng)論內(nèi)容信息來(lái)挖掘用戶(hù)偏好.例如:一個(gè)用戶(hù)對(duì)一家餐廳的評(píng)價(jià):“餐廳的味道不錯(cuò),菜品口味偏辣!”從上述評(píng)論可以看出用戶(hù)對(duì)這家餐廳的情感傾向是正面的、積極的,同時(shí)對(duì)這個(gè)餐廳的興趣程度比較高.因此,鑒于用戶(hù)歷史簽到數(shù)據(jù)的稀疏性,本文利用與用戶(hù)對(duì)興趣點(diǎn)簽到信息相關(guān)的內(nèi)容評(píng)價(jià)信息結(jié)合歷史的簽到信息及其相關(guān)情景信息來(lái)進(jìn)行興趣點(diǎn)推薦,從而提高興趣點(diǎn)推薦的質(zhì)量.然而,這對(duì)現(xiàn)有推薦模型而言是一個(gè)不小的挑戰(zhàn),因?yàn)樾枰业揭粋€(gè)有效的方法來(lái)融合來(lái)自多個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行興趣點(diǎn)推薦.
概括起來(lái),本文做出了3點(diǎn)對(duì)興趣點(diǎn)推薦的貢獻(xiàn):
1) 根據(jù)對(duì)大規(guī)模數(shù)據(jù)的分析,本文發(fā)現(xiàn)這種用于做興趣點(diǎn)推薦的數(shù)據(jù)不僅僅是一種隱式數(shù)據(jù),同時(shí)也包含來(lái)自不同領(lǐng)域且結(jié)構(gòu)不相同的多種數(shù)據(jù).因此,本文提出利用矩陣分解來(lái)融合異構(gòu)數(shù)據(jù)做興趣點(diǎn)推薦,這也是基于大規(guī)模數(shù)據(jù)進(jìn)行數(shù)據(jù)融合的一種技術(shù)上新的探索和嘗試.
2) 由于用做興趣點(diǎn)推薦的數(shù)據(jù)中除了包含簽到數(shù)據(jù)的情景信息(即地理信息和社交關(guān)系信息),還包含用戶(hù)對(duì)于興趣點(diǎn)的評(píng)論信息.因此,本文提出一種全新的興趣點(diǎn)推薦模型.該模型將評(píng)論信息與簽到數(shù)據(jù)的情景信息(用戶(hù)的社交關(guān)系和興趣點(diǎn)的地理信息)融合,并將其納入到同一的模型中發(fā)揮各自的長(zhǎng)處,從而實(shí)現(xiàn)互補(bǔ),最終實(shí)現(xiàn)對(duì)用戶(hù)偏好更好的預(yù)測(cè),并給出了具體求解過(guò)程.
3) 本文在一個(gè)大規(guī)模的位置社交網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行了評(píng)測(cè).實(shí)驗(yàn)結(jié)果說(shuō)明:相比其他主流先進(jìn)推薦模型,本文提出的模型在推薦準(zhǔn)確率和召回率等評(píng)測(cè)指標(biāo)上得到了有效的提高.
1相關(guān)工作
本節(jié)主要回顧一些與本文相關(guān)的最新研究工作,這些工作大多都是圍繞各種情景信息(即地理因素、社交關(guān)系等)和評(píng)論信息進(jìn)行興趣點(diǎn)推薦.
1) 基于情景信息的推薦.由于在LBSN中,用戶(hù)的行為不相同,且隨著情景(地理位置、社會(huì)關(guān)系等)變化,因此,LBSN的興趣點(diǎn)推薦應(yīng)當(dāng)具有個(gè)性化,并且與情景相關(guān).目前大多數(shù)興趣點(diǎn)推薦也都是集中在如何利用各種情景信息(地理因素、社交關(guān)系等)來(lái)進(jìn)行興趣點(diǎn)推薦.Ye等人[10]受到好友之間會(huì)分享較多共同興趣的觀(guān)點(diǎn)啟發(fā),深入研究了基于LBSNs的地點(diǎn)推薦方法中用戶(hù)之間的好友關(guān)系,通過(guò)分析來(lái)自Foursquare的數(shù)據(jù)集,發(fā)現(xiàn)好友關(guān)系與地理位置之間的強(qiáng)關(guān)聯(lián)性,進(jìn)而提出一種基于樸素貝葉斯算法來(lái)融合用戶(hù)偏好、地理位置和用戶(hù)社交關(guān)系的推薦模型.Cheng等人[11]將用戶(hù)社交關(guān)系和地理位置融入概率矩陣分解模型.通過(guò)建立用戶(hù)在位置上的簽到概率模型作為多中心高斯模型來(lái)捕獲地理影響力,繼而把社交信息和地理信息融入到一個(gè)廣義的矩陣分解模型中.Lian等人[12]提出利用加權(quán)矩陣分解模型來(lái)進(jìn)行興趣點(diǎn)推薦.由于在基于位置的社交網(wǎng)絡(luò)的用戶(hù)簽到活動(dòng)中用戶(hù)存在空間聚集現(xiàn)象,因此,首先從二維核密度估計(jì)的角度來(lái)刻畫(huà)空間聚集效應(yīng),并將它整合進(jìn)矩陣分解模型中,然后解釋為何對(duì)空間聚集效應(yīng)的建??梢詭椭鷳?yīng)對(duì)用戶(hù)-興趣點(diǎn)矩陣稀疏性的挑戰(zhàn).
2) 基于評(píng)論內(nèi)容信息的推薦.為了緩解用戶(hù)歷史簽到數(shù)據(jù)及其情景信息稀疏對(duì)于興趣點(diǎn)推薦模型的影響,研究者開(kāi)始積極探索利用興趣點(diǎn)評(píng)論信息進(jìn)行興趣點(diǎn)推薦.Cheng等人[13]通過(guò)22萬(wàn)用戶(hù)收集到的2 200萬(wàn)個(gè)簽到數(shù)據(jù)對(duì)空間、時(shí)間、社交和文本等相關(guān)用戶(hù)信息進(jìn)行定量分析來(lái)評(píng)估用戶(hù)移動(dòng)性模式.他們發(fā)現(xiàn):①基于位置的社交網(wǎng)絡(luò)用戶(hù)遵循“Levy Flight”移動(dòng)模式及周期性的行為;②地理和經(jīng)濟(jì)限制條件影響著移動(dòng)的模式和用戶(hù)的社會(huì)地位;③與簽到相關(guān)的基于內(nèi)容和情感的評(píng)論分析能夠?yàn)楦玫乩斫庥脩?hù)參與這些服務(wù)提供更加豐富的語(yǔ)境來(lái)源,也能夠提高相關(guān)推薦的質(zhì)量.Yin等人[14-15]利用著名的主題模型,即LDA模型,預(yù)測(cè)用戶(hù)的興趣程度以及基于本地的興趣點(diǎn)(例如一個(gè)城市).個(gè)人興趣和本地興趣地點(diǎn)都被表示為一個(gè)混合主題,其中,每個(gè)主題都是基于興趣點(diǎn)的獨(dú)立概率分布,同時(shí)每個(gè)主題通過(guò)學(xué)習(xí)用戶(hù)的簽到歷史數(shù)據(jù)和興趣點(diǎn)的類(lèi)別信息而得到.
總的來(lái)說(shuō),上述興趣點(diǎn)推薦模型都取得了不錯(cuò)的推薦效果,但它們側(cè)重評(píng)論內(nèi)容信息或單一情景信息(如地理因素、社交關(guān)系等).基于情景信息的興趣點(diǎn)推薦模型大多數(shù)都受到如下限制:1)相關(guān)模型和潛在空間缺乏容易理解的算法解釋?zhuān)?)模型中評(píng)級(jí)分?jǐn)?shù)的假設(shè)條件與現(xiàn)實(shí)不太相符;3)冷啟動(dòng)問(wèn)題上表現(xiàn)不盡如人意.而基于評(píng)論信息的興趣點(diǎn)推薦則大多數(shù)因?yàn)槿狈?duì)用戶(hù)基于興趣點(diǎn)簽到行為中各種情景信息(如地理信息、用戶(hù)社交關(guān)系)特點(diǎn)深入分析,而造成比較低的推薦質(zhì)量.因此,本文通過(guò)對(duì)上述各種信息進(jìn)行關(guān)聯(lián)分析,同時(shí)考慮用戶(hù)簽到行為中的各種情景信息和評(píng)論信息,將其融入到推斷用戶(hù)對(duì)于興趣點(diǎn)的偏好過(guò)程中.相比現(xiàn)有的推薦模型,本文提出的模型從評(píng)論中學(xué)習(xí)主題,這樣可以更好地匹配用戶(hù)的評(píng)級(jí)行為,同時(shí)在進(jìn)行興趣點(diǎn)推薦時(shí)將上述各種情景信息關(guān)聯(lián)起來(lái)統(tǒng)一考慮,更能反映現(xiàn)實(shí)場(chǎng)景,貼合用戶(hù)的真實(shí)行為.
2基于矩陣分解模型的興趣點(diǎn)推薦
2.1問(wèn)題描述
本文研究的問(wèn)題與傳統(tǒng)的基于位置推薦系統(tǒng)略有不同,傳統(tǒng)的基于位置推薦系統(tǒng)只考慮用戶(hù)-興趣點(diǎn)矩陣,而本文還考慮了多個(gè)情景信息和評(píng)論內(nèi)容語(yǔ)義依據(jù).
假設(shè)共有m個(gè)用戶(hù)ui和n個(gè)興趣點(diǎn)lj,且用戶(hù)u∈{u1,u2,…,um},興趣點(diǎn)l∈{l1,l2,…,ln}.
定義1. 評(píng)級(jí)矩陣R.假設(shè)有m個(gè)用戶(hù)和n個(gè)興趣點(diǎn)(地點(diǎn)),矩陣R∈m×n描述用戶(hù)ui對(duì)于興趣點(diǎn)lj的偏好.每個(gè)元素Ri,j反映了用戶(hù)對(duì)于興趣點(diǎn)的訪(fǎng)問(wèn)次數(shù).如果Ri,j=0,則并不代表用戶(hù)從來(lái)沒(méi)有訪(fǎng)問(wèn)過(guò)興趣點(diǎn),而是意味著用戶(hù)不知道這個(gè)興趣點(diǎn).
為此,本文的目標(biāo)是:基于那些用戶(hù)沒(méi)有訪(fǎng)問(wèn)過(guò)的興趣點(diǎn),如何有效地融合來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)預(yù)測(cè)該用戶(hù)對(duì)于尚未訪(fǎng)問(wèn)過(guò)的興趣點(diǎn)偏好,從而按照興趣點(diǎn)偏好為其推薦興趣點(diǎn).表1列出了本文的主要符號(hào).
Table 1 Symbols
2.2基于矩陣分解模型的興趣點(diǎn)推薦
矩陣分解方法得益于它們的準(zhǔn)確率和擴(kuò)展性,已經(jīng)成為一種主流推薦方法[16].它們不僅用于高斯噪聲的概率解釋?zhuān)覍?duì)于推薦來(lái)說(shuō)可以靈活地增加數(shù)據(jù)源.因此,本文基于矩陣分解模型來(lái)融合評(píng)論和情境信息進(jìn)行位置社交網(wǎng)絡(luò)推薦.將用戶(hù)和興趣點(diǎn)映射到一個(gè)潛在的低維k?min(m,n)的隱空間上.在聯(lián)合隱式空間上,把用戶(hù)對(duì)興趣點(diǎn)的偏好建模成它們?cè)陔[式空間中的點(diǎn)積,而偏好又與用戶(hù)對(duì)興趣點(diǎn)的簽到頻率有關(guān),更高的簽到頻率體現(xiàn)了用戶(hù)對(duì)興趣點(diǎn)有更多的偏好.因此,如定義1,用戶(hù)ui對(duì)于興趣點(diǎn)lj的偏好近似采用用戶(hù)和地點(diǎn)的潛在特征向量?jī)?nèi)積表示,如式(1)所示:
(1)
基于矩陣的稀疏性約束的考慮[12],在式(1)中加入用戶(hù)和地點(diǎn)的偏置項(xiàng)以及全局偏置項(xiàng),因此如式(2)所示:
(2)
其中,用戶(hù)的潛在向量Ui表示矩陣U∈m×k中的第i行,地點(diǎn)的潛在向量Lj表示矩陣L∈n×k中的第j行;bi和bj分別是關(guān)于用戶(hù)ui和地點(diǎn)lj的偏置項(xiàng);μ表示全局偏置項(xiàng).
將上述映射問(wèn)題進(jìn)行進(jìn)一步擴(kuò)展,得到如下最小化加權(quán)平方誤差,如式(3)所示:
(3)
(4)
其中,λ1和λ2分別是用戶(hù)和興趣點(diǎn)的權(quán)重因子;U∈m×k和L∈n×k分別代表用戶(hù)矩陣和地點(diǎn)矩陣.一般通過(guò)梯度下降的方法來(lái)求解U和L.
3GeoSoRev模型
本文在考慮用戶(hù)歷史簽到數(shù)據(jù)的基礎(chǔ)上,還考慮了用戶(hù)對(duì)興趣點(diǎn)評(píng)論的語(yǔ)義依據(jù)以及興趣點(diǎn)相關(guān)的情景信息,提出一種新的興趣點(diǎn)推薦模型GeoSoRev(geographical,social and review matrix factorization)模型.
3.1評(píng)論內(nèi)容信息建模
評(píng)論經(jīng)常用于解釋用戶(hù)評(píng)級(jí)的原因,從而有利于理解用戶(hù)的評(píng)級(jí)行為,同時(shí)對(duì)評(píng)論的深入挖掘可以有效地緩解興趣點(diǎn)冷啟動(dòng)問(wèn)題.主題建模技術(shù)經(jīng)常被用于挖掘在評(píng)論中隱藏的“主題”,最簡(jiǎn)單的主題模型是潛在狄利克雷分配模型(LDA)[17].基于矩陣分解的主題模型可以估計(jì)每個(gè)文檔的隱含主題的獨(dú)立概率分布[18],本文采用基于矩陣分解的主題模型來(lái)發(fā)現(xiàn)評(píng)論中的隱藏“主題”.
首先,將一個(gè)評(píng)論定義為一個(gè)文檔di,j(即用戶(hù)ui對(duì)興趣點(diǎn)lj的評(píng)論),單詞數(shù)目為N(n∈{1,2,…,N}),Bdi,j,n代表單詞-評(píng)論矩陣的元素,F(xiàn)i,j,n代表在評(píng)論文檔di,j中單詞n的頻度矩陣的元素.那么基于式(1),頻率(評(píng)分)矩陣采用2個(gè)實(shí)數(shù)矩陣Θ和Φ的內(nèi)積近似表示,如式(5)所示:
(5)
其中,Θ=(θdi,j),Φ=(φn,k),且φn,k,θdi,j>0,它們分別是單詞和主題的獨(dú)立概率分布.
將式(5)最小化后得到式(6):
(6)
將式(5)結(jié)合式(3),采用TopicMF模型[19]思想,得到融合了評(píng)論信息的興趣點(diǎn)推薦模型,如式(7)所示:
(7)
上述目標(biāo)函數(shù)將基于矩陣分解的評(píng)級(jí)預(yù)測(cè)模型與基于矩陣分解的發(fā)現(xiàn)潛在評(píng)論文本內(nèi)容中的主題因素模型結(jié)合起來(lái).因此,需要我們將主題因素和用戶(hù)、地點(diǎn)相對(duì)應(yīng)的潛在因素關(guān)聯(lián)起來(lái).為了體現(xiàn)這種關(guān)聯(lián)關(guān)系,采用基于HFT模型思想中的轉(zhuǎn)換函數(shù)[20]進(jìn)行三者的融合.
(8)
其中,β是一個(gè)轉(zhuǎn)換參數(shù),上述函數(shù)體現(xiàn)用戶(hù)、主題因素、地點(diǎn)三者之間的單調(diào)關(guān)系.上述函數(shù)基于這樣的融合依據(jù):用戶(hù)對(duì)一個(gè)興趣點(diǎn)給予很高的評(píng)級(jí)那么代表著他對(duì)這個(gè)興趣點(diǎn)很強(qiáng)的偏好,同時(shí)獲得高評(píng)級(jí)中某些特定單詞的分布必然對(duì)應(yīng)一些相關(guān)用戶(hù)的評(píng)論話(huà)題中的主題,而這些主題必然被討論得更多.
3.2地理信息建模
用戶(hù)在興趣點(diǎn)的簽到記錄包含著許多地理信息,因此,本文基于一個(gè)真實(shí)的數(shù)據(jù)集Foursquare[9]中的用戶(hù)簽到位置分布進(jìn)行分析.如圖3所示,通過(guò)對(duì)地理分布的估計(jì)來(lái)捕捉用戶(hù)對(duì)特定地點(diǎn)的偏好.
Fig. 3 Physical distance influence probability distribution of users in Foursquare[9].圖3 在Foursquare[9]中物理距離對(duì)用戶(hù)簽到情況的影響
如圖3所示,可以發(fā)現(xiàn):同一個(gè)用戶(hù)簽到的大部分興趣點(diǎn)都處于一個(gè)相互地理距離很小的范圍中,這一現(xiàn)象可以歸因于地理區(qū)域的影響.在現(xiàn)實(shí)中,人們通常訪(fǎng)問(wèn)一個(gè)興趣點(diǎn)(例如博物館),然后前往其附近的興趣點(diǎn)(例如餐館和商店).毗鄰的興趣點(diǎn)比遠(yuǎn)距離的興趣點(diǎn)具有更強(qiáng)的地理相關(guān)性.因此,用戶(hù)的簽到地點(diǎn)往往形成地理集群區(qū)域.由此根據(jù)用戶(hù)簽到數(shù)據(jù)的地理區(qū)域位置特征進(jìn)行建??梢杂行岣吲d趣點(diǎn)推薦的效果.
本文不同于根據(jù)用戶(hù)訪(fǎng)問(wèn)過(guò)的興趣點(diǎn)和尚未訪(fǎng)問(wèn)的興趣點(diǎn)之間的地理關(guān)聯(lián)關(guān)系進(jìn)行建模來(lái)預(yù)測(cè)用戶(hù)偏好.本文對(duì)于用戶(hù)ui對(duì)地點(diǎn)lj的偏好采用該用戶(hù)對(duì)地點(diǎn)lj幾個(gè)近鄰地點(diǎn)的偏好表示,同時(shí)使用地理區(qū)域位置關(guān)系加權(quán)策略來(lái)彌補(bǔ)經(jīng)典矩陣分解模型中對(duì)于地理位置的建模缺陷.因此,根據(jù)式(1)(2),基于地理區(qū)域特征[21]進(jìn)行興趣點(diǎn)推薦,最小化問(wèn)題表示為如下公式:
(9)
(10)
?lk∈C(lj),
其中xj,xk分別表示地點(diǎn)lj,lk的地理坐標(biāo)(經(jīng)度和緯度),從地理區(qū)域的大小考慮,對(duì)于距離用戶(hù)太遠(yuǎn)的地理區(qū)域中的興趣點(diǎn),用戶(hù)簽到的可能性很小.因此,本文提出一個(gè)地理區(qū)域大小距離變量D進(jìn)行地理范圍區(qū)別,而C(lj) 表示地點(diǎn)lj的鄰近的地點(diǎn),在實(shí)驗(yàn)中根據(jù)經(jīng)驗(yàn)值設(shè)置D=10 000,如果待推薦的地點(diǎn)不在用戶(hù)當(dāng)前位置的C(lj)中則不考慮該地點(diǎn).
3.3用戶(hù)社交關(guān)系建模
在現(xiàn)實(shí)中,用戶(hù)經(jīng)常會(huì)去那些用戶(hù)好友強(qiáng)烈推薦的餐館或者地點(diǎn).換句話(huà)說(shuō),基于社會(huì)關(guān)系的用戶(hù)好友極大地影響了用戶(hù)基于興趣點(diǎn)的簽到行為,可以利用訪(fǎng)問(wèn)用戶(hù)的社會(huì)網(wǎng)絡(luò)關(guān)系來(lái)提升興趣點(diǎn)推薦算法的性能.
Fig. 4 Social network.圖4 社交網(wǎng)絡(luò)
如圖4所示為現(xiàn)實(shí)世界中好友之間的社交網(wǎng)絡(luò),用戶(hù)與用戶(hù)之間的社交聯(lián)系是相互的,本文引入相似度函數(shù)來(lái)體現(xiàn)好友之間的聯(lián)系.因此,基于融合社交網(wǎng)絡(luò)信息興趣點(diǎn)推薦模型[22],目標(biāo)函數(shù)最小化如式(11)所示:
(11)
其中,sim(i,f)為用戶(hù)ui和好友uf之間的相似度.本文采用皮爾森相關(guān)系數(shù)來(lái)計(jì)算相似度,其計(jì)算公式如下:
sim(i,f)=
(12)
3.4GeoSoRev模型
在3.1~3.3節(jié)中本文基于矩陣分解模型將評(píng)級(jí)預(yù)測(cè)與評(píng)論內(nèi)容信息、地理位置信息和用戶(hù)社交關(guān)系分別整合建模,如式(7)(9)(11).通過(guò)合并潛在因素和主題,提出一個(gè)融合方案GeoSoRev模型來(lái)融合評(píng)論內(nèi)容信息、地理信息和社會(huì)關(guān)系進(jìn)行評(píng)級(jí)預(yù)測(cè).最小化目標(biāo)函數(shù)如下:
(13)
3.5GeoSoRev模型優(yōu)化
本文采用梯度下降法[23]來(lái)求解目標(biāo)公式的局部最優(yōu)解.
(W⊙W⊙(UHLT))LHT+λ1ui+
(14)
(WT⊙WT⊙(LHTUT))UH+λ2lj+
(15)
(16)
(17)
本文的目標(biāo)是同時(shí)優(yōu)化與評(píng)級(jí)相關(guān)的參數(shù)(U,L,H)和與之相關(guān)的主題參數(shù)矩陣θ,φ.其中U,L和H通過(guò)式(14)~(16)進(jìn)行梯度下降優(yōu)化,φ是通過(guò)式(6)的更新得到.因此,通過(guò)迭代以下2個(gè)步驟來(lái)實(shí)現(xiàn):
(18)
(19)
對(duì)于式(15)的第1步,通過(guò)L-BFGS優(yōu)化算法[24]予以更新;式(15)的第2步,對(duì)于φ更新采用投影梯度技術(shù)[25]來(lái)完成.2個(gè)步驟是反復(fù)迭代,直到最終達(dá)到局部最優(yōu).
4實(shí)驗(yàn)
4.1實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)中采用了真實(shí)的數(shù)據(jù)集,即Foursquare數(shù)據(jù)集.Foursquare數(shù)據(jù)集[26]包含2個(gè)子數(shù)據(jù)集,一個(gè)數(shù)據(jù)集收集來(lái)自美國(guó)紐約(NYC)的數(shù)據(jù),一個(gè)數(shù)據(jù)集收集來(lái)自美國(guó)洛杉磯(LA)的數(shù)據(jù).2個(gè)數(shù)據(jù)集的統(tǒng)計(jì)如表2所示.由表2可觀(guān)察到,2個(gè)數(shù)據(jù)集的用戶(hù)-興趣點(diǎn)的矩陣密度分別為5.68×10-5和4.04×10-5.由于數(shù)據(jù)集中用戶(hù)-興趣點(diǎn)矩陣密度非常低而造成了大多數(shù)主流的興趣點(diǎn)推薦算法的精度普遍不高.例如,基于數(shù)據(jù)集的用戶(hù)-興趣點(diǎn)矩陣密度為2.72×10-4,得到的準(zhǔn)確率最大只有0.06[27].所以,基于本文的數(shù)據(jù)集中比較低的用戶(hù)-興趣點(diǎn)矩陣密度,最終得到普遍偏低的預(yù)測(cè)準(zhǔn)確率和召回率是合理的.同時(shí)LA數(shù)據(jù)集的矩陣密度略高于NYC數(shù)據(jù)集,因此,基于LA數(shù)據(jù)集得到的準(zhǔn)確率和召回率大多略高于基于NYC數(shù)據(jù)集.
Table 2 Statistic on the Datasets
為了驗(yàn)證推薦算法的準(zhǔn)確性,對(duì)2個(gè)數(shù)據(jù)集都進(jìn)行預(yù)處理,僅保留每天至少訪(fǎng)問(wèn)5個(gè)位置的活躍用戶(hù).本文實(shí)驗(yàn)中按 8∶2的比例將數(shù)據(jù)隨機(jī)地分為訓(xùn)練集和測(cè)試集,同時(shí)這個(gè)隨機(jī)選擇獨(dú)立做5次.
4.2評(píng)價(jià)指標(biāo)
關(guān)于推薦性能,本文采用2個(gè)廣泛使用的指標(biāo)來(lái)評(píng)估Topk興趣點(diǎn)推薦性能,即準(zhǔn)確率Precision@k和召回率Recall@k,簡(jiǎn)寫(xiě)為P@k和R@k.對(duì)一個(gè)目標(biāo)用戶(hù)ui,P@k表示前k個(gè)被推薦的興趣點(diǎn)會(huì)包括多少比例的測(cè)試訪(fǎng)問(wèn)地點(diǎn);R@k表示前k個(gè)被推薦興趣點(diǎn)中有多少比例是這個(gè)用戶(hù)訪(fǎng)問(wèn)過(guò)的.Q(ui)表示用戶(hù)ui簽到過(guò)的地點(diǎn),E(ui)表示前k個(gè)被推薦的興趣點(diǎn).P@k和R@k定義為
(20)
(21)
其中,V表示測(cè)試數(shù)據(jù)中用戶(hù)的數(shù)量.在實(shí)驗(yàn)中,選擇P@1,P@5和P@10,R@1,R@5和R@10作為評(píng)價(jià)指標(biāo),結(jié)果統(tǒng)計(jì)如表3所示:
Table 3 LA Dataset
4.3推薦模型對(duì)比
本文選定了5種方法作為對(duì)比模型:
1) CoRe[28].提出了一種基于魯棒性規(guī)則融合用戶(hù)社會(huì)關(guān)系和地理影響的興趣點(diǎn)推薦算法,其中對(duì)地理影響因素基于核密度估計(jì)進(jìn)行建模.
2) USG[27].采用一種統(tǒng)一的線(xiàn)性模型融合用戶(hù)偏好、社會(huì)關(guān)系和地理影響,從而進(jìn)行興趣點(diǎn)推薦建模.
3) UAI[29].基于情感分析技術(shù)對(duì)用戶(hù)的評(píng)論進(jìn)行建模,同時(shí)采用一種混合模型基于用戶(hù)社會(huì)和地理相似性融合評(píng)論建模進(jìn)行興趣點(diǎn)的推薦.
4) DRW[30].基于動(dòng)態(tài)隨機(jī)游走模型融合用戶(hù)社會(huì)關(guān)系、類(lèi)別信息和流行度信息進(jìn)行興趣點(diǎn)推薦.
5) NCPD[31].基于NMF矩陣分解模型融合用戶(hù)的地理信息和類(lèi)別信息進(jìn)行興趣點(diǎn)推薦算法,其中采用基于用戶(hù)地理鄰居的影響對(duì)地理因素進(jìn)行建模.
實(shí)驗(yàn)中,k的值分別設(shè)置為1,5,10.每改變一次k值,對(duì)每一個(gè)算法計(jì)算P@k和R@k.在實(shí)驗(yàn)中出于考慮實(shí)驗(yàn)的效果和有效性的目的,將隱式空間維數(shù)設(shè)置為200.λ1,λ2是控制用戶(hù)和地點(diǎn)矩陣的權(quán)重參數(shù),通過(guò)交叉驗(yàn)證設(shè)置λ1,λ2=0.05;λ3是控制社交關(guān)系的權(quán)重參數(shù),設(shè)置λ3=0.01;λ4是控制評(píng)論信息的權(quán)重參數(shù),設(shè)置λ4=0.1.設(shè)置式(9)中的地理位置權(quán)重α=0.4時(shí),推薦效果最佳[21].
4.4實(shí)驗(yàn)結(jié)果分析
本節(jié)從3個(gè)角度來(lái)評(píng)估GeoSoRev模型:1)將GeoSoRev模型與5種現(xiàn)有的興趣點(diǎn)推薦模型進(jìn)行比較;2)基于提出的模型對(duì)比分析地理信息、用戶(hù)社交關(guān)系和評(píng)論文本內(nèi)容這3個(gè)要素對(duì)推薦系統(tǒng)評(píng)估指標(biāo)的貢獻(xiàn);3)討論相關(guān)參數(shù)影響.
4.4.1推薦模型的比較與分析
如表3和表4所示,由于基于NMF矩陣分解模型融合了社交關(guān)系影響、地理位置因素的影響以及評(píng)論信息,與其他5個(gè)對(duì)比推薦模型相比GeoSoRev模型在準(zhǔn)確率和召回率上表現(xiàn)出最好的推薦質(zhì)量.興趣點(diǎn)個(gè)數(shù)k的增加,使得準(zhǔn)確率不斷下降和召回率不斷上升.這是由于給用戶(hù)推薦更多的興趣點(diǎn)有助于用戶(hù)發(fā)現(xiàn)更多的興趣點(diǎn),這樣會(huì)促進(jìn)用戶(hù)更愿意進(jìn)行興趣點(diǎn)的簽到.
Table 4 NYC Dataset
1) USG.該模型整合用戶(hù)社交關(guān)系和興趣點(diǎn)地理影響,但沒(méi)有考慮相關(guān)類(lèi)別信息和評(píng)論信息.此外,把興趣點(diǎn)地理影響以及用戶(hù)社會(huì)關(guān)系影響進(jìn)行簡(jiǎn)單的線(xiàn)性加權(quán)而沒(méi)有考慮它們之間實(shí)際的聯(lián)系,這與現(xiàn)實(shí)不符,因?yàn)橛行┯脩?hù)可能更多地依靠朋友的推薦而有些用戶(hù)更多地受限于地理因素的影響.因此,如表3和表4所示,USG最終體現(xiàn)出第4優(yōu)秀的推薦精度.
2) CoRe.該模型和USG一樣,同樣缺乏對(duì)類(lèi)型信息、評(píng)論信息的考慮.但是由于它采用了一個(gè)更具有魯棒性的規(guī)則而不是簡(jiǎn)單的線(xiàn)性加權(quán)來(lái)對(duì)用戶(hù)的社會(huì)關(guān)系和地理影響進(jìn)行融合,同時(shí)對(duì)地理因素也進(jìn)行基于核密度估計(jì)的建模.因此,如表3和表4所示,它最終體現(xiàn)出第3優(yōu)秀的推薦精度.
3) UAI.基于情感分析技術(shù)對(duì)評(píng)論信息進(jìn)行建模分析情感傾向,但是分析過(guò)程中該模型僅僅簡(jiǎn)單將表示評(píng)論中的情感屬性相加而作為情感傾向的評(píng)價(jià)標(biāo)準(zhǔn),這樣的假設(shè)與實(shí)際情況有一定的差別.例如:“高質(zhì)量”、“高價(jià)格”體現(xiàn)出了不同的情感傾向,不能因?yàn)槎己幸粋€(gè)“高”而把它們作為相同的情感屬性.此外,該模型采用了概率矩陣模型基于社交和地理相似性結(jié)合上述評(píng)論模型進(jìn)行三者融合,從而進(jìn)行興趣點(diǎn)推薦.因此,如表3和表4所示,它最終體現(xiàn)出第5優(yōu)秀的推薦精度.
4) DRW.基于動(dòng)態(tài)的隨機(jī)游走模型,融合了用戶(hù)的社交關(guān)系、相關(guān)類(lèi)別信息以及流行度信息,忽略了興趣點(diǎn)推薦中最重要的地理因素的影響.因此,它最終體現(xiàn)出最差的推薦效果.
5) NCPD.基于NMF矩陣分解模型融合地理影響和流行度信息,同時(shí)從地理鄰域特點(diǎn)基于矩陣分解模型對(duì)地理因素進(jìn)行建模.但是,由于缺乏對(duì)用戶(hù)社會(huì)關(guān)系的建模,因此相對(duì)于CoRe,最終推薦精度提高不大.如表3和表4所示,它最終體現(xiàn)出第2優(yōu)秀的推薦精度.
6) GeoSoRev.基于2個(gè)數(shù)據(jù)集GeoSoRev模型在推薦質(zhì)量上表現(xiàn)最好,相對(duì)于NCPD算法取得了較大的提高.原因如下:①GeoSoRev相對(duì)于USG,CoRe,NCPD,DRW來(lái)說(shuō),全面考慮用戶(hù)基于興趣點(diǎn)的評(píng)論內(nèi)容息、用戶(hù)社會(huì)關(guān)系以及基于地理鄰域特點(diǎn)的地理因素的影響.②相比UAI而言,GeoSoRev中評(píng)論內(nèi)容信息采用了基于主題矩陣分解模型來(lái)整合評(píng)論內(nèi)容而沒(méi)有采用基于情感分析技術(shù)來(lái)對(duì)評(píng)論內(nèi)容進(jìn)行建模,而且對(duì)地理因素建模采用了基于地理鄰域特征而不是類(lèi)似UAI中基于地理位置相似性建模.
4.4.2要素影響分析
本節(jié)對(duì)GeoSoRev模型中地理信息、用戶(hù)社交關(guān)系和評(píng)論內(nèi)容信息3個(gè)要素進(jìn)行分析.這3個(gè)要素分別被命名為Geo,So和Rev,同時(shí)這3個(gè)要素分別對(duì)應(yīng)式(6)(9)(11).圖5(a)(b)分別是基于LA數(shù)據(jù)集在準(zhǔn)確率和召回率2個(gè)評(píng)估指標(biāo)上3個(gè)要素與GeoSoRev模型的對(duì)比結(jié)果.圖6(a)(b)分別是基于NYC數(shù)據(jù)集在準(zhǔn)確率和召回率2個(gè)評(píng)價(jià)指標(biāo)上3個(gè)要素與GeoSoRev模型的對(duì)比結(jié)果.
Fig. 5 Recommendation accuracy of GeoSoRev compared with its three components on LY datasets.圖5 GeoSoRev模型基于LY數(shù)據(jù)集與其3個(gè)組成要素的推薦性能對(duì)比
Fig. 6 Recommendation accuracy of GeoSoRev compared with its three components on NYC datasets.圖6 GeoSoRev模型基于LY數(shù)據(jù)集與其3個(gè)組成要素的推薦性能對(duì)比
從圖5、圖6可以得到以下結(jié)論:1)3個(gè)要素對(duì)于興趣點(diǎn)推薦都是至關(guān)重要的;2)三者的融合有助于提高推薦精度,這一點(diǎn)從GeoSoRev模型無(wú)論是在準(zhǔn)確率還是召回率上都顯著優(yōu)于單獨(dú)的3個(gè)要素可以看出.得出上述結(jié)論的原因在于:用戶(hù)在實(shí)際生活中受到了多方面情景信息的影響,而不能片面地從某一個(gè)方面來(lái)對(duì)用戶(hù)的偏好預(yù)測(cè)進(jìn)行建模.因此興趣點(diǎn)推薦應(yīng)當(dāng)充分利用各種興趣點(diǎn)的情景信息,這也是解決興趣點(diǎn)推薦中冷啟動(dòng)問(wèn)題和數(shù)據(jù)稀疏問(wèn)題的一個(gè)有效方法.
4.4.3參數(shù)分析
GeoSoRev模型有3個(gè)重要的參數(shù):1)控制評(píng)論參數(shù)λ4;2)控制社交關(guān)系影響參數(shù)λ3;3)地理鄰域關(guān)系加權(quán)參數(shù)α.研究分析這些參數(shù)時(shí),通過(guò)改變其中一個(gè)參數(shù)的數(shù)值同時(shí)固定其他參數(shù),來(lái)分析其對(duì)最終推薦結(jié)果的影響以及GeoSoRev模型對(duì)于參數(shù)的靈敏度問(wèn)題.
1) 對(duì)鄰域關(guān)系加權(quán)參數(shù)α進(jìn)行分析,設(shè)置k=5,λ4=0.05,λ1=0.5,λ2=0.5,λ3=0.001.如圖7(a)(b)顯示了α基于2個(gè)數(shù)據(jù)集對(duì)于式(13)的影響.從圖7(a)(b)可以看出:①α的取值范圍在0.4~0.6之間時(shí)獲得了比較好的效果,這說(shuō)明α在衡量用戶(hù)對(duì)于推薦的興趣點(diǎn)的偏好和地理鄰域特征方面的重要性;②α=0或者α=1都會(huì)導(dǎo)致推薦精度的下降.特別是α=0時(shí),被認(rèn)為不考慮地理鄰域特征,由此造成了推薦精度的下降.
2) 當(dāng)k=5,λ1=0.5,λ2=0.5,λ4=0.05時(shí),社交信息參數(shù)λ3對(duì)整個(gè)模型的影響如圖8(a)(b)所示.從圖8(a)(b)得到如下結(jié)論:①當(dāng)λ3=0.001時(shí)取得最好的推薦效果,但是當(dāng)λ3=0時(shí)推薦精度會(huì)下降;②當(dāng)λ3>1時(shí),GeoSoRev模型表現(xiàn)穩(wěn)定,沒(méi)有因?yàn)棣?的變化而變得敏感;③當(dāng)λ3在0~1之間時(shí),性能的波動(dòng)不是很明顯.因此,GeoSoRev模型對(duì)于λ3不是非常敏感,選擇λ3=0.001作為默認(rèn)值是合理的.
Fig. 7 Effect of parameter α on recommendation accuracy of GeoSoRev.圖7 GeoSoRev模型對(duì)于參數(shù)α的分析
Fig. 8 Effect of sensitive parameter λ3 on recommendation accuracy of GeoSoRev.圖8 GeoSoRev模型對(duì)于參數(shù)λ3的敏感度分析
Fig. 9 Effect of sensitive parameter λ4 on recommendation accuracy of GeoSoRev.圖9 GeoSoRev模型對(duì)于參數(shù)λ4的敏感度分析
3) 當(dāng)k=5,λ1=0.5,λ2=0.5,λ3=0.001時(shí),評(píng)論關(guān)系參數(shù)λ4對(duì)整個(gè)模型的影響如圖9(a)(b)所示.如圖9(a)(b)所示,當(dāng)λ4=0.05時(shí),GeoSoRev模型在準(zhǔn)確率和召回率上取得比較好的效果;但是當(dāng)λ4>1時(shí),GeoSoRev模型表現(xiàn)相對(duì)比較穩(wěn)定,沒(méi)有因?yàn)棣?的變化而變得敏感;當(dāng)λ4在0~1之間時(shí)性能波動(dòng)不是很明顯.因此,GeoSoRev模型對(duì)于λ4不是很敏感而是比較穩(wěn)定的,而λ4=0.05作為默認(rèn)值是合理的.這主要因?yàn)樵谝黄u(píng)論中用戶(hù)可能只提到了部分潛在因素而不是所有的因素.
5結(jié)論與展望
如何將用戶(hù)的多種情景信息和用戶(hù)的評(píng)論信息等多種異構(gòu)數(shù)據(jù)應(yīng)用到興趣點(diǎn)推薦問(wèn)題中對(duì)于傳統(tǒng)的推薦系統(tǒng)而言是一個(gè)挑戰(zhàn).本文提出一種新的推薦模型GeoSoRev,該模型將3種異構(gòu)多源的信息進(jìn)行融合并有效地進(jìn)行推薦.GeoSoRev較好地解決了基于位置社交網(wǎng)絡(luò)研究中利用情景信息和評(píng)論內(nèi)容進(jìn)行興趣點(diǎn)推薦的問(wèn)題.其最大的優(yōu)勢(shì)和創(chuàng)新點(diǎn)在于將用戶(hù)簽到信息、社會(huì)影響、地理影響、情感影響等多個(gè)方面的影響因素都融合到一個(gè)統(tǒng)一的模型中,這也是一個(gè)全新的工作.真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,GeoSoRev模型相對(duì)于其他的主流推薦模型在準(zhǔn)確率和召回率2個(gè)評(píng)估指標(biāo)上有著明顯的提高.
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(即深度學(xué)習(xí))已經(jīng)被用來(lái)學(xué)習(xí)各種情景信息和文本內(nèi)容,從而被應(yīng)用到推薦問(wèn)題中.因此,未來(lái)將深度學(xué)習(xí)技術(shù)融入到GeoSoRev模型中是一個(gè)非常有價(jià)值的研究問(wèn)題.
參考文獻(xiàn)
[1]Wang Yuanzhuo, Jin Xiaolong, Chen Xueqi. Network big data: Present and future[J]. Chinese Journal of Computers, 2013, 36(6): 1125-1138 (in Chinese)(王元卓,靳小龍,程學(xué)旗,網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(6): 1125-1138
[2]Ding Zhaoyun, Jia Yan, Zhou Bin. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706 (in Chinese)(丁兆云, 賈焰, 周斌. 微博數(shù)據(jù)挖掘研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(4): 691-706)
[3]Liu X, Liu Y, Aberer K, et al. Personalized point-of-interest recommendation by mining users’ preference transition[C] //Proc of the 22nd ACM Conf on Information and Konwledge Management (CIKM’13). New York: ACM, 2013: 733-738
[4]Wu L, Chen E H, Liu Q, et al. Leveraging tagging for neighborhood-aware probabilistic matrix factorization[C] //Proc of the 21st ACM Conf on Information and Knowledge Management (CIKM’12). New York: ACM, 2012: 1854-1858
[5]Li X T, Cong G. Rank-GeoFM: A ranking based geographical factorization method for point of interest recommendation[C] //Proc of the 38th Int ACM SIGIR Conf on Research on Development in Information Retrieval(SIGIR’15). New York: ACM, 2015: 433-442
[6]Yuan Q, Cong G, Ma Z, et al. Time-aware point-of-interest recommendation[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval(SIGIR’13). New York: ACM, 2013: 363-372
[7]Liu B, Xiong H. A general geographical probabilistic factor model for point of interest recommendation[J]. IEEE Trans on Knowledge and Data Engineering, 2015, 27(5): 1167-1179
[8]Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C] //Proc of the 4th ACM Conf on Recommender Systems(RecSys’10). New York: ACM, 2010: 135-142
[9]Gao H J, Tang J L, Hu X, et al. Content-aware point of interest recommendation on location-based social networks[C] //Proc of the 29th AAAI Conf on Artificial Intelligence(AAAI’15). Menlo Park, CA: AAAI, 2015: 336-350
[10]Ference G, Ye M. Location recommendation for out-of-town users in location-based social networks[C] //Proc of the 22nd ACM Conf on Information and Knowledge Management(CIKM’13). New York: ACM, 2013: 721-726
[11]Cheng C, Yang H Q, King I, et al. Fused matrix factorization with geographical and social influence in location-based social networks[C]//Proc of the 26th AAAI Conf on Artificial Intelligence(AAAI’12). Menlo Park, CA: AAAI, 2012: 211-276
[12]Lian D F, Zhao C, Xie X, et al. GeoMF: Joint geographical modeling and matrix factorization for point-of-interest recommendation[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’14). New York: ACM, 2014: 831-840
[13]Cheng Z Y, Caverlee J, Lee K, et al. Exploring millions of footprints in location sharing services[C] //Proc of the 5th Int Conf on Weblogs and Social Media(ICWSM’11). Menlo Park, CA: AAAI, 2011: 221-226
[14]Yin H Z, Cui B, Sun Y Z, et al. LCARS: A spatial item recommender system[J]. ACM Trans on Information Systems, 2014, 32(3): 111-1137
[15]Yin H Z, Sun Y Z, Cui B, et al. LCARS: A location-content-aware recommender system[C] //Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’13). New York: ACM, 2013: 221-229
[16]Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. IEEE Computer Society, 2009, 42(8): 30-37
[17]Blei M D, Ng A Y, Jordan I M. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022
[18]Cai D, Mei Q, Han J W, et al. Modeling hidden topics on document manifold[C] //Proc of the 17th ACM Conf on Information and Knowledge Management(CIKM’08). New York: ACM, 2008: 911-920
[19]Bao Y, Fang H, Zhang J. TopicMF: Simultaneously exploiting ratings and reviews for recommendation[C] //Proc of the 28th AAAI Conf on Artificial Intelligence (AAAI’14). Menlo Park, CA: AAAI, 2014: 236-250
[20]McAuley J, Leskovec J. Hidden factors and hidden topics understanding rating dimensions with review text[C] //Proc of the 7th ACM Conf on Recommender Systems (RecSys’13). New York: ACM, 2013: 165-172
[21]Liu Y, Wei W, Sun A X, et al. Exploiting geographical neighborhood characteristics for location recommendation[C] //Proc of the 23rd ACM Conf on Information and Knowledge Management(CIKM’14). New York: ACM, 2014: 739-748
[22]Ma H, Zhou D Y. Recommender systems with social regularization[C] //Proc of the 4th Int ACM Conf on Web Search and Data Mining (WSDM’11). New York: ACM, 2011: 287-296
[23]Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model[C] //Proc of the 14th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining (KDD’08). New York: ACM, 2008: 426-434
[24]Nocedal J. Updating quasi-newton matrixes with limited storage[J]. Mathematics of Computation, 1980, 35(151): 773-782
[25]Lin C J. Projected gradient methods for nonnegative matrix factorization[J]. Neural Computation, 2007, 19(10): 2756-2779
[26]Bao J, Zheng Y, Mokbel M F, et al. Location-based and preference-aware recommendation using sparse geo-social networking data[C] //Proc of the 20th Int ACM Conf on Advances in Geographic Information Systems (SIGSPATIAL’12). New York: ACM, 2012: 199-208
[27]Zhang J D, Chow C Y. CoRe: Exploiting the personalized influence of two-dimensional geographic coordinates for location recommendation[J]. Information Science, 2015, 29(1): 163-181
[28]Ye M, Yin P, Lee W C, et al. Exploiting geographical influence for collaborative point-of-interest recommendation[C] //Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval(SIGIR’11). New York: ACM, 2011: 325-334
[29]Yang D Q, Zhang D Q, Yu Z Y, et al. A sentiment-enhanced personalized location recommendation system[ C] //Proc of the 24th ACM Conf on Hypertext and Social Media (HT’13). New York: ACM, 2013: 119-128
[30]Ying J J C, Kuo W N, Tseng V S, et al. Mining user check-in behavior with a random walk for urban point-of-interest recommendations[J]. ACM Trans on Intelligent Systems and Technology, 2014, 5(3): 1-26
[31]Hu L K, Sun A X, Liu Y. Your neighbors affect your ratings: On geographical neighborhood influence to rating prediction[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR’14). New York: ACM, 2014: 345-354
Gao Rong, born in 1981. PhD candidate in Wuhan University. His main research interests include data mining and intelligent recommendation (gaorong198149@163.com).
Li Jing, born in 1967. Professor and PhD supervisor in Wuhan University. His current research interests include data mining and multimedia technology.
Du Bo, born in 1983. Associate professor and PhD supervisor in Wuhan University. His current research interests include data mining and pattern recognition(remoteking@whu.edu.cn).
Yu Yonghong, born in 1978. PhD and lecturer in Nanjing University. His current research interests include data mining and recommendation algorithm(yuyh@njupt.edu.cn).
Song Chengfang, born in 1978. PhD and lecturer in Wuhan University. His current research interests include visualization analysis and location service (songchf@whu.edu.cn).
Ding Yonggang, born in 1966. PhD and associate professor in Hubei University. Her current research interests include data mining and Web information retrieval (hddyg@hubu.edu.cn).
A Synthetic Recommendation Model for Point-of-Interest on Location-Based Social Networks: Exploiting Contextual Information and Review
Gao Rong1, Li Jing1, Du Bo1, Yu Yonghong2, Song Chengfang1, and Ding Yonggang1,3
1(ComputerSchool,WuhanUniversity,Wuhan430072)2(StateKeyLaboratoryforNovelSoftwareTechnology(NanjingUniversity),Nanjing210046)3(FacultyofEducation,HubeiUniversity,Wuhan430062)
AbstractWith the rapid growth of location-based social network (LBSN), point-of-interest (POI) recommendation has become an important mean to help people discover attractive locations. However, most of existing models of POI recommendation on LBSNs improve recommendation quality by exploiting the user check-in history behavior and contextual information(e.g., geographical information and social correlations), and they tend to ignore the review texts information accompanied with rating information for recommender models. While in reality, users only check in a few POIs in LBSN, which makes the user-POIs check-in history records and contextual information highly sparse, and causes a big challenge for POIs recommendations. To tackle this challenge, a novel POIs recommendation model called GeoSoRev is proposed in this paper, which combines users’ preference to a POI with geographical information, social correlations and reviews text on the basis of the classic recommendation model based on matrix factorization. Experimental results on two real-world datasets collected from Foursquare show that GeoSoRev achieves significantly superior precision and recalling rates compared with other state-of-the-art POIs recommendation models.
Key wordslocation recommendation; matrix factorization; social relationships; geographical information; review text
收稿日期:2015-12-01;修回日期:2016-02-03
基金項(xiàng)目:國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2012CB719905);國(guó)家自然科學(xué)基金青年項(xiàng)目(41201404);中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2042015gf0009)
通信作者:李晶(leejingcn@163.com)
中圖法分類(lèi)號(hào)TP311
DOI:計(jì)算機(jī)研究與發(fā)展10.7544?issn1000-1239.2016.20151079 Journal of Computer Research and Development53(4): 764-775, 2016
This work was supported by the National Basic Research Program of China (973 Program) (2012CB719905), the National Natural Science Foundation (41201404), and the Fundamental Research Funds for the Central Universities (2042015gf0009).