国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于上下文感知和個(gè)性化度量嵌入的下一個(gè)興趣點(diǎn)推薦*

2018-05-08 09:38鮮學(xué)豐陳曉杰趙朋朋楊元峰VictorSheng
關(guān)鍵詞:時(shí)序度量準(zhǔn)確率

鮮學(xué)豐,陳曉杰,趙朋朋,楊元峰 ,Victor S.Sheng

(1.江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心,江蘇 蘇州 215104; 2.蘇州大學(xué)智能信息處理及應(yīng)用研究所,江蘇 蘇州 215006; 3.阿肯色中央大學(xué)計(jì)算機(jī)科學(xué)系,康威 72035)

1 引言

隨著全球定位系統(tǒng)和無線通信網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的飛速發(fā)展以及手持、車載無線通信定位設(shè)備的廣泛應(yīng)用,特別是眾多移動(dòng)社交網(wǎng)絡(luò)的位置簽到、位置共享及位置標(biāo)識等功能的應(yīng)用普及,位置服務(wù)與社交網(wǎng)絡(luò)逐漸融合,形成了基于位置的社交網(wǎng)絡(luò)LBSN(Location-Based Social Networks)。例如,F(xiàn)oursquare、Gowalla和Yelp 等社交應(yīng)用通過移動(dòng)用戶的地理位置推行的簽到功能,把線上虛擬社會(huì)與線下真實(shí)世界聯(lián)結(jié)在一起,實(shí)現(xiàn)了用戶位置定位的同時(shí),還實(shí)現(xiàn)了位置信息在虛擬網(wǎng)絡(luò)世界的共享與傳播,從而衍生出多種多樣的位置服務(wù)。

目前個(gè)性化推薦技術(shù)得到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,在多個(gè)領(lǐng)域得到廣泛應(yīng)用,比如電子商務(wù)網(wǎng)站為用戶推薦商品,視頻網(wǎng)站為用戶推薦電影。日益成熟的推薦技術(shù)較好地解決了互聯(lián)網(wǎng)信息過載的問題。在基于位置的社交網(wǎng)絡(luò)中,興趣點(diǎn)推薦作為熱門的研究課題,旨在為用戶推薦興趣點(diǎn),方便用戶出行生活,并且提升平臺(tái)的用戶體驗(yàn)[1 - 6]。

在興趣點(diǎn)推薦的研究工作中,用戶個(gè)人偏好對推薦的結(jié)果起了主導(dǎo)作用。在個(gè)性化推薦領(lǐng)域,用戶個(gè)人偏好成為了必不可少的因素[7]。一些研究工作表明,用戶的時(shí)序性簽到行為可以反映出人類活動(dòng)的時(shí)序性模式[8]。在研究工作中得出的個(gè)性化的馬爾科夫鏈分解FPMC(Factorizing Personalized Markov Chains)方法[9],主要使用矩陣分解的方法。然而,這并沒有挖掘出興趣點(diǎn)之間的潛在聯(lián)系。在下一個(gè)興趣點(diǎn)推薦的研究中,如何在一階馬爾科夫鏈模型中獲取用戶簽到記錄之間的轉(zhuǎn)移概率成為全新的挑戰(zhàn)。由于數(shù)據(jù)的稀疏性,馬爾科夫鏈模型難以評估未被觀察到的數(shù)據(jù)間的轉(zhuǎn)移概率。為了有效解決這個(gè)問題,進(jìn)一步的研究提出了個(gè)性化排名度量嵌入法PRME(Personalized Ranking Metric Embedding)[10],通過將每一個(gè)興趣點(diǎn)映射到低維空間計(jì)算興趣點(diǎn)之間的轉(zhuǎn)移概率。PRME模型結(jié)合考慮了用戶偏好和時(shí)序性轉(zhuǎn)移兩個(gè)影響因素。和FPMC模型相比,PRME模型更好地解決了數(shù)據(jù)稀疏性帶來的問題。然而,PRME模型沒有深度挖掘簽到行為的上下文情境信息來進(jìn)行推薦。

然而,在大多數(shù)興趣點(diǎn)推薦的研究工作中,用戶訪問的周期性習(xí)慣和伴隨著用戶偏好的上下文情境信息還沒有被深度挖掘出來。上下文情境信息包括每天的時(shí)間段、每周的星期、當(dāng)前簽到興趣點(diǎn)的分類等。例如,在工作日,人們通常習(xí)慣于在上班途中光顧一家咖啡店,我們可以把這個(gè)看作是一種周期性的行為習(xí)慣。據(jù)分析,下一個(gè)興趣點(diǎn)和當(dāng)前興趣點(diǎn)息息相關(guān)。例如,通常在健身結(jié)束后,人們傾向于選擇去餐廳補(bǔ)充高蛋白食物,而不是去酒吧。本文統(tǒng)計(jì)并分析了Foursquare中來自日本東京的用戶簽到記錄,圖1描述了4種熱門簽到地點(diǎn)類別在一天各個(gè)時(shí)間點(diǎn)的簽到幾率,圖2描述了4種熱門簽到地點(diǎn)類別在一周各天的簽到幾率??梢园l(fā)現(xiàn),按類別劃分用戶的活動(dòng)具有周期性。圖1中屬于Nightlife Spot類別的簽到通常發(fā)生在晚上十點(diǎn)到凌晨四點(diǎn)之間,而在白天則很少。圖2中屬于School類別的簽到通常發(fā)生在工作日,周末的幾率則很小。根據(jù)以上分析可以得出,用戶的周期性行為模式對下一個(gè)興趣點(diǎn)推薦有很大影響。

Figure 1 Periodic analysis of one day sign in behavior圖1 一天簽到行為周期性分析

Figure 2 Periodic analysis of one week sign in behavior圖2 一周簽到行為周期性分析

基于以上考慮,針對用戶簽到的數(shù)據(jù)稀疏性問題,本文將用戶周期性行為模式歸結(jié)為上下文情境信息,提出了一種個(gè)性化度量嵌入的推薦算法,同時(shí)將用戶簽到的上下文情境信息考慮進(jìn)來,從而豐富有效數(shù)據(jù),緩解數(shù)據(jù)稀疏性問題,提高推薦的準(zhǔn)確率,并且進(jìn)一步優(yōu)化算法,降低時(shí)間復(fù)雜度。本文考慮的上下文情境信息包括每天的時(shí)間段、每周的星期、當(dāng)前簽到興趣點(diǎn)的分類等。通過將每一個(gè)興趣點(diǎn)映射到低維隱式空間,進(jìn)一步使用度量嵌入算法來計(jì)算興趣點(diǎn)之間的轉(zhuǎn)移概率。然后,使用度量排序嵌入的算法將隱式空間的候選推薦興趣點(diǎn)進(jìn)行排序。本文提出了基于上下文感知的個(gè)性化度量嵌入模型CPME(Context-aware Personalized Metric Embedding),結(jié)合考慮了時(shí)序性影響、用戶個(gè)人偏好和上下文情境信息。最后,基于用戶更偏向于訪問離自己更近的興趣點(diǎn)的事實(shí),將地理影響因素考慮在內(nèi),進(jìn)而提出了CPME-G(Context-aware Personalized Metric Embedding-Geo)模型。

本文第2節(jié)介紹興趣點(diǎn)研究的相關(guān)工作;在第3節(jié)中,將對下一個(gè)興趣點(diǎn)推薦進(jìn)行問題定義;第4節(jié)詳細(xì)解釋所提出的模型;第5節(jié)深入剖析所提出模型的參數(shù)訓(xùn)練;在第6節(jié)中,本文將展示實(shí)驗(yàn)結(jié)果;最后,將在第7節(jié)中總結(jié)本文的工作。

2 相關(guān)工作

興趣點(diǎn)推薦所采用的數(shù)據(jù)集可以分為基于GPS的軌跡數(shù)據(jù)和LSBN中的簽到數(shù)據(jù)。利用基于GPS軌跡數(shù)據(jù)進(jìn)行推薦,其首要工作就是從軌跡數(shù)據(jù)中挖掘出興趣點(diǎn)并進(jìn)行推薦研究[11]。LSBN中的用戶簽到數(shù)據(jù)不僅包含興趣點(diǎn)語義描述信息,還包含興趣點(diǎn)地理位置信息,同時(shí)還具有豐富的用戶社交網(wǎng)絡(luò)信息,因此基于位置的興趣點(diǎn)推薦研究受到研究者的廣泛關(guān)注。興趣點(diǎn)推薦至今已取得不少成果,可以分為以下四類:

(1)基于地理位置影響因素的推薦,文獻(xiàn)[12]發(fā)掘了簽到記錄中的“地理聚類現(xiàn)象”,用來提高興趣點(diǎn)推薦的準(zhǔn)確率。(2)基于時(shí)序影響因素的推薦,文獻(xiàn)[13]充分利用了時(shí)序影響因素來提高興趣點(diǎn)推薦的性能。(3)基于社交關(guān)系因素的推薦,文獻(xiàn)[14]提出了一種新的推薦框架SoDimRec,它結(jié)合了社交關(guān)系的非均勻性和弱關(guān)系依賴來進(jìn)行推薦。(4)基于內(nèi)容的推薦,文獻(xiàn)[15]提出了一種考慮內(nèi)容的貝葉斯協(xié)同過濾框架,同時(shí)給出了一種可擴(kuò)展的優(yōu)化算法來學(xué)習(xí)潛在參數(shù)和超參數(shù),特別是針對隱式反饋的挖掘。

隨著興趣點(diǎn)推薦的熱度上升,基于序列的下一個(gè)興趣點(diǎn)推薦已成為興趣點(diǎn)推薦的熱點(diǎn)研究問題。文獻(xiàn)[16]提出了一個(gè)統(tǒng)一的基于張量的隱式模型,為了更好地進(jìn)行下一個(gè)興趣點(diǎn)的個(gè)性化推薦,它將潛在可被觀察的連續(xù)簽到行為融合到一種用戶的隱式傾向中。詞嵌入和成分嵌入模型在自然語言處理領(lǐng)域已經(jīng)取得了很好的效果。有研究者將度量嵌入的算法應(yīng)用在下一個(gè)興趣點(diǎn)推薦領(lǐng)域。為了解決數(shù)據(jù)稀疏性問題,文獻(xiàn)[10]使用了度量嵌入算法并提出了個(gè)性化排名度量嵌入模型。文獻(xiàn)[17]提出了基于圖的度量嵌入模型來表示低維隱式空間的興趣點(diǎn),并且他們提出了一種事件衰減的方法來挖掘表示動(dòng)態(tài)的用戶偏好。為了提取關(guān)系特征,文獻(xiàn)[18]提出了多特征成分嵌入模型。在上述相關(guān)工作的基礎(chǔ)上,本文進(jìn)一步挖掘了用戶行為的周期性和伴隨著用戶偏好的上下文情境信息,并采用度量嵌入的方法來進(jìn)行下一個(gè)興趣點(diǎn)推薦。

3 問題定義

下一個(gè)興趣點(diǎn)推薦的目的是根據(jù)用戶的當(dāng)前地點(diǎn)推薦下一個(gè)興趣點(diǎn)。當(dāng)兩個(gè)連續(xù)的簽到點(diǎn)發(fā)生在一個(gè)很短的時(shí)間段內(nèi)時(shí),他們之間就存在馬爾科夫鏈的性質(zhì)[7]。馬爾科夫鏈描述了從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)的隨機(jī)過程。這個(gè)過程具有無記憶性的特點(diǎn),也就是說,下一個(gè)狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時(shí)間序列中它前面的時(shí)間均與之無關(guān)??梢缘贸霎?dāng)需要考慮一個(gè)短時(shí)間段內(nèi)的興趣點(diǎn)轉(zhuǎn)移關(guān)系時(shí),意味著下一個(gè)興趣點(diǎn)受當(dāng)前興趣點(diǎn)的影響。本文研究的下一個(gè)興趣點(diǎn)推薦是在過濾掉用戶訪問過的興趣點(diǎn)的前提下給用戶推薦新的興趣點(diǎn),問題定義如下:

給定一個(gè)LBSN的用戶集合U={u1,u2,…,ui,…,uX},以及地理位置點(diǎn)的集合L={l1,l2,…,lj,…,lY},即興趣點(diǎn)集合。其中X和Y分別是用戶的個(gè)數(shù)和興趣點(diǎn)的個(gè)數(shù)。每個(gè)地理位置點(diǎn)可以用〈longitude,latitude〉來描述具體定位。給定一個(gè)用戶的當(dāng)前興趣點(diǎn)lc以及歷史訪問記錄Lu,下一個(gè)興趣點(diǎn)推薦問題就是基于用戶的當(dāng)前興趣點(diǎn)lc給用戶u推薦一系列將要訪問的下一個(gè)興趣點(diǎn)集合Recu,lc,Recu,lc={l∈LLu}。文中涉及符號的定義如表1所示。

Table 1 Symbol definition表1 符號定義

4 基于上下文感知的個(gè)性化度量嵌入推薦方法

4.1 度量排序嵌入

本文采用興趣點(diǎn)之間的轉(zhuǎn)移概率來描述當(dāng)前興趣點(diǎn)對下一個(gè)興趣點(diǎn)的影響,由于數(shù)據(jù)稀疏性對計(jì)算興趣點(diǎn)之間的轉(zhuǎn)移概率帶來了巨大的困擾,基于度量嵌入的方法很好地緩解了該問題。該方法將每一個(gè)興趣點(diǎn)映射到一個(gè)低維空間,通過計(jì)算興趣點(diǎn)之間的歐氏距離來描述轉(zhuǎn)移概率,本文采用的歐氏距離是業(yè)界最常用的度量方式。兩個(gè)興趣點(diǎn)之間的距離越近,說明它們之間的轉(zhuǎn)移概率越高。當(dāng)所有的興趣點(diǎn)都嵌入到低維空間中后,可以挖掘出未被觀察到的興趣點(diǎn)之間的轉(zhuǎn)移概率。在度量嵌入模型中,每一個(gè)興趣點(diǎn)在一個(gè)K維空間都存在一個(gè)位置E(l)。一對候選興趣點(diǎn)〈li,lj〉之間的轉(zhuǎn)移概率的定義如下:

(1)

度量嵌入的方法可以很好地挖掘興趣點(diǎn)間的關(guān)系,并且將這些關(guān)系通過距離展現(xiàn)出來。因此,基于度量嵌入的方法在模擬時(shí)序關(guān)系的轉(zhuǎn)移上有很大的優(yōu)勢。所謂興趣點(diǎn)間的聯(lián)系,即:假設(shè)有三個(gè)連續(xù)的簽到點(diǎn)li,lj和lk。依據(jù)馬爾科夫鏈描述的過程,可以得到兩組可觀察到的序列l(wèi)i→lj和lj→lk。不可避免地,li對lk也會(huì)產(chǎn)生影響,即:li→lk是一個(gè)隱式的轉(zhuǎn)移關(guān)系。如果這個(gè)轉(zhuǎn)移關(guān)系更緊密,那么在低維空間上E(li)和E(lk)之間的距離會(huì)更加接近它們和E(lj)之間的距離。

對于單獨(dú)一個(gè)用戶,他所有的個(gè)人簽到記錄所涉及的簽到點(diǎn)總是有限的,即他不可能對所有的興趣點(diǎn)進(jìn)行過訪問,換句話說,從任意一個(gè)用戶獲得的可觀察到的數(shù)據(jù)是稀疏的。需要更充分地利用這些已被觀察到的數(shù)據(jù)來進(jìn)行參數(shù)學(xué)習(xí)。相比于未觀察到的興趣點(diǎn),已觀察到的下一個(gè)興趣點(diǎn)和當(dāng)前興趣點(diǎn)更接近。例如,存在一個(gè)已被觀察到的轉(zhuǎn)移關(guān)系lc→li和一個(gè)未被觀察到的轉(zhuǎn)移關(guān)系lc→lj,從當(dāng)前興趣點(diǎn)lc轉(zhuǎn)移到興趣點(diǎn)li比轉(zhuǎn)移到興趣點(diǎn)lj概率更大。我們可以得出以下排序:

(2)

本文將兩個(gè)興趣點(diǎn)之間的歐氏距離表示為‖E(li)-E(lj)‖2,并縮寫為Dli,lj。對興趣點(diǎn)的排序方法如下:

?

e-‖E(li)-E(lc)‖2>e-‖E(lj)-E(lc)‖2?

‖E(li)-E(lc)‖2<‖E(lj)-E(lc)‖2?

Dlc,lj-Dlc,li>0

(3)

4.2 上下文感知度量排序嵌入

4.2.1 用戶偏好空間

4.2.2 時(shí)序關(guān)系空間

4.2.3 上下文感知空間

Table 2 Spatial time segment classificationdescription to Time-of-Day space表2 Time-of-Day空間時(shí)間段分類描述

Figure 3 Points of interest map to Time-of-Day space圖3 興趣點(diǎn)映射到Time-of-Day空間

Figure 4 Points of interest map to Day-of-Week space圖4 興趣點(diǎn)映射到Day-of-Week空間

Figure 5 Points of interest map to Category space圖5 興趣點(diǎn)映射到Category空間

根據(jù)以上分析,本文將用戶個(gè)人偏好、時(shí)序轉(zhuǎn)移關(guān)系和上下文感知信息綜合考慮來衡量一個(gè)候選興趣點(diǎn)的轉(zhuǎn)移概率。給定一個(gè)用戶u以及他的當(dāng)前位置lc,我們使用線性插值函數(shù)來衡量這三個(gè)度量。最后,綜合距離的定義由以下公式給出:

(4)

其中a,b,c,d,e分別代表不同隱式空間上對應(yīng)的歐氏距離的權(quán)重,且滿足a,b,c,d,e∈[0,1]以及a+b+c+d+e=1。

通過把每一個(gè)興趣點(diǎn)映射到創(chuàng)建的三個(gè)空間:Time-of-Day空間、Day-of-Week空間和Category空間,我們將每一個(gè)興趣點(diǎn)按組分配到對應(yīng)的具體空間。根據(jù)第3節(jié)的論述,如果兩個(gè)連續(xù)興趣點(diǎn)之間的時(shí)間差小于τ,時(shí)序性所帶來的影響就應(yīng)當(dāng)被考慮。如果兩個(gè)連續(xù)簽到點(diǎn)的時(shí)間差很大,就認(rèn)為他們在時(shí)序性上相互之間不受影響,因此就僅僅考慮用戶偏好帶來的影響。根據(jù)以上分析,本文給出以下函數(shù):

對于l,lc∈LT,W,且a,b,c,d,e∈[0,1],a+b+c+d+e=1,

(5)

4.2.4 結(jié)合地理影響因素

據(jù)分析,當(dāng)給定當(dāng)前的位置時(shí),用戶偏向于訪問更近的興趣點(diǎn)而不是離他們更遠(yuǎn)的興趣點(diǎn)。因此,地理位置的遠(yuǎn)近對用戶的訪問行為有很大的影響。根據(jù)這些分析,本文考慮了地理影響因素,提出了CPME-G模型,該模型是在CPME的基礎(chǔ)上加入了地理影響因素。本文引入一個(gè)變量來描述地理影響因素的權(quán)重并通過地理位置的經(jīng)緯度來描述地理距離。對于給定一對興趣點(diǎn)之間的地理距離dlc,l和權(quán)重函數(shù)g(lc,l)={(1+dlc,l)0.25},它們之間的混合度量距離就可以表示為Du,lc,l·wlc,l。當(dāng)興趣點(diǎn)之間的距離很小時(shí),它們之間的混合度量距離也會(huì)很小,這意味著這個(gè)興趣點(diǎn)很有可能被推薦。最后,結(jié)合地理影響因素的度量可以被定義為:

對于l,lc∈LT,W,且a,b,c,d,e∈[0,1],a+b+c+d+e=1,

(6)

5 參數(shù)學(xué)習(xí)

本文使用一種近似于貝葉斯個(gè)性化排名的方法BPR(Baysian Personalized Ranking)[19],假設(shè)用戶和他們的簽到歷史記錄是獨(dú)立的,我們可以用極大后驗(yàn)假設(shè)來評估本文提出的基于上下文感知個(gè)性化度量嵌入模型:

(7)

其中Θ={ES(L),EP(L),EP(U),EC(L)}是參數(shù)的集合。

類似于文獻(xiàn)[12],本文使用邏輯回歸函數(shù)σ(z)=1/(1+e-z)進(jìn)行歸一化操作,得到的排名概率可表示為:

P(>u,lc|Θ)=

P((Du,lc,lj-Du,lc,li)>0|Θ)=σ(Du,lc,lj-Du,lc,li)

(8)

假設(shè)模型參數(shù)服從高斯分布,那么可以得到最后的目標(biāo)函數(shù),λ是一個(gè)正則項(xiàng)的參數(shù):

Du,lc,li))-λ‖Θ‖2

(9)

緊接著BPR方法,本文使用隨機(jī)梯度下降的方法來更新參數(shù)。根據(jù)歷史簽到記錄,我們可以獲得一組可被觀察到的數(shù)據(jù)〈u,lc,li〉,其中l(wèi)c是指用戶u的當(dāng)前位置,li是下一個(gè)興趣點(diǎn)。對于每一組觀察到的數(shù)據(jù),本文通過隨機(jī)生成一個(gè)興趣點(diǎn)lj,并且它滿足不在用戶的歷史記錄中。給定一組訓(xùn)練數(shù)據(jù)〈u,lc,li,lj〉,那么這個(gè)更新的過程可以被描述為:

(10)

其中z=Du,lc,lj-Du,lc,li,γ是學(xué)習(xí)速率因子。

本文將提出的CPME模型的學(xué)習(xí)算法總結(jié)在算法1 中。該算法的描述如下:首先,初始化模型參數(shù),使其服從高斯分布(Line 1)。然后從訓(xùn)練集中讀取并存儲(chǔ)〈u,lc,li〉,其中l(wèi),lc∈LT,W(Line 3)。對于每一個(gè)訪問過的元組〈u,lc,li〉,本文從興趣點(diǎn)集中隨機(jī)產(chǎn)生一個(gè)興趣點(diǎn)lj,且滿足用戶u沒有訪問過這個(gè)興趣點(diǎn)(Line 4)。接著,算法將Δ(lc,li)的時(shí)間差和設(shè)定的時(shí)間閾值τ進(jìn)行比較。如果Δ(lc,li)<τ,那么就更新這些參數(shù)(Line 6~Line 10)。本算法綜合考慮了用戶個(gè)人偏好、時(shí)序轉(zhuǎn)移關(guān)系和上下文感知。當(dāng)我們要訓(xùn)練CPME-G模型時(shí),需加上地理影響權(quán)重g(lc,l)={(1+dlc,l)0.25},并使用相似的算法進(jìn)行參數(shù)學(xué)習(xí)??偨Y(jié)發(fā)現(xiàn),本算法的時(shí)間復(fù)雜度為O(KI|H|),其中,K是空間維數(shù),I是迭代訓(xùn)練的次數(shù),并且H是觀察到的數(shù)據(jù)的集合。

算法1基于上下文感知個(gè)性化度量嵌入算法

輸入:簽到數(shù)據(jù)集H,學(xué)習(xí)速率因子γ,權(quán)重a,b,c,d和e,時(shí)間閾值τ。

輸出:模型參數(shù)Θ=ES(L),EP(L),EP(U),ET(L),EW(L),EC(L)。

1. 初始化Θ使其服從高斯分布N(0,0.01);

2. repeat

3. for Each Observation 〈u,lc,li〉,l,lc∈LT,Wdo

4. Randomly generate an unobserved POIlj

5. ifΔ(lc,li)<τthen

6. UpdateEP(u),EP(li),EP(lj);

7. UpdateES(lc),ES(li),ES(lj);

8. UpdateET(lc),ET(li),ET(lj);

9. UpdateEW(lc),EW(li),EW(lj);

10. UpdateEC(lc),EC(li),EC(lj);

11. end if

12. ifΔ(lc,li) then

13. UpdateEP(u),EP(li),EP(lj);

14. end if

15. end for

16. until convergence;

17. returnΘ=ES(L),EP(L),EP(U),ET(L),EW(L),EC(L).

6 實(shí)驗(yàn)設(shè)計(jì)

6.1 數(shù)據(jù)集

本實(shí)驗(yàn)使用的數(shù)據(jù)集是來源于Foursquare的用戶真實(shí)簽到記錄,分別為紐約和東京兩個(gè)城市。該數(shù)據(jù)集記錄了從2012年4月到2013年2月的10個(gè)月間的用戶簽到記錄,該數(shù)據(jù)集被使用于文獻(xiàn)[16]的實(shí)驗(yàn)驗(yàn)證。本實(shí)驗(yàn)通過以下步驟對數(shù)據(jù)集進(jìn)行預(yù)處理。首先過濾掉無效的簽到數(shù)據(jù),并且選取了在紐約和東京兩個(gè)城市間總簽到個(gè)數(shù)不少于90次的用戶簽到記錄。經(jīng)預(yù)處理后統(tǒng)計(jì)如表3所示,紐約的數(shù)據(jù)集中共有1 083個(gè)用戶和38 471個(gè)興趣點(diǎn),總簽到記錄有227 482條。東京的數(shù)據(jù)集中有2 293個(gè)用戶和61 886個(gè)興趣點(diǎn),總簽到記錄有573 703條。紐約和東京的數(shù)據(jù)集密度分別為0.545 861%和0.404 288%。Foursquare上的數(shù)據(jù)集類別可以分為9個(gè)根類別和417個(gè)子類別,9個(gè)根類別主要包括餐廳、車站、辦公、戶外運(yùn)動(dòng)等等。根據(jù)這10個(gè)月的簽到數(shù)據(jù),實(shí)驗(yàn)將前7個(gè)月的簽到記錄作為訓(xùn)練集,第8個(gè)月作為驗(yàn)證集來調(diào)整參數(shù),并且將最后2個(gè)月作為測試集。根據(jù)驗(yàn)證集,實(shí)驗(yàn)得出空間維數(shù)K為60,標(biāo)準(zhǔn)化因子λ為0.03,以及權(quán)重a,b,c,d和e的取值分別為0.2,0.4,0.05,0.05和0.3。

Table 3 Foursquare datasets description表3 Foursquare數(shù)據(jù)集描述

6.2 評估指標(biāo)

根據(jù)每一個(gè)用戶的簽到行為分析,給出一個(gè)按興趣點(diǎn)轉(zhuǎn)移概率從高到低進(jìn)行排序的推薦列表Recu,N,N表示推薦列表中所推薦的興趣點(diǎn)個(gè)數(shù)。為了評價(jià)本文提出的下一個(gè)興趣點(diǎn)推薦算法的效果,我們選用推薦問題通用的指標(biāo):準(zhǔn)確率、召回率和F1-score。準(zhǔn)確率指推薦結(jié)果中用戶將來真正訪問的數(shù)量占推薦總數(shù)的比例,反映了推薦的準(zhǔn)確性。召回率指推薦結(jié)果中用戶將來真正訪問數(shù)量占用戶將來訪問興趣點(diǎn)總量的比例,反映了推薦的全面性。F1-score是準(zhǔn)確率和召回率的綜合,F(xiàn)1-score越高,說明推薦模型越穩(wěn)健。對用戶進(jìn)行下一個(gè)興趣點(diǎn)推薦的準(zhǔn)確率和召回率定義如下:

(11)

(12)

(13)

其中,Lvisited表示用戶u訪問過的興趣點(diǎn)集合,|Lvisited|表示用戶u訪問過的興趣點(diǎn)的總數(shù),|U|表示用戶的總數(shù),N表示下一個(gè)興趣點(diǎn)推薦列表中所推薦的興趣點(diǎn)個(gè)數(shù)。準(zhǔn)確率和召回率相互制約,F(xiàn)1-score總體評估,綜合利用三者可以對預(yù)測結(jié)果做出客觀的評價(jià)。

6.3 性能與實(shí)驗(yàn)對比

本文主要將提出的模型CPME和PRME進(jìn)行比較。CPME和PRME的性能比較結(jié)果如圖7~圖9所示。從圖中可以看出,我們提出的模型比PRME性能更優(yōu),性能提高了12.35%左右。

圖6描述了不同時(shí)間閾值對紐約和東京數(shù)據(jù)集TOP10準(zhǔn)確率的影響,其中τ分別為3 h,6 h,12 h和24 h。CPME和CPME-G的準(zhǔn)確率高于PRME和PRME-G。

Figure 6 Precision of the two city datasets varies with time threshold圖6 兩個(gè)城市數(shù)據(jù)集的準(zhǔn)確率隨時(shí)間閾值變化的結(jié)果

同時(shí),這些方法的準(zhǔn)確率都隨著τ的增大而降低,分析得出:時(shí)間閾值越大,興趣點(diǎn)之間的時(shí)序轉(zhuǎn)移關(guān)系就越小。統(tǒng)籌權(quán)衡用戶個(gè)人偏好、時(shí)序轉(zhuǎn)移關(guān)系、上下文感知和地理位置四個(gè)因素的影響,實(shí)驗(yàn)將時(shí)間閾值設(shè)定為6 h。由圖7和圖8可知,無論N取何值,本文所提出的CPME在2個(gè)數(shù)據(jù)集上的準(zhǔn)確率和召回率普遍優(yōu)于PRME的。同時(shí),CPME和PRME模型性能都遠(yuǎn)高于PMF(Probabilistic Matrix Factorization)。由圖7~圖9可知,當(dāng)在同一個(gè)N下進(jìn)行比較時(shí),考慮的上下文信息種類越多,推薦精度越高。同時(shí)我們發(fā)現(xiàn),不同上下文信息種類之間的組合不同,實(shí)驗(yàn)的結(jié)果也不同,圖例中的W(Day-of-Week)、T(Time-of-Day)、C(Catagory)、W+T、C+W、T+C、T+W+C是指CPME考慮的上下文信息的種類及組合。由于Time-of-Day對一天中的簽到點(diǎn)的分類更為精細(xì),而Day-of-Week把一周七天分為工作日和周末兩大類導(dǎo)致數(shù)據(jù)整體稀疏性緩解,可以發(fā)現(xiàn)單獨(dú)考慮Time-of-Day比單獨(dú)考慮Day-of-Week的效果更好。實(shí)驗(yàn)通過考慮Time-of-Day和Day-of-Week,同時(shí)加入興趣點(diǎn)類別的考慮,實(shí)驗(yàn)的推薦精度得到了顯著提升。

Figure 7 Precision of the two city datasets varies with N圖7 兩個(gè)城市數(shù)據(jù)集的準(zhǔn)確率隨N變化的結(jié)果

Figure 8 Recall of the two city datasets varies with N圖8 兩個(gè)城市數(shù)據(jù)集的召回率隨N變化的結(jié)果

Figure 9 F1-score of the two city datasets varies with N圖9 兩個(gè)城市數(shù)據(jù)集的F1-score隨N變化的結(jié)果

本文分析了上下文信息的類型對推薦的影響,我們選取了Time-of-Day、Day-of-Week以及Category三個(gè)空間。從圖中可以得出考慮上下文信息比不考慮的性能更優(yōu)??傮w來看,隨著上下文信息的加入,性能越來越好。更精細(xì)地分析可以得出不同的上下文信息對性能的提高也不同。

7 結(jié)束語

本文提出一種基于個(gè)性化上下文感知度量嵌入的方法來推薦下一個(gè)興趣點(diǎn),并且使用了排名度量嵌入算法計(jì)算隱式空間的興趣點(diǎn)轉(zhuǎn)移概率。在此基礎(chǔ)上進(jìn)一步提出了CPME-G模型,該模型融合四種影響因素:用戶個(gè)人偏好、時(shí)序轉(zhuǎn)移關(guān)系、上下文感知和地理位置影響。最后,在Foursquare的兩個(gè)數(shù)據(jù)集上驗(yàn)證了本文算法的可行性。為了提高本模型下一個(gè)興趣點(diǎn)推薦的性能,未來的工作中將考慮更多的上下文信息。

參考文獻(xiàn):

[1] Chen S,Moore J L,Turnbull D,et al.Playlist prediction via metric embedding[C]∥Proc of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2012:714-722.

[2] Cho E,Myers S A,Leskovec J.Friendship and mobility:User movement in location-based social networks[C]∥Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2011:1082-1090.

[3] Li X,Cong G,Li X L,et al.Rank-geofm:A ranking based geographical factorization method for point of interest recommendation[C]∥Proc of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval,2015:433-442.

[4] Lian D,Zhao C,Xie X,et al.GeoMF:Joint geographical modeling and matrix factorization for point-of-interest recommendation[C]∥Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2014:831-840.

[5] Ye M,Yin P,Lee W C,et al.Exploiting geographical influence for collaborative point-of-interest recommendation[C]∥Proc of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,2011:325-334.

[6] Yuan Q, Cong G, Ma Z,et al.Time-aware point-of-interest recommendation[C]∥Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval,2013:363-372.

[7] Cheng C,Yang H,Lyu M R,et al.Where you like to go next:Successive point-of-interest recommendation[C]∥Proc of the 22th International Joint Conference on Artificial Intelligence,2013:2605-2611.

[8] Ye J,Zhu Z,Cheng H.What's your next move:User activity prediction in location-based social networks[C]∥Proc of the 2013 SIAM International Conference on Data Mining,2013:171-179.

[9] Rendle S, Freudenthaler C,Schmidt-Thieme L.Factorizing personalized Markov chains for next-basket recommendation[C]∥Proc of the 19th International Conference on World Wide Web,2010:811-820.

[10] Feng S,Li X,Zeng Y,et al.Personalized ranking metric embedding for next new POI recommendation[C]∥Proc of the 24th International Joint Conference on Artificial Intelligence,2015:2069-2075.

[11] Zheng Y,Zhang L,Xie X,et al.Mining interesting locations and travel sequences from GPS trajectories[C]∥Proc of the 18th International Conference on World Wide Web,2009:791-800.

[12] Liu B,Fu Y,Yao Z,et al.Learning geographical preferences for point-of-interest recommendation[C]∥Proc of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2013:1043-1051.

[13] Yang D,Zhang D,Zheng V W,et al.Modeling user activity preference by leveraging user spatial temporal characteristics in LBSNs[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2015,45(1):129-142.

[14] Tang J,Aggarwal C,Liu H.Recommendations in signed social networks[C]∥Proc of the 25th International Conference on World Wide Web,2016:31-40.

[15] Lian D,Ge Y,Zhang F,et al.Content-aware collaborative filtering for location recommendation based on human mobility data[C]∥Proc of the 15th IEEE International Conference on Data Mining,2015:261-270.

[16] He J,Li X,Liao L,et al.Inferring a personalized next point-of-interest recommendation model with latent behavior patterns[C]∥Proc of the 30th AAAI Conference on Artificial Intelligence,2016:137-143.

[17] Xie M,Yin H,Xu F,et al.Graph-based metric embedding for next POI recommendation[C]∥Proc of the 17th International Conference on Web Information Systems Engineering,2016:207-222.

[18] Gormley M R,Yu M,Dredze M.Improved relation extraction with feature-rich compositional embedding models[C]∥Proc of 2015 Conference on Empirical Methods on Natural Language Processing,2015:1-12.

[19] Rendle S,Freudenthaler C,Gantner Z,et al.BPR:Bayesian

personalized ranking from implicit feedback[C]∥Proc of the 25th Conference on Uncertainty in Artificial Intelligence,2009:452-461.

猜你喜歡
時(shí)序度量準(zhǔn)確率
鮑文慧《度量空間之一》
清明
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于不同建設(shè)時(shí)序的地鐵互聯(lián)互通方案分析
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
基于FPGA 的時(shí)序信號光纖傳輸系統(tǒng)
基于模體演化的時(shí)序鏈路預(yù)測方法
集贤县| 东兰县| 涿鹿县| 孟连| 黄平县| 平度市| 柳河县| 射洪县| 兴化市| 河池市| 湟源县| 邢台县| 太和县| 长岛县| 卢氏县| 古交市| 尚志市| 上思县| 阳东县| 玉溪市| 广州市| 封丘县| 怀宁县| 西乌珠穆沁旗| 黔南| 康乐县| 吉木乃县| 房产| 亚东县| 安陆市| 利津县| 靖远县| 余干县| 壶关县| 林州市| 黄陵县| 古田县| 甘孜| 华坪县| 商洛市| 潼南县|