劉紀平,張志然,2,楊超偉,徐勝華,陳 才,仇阿根,張福浩
1. 中國測繪科學研究院,北京 100830; 2. 西安石油大學地球科學與工程學院,陜西 西安 710065; 3. 喬治梅森大學時空創(chuàng)新中心,弗吉尼亞 費爾法克斯 22030; 4. 江蘇海洋大學海洋技術(shù)與測繪學院,江蘇 連云港 222005
基于位置的社交網(wǎng)絡(luò)(location-based social networks,LBSNs)已經(jīng)成為人們生活中不可或缺的一部分。LBSNs平臺上的簽到功能吸引了越來越多的用戶記錄和分享他們的位置和體驗[1],由此產(chǎn)生了稀疏且海量的簽到信息,這些信息為用戶簽到偏好分析和區(qū)域推薦提供了數(shù)據(jù)基礎(chǔ)。用戶在LBSNs中的簽到具有多種特征:用戶的大多數(shù)簽到發(fā)生在特定的地理區(qū)域[2],具有區(qū)域性和聚集性[3-6];用戶簽到活動局限于常去區(qū)域的少數(shù)類別[7-8],區(qū)域內(nèi)的興趣點類別是吸引用戶的重要因素。如何利用多種簽到特征分析用戶簽到區(qū)域特征,構(gòu)建更加貼合用戶需求的推薦模型,是非常值得研究的問題,對城市規(guī)劃管理、商業(yè)選址和旅游資源開發(fā)都具有重要意義[9-10]。
相比于興趣點(point of interest,POI)推薦[2,11-12],興趣區(qū)域推薦的研究起步較晚。由于區(qū)域中分布了若干POI,不同的POI對不同用戶的吸引力不同,POI推薦算法難以直接應(yīng)用到ROI推薦中[13]。已有研究學者基于社交媒體數(shù)據(jù)實現(xiàn)城市興趣區(qū)域分析并應(yīng)用到位置推薦系統(tǒng)中。文獻[14]從帶有標題的地理標簽的照片中提取主題標簽,給每個照片賦予多個主題,使用基于密度的空間聚類算法發(fā)現(xiàn)用戶感興趣的主題區(qū)域,向用戶推薦主題區(qū)域。文獻[15]利用POI之間的交互來提高推薦性能,并將區(qū)域推薦問題簡化為幾何相交問題,向用戶推薦可能感興趣的居住地以外的區(qū)域。文獻[16]利用用戶在區(qū)域內(nèi)簽到過的興趣點類別的熵值與區(qū)域內(nèi)類別的最大熵值之間的差值來衡量用戶在區(qū)域內(nèi)的偏好偏差,尋找用戶的城市功能區(qū)域。然而,現(xiàn)有研究還存在以下問題:①利用以聚類[14,17-18]、地理格網(wǎng)[15,19]、Voronoi[20]等方式獲得的ROI,雖然可用于實現(xiàn)細粒度的ROI分析,但忽略了地物的連續(xù)性,所獲得的城市興趣區(qū)域難以與城市地理特征相結(jié)合,可解釋性不強;②由于位置維度的連續(xù)性,Voronoi和聚類等方式難以對用戶的簽到活動偏好進行連續(xù)建模。
道路網(wǎng)是人類發(fā)展和城市發(fā)展的產(chǎn)物[21],道路網(wǎng)包圍形成的街區(qū)是城市結(jié)構(gòu)的基本組成單位,通常具有一種或多種相似的功能特征,且與興趣點的分布具有密切的關(guān)系[22]。例如,一個包含很多商店和餐館的街區(qū)可能是一個商業(yè)中心,一個包含紀念碑和公園的街區(qū)可能是一個旅游景點。用戶的簽到活動與街區(qū)的功能特征相關(guān)聯(lián),用戶通常在固定街區(qū)訪問其中幾種類別的POI。因此,城市街區(qū)在ROI分析上具有天然的優(yōu)勢,以城市街區(qū)為基本單元既能對用戶的簽到偏好進行連續(xù)性建模,也能提高ROI可解釋性。
綜合以上分析,本文結(jié)合城市街區(qū)和LBSNs中的簽到數(shù)據(jù),提出一種個性化城市興趣區(qū)域推薦(city block and check-in data,CBCD)方法。該方法基于空間鄰近性原則推斷用戶的空間活動偏好,同時利用區(qū)域內(nèi)包含的POI類別判斷區(qū)域功能的相似性,協(xié)同建立用戶在其他區(qū)域的類別偏好,最后將基于地理偏好和類別偏好的特征進行融合。CBCD方法受傳統(tǒng)興趣點推薦方法啟發(fā),基于傳統(tǒng)理論方法改善了用戶簽到數(shù)據(jù)的稀疏性,對用戶興趣區(qū)域進行了定量分析,提高了興趣區(qū)域推薦的精準度。
定義1:興趣區(qū)域。具有特定功能、能夠吸引用戶關(guān)注和活動的綜合區(qū)域,一個興趣區(qū)域內(nèi)往往包含一個或若干個興趣點[13]。
定義2:城市街區(qū)。被街道包圍的最小的一組建筑物,包含住宅、商店、學校等,它通過道路與其他街區(qū)相連[23]。在《語言大典》中的定義為:通常由街道圍繞,有時由其他邊緣(如河流、鐵路)圍繞的長方形空地,被使用或計劃修建建筑物之用。將街區(qū)集合表示為R={r1,r2,…,rn},ri∈R表示一個城市街區(qū),城市被劃分為n個街區(qū)。本文將城市街區(qū)作為興趣區(qū)域的基本組成單位。
定義3:活躍區(qū)域。若用戶u在街區(qū)ri中的簽到數(shù)量占總簽到數(shù)量的比例frequ,ri大于或等于閾值σfreq,則街區(qū)ri為用戶頻繁訪問的區(qū)域,加入活躍區(qū)域集合Ru,a。
定義5:最短路徑。從某頂點出發(fā),沿道路到達另一頂點所經(jīng)過的路徑中,各邊的權(quán)值之和最小的一條路徑為最短路徑。兩個區(qū)域ri和rj的中心點經(jīng)緯度分別為li={loni,lati}和lj={lonj,latj}。則這兩個區(qū)域之間的距離最短路徑定義為li和lj之間沿道路網(wǎng)的最短路徑值。
在日常生活中,用戶經(jīng)常訪問自己熟悉的位置,對曾經(jīng)訪問過的位置感興趣,距離用戶興趣區(qū)域越遠的街區(qū)對用戶的吸引力越弱[24]。另一方面,用戶的簽到偏好體現(xiàn)了用戶在區(qū)域內(nèi)對POI類別的偏好程度[16],當兩個街區(qū)擁有越多的共同類別的POI時,這兩個區(qū)域在類別上越相近。因此,距離和區(qū)域類別相似性是發(fā)掘用戶潛在興趣區(qū)域的兩個重要因素。
基于用戶的簽到信息發(fā)現(xiàn)用戶活躍區(qū)域,基于活躍區(qū)域定義用戶在未訪問區(qū)域的潛在偏好程度。受基于記憶的協(xié)同過濾思想的啟發(fā),通過計算未訪問區(qū)域與活躍區(qū)域的相似性,判斷用戶在未訪問區(qū)域的偏好得分,實現(xiàn)用戶興趣區(qū)域的連續(xù)性建模。圖1為本文的研究路線,主要包括以下4個步驟:
圖1 研究路線Fig.1 Analysis process
(1) 城市街區(qū)構(gòu)建。將城市整體按照道路網(wǎng)劃分為若干個街區(qū),將用戶的簽到信息映射到這些區(qū)域中,將興趣點簽到轉(zhuǎn)化為區(qū)域簽到。
(2) 用戶活躍區(qū)域分析。依據(jù)用戶的簽到信息計算每個用戶在區(qū)域的訪問頻率,用戶訪問頻率越高說明該區(qū)域越受用戶歡迎。
(3) 潛在區(qū)域偏好得分。針對用戶未簽到過的潛在區(qū)域,提出基于空間鄰近性和類別相似性的興趣區(qū)域推薦方法,得到用戶在未簽到街區(qū)的潛在地理偏好和類別偏好。在空間鄰近性上,采用基于歐氏空間中的最短路網(wǎng)距離來度量。在類別相似性上,采用兩個街區(qū)共同擁有的POI類別數(shù)量來度量。最后,基于統(tǒng)一的融合方法融合用戶在未知區(qū)域的地理偏好和類別偏好得分,得到用戶的綜合偏好得分,實現(xiàn)用戶在城市區(qū)域空間的連續(xù)性建模。
(4) 興趣區(qū)域推薦。根據(jù)用戶對所有街區(qū)的綜合偏好得分,向用戶推薦ktop個得分最高的街區(qū)。
在位置推薦問題中,研究者在進行地理建模時通常采用歐氏距離或大圓距離計算兩個對象之間的距離[2,25-26]。然而,城市中的興趣點常沿道路分布,用戶在城市空間中的物理運動通常受道路網(wǎng)約束[22]。對用戶在城市內(nèi)部的活動進行建模時,應(yīng)該考慮實際路網(wǎng)距離的影響,使用最短路徑距離能真實地考慮到用戶的實際旅行距離和城市網(wǎng)絡(luò)空間的服務(wù)功能,更為直觀和可靠(圖2)。同時,本文采用了城市街區(qū)作為研究的基本單元,最短路徑能更真實反映區(qū)域之間的地理距離。
圖2 兩點之間的距離Fig.2 Distance between two points
已有學者研究了用戶訪問位置的可能性,發(fā)現(xiàn)是與距離成反比[27-28]。本文在已有研究的基礎(chǔ)上,結(jié)合區(qū)域中心點之間的最短路徑距離來度量空間中兩個區(qū)域之間的鄰近性。給出區(qū)域r1和r2的空間鄰近性
(1)
式中,d(r1,r2)表示r1和r2的最短路徑距離,距離越遠,Simspatial(r1,r2)值越小,表明區(qū)域r1和r2鄰近性越小。在實現(xiàn)方式上,將道路網(wǎng)處理為無向圖,采用Dijkstra方法計算得到任意兩個區(qū)域中心點之間的最短路徑值。
假設(shè)用戶u的活躍區(qū)域Ru,a={r1,r2,…,rm},則用戶對未訪問區(qū)域rj的地理偏好度為
(2)
式中,frequ,ri表示用戶u在ri簽到次數(shù)。由式(2)可知,用戶對rj的地理偏好為用戶的活躍區(qū)域?qū)υ摻謪^(qū)的地理影響力的和。
在判斷兩個區(qū)域之間的相似性時,區(qū)域內(nèi)POI的類別組成也起著至關(guān)重要的作用。若兩個區(qū)域擁有越多相同的類目,則它們的城市功能越相似。給出區(qū)域r1和r2,基于Jaccard相似度計算方法,對類別相似性定義如下
(3)
式中,Cr1、Cr2分別表示區(qū)域r1和r2中包含的POI類別。Simcategory(r1,r2)值越大,表明區(qū)域r1和r2相似性越大。
假設(shè)用戶u的活躍區(qū)域Ru,a={r1,r2,…,rm},則用戶對未訪問區(qū)域rj的類別偏好度為
(4)
式中,frequ,ri表示用戶u在ri簽到次數(shù)。由式(4)可知,用戶對rj的類別偏好為用戶的活躍區(qū)域與該街區(qū)的類別相似性的和。
由空間鄰近性和類別相似性可知,當兩個區(qū)域具有相似的區(qū)域功能且距離較近時,更有可能吸引用戶,成為用戶的潛在興趣區(qū)域。線性加權(quán)和乘積是融合多種偏好最直接的兩種方式,得到了廣泛的應(yīng)用[3,16]。當綜合考慮用戶的地理和類別偏好時,簡單的加權(quán)平均很難動態(tài)地分配這兩個權(quán)重。因此,采用乘積方式計算用戶對未訪問區(qū)域rj的綜合偏好。對于用戶已訪問區(qū)域,采用簽到次數(shù)表示用戶對該區(qū)域偏好。用戶對區(qū)域rj的綜合偏好度為
(5)
式中,frequ,ri表示用戶u在ri簽到次數(shù)。pu,ri值越大,表明rj對用戶的潛在吸引力越大。
至此,本文針對所有用戶在城市內(nèi)所有區(qū)域的偏好進行了連續(xù)性建模,獲得用戶對城市街區(qū)偏好的綜合分布。最后,依據(jù)用戶在城市區(qū)域的綜合偏好得分pu,ri,向用戶推薦ktop個得分最高的街區(qū),幫助用戶在位置社交網(wǎng)絡(luò)的海量數(shù)據(jù)中找到自己感興趣的位置,從而探索新的興趣點或興趣區(qū)域。
本文研究的試驗數(shù)據(jù)主要包括Foursquare的公開數(shù)據(jù)集和紐約市道路網(wǎng)[29]。Foursquare數(shù)據(jù)集[16]時間范圍為2012年4月3日—2013年2月16日。本文在原數(shù)據(jù)集的基礎(chǔ)上移除了用戶在紐約市以外的簽到記錄。為了緩解數(shù)據(jù)稀疏性的影響,采用與文獻[16]類似的數(shù)據(jù)預(yù)處理方式,對Foursquare數(shù)據(jù)集移除訪問少于10個興趣點的稀疏用戶。經(jīng)過數(shù)據(jù)預(yù)處理,有1008個用戶,30 497個興趣點,總簽到次數(shù)為181 876,每個興趣點至少被訪問一次。數(shù)據(jù)集中POI類別包括9大類,251個子類[30]。表1給出了部分數(shù)據(jù)示例,包含了用戶編號、POI編號、興趣點子類別、緯度、經(jīng)度、時間等信息。圖3給出了Foursquare數(shù)據(jù)集的簽到點空間分布,同時截取了用戶在中央公園附近的簽到情況,可以看出,用戶的總體簽到具有明顯的沿街道分布的特征。圖4給出了紐約市城市街區(qū)空間分布。
圖3 Foursquare簽到點(2012年4月3日—2013年2月16日)Fig.3 Check-in point of foursquare (from Apr. 3, 2012 to Feb. 16, 2013)
圖4 紐約市城市街區(qū)Fig.4 City block of New York city
表1 數(shù)據(jù)示例Tab.1 Example of foursquare
為了驗證興趣區(qū)域推薦算法的有效性,將每個用戶的簽到按時間排序,簽到序列的前80%簽到作為訓(xùn)練集,最后20%的簽到作為測試集。
主要評估目標是查看用戶在測試集的簽到區(qū)域是否出現(xiàn)在推薦區(qū)域列表中。具體來說,對測試數(shù)據(jù)集中的每一個簽到,獲得其所在區(qū)域編號,然后判斷該簽到是否在推薦列表中。本文使用準確率(P)、召回率(R)和F1score (F1)作為評價指標。為了全面評測ktop推薦的性能,選取不同的推薦列表長度ktop(k值分別設(shè)置為1、5、10、20)。
準確率表示在ktop的推薦區(qū)域中,用戶在測試集中真實訪問過的百分比。給定用戶u∈U,Tu表示用戶在測試集中訪問的區(qū)域集合,Ru(ktop)表示通過算法計算得到的推薦列表,準確率的計算公式為
(6)
召回率表示測試數(shù)據(jù)集中的簽到出現(xiàn)在ktop的推薦區(qū)域中的百分比。給定用戶u∈U,Ru(ktop)表示通過算法計算得到的推薦列表,F(xiàn)u表示用戶在測試集中的簽到集合,(u,t,c)表示Fu中用戶的一次簽到記錄,召回率的計算公式為
(7)
F1score是準確率和召回率的調(diào)和平均數(shù),取值范圍為[0,1]。當兩個方法在準確率和召回率上表現(xiàn)不一致時,可以采用F1作為最終測評的方法。召回率的計算公式如下
(8)
本文首次采用城市街區(qū)為基本單位進行用戶的興趣區(qū)域推薦,與已有基線方法進行比較。試驗均使用Python及其開放源代碼包實現(xiàn)。
(1) UCF:基于用戶的協(xié)同過濾(user-based collaborative filtering,UCF)推薦算法,找到具有相同區(qū)域偏好的用戶,向用戶推薦相似用戶經(jīng)常訪問的區(qū)域。本文采用余弦相似度計算用戶相似性,用戶在區(qū)域的訪問頻率作為用戶對該區(qū)域的偏好度,記為UCF。
(2) MFR:用戶訪問最頻繁簽到的區(qū)域(most frequent region,MFR),向用戶推薦簽到次數(shù)最多的街區(qū),由于假設(shè)所有用戶的空間偏好是相同的,該方法為非個性化的推薦。
(3) CBCD+:使用線性加權(quán)的方式將地理偏好和類別偏好進行融合,在線性加權(quán)之前對pspatial(rj)pcategory(rj)進行標準化。
(4) CBCD:本文提出的個性化興趣區(qū)域推薦方法(2.4節(jié)),其中SpatilRR為基于地理偏好的推薦方法(2.2節(jié)),CategoryRR為基于類別偏好的推薦方法(2.3節(jié))。
3.4.1 活躍區(qū)域分析
本節(jié)對用戶的平均簽到區(qū)域數(shù)量和每個區(qū)域平均簽到次數(shù)進行了分析。首先,用戶平均簽到區(qū)域數(shù)量結(jié)果顯示,平均每個用戶的簽到區(qū)域數(shù)量為52.77,94.54%的用戶在簽到區(qū)域數(shù)量低于100個,這說明用戶的平均簽到活動比較活躍。圖5為用戶簽到區(qū)域數(shù)量統(tǒng)計,可以看出,用戶簽到區(qū)域數(shù)量在50左右時用戶數(shù)量最多。其次,對用戶在區(qū)域的平均簽到次數(shù)進行分析,所有用戶的平均簽到次數(shù)為3.08,這說明每個用戶在自己訪問過的區(qū)域平均簽到3.08次。圖6為區(qū)域平均簽到次數(shù),可以看出,分別有35.32%和34.14%的用戶在區(qū)域的平均簽到次數(shù)位于[1,2)和[2,3)之間。這說明大多數(shù)用戶會傾向于訪問自己曾經(jīng)訪問過的區(qū)域。
圖5 簽到區(qū)域數(shù)量Fig.5 The number of check-in blocks
圖6 區(qū)域平均簽到次數(shù)Fig.6 The average check-in count for blocks
為了清晰地表示用戶的簽到區(qū)域,圖7給出了所有用戶在不同街區(qū)簽到頻率的分級統(tǒng)計圖,可以看出,用戶的簽到足跡遍布城市,在單個街區(qū)內(nèi)的簽到次數(shù)范圍為[1,1654]。其中,最受用戶歡迎的街區(qū)主要分布在交通樞紐、著名景點附近等,空白區(qū)域表示該區(qū)域沒有簽到。對于單個用戶來說,通過設(shè)置頻率閾值σfreq可以選出最受用戶歡迎的區(qū)域。
圖7 城市街區(qū)簽到Fig.7 Check-in map of city block
3.4.2 整體推薦性能
本節(jié)根據(jù)用戶活躍區(qū)域,基于CBCD方法對推薦用戶的感興趣區(qū)域。其中,簽到頻率閾值σfreq取0.001,SpatialRR中距離閾值θdis設(shè)置為無窮大,參數(shù)分析見3.4.3節(jié)。
圖8為不同推薦方法的推薦準確率、 召回率和F1score的柱狀圖。隨著ktop值增大,推薦結(jié)果中用戶在測試集中真正簽到的區(qū)域增加,因此召回率增大;而與此同時,用戶未簽到的區(qū)域也增加,因此準確率減小。總體上來說,考慮了區(qū)域地理影響和類別影響的方法在推薦精度上明顯高于僅考慮了地理影響和類別影響的方法。在ktop值為1的情況下,SpatialRR和CBCD具有幾乎相同的推薦準確率、召回率和F1score,且準確率達到75.40%,這說明兩種方法能夠較準確地找到用戶最感興趣的區(qū)域之一。同時,CategoryRR在推薦性能上明顯低于SpatialRR,這說明LBSNs中用戶簽到活動的空間規(guī)律性更顯著。CategoryRR能夠捕獲區(qū)域類別相似性,但沒有考慮距離影響,在類別上相近但距離較遠的區(qū)域?qū)τ脩粑^低。
圖8 不同方法的推薦結(jié)果對比Fig.8 Comparison of the recommendation results under different methods
CBCD推薦性能明顯高于UCF和MFR兩種基線方法。UCF方法僅考慮了相似用戶的偏好,沒有考慮到用戶簽到的地理和類別影響,MFR方法采用了非個性化的建模方式,且沒有對所有區(qū)域進行連續(xù)性建模。這說明CBCD能夠很好地捕獲用戶的地理偏好和類別偏好,提高推薦精度。CBCD+也表現(xiàn)出較好的性能,但在推薦性能上略低于CBCD方法。
3.4.3 參數(shù)分析
CBCD融合了地理偏好和類別偏好,參數(shù)的確定決定了推薦精度,以下分別對參數(shù)設(shè)置進行說明。主要參數(shù)包括簽到頻率閾值σfreq和距離閾值θdis,分別針對兩個閾值進行了兩組試驗。由于不同的ktop值4種方法的相對表現(xiàn)基本相同,因此ktop取10。
(1) 在距離閾值θdis為無窮大的情況下,將σfreq依次取值為[0.001,0.005,0.01,0.05,0.1]。圖9為3種方法在不同頻率閾值下的準確率、召回率和F1score。當σfreq為0時,表示將用戶所有訪問過的區(qū)域作為興趣區(qū)域??梢钥闯?,隨著閾值增大,3種方法的準確率、召回率和F1score均呈下降趨勢,當σfreq小于0.001時精度最高。當逐漸σfreq時,大于該閾值的興趣區(qū)域被保留,用戶興趣區(qū)域數(shù)量減少,推薦精度逐漸降低,這說明用戶對曾訪問過的區(qū)域均具有一定的偏好,對提高推薦精度都起到了一定的作用。雖然σfreq可以選取用戶最感興趣的若干個區(qū)域,但在當前應(yīng)用場景下,σfreq取值小于0.001更為合適。
圖9 不同頻率閾值下推薦結(jié)果Fig.9 Results of various frequency thresholds
(2) 為了探究θdis參數(shù)的影響,在保持σfreq為0.001的情況下將θdis依次取值為[INF,0.2,0.5,1.0,1.5,2.0,2.5,3.0,3.5,4.0,4.5,5.0](單位:km)。INF表示無窮大,即不考慮路網(wǎng)距離的影響。依次加入距離閾值進行分析,比較SpatialRR、CBCD在不同參數(shù)下的推薦性能。圖10為兩種方法在不同距離閾值下的準確率、召回率和F1score??梢钥闯?,隨著閾值減小,兩種方法的準確率、召回率和F1score均呈上升趨勢,SpatialRR上升趨勢明顯,而CBCD整體趨于平穩(wěn)。這說明當逐漸縮小用戶興趣區(qū)域影響范圍時,推薦精度逐漸升高,用戶傾向于訪問自己經(jīng)常訪問區(qū)域的周邊區(qū)域。隨著閾值的減小,計算復(fù)雜度增加,且閾值小于500 m時,推薦精度基本不變,因此,可以認為500 m是一個合適的距離閾值。
圖10 不同距離閾值下推薦結(jié)果Fig.10 Results of various distance thresholds
同時,當閾值小于500 m時,兩種方法的準確率、召回率和F1score差距很小,這說明距離閾值能夠顯著提高SpatialRR方法的推薦精度。通過限制興趣區(qū)域的地理影響,僅將用戶經(jīng)常訪問區(qū)域的周邊區(qū)域賦予權(quán)重,是提高推薦精度的有效方法。
3.4.4 案例分析
為了清晰地表示用戶的興趣區(qū)域以及距離閾值的影響,本文隨機選取一個用戶的簽到點和區(qū)域得分進行可視化。圖11為CategoryRR、SpatialRR和CBCD 3種方法下區(qū)域得分的空間分布,其中,圖11(a)表示不設(shè)置距離閾值的SpatialRR,圖11(b)表示距離閾值為500 m的SpatialRR,圖11(c)表示CategoryRR,圖11(d)表示距離閾值為500 m的CBCD。σfreq均為0.001。
由圖11可以看出,CategoryRR方法計算得到的類別偏好得分在城市街區(qū)中的空間分布比較分散,而類別相近的但距離較遠的區(qū)域?qū)τ脩舻奈^小,難以有效地區(qū)分出用戶的區(qū)域偏好;SpatialRR方法計算得到的地理偏好得分中分值較高的區(qū)域集中分布于兩個區(qū)域,同時,距離閾值能夠明顯識別出用戶的簽到熱點區(qū)域,相比CategoryRR取得較好的效果;CBCD方法計算得到的綜合偏好得分較高的街區(qū)主要分布在用戶頻繁簽到的區(qū)域及其周圍,CBCD方法能夠較為準確地找出用戶的感興趣區(qū)域,且表現(xiàn)更為穩(wěn)定。
圖11 用戶簽到偏好的空間分布Fig.11 Spatial distribution of user 's check-in preference
分析用戶的城市興趣區(qū)域,對用戶在城市區(qū)域級別的活動進行連續(xù)性建模,對了解用戶行為模式、輔助城市商業(yè)規(guī)劃起著重要作用。受傳統(tǒng)興趣點推薦算法啟發(fā),本文首次結(jié)合道路網(wǎng)形成的城市街區(qū)和位置簽到數(shù)據(jù),提出了基于空間和類別相似性的個性化興趣區(qū)域推薦方法(CBCD),該方法有效融合了地理鄰近性和類別相關(guān)性,研究了地理影響和類別影響在改善推薦性能方面所起到的重要性,對用戶城市活動進行連續(xù)性建模,最終實現(xiàn)了用戶的興趣區(qū)域分析和推薦。試驗結(jié)果表明,用戶更喜歡其經(jīng)常訪問區(qū)域的周邊,本文方法提高了興趣區(qū)域推薦精度,對于用戶興趣區(qū)域推薦研究具有一定的意義。
基于個體活動的地理分布,用戶活躍區(qū)域可能有更復(fù)雜的地理表示;用戶在經(jīng)常訪問區(qū)域內(nèi)訪問特定的幾個類別,而不是所有類別,說明用戶在不同區(qū)域的訪問行為具有偏好偏差。將在未來的工作中研究不同地理表示方法、不同類別偏好的表現(xiàn)。同時,本文僅對用戶的興趣區(qū)域進行建模并沒有結(jié)合當前用戶位置和時間信息,不能預(yù)測用戶接下來可能訪問的區(qū)域,將在今后研究中解決該問題。