摘? ?要:文章首先以時(shí)空軌跡數(shù)據(jù)為基礎(chǔ),介紹了時(shí)空軌跡數(shù)據(jù)的基本結(jié)構(gòu),構(gòu)建了時(shí)空軌跡數(shù)據(jù)模型。其次,對等時(shí)間間隔時(shí)空軌跡采樣數(shù)據(jù)進(jìn)行了研究,生成用戶熱點(diǎn)訪問區(qū)域。最后,以用戶時(shí)空軌跡數(shù)據(jù)挖掘算法實(shí)現(xiàn)了對熱點(diǎn)訪問區(qū)域的挖掘研究。
關(guān)鍵詞:時(shí)空軌跡;用戶移動(dòng)行為
GPS,RFID,網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展,使得我們對于時(shí)空軌跡數(shù)據(jù)的收集、存儲與分析成為可能。對時(shí)空軌跡進(jìn)行分析,從大量的用戶移動(dòng)時(shí)空軌跡數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的移動(dòng)行為模式,對于諸如社會管理、交通系統(tǒng)規(guī)劃與監(jiān)控,基于位置的服務(wù)等領(lǐng)域都有非常重要的作用,同時(shí)也是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。
以感知時(shí)空軌跡數(shù)據(jù)為基礎(chǔ),以信息學(xué)科的研究方法為工具,對大規(guī)模數(shù)據(jù)背后所隱含的關(guān)聯(lián)影響關(guān)系進(jìn)行定量的建模,對所蘊(yùn)含的規(guī)律知識進(jìn)行系統(tǒng)、完整的抽取,進(jìn)而對已存在的現(xiàn)象進(jìn)行原因解釋,對未來可能出現(xiàn)的事件進(jìn)行預(yù)測[1],這是一種以數(shù)據(jù)驅(qū)動(dòng)的社會計(jì)算學(xué)科的研究范疇。
1? ? 時(shí)空軌跡數(shù)據(jù)的模型
時(shí)空軌跡數(shù)據(jù)是指在時(shí)間和空間維度下,對移動(dòng)用戶或車輛運(yùn)動(dòng)過程中的軌跡點(diǎn)采樣獲得的數(shù)據(jù)信息。軌跡數(shù)據(jù)包括采樣的時(shí)間信息和當(dāng)時(shí)所處的地理位置空間信息。車輛時(shí)空軌跡數(shù)據(jù)是指在交通路網(wǎng)結(jié)構(gòu)的約束條件下,在時(shí)間領(lǐng)域具有語義關(guān)系約束。
車輛時(shí)空軌跡數(shù)據(jù)可以用公式表達(dá)為:
其中,Ti表示第i個(gè)采樣時(shí)間點(diǎn),Loci表示移動(dòng)用戶在Ti時(shí)間所處的地理位置,Loci的位置信息與地理坐標(biāo)信息表示一致,包含水平坐標(biāo)值和垂直坐標(biāo)值,可以表示為Loci(xi,yi)。本文中的采樣時(shí)間間隔|Tj-Ti|為等時(shí)間間隔數(shù)值。
采樣時(shí)間為等時(shí)間間隔,因此可以將用戶的時(shí)空軌跡數(shù)據(jù)的連續(xù)時(shí)間域轉(zhuǎn)換為離散時(shí)間域,只考慮軌跡數(shù)據(jù)點(diǎn)的空間位置信息,將采樣的時(shí)空軌跡數(shù)據(jù)點(diǎn)映射到二維空間域上進(jìn)行表示??梢圆捎靡?guī)則網(wǎng)格單元的形式來表示用戶的時(shí)空軌跡數(shù)據(jù),以等規(guī)則空間粒度將空間平面劃分為有限個(gè)網(wǎng)格單元集合,以實(shí)現(xiàn)對連續(xù)空間區(qū)域的離散化處理以及相近軌跡位置點(diǎn)的近似化計(jì)算。假定一個(gè)3×3的平面規(guī)則空間網(wǎng)格集合,如果空間位置Loci落在第k個(gè)網(wǎng)格單元之內(nèi),則可以使用該網(wǎng)格單元的標(biāo)識號Cellk來代替該二維空間位置[2],軌跡序列的網(wǎng)格單元示意如圖1所示。
通過這樣的離散化劃分,連續(xù)的時(shí)空軌跡數(shù)據(jù)點(diǎn)就能夠被轉(zhuǎn)換為若干個(gè)離散的網(wǎng)格單元集合,臨近的連續(xù)軌跡數(shù)據(jù)點(diǎn)可以劃分到一個(gè)網(wǎng)格單元中,用相同的網(wǎng)格單元符號表示。因此,原始的時(shí)空軌跡數(shù)據(jù)集為:
可以被轉(zhuǎn)換為如下形式:
2? ? 等時(shí)間間隔的用戶移動(dòng)行為模式挖掘
熱點(diǎn)區(qū)域是指移動(dòng)對象頻繁訪問的空間區(qū)域。對于移動(dòng)軌跡數(shù)據(jù)來說,是指在某個(gè)空間區(qū)域中存在大概率的移動(dòng)數(shù)據(jù)訪問點(diǎn),這個(gè)區(qū)域被稱作為熱點(diǎn)空間區(qū)域。將原始時(shí)空軌跡映射到三維時(shí)空中,基于規(guī)則網(wǎng)格空間劃分,移動(dòng)軌跡位置點(diǎn)被轉(zhuǎn)換為不同瞬時(shí)的網(wǎng)格單元數(shù)據(jù)(見圖2)。網(wǎng)格單元被按照瞬時(shí)采樣時(shí)間分割為相應(yīng)的多個(gè)時(shí)間曾,在每一個(gè)時(shí)間層,使用密度統(tǒng)計(jì)的方法判定時(shí)空熱點(diǎn)區(qū)域。以cell(i,j)表示第i個(gè)時(shí)間層上的第j個(gè)網(wǎng)格單元,用Rate(cell(i,j))表示網(wǎng)格單元cell(i,j)被移動(dòng)群體訪問的頻率次數(shù)。
將用戶移動(dòng)軌跡數(shù)據(jù)集合用D={M1,M2,...,M6}表示,其中Mi表示第i個(gè)移動(dòng)個(gè)體的歷史軌跡數(shù)據(jù)。本實(shí)驗(yàn)中設(shè)置網(wǎng)格單元規(guī)格為3×3,軌跡數(shù)據(jù)集合如圖3所示。
對該移動(dòng)數(shù)據(jù)集進(jìn)行用戶訪問頻率次數(shù)計(jì)算之后,運(yùn)用數(shù)據(jù)挖掘算法實(shí)現(xiàn)對用戶熱點(diǎn)區(qū)域訪問軌跡序列的挖掘,具體的算法流程如圖4所示。將軌跡數(shù)據(jù)集映射為規(guī)則的網(wǎng)格單元形式,然后對該網(wǎng)格單元的數(shù)據(jù)進(jìn)行用戶軌跡訪問頻率值得計(jì)算,形成軌跡頻率值網(wǎng)格單元集合。掃描該集合的網(wǎng)格單元值,如果頻率值Rate(cell(i,j))大于給定的閾值,則標(biāo)識該單元格為熱點(diǎn)區(qū)域。如果頻率值Rate(cell(i,j))不大于給定的閾值,則刪除該網(wǎng)格單元[3]。直到所有的網(wǎng)格單元都掃描完成之后,將符合條件的熱點(diǎn)單元格及支持度值存入移動(dòng)模式集合LS中,判斷該單元格是否等于對應(yīng)的支持度值,如果等于支持度值,則將該單元格加入軌跡序列,否則移除該單元格,直到所有的網(wǎng)格單元判斷完成后,最終的LS集合即是要生成的熱點(diǎn)區(qū)域軌跡序列。
3? ? 結(jié)語
本文介紹了等時(shí)間間隔條件下的用戶移動(dòng)行為模式挖掘問題,對等時(shí)間間隔時(shí)空軌跡采樣數(shù)據(jù)進(jìn)行了研究。針對等時(shí)間間隔時(shí)空軌跡時(shí)間維度內(nèi)的離散化特征,提出了時(shí)間—空間規(guī)則網(wǎng)格表示的時(shí)空熱點(diǎn)區(qū)域的概念以表示不同時(shí)間切片上的熱點(diǎn)空間區(qū)域,最后設(shè)計(jì)并實(shí)現(xiàn)了用戶時(shí)空軌跡序列的挖掘算法。
基金項(xiàng)目:遼寧省博士科研啟動(dòng)基金項(xiàng)目;項(xiàng)目編號:20170520222。遼寧省教育科學(xué)“十三五”規(guī)劃課題;項(xiàng)目編號:JG17EB142。
作者簡介:陳雪蓮(1979— ),女,黑龍江肇東人,講師,博士;研究方向:數(shù)據(jù)挖掘。
[參考文獻(xiàn)]
[1]張彥俊,楊曉冬,劉毅,等.基于時(shí)空大數(shù)據(jù)的智慧稽查平臺構(gòu)建研究[J].計(jì)算機(jī)與數(shù)字工程,2019(3):616-617.
[2]楊杰.基于時(shí)空軌跡大數(shù)據(jù)的群體行為模式挖掘分析關(guān)鍵技術(shù)[D].南京:東南大學(xué),2015.
[3]呂萍.看美國大數(shù)據(jù)技術(shù)與業(yè)務(wù)發(fā)展[J].數(shù)字通信世界,2015(5):46-48.
Abstract:Firstly, based on the spatio-temporal trajectory data, this paper introduces the basic structure of spatio-temporal trajectory data and constructs a spatio-temporal trajectory data model. Secondly, the peer-to-peer interval spatio-temporal track sampling data is studied to generate the user hot spot access area. Finally, based on the user spatio-temporal trajectory data mining algorithm, the research of mining hot spot access area is carried out.
Key words:spatio-temporal trajectory; user mobile behavior