強(qiáng)思維 陳夏明 姜開(kāi)達(dá) 金耀輝,
1(區(qū)域光纖通信網(wǎng)與新型光通信系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(上海交通大學(xué)) 上海 200240)2(上海交通大學(xué)網(wǎng)絡(luò)信息中心 上海 200240) (qiangsiwei@sjtu.edu.cn)
基于移動(dòng)網(wǎng)絡(luò)流量日志的城市時(shí)空行為分析
強(qiáng)思維1陳夏明1姜開(kāi)達(dá)2金耀輝1,2
1(區(qū)域光纖通信網(wǎng)與新型光通信系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室(上海交通大學(xué))上海200240)2(上海交通大學(xué)網(wǎng)絡(luò)信息中心上海200240) (qiangsiwei@sjtu.edu.cn)
摘要城市的空間組織和居民行為研究是城市地理學(xué)研究的重點(diǎn),隨著信息技術(shù)的快速發(fā)展,居民的時(shí)空行為對(duì)城市空間的組織和結(jié)構(gòu)的影響呈現(xiàn)出日益增加的趨勢(shì),因此,對(duì)城市空間以及居民時(shí)空行為的深入分析具有很高的研究?jī)r(jià)值.通過(guò)采集杭州市區(qū)移動(dòng)3G網(wǎng)絡(luò)流量日志,首先采用空間點(diǎn)模式的分析方法研究了城市居民的聚集模式,并研究了居民移動(dòng)的距離、方向等方面的特征;之后采用網(wǎng)格的方法對(duì)城市空間進(jìn)行分塊,并以區(qū)塊為主體研究了熱點(diǎn)區(qū)塊出現(xiàn)的時(shí)空點(diǎn)、區(qū)塊人流的更迭速率、工作日人流的潮汐效應(yīng);提出了區(qū)塊差異指數(shù)的概念,并利用其對(duì)區(qū)塊進(jìn)行聚類(lèi),分析了區(qū)塊間的相關(guān)性和區(qū)塊間距離之間的關(guān)系.由于所研究的數(shù)據(jù)來(lái)源于移動(dòng)3G網(wǎng)絡(luò)流量日志,因此具有覆蓋面廣、數(shù)據(jù)量大等特點(diǎn),非常適合從大時(shí)空尺度層面研究居民和城市空間活動(dòng).
關(guān)鍵詞時(shí)空分析;空間點(diǎn)模式;移動(dòng)性分析;更迭速率;潮汐效應(yīng);差異指數(shù)
城市和居民的時(shí)空行為研究一直以來(lái)都是城市地理學(xué)研究的重點(diǎn),主要包括:城市交通研究[1-2]、城市功能分區(qū)研究[3-4]、城市等級(jí)體系研究[5-7]等.隨著信息技術(shù)的快速發(fā)展,居民的時(shí)空行為對(duì)城市空間組織和結(jié)構(gòu)的影響呈現(xiàn)出了日益增加的趨勢(shì).因此,對(duì)居民時(shí)空行為的深入分析具有很高的研究?jī)r(jià)值.
時(shí)空數(shù)據(jù)的采集與處理通常是研究城市和居民時(shí)空行為的關(guān)鍵點(diǎn)和難點(diǎn).傳統(tǒng)的數(shù)據(jù)獲取手段以人口普查和活動(dòng)日志為最常用[8].然而,這類(lèi)途徑獲取的數(shù)據(jù)通常具有一些弊端,例如,現(xiàn)有的人口普查方法并不能獲知居民在物理空間中移動(dòng)的實(shí)時(shí)情況、活動(dòng)日志數(shù)據(jù)的精確性也因調(diào)查者的回憶、填寫(xiě)態(tài)度等影響而有不同程度的失真.在信息時(shí)代,除了利用以上傳統(tǒng)方法,城市和居民的行為數(shù)據(jù)還能夠通過(guò)智能手機(jī)、出租車(chē)、智能卡等方式獲取,例如手機(jī)通話(huà)流量和位置數(shù)據(jù)、出租車(chē)位置信息、公交或地鐵站點(diǎn)的刷卡數(shù)據(jù)[8].通過(guò)這一類(lèi)途徑獲取的數(shù)據(jù)具有很好的實(shí)時(shí)性,并能夠準(zhǔn)確反映居民的真實(shí)行為和狀態(tài),其收集數(shù)據(jù)對(duì)應(yīng)的用戶(hù)群體、定位精度、定位時(shí)間、適合于研究的問(wèn)題對(duì)比如表1所示:
Table 1 Comparison of Different Data Sources
本文主要的研究問(wèn)題包括:杭州市區(qū)居民的時(shí)空行為的特點(diǎn),包括了總?cè)丝诘目臻g聚集性、居民的移動(dòng)距離和移動(dòng)方向;利用網(wǎng)格的方法將城市空間進(jìn)行分塊,主要包括定義和研究了熱點(diǎn)區(qū)塊出現(xiàn)的時(shí)空點(diǎn)、不同區(qū)塊人流的更迭速率、展示了工作日人流的潮汐效應(yīng)、提出區(qū)塊差異指數(shù)的概念,利用其對(duì)區(qū)塊進(jìn)行了聚類(lèi),并分析了區(qū)塊間的相關(guān)性和距離之間的關(guān)系.
1相關(guān)工作
隨著定位技術(shù)的不斷發(fā)展與廣泛應(yīng)用,基于GPS等定位技術(shù)的居民行為時(shí)空數(shù)據(jù)已被廣泛應(yīng)用于居民行為的研究中,研究的主體是城市居民,研究方向主要圍繞城市居民通勤的特征,例如通勤模式、不同群體的通勤差異、職住關(guān)系與通勤行為、城市空間與通勤行為、過(guò)量通勤等[9-13],研究方法主要運(yùn)用描述性統(tǒng)計(jì)、回歸分析等分析方法.文獻(xiàn)[14]通過(guò)收集10萬(wàn)用戶(hù)的手機(jī)通話(huà)和短信時(shí)段基站定位的位置信息,分析說(shuō)明用戶(hù)的移動(dòng)性除了包含隨機(jī)性,在更大程度上更遵循一定的周期規(guī)律性,因此在對(duì)用戶(hù)移動(dòng)性建模時(shí)除了傳統(tǒng)的萊維飛行或隨機(jī)游走模型,還應(yīng)該考慮時(shí)空的相關(guān)性.文獻(xiàn)[15]通過(guò)調(diào)查獲取了典型街區(qū)實(shí)體空間信息、被調(diào)查者的社會(huì)屬性、通勤行為空間和對(duì)通勤沿路相關(guān)實(shí)體要素感知信息等對(duì)居民的通勤行為進(jìn)行分析與模擬.文獻(xiàn)[16]以北京市天通苑與亦莊2個(gè)郊區(qū)巨型社區(qū)為案例,采用GPS定位數(shù)據(jù)和活動(dòng)日志相結(jié)合的為期1周的居民時(shí)空行為數(shù)據(jù),分別利用傳統(tǒng)方法和通勤彈性視角研究了居民的通勤特征.文獻(xiàn)[17]基于2008年北京市連續(xù)1周的公交IC卡刷卡數(shù)據(jù),結(jié)合2005年居民出行調(diào)查、地塊級(jí)別的土地利用圖,識(shí)別公交持卡人的居住地、就業(yè)地和通勤出行,分析了3大典型居住區(qū)和6個(gè)典型辦公區(qū)的通勤出行特征,研究了通勤出行的主導(dǎo)方向以及2008年和2005年通勤時(shí)間和距離的相似性.文獻(xiàn)[18-19]分別借用自然語(yǔ)言處理中的隱狄利克雷分布和改進(jìn)DBSCAN聚類(lèi)算法,通過(guò)分析城市中出租車(chē)的流量特征對(duì)城市的不同區(qū)塊按照其功能的相似性對(duì)其進(jìn)行分類(lèi).前人多就居民為研究對(duì)象展開(kāi)研究,對(duì)于城市不同區(qū)塊所承載的居民時(shí)空行為異同的研究較為有限,同時(shí)由于受限于數(shù)據(jù)來(lái)源,例如出租車(chē)的GPS數(shù)據(jù)只能涵蓋一部分的城市人流特征,同時(shí)會(huì)受限于出租車(chē)的功能和道路等情況,因此研究對(duì)象的數(shù)量相對(duì)較少,運(yùn)動(dòng)軌跡受到約束,同時(shí)實(shí)時(shí)性也相對(duì)較弱.
2數(shù)據(jù)來(lái)源和基本研究方法
本文使用的數(shù)據(jù)來(lái)源于杭州市區(qū)移動(dòng)3G網(wǎng)絡(luò)流量日志,包含2012年8月16—28日大約2周的數(shù)據(jù),數(shù)據(jù)包含移動(dòng)用戶(hù)識(shí)別碼(IMSI)、用戶(hù)上網(wǎng)時(shí)連接的基站的位置區(qū)編碼(LAC)和小區(qū)標(biāo)識(shí)(CI)、HTTP請(qǐng)求的時(shí)間戳等.本文主要通過(guò)IMSI字段區(qū)分單個(gè)用戶(hù),并將LAC和CI轉(zhuǎn)換成基站的經(jīng)緯度坐標(biāo),結(jié)合HTTP請(qǐng)求的時(shí)間戳標(biāo)定用戶(hù)出現(xiàn)的時(shí)空點(diǎn).
圖1是研究區(qū)域范圍內(nèi)的基站分布的密度統(tǒng)計(jì)圖.可見(jiàn)市區(qū)中心的基站分布的密度較大而周邊較小,但考慮到3G基站的覆蓋范圍最大可達(dá)數(shù)千米,因此,研究范圍內(nèi)的全部基站基本能夠完全覆蓋研究范圍.
Fig. 1 Base station density.圖1 基站密度
圖2是按1h為時(shí)間窗口統(tǒng)計(jì)的工作日和周末的平均總接入用戶(hù)數(shù).可見(jiàn),白天接入的用戶(hù)較多,夜間較少,且工作日大于周末,白天每小時(shí)的接入用戶(hù)數(shù)大約為7×104.
Fig. 2 The number of users connected to base station hourly.圖2 每小時(shí)連接基站的總用戶(hù)數(shù)統(tǒng)計(jì)
基于本文數(shù)據(jù)源,挖掘的難點(diǎn)主要體現(xiàn)如下:1)定位誤差相對(duì)GPS定位誤差較大,通常為數(shù)百米,無(wú)法將用戶(hù)位置準(zhǔn)確還原到城市的道路或建筑物中,缺少與之相關(guān)的語(yǔ)義信息;2)由于只有在用戶(hù)上網(wǎng)的時(shí)間段才能獲取用戶(hù)的空間位置信息,因而,用戶(hù)在時(shí)間軸上具有很大的跳躍性,難以從中推測(cè)出用戶(hù)的軌跡信息.數(shù)據(jù)的來(lái)源限制了無(wú)法針對(duì)單個(gè)用戶(hù)的挖掘,同時(shí)常用的軌跡挖掘方法也難以奏效.
由于難以準(zhǔn)確獲取個(gè)體用戶(hù)連續(xù)時(shí)空位置,軌跡挖掘的方法失效,本文并不針對(duì)個(gè)體用戶(hù)的行為進(jìn)行挖掘,而是針對(duì)用戶(hù)群體或利用網(wǎng)格對(duì)城市空間進(jìn)行分塊(將地理空間切分成均等大小的方塊,經(jīng)實(shí)驗(yàn),粒度選為200~500m較為適宜,一方面與基站定位精度的尺度相當(dāng),同時(shí)保證了具有一定用戶(hù)量以滿(mǎn)足統(tǒng)計(jì)特性),研究大尺度范圍內(nèi)的城市空間和居民的時(shí)空行為.由于用戶(hù)上網(wǎng)行為符合統(tǒng)計(jì)學(xué)規(guī)律,因此針對(duì)群體的統(tǒng)計(jì)能夠符合真實(shí)情況.
本文的基本研究方法包括數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的處理和計(jì)算.由于數(shù)據(jù)量龐大,利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行管理和挖掘幾乎不可能,因此,本文采用了HDFS對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),并采用UCBerkeleyAMPLab所開(kāi)源的HadoopMapReduce通用的并行計(jì)算框架Spark進(jìn)行計(jì)算和分析,由于中間輸出結(jié)果可以直接保存在內(nèi)存中不再需要讀寫(xiě)HDFS,因此Spark能夠更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法.
3空間點(diǎn)模式和移動(dòng)性分析
3.1空間點(diǎn)模式分析
平面空間點(diǎn)模式分析方法通??杀环譃?類(lèi):1)檢測(cè)空間過(guò)程的一階影響,主要研究點(diǎn)事件的均值隨著空間變化而變化的過(guò)程,常用方法是核密度估計(jì)法;2)檢測(cè)空間過(guò)程的二階影響,主要考察點(diǎn)過(guò)程之間的空間依賴(lài)性,其中Ripley’sK函數(shù)使用研究范圍內(nèi)的全部點(diǎn)之間距離來(lái)對(duì)集聚模式進(jìn)行度量,因而更加穩(wěn)定可靠[20].采用空間點(diǎn)模式的分析方法進(jìn)行分析能夠揭示出用戶(hù)空間分布的基本規(guī)律.
核密度估計(jì)根據(jù)觀(guān)測(cè)值獲得概率密度的平滑估計(jì)值.對(duì)某區(qū)域內(nèi)任意點(diǎn)上的事件密度進(jìn)行估計(jì),最常用的方法就是以該點(diǎn)為圓心,統(tǒng)計(jì)以r為半徑范圍之內(nèi)事件發(fā)生的數(shù)量,然后除以圓的面積,因此s處的密度可以表示為
(1)
其中,r為帶寬;k(·)為核函數(shù),常為對(duì)稱(chēng)密度函數(shù),可理解為點(diǎn)i處的權(quán)重,常用核函數(shù)有均勻核、二次核、三角核、高斯核、余弦核;di s為點(diǎn)i到點(diǎn)s的距離.帶寬r決定了密度曲面的平滑程度.
本文首先利用網(wǎng)格方法對(duì)空間進(jìn)行劃分,統(tǒng)計(jì)出單日連接過(guò)區(qū)塊內(nèi)基站的用戶(hù)數(shù),再進(jìn)行核密度估計(jì).通常選擇何種核函數(shù)不是密度估計(jì)中最關(guān)鍵的因素,因?yàn)槿魏魏撕瘮?shù)都可以保證對(duì)密度估計(jì)具有穩(wěn)定性.本文選取采用了高斯核,而帶寬選擇對(duì)密度曲線(xiàn)邊界的影響很大,帶寬較小時(shí)邊界光滑性較差;反之,當(dāng)帶較大時(shí)邊界光滑性較好,但曲線(xiàn)擬合度較差,經(jīng)實(shí)驗(yàn)比較區(qū)塊和帶寬的粒度選為500m較為適宜.圖3是平均單日用戶(hù)數(shù)統(tǒng)計(jì)的核密度估計(jì)圖,顯示了用戶(hù)分布情況,可見(jiàn),西湖周邊區(qū)域人數(shù)較為密集,并向四周擴(kuò)散呈現(xiàn)遞減的趨勢(shì).
Fig. 3 Kernel density estimation of daily user number.圖3 單日用戶(hù)數(shù)核密度估計(jì)
K函數(shù)的基本思想是:假定依次在各個(gè)事件中心設(shè)置半徑為d的圓,統(tǒng)計(jì)出落入圓內(nèi)其他事件的數(shù)量,計(jì)算出其期望并除以總事件密度,并對(duì)于不同距離值不斷重復(fù)這個(gè)過(guò)程.K函數(shù)定義為
(2)
Ripley’sL函數(shù)是Ripley’sK函數(shù)的一個(gè)變形,用來(lái)衡量點(diǎn)分布模式隨尺度的變化規(guī)律,保持了方差的穩(wěn)定.
(3)
在隨機(jī)分布的假設(shè)下,L(d)的期望值等于0,L(d)與d的關(guān)系圖可用于檢驗(yàn)依賴(lài)于尺度d的事件的空間分布模式.L(d)第1個(gè)峰值對(duì)應(yīng)的d值表示了事件空間集聚的特征空間尺度.
Fig. 4 L function analysis.圖4 L函數(shù)分析
圖4是工作日和周末的L函數(shù)分析圖,橫坐標(biāo)為研究尺度d,縱坐標(biāo)為L(zhǎng)(d).由函數(shù)的曲線(xiàn)可見(jiàn)用戶(hù)在空間分布上呈現(xiàn)出明顯的聚集性,工作日更為明顯,由函數(shù)的峰值可見(jiàn)用戶(hù)分布的特征空間尺度約為6 200m.
3.2移動(dòng)性分析
用戶(hù)移動(dòng)性分析主要分析運(yùn)動(dòng)用戶(hù)移動(dòng)的距離和方向,包括用戶(hù)平均移動(dòng)距離和時(shí)間之間的關(guān)系,以及位于不同區(qū)域的用戶(hù)到達(dá)下一地點(diǎn)的方向和距離的傾向性,來(lái)揭示用戶(hù)移動(dòng)的基本時(shí)空規(guī)律.
用戶(hù)的移動(dòng)距離近似為某時(shí)間窗口內(nèi)用戶(hù)所有連接基站之間的最大距離.計(jì)算公式如下:
(4)
其中,uti.distance是用戶(hù)u在時(shí)間窗口ti內(nèi)移動(dòng)的最大距離,在時(shí)間窗口內(nèi)連接的基站數(shù)為n,dist(pi,pj)是基站pi和基站pj之間的距離.
圖5是用戶(hù)移動(dòng)距離的統(tǒng)計(jì)和時(shí)間的關(guān)系,時(shí)間窗口為1h,箱線(xiàn)圖包含了數(shù)據(jù)中的5個(gè)主要統(tǒng)計(jì)量:最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)以及最大值,能夠顯示數(shù)據(jù)的基本分布情況.由圖5可見(jiàn),工作日相對(duì)于周末的平均移動(dòng)距離較大,并且在早、晚高峰顯示出較為明顯的通勤特征.
Fig. 5 Relation between moving distance and time of day.圖5 移動(dòng)距離和時(shí)間的關(guān)系
用戶(hù)移動(dòng)距離和方向的傾向性關(guān)于空間位置的關(guān)系,通過(guò)計(jì)算相鄰2個(gè)時(shí)間窗口用戶(hù)位置的變化來(lái)顯示.其中用戶(hù)在時(shí)間窗口ti的位置通過(guò)用戶(hù)在時(shí)間窗口ti連接的所有基站位置的期望來(lái)近似,公式如下:
(5)
其中,uti.lng和uti.lat分別對(duì)應(yīng)了用戶(hù)u在時(shí)間窗口ti的經(jīng)度和緯度,在時(shí)間窗口ti連接的基站數(shù)為n,pj.lng和pj.lat分別是第j個(gè)基站的經(jīng)度和緯度.
圖6所示的用戶(hù)單日移動(dòng)方向和距離圖通過(guò)將用戶(hù)在2個(gè)相鄰的時(shí)間窗口的位置進(jìn)行連線(xiàn),按照東、南、西、北、東北、東南、西北、西南8個(gè)方向進(jìn)行歸類(lèi),計(jì)算出每個(gè)方位移動(dòng)距離的期望.在圖6中分別選取了位于市中心東(C)、南(D)、西(A)、北(B)、中(E)共5個(gè)地點(diǎn)進(jìn)行觀(guān)測(cè),每個(gè)方向的半徑分別表示了單日內(nèi)用戶(hù)向各個(gè)方向移動(dòng)的期望距離.由圖6可見(jiàn),從區(qū)位關(guān)系上看,從各個(gè)地點(diǎn)到下一地點(diǎn)的移動(dòng)方向大多指向中心城區(qū),表明中心城區(qū)也是城市職能的強(qiáng)中心.
Fig. 6 Moving direction and distance of users in different areas.圖6 不同區(qū)域用戶(hù)移動(dòng)方向和距離
4網(wǎng)格分塊的區(qū)塊行為分析
4.1熱點(diǎn)區(qū)塊
定義1. 熱點(diǎn)區(qū)塊.熱點(diǎn)區(qū)塊是某時(shí)間窗口內(nèi)總?cè)藬?shù)統(tǒng)計(jì)中相對(duì)最多的x%區(qū)塊.
研究熱點(diǎn)區(qū)塊(即人數(shù)最為稠密的區(qū)域)的時(shí)空行為對(duì)城市的規(guī)劃,包括城市空間的組織和結(jié)構(gòu)的調(diào)整以及相關(guān)公共資源,例如城市交通設(shè)施的建設(shè)、網(wǎng)絡(luò)基站的部署,具有重要的指導(dǎo)意義.
本文首先利用網(wǎng)格方法對(duì)空間進(jìn)行劃分,粒度選為500m,總共有33 750個(gè)區(qū)塊,之后統(tǒng)計(jì)出各時(shí)間窗口內(nèi)各區(qū)塊所包含的總用戶(hù)數(shù),并對(duì)其進(jìn)行排序,取前0.1%(前34)的區(qū)塊標(biāo)記為該時(shí)間窗口內(nèi)的熱點(diǎn)區(qū)塊.
圖7分別對(duì)工作日、周末的白天和晚上各個(gè)時(shí)段統(tǒng)計(jì)單天內(nèi)熱點(diǎn)區(qū)塊出現(xiàn)的空間位置以及出現(xiàn)的小時(shí)數(shù),時(shí)間窗口為1h,柱狀圖的高度正比于熱點(diǎn)出現(xiàn)的總時(shí)長(zhǎng).由圖7可見(jiàn),與西湖相鄰的東北區(qū)域是白天熱點(diǎn)的高發(fā)區(qū)域,其南北相鄰的2塊區(qū)域?yàn)橥砩蠠狳c(diǎn)的高發(fā)區(qū)域,并且周末的熱點(diǎn)與工作日相比較為分散.由此可以推測(cè)出,西湖相鄰的城區(qū)中心區(qū)域可能為商業(yè)區(qū),而兩側(cè)可能多為住宅區(qū),工作日人口活動(dòng)區(qū)域相對(duì)比較集中,而周末則比較分散.
Fig. 7 The position and duration of hot spots’ occurrences.圖7 熱點(diǎn)區(qū)塊出現(xiàn)的位置和總時(shí)長(zhǎng)
圖8顯示了1周內(nèi)出現(xiàn)過(guò)熱點(diǎn)的區(qū)塊中熱點(diǎn)出現(xiàn)的時(shí)間,有色部分表示該區(qū)域是該時(shí)間段的熱點(diǎn)區(qū)域,并以區(qū)塊每個(gè)小時(shí)熱點(diǎn)是否出現(xiàn)為特征進(jìn)行kmeans聚類(lèi)得到的結(jié)果,其中k=3.由圖8可見(jiàn),熱點(diǎn)出現(xiàn)可以分為3種模式,即白天出現(xiàn)(推測(cè)為商業(yè)區(qū))、晚上出現(xiàn)(推測(cè)為住宅區(qū))、突發(fā)出現(xiàn)(可能與突發(fā)事件相關(guān)).
Fig. 8 Hot spots’ occurrence time in one week.圖8 一周內(nèi)熱點(diǎn)區(qū)塊出現(xiàn)的時(shí)間
4.2區(qū)塊人流更迭速率
定義2. 更迭速率.區(qū)塊的更迭速率是區(qū)塊在相鄰時(shí)間窗口內(nèi)所包含的相異用戶(hù)的數(shù)量和相同用戶(hù)的數(shù)量的比值,計(jì)算公式如下:
(6)
其中,sti和sti+1分別是時(shí)段ti和時(shí)段ti+1的區(qū)塊用戶(hù)的集合;#[·]表示集合大小.更迭速率的大小可用來(lái)說(shuō)明區(qū)塊內(nèi)用戶(hù)群體的穩(wěn)定性或流動(dòng)性.r越小表明用戶(hù)集合越趨于穩(wěn)定,反之流動(dòng)性越強(qiáng).
圖9是工作日上午8時(shí)區(qū)塊人流的更迭速率正規(guī)化后的結(jié)果,即某區(qū)塊i的更迭速率如下:
(7)
其中,n為所有區(qū)塊的數(shù)量.
Fig. 9 The change rate at 8:00 AM on weekday.圖9 工作日上午8時(shí)區(qū)塊人流更迭速率
由圖9可見(jiàn),工作日早高峰時(shí)段,區(qū)塊更迭速率與區(qū)塊的功能有著密切聯(lián)系,更迭速率最大的一部分區(qū)塊恰好位于主要道路.
Fig. 10 The relation between change rate and time of day.圖10 區(qū)域平均更迭速率和時(shí)間的關(guān)系
圖10顯示了各個(gè)區(qū)塊的平均更迭速率和時(shí)間的關(guān)系.可見(jiàn)白天人口的流動(dòng)性高于夜間,早晚高峰最強(qiáng);除早晚高峰,周末人口的流動(dòng)性強(qiáng)于工作日,早晚高峰時(shí)段工作日人口流動(dòng)性最強(qiáng).
4.3差異指數(shù)和區(qū)塊相似性
定義3. 差異指數(shù). 區(qū)塊的差異指數(shù)是區(qū)塊人數(shù)在1d內(nèi)的分布和全部區(qū)域人數(shù)在1d內(nèi)的分布的差異,計(jì)算公式如下:
(8)
圖11是工作日不同時(shí)刻差異指數(shù)經(jīng)過(guò)正則化后在空間中的分布,紅色和藍(lán)色分別表示人口相對(duì)密集和稀疏的區(qū)域.可見(jiàn),早、晚人口在杭州市周邊區(qū)域較為密集,而白天則在中心區(qū)域較為密集,顯示出工作日人流的潮汐效應(yīng),即早高峰人流流向市中心,晚高峰則相反.
Fig. 11 The tidal effect on weekday.圖11 工作日人流的潮汐效應(yīng)
圖12是選取到的3個(gè)特殊地點(diǎn)計(jì)算出的差異指數(shù)隨時(shí)間的變化趨勢(shì),圖12中A,B,C分別對(duì)應(yīng)了艮秋立交橋、黃龍時(shí)代廣場(chǎng)、三塘北村東區(qū).艮秋立交橋位于杭州市交通主干道的十字路口,黃龍時(shí)代廣場(chǎng)位于商業(yè)區(qū),三塘北村東區(qū)則位于住宅區(qū),分別代表了城市的3種主要功能區(qū)域.由差異指數(shù)可見(jiàn),以艮秋立交橋?yàn)榇淼慕煌范卧谠缤砀叻宄尸F(xiàn)出明顯的密集性,而以黃龍時(shí)代廣場(chǎng)為代表的商業(yè)區(qū)和以三塘北村東區(qū)為代表的住宅區(qū)則分別在白天和晚上呈現(xiàn)出密集性.
Fig. 12 The relation of difference index and time of day on three example areas.圖12 3個(gè)實(shí)例地點(diǎn)的差異指數(shù)隨時(shí)間的變化
差異指數(shù)的分析有助于分析城市不同區(qū)域的功能特征,并能夠利用其對(duì)城市的不同區(qū)塊進(jìn)行聚類(lèi),獲知不同功能區(qū)塊在空間中的分布情況.圖13是提取各個(gè)功能區(qū)塊的差異指數(shù)的時(shí)間序列作為特征,對(duì)其進(jìn)行k-means(k=3)聚類(lèi)得到的結(jié)果.圖13(a)展示了3種不同類(lèi)別的功能區(qū)域在空間中的分布情況;圖13(b)展示了其聚類(lèi)中心的差異指數(shù)隨時(shí)間的變化,可以推測(cè)出藍(lán)色、紅色、綠色區(qū)域分別對(duì)應(yīng)了交通路段、商業(yè)區(qū)、住宅區(qū)這3種典型的城市功能區(qū)域.
Fig. 13 The spatial distribution and the relations between the difference index and time of day for three clusters.圖13 聚類(lèi)的空間分布和聚類(lèi)中心差異指數(shù)隨時(shí)間的變化
利用差異指數(shù)還能夠計(jì)算區(qū)塊之間的相關(guān)性,其計(jì)算公式如下:
(9)
圖14所示區(qū)域間的相關(guān)性和距離之間的關(guān)系,橫坐標(biāo)為對(duì)數(shù)坐標(biāo),可見(jiàn)區(qū)域間相關(guān)性與距離近似符合如下關(guān)系:
c(r)~-γlgr,
(10)
其中,γ表征了區(qū)域間相關(guān)性關(guān)于距離衰減的程度.同時(shí)可見(jiàn),在4 000m空間尺度范圍內(nèi)區(qū)域間呈現(xiàn)正相關(guān)關(guān)系,大于4 000m則呈現(xiàn)出弱負(fù)相關(guān)性.
Fig. 14 The relation between the correlation of blocks and their distances.圖14 區(qū)塊間的相關(guān)性和距離的關(guān)系
5結(jié)束語(yǔ)
深入分析城市和居民時(shí)空行為對(duì)城市規(guī)劃,包括城市空間的組織和結(jié)構(gòu)的調(diào)整,具有很高的研究?jī)r(jià)值.本文通過(guò)采集杭州市區(qū)的移動(dòng)3G網(wǎng)絡(luò)流量日志,采用統(tǒng)計(jì)學(xué)的方法分析了杭州市區(qū)居民時(shí)空行為的特點(diǎn).由于數(shù)據(jù)具有覆蓋面廣、數(shù)據(jù)量大等特點(diǎn),處理過(guò)程中運(yùn)用了Spark等大數(shù)據(jù)的處理工具和方法.研究?jī)?nèi)容主要包括了2方面:1)基于用戶(hù)群體的空間點(diǎn)模式和移動(dòng)性分析;2)基于網(wǎng)格分塊的區(qū)塊行為分析.前者采用空間點(diǎn)模式的分析方法,研究了城市居民的聚集模式以及居民移動(dòng)距離、方向等方面的特征;后者則基于網(wǎng)格分塊的區(qū)塊行為分析,采用網(wǎng)格的方法對(duì)城市空間進(jìn)行分塊,以區(qū)塊為研究對(duì)象,重點(diǎn)研究了熱點(diǎn)區(qū)塊出現(xiàn)的時(shí)空點(diǎn)、區(qū)塊人流的更迭速率、工作日人流的潮汐效應(yīng),提出了區(qū)塊差異指數(shù)的概念,并利用其對(duì)區(qū)塊進(jìn)行聚類(lèi),其中的每一個(gè)類(lèi)別都對(duì)應(yīng)了一種具有典型功能的區(qū)域,最后分析了區(qū)塊間的相關(guān)性和距離之間的關(guān)系.
參考文獻(xiàn)
[1]BeckerRA,CaceresR,HansonK,etal.Ataleofonecity:Usingcellularnetworkdataforurbanplanning[J].IEEEPervasiveComputing, 2011, 10(4): 18-26
[2]LiuY,KangC,GaoS,etal.Understandingintra-urbantrippatternsfromtaxitrajectorydata[J].JournalofGeographicalSystems, 2012, 14(4): 463-483
[3]HollensteinL,PurvesR.Exploringplacethroughuser-generatedcontent:Usingflickrtagstodescribecitycores[J].JournalofSpatialInformationScience, 2013, 1(1): 21-48
[4]CranshawJ,SchwartzR,HongJ,etal.Thelivehoodsproject:Utilizingsocialmediatounderstandthedynamicsofacity[C] //Procofthe6thIntAAAIConfonWeblogsandSocialMedia.MenloPark,CA:AAAI, 2012: 58-65
[5]NaamanM,ZhangAX,BrodyS,etal.OnthestudyofdiurnalurbanroutinesonTwitter[C] //Procofthe6thIntAAAIConfonWeblogsandSocialMedia.MenloPark,CA:AAAI, 2012: 258-265
[6]KringsG,CalabreseF,RattiC,etal.Urbangravity:Amodelforinter-citytelecommunicationflows[J].JournalofStatisticalMechanics:TheoryandExperiment, 2009, 7(3): 1-8
[7]KangC,ZhangY,MaX,etal.InferringpropertiesandrevealinggeographicalimpactsofintercitymobilecommunicationnetworkofChinausingasubnetdataset[J].InternationalJournalofGeographicalInformationScience, 2013, 27(3): 431-448
[8]QinXiao,ZhenFeng,XiongLifang,etal.Methodsinurbantemporalandspatialbehaviorresearchinthebigdataera[J].ProgressinGeography, 2013, 32(9): 1352-1361 (inChinese)(秦蕭, 甄峰, 熊麗芳, 等. 大數(shù)據(jù)時(shí)代城市時(shí)空間行為研究方法[J]. 地理科學(xué)進(jìn)展, 2013, 32(9): 1352-1361)
[9]SohnJ.Arecommutingpatternsagoodindicatorofurbanspatialstructure[J].JournalofTransportGeography, 2005, 13(4): 306-317
[10]LeeBS,McDonaldJF.DeterminantsofcommutingtimeanddistanceforSeoulresidents:Theimpactoffamilystatusonthecommutingofwomen[J].UrbanStudies, 2003, 40(7): 1283-1302
[11]SchwanenT,MokhtarianPL.Whataffectscommutemodechoice:Neighborhoodphysicalstructureorpreferencestowardneighborhoods[J].JournalofTransportGeography, 2005, 13(1): 83-99
[12]CaoX,MokhtarianPL.Howdoindividualsadapttheirpersonaltravel?Aconceptexplorationoftheconsiderationoftravel-relatedstrategies[J].TransportPolicy, 2005, 12(3): 199-206
[13]HornerM.Extensionstotheconceptofexcesscommuting[J].EnvironmentandPlanningA, 2002, 34(3): 543-566
[14]GonzálezMC,HidalgoCA,BarabásiAL.Understandingindividualhumanmobilitypatterns[J].Nature, 2008, 453(7196): 779-782
[15]ZhouSuhong,YanXiaopei.Theimpactofcommuters’travelpatternonurbanstructure:AcasestudyinsometypicalcommunitiesinGuangzhou[J].JournalofGeographicalSciences, 2006, 61(2): 179-189 (inChinese)(周素紅, 閆小培. 基于居民通勤行為分析的城市空間解讀——以廣州市典型街區(qū)為案例[J]. 地理學(xué)報(bào), 2006, 61(2): 179-189)
[16]ShenYue,ChaiYanwei.StudyoncommutingflexibilityofresidentsbasedonGPSdata:Acasestudyofsuburbanmega-communitiesinBeijing[J].JournalofGeographicalSciences, 2012, 67(6): 733-744 (inChinese)(申悅, 柴彥威. 基于GPS數(shù)據(jù)的城市居民通勤彈性研究: 以北京市郊區(qū)巨型社區(qū)為例[J]. 地理學(xué)報(bào), 2012, 67(6): 733-744)
[17]LongYing,ZhangYu,CuiChengyin.IdentifyingcommutingpatternofBeijingusingbussmartcarddata[J].JournalofGeographicalSciences, 2012, 67(10): 1-14 (inChinese)(龍瀛, 張宇, 崔承印. 利用公交刷卡數(shù)據(jù)分析北京職住關(guān)系和通勤出行[J]. 地理學(xué)報(bào), 2012, 67(10): 1-14)
[18]JingYuan,YuZheng,XingXie,DiscoveringregionsofdifferentfunctionsinacityusinghumanmobilityandPOIs[C] //Procofthe18thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM, 2012: 186-194
[19]PanGang,QiGuangde,WuZhaohui,etal.Land-useclassificationusingtaxiGPStraces[J].IEEETransonIntelligentTransportationSystems, 2013, 14(1): 113-123
[20]GatrellA,BaileyT,DiggleP,etal.Spatialpointpatternanalysisanditsapplicationingeographicalepidemiology[J].TransoftheInstituteofBritishGeographers, 1996, 21(1): 256-274
QiangSiwei,bornin1989.PhDcandidateinShanghaiJiaoTongUniversity.Hisresearchinterestsincludedataminingandbigdataprocessing.
ChenXiaming,bornin1987.PhDcandidateinShanghaiJiaoTongUniversity.Hisresearchinterestsincludenetworkdataanalysisandbigdataprocessing.
JiangKaida,bornin1980.WorkinNetwork&InformationCenter,ShanghaiJiaoTongUniversity.Hisresearchinterestsincludenetworksecurity.
JinYaohui,bornin1971.ProfessorinShanghaiJiaoTongUniversityanddeputydirectorinNetwork&InformationCenter.Hisresearchinterestsincludecloudcomputinganddatamining.
UrbanSpatio-TemporalBehaviorAnalysisBasedonMobileNetworkTrafficLogs
QiangSiwei1,ChenXiaming1,JiangKaida2,andJinYaohui1,2
1(State Key Laboratory of Advanced Optical Communication Systems and Networks (Shanghai Jiao Tong University), Shanghai 200240)2(Network & Information Center, Shanghai Jiao Tong University, Shanghai 200240)
AbstractCity organization and residents’ behavior are one of the key researches in urban geography. With the rapid development of information technology, the impact of residents spatial and temporal behavior on urban spatial organization and structure shows a growing trend, therefore in-depth analysis of the spatio-temporal behavior of city space and urban residents has high research values. After the acquisition of Hangzhou mobile network traffic logs, the gathering patterns of urban residents are studied with spatial point pattern analysis, and the features of moving distance and direction are analyzed. Using grid approach, we divide the urban space into blocks, and focus on the emergence of hotspot point, the change rate of human flow, tidal effects on weekdays, and present the concept of blocks difference index which is used to cluster blocks and analyze the relationship between the correlation of blocks and their distances. Since our research data comes from mobile network traffic logs, it has a wide coverage and a large volume, which is ideal for search on residents and city behavior on large spatio-temporal scales.
Key wordsspatio-temporal analysis; spatial point pattern; mobility analysis; change rate; tidal effects; difference index
收稿日期:2014-11-24;修回日期:2015-05-27
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61371084,61431009,61433009);國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2010CB328205)
中圖法分類(lèi)號(hào)TP274
ThisworkwassupportedbytheNationalNaturalScienceFoundationofChina(61371084,61431009,61433009)andtheNationalBasicResearchProgramofChina(973Program) (2010CB328205).