陳 仲
(中國城市規(guī)劃設(shè)計研究院,北京100037)
城市居民日?;顒?如通勤、娛樂、休閑游憩等)的總和行成城市活動.大量研究表明,居民個體在時間和空間上的行為活動表現(xiàn)出一定的規(guī)律性[1-2],這種規(guī)律性與城市經(jīng)濟(jì)、生活水平、用地功能布局等密切相關(guān).通常情況下,城市活動能夠從動態(tài)角度反應(yīng)城市不同片區(qū)用地功效、功能布局的特點(diǎn),結(jié)合靜態(tài)角度的地形地貌、道路網(wǎng)絡(luò)等因素,共同行成城市運(yùn)行規(guī)律、用地使用功效、功能布局優(yōu)化的基本認(rèn)知.
借助數(shù)據(jù)采集及處理方法革新,學(xué)者越來越多地關(guān)注城市居民活動的時空動態(tài)特征,從而為研究城市不同功能區(qū)、居民活動空間聯(lián)系特征提供基礎(chǔ).丁亮[3]利用手機(jī)數(shù)據(jù)通過人群總量等值線分析與核密度分析識別出通勤區(qū)的范圍,探討市域不同分區(qū)之間的關(guān)系.閆晴[4]利用手機(jī)信令數(shù)據(jù),基于人群核密度分布及SPSS的系統(tǒng)聚類方法對長春市居民的居住、就業(yè)和消費(fèi)休閑的活動空間分布進(jìn)行研究.由于手機(jī)信令數(shù)據(jù)時間采集粒度大、定位精確度低,大多數(shù)研究集中在市域、城市等空間層面上,對時間特征研究較為粗放.
在城市活動的時變分布特征上,出租車GPS提供了更加精細(xì)的數(shù)據(jù)基礎(chǔ).程靜[5]聚類分析北京市出租車出行活動的時空分布特征,并與城市區(qū)位進(jìn)行對應(yīng),解釋不同區(qū)位出租車出行活動的差異;鄔群勇[6]采用有監(jiān)督學(xué)習(xí)對不同區(qū)域出租車乘降量的時變規(guī)律進(jìn)行研究.出租車GPS 數(shù)據(jù)時空定位精度高,但其出行方式過于單一,無法反應(yīng)城市活動的全部狀態(tài).此外,在時變特征聚類過程中往往需要事先指定聚類數(shù)量或類別缺陷.
本文重點(diǎn)研究基于手機(jī)信令數(shù)據(jù)的城市活動的時空特征,以及城市功能區(qū)識別的聚類方法.一方面,借鑒出租車GPS 研究對時變規(guī)律的處理方式,深化傳統(tǒng)手機(jī)信令數(shù)據(jù)研究對時變特征處理較粗放的現(xiàn)狀;另一方面,在聚類方法上避免事先指定聚類數(shù)量的人為干預(yù).通過將居民手機(jī)信令數(shù)據(jù)轉(zhuǎn)換為出行OD 數(shù)據(jù),獲得居民出行時變特征,提出基于狄利克雷過程混合模型(Dirichlet Process Mixture Model,DPMM)的聚類方法,充分利用DPMM 無需事先指定聚類類別或數(shù)量的優(yōu)勢.將該方法應(yīng)用到三亞城市活動時空分布特征研究中,并將其與城市用地功能、空間布局結(jié)合在一起,為進(jìn)一步理解三亞市居民活動與用地互動關(guān)系、輔助相關(guān)用地政策制定提供支撐.
本文數(shù)據(jù)來源于三亞市全域居民手機(jī)信令數(shù)據(jù),處理原始手機(jī)數(shù)據(jù)得到三亞市居民出行OD數(shù)據(jù).OD提取方法采用文獻(xiàn)[7]方法,在合并“乒乓點(diǎn)”后,將停留時間超過20 min的地點(diǎn)(即基站)作為一個停駐地,以此切割居民個體出行時空軌跡鏈,最終得到個體出行OD記錄,如圖1(a)、(b)所示.
在此基礎(chǔ)上,以基站為單位,對每個基站的出行到發(fā)量進(jìn)行集計,用“到達(dá)量”減去“出發(fā)量”得到該基站的“凈流量”數(shù)據(jù).“凈流量”能夠反應(yīng)該空間位置的城市活動特征,如早高峰期間“凈流量”為正,說明該空間位置多為就業(yè)崗位,居民在早高峰期間以到達(dá)活動為主.由于各基站空間位置到發(fā)絕對量不同,通過標(biāo)準(zhǔn)化,將“凈流量”轉(zhuǎn)換為0-1區(qū)間范圍內(nèi)的數(shù)據(jù),用于聚類分析,如圖1(c)所示.最終提取出中心城區(qū)范圍235個基站(同一坐標(biāo)的基站可能有多個,這里視為一個)的“凈流量”數(shù)據(jù),如圖1(d)所示.
狄利克雷過程(Dirichlet Process,DP)可以看做是分布上的分布,該隨機(jī)過程的每次抽樣都是一個隨機(jī)分布.狄利克雷過程表示為G~DP(α0,G0),其中,α0為集中參數(shù),G0為基本分布.α0越大,從狄利克雷過程抽取的分布越分散.
狄利克雷過程的邊緣概率分布是狄利克雷分布(Dirichlet Distribution),它是Beta 分布在多元上的推廣,概率密度函數(shù)表示為Dir(β),參數(shù)β是一個多維實(shí)數(shù)向量.因此,在貝葉斯推斷中,狄利克雷分布常為多項(xiàng)分布的共軛先驗(yàn)分布.當(dāng)數(shù)據(jù)服從多項(xiàng)分布時具有天然的優(yōu)勢.
狄利克雷過程無法直接采樣,需通過其他構(gòu)造形式,如截棍構(gòu)造模型、polya 罐子模型、中餐館模型[8].本文采用中餐館構(gòu)造模型,有助于自發(fā)確定類別數(shù)量并發(fā)現(xiàn)新類別.
每個基站的活動特征可以表示為向量xi=(xi1,…,xij,…,xim),其中,xij為第i個基站在j時刻標(biāo)準(zhǔn)化的“凈流量”的值,該向量可以由參數(shù)為{θi1,…,θij,…,θim} 的多項(xiàng)式分布產(chǎn)生.待聚類的n個基站的活動特征構(gòu)成向量X=(x1,…,xi,…,xn).假定其相互獨(dú)立且來自于某個混合分布,該混合分布由多個多項(xiàng)式分布組成,構(gòu)成不同多項(xiàng)式分布的概率的參數(shù)可以從狄利克雷過程G~DP(α0,G0)中抽樣得到.于是,如果某些樣本由同一個參數(shù)下的混合分布產(chǎn)生,那么可以將這些數(shù)據(jù)樣本歸為同一類,達(dá)到聚類的目的.DPMM模型可以表示為
式(1)表示第i個基站的“凈流量”是由第zi類的多項(xiàng)式分布產(chǎn)生,其參數(shù)為,zi為類別編號,K是類的總數(shù);式(2)表示參數(shù)的先驗(yàn)分布為狄利克雷分布,其參數(shù)為(β1,…,βj,…,βm);式(3)表示第zi類是從參數(shù)為Π的多項(xiàng)式分布中抽樣得到;式(4)表示參數(shù)Π=(π1,…,πk,…,πK+1)是從DP(α0,G0)過程中抽取而來.
圖1 數(shù)據(jù)預(yù)處理流程Fig.1 Data preprocessing process
在中餐館模型構(gòu)造下,每個基站的活動特征xi屬于既有類的概率,以及屬于一個新類的概率分別為
式中:k為樣本xi所屬的類別編號;B為歸一化因子,保證概率之和為1;nk為屬于第k類的所有樣本的各維度計數(shù)總和;Z-i為除zi的其他所有的類別集合.邊緣概率密度為
式中:為第k類的參數(shù).
由式(1)和式(2)可知,式(5)可以進(jìn)一步表示為
式中:Ci=;Γ()為Gamma函數(shù).由于狄利克雷分布的概率密度之和為 1,即,得到
將式(9)帶入式(8),得到樣本xi重新被分配到k類的概率為
同樣,樣本被分配到新類的概率為
計算出邊際條件概率之后,采用Gibbs抽樣算法進(jìn)行迭代求解,其流程如圖2所示.
聚類數(shù)量及質(zhì)量主要受alpha和beta這兩個參數(shù)控制,參數(shù)alpha影響聚類數(shù)量,參數(shù)beta影響每類中的數(shù)據(jù)集聚程度.圖3(a)為不同alpha、beta 值影響下的聚類個數(shù).在同一alpha 取值下,分類數(shù)量隨beta 的減小而減小.當(dāng)beta 取值小于10-2,alpha 分別取值為0.100、0.010 和0.001 時,聚類數(shù)量穩(wěn)定在8個不變.
圖2 Gibbs 抽樣算法流程Fig.2 Gibbs sampling algorithms
為進(jìn)一步評價聚類結(jié)果,確定最優(yōu)聚類數(shù)量,圖3(b)為alpha 取值0.01、beta 取值10-2時,采用Calinski-Harabaz(CH)指標(biāo)評價聚類的質(zhì)量.CH指標(biāo)首先通過計算類中各點(diǎn)與類中心的距離平方和度量類內(nèi)的緊密度,通過計算各類中心點(diǎn)與數(shù)據(jù)集中心點(diǎn)距離平方和度量數(shù)據(jù)集的分離度,由分離度與緊密度的比值得到CH指標(biāo).因此,CH越大代表類自身越緊密,類與類之間越分散,即更優(yōu)的聚類結(jié)果.可見當(dāng)聚類個數(shù)為8時,聚類達(dá)到最優(yōu).不同分類的數(shù)據(jù)分布如圖4所示.
圖3 聚類數(shù)量及評價指標(biāo)Fig.3 Number of clusters and evaluation indicators
圖4 DPMM 模型聚類結(jié)果Fig.4 Clusters obtained using DPMM clustering algorithm
為進(jìn)一步將數(shù)學(xué)意義上的聚類結(jié)果與城市活動空間分布結(jié)合在一起,結(jié)合居民出行規(guī)律及城市活動特征,將上述8類結(jié)果進(jìn)一步歸納為4類特征,空間分布如圖5所示.
(1)第I類特征.
包括類別1,其時變規(guī)律表現(xiàn)為全天任何時刻的到達(dá)量與出發(fā)量均大致相等,不同時段的“凈流量”值沒有明顯差距.此類區(qū)域大致分布在城市中心城區(qū),對應(yīng)的用地類別為以居住為主的混合用地,同時包括中心城區(qū)的商業(yè)辦公教育用地.
(2)第II類特征.
包括類別2、類別3和類別4,其時變規(guī)律表現(xiàn)為早高峰期間“凈流量”為負(fù)值,即基站的到達(dá)量小于出發(fā)量,意味著用地類別以居住為主,早高峰期間大量居民離開本地到其他地方上班.隨時間推移,在午間和晚高峰期間,“凈流量”為正值,即基站的到達(dá)量大于出發(fā)量,以居民回家出行為主.
(3)第III類特征.
包括類別5、類別6 和類別7,其特征與第II 類相反,早高峰期間“凈流量”為正值,意味著用地類別以就業(yè)為主,大量就業(yè)人口到達(dá)此地,為部分交通樞紐用地、教育用地、文化類用地.類別5全日呈雙峰特征,周邊居民出行以短距通勤為主,主要分布在城市中心區(qū);類別6、類別7的“凈流量”峰值較為延后,一般分布在城市中心區(qū)外圍的區(qū)域,用地性質(zhì)主要為居住用地.
(4)第IV類特征.
體現(xiàn)為凌晨期間“凈流量”為負(fù),而深夜期間“凈流量”為正,結(jié)合三亞市城市生活特征,該類基站反映了“夜生活”較為豐富的地區(qū),其用地性質(zhì)主要為商業(yè)、娛樂用地.
圖5 城市活動4 類特征的空間分布Fig.5 Spatial distribution of four types of urban activities
本文提出一種基于狄利克雷混合模型的聚類方法,并將其應(yīng)用到手機(jī)大數(shù)據(jù)當(dāng)中進(jìn)行城市活動空間特征分析.通過將城市不同空間的居民活動量(從出行OD中獲得)映射為基于時間變化的動態(tài)序列,在不預(yù)先指定聚類數(shù)量的前提下,得到最優(yōu)聚類效果.將模型分析出的聚類結(jié)果映射到城市空間上,可以判斷不同城市空間的城市活動規(guī)律,對后續(xù)交通政策、交通管理提供量化支撐.
一般地,嚴(yán)格意義的數(shù)學(xué)分類并不能夠與實(shí)際情況完全對應(yīng),故結(jié)合居民出行規(guī)律進(jìn)一步綜合模型結(jié)果.但這并不影響本文所提方法的擴(kuò)展性,尤其是在處理城市交通數(shù)據(jù)等具有時變規(guī)律的數(shù)據(jù)流上.