賀澤宇,年雁云,陳思文,邊瑞
(蘭州大學(xué)資源環(huán)境學(xué)院,甘肅 蘭州 730000)
城市功能區(qū)是城市規(guī)劃的重點(diǎn),傳統(tǒng)城市功能區(qū)劃分中數(shù)據(jù)選取受主觀因素影響同時(shí)缺少現(xiàn)有城市空間結(jié)構(gòu)的信息[1~2]。隨著地理大數(shù)據(jù)挖掘的不斷發(fā)展,包含GPS信息的交通和社交媒體數(shù)據(jù)在城市布局研究中的應(yīng)用不斷深入,長(zhǎng)時(shí)間序列且有位置信息的數(shù)據(jù)中包含著人們出行和活動(dòng)的潛在信息[3]。
現(xiàn)今大多數(shù)結(jié)合多源數(shù)據(jù)的城市結(jié)構(gòu)、布局的研究表明地理大數(shù)據(jù)在城市感知方面有著極大的優(yōu)勢(shì)[4~6]。如劉瑜等[7]根據(jù)包含位置信息的大數(shù)據(jù)探索出人地交互的方式和人類移動(dòng)模式;Liu J等[8]利用出租車位置、牌照識(shí)別和地理信息等數(shù)據(jù)重建了城市交通流量的時(shí)空模型。簡(jiǎn)志春等[9]提出了一種基于邏輯回歸模型的社交網(wǎng)絡(luò)定位數(shù)據(jù)識(shí)別居民職住地的方法。另一方面,在多源數(shù)據(jù)中POI因其包含的位置信息、地點(diǎn)屬性成為城市研究中的重要數(shù)據(jù)源[10]。如王迪等[11]借助POI數(shù)據(jù)結(jié)合GIS核密度估計(jì)等多種方法對(duì)北京市的空間結(jié)構(gòu)做了分析,并與現(xiàn)行總歸做了對(duì)比;郭昭等[12]基于東莞市POI數(shù)據(jù)識(shí)別了城市功能空間,并進(jìn)一步探究了城市功能的復(fù)合化特征。同時(shí),城市交通數(shù)據(jù)為人群移動(dòng)模式,城市功能區(qū)等相關(guān)研究帶來了新的視角。陳澤東等[13]以出租車數(shù)據(jù)為基礎(chǔ)識(shí)別了6類城市功能區(qū)并探究了功能區(qū)之間的空間交互特征。逯琳等[14]借助浮動(dòng)車數(shù)據(jù)快速、精細(xì)地分析了武漢市三環(huán)線范圍內(nèi)的職住空間特征;Liu Y等[15]利用出租車數(shù)據(jù)進(jìn)行聚類分析,引入“源匯區(qū)”的概念,劃分了上海市不同的功能區(qū)。
現(xiàn)有城市功能區(qū)的研究主要利用位置數(shù)據(jù),缺少人群出行的時(shí)間屬性,如何將兩者結(jié)合起來還缺乏研究。此外現(xiàn)有研究將城市劃分為單一功能區(qū),無法展現(xiàn)多種類型混合區(qū)域的細(xì)節(jié),同時(shí)大多算法較為復(fù)雜,無法對(duì)快速發(fā)展的城市結(jié)構(gòu)有快速的響應(yīng)。本文基于西安市的出租車出行數(shù)據(jù),通過k-medoids算法對(duì)地塊進(jìn)行時(shí)間序列聚類,挖掘出功能區(qū)和居民出行規(guī)律之間的聯(lián)系,并結(jié)合POI數(shù)據(jù)提高了分析結(jié)果的準(zhǔn)確性,結(jié)果將有助于研究西安市功能區(qū)空間分布的合理性及對(duì)城市發(fā)展規(guī)劃提供建議。
研究區(qū)域選擇包含西安市出租車出行數(shù)據(jù)的區(qū)域,坐標(biāo)范圍為108.53E~109.36E,34.47N~33.96N,簡(jiǎn)化為 3 518個(gè) 1 km×1 km的方格,如圖1所示。
圖1 研究區(qū)域
(1)出租車數(shù)據(jù)
本研究使用了西安市交通運(yùn)輸局提供的2019年5月10日~16日一周的出租車運(yùn)營(yíng)數(shù)據(jù),包含出租車編號(hào)、經(jīng)緯度、時(shí)間、速度、方位角、載客狀態(tài)等字段。經(jīng)過刪除重復(fù)、超限、缺失數(shù)據(jù),提取出城市上、下車位置數(shù)據(jù),最終獲得 690 978條上下車記錄,部分記錄如表1所示。
表1 出租車數(shù)據(jù)示例
(2)POI數(shù)據(jù)
POI(Point of Interest)是擁有地理坐標(biāo)和屬性信息的點(diǎn),反映了城市地理實(shí)體的空間分布。文中西安市POI數(shù)據(jù)通過高德地圖開發(fā)平臺(tái)提供的API獲取,并根據(jù)需要對(duì)23個(gè)大類做了提取、篩選、合并,最終得到12個(gè)類別,總記錄數(shù)為 271 016,每條記錄包括POI的經(jīng)緯度、名稱、行政區(qū)、類別。
將西安市出租車出行上、下車數(shù)據(jù)按1周168個(gè)小時(shí)進(jìn)行顯示如圖2所示,按照工作日、休息日、上車、下車分為4個(gè)數(shù)據(jù)集,再計(jì)算每一天每一個(gè)方格中每一時(shí)段的上下車數(shù)量。
圖2 一周上下車數(shù)據(jù)時(shí)序曲線
傳統(tǒng)聚類中樣本的接近程度主要是根據(jù)距離衡量,這是基于樣本間的獨(dú)立性和不變性。本研究采取一種考慮不同時(shí)間序列復(fù)雜程度的相似性度量方法,此方法使用兩個(gè)時(shí)間序列之間的復(fù)雜度差異信息作為現(xiàn)有距離度量的校正因子[16,17]。表達(dá)式如式(1):
CID(Q,C)=ED(Q,C)×CF(Q,C)
(1)
其中CID是complexity-invariant-distance的縮寫,表示經(jīng)過復(fù)雜度校正的時(shí)間序列相似性度量參數(shù),ED表示兩個(gè)時(shí)間序列之間的歐幾里得距離,其中ED的計(jì)算是假設(shè)有兩個(gè)時(shí)間序列曲線Q和C,將其視作n個(gè)點(diǎn)。
Q=q1,q2,…,qi,…,qn
C=c1,c2,…,ci,…,cn
這時(shí)兩個(gè)時(shí)間序列的歐幾里得距離計(jì)算公式如式(2):
(2)
CF表示基于時(shí)間序列復(fù)雜度的校正因子,計(jì)算公式如式(3):
(3)
其中CE(T)是時(shí)間序列T的復(fù)雜度估計(jì),計(jì)算公式如式(4):
(4)
復(fù)雜度因子(CF)使復(fù)雜度具有明顯差異的時(shí)間序列彼此分開,避免了不同復(fù)雜度時(shí)間序列因傳統(tǒng)距離度量而產(chǎn)生的誤分,在所有時(shí)間序列具有相同復(fù)雜度的情況下,CID簡(jiǎn)化為歐幾里得距離,降低了計(jì)算復(fù)雜度,適用于較為簡(jiǎn)單的時(shí)間序列相似性度量。
本研究采取k-medoids算法對(duì)時(shí)間序列曲線進(jìn)行聚類分析。相比于k-means算法,此算法受異常點(diǎn)的影響較小,當(dāng)已知聚類數(shù)的時(shí)候,計(jì)算復(fù)雜度低且精度較高。
考慮到聚類結(jié)果的有效性、分類的效率,本研究選取輪廓系數(shù)法(Silhouette Coefficient)和誤差平方和(SSE)兩種指標(biāo)來選擇最優(yōu)聚類數(shù),結(jié)果如圖3所示。綜合兩種指標(biāo),選取最佳聚類數(shù)7。
圖3 輪廓系數(shù)和誤差平方和隨K值的變化
為了對(duì)出租車出行數(shù)據(jù)的時(shí)間序列聚類結(jié)果進(jìn)行補(bǔ)充和修正,引入歸一化POI指數(shù)。首先,分別計(jì)算上下車聚類結(jié)果中每一類POI在每一類別中的權(quán)重,計(jì)算公式如式(5):
(5)
其中,Ni,j表示第i類聚類結(jié)果中第j類POI的數(shù)量,M代表研究區(qū)域中的方格總數(shù)。
為了消除不同聚類結(jié)果中POI指數(shù)數(shù)量級(jí)間的差異從而方便比較,對(duì)Li,j采取傳統(tǒng)的Min-max標(biāo)準(zhǔn)化方法進(jìn)行處理,計(jì)算公式如式(6)。
(6)
其中Lmin,Lmax分別代表每一組上下車數(shù)據(jù)中的最小、最大POI指數(shù)。
利用k-medoids算法對(duì)提取出的上、下車位置進(jìn)行時(shí)間序列聚類分析,得到每一組數(shù)據(jù)的7個(gè)聚類結(jié)果,結(jié)果中包含聚類結(jié)果空間分布(圖4、圖5中的a、c)、類別平均時(shí)間序列(圖4、圖5中的b、d)。
圖4 工作日上下車數(shù)據(jù)聚類結(jié)果
圖5 休息日上下車數(shù)據(jù)聚類結(jié)果
將沒有數(shù)據(jù)的方格命名為W0,其他根據(jù)此類別的方格總數(shù)從大到小的順序命名為W1-W6。上車數(shù)據(jù)聚類結(jié)果如圖4(a)、(b)所示,每個(gè)聚類的平均時(shí)間序列曲線和方格顏色一致。W1類從空間分布的角度來看,主要集中于主城區(qū),與其他類別相比分布更為連貫且成片出現(xiàn);從時(shí)間角度來看,可以發(fā)現(xiàn)出行的早高峰出現(xiàn)在7點(diǎn),午高峰出現(xiàn)在1點(diǎn),10點(diǎn)~12點(diǎn)存在一個(gè)低谷,3點(diǎn)也存在一個(gè)低谷,6點(diǎn)之后出行量開始增加,這與工作日居民區(qū)的上班出行習(xí)慣較為一致,初步判斷主要為居民區(qū)和休閑娛樂區(qū)。
W2類主要分布在主城區(qū)以外,分布較為離散,只有一個(gè)高峰在6點(diǎn),出行量總體較少,出行時(shí)間不固定,判斷可能為上班或者事務(wù)性出行。
W3類的分布集中于城市外圍,但更為靠近主城區(qū),整體分布比較離散但是小區(qū)域較為連續(xù);7點(diǎn)~8點(diǎn)出行量有一個(gè)高峰,12點(diǎn)和6點(diǎn)有一個(gè)低谷,整體保持平穩(wěn),推測(cè)為風(fēng)景名勝,購(gòu)物場(chǎng)所。
W4類所處區(qū)域主要為主城區(qū),分布特征同W1類相似,存在早高峰7點(diǎn)和午高峰1點(diǎn),18點(diǎn)之后出行量持續(xù)增加,參考W1類估計(jì)為居民區(qū)和休閑娛樂區(qū)。
W5類靠近城市外圍,分布也更為離散,7點(diǎn)到24點(diǎn)出行量基本維持在一個(gè)相同的數(shù)量,推測(cè)主要為風(fēng)景名勝、購(gòu)物服務(wù)。
W6類數(shù)量最少,主要分布在城市外圍,10點(diǎn)和18點(diǎn)有一個(gè)高峰,9點(diǎn)和16點(diǎn)有一個(gè)低谷,但出行量較少,推測(cè)早上9點(diǎn)以后為事務(wù)性出行,18點(diǎn)為下班時(shí)間,應(yīng)該屬于辦公場(chǎng)所。
下車數(shù)據(jù)聚類結(jié)果如圖4(c)、(d),對(duì)比工作日的上車數(shù)據(jù)可以發(fā)現(xiàn),區(qū)域中有下車數(shù)據(jù)的地塊更多,覆蓋的范圍更大。
休息日上車數(shù)據(jù)聚類結(jié)果如圖5(a)、(b),下車數(shù)據(jù)聚類結(jié)果如圖5(c)、(d)。從空間分布中可以發(fā)現(xiàn),休息日的空間分異程度相比于工作日很小,這符合休息日人們的出行習(xí)慣。
對(duì)于特征不明顯或包含多種特征的區(qū)域依靠單一時(shí)間序列曲線難以進(jìn)行識(shí)別,而時(shí)間序列聚類和POI的結(jié)合可以互相補(bǔ)充達(dá)到提高識(shí)別精度的目的。
為了利用POI具有的城市地物屬性特征對(duì)時(shí)間序列分析的結(jié)果進(jìn)行補(bǔ)充,這里引入歸一化POI指數(shù),計(jì)算結(jié)果示例如表2、表3所示。
表2 工作日上車數(shù)據(jù)聚類結(jié)果的歸一化POI指數(shù)
表3 工作日下車數(shù)據(jù)聚類結(jié)果的歸一化POI指數(shù)
以工作日上車數(shù)據(jù)為例,W1類中指數(shù)最大的是金融保險(xiǎn),其次是交通設(shè)施、住宅,推測(cè)是居民區(qū)及其周邊設(shè)施,這比較符合對(duì)聚類結(jié)果的推斷;W2類POI指數(shù)較高的是風(fēng)景名勝、政府機(jī)構(gòu)、住宅,主要分布在主城區(qū)以外,結(jié)合上文分析推測(cè)為住宅和政府機(jī)構(gòu)的混合區(qū)域;W3類考慮為比較成熟的商業(yè)區(qū);W4類住宿、住宅的POI指數(shù)最高,且伴隨較高的餐飲服務(wù)、生活服務(wù)推測(cè)為居民區(qū);W5類風(fēng)景名勝的POI指數(shù)最大且伴隨較高的住宿服務(wù),推測(cè)為風(fēng)景名勝。W6類數(shù)量較少,POI指數(shù)中政府機(jī)構(gòu)、公司企業(yè)POI指數(shù)較大,推測(cè)為政府機(jī)構(gòu)和產(chǎn)業(yè)園區(qū)等工作場(chǎng)所的混合區(qū)域。
結(jié)合歸一化POI指數(shù)對(duì)時(shí)間序列聚類結(jié)果的補(bǔ)充、修正,可以確定每一方格的功能區(qū)類型。結(jié)果如圖6所示,其中“未識(shí)別區(qū)”為沒有出租車上下車數(shù)據(jù)的地塊。從圖6中可以看出單一功能區(qū)較少,大多數(shù)地塊屬于混合區(qū)。以居民區(qū)為例可以看出,居民區(qū)的選址往往要求購(gòu)物方便或者臨近景區(qū)、周圍有學(xué)校等,所以包含居民區(qū)的地塊也大多會(huì)跟商業(yè)區(qū)、工作區(qū)、科教區(qū)、景區(qū)等混合,與我們的常識(shí)相符。
圖6 功能區(qū)識(shí)別結(jié)果
為了驗(yàn)證結(jié)果的可靠性,在研究區(qū)內(nèi)隨機(jī)選擇了100個(gè)方格,除去無數(shù)據(jù)區(qū)最終確定42個(gè)方格作為驗(yàn)證點(diǎn),方格的位置如圖7所示,對(duì)照谷歌影像、街道地圖、識(shí)別結(jié)果,目視判別了驗(yàn)證點(diǎn)的功能區(qū)類型,正確分類34個(gè)方格,錯(cuò)誤分類8個(gè)方格,總體精度0.81。此外隨機(jī)選擇了5個(gè)典型區(qū)域的功能區(qū)識(shí)別結(jié)果作為細(xì)節(jié)展示,從左至右分別為谷歌影像、街道地圖、識(shí)別結(jié)果,從上至下分別為不同區(qū)域,結(jié)果如圖8所示。如區(qū)域A包括大明宮國(guó)家遺址公園、方新村與龍首商業(yè)街區(qū)的混合區(qū),分別對(duì)應(yīng)識(shí)別結(jié)果中的景區(qū)、混合區(qū)(居民區(qū)、商業(yè)區(qū)),識(shí)別結(jié)果準(zhǔn)確。
圖7 驗(yàn)證方格位置示意圖
圖8 區(qū)域E識(shí)別結(jié)果與谷歌衛(wèi)星圖像和街道地圖的對(duì)照
此外結(jié)合分析結(jié)果,探索了功能區(qū)在工作日和休息日的動(dòng)態(tài)變化,具體的結(jié)果如圖9所示。其中變化區(qū)域635個(gè),不變區(qū)域854個(gè),除去無數(shù)據(jù)的區(qū)域,變化區(qū)域占研究區(qū)域的42.6%,不變區(qū)域占比57.4%。變化區(qū)域主要分布在較為靠近城市三環(huán)的區(qū)域,而不變區(qū)域主要分布在城市外圍,說明主城區(qū)的土地利用效率較高,利用強(qiáng)度也較大,而郊區(qū)則大多具有較為固定的功能區(qū)類型。
圖9 變化區(qū)域與不變區(qū)域分析
本文利用西安市一周的出租車出行數(shù)據(jù)、POI數(shù)據(jù)對(duì)西安市的功能區(qū)進(jìn)行識(shí)別,結(jié)果表明,城市居民出行特征與城市功能區(qū)相關(guān),說明了出租車數(shù)據(jù)的分析挖掘?qū)Τ鞘泄δ軈^(qū)識(shí)別的可行性。同時(shí)時(shí)間序列聚類的結(jié)果也表明單一出租車數(shù)據(jù)對(duì)地塊類別的分類有一定的局限性,加入POI數(shù)據(jù)則可以互相補(bǔ)充,提高了功能區(qū)識(shí)別的準(zhǔn)確性,避免了僅靠出租車數(shù)據(jù)無法識(shí)別混合區(qū)和POI數(shù)據(jù)缺乏定性分析的局限性。
從最終的分類結(jié)果看,平均上車數(shù)量最多的地塊主要集中在城市的中心,說明城市中心活動(dòng)強(qiáng)度最大,活動(dòng)強(qiáng)度與偏離市中心距離成反比。對(duì)比工作日和休息日,工作日地塊的空間分異較大,說明休息日人們出行行為較單調(diào),出行需求也較工作日小。同時(shí)本文也存在一定的局限性,城市居民的出行方式多種多樣,出租車適用于中短距離的出行,僅使用出租車數(shù)據(jù)會(huì)存在一定的偏差。所以在后續(xù)的研究中,考慮加入多源數(shù)據(jù),如IC卡刷卡數(shù)據(jù)、社交媒體定位數(shù)據(jù)等來進(jìn)一步提高功能區(qū)識(shí)別的全面性。