国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類的地鐵通勤行為時空規(guī)律挖掘方法

2023-02-04 08:15李明珠趙習枝張福浩仇阿根
集成技術 2023年1期
關鍵詞:刷卡熱點站點

李明珠 趙習枝 陳 才 張福浩 朱 軍 仇阿根

1(西南交通大學地球科學與環(huán)境工程學院 成都 611756)

2(中國測繪科學研究院 北京 100830)

3(江蘇海洋大學 連云港 222005)

1 引 言

自改革開放以來,我國大城市的城市范圍迅速擴展,人口快速增長,使得職住空間組織模式不斷演化。適度的職住分離布局,有助于提高城市效率、降低土地利用強度。但隨著城市規(guī)模的不斷擴張,職住分離導致通勤距離顯著增加,不僅降低了居民幸福感,還引發(fā)了環(huán)境污染問題[1]。通過開展職住關系的研究,深化對中國城市發(fā)展規(guī)律的認識,對于解決職住空間結(jié)構(gòu)不平衡及其衍生的交通環(huán)境住房等問題,具有重要理論和現(xiàn)實指導意義。

在宏觀層面上,職住關系研究通?;谝欢ǖ姆秶叨?,如區(qū)(縣)、街道、交通分析小區(qū)、千米尺度的格網(wǎng)等[2-3],利用出行調(diào)查獲得的統(tǒng)計數(shù)據(jù),通過研究區(qū)域內(nèi)職住比[4]、通勤效率、通勤效率使用率[5]等評價因子,對職住平衡進行測算,或?qū)β氉】臻g關系的影響因素和產(chǎn)生機理進行探究。探究內(nèi)容包括:(1)探究制度轉(zhuǎn)型和城市空間結(jié)構(gòu)變化對都市區(qū)就業(yè)空間分異、職住空間錯位、就業(yè)可達性的影響[6];(2)基于建成環(huán)境因素,討論土地利用的混合程度[7]、不同土地利用類型等對居民通勤的影響,探究交通設施和職住情況之間的關系[4]。在微觀層面上,現(xiàn)有研究探究了職住關系的影響因素,主要以個人的社會經(jīng)濟屬性為解釋變量[8],討論就業(yè)者收入水平、受教育情況、住房類型、工作性質(zhì)等因素,對居民居住就業(yè)區(qū)位選擇的影響[9-10]。此外,還通過分析居民通勤移動行為,反映職住空間結(jié)構(gòu)特征和交互規(guī)律[11-12]。隨著信息技術手段的快速發(fā)展,軌跡大數(shù)據(jù)為城市職住關系的研究提供了新的數(shù)據(jù)思路。相比于出行調(diào)查統(tǒng)計存在獲取成本高和抽樣不均勻等問題[13-14],移動軌跡大數(shù)據(jù)則具有樣本量大、實時全面、成本較小的優(yōu)點[4]。

近年來,基于移動軌跡數(shù)據(jù)或社會經(jīng)濟數(shù)據(jù)等多源數(shù)據(jù),有研究分析了不同性質(zhì)居民的通勤活動規(guī)律[15-16],探究了職住關系演變及其影響因素。通過對不同通勤群體之間通勤活動差異進行分析,有助于更深入地了解通勤群體對于職住空間變化的反應和受影響程度[17],從而為規(guī)劃方案提供建議,使規(guī)劃方案盡可能滿足通勤群體多樣性的通勤需求。目前,已有學者進行了通勤人群劃分的研究,如付曉等[18]通過構(gòu)建居民出行群體畫像,分析不同出行人群的行為特征;萬明等[19]采用潛在類別分析法對出行數(shù)據(jù)進行分析,將出行者劃分為 3 類異質(zhì)群體?;诮煌〝?shù)據(jù)的研究,則主要通過指定閾值和利用上下車時刻、出行次數(shù)等非連續(xù)性通勤特征,實現(xiàn)通勤個體分類[20-21],由于較少考慮通勤行為時間連續(xù)性,難以挖掘更多潛在的時間規(guī)律。此外,基于經(jīng)驗的閾值具有不穩(wěn)定性,如會將閾值兩端接近的個體劃分為兩類,而未考慮到閾值左右的個體具有較強的相似性。因此,利用合適的指標快速選擇準確的閾值較為困難。

在大數(shù)據(jù)背景下,聚類算法可根據(jù)屬性相似性,快速地將個體劃分為不同的組,近年來,出現(xiàn)了利用聚類算法挖掘乘客出行特征的趨勢[22-23]。與閾值法相比,聚類算法更好地考慮到參與聚類個體之間的相似性,從個體出發(fā),將特性相似的個體聚為一類。如孫世超等[24]利用分層聚類方法,確定了墨西哥城工作豐富和住房豐富的區(qū)域。龍瀛等[25]將共享自行車和碼頭的相似站點逐層聚類為應用模式,提取出各站點的時間行為聚類特征。

針對現(xiàn)有研究在劃分通勤人群時未充分利用時間特征,劃分方法多采用經(jīng)驗閾值導致準確性不足的問題,本文進行了一系列研究。首先,基于上海地鐵刷卡數(shù)據(jù),通過構(gòu)建職住識別模型,識別通勤群體及其就業(yè)居住地;然后,采用一種時間相似度計算方法,即在單向的一維時間空間中,將兩個體通勤行程的時間重疊度作為衡量時間相似度的指標,提取通勤個體的時間相似度特征進行層次聚類,以研究不同通勤群體的時間規(guī)律性;最后,利用熱點分析模型,對通勤群體空間規(guī)律進行分析,利用 ArcGIS 平臺進行可視化表達,實現(xiàn)對上海通勤人群的通勤時空規(guī)律及職住空間組織特征的探究。

2 研究區(qū)域數(shù)據(jù)

本文選擇上海市的整個區(qū)域范圍作為研究區(qū)域,包括中心城區(qū)(黃浦、徐匯、長寧、靜安、普陀、虹口、楊浦)、近郊區(qū)(閔行、寶山、嘉定)、遠郊區(qū)(金山、松江、青浦、奉賢、崇明)和浦東新區(qū) 16 個行政區(qū),截至 2020 年 11 月,總面積約1 237.85 km2,常住人口為 2 487.09 萬人。

研究源數(shù)據(jù)為 2016 年 07 月 11 日—2016 年07 月 17 日上海市交通卡連續(xù)一周的地鐵刷卡數(shù)據(jù)(交通卡刷卡數(shù)據(jù)包括地鐵、公交、出租刷卡記錄,地鐵記錄約占 66%,公交約占 32%,出租車約占 2%,由于公交無下車刷卡記錄,本文選擇地鐵刷卡數(shù)據(jù)作為研究數(shù)據(jù))。選取日期避開了法定節(jié)假日和重大活動日,避免異常情況對研究造成影響。地鐵刷卡數(shù)據(jù)原始字段包括:交通卡號、刷卡日期、進站刷卡時間、出站刷卡時間、刷卡線路站點、刷卡交易金額、是否優(yōu)惠。在研究時間段內(nèi),地鐵總刷卡次數(shù)為 62 968 491次,工作日地鐵日均刷卡約 994 萬次。此外,研究數(shù)據(jù)還包括地鐵站點和線路空間數(shù)據(jù),共計 323 個地鐵站點,站點數(shù)據(jù)字段包括站名、經(jīng)度、緯度和線路號。

3 研究方法

3.1 職住識別模型

從單日通勤特征來看,工作日通勤活動有兩個刷卡高峰:早高峰與晚高峰,對應上班與下班行為;從多日通勤特征來看,通勤屬于滿足日常生存需求的出行,工作日期間存在居住地和就業(yè)地之間的往返,一周之內(nèi)滿足一定的通勤天數(shù)。因此,綜合考慮通勤人群穩(wěn)定性的特點,即工作日高頻出行時間段的穩(wěn)定性、出發(fā)地和目的地的穩(wěn)定性、工作日通勤行為的穩(wěn)定性,結(jié)合已有研究,建立職住識別模型[26],從交通卡持卡人中識別出通勤人群和其職住地。

3.1.1 一日通勤出行行為識別步驟

一日通勤出行行為識別步驟為:(1)若持卡人當日首次地鐵出行進站刷卡時間在 6:00—10:00 之間,那么將進站點設為居住站點R(調(diào)查統(tǒng)計表示:99.5% 居民每日首次出發(fā)點是居住地[27]);(2)若持卡人當日在 16:00 以后有地鐵出行,那么將 16:00 以后的首次進站點設為W;(3)若站點W與(1)中地鐵出行的出站點相同,且居住站點R與(2)中地鐵出行的出站點相同,則稱持卡人在該日具有通勤出行行為,居住站點為R,就業(yè)站點為W。如圖 1 所示,如果持卡人在 6:00—10:00 內(nèi)首次出行站點為居住站點R到就業(yè)站點W,16:00 后的首次出行站點為就業(yè)站點W到居住站點R,則認為持卡人當日實現(xiàn)由居住站點到就業(yè)站點的一次往返,具有通勤出行行為。

圖1 一日地鐵出行記錄示意圖Fig. 1 One-day subway trip record schematic diagram

可將通勤出行行為識別模型概括如公式(1)~(3)所示。

3.1.2 一周通勤個體與職住地識別步驟

一周通勤個體與職住地識別步驟為:(1)持卡人一周具有 3 次及以上的通勤出行行為,則認為該持卡人為通勤個體。(2)若通勤者有且僅有一個居住站點,就將該站點視為其居住地;若有 2 個及以上居住站點,則計算每個居住站點的概率;(3)選擇概率最大且次數(shù)大于 1 的居住站點作為居住地,若存在兩個這樣的居住站點,且兩居住站點距離≤1.4 km(步行合理接駁閾值范圍為 600~800 m,是較適中且能容忍的最大程度[28-29]),則將兩站點的中間點作為居住地;若兩居住站點距離>1 km,則剔除該持卡人數(shù)據(jù)。

就業(yè)地識別方法同居住地識別方法。

3.2 時間規(guī)律挖掘

3.2.1 時間相似度計算方法

通勤是在時間和空間上的移動行為,為探究通勤群體[30]在早晚通勤期出行的時間規(guī)律,挖掘不同通勤需求并制定更合理的交通規(guī)劃方案,常對通勤人群進行分類,將具有相似出行時間規(guī)律的人劃分為一類。常見的分類方法為閾值法,例如,將第一次刷卡記錄早于 6:00 或 6:30 的持卡人定義為早出型通勤人群[21],但該劃分方法可能會將在閾值兩端但接近的乘客劃分為兩類(如6:29 和 6:31 出行的通勤人群會被分為兩類)。因此,參考 Murtagh 等[31]計算公交乘客時間相似度的度量方法,本文提出一種通勤行程時間相似性的度量方法:若兩個行程在時間上有重疊部分(圖 2(a)),則認為它們相似;若兩個行程沒有重疊部分(圖 2(b)),且行程間隔大于較小行程,說明呈明顯分離趨勢,則認為它們相似度為 0;若行程間隔小于較小行程,那么仍然認為通勤行程時間具有相似性。

圖2 行程時間關系Fig. 2 Time relationship of the trips

具體計算方法為:若行程時間存在重疊,則兩行程的時間相似度為重疊時間長度與較長行程時間長度的比值;若不存在重疊但時間間隔小于較短行程時間長度,則兩行程的時間相似度為時間間隔與較長行程時間長度的比值。為避免相似度出現(xiàn)負值,將以上兩種情況的計算結(jié)果加 1 作為最終相似度值。

地鐵刷卡數(shù)據(jù)會提供乘客的上車、下車刷卡信息,在通勤人群一天的刷卡記錄中,分別提取早晚通勤高峰期的通勤出行記錄,代入上式計算時間相似度。兩類通勤人群的時間相似度即為早晚行程時間相似度之和。

3.2.2 時間聚類方法

層次聚類通常被用于時序數(shù)據(jù)的趨勢分析[32-33],本文通過層次聚類對時間相似度進行聚類分析,以揭示通勤群體的層次結(jié)構(gòu)。層次聚類的表現(xiàn)形式有“自上而下”的分裂和“自下而上”的凝聚層次聚類兩種。凝聚層次聚類通過距離函數(shù)將數(shù)據(jù)集劃分為多類,以降低簇數(shù)量,不斷重復直至形成一個單獨的類。

層次聚類主要的步驟在于確定不同層次最接近的簇類數(shù),集群可通過距離判斷數(shù)據(jù)點之間的相似性,對于簇間的距離度量有多種方式:最小值法(Single)、最大值法(Complete)、平均值法(Average)及最小方差法(Ward)。根據(jù)已有研究對上述方法的比較[34],當無離群值時,Ward 性能較好,故本文最終選擇 Ward (即在并類時,選擇使誤差平方和增加最少的兩類進行合并)。

對抽取的所有通勤人群進行聚類后,本文結(jié)合輪廓系數(shù)[35-36](Silhouette)進行最佳簇數(shù)的選擇。其中,Silhouette 值越大,聚類效果越好。

3.3 空間規(guī)律挖掘

3.3.1 熱點分析

熱點分析(Getis-Ord Gi*)是一種利用 Getis-Ord Gi* 指數(shù)衡量觀測數(shù)據(jù)之間空間依賴性的技術,可用于識別局部的空間自相關現(xiàn)象[37-38]?;诹繙y鄰近觀測值,可確定熱點或冷點區(qū)域,具有統(tǒng)計顯著性意義的熱點不僅要求該位置自身要素具有較高值,而且周圍要素也要具有較高值。本文以居住站點和就業(yè)站點的刷卡數(shù)作為屬性值,利用 ArcGIS 熱點分析工具,分析每類通勤人群職住熱點和冷點區(qū)域,并進行可視化表達,用于識別每類通勤者就業(yè)和居住密度與整體情況有明顯差異的位置。Getis-Ord Gi* 局部統(tǒng)計表達式如公式(5)所示。

4 職住空間關系與通勤時空特征分析

4.1 上海市總體職住特征分析

核密度估計是一種典型的分析點模式空間分布及集聚變化情況的分析方法。由于本文的分析對象為軌道交通乘客的職住區(qū)域,故本文基于識別的通勤人群的通勤數(shù)據(jù),提取居住站點和就業(yè)站點,利用核密度估計方法,以分析上海通勤人群居住與就業(yè)總體的空間聚集特征并進行可視化分析。

如圖 3 所示,居住高聚集區(qū)域主要沿內(nèi)環(huán)線分布,并在內(nèi)環(huán)以外沿軌道線呈放射狀向外擴散分布,沿交通線呈點狀離散分布或呈帶狀分布,且總體上浦西的居住密度高于浦東。

圖3 居住核密度圖Fig. 3 Kernel density of the residence

由圖 4 可知,就業(yè)活動主要在內(nèi)環(huán)以內(nèi),就業(yè)聚集點在內(nèi)環(huán)內(nèi)呈現(xiàn)東-西方向多核心分布,少量就業(yè)聚集地散落在內(nèi)環(huán)以外,但范圍不會延伸到外環(huán)以外,散落的高密度就業(yè)地是上海一些典型的產(chǎn)業(yè)園區(qū),如東南方的張江高科技園區(qū)以及西邊的漕河經(jīng)濟技術開發(fā)區(qū)。

圖4 就業(yè)核密度圖Fig. 4 Kernel density of the workplace

4.2 通勤活動的時空特征分析

通勤活動直接體現(xiàn)為軌道交通站點客流,站點客流是站點周邊用地形態(tài)產(chǎn)生的出行需求體現(xiàn),亦是站點設施使用情況的直接反映[39]。由于通勤人員依據(jù)站點進行通勤活動,故根據(jù)構(gòu)建的職住識別模型識別出 562 268 位通勤人員。隨機選取 5% 的通勤人員,將上述的時間聚類方法應用于抽取的通勤樣本。通過計算時間相似度,可得到一個相似度矩陣實現(xiàn)層次聚類,表 1 為隨機抽取 5 名通勤人計算出的時間相似度示例。由于應用背景是通勤人群的分類,本實驗將聚類數(shù)范圍初定為 3~7,計算每個簇數(shù)對應的 Silhouette指數(shù),并與其他層次聚類進行比較,結(jié)果如表 2 所示。由表 2 可知,Ward 的結(jié)果整體較優(yōu)。此外,當簇數(shù)為 5 時,Silhouette 指數(shù)較高,因此,為揭示通勤人群的層次結(jié)構(gòu),本實驗將通勤人群分為 5 簇進行分析。

表1 時間相似度Table 1 Temporal similarity

表2 簇數(shù)與對應的 Silhouette 指數(shù)Table 2 Number of clusters and Silhouette values

4.2.1 時間特征分析

根據(jù) 5 個簇早晚通勤期(6:00—10:00、16:00—22:00)的刷卡量統(tǒng)計可知,各簇的上下班刷卡時間的分布存在一定的差異(圖 5)。

cluster1 的上班刷卡時間集中在 7:00—8:30,下班刷卡時間集中在 17:00—19:00;cluster2 的上班刷卡時間分布在 8:00—9:00,下班刷卡時間集中在 17:30—19:00;cluster3 的上班刷卡時間明顯較晚,出行時間最晚,主要集中在 8:30—10:00,下班刷卡時間集中在 16:00—17:30 和 18:30—22:00,存在加班晚歸現(xiàn)象;cluster4 的上班刷卡時間比cluster1 推遲 0.5 h,分布在 7:30—8:30,下班刷卡時間與 cluster1 和 cluster2 相似,主要集中在17:30—19:00;cluster5 明顯有較多的早出通勤者,上班刷卡時間集中在 6:00—7:30,下班時間也偏早,集中在 16:30—18:30。

利用時間相似的聚類劃分,要求通勤人員不僅在刷卡時刻相似,還要在出行時段具有一定的相似性,綜合上述的上下班刷卡時間分布,可將通勤人員匯總成 3 類(表 3):(1)上海大多數(shù)通勤人員屬于常規(guī)型通勤者,占比為 68%,在常規(guī)型中的 3 類群體也具有一定規(guī)律,cluster1 和 cluster4上班出行時間更偏早(7:00—8:30),cluster2 上班出行時段偏晚(8:00—9:00);(2)晚出型通勤者占比為21%,下班有早歸和加班晚歸兩種情況,由圖 5(c)可知,19:30 以后下班的通勤人群占比約為 10%;(3)早出型通勤者占比最小,早出型通勤人員同時也是早歸型通勤人員,占通勤人群的 11%。

表3 通勤出行時間規(guī)律Table 3 Time patterns of commuting

圖5 早晚通勤高峰刷卡情況Fig. 5 Travel rate of morning-evening commuter rush hours

4.2.2 空間特征分析

在空間分布上,基于 ArcGIS 軟件,得到 5個簇的就業(yè)點與居住點冷熱空間分布圖(圖 6)。由圖 6 可知:(1)就業(yè)熱點聚集在城市中心區(qū)分布,5 類就業(yè)熱點基本分布在中環(huán)內(nèi),集中在內(nèi)環(huán),結(jié)合就業(yè)核密度圖可知,就業(yè)呈現(xiàn)向心聚集的單中心格局,但在中心顯現(xiàn)就業(yè)的多核心結(jié)構(gòu)。(2)各類的居住熱點分布存在一定差異,但與居住核密度圖具有一致性。具體地,cluster5和 cluster4 的居住熱點離中心就業(yè)區(qū)較遠,分布在遠郊區(qū)的 9 號線末端;cluster3 的居住次熱點分布在城南中心區(qū),離中心就業(yè)區(qū)最近,使得其有條件能夠晚出行上班,但需要支付更多的住房成本,結(jié)合時間特征分析,cluster3 可能是工作時間靈活的高收入群體和加班活動多的軟件信息就業(yè)者;cluster1 和 cluster2 的居住熱點主要集中在就業(yè)中心區(qū)的近郊與遠郊區(qū),cluster1 熱點分布在 7 號、1 號和 3 號線末端及中心區(qū)北邊的 11號線,cluster2 熱點分布在 10 號、9 號和 5 號線并向西延伸至遠郊區(qū)。綜上所述,早出型離就業(yè)中心區(qū)更遠,晚出型離就業(yè)中心區(qū)更近。(3)居住的冷點區(qū)基本聚集在黃浦江東邊及中心區(qū)北邊,該情況與浦東與浦西發(fā)展時期不同、浦南與浦北發(fā)展差異有關。

圖6 居住與就業(yè)冷熱空間分布Fig. 6 Spatial hot-cold distribution map of residence and workplace

5 結(jié) 語

目前,通勤群體的劃分方法較少考慮通勤行程的時間連續(xù)性特征,針對該問題,本文進行了進一步的研究。本文基于上海市 288 個軌道交通站點和連續(xù)一周的交通卡地鐵刷卡數(shù)據(jù),構(gòu)建了職住識別模型,用于識別通勤人群和職住地,定義了一種通勤行程時間相似度的度量方法,基于層次聚類的結(jié)果,對通勤人群進行細化分析,并結(jié)合熱點分析模型,探究各類型通勤人群居住與就業(yè)的熱點區(qū)域,挖掘上海市通勤人群潛在的時空規(guī)律及職住空間組織特征。

研究發(fā)現(xiàn):(1)上海市的職住空間呈環(huán)狀分布,就業(yè)熱點區(qū)分布在城市中心區(qū)域,具有強就業(yè)吸引力;居住郊區(qū)化明顯,居住熱點區(qū)大多分布在市中心以外,與總體居住和就業(yè)的核密度圖一致,即高密度居住點在內(nèi)環(huán)外沿軌道線分布、高密度就業(yè)地在中心區(qū)聚集。(2)按照通勤出行時間規(guī)律,可將上海市通勤人員劃分為常規(guī)型、晚出型和早出早歸型,與居住熱點分布相對應??傮w上,越早出行的類型,其居住熱點離就業(yè)中心區(qū)越遠,在常規(guī)型中偏早出行的兩個簇,其居住熱點離就業(yè)中心區(qū)比偏晚的簇更遠,從側(cè)面驗證了上海的單中心結(jié)構(gòu)。此外,上海大多數(shù)的通勤方式屬于常規(guī)型通勤,即在 7:00—9:00 進行上班通勤活動,17:00—19:00 進行下班通勤活動,占比達 68%。在常規(guī)型通勤中,上班通勤出行時間主要聚集在 7:00—8:30。(3)各類型的就業(yè)熱點區(qū)差異不明顯,大多集中在內(nèi)環(huán);但上海市中心黃浦江東西側(cè)的居住熱點分布不一致,居住熱點分布在北部和西部的近郊和遠郊區(qū),居住冷點區(qū)主要分布在中心區(qū)的東部,并向浦東新區(qū)延伸。

盡管 Song 等[37]和 Goulet[38]試圖利用 POI 賦予通勤人員屬性,但因 POI 存在多尺度疏密不一的問題,難以構(gòu)建有效的屬性連接。由于缺少通勤人群的社會經(jīng)濟數(shù)據(jù),故本文未能在不同群體差異和職住空間分布的成因方面進行深入探討。此外,職住空間的形成是一個多因素作用和長期動態(tài)演化的過程,尹芹等[39]學者目前也僅對單一時間段內(nèi)的居民職住變化進行研究??筛鶕?jù)居民的通勤模式對職住空間規(guī)劃提供科學建議,在后續(xù)研究中,將多年的通勤數(shù)據(jù)和社會經(jīng)濟數(shù)據(jù)納入研究,從更廣的時間度揭示通勤人群層次結(jié)構(gòu)和職住空間分布的變化規(guī)律及影響因素,有助于更好地了解不同通勤群體的需求。

猜你喜歡
刷卡熱點站點
熱點
基于Web站點的SQL注入分析與防范
熱點
2017~2018年冬季西北地區(qū)某站點流感流行特征分析
結(jié)合熱點做演講
首屆歐洲自行車共享站點協(xié)商會召開
怕被人認出
刷卡
刷臉就可以購物
熱點
威远县| 镇康县| 徐水县| 安图县| 门头沟区| 汝城县| 青浦区| 渭南市| 太白县| 循化| 呼伦贝尔市| 克拉玛依市| 响水县| 朝阳县| 克什克腾旗| 钟祥市| 广宁县| 衡南县| 老河口市| 崇州市| 潍坊市| 濉溪县| 珲春市| 威信县| 浙江省| 陆河县| 阿尔山市| 玉溪市| 哈尔滨市| 汤原县| 桐梓县| 张家川| 桐城市| 凤翔县| 西丰县| 龙游县| 无棣县| 获嘉县| 长春市| 五家渠市| 榆林市|