孫世超, 呂豪
(大連海事大學(xué)交通運(yùn)輸工程學(xué)院,遼寧 大連 116026)
國內(nèi)外長期實(shí)踐表明,優(yōu)先發(fā)展公共交通,尤其在早晚高峰時(shí)段吸引更多的城市居民使用公共交通出行是緩解城市交通擁堵、改善城市空氣質(zhì)量的有效途徑[1]。為此,了解并準(zhǔn)確掌握城市居民的公交通勤需求和通勤出行特征,是進(jìn)一步合理規(guī)劃公交基礎(chǔ)設(shè)施建設(shè)、改善公交服務(wù)質(zhì)量的重要前提。
問卷調(diào)查法和大數(shù)據(jù)分析法是當(dāng)前獲取公交通勤行為特征的兩種主要方法。問卷調(diào)查法主要通過被調(diào)查人群的主觀描述來獲取數(shù)據(jù),但通常受制于數(shù)據(jù)采集成本較高、樣本規(guī)模有限、數(shù)據(jù)采集間隔較長等問題;大數(shù)據(jù)分析法更具經(jīng)濟(jì)性(數(shù)據(jù)來源于公交刷卡數(shù)據(jù)和公交車輛GPS數(shù)據(jù))、覆蓋的樣本規(guī)模較大、數(shù)據(jù)采集間隔較短,能夠支持長期且動態(tài)的公交通勤行為跟蹤分析,可更為全面地反映公交通勤需求的實(shí)時(shí)變化。因此,近年來許多學(xué)者利用公交信息化數(shù)據(jù)開展公交通勤行為識別及特征分析研究。李軍等[2]采用出行鏈匹配方法推算出乘客下車站點(diǎn),根據(jù)出行鏈的出行次數(shù)和出發(fā)時(shí)間標(biāo)準(zhǔn)差識別公交通勤行為。王月玥[3]利用公交刷卡數(shù)據(jù)與公交車輛GPS數(shù)據(jù)的匹配關(guān)系,結(jié)合出行鏈結(jié)構(gòu)確定乘客上下車站點(diǎn),根據(jù)相似出行鏈的時(shí)空特征判別公交通勤行為。李淑慶等[4]利用上述研究中上下車站點(diǎn)的匹配及公交通勤行為識別方法得到公交通勤出行鏈,以重慶市主城區(qū)為例分析了公交通勤行為特征。翁劍成等[5]基于個(gè)體出行數(shù)據(jù),利用最大刷卡間隔、出行天數(shù)等特征建立公交通勤行為判別規(guī)則,提取乘客的公交通勤出行鏈。
然而,上述方法存在一個(gè)潛在的問題,即識別出的高頻出行鏈雖具有與公交通勤行為相似的時(shí)空特性,但未必是居住地與工作地的連線,這樣的識別結(jié)果在分析職住分離等一些公交通勤行為特征時(shí)可能與真實(shí)情況不符。為此,另一部分學(xué)者考慮從職住地兩端出發(fā),從分析乘客的職住地入手,通過識別職住地進(jìn)一步提取乘客公交通勤行為特征。陳君等[6]采用乘車頻次統(tǒng)計(jì)和空間聚類方法識別公交通勤乘客的居住地和工作地。劉曉等[7]根據(jù)乘客整體和個(gè)體的出行規(guī)律識別乘客下車站點(diǎn),結(jié)合出行時(shí)間鏈和地點(diǎn)-時(shí)間-時(shí)長(position-time-duration, PTD)模型識別乘客的公交通勤行為。彭飛等[8]基于包含上下車站點(diǎn)信息的公交大數(shù)據(jù),從乘客在早晚高峰時(shí)段的首次出行站點(diǎn)中挖掘乘客的職住地并根據(jù)時(shí)空信息匹配公交通勤出行鏈。可以看出,大多數(shù)研究對出行鏈的提取或者職住地的識別需要下車站點(diǎn)的參與,但除了少數(shù)城市采用“兩票制”收費(fèi)模式外,多數(shù)城市普遍采用“一票制”收費(fèi)模式,刷卡信息不包含下車站點(diǎn)信息?;诖祟悢?shù)據(jù)的研究通常借助下車站點(diǎn)推算方法進(jìn)行下車站點(diǎn)識別,識別率在59%~79.5%范圍內(nèi)[2-5,9],較低的識別率不能保證提取的公交通勤出行鏈的完整性和職住地識別的準(zhǔn)確性。
針對上述問題,利用公交信息化數(shù)據(jù)開展基于職住地識別的公交通勤行為分析方法研究。具體來說,該方法將公交刷卡數(shù)據(jù)與公交車輛GPS數(shù)據(jù)在交通小區(qū)級別下進(jìn)行融合,通過分析乘客的公交出行頻率、乘坐時(shí)間規(guī)律以及在早晚高峰時(shí)段首次乘車位置的穩(wěn)定性等,對乘客的居住地和工作地進(jìn)行識別,繼而分析公交通勤需求特征。相比于上述文獻(xiàn)中所采用的方法,本文方法不依賴于乘客的下車站點(diǎn)推算,因此避免了下車站點(diǎn)識別準(zhǔn)確度不高的問題;本文方法是基于乘客在早晚高峰時(shí)段的首次出行站點(diǎn)進(jìn)行職住地識別的,無須對乘客的多線換乘情況進(jìn)行判斷,為不完備數(shù)據(jù)環(huán)境下的公交通勤行為特征分析提供理論方法支持。
公交刷卡數(shù)據(jù)和公交車輛GPS數(shù)據(jù)是研究的基礎(chǔ)數(shù)據(jù),其構(gòu)成見表1。目前,我國大部分城市公交系統(tǒng)仍使用“一票制”收費(fèi)模式,在該模式下公交刷卡數(shù)據(jù)只能記錄乘客的上車信息。由于我國大部分公交系統(tǒng)的信息化建設(shè)是分階段進(jìn)行的,所以公交刷卡數(shù)據(jù)和公交車輛GPS數(shù)據(jù)是采用不同的設(shè)備采集的,刷卡數(shù)據(jù)中并不包含乘車位置信息,而該信息記錄于公交車輛GPS數(shù)據(jù)中。
表1 基礎(chǔ)數(shù)據(jù)構(gòu)成
乘車位置獲取及其與交通小區(qū)匹配流程如圖1所示,其中:t1為刷卡記錄時(shí)刻;t2為刷卡車輛的GPS記錄時(shí)刻;Δt=|t1-t2|;Δtmin=min{Δt}。
圖1 乘車位置獲取及其與交通小區(qū)匹配流程
(1)乘車位置獲取。讀取一條刷卡記錄,讓刷卡記錄時(shí)刻分別與對應(yīng)車輛的所有GPS記錄時(shí)刻相減,得到時(shí)間差序列。通常,GPS設(shè)備的數(shù)據(jù)最大采集時(shí)間間隔小于60 s,當(dāng)存在某個(gè)時(shí)刻使時(shí)間差最小且小于60 s時(shí),將該時(shí)刻對應(yīng)的坐標(biāo)(x,y)作為乘客該次乘車位置。
(2)交通小區(qū)匹配。交通小區(qū)具有同質(zhì)性,即其內(nèi)部存在相似的交通強(qiáng)度或交通狀態(tài)[10]。因此,利用交通小區(qū)的這一特性,將乘客的乘車位置與交通小區(qū)進(jìn)行空間匹配,獲取交通小區(qū)級別下乘客的公交出行行為信息,見表2。
表2 乘客公交出行行為時(shí)空信息
公交通勤出行通常存在著較強(qiáng)的規(guī)律,如公交通勤時(shí)間、出行地點(diǎn)相對固定等,因此假設(shè)如下:①公交通勤乘客在工作日早晚高峰時(shí)段存在高頻出行。②乘客的居住地為高頻首次出行地。③公交通勤乘客的工作地為工作日晚高峰時(shí)段的高頻首次出行地。④公交通勤乘客的每日通勤行為表現(xiàn)為早高峰結(jié)束前從居住地出發(fā)到達(dá)工作地,晚高峰開始后從工作地出發(fā)到達(dá)居住地。
基于以上假設(shè),結(jié)合乘客職住地的時(shí)空聯(lián)系,可以分別對乘客i的居住地和工作地建立識別規(guī)則,步驟如下:
步驟1提取乘客在早晚高峰時(shí)段的首次出行小區(qū)。為排除乘客偶然出行對職住地識別的干擾,文獻(xiàn)[5-7]對連續(xù)5個(gè)工作日內(nèi)出行天數(shù)不少于3 d的乘客進(jìn)行公交通勤行為分析。若乘客i平均每周出行天數(shù)不少于3 d,提取其首次出行小區(qū)集合。若乘客i平均每周在工作日晚高峰開始后有不少于3 d的出行記錄,提取其在晚高峰開始后的首次出行小區(qū)集合。
步驟2設(shè)置乘客潛在居住地和工作地。遍歷乘客i的首次出行小區(qū)集合,提取出a個(gè)小區(qū)作為乘客i的潛在居住地,需滿足:當(dāng)其為首次出行小區(qū)時(shí),每周出行天數(shù)>1 d。遍歷乘客i在晚高峰開始后的首次出行小區(qū)集合,提取出b個(gè)小區(qū)作為乘客i的潛在工作地,需滿足:當(dāng)其為晚高峰開始后的首次出行小區(qū)時(shí),每周出行天數(shù)>1 d。
步驟3根據(jù)出行時(shí)空聯(lián)系確定居住地和工作地。遍歷乘客i在工作日期間的出行記錄,若乘客i在第j個(gè)工作日的首次出行地為潛在居住地且在早高峰結(jié)束前出行,以及該日在晚高峰開始后首次出行地為潛在工作地,則該潛在居住地為乘客的居住地,該潛在工作地為乘客的工作地,將其分別放入居住地和工作地集合。
乘客職住地識別算法流程如圖2所示,其中:H1為乘客i的首次出行小區(qū)集合;W1為乘客i在晚高峰開始后的首次出行小區(qū)集合;te為工作日晚高峰的開始時(shí)刻;H2為乘客i的潛在居住地集合;W2為乘客i的潛在工作地集合;th為乘客i在第j個(gè)工作日的首次出行時(shí)刻;tm為工作日早高峰結(jié)束時(shí)刻;H3為乘客i的居住地集合;W3為乘客i的工作地集合。
若乘客居住地(工作地)集合中出行小區(qū)僅有一個(gè),則該出行小區(qū)可直接作為乘客的唯一居住地(工作地)。若乘客居住地(工作地)集合中出行小區(qū)個(gè)數(shù)大于一個(gè),且當(dāng)這些出行小區(qū)質(zhì)心之間的距離小于某個(gè)閾值時(shí),則對于該乘客來說,這些出行小區(qū)可以視為其居住地(工作地),可將其聚合為一個(gè)小區(qū)(龍瀛等[11]的研究中,選取站點(diǎn)的平均間距作為該閾值,本研究是在交通小區(qū)級別下進(jìn)行的,因此閾值選取為最鄰近交通小區(qū)質(zhì)心的平均距離,即2 km);若乘客居住地(工作地)集合中出行小區(qū)個(gè)數(shù)大于一個(gè),且這些出行小區(qū)質(zhì)心之間的距離大于該閾值,則認(rèn)為該乘客可能存在多個(gè)居住地(工作地)或不存在固定居住地(工作地)。
現(xiàn)有研究中,職住地的識別往往是相互割裂的,對乘客的居住地和工作地分別建立識別算法,得到的公交通勤出行鏈缺少時(shí)空完整性。本文對居住地的識別是基于乘客潛在工作地小區(qū),提取出乘客當(dāng)日的出行鏈,進(jìn)一步找到乘客居住地的,保留了乘客公交通勤出行鏈兩端的時(shí)空聯(lián)系。
選擇某市2019年4月15—28日的公交刷卡數(shù)據(jù)和公交車輛GPS數(shù)據(jù)對乘客的公交通勤行為進(jìn)行分析。該市多數(shù)路段無自行車道,公交運(yùn)營系統(tǒng)完善,居民通常選擇公交車作為主要出行交通工具,且公交刷卡率達(dá)到91.5%,能夠大幅度覆蓋常住人口中乘坐公交車的樣本總體,這為研究提供了可靠的數(shù)據(jù)支撐。數(shù)據(jù)包含10個(gè)連續(xù)工作日,共有有效出行記錄1 267.2萬條,其中工作日出行記錄有1 032.8萬條。該市共有交通小區(qū)561個(gè),選取其中557個(gè)交通小區(qū)作為研究區(qū)域。
獲取乘車位置后,將其與交通小區(qū)進(jìn)行匹配,得到乘客乘車位置與所在交通小區(qū)的匹配率(達(dá)到97.2%)。繪制出不同交通小區(qū)的每日客流量,見圖3。
圖3 不同交通小區(qū)的每日客流量分布
根據(jù)刷卡數(shù)據(jù),以1 h為間隔對工作日不同時(shí)段(時(shí)段1表示0:00—1:00,時(shí)段2表示1:00—2:00,以此類推)出行人數(shù)分布進(jìn)行展示,見圖4。由圖4可知,8:00—10:00為該市公交乘客早高峰出行時(shí)段,17:00—20:00為晚高峰出行時(shí)段。
圖4 工作日不同時(shí)段的出行人數(shù)分布
3.2.1 提取潛在居住地和潛在工作地
為確定潛在居住地集合中出行小區(qū)個(gè)數(shù)a和潛在工作地集合中出行小區(qū)個(gè)數(shù)b,需結(jié)合公交乘客的具體出行情況進(jìn)行分析。以該市的公交乘客出行為例,對所有乘客的首次出行小區(qū)集合和晚高峰開始后(17:00后)的首次出行小區(qū)集合中的出行小區(qū)個(gè)數(shù)進(jìn)行分析,結(jié)果見圖5。圖5顯示:①94%的乘客擁有1~6個(gè)首次出行小區(qū)。如果考慮乘客的重復(fù)出行(出行次數(shù)≥2的首次出行小區(qū)),那么99%的乘客擁有1~3個(gè)首次出行小區(qū)。因此,選擇出行頻率排在前3位的首次出行小區(qū)作為潛在居住地,就足以包含乘客的高頻出行小區(qū),即a=3。②97%的乘客擁有1~6個(gè)17:00后的首次出行小區(qū)。如果考慮乘客的重復(fù)出行(出行次數(shù)≥2的晚高峰開始后首次出行小區(qū)),那么96%的乘客擁有1~2個(gè)17:00后的首次出行小區(qū)。因此,選擇出行頻率排在前2位的17:00后的首次出行小區(qū)作為潛在工作地,即b=2。
(a)早高峰時(shí)段
3.2.2 乘客職住地識別算法結(jié)果分析
應(yīng)用乘客職住地識別算法,共識別出13.9萬名擁有職住地的乘客,共計(jì)422萬條出行記錄。將識別出職住地的乘客作為通勤乘客,未識別出職住地的乘客作為非通勤乘客。
對通勤乘客在早高峰結(jié)束前(10:00前)與晚高峰開始后(17:00后)的出行行為進(jìn)行分析,結(jié)果見表3。第1類結(jié)果中,11.2萬名乘客只有1個(gè)居住地和1個(gè)工作地,可直接作為他們的居住地和職住地。第2~4類結(jié)果中,2.7萬名乘客的居住地或工作地并不是其在兩個(gè)高峰時(shí)段的最高頻首次出行地,此部分乘客占通勤乘客總數(shù)的20%,若直接將乘客在早晚高峰時(shí)段的最高頻首次出行地作為職住地則會引起較大的識別誤差。通過進(jìn)一步分析發(fā)現(xiàn),其中有2.6萬名乘客的居住地或工作地不只有1個(gè),對集合內(nèi)滿足質(zhì)心距離小于等于2 km的出行小區(qū)進(jìn)行聚合,得到:有2.2萬名乘客擁有唯一職住地;另有0.4萬名乘客的職住地集合內(nèi)的出行小區(qū)質(zhì)心距離大于2 km,該部分乘客可能存在多個(gè)居住地(工作地)或無固定居住地(工作地)。最終,識別出13.5萬名具有唯一職住地的公交通勤乘客。
表3 乘客職住地識別算法結(jié)果分析
作為對比,利用文獻(xiàn)[5]中的方法,將一周中最大刷卡間隔大于7 h、出行天數(shù)達(dá)到3 d以上的乘客作為通勤乘客,滿足最大出行間隔的前后兩次出行行為視為乘客的通勤行為,運(yùn)用下車站點(diǎn)推算方法補(bǔ)全通勤出行鏈后,共得到90萬條通勤出行記錄。將文獻(xiàn)[5]的方法與本文方法識別出的通勤乘客取交集后得到126 161名乘客;提取該部分乘客在早高峰結(jié)束前從居住地出發(fā),且當(dāng)日晚高峰開始后從工作地出發(fā)的出行記錄作為乘客通勤出行鏈,共得到159萬條通勤出行記錄??梢钥闯?基于下車站點(diǎn)的通勤識別方法在同一數(shù)據(jù)源環(huán)境下識別出的通勤出行鏈完整性較差,這主要是因?yàn)樵诒狙芯繑?shù)據(jù)環(huán)境下下車站點(diǎn)識別率只有56%。
以1 h為間隔,對具有唯一職住地的通勤乘客和非通勤乘客的出行進(jìn)行分析,不同時(shí)段下出行人數(shù)占比見圖6。由圖6發(fā)現(xiàn),該市通勤乘客和非通勤乘客在工作日和周末的出行模式存在顯著差異:通勤乘客在工作日早高峰時(shí)段(8:00—10:00)和晚高峰時(shí)段(17:00—20:00)的出行人數(shù)占比達(dá)到79%以上,且在11:00—17:00的出行人數(shù)占比達(dá)到13.4%;通勤乘客在周末的出行仍存在明顯的雙峰分布,但在11:00—17:00的出行人數(shù)占比達(dá)到31.5%,說明一部分乘客在周末存在以休閑娛樂等為目的的出行;非通勤乘客在工作日和周末不同時(shí)段的出行較為均衡。
(a)工作日
基于乘客的居住地識別結(jié)果在交通小區(qū)級別下對通勤乘客的平均通勤距離進(jìn)行分析得到,平均通勤距離為5.7 km,標(biāo)準(zhǔn)差為3.9 km,約72%的乘客的通勤距離在2~8 km范圍內(nèi),20%的乘客的通勤距離在8 km以上。居住于不同交通小區(qū)的乘客的平均通勤距離如圖7所示,通勤距離由城市外圍到城市中心逐漸遞減。
圖7 不同交通小區(qū)的平均通勤距離
利用某市連續(xù)兩周的公交刷卡數(shù)據(jù),在交通小區(qū)級別下建立乘客職住地識別算法,對公交乘客的通勤行為進(jìn)行識別分析。
與基于出行鏈的公交通勤行為識別方法相比,本文方法識別和提取出的通勤出行鏈更具完整性。在建立乘客職住地識別算法時(shí),延續(xù)了職住地之間的時(shí)空聯(lián)系,能有效識別出一日之內(nèi)使用公共交通往返于職住地的通勤行為。一些研究直接將乘客在早晚高峰時(shí)段的最高頻首次出行地作為乘客的居住地或工作地,從實(shí)例分析結(jié)果看,會使15.6%的通勤乘客的出行鏈識別錯(cuò)誤或缺失,進(jìn)一步分析發(fā)現(xiàn)此部分乘客中有78%的乘客在早晚高峰時(shí)段的最高頻首次出行地與識別出的居住地或工作地高度相關(guān),根據(jù)空間位置進(jìn)行聚合后保留了該部分乘客的通勤客流,提升了該部分乘客通勤出行鏈的完整性。
本文研究能夠?yàn)榻煌ㄒ?guī)劃部門了解通勤行為特征、發(fā)展城市智慧交通提供方法上的參考。不足之處在于:本文研究是在交通小區(qū)級別下進(jìn)行的,雖然提高了乘客上車站點(diǎn)的匹配率,但不可避免地會降低空間分辨率;數(shù)據(jù)源存在單一性,僅對某市公交通勤行為進(jìn)行了實(shí)例分析。隨著公共交通大數(shù)據(jù)的不斷豐富,未來將利用更多城市的公共交通信息化數(shù)據(jù)對本文方法的可靠性和泛化能力進(jìn)行驗(yàn)證。