彭飛,宋國(guó)華*,朱珊
(1.北京交通大學(xué),綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044;2.北京交通發(fā)展研究院,北京100073)
城市交通系統(tǒng)中乘客出行需求時(shí)空特征分布不均衡,易引發(fā)高峰時(shí)段交通擁堵,通過(guò)面向城市公共交通乘客提出“預(yù)約出行”計(jì)劃能夠有效緩解公共交通高峰擁堵和交通資源緊張狀況[1]。城市公共交通常乘客指經(jīng)常使用公共交通出行的乘客,對(duì)城市公共交通具有較高的依賴程度和使用程度。通勤出行作為城市公共交通中乘客的主要出行需求,能夠反映公共交通出行效率,故面向城市公共交通常乘客精確挖掘通勤出行特征尤為重要。
國(guó)內(nèi)外針對(duì)公共交通通勤乘客識(shí)別和通勤特征提取的研究較多,主要方法包括聚類、關(guān)聯(lián)規(guī)則、閾值判定、機(jī)器學(xué)習(xí)等。翁劍成等[2]通過(guò)設(shè)定判別規(guī)則定義乘客在1 周中最大刷卡時(shí)間間隔大于7 h 的天數(shù)達(dá)到3 d 以上即為公共交通通勤出行者。梁泉等[3]面向公共交通乘客分類的BP 神經(jīng)元網(wǎng)絡(luò)模型對(duì)通勤人群進(jìn)行辨識(shí)。孫世超[4]使用基于問(wèn)卷調(diào)查數(shù)據(jù)結(jié)合公交刷卡數(shù)據(jù)構(gòu)建樸素貝葉斯分類器模型辨識(shí)通勤人群,并分析通勤人群的辨識(shí)結(jié)果。Gain 等[5]基于連續(xù)隱馬爾可夫模型的機(jī)器學(xué)習(xí)方法識(shí)別出首爾市區(qū)通勤行為。劉耀林等[6]通過(guò)1 周工作日的公交上車刷卡數(shù)據(jù),構(gòu)建出行模型和職住地識(shí)別規(guī)則。Long[7]結(jié)合公交刷卡數(shù)據(jù)和土地利用圖,綜合決策樹法和關(guān)聯(lián)規(guī)則法識(shí)別通勤人群,并在通勤距離可視化的基礎(chǔ)上分析居住區(qū)和工作區(qū)的通勤特征。Ji[8]利用出行調(diào)查數(shù)據(jù)生成通勤識(shí)別規(guī)則,結(jié)合工作日地鐵數(shù)據(jù)識(shí)別通勤人群,根據(jù)地鐵通勤人群的時(shí)空特征,采用高斯混合模型的聚類方法將其分為經(jīng)典模式、非高峰期模式和長(zhǎng)距離模式。
現(xiàn)有的多數(shù)研究中存在以下問(wèn)題:①城市公共交通中公交和軌道交通之間不斷融合發(fā)展,乘客通勤出行方式已經(jīng)不能單一考慮公交或軌道交通;②實(shí)際中不同通勤個(gè)體的出行穩(wěn)定性可能不一致[9],通勤乘客的出行行為存在較大的差異,其中也包含大量的非通勤出行,面向通勤乘客對(duì)通勤出行特征挖掘的準(zhǔn)確性存在潛在影響,缺乏能夠精準(zhǔn)反映通勤出行特征的狀態(tài);③針對(duì)通勤乘客的識(shí)別方法往往需要結(jié)合調(diào)查問(wèn)卷數(shù)據(jù)來(lái)判斷,調(diào)查問(wèn)卷獲取訓(xùn)練數(shù)據(jù)集的質(zhì)量不一定能夠完全學(xué)習(xí)各種通勤情況,而且調(diào)查樣本結(jié)果本身有一定的時(shí)效性,動(dòng)態(tài)特征分析時(shí)不易避免時(shí)間變化造成樣本偏差帶來(lái)的影響。
因此,本文研究面向公交和軌道交通中的常乘客,從非集計(jì)模型的角度,通過(guò)一定周期的出行鏈數(shù)據(jù)挖掘乘客出行鏈的時(shí)空分布規(guī)律[10-12],利用其中包含的內(nèi)在關(guān)系和客觀規(guī)律提出常乘客職住地識(shí)別算法,并根據(jù)出行鏈起訖站點(diǎn)和職住地空間位置匹配關(guān)系提取通勤出行鏈,分析常乘客通勤出行需求的時(shí)空分布及出行方式選擇特征。該方法不受限于問(wèn)卷調(diào)查,能夠更準(zhǔn)確地提取常乘客通勤出行。研究結(jié)果可為北京市公共交通出行個(gè)體的動(dòng)態(tài)出行特征精細(xì)化挖掘提供依據(jù),對(duì)于提高職住分離地區(qū)的公共交通通勤出行效率具有重要意義。
本文獲取公交IC(Integrated Circuit)刷卡數(shù)據(jù)、地鐵AFC(Automatic Fare Collection)系統(tǒng)刷卡數(shù)據(jù)和車輛GPS(Global Positioning System)位置數(shù)據(jù)在內(nèi)的北京市公共交通多源數(shù)據(jù)。北京市公交乘車刷卡數(shù)據(jù)包含乘客出行上下站點(diǎn)空間位置和時(shí)間信息,數(shù)據(jù)采用已經(jīng)完成公交與軌道換乘識(shí)別的出行鏈數(shù)據(jù),該數(shù)據(jù)考慮了兩種出行方式之間的銜接,能夠完整展現(xiàn)出行乘客的出行時(shí)空信息。以某位乘客1 d 的數(shù)據(jù)為例,出行鏈數(shù)據(jù)如表1所示。出行鏈數(shù)據(jù)字段包括乘客ID號(hào)、出行鏈編號(hào)、上下站時(shí)空信息、換乘信息和交通方式等。
表1 乘客1 d出行鏈數(shù)據(jù)Table 1 Passengers'daily travel chain data
出行鏈結(jié)構(gòu)特征變化能夠反映公交與軌道交通之間客流轉(zhuǎn)移變化特征。一條出行鏈數(shù)據(jù)代表了乘客一次出行(包括換乘出行和不換乘出行),換乘出行至少由兩個(gè)出行階段組成,不換乘出行僅有一個(gè)出行階段。每個(gè)出行階段選擇公交或軌道交通中的一種出行方式分別用B 和S 表示,其中,軌道交通不同線路之間換乘為一個(gè)出行階段。出行鏈結(jié)構(gòu)按照出行方式選擇劃分為4種,分別為僅乘公交、僅乘軌道交通、公交和公交之間換乘、公交和軌道交通之間換乘,分別表示為B、S、B-B、B-S。
根據(jù)出行需求和出行時(shí)間特征客觀規(guī)律認(rèn)為:一般情況下出行乘客單日首次出行為離開居住地,單日末次出行為到達(dá)居住地,故從常乘客單日出行鏈數(shù)據(jù)起訖站點(diǎn)提取首次出行起始站點(diǎn)和末次出行到達(dá)站點(diǎn)分別作為潛在居住地h1和h2??紤]到存在出行乘客單日出行僅有1 次且該次出行即是首次出行又是末次出行,為確定該次出行需求,在選取潛在居住地時(shí)設(shè)定首次和末次出行的時(shí)間范圍,首次出行出發(fā)時(shí)間為上午時(shí)段(4:00-12:00),末次出行出發(fā)時(shí)間為晚間時(shí)段(16:00-0:00)。
為排除單日特殊情況下提取的潛在居住地站點(diǎn)為非真實(shí)居住地的干擾,從多日的潛在居住地站點(diǎn)中選取出現(xiàn)頻率最高頻站點(diǎn)作為高頻居住地。考慮到離開和到達(dá)居住地這兩種出行需求在出行方式的選擇上受時(shí)間約束有不確定性,故根據(jù)不同出行需求提取的潛在居住地設(shè)置兩類高頻居住地H1和H2,從多日中提取的潛在居住地h1和潛在居住地h2中選取出現(xiàn)頻率最高的站點(diǎn)分別作為集合H1和H2中元素。
為提高居住地識(shí)別準(zhǔn)確性,從潛在居住地中進(jìn)一步挖掘有代表性的站點(diǎn)和高頻站點(diǎn)進(jìn)行比較來(lái)構(gòu)建有效的識(shí)別條件。從提取多日的潛在居住地h1中選取出發(fā)時(shí)間最早的兩個(gè)作為集合H3中的元素,從潛在居住地h2中選取到達(dá)時(shí)間最晚的兩個(gè)潛在居住地作為集合H4中的元素。當(dāng)有些站點(diǎn)出現(xiàn)頻率相同時(shí)集合中元素可能不唯一,當(dāng)高頻居住地集合中站點(diǎn)元素唯一時(shí),該元素作為真實(shí)居住地的可能性就越大;同時(shí)該元素應(yīng)在其他集合中也存在,表明所設(shè)置的高頻居住地更加符合出行需求從居住地出發(fā)或者到達(dá)的客觀規(guī)律。例如:當(dāng)H1集合中僅有唯一元素h1,且該站點(diǎn)在集合H2,H3,H4中存在;當(dāng)H2集合中僅有唯一元素h2,且該站點(diǎn)在H1,H3,H4集合中存在,鑒于此構(gòu)建識(shí)別條件為
潛在居住地選取中不考慮工作地和工作日之間的差異,因此為增加數(shù)據(jù)樣本量,提高識(shí)別準(zhǔn)確度,居住地識(shí)別選取的出行鏈數(shù)據(jù)包括工作日和非工作日。輸入多日常乘客出行鏈數(shù)據(jù),選取潛在居住地并設(shè)置高頻居住地。當(dāng)高頻居住地集合H1滿足識(shí)別條件式(1)時(shí),H1中唯一元素為居住地;滿足識(shí)別條件式(2)時(shí),H2中唯一元素為居住地。居住地識(shí)別條件判斷順序如圖1所示,最后輸出該常乘客居住地為Sh,若不能滿足識(shí)別條件則無(wú)法識(shí)別其居住地。
圖1 居住地識(shí)別流程Fig.1 Residence identification process
根據(jù)工作日中的通勤出行需求和出行時(shí)空特征客觀規(guī)律認(rèn)為:出行乘客早晚高峰出行分別為到達(dá)和離開工作地。從常乘客工作日單日出行鏈數(shù)據(jù)起訖站點(diǎn)提取出發(fā)時(shí)間在早高峰(6:00-10:00)的出行到達(dá)站點(diǎn)和晚高峰(17:00-20:00)的出行起始站點(diǎn)作為潛在工作地w1??紤]到受時(shí)間約束較小的通勤出行不一定在早晚高峰,故根據(jù)早晚高峰時(shí)段的出行選取潛在工作地只適用于典型的通勤乘客;對(duì)于非典型的通勤乘客,一般情況下工作日中通勤出行往往是連接居住地和工作地,故提取從居住地出發(fā)的到達(dá)站點(diǎn)和到達(dá)居住地的起始站點(diǎn)作為潛在工作地w2。
為排除單日特殊情況下提取的潛在工作地站點(diǎn)為非真實(shí)工作地的干擾,同樣從多日的潛在工作地站點(diǎn)中選取出現(xiàn)頻率最高頻站點(diǎn)作為高頻工作地。從工作日多日提取的潛在居住地w1和潛在居住地w2中選取出現(xiàn)頻率最高的站點(diǎn)分別作為集合W1和W2中元素。
通過(guò)兩個(gè)高頻工作地的比較來(lái)構(gòu)建工作地識(shí)別條件,當(dāng)高頻工作地集合中站點(diǎn)元素唯一時(shí),該元素作為真實(shí)工作地的可能性就越大。同時(shí)該元素應(yīng)在另一個(gè)高頻工作地集合中同樣存在,表明所設(shè)置的高頻工作地更加符合常乘客通勤出行需求的客觀規(guī)律。例如:當(dāng)W1有唯一元素w1,且站點(diǎn)w1在W2中存在;當(dāng)W2有唯一元素w2,且站點(diǎn)w2在W1中存在。構(gòu)建判別條件為
實(shí)際中,居住地和工作地周邊有多個(gè)公共交通站點(diǎn)提供出行服務(wù),不同出行乘客在同一出行需求下具有交通方式、線路、站點(diǎn)選擇的多樣性。鑒于此,根據(jù)公交、地鐵站點(diǎn)服務(wù)半徑及乘客可接受的步行距離范圍設(shè)定距離約束ε,當(dāng)兩個(gè)高頻工作地集合中站點(diǎn)元素都唯一但不相同時(shí),通過(guò)兩站點(diǎn)經(jīng)緯度數(shù)據(jù)計(jì)算空間距離l,其表達(dá)式為
式中:R為地球平均半徑(R=6371 km);x1,x2分別為出發(fā)和到達(dá)站點(diǎn)所在經(jīng)度坐標(biāo);y1,y2分別為出發(fā)和到達(dá)站點(diǎn)所在維度坐標(biāo)。
當(dāng)空間距離l滿足距離約束ε時(shí),若滿足將其識(shí)別為同一工作地的兩個(gè)不同工作地站點(diǎn)。即W1和W2有唯一元素但w1和w2不相同,兩者間的歐式距離l不大于距離約束ε,增加識(shí)別條件為
針對(duì)已識(shí)別出居住地的常乘客,輸入多日工作日出行鏈數(shù)據(jù),選取潛在工作地并設(shè)置高頻工作地。判斷高頻工作地W1和W2是否滿足識(shí)別條件,當(dāng)滿足識(shí)別條件式(3)或式(6)時(shí),W1中唯一元素為工作地;滿足判別條件式(4)時(shí),W2中唯一元素為工作地。工作地識(shí)別條件判斷順序如圖2所示,最終輸出識(shí)別結(jié)果為該常乘客工作地Sw,若不能滿足識(shí)別條件則無(wú)法識(shí)別其工作地。
圖2 工作地識(shí)別流程Fig.2 Workplace identification process
在常乘客職住地識(shí)別的基礎(chǔ)上提取通勤鏈,綜合考慮時(shí)間和空間上的通勤規(guī)律。無(wú)法識(shí)別職住地的常乘客,其通勤出行規(guī)律不明顯且穩(wěn)定性較低或是沒(méi)有固定職業(yè),故出行鏈空間信息匹配只針對(duì)職住地已識(shí)別的常乘客。根據(jù)出行鏈的起訖站點(diǎn)和職住地站點(diǎn)的空間位置關(guān)系匹配將通勤出行鏈分為home-work(HW)出行鏈和work-home(WH)出行鏈兩種類別:HW出行鏈表示從其居住地前往工作地的通勤出行,WH出行鏈表示出行者從其工作地前往居住地的通勤出行。
定義出行乘客的所有出行數(shù)據(jù)由n條出行鏈構(gòu)成,出行鏈對(duì)應(yīng)一次出行中的起訖站點(diǎn)So,Sd構(gòu)成的向量,結(jié)合居住地站點(diǎn)Sh和工作地站點(diǎn)Sw空間位置信息,提取HW出行鏈和WH出行鏈的起訖站點(diǎn)分別構(gòu)成向量和構(gòu)建條件判斷式為
提取通勤鏈時(shí),同樣考慮不同出行乘客在同一出行需求下具有線路、站點(diǎn)選擇的多樣性。如圖3所示,當(dāng)職住地站點(diǎn)與出行鏈起訖點(diǎn)不同但距離很近時(shí),可視為同一地點(diǎn)。因此,根據(jù)站點(diǎn)服務(wù)半徑設(shè)定距離約束ε,為避免無(wú)法分類通勤距離小于服務(wù)半徑的出行鏈,增加提取HW、WH出行鏈的條件判斷分別為
式中:l(So,Sh)為出行鏈起點(diǎn)與居住地之間距離;l(Sd,Sw)為出行鏈終點(diǎn)與工作地之間的距離;l(So,Sw)為出行鏈起點(diǎn)與工作地之間距離;l(Sh,Sw)為出行鏈終點(diǎn)與居住地之間的距離;l(Sh,Sw)為居住地和工作地之間距離。
圖3 通勤出行鏈與職住地空間位置匹配Fig.3 Commuter travel chain matches home-work locations
以北京市職住分離嚴(yán)重的超大型居住區(qū)——回龍觀和天通苑地區(qū)(簡(jiǎn)稱“回天地區(qū)”)為例。該地區(qū)通勤需求時(shí)空分布高度不均衡,每天產(chǎn)生大量的鐘擺式通勤需求,進(jìn)站上車排隊(duì)擁堵嚴(yán)重造成大量的時(shí)間及資源損耗,在該地區(qū)開展“預(yù)約出行”首先要掌握通勤出行需求。選取2019年9月在“回天地區(qū)”有乘車記錄的約7萬(wàn)名乘客的公共交通出行鏈數(shù)據(jù)。定義月出行天數(shù)不少于15 d 的乘客為常乘客,站點(diǎn)服務(wù)半徑距離約束ε設(shè)定為1500 m。本文算法得到的居住地、工作地識(shí)別率分別為95.7%、85.9%,其職住地分布如圖4所示。針對(duì)識(shí)別出職住地的常乘客進(jìn)行通勤出行提取,非通勤出行、HW通勤出行、WH 通勤出行比例分別為14%、46%、40%,其中,工作日中比例分別為12%、47%、41%,非工作日中比例分別為22%、42%、36%。
圖4 常乘客職住地分布Fig.4 Distribution of frequent passengers'home-work locations
對(duì)比常乘客提取出的通勤與非通勤出行鏈結(jié)構(gòu),如圖5所示??芍悍峭ㄇ诔鲂泻屯ㄇ诔鲂性诔鲂蟹绞竭x擇上有較大差異,HW和WH通勤出行在出行方式選擇上無(wú)明顯差異。
圖5 出行鏈結(jié)構(gòu)比例Fig.5 Proportion of travel chain structure
對(duì)比常乘客提取出的通勤與非通勤出發(fā)時(shí)間分布,工作日和非工作日結(jié)果分別如圖6和圖7所示??梢钥闯觯涸缤砀叻迤陂g的出行以通勤出行為主,同時(shí)還包括一定比例的非通勤出行,在非工作日的非早晚高峰期間同樣有一定比例的通勤出行。工作日中,HW通勤集中分布在6:00-10:00,其中,7:00-9:00 出行比例最高;WH 通勤集中分布在16:00-22:00,WH 通勤因下班后常乘客受時(shí)間約束更小出行方式選擇更加靈活,與HW通勤出行時(shí)間相比沒(méi)有那么集中,同時(shí)下班后增加了娛樂(lè)購(gòu)物等出行目的,故晚高峰期間非通勤出行占比明顯增加。非工作日中非早晚高峰期間通勤出行相比與工作日中的比例明顯增加,HW 通勤主要分布在5:00-9:00,WH 通勤主要分布在15:00-22:00,通勤出行早晚高峰期相比工作日分布相對(duì)分散、范圍更大。
圖6 工作日出發(fā)時(shí)間分布比例Fig.6 Percentage of departure time distribution on working days
圖7 非工作日出發(fā)時(shí)間分布比例Fig.7 Percentage of departure time distribution during non-working days
對(duì)比常乘客提取出的通勤與非通勤出行距離分布,工作日和非工作日結(jié)果分別如圖8和圖9所示。可以看出:通勤和非通勤出行距離分布比例有明顯差異,通勤出行中出行距離大于8 km 的比例明顯高于非通勤出行,非通勤出行中出行距離小于8 km 的比例明顯高于通勤出行。通勤距離小于3 km時(shí),WH和HW通勤的出行距離分布比例有明顯差異,WH比HW通勤少了較強(qiáng)的時(shí)間約束且出行距離較短,往往有更多交通選擇方式,故在工作日和非工作日中HW 通勤出行都明顯高于WH 通勤出行的比例;通勤距離大于3 km 時(shí),HW 通勤和WH通勤在不同出行距離的比例基本一致。
圖8 工作日出行距離分布比例Fig.8 Percentage of travel distance distribution on working days
圖9 非工作日出行距離分布比例Fig.9 Percentage of travel distance distribution during non-working days
結(jié)合案例數(shù)據(jù),分析新方法與原有方法(將識(shí)別通勤者作為通勤)應(yīng)用結(jié)果的差異,提取通勤特征包括出發(fā)時(shí)刻、出行距離及出行方式,對(duì)比兩種方法提取出20 d 工作日中單日通勤特征相對(duì)誤差分布,如圖10所示??梢钥闯觯涸蟹椒▽⑼ㄇ谡叩某鲂刑崛橥ㄇ诔鲂?,會(huì)給通勤特征提取帶來(lái)顯著誤差,特別是在出行方式為公交出行和出發(fā)時(shí)間在11:00-17:00 及出行距離不足3 km 的出行,存在較大誤差。
圖10 工作日單日通勤特征相對(duì)誤差分布Fig.10 Relative error distribution of single-day commuting characteristics on working days
本文提出利用公交與軌道出行鏈數(shù)據(jù)提取常乘客通勤出行的方法,以北京市“回天地區(qū)”2 萬(wàn)多名常乘客30 d 的出行鏈數(shù)據(jù)為例進(jìn)行通勤特征挖掘。
(1)考慮出行者全鏈條的出行行為,選用公交和軌道交通融合之后的出行鏈數(shù)據(jù),同時(shí)研究對(duì)象由通勤個(gè)體轉(zhuǎn)向通勤個(gè)體的通勤行為,能夠精確提取通勤行為特征狀態(tài)。此外,不需要大量問(wèn)卷調(diào)查數(shù)據(jù),避免了調(diào)查時(shí)效性帶來(lái)的結(jié)果偏差,有利于通勤出行的動(dòng)態(tài)變化特征分析。但該方法對(duì)數(shù)據(jù)量有較高要求,適用于至少以月份為周期的出行乘客全樣本出行數(shù)據(jù)。
(2)針對(duì)常乘客出行鏈數(shù)據(jù)提出職住地識(shí)別算法,案例結(jié)果顯示,常乘客居住地識(shí)別率達(dá)到95.7%,工作地識(shí)別率達(dá)到85.9%。根據(jù)常乘客職住地與出行鏈起訖站點(diǎn)空間信息匹配構(gòu)建HW 和WH通勤出行鏈,提取得到已識(shí)別職住地的常乘客出行中非通勤出行、HW通勤出行、WH通勤出行的比例分別為14%、46%、40%。
(3)通勤與非通勤出行方式選擇特征及出行時(shí)空特征分布的分析結(jié)果顯示,通勤出行和非通勤出行方式、出發(fā)時(shí)間和出行距離特征上存在顯著差異。通勤出行鏈提取方法應(yīng)用誤差分析結(jié)果顯示,將通勤者的出行提取為通勤出行會(huì)對(duì)通勤特征提取帶來(lái)顯著誤差,特別是在出行方式為公交出行,出發(fā)時(shí)間在11:00-17:00,出行距離不足3 km 的出行存在較大誤差。本文方法提取HW 和WH 通勤能夠有效消除通勤者的非通勤出行特征的差異性影響,確保通勤出行提取的準(zhǔn)確性,同時(shí)能夠精細(xì)化挖掘通勤出行特征。挖掘通勤出行時(shí)空特征、出行方式選擇特征等精細(xì)化特征對(duì)公交和軌道系統(tǒng)兩網(wǎng)融合協(xié)調(diào)優(yōu)化具備重要參考價(jià)值,通勤出行提取可為北京市面向常乘客開展“預(yù)約出行”并分析其出行需求及客流轉(zhuǎn)移動(dòng)態(tài)特征變化提供依據(jù)。