馬書紅,楊 濤,岳 敏,陳西芳
(1. 長安大學(xué) 運(yùn)輸工程學(xué)院,陜西 西安 710064;2. 生態(tài)安全屏障區(qū)交通網(wǎng)設(shè)施管控及循環(huán)修復(fù)技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710064)
2019年《交通強(qiáng)國建設(shè)綱要》明確提出“構(gòu)建便捷順暢的城市(群)交通網(wǎng)”、“城市群2小時通達(dá)”,2021年《國家綜合立體交通網(wǎng)規(guī)劃綱要》提出,綜合交通網(wǎng)絡(luò)需要增強(qiáng)互聯(lián)互通,推動融合發(fā)展,提升運(yùn)輸整體效率,為進(jìn)一步發(fā)展城市群交通指明了方向。隨著城市群一體化多模式交通網(wǎng)絡(luò)的建設(shè),出行者的聯(lián)程出行需求不斷擴(kuò)大,但多模式交通網(wǎng)絡(luò)在組合效率、換乘銜接、功能協(xié)作等方面還存在短板;同時,突發(fā)異常狀況(如突發(fā)客流、線路故障、自然災(zāi)害等)也會對多模式交通網(wǎng)絡(luò)帶來極大沖擊,需要提出快速應(yīng)對策略和提高網(wǎng)絡(luò)韌性。因此,在異常狀態(tài)發(fā)生時,如何準(zhǔn)確判別城市群多模式客運(yùn)交通系統(tǒng)的異常狀態(tài)、受影響的通道/樞紐和影響范圍,提出應(yīng)急對策,確保城市群樞紐間多模式交通一體化運(yùn)行效率成為當(dāng)前亟待解決的重點(diǎn)問題之一。
在樞紐異常事件的識別及影響研究方面,R.SILVA等[1]基于智能卡數(shù)據(jù)提出一種用于量化因軌道線路和車站關(guān)閉產(chǎn)生影響的方法;SUN Huijun等[2]利用貝葉斯方法對突發(fā)事件進(jìn)行識別并建立城市軌道交通網(wǎng)絡(luò)中斷影響評估模型;楊靈[3]分析了突發(fā)大客流在城市軌道交通網(wǎng)絡(luò)的擴(kuò)散過程及傳播特性;李臣等[4]利用地鐵AFC數(shù)據(jù)對大客流下時空影響范圍做出識別。上述研究多基于網(wǎng)絡(luò)理論對異常影響范圍進(jìn)行界定,對乘客的實(shí)際出行需求考慮較少。隨著多源大數(shù)據(jù)分析技術(shù)的發(fā)展,利用手機(jī)信令數(shù)據(jù)分析城際間乘客出行能夠更加準(zhǔn)確地反映實(shí)際情況[5]。結(jié)合多源出行數(shù)據(jù),利用關(guān)聯(lián)規(guī)則挖掘方法能夠更好地發(fā)現(xiàn)數(shù)據(jù)集中有意義的聯(lián)系。比如,利用出租車GPS數(shù)據(jù)和關(guān)聯(lián)規(guī)則,李勇[6]分析了城市道路擁堵的關(guān)聯(lián)性和傳播特性;YU Wenhao[7]提出了挖掘一定時段內(nèi)頻繁項(xiàng)集的移動路徑算法;項(xiàng)譯[8]使用手機(jī)信令數(shù)據(jù)并基于出行軌跡的關(guān)聯(lián)性,研究了景區(qū)游客的路線分布規(guī)律?;谲壍澜煌ㄋ⒖〝?shù)據(jù)、AFC數(shù)據(jù)提取相關(guān)出行信息,褚凡[9]利用關(guān)聯(lián)規(guī)則挖掘方法分析軌道交通客流特征和出行行為;GUO Xin[10]分析了通勤時段內(nèi)強(qiáng)關(guān)聯(lián)性的地鐵站點(diǎn)組合。
基于此,筆者擬在獲取手機(jī)信令數(shù)據(jù)的基礎(chǔ)上,結(jié)合意向出行調(diào)查及客票信息等多源數(shù)據(jù)提出城市群樞紐間多模式交通系統(tǒng)異常狀態(tài)影響范圍識別流程與方法,并結(jié)合京津冀城市群樞紐間多模式交通出行典型場景進(jìn)行分析和驗(yàn)證,為利用數(shù)據(jù)挖掘方法確定突發(fā)異常狀態(tài)的影響和對策提供借鑒,為進(jìn)一步完善城市群多模式交通系統(tǒng)應(yīng)急處置、韌性評估和提升等提供理論基礎(chǔ)。在此基礎(chǔ)上,為提高管理部門在面對災(zāi)害和突發(fā)事件等異常狀態(tài)下的快速反應(yīng)能力和主動保障能力,提高城市群樞紐間多模式交通系統(tǒng)銜接協(xié)調(diào)和整體運(yùn)行效率提供支撐。
筆者將異常狀態(tài)定義為“由于突發(fā)事件所導(dǎo)致的樞紐(間)客流的非正常狀態(tài)”。突發(fā)事件指突然發(fā)生、造成或可能造成嚴(yán)重社會危害、需要進(jìn)行緊急處理的事件,包括突發(fā)事故、自然災(zāi)害、恐怖主義行為、重大群體性事件等。筆者從需求端非常態(tài)客流變化和供給端運(yùn)輸能力下降 2 個方面對城市群多模式交通系統(tǒng)異常狀態(tài)進(jìn)行分類總結(jié),如表1。
表1 城市群多模式交通系統(tǒng)異常狀態(tài)分類
筆者基于獲取的手機(jī)信令數(shù)據(jù)、乘客意向出行調(diào)查數(shù)據(jù)、客票數(shù)據(jù)及地圖信息等提出針對某些異常狀態(tài)影響范圍的識別流程,如圖1。
圖1 基于多源數(shù)據(jù)的異常狀態(tài)影響范圍識別流程 Fig. 1 Recognition process of the influence range of abnormal state based on multi-source data
異常狀態(tài)影響范圍識別的關(guān)鍵是樞紐間通道客流異常聚集檢測和樞紐群強(qiáng)關(guān)聯(lián)規(guī)則挖掘。前者是借助手機(jī)數(shù)據(jù)獲取惡劣天氣、節(jié)假日活動期間乘客的出行鏈信息,得到樞紐間通道客流量,利用貝葉斯預(yù)測方法就實(shí)際客流量給出動態(tài)安全閾值,進(jìn)而識別通道客流的異常聚集狀態(tài);后者是在獲得與實(shí)際和假定異常情況相關(guān)的乘客出行鏈基礎(chǔ)上,利用Apriori算法挖掘乘客出行經(jīng)由的樞紐群頻繁項(xiàng)集,并應(yīng)用關(guān)聯(lián)規(guī)則特性指標(biāo)對關(guān)聯(lián)規(guī)則有效性進(jìn)行判別,得到樞紐組合的強(qiáng)關(guān)聯(lián)規(guī)則,識別異常條件下受影響的樞紐群。
樞紐間通道客流異常聚集檢測主要基于統(tǒng)計(jì)學(xué)方法,首先根據(jù)歷史的通道客流數(shù)據(jù)構(gòu)建一般化模型,之后結(jié)合研究時段內(nèi)的通道客流數(shù)據(jù),利用貝葉斯預(yù)測得到動態(tài)模型參數(shù),同時確定客流人數(shù)θ的異常檢測閾值。主要建模步驟如下:
1)利用歷史手機(jī)信令數(shù)據(jù)獲取所研究的樞紐間客流量,分析并確定合適的通道客流分布類型。
2)確定先驗(yàn)分布模型參數(shù),得到分布密度π(θ)。
3)根據(jù)貝葉斯公式確定θ的后驗(yàn)分布密度,如式(1):
(1)
式中:h(θ|x′)為后驗(yàn)分布密度;π(θ)為先驗(yàn)分布密度;P(x′|θ)為樣本x′在給定θ條件下的聯(lián)合分布密度;Θ為參數(shù)空間。
4)以滿足99.7%的概率條件確定客流人數(shù)閾值范圍。
關(guān)聯(lián)規(guī)則表示不同數(shù)據(jù)項(xiàng)目在同一事件中出現(xiàn)的相關(guān)性,能夠利用有效算法對大量數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘。Apriori算法是一種關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可從大量數(shù)據(jù)集中尋找項(xiàng)集之間的隱含關(guān)系。筆者選擇利用這種算法做初步的樞紐關(guān)聯(lián)性挖掘,獲得頻繁項(xiàng)集,并基于大量的頻繁項(xiàng)集通過設(shè)定條件獲取關(guān)聯(lián)規(guī)則,從而得到關(guān)聯(lián)性高的樞紐群。
置信度和支持度是廣泛用于獲取簡單關(guān)聯(lián)規(guī)則的有效指標(biāo)。筆者將置信度表示為C(X→Y),反映樞紐X出現(xiàn)條件下樞紐Y出現(xiàn)的可能性;同時將支持度表示為S(X→Y),反映項(xiàng)集(X,Y)在乘客出行事務(wù)集中出現(xiàn)的概率。
在獲得滿足一定支持度和置信度的頻繁項(xiàng)集的基礎(chǔ)上,利用興趣度指標(biāo)(規(guī)則提升度、余弦相似度等)來分析樞紐關(guān)聯(lián)規(guī)則的有效性。規(guī)則提升度為規(guī)則置信度與樞紐Y的支持度之比,反映乘客在出行過程中,樞紐X的出現(xiàn)對樞紐Y出現(xiàn)的影響程度,其計(jì)算公式如式(2):
(2)
式中:S(X)為樞紐X的支持度;S(Y)為樞紐Y的支持度。
當(dāng)兩個規(guī)則具有相同提升度時,可利用提升度的標(biāo)準(zhǔn)化值來區(qū)別其重要性順序。標(biāo)準(zhǔn)化的提升度作為興趣度比原值更加有效[11],其計(jì)算公式如式(3):
(3)
式中:υ和λ為標(biāo)定參數(shù),分別為最小支持度閾值σ和最小置信度閾值κ的函數(shù)。標(biāo)定原則如式(4)、式(5):
(4)
(5)
余弦相似度作為興趣度也可以對樞紐關(guān)聯(lián)規(guī)則的有效性進(jìn)行判別,余弦相似度值越大表示樞紐之間的關(guān)聯(lián)性越強(qiáng),其計(jì)算公式如式(6):
(6)
同樣地,可以利用標(biāo)準(zhǔn)化的余弦相似度來區(qū)別樞紐關(guān)聯(lián)規(guī)則的重要性順序,其計(jì)算公式如式(7):
(7)
與標(biāo)準(zhǔn)提升度一樣,υ′和λ′為標(biāo)定參數(shù)。標(biāo)定原則如式(8)、式(9):
(8)
(9)
利用多源數(shù)據(jù)獲取乘客的出行鏈信息(手機(jī)數(shù)據(jù)、意向調(diào)查數(shù)據(jù))和出行相關(guān)地理信息(高德地圖),確定樞紐間通道客流量和乘客出行經(jīng)由的樞紐情況,為分析客流安全閾值和樞紐頻繁項(xiàng)集挖掘提供基礎(chǔ)[12]。針對“城市群地域范圍廣、樞紐數(shù)量多、城際和城內(nèi)交通方式多、管理主體多、異常狀態(tài)類型多”這一現(xiàn)狀,選取典型場景開展研究。以京津冀城市群為例,重點(diǎn)針對城市群內(nèi)部城際間的旅客出行需求。
3.1.1 手機(jī)信令數(shù)據(jù)內(nèi)容
極智數(shù)據(jù)庫平臺開放了基于聯(lián)通全量手機(jī)用戶信令數(shù)據(jù)的用戶駐留和出行位置數(shù)據(jù),輔以用戶入網(wǎng)基礎(chǔ)屬性、通信相關(guān)偏好屬性和消費(fèi)等多源數(shù)據(jù)。以此為基礎(chǔ),利用Hive SQL語句從數(shù)據(jù)庫平臺提取的乘客出行數(shù)據(jù)示例結(jié)果如表2。
表2 乘客出行數(shù)據(jù)示例
3.1.2 數(shù)據(jù)范圍選取
根據(jù)在線平臺數(shù)據(jù)情況和對異常狀態(tài)的分類結(jié)果,結(jié)合示范場景信息來確定研究的樞紐范圍。筆者對2019年5月京津冀城市群內(nèi)發(fā)生的 2 種異常狀況進(jìn)行研究:節(jié)日期間大規(guī)模乘客出行(2019年5月2日)和突發(fā)雷雨大風(fēng)天氣(北京,2019年5月19日),提取的數(shù)據(jù)量分別為480 983條和414 162條。同時提取2019年5月5日至5月18日的出行數(shù)據(jù)作為正常日出行參考,數(shù)據(jù)總量為614萬余條。
最終確定基于手機(jī)數(shù)據(jù)研究的交通樞紐(表3),其包括航空樞紐3個(因數(shù)據(jù)時間范圍限制, 不含北京大興國際機(jī)場)、鐵路樞紐10個、公路樞紐24個,共37個。
表3 京津冀城市群內(nèi)研究的樞紐范圍
由于手機(jī)數(shù)據(jù)獲取的異常出行數(shù)據(jù)比較有限,為擴(kuò)展異常狀態(tài)研究范圍,筆者以京津冀城市群為研究對象,對出行者在一定異常狀態(tài)下對單程和聯(lián)程出行方案的意向選擇/調(diào)整情況進(jìn)行問卷調(diào)查。問卷假定的異常場景包括北京西站突發(fā)大客流(Q1)、強(qiáng)降雨天氣導(dǎo)致保定東至石家莊鐵路段關(guān)閉(Q2)、保定東至石家莊段高鐵線路事故(Q3),結(jié)合出行時間、出行目的、出行起訖點(diǎn),最終設(shè)定異常狀態(tài)下的出行場景共12種,如圖2。
圖2 假定異常狀態(tài)下的出行場景Fig. 2 Travel scenarios in assumed abnormal state
調(diào)查共獲得問卷1 667份,有效問卷1 336份。其中,男性和女性受訪者分別占47.53%和52.47%;年齡在21~40歲區(qū)間內(nèi)的受訪對象為研究的核心人群(比例為62.20%);從職業(yè)和月收入情況看,政府工作人員、企業(yè)上班族和學(xué)生共占88%,57%的受訪者月收入位于3 000~15 000元之間。
考慮到數(shù)據(jù)采集的精度,筆者針對一定樞紐范圍獲取樞紐間的通道客流量。共獲取2019年5月2日10的613位乘客信息,2019年5月19日的8 275位乘客信息。
通過處理部分手機(jī)數(shù)據(jù)得到強(qiáng)鏈接樞紐間的客流量,在此基礎(chǔ)上應(yīng)用2周的客流數(shù)據(jù)并采用正態(tài)性檢驗(yàn)方法進(jìn)行驗(yàn)證。表4中各通道的顯著性均大于0.05(95%置信度),表明各強(qiáng)鏈接樞紐間客流量服從正態(tài)分布假設(shè)。
表4 強(qiáng)鏈接樞紐間客流量的正態(tài)性檢驗(yàn)結(jié)果
應(yīng)用極大似然估計(jì)初步估算各樞紐通道客流先驗(yàn)分布參數(shù),利用貝葉斯方法求得后驗(yàn)信息,并不斷對先驗(yàn)信息進(jìn)行修正。在獲得分布參數(shù)之后,利用拉依達(dá)準(zhǔn)則(準(zhǔn)則)作為人數(shù)異常檢測的依據(jù)。最終得到2019年5月2日和2019年5月19日的樞紐間通道客流量及其安全閾值,如圖3。由圖3(a)可以看出,2019年5月2日,通道2、通道3的客流均超過了閾值上限,說明這兩個通道客流已經(jīng)達(dá)到異常聚集狀態(tài),應(yīng)設(shè)計(jì)疏散方案及時進(jìn)行客流疏散;通道1、通道5、通道6、通道8的客流接近安全閾值上限,應(yīng)急管理部門應(yīng)針對此通道提前設(shè)計(jì)預(yù)案,以防客流溢出。由圖3(b)可以看出,2019年5月19日,通道4、通道7的客流超出了安全閾值,達(dá)到異常聚集狀態(tài);通道6的客流超出閾值下限,說明在大風(fēng)影響下,可能部分采用航空出行的客流轉(zhuǎn)而采用高鐵出行,并導(dǎo)致通道7客流達(dá)到異常聚集的狀態(tài)。
圖3 各樞紐間通道客流量及安全閾值Fig. 3 Passenger flow and safety threshold of channels between hubs
為進(jìn)一步確定受影響的樞紐(群),基本思路是利用Apriori算法挖掘樞紐群的頻繁項(xiàng)集,應(yīng)用關(guān)聯(lián)規(guī)則挖掘正常和異常情況下關(guān)聯(lián)性高的樞紐群,結(jié)合發(fā)生異常情況的位置確定該異常狀態(tài)的影響范圍。
4.2.1 基于手機(jī)數(shù)據(jù)的樞紐關(guān)聯(lián)規(guī)則挖掘及影響范圍確定
設(shè)定最小條件支持度閾值為0.5%,最小置信度閾值為10%,得到基于手機(jī)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘結(jié)果如表5。
表5 基于手機(jī)數(shù)據(jù)的乘客出行經(jīng)由樞紐的關(guān)聯(lián)規(guī)則
分別計(jì)算每條規(guī)則在工作日、非工作日、節(jié)假日和突發(fā)大風(fēng)天氣時的提升度及其標(biāo)準(zhǔn)化值(圖4)、余弦相似度及其標(biāo)準(zhǔn)化值(圖5)。
圖4 各時段下基于手機(jī)數(shù)據(jù)挖掘的規(guī)則提升度標(biāo)準(zhǔn)化值Fig. 4 Standardized value of rule enhancement based on mobile data mining at different time periods
圖5 各時段下基于手機(jī)數(shù)據(jù)挖掘的規(guī)則余弦相似度標(biāo)準(zhǔn)化值Fig. 5 Standardized values of rule cosine similarity based on mobile data mining at different time periods
結(jié)合正常日和兩種異常狀態(tài)下的樞紐群關(guān)聯(lián)結(jié)果,同時分析相關(guān)的關(guān)聯(lián)規(guī)則興趣度指標(biāo),確定受不同影響情況的樞紐站點(diǎn)。得到兩種異常狀態(tài)下受影響的樞紐范圍如表6。
表6 異常狀態(tài)下的樞紐影響范圍
4.2.2 基于調(diào)查數(shù)據(jù)的樞紐關(guān)聯(lián)規(guī)則挖掘及影響范圍確定
3種假定異常情況下意向出行的2-頻繁項(xiàng)集分析結(jié)果如圖6,不同粗細(xì)的線條反映了樞紐之間關(guān)系的緊密程度。
圖6 強(qiáng)鏈接樞紐的2-頻繁項(xiàng)集Fig. 6 Frequent itemset of strongly linked hubs
由圖6可以看出,在Q1這一突發(fā)事件下,北京西站和石家莊站、保定東站和石家莊站、保定站和徐水站容易被出行者選擇;在Q2這一突發(fā)事件下,保定東站和石家莊站、北京西站和石家莊站、保定東站和北京西站、保定站和徐水站容易同時被出行者選擇;在Q3這一突發(fā)事件下,保定東站和石家莊站、北京西站和石家莊站、保定東站和北京西站容易被出行者選擇。在進(jìn)行相應(yīng)狀態(tài)下的通道客流異常識別時,可重點(diǎn)考慮這些強(qiáng)鏈接的鐵路樞紐間通道。
針對假定的3種異常情況,分別設(shè)定最小條件支持度閾值為13%、21%、15%,設(shè)定最小置信度閾值為80%,得到基于意向調(diào)查數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘結(jié)果,如表7。分別計(jì)算每條規(guī)則在不同異常情景下的提升度和余弦相似度,同時結(jié)合假定異常事故發(fā)生位置和樞紐關(guān)聯(lián)性挖掘結(jié)果,最終確定假定異常狀態(tài)下的樞紐影響范圍,如表8。
表7 基于意向調(diào)查數(shù)據(jù)的乘客出行經(jīng)由樞紐的關(guān)聯(lián)規(guī)則
表8 假定異常狀態(tài)下的樞紐影響范圍
4.2.3 結(jié)果分析
實(shí)際異常狀態(tài)下受影響的樞紐類型比較齊全,包括航空、鐵路和公路樞紐,說明基于手機(jī)數(shù)據(jù)獲取的實(shí)際出行數(shù)據(jù)能夠很好地反映多種類型樞紐間通道的客流分布情況。假定異常場景下受影響的樞紐均為鐵路站點(diǎn),其一方面與意向調(diào)查假定的場景有關(guān),假定的異常狀態(tài)均發(fā)生在鐵路站點(diǎn)或站間線路上;另一方面,在意向調(diào)查中,不同出行方案之間相互交叉的樞紐較少,僅能反映同一類型樞紐站點(diǎn)的關(guān)聯(lián)程度。因而在實(shí)際應(yīng)用過程中,利用相對客觀、較大樣本的手機(jī)數(shù)據(jù)能夠更好地反映樞紐組合的關(guān)聯(lián)性,進(jìn)而確定受影響的樞紐群。
筆者基于手機(jī)信令數(shù)據(jù)、意向出行調(diào)查及客票信息等多源數(shù)據(jù),提出了城市群樞紐間多模式交通系統(tǒng)客流異常狀態(tài)的確定及影響范圍識別方法,針對節(jié)假日和突發(fā)大風(fēng)天氣情況,分析和檢測了京津冀城市群內(nèi)部樞紐間客流的異常聚集通道;就異常檢測結(jié)果與假定情況,結(jié)合樞紐群關(guān)聯(lián)分析得到所研究異常狀態(tài)的樞紐影響范圍。在實(shí)際發(fā)生相同異常情況時,影響范圍分析結(jié)果能夠有助于進(jìn)行客流疏散方案決策和交通方式運(yùn)營調(diào)度。筆者在對異常情況下乘客相關(guān)出行信息進(jìn)行獲取時,由于手機(jī)數(shù)據(jù)時間范圍的限制,異常狀態(tài)類別較少,而利用多種異常時段下的手機(jī)數(shù)據(jù)能夠更真實(shí)地反映乘客選擇樞紐的關(guān)聯(lián)情況。