付 甜,劉曉鋒,陳 強
(天津職業(yè)技術師范大學 汽車與交通學院,天津 300222)
隨著城市地鐵線路的擴增,城市軌道交通路網的規(guī)模日益擴大,運營組織的形式也逐漸復雜,從而產生不安全事故可能性加大,其中地鐵站客流量的突增很容易引起擁堵,會產生安全隱患,因此地鐵運營部門需應用相關短時客流預測技術提前進行安全部署,進一步減少不安全事故發(fā)生。城市軌道交通客流預測方法有很多,如光志瑞[1]使用線性回歸模型對地鐵進出站客流進行了預測,具有較高的實際意義。王瑩[2]等使用時間序列模型對地鐵進站量進行了預測,預測精度進一步提高。李繼鵬[3]等使用灰色理論對地鐵客流進出站客流進行了預測,得到了較為準確的預測結果。但在某些方面還是有局限性,比如在處理大數據集的時候,速度會降低精度也不高等。因此,需要找到相關的技術和方法來使我們的客流預測精度提高速度也加快。在集成學習方法中比較典型的高準確率、高效率處理大數據的模型為樹模型,代表的模型為XGBoost[4](Extreme Gradient Boosting)和隨機森林[5](Random Forest,簡稱RF),XGBoost模型通過多弱學習器并行使用并將其結果集成起來作為最終預測結果從而提高精度和速度,所以常在各種算法大賽中看到。隨機森林模型對于大數據集的處理能力很強并且精度也高。
從預測對象范圍來看,Wei等[6]在早期的客流預測模型中把星期屬性作為影響因素進行軌道交通短期客流預測,提升了精度,但沒有考慮到了模型的通用性。后有李春曉等[7]將日期進行更加細化的劃分,通過實際應用可以得到,影響客流的因素有很多,如日期所在星期、節(jié)假日等屬性都有關系;除此以外,武創(chuàng)等[8]發(fā)現(xiàn),當出現(xiàn)極端天氣(如暴雪、暴雨等)時,乘坐地鐵的人數會降低,因此,天氣對乘客的出行也有較大的影響;李國強等[9]研究發(fā)現(xiàn),興趣點(Point of Interest,POI)數據也對車站客流量有較大影響,不同站點日客流量不等,之所以這樣是因為車站所處的位置,具有代表性的有些車站周圍是商業(yè)區(qū),有些車站卻處于郊區(qū)等。Jun等[10]研究發(fā)現(xiàn)首爾市軌道交通站點土地利用屬性對車站站點客流量有較大影響。國內外學者雖然在地鐵站點短期客流預測方面收獲頗多,但對客流影響因素的進一步挖掘從而會導致模型預測精度提高的研究相對較少。為此,在基于杭州地鐵2019年1月全站客流的歷史AFC刷卡數據,對城市軌道交通客流的波動特征及影響因素進行了分析,并綜合考慮日期屬性、POI屬性以及天氣屬性,將多特征輸入XGBoost模型當中;最后,以杭州地鐵客流為例,驗證模型的精度。結果表明,考慮多特征的XGBoost模型與單一XGBOOST模型相比具有更高的預測精度。
提取2019年1月1日-25日共四個星期的進站客流數據,以十分鐘為時間間隔觀察杭州地鐵每日全站進站客流,結果如圖1所示。圖中可以看出,城市軌道交通客流呈現(xiàn)出以星期為周期的顯著變化特征,其中day1對應曲線為元旦當天客流數據,由圖可以看出除去元旦當天的客流數據其他客流數據呈現(xiàn)以星期為周期的變化規(guī)律,客流基本相似。這一規(guī)律說明了地鐵人流量與節(jié)假日有很大的相關性。
圖1 單日進站客流量
提取杭州地鐵站點POI數據和2019年1月1日元旦當天AFC刷卡數據。觀察不同站點客流量并進行比較,不同站點人流量會有很大的差別,重要的樞紐站點人流量負載會很大;其中火車東站進站人流量高達201202人次。
市民對交通方式的選擇會受到天氣[11]的影響,比如大雪或大雨天氣,汽車或公交車司機行駛速度會降低,這會引起相應的道路交通擁堵、安全風險增高。但因為地鐵的運營受天氣影響較小,所以市民更愿意選擇地鐵作為出行交通工具。
XGBoost是一種boosting算法,XGBoost所應用的算法是梯度下降樹的改進,其核心思想是每迭代一次增加一棵樹,擬合上次預測的殘差,進而慢慢接近真實值。并根據每個樣本特征,計算每個節(jié)點對應的得分,其所有的得分之和即為該樣本的預測值。
在軌道交通客流預測問題上,XGBoost使用的是基本回歸樹模型,即
式中:為模型預測值,xi為第i個樣本的類別標簽,K為樹的總數,f噪表示第噪棵樹。
將XGBoost對這個樹進行模型學習的過程中的損失函數定為目標函數,當目標函數為最小時,此時模型為最優(yōu)模型,預測精度也最高,可表示為
式中:ob(jt)為目標函數值;l()為訓練誤差,一般為常數,用來衡量預測分數和真實分數的差距;Ω((ft))表示第K棵樹的復雜度,如式(3)所示。
其中T為該樹的葉子節(jié)點個數;γ為節(jié)點切分的難度,控制葉子節(jié)點分數,防止過擬合;ω為葉子的節(jié)點向量模;λ為正則化系數,也防止過擬合。
模型學習過程中,目標函數越小模型越優(yōu)。XGBoost利用“貪心法”對決策樹已有的葉子節(jié)點進行分割并獲取最大增益值,為判斷分裂的條件函數(式4),當條件函數大于0則進行切割,若條件函數小于0則不進行切割。其中中括號里第一項是進行切割后左節(jié)點產生增益,第二項是進行切割后右節(jié)點產生增益,第三項是切割前增益,XGBoost對樣本的遍歷轉化成了在葉子節(jié)點上的遍歷,特征的選擇和切割可以并行實現(xiàn)。
以杭州客流量為研究對象,取1月1日到25日和28日的歷史運行數據進行試驗,數據采集時間間隔為10 min。其中將前25天的數據作為訓練樣本,28日的客流數據作為測試樣本。根據軌道交通站點客流特征分析,選擇AFC數據、日期屬性、天氣屬性以及POI數據為輸入變量,28日客流數據為輸出變量,部分歷史運行數據見2.3。
影響城市軌道交通短期客流的特征包括:AFC刷卡數據、POI數據、天氣因素以及日期屬性,具體見表1。
表1 城市軌道交通客流影響因素指標體系
其中AFC刷卡數據含義見表2,并對AFC數據以10分鐘時間粒度進行匯總。其中日期屬性包括共5個因素,week為星期,星期一到星期日分別用1到7表示;weekend=周內用0表示,weekend=周末用1表示,1月1日為元旦節(jié)假日,屬于異常值,進行剔除。天氣屬性用城市的天氣特征(陰、晴、雨、雪以及溫度共5個屬性)來表征,其中temp取最高溫最低溫的平均值,晴天用0表示;多云用1表示;陰用2表示;小雨用3表示;中雨用4表示,部分天氣因素見表3。POI數據以站點周邊的用地屬性個數(如體育休閑服務、交通樞紐、公共設施、住宅區(qū)等18個屬性)來表征(表4),并將站點轉換為數字,如表4中stationID列數字。
表2 部分歷史客流數據含義
表3 部分天氣數據
表4 部分POI數據
為預測地鐵客流數據的變化情況,實驗使用的數據分別來自2019年天池比賽(杭州地鐵站的歷史刷卡數據)、百度天氣網站(杭州市歷史天氣數據)以及kaggle網站(POI數據),采集杭州地鐵全線2019年1月1日到25日多因素與進站客流數據作為訓練集,28日進站客流數據作為測試集,以10 min為間隔統(tǒng)計數據;其中地鐵的運營路線有3條、站點81個和數據約7000萬條作為訓練集。用考慮多因素的XGBoost模型對28日進站客流量進行預測,并用誤差評價指標MSE、R2、MAE對預測結果進行準確性驗證,最后與隨機森林模型進行比較研究,分析算法的適用性。
采用最常用的網格搜索,其核心思想是通過遍歷參數組合最終選取一個最優(yōu)組合,在利用構建的模型進行軌道站點短期客流預測時,需要根據具體模型考慮的具體因素對模型設置參數。
表5 模型主要參數設置
采用3.2中的參數建立相應的客流預測模型對28日的軌道交通站點的日進站點客流量進行預測,其預測結果如圖2、表6、表7和表8所示。
表6 單一XGBoost模型與單一隨機森林模型對比
表6的預測結果表明,模型1的預測效果優(yōu)于模型2,模型1的MAE相較于模型2降低11.03%。
表7的預測結果表明,模型8的預測效果最好,考慮多因素的隨機森林預測模型精度均高于單一隨機森林預測。其中模型8的MAE相較于模型2降低了17.63%。
表7 單一隨機森林(模型2)和多特征隨機森林模型對比
由表8和圖2的預測結果可知:從預測效果上來看,模型7的預測效果最好,考慮多因素的XGBOOST預測模型精度均高于單一XGBoost預測。其中模型7的MAE相較于模型1降低了26.64%。由此可以看出:XGBoost預測模型在不同情形下比隨機森林預測精度好,考慮多因素分析預測比單一因素預測精度要好。
表8 單一XGBoost模型1)和多特征的XGBoost模型對比
圖2 不同特征的XGBOOST模型客流預測結果對比
國內外學者們對軌道交通站點客流預測的相關研究取得了豐碩的成果,但涉及站點客流預測精準度的提高、站點客流影響因素的深入挖掘等方面的研究還相對較少?;诔鞘熊壍澜煌ㄕ军c客流預測研究進展提出的XGBoost模型,由于綜合考慮了日期、天氣因素、歷史客流數據以及土地利用屬性,其客流量的預測精度高于隨機森林模型,同時也體現(xiàn)出日期等對人員出行有很大影響,是預測客流量不可忽略的因素。在未來的研究中,可將社會經濟因素、城市人口數量、環(huán)境因素、交通接駁條件等多特征作為影響因素來處理提高站點客流數據預測精度,以此為研究軌道站點短期客流量的預測方法提供一種思路。