許文星 章 玉
(重慶交通大學(xué)交通運(yùn)輸學(xué)院1) 重慶 400074) (中鐵長(zhǎng)江交通設(shè)計(jì)集團(tuán)有限公司2) 重慶 401147)
客流量是軌道運(yùn)營(yíng)單位開(kāi)展運(yùn)力配置、列車(chē)運(yùn)營(yíng)計(jì)劃編制和站點(diǎn)工作人員配備的基礎(chǔ),是對(duì)未來(lái)城市軌道交通開(kāi)展可行性評(píng)估的重要依據(jù)[1].準(zhǔn)確的客流量預(yù)測(cè)有助于軌道交通運(yùn)營(yíng)部門(mén)制定合理的列車(chē)行車(chē)計(jì)劃,保障市民的出行需求,尤其是在重大節(jié)假日和重要活動(dòng)舉行期間,提前對(duì)站點(diǎn)客流進(jìn)行預(yù)測(cè),有助于確保軌道交通運(yùn)行順暢.
國(guó)內(nèi)外學(xué)者對(duì)軌道交通客流預(yù)測(cè)方法研究較為深入,多種理論和算法如灰色理論、Kalman模型、小波理論、深度學(xué)習(xí)、時(shí)間序列、遺傳算法,以及組合模型等被用于軌道客流預(yù)測(cè)研究中.Zhang等[2]提出了一種基于支持向量回歸的混合預(yù)測(cè)模型,該模型利用隨機(jī)森林選擇信息量最大的特征子集,并利用混沌特性的遺傳算法來(lái)識(shí)別最優(yōu)預(yù)測(cè)模型參數(shù),以此來(lái)提高短時(shí)交通流預(yù)測(cè)的準(zhǔn)確性.Liu等[3]將深度學(xué)習(xí)的建模技巧和交通領(lǐng)域的相關(guān)知識(shí)應(yīng)用到地鐵乘客流量的預(yù)測(cè)中,提出了深度客流(DeepPF)預(yù)測(cè)模型,該模型預(yù)測(cè)精度較高且能適應(yīng)交通運(yùn)輸中的多種條件.Liu等[4]針對(duì)假期軌道客流特性,提出了最小二乘支持向量機(jī)(LSSVM)預(yù)測(cè)模型,并用改進(jìn)的粒子群優(yōu)化(IPSO)算法來(lái)優(yōu)化參數(shù),用假期間的軌道客流數(shù)據(jù)對(duì)其有效性進(jìn)行了驗(yàn)證.Chen等[5]構(gòu)建了基于經(jīng)驗(yàn)?zāi)J椒纸?EMD)和長(zhǎng)期短期記憶(LSTM)的EMD-LSTM混合預(yù)測(cè)模型,并用于軌道站點(diǎn)進(jìn)站客流預(yù)測(cè).秦利南等[6]在自回歸滑動(dòng)平均算法(ARMA)算法和神經(jīng)網(wǎng)絡(luò)(RBF)神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上,提出了ARMA-RBF組合算法,此算法可對(duì)由時(shí)間序列構(gòu)成客流數(shù)據(jù)集進(jìn)行變點(diǎn)處理,再利用小波變化對(duì)變點(diǎn)數(shù)據(jù)集去噪,以此來(lái)提高站點(diǎn)進(jìn)站客流預(yù)測(cè)的精度.楊靜等[7]針對(duì)軌道交通客流存在非線性分布的特征,提出了包含小波變化和變點(diǎn)模型的小波ARMA組合模型,結(jié)果表明其計(jì)算速度和結(jié)果都優(yōu)于單一同類(lèi)型預(yù)測(cè)模型.李兆豐等[8]以長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),建立多特征融合組合的客流預(yù)測(cè)模型,在客流預(yù)測(cè)時(shí)考慮時(shí)間特征、空間特征和其他因子等因素,其預(yù)測(cè)精度優(yōu)于ARIMA模型和LSTM模型.李麗輝等[9]構(gòu)建了基于隨機(jī)森林回歸算法的短期客流預(yù)測(cè)模擬,研究影響高速鐵路客流生成的因素及其重要程度.
目前國(guó)內(nèi)外學(xué)者在研究軌道交通短期客流量預(yù)測(cè)方法時(shí),多將深度學(xué)習(xí)方法和計(jì)算機(jī)語(yǔ)言結(jié)合來(lái)建立恰當(dāng)?shù)亩唐诳土髁款A(yù)測(cè)方法,其中線性理論、非線性理論和組合理論是研究軌道交通短期客流量預(yù)測(cè)的常見(jiàn)理論方法[10],此類(lèi)方法利用大量歷史客流出行數(shù)據(jù)對(duì)提出的預(yù)測(cè)模型進(jìn)行訓(xùn)練,從而得出客流量生成規(guī)律,以此來(lái)預(yù)測(cè)軌道交通短期客流量,但未考慮站點(diǎn)自身屬性和其他客觀因素.隨機(jī)森林算法是Breiman在基于優(yōu)化決策樹(shù)和組合機(jī)器學(xué)習(xí)而提出的一種機(jī)器學(xué)習(xí)算法,這種算法主要用于解決分類(lèi)問(wèn)題和回歸問(wèn)題.在分析影響軌道站點(diǎn)客流生成因素的基礎(chǔ)上,文中提出了一種基于隨機(jī)森林回歸算法的軌道站點(diǎn)短期客流預(yù)測(cè)模型,并用重慶軌道交通3號(hào)線客流AFC刷卡數(shù)據(jù)對(duì)該模型的預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證.
不同類(lèi)型的軌道交通站點(diǎn)周?chē)玫匦再|(zhì)存在差異,用地性質(zhì)對(duì)其影響主要包括使用模式或建筑環(huán)境、交通可達(dá)性、區(qū)域經(jīng)濟(jì)發(fā)展現(xiàn)狀、周邊人口密度等因素,由此產(chǎn)生的客流在時(shí)間和空間上存在分布不均,站點(diǎn)客流潮汐現(xiàn)象較為明顯.根據(jù)重慶軌道交通3號(hào)線AFC刷卡數(shù)據(jù)統(tǒng)計(jì)分析,不同的軌道交通站點(diǎn)特征屬性不同,站點(diǎn)客流量也存在明顯的差異,大部分站點(diǎn)的進(jìn)出站客流量呈現(xiàn)波動(dòng)變化,客流量高峰和潮汐現(xiàn)象明顯,軌道站點(diǎn)周?chē)挠玫匦再|(zhì)對(duì)客流出行影響較大.
選取四種類(lèi)型的軌道交通站點(diǎn)在某1個(gè)月內(nèi)站客流量變化規(guī)律見(jiàn)圖1.因站點(diǎn)周?chē)玫匦再|(zhì)和站點(diǎn)功能不同,導(dǎo)致站點(diǎn)客流量變化差異性較大.對(duì)于臨近商業(yè)用地的軌道交通站點(diǎn)客流量變化較大,且非工作日的客流量大于工作日的客流量;臨近辦公和居住用地及為換乘站點(diǎn)的軌道交通站點(diǎn)客流量變化較小,但臨近居住用地的軌道交通站點(diǎn)工作日客流量略大于非工作日客流量;該月最后1 d臨近節(jié)假日,所有類(lèi)型站點(diǎn)的客流量都明顯增加,因此節(jié)假日因素對(duì)進(jìn)出站點(diǎn)的客流量影響較大.
圖1 軌道站點(diǎn)客流量
選取四種類(lèi)型的軌道交通站點(diǎn)在1 d內(nèi)小時(shí)客流量變化見(jiàn)圖2.不同軌道交通站點(diǎn)工作日客流量早高峰主要集中在08:00—09:00,晚高峰主要集中在18:00—19:00,非工作日客流量早高峰主要集中在09:00—10:00,晚高峰主要集中在19:00—20:00,高峰時(shí)段期間的站點(diǎn)客流量較其他時(shí)段增加明顯,其他時(shí)段期間站點(diǎn)客流量變化平穩(wěn),但商業(yè)用地附近的站點(diǎn)受周邊商業(yè)影響,站點(diǎn)整體客流量較大,居住用地附近的站點(diǎn)客流量高峰現(xiàn)象最明顯,換乘站點(diǎn)的客流量變化最?。?/p>
圖2 軌道站點(diǎn)小時(shí)客流量
選取四種類(lèi)型的軌道交通站點(diǎn)在某1周內(nèi)站點(diǎn)客流量潮汐現(xiàn)象變化見(jiàn)圖3.對(duì)于站點(diǎn)附近用地性質(zhì)為居住用地的軌道交通站點(diǎn),在早高峰時(shí)期進(jìn)站客流遠(yuǎn)大于出站客流,因此其早高峰潮汐比較大,而換乘站點(diǎn)和商業(yè)用地附近的站點(diǎn)潮汐比變化最小,居住和辦公用地附近的站點(diǎn)早晚高峰的潮汐現(xiàn)象比較明顯,且四類(lèi)站點(diǎn)的第五個(gè)工作日潮汐變化最明顯.
圖3 軌道站點(diǎn)潮汐性
根據(jù)統(tǒng)計(jì)學(xué)原理建立一個(gè)總體樣本容量為N的軌道站點(diǎn)進(jìn)出站客流量集,通過(guò)有放回地隨機(jī)抽取n個(gè)樣本作為預(yù)測(cè)模型的訓(xùn)練集P(X,Y).其中:X={x1,x2,…,xn}作為模型訓(xùn)練過(guò)程中的樣本集,xi(i≤n)是樣本集中的第i個(gè)樣本;Y={y1,y2,…,yp}是影響客流預(yù)測(cè)的標(biāo)準(zhǔn)化值,每一個(gè)樣本均對(duì)應(yīng)一組標(biāo)準(zhǔn)化值,yj∈{α1,α2, …,αz}是第j個(gè)樣本的標(biāo)準(zhǔn)化值;剩余未被抽中的數(shù)據(jù)則作為樣本測(cè)試集(X*,Y*),它們?cè)诮y(tǒng)計(jì)學(xué)上被稱(chēng)為袋外數(shù)據(jù)(OOB).
在建立單棵回歸決策樹(shù)時(shí),由于每棵決策樹(shù)都有自己的特征值且相互獨(dú)立無(wú)約束,故在分枝節(jié)點(diǎn)處的所有特征值中隨機(jī)抽取特征值作為分枝的依據(jù).為提升預(yù)測(cè)速度和準(zhǔn)確性,決策樹(shù)在分枝時(shí)是根據(jù)最小信息化原則,依據(jù)各個(gè)子節(jié)點(diǎn)的基尼不純度平均減小值來(lái)確定最優(yōu)分類(lèi)特征,并進(jìn)行下一個(gè)子節(jié)點(diǎn)的分枝過(guò)程,形成沒(méi)有約束的回歸樹(shù)模型.假設(shè)單棵回歸樹(shù)生長(zhǎng)有M個(gè)節(jié)點(diǎn),則單棵回歸樹(shù)的基尼指數(shù)為
(1)
式中:(Xi,Yj)為第i個(gè)樣本對(duì)應(yīng)的第j個(gè)特征值(i=1,2,…,n;j=1,2,…,O);m為單棵樹(shù)的節(jié)點(diǎn)序號(hào)(m=1,2,…,M).
當(dāng)?shù)趍個(gè)節(jié)點(diǎn)分枝成兩個(gè)節(jié)點(diǎn)后,兩個(gè)節(jié)點(diǎn)處的基尼指數(shù)將趨向最小化,并將該特征值對(duì)應(yīng)的基尼指數(shù)作為m節(jié)點(diǎn)處的確切基尼指數(shù):
|Gini(m),v|=min{Gini(s)|s∈m}
(2)
式中:v為節(jié)點(diǎn)m的分枝層數(shù).
為提升運(yùn)算效率,需要對(duì)決策樹(shù)的大小進(jìn)行控制,控制的方式主要有2種:①停止分裂;②對(duì)決策樹(shù)進(jìn)行剪枝.
需要在基于建立好的單棵決策樹(shù)基礎(chǔ)上進(jìn)一步建立整個(gè)隨機(jī)森林決策樹(shù).①將抽取的n個(gè)樣本集建立的單棵決策樹(shù)作為訓(xùn)練集進(jìn)行循環(huán)深度學(xué)習(xí)訓(xùn)練,袋外數(shù)據(jù)作為最終建立的預(yù)測(cè)模型的預(yù)測(cè)集;②從含有n個(gè)樣本集的迭代集中選取t(t≤n)個(gè)需要進(jìn)行分枝的樣本作為備選分枝樣本,再按照構(gòu)建單棵樹(shù)的方法尋找每棵樹(shù)的最優(yōu)分枝點(diǎn)并進(jìn)行分枝;③每棵決策樹(shù)在分枝時(shí)都是自上而下和逐層分枝的,隨機(jī)森林法可以根據(jù)分枝后節(jié)點(diǎn)的大小而控制決策樹(shù)的生長(zhǎng),可以人為的控制決策樹(shù)的分枝次數(shù),也可有限制地讓決策樹(shù)自由生長(zhǎng)再尋求最優(yōu)單棵決策樹(shù);④經(jīng)過(guò)多次循環(huán)學(xué)習(xí)訓(xùn)練得到t棵最優(yōu)決策樹(shù),再生成整體誤差最小的隨機(jī)森林模型B={h(Q,θt)|t=1,2,…,n}.其中:θt為第t棵回歸樹(shù);Q為影響客流量生成的因素對(duì)應(yīng)的特征值集合;h(Q,θt)為第t棵回歸樹(shù)的預(yù)測(cè)值.由于生成的隨機(jī)森林是多元非線性回歸分析模型,因此隨機(jī)森林預(yù)測(cè)值是t棵回歸決策樹(shù)預(yù)測(cè)值的平均值.
用構(gòu)建的隨機(jī)森林模型進(jìn)行預(yù)測(cè)后,需要建立恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)來(lái)驗(yàn)證模型的準(zhǔn)確性.在模型驗(yàn)證時(shí),可以用均方根誤差(RMSE)來(lái)驗(yàn)證最終預(yù)測(cè)結(jié)果和預(yù)測(cè)集中原始數(shù)據(jù)的誤差大小,值越低則誤差越小;可用取值范圍為0~1的擬合優(yōu)度(R2)來(lái)驗(yàn)證預(yù)測(cè)結(jié)果的擬合程度,值越高則表明最終預(yù)測(cè)結(jié)果和預(yù)測(cè)集擬合程度越好;平均相對(duì)誤差(MRE)則反映了最終預(yù)測(cè)結(jié)果和原始數(shù)據(jù)偏離的大小,計(jì)算值越低模型的預(yù)測(cè)準(zhǔn)確性越高.三個(gè)評(píng)價(jià)指標(biāo)RMSE、R2、MRE的表達(dá)公式為
(3)
(4)
(5)
選取重慶軌道3號(hào)線中的4類(lèi)站點(diǎn)為研究對(duì)象,站點(diǎn)0附近的用地性質(zhì)為居住用地,站點(diǎn)1附近的用地性質(zhì)為辦公和教育用地,站點(diǎn)2為換乘站點(diǎn)并與交通樞紐站相連,站點(diǎn)3附近的用地性質(zhì)為商業(yè)用地.從軌道交通AFC刷卡數(shù)據(jù)中提取2017年4月1日—2018年12月27日四個(gè)站點(diǎn)每日的進(jìn)出站點(diǎn)客流量作為實(shí)驗(yàn)樣本數(shù)據(jù),用構(gòu)建的隨機(jī)森林回歸算法模型對(duì)四個(gè)站點(diǎn)的進(jìn)出站客流量進(jìn)行預(yù)測(cè),并用誤差評(píng)價(jià)指標(biāo)RMSE、R2、MRE對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性進(jìn)行驗(yàn)證.
在利用構(gòu)建的模型進(jìn)行軌道站點(diǎn)短期客流預(yù)測(cè)時(shí),需要根據(jù)模型適用條件和外界因素對(duì)模型設(shè)置參數(shù),見(jiàn)表1.為提升模型的準(zhǔn)確性和運(yùn)行速度,將前626組數(shù)據(jù)集作為訓(xùn)練集,后10組數(shù)據(jù)集作為測(cè)試集,每組數(shù)據(jù)集中都包含影響客流生成的七個(gè)影響因素,并將影響因素進(jìn)行標(biāo)準(zhǔn)化;隨機(jī)森林棵數(shù)設(shè)置為100,因每個(gè)站點(diǎn)的屬性不同,所以每個(gè)站點(diǎn)對(duì)應(yīng)的隨機(jī)森林樹(shù)分枝層數(shù)不同,為提升預(yù)測(cè)準(zhǔn)確度,隨機(jī)森林樹(shù)的最終分枝層數(shù)由預(yù)測(cè)誤差最小時(shí)對(duì)應(yīng)的分枝層數(shù)確定.
表1 特征值標(biāo)準(zhǔn)化處理對(duì)照表
用建立好的隨機(jī)森林回歸算法模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,對(duì)四個(gè)軌道交通站點(diǎn)的日進(jìn)出站點(diǎn)客流量進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果和分析誤差見(jiàn)圖4和表2.
圖4 進(jìn)出軌道站點(diǎn)客流量預(yù)測(cè)值
表2 誤差分析表
由圖4可知:進(jìn)出站點(diǎn)客流量預(yù)測(cè)值和實(shí)際客流量值相差較小,但12月24—25日2 d的客流量預(yù)測(cè)值和客流量實(shí)際值相差略大,主要受交通管理部門(mén)對(duì)某些軌道交通站點(diǎn)進(jìn)行管控的影響,此客流變化規(guī)律也可為應(yīng)對(duì)站點(diǎn)發(fā)生大客流時(shí)提供參考;由表2可知:在進(jìn)站客流量預(yù)測(cè)中,站點(diǎn)1的擬合程度略低,主要受學(xué)生出行的影響,在出站客流量預(yù)測(cè)中,站點(diǎn)3的擬合程度略低,主要受附近商業(yè)吸引的出行人數(shù)和交通管控的影響,因此在非工作日期間應(yīng)對(duì)此類(lèi)站點(diǎn)做好引導(dǎo)工作,避免出現(xiàn)客流長(zhǎng)時(shí)間擁擠現(xiàn)象;進(jìn)出站的平均相對(duì)誤差分別為3.91%和2.73%.從整個(gè)預(yù)測(cè)結(jié)果和誤差分析而言,該模型的預(yù)測(cè)準(zhǔn)確性較高,可用于軌道站點(diǎn)短期客流量預(yù)測(cè).
分析影響站點(diǎn)客流生成的因素,將隨機(jī)森林理論應(yīng)用于軌道交通站點(diǎn)短期客流量預(yù)測(cè)方法研究中,構(gòu)建出基于隨機(jī)森林回歸算法的軌道站點(diǎn)短期客流預(yù)測(cè)模型,并通過(guò)相關(guān)數(shù)據(jù)驗(yàn)證.結(jié)果表明:模型用于預(yù)測(cè)軌道交通站點(diǎn)的短期進(jìn)出站客流量準(zhǔn)確性較高.后續(xù)研究將在確保該模型應(yīng)用過(guò)程中準(zhǔn)確性的基礎(chǔ)上確定隨機(jī)森林決策樹(shù)的數(shù)量展開(kāi).