楊迎卯
(溫州市鐵路與軌道交通投資集團(tuán)有限公司運(yùn)營分公司,浙江 溫州 325000)
客流預(yù)測對城市軌道交通系統(tǒng)短期、中長期的經(jīng)營管理有著極大的幫助,是指導(dǎo)日常運(yùn)輸組織、優(yōu)化列車開行方案、優(yōu)化車站設(shè)施布局、制定客流引導(dǎo)策略及提高經(jīng)濟(jì)效益的重要前提。按照預(yù)測時(shí)間跨度,客流預(yù)測可分為長期、短期、短時(shí)客流預(yù)測。長期預(yù)測依據(jù)地域發(fā)展規(guī)劃及經(jīng)濟(jì)趨勢進(jìn)行,短期預(yù)測主要依據(jù)季節(jié)性特征,短時(shí)預(yù)測則根據(jù)早晚高峰、節(jié)假日、大客流活動、氣候驟變等客流時(shí)間進(jìn)行,本文主要研究短時(shí)客流預(yù)測。
基于線性理論,客流預(yù)測問題分為基于線性的統(tǒng)計(jì)預(yù)測、基于非線性的模型預(yù)測及統(tǒng)計(jì)學(xué)-非線性模型組合預(yù)測三類。基于線性近似的非線性預(yù)測模型,主要有時(shí)間序列法和卡爾曼濾波模型[1,2]。有研究表明,基于統(tǒng)計(jì)學(xué)數(shù)學(xué)方法已經(jīng)能夠解決大部分客流預(yù)測問題,而隨著預(yù)測周期變短、預(yù)測干擾增強(qiáng)等非線性特征的增強(qiáng),預(yù)測模型預(yù)測的穩(wěn)定性也會變差。常見的非線性模型有馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)模型等,這類方法具備多源數(shù)據(jù)特性,令預(yù)測模型更合理[3,4]。但人工客流疏導(dǎo)、班次修改、臨時(shí)關(guān)站等事件,會使模型的精度失控?;诮M合非線性模型并結(jié)合統(tǒng)計(jì)學(xué)數(shù)學(xué)方法分類的預(yù)測成為當(dāng)前研究的主流方向。
基于機(jī)器學(xué)習(xí)方法,客流預(yù)測可分為基于統(tǒng)計(jì)學(xué)理論的模型驅(qū)動、基于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)驅(qū)動和基于多模型的組合方法。模型驅(qū)動的客流預(yù)測方法使用統(tǒng)計(jì)學(xué)模型,通過分析客流數(shù)據(jù),構(gòu)建數(shù)據(jù)特征,形成有經(jīng)驗(yàn)的數(shù)據(jù)模型,其代表方法有時(shí)間序列、非參數(shù)回歸、聚類分析、貝葉斯估計(jì)等。其中,季節(jié)時(shí)間序列模型(SARIMA)的貝葉斯估計(jì)方法表現(xiàn)極佳。數(shù)據(jù)驅(qū)動的客流預(yù)測主要基于神經(jīng)網(wǎng)絡(luò)理論,神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元(神經(jīng)細(xì)胞)互相進(jìn)行權(quán)重連接,形成了多層網(wǎng)絡(luò)結(jié)構(gòu),使用有效歷史數(shù)據(jù)對模型中的神經(jīng)元連接權(quán)重進(jìn)行梯度下降訓(xùn)練方法獲得最終模型參數(shù)。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),結(jié)合模糊控制、多時(shí)間單元及長短時(shí)記憶網(wǎng)絡(luò)(LSTM)均適配,此類方法具備機(jī)器學(xué)習(xí)能力,同時(shí)避免了模型的過擬合。
近年來,機(jī)器學(xué)習(xí)方法在社會各領(lǐng)域都得到了充分的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型算法也成為客流預(yù)測的主流方向。針對時(shí)序性較強(qiáng)的預(yù)測問題,循環(huán)神經(jīng)網(wǎng)絡(luò)模型具有優(yōu)良的匹配性,在進(jìn)一步開發(fā)的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型方面表現(xiàn)更優(yōu)秀。本文主要內(nèi)容有:對多源數(shù)據(jù)的融合問題進(jìn)行特征構(gòu)造介紹,介紹采用聚類算法分析、處理歷史數(shù)據(jù)的方法,介紹長短時(shí)記憶網(wǎng)絡(luò)的預(yù)測模型及結(jié)合多源輸入的組合模型系統(tǒng)框架。
本文基于神經(jīng)網(wǎng)絡(luò)模型的客流預(yù)測算法架構(gòu)如圖1所示,其結(jié)合了多源數(shù)據(jù)特征予以歸納,聚類分析預(yù)處理,按分類結(jié)果建立多組長短時(shí)記憶網(wǎng)絡(luò)模型,并根據(jù)進(jìn)站、出站、區(qū)域及站內(nèi)客流的不同預(yù)測目標(biāo)分別進(jìn)行了特征構(gòu)造。
車站客流數(shù)據(jù)受到氣候、節(jié)假日、大型活動、列車編組班次、地域商區(qū)等各種因素的影響,利用豐富的信息源可以提高預(yù)測精度。通過AFC票卡(ACC清分)或智能視頻分析、獲取客流量,根據(jù)時(shí)間顆粒度大小對客流數(shù)據(jù)進(jìn)行轉(zhuǎn)儲,例如:
其一,客流量,時(shí)間戳,站名,出入口/區(qū)域編號。
其二,天氣晴/雨指標(biāo),節(jié)假日指標(biāo),大客流指標(biāo)。
其三,班次編號,編組車節(jié)數(shù),到站時(shí)間,上/下行標(biāo)志。
短時(shí)客流預(yù)測按預(yù)測對象可分為進(jìn)站、出站、站內(nèi)、斷面以及OD客流預(yù)測。對于不同預(yù)測對象使用同一套算法訓(xùn)練,同時(shí)并行訓(xùn)練多組模型的權(quán)重、偏置等模型參數(shù)。
地鐵客流具有明顯的時(shí)空特性,不同站點(diǎn)在不同的時(shí)間,會表現(xiàn)出極大的差別,同時(shí)也具有一定的分布規(guī)律。在一周時(shí)間內(nèi),客流在工作日和雙休日具有非常顯著的差別;在同一天,內(nèi)客流則具有明顯的“潮汐現(xiàn)象”,即早/晚高峰和進(jìn)/出站客流的關(guān)聯(lián)性。針對客流預(yù)測顯著的時(shí)序特征,使用K-Means聚類對歷史數(shù)據(jù)進(jìn)行分析,對客流預(yù)測的數(shù)據(jù)進(jìn)行預(yù)處理,可以極大地提高模型的精度。
對一周內(nèi)各天的數(shù)據(jù)進(jìn)行相關(guān)性分析,計(jì)算一周內(nèi)各天的歐氏距離,結(jié)果表明,雙休日和工作日之間的相關(guān)性較差,所以可以將日期劃分為周一、周二、周三、周四、周五和周六、周日這兩類。對每天細(xì)分時(shí)段的數(shù)據(jù)進(jìn)行相關(guān)分析,計(jì)算一天內(nèi)各時(shí)段的歐氏距離,可將一天內(nèi)的數(shù)據(jù)分為早/晚高峰和平常時(shí)段。
按照聚類分析,可將LSTM模型分為多組,分別用于聚類分類結(jié)果所劃分的各個(gè)時(shí)間段,降低模型非線性階次并避免過擬合,提升模型的訓(xùn)練效率和穩(wěn)定性。
人工神經(jīng)網(wǎng)絡(luò)模型,是一種模仿人腦神經(jīng)系統(tǒng)對各類信息進(jìn)行處理的行為特征,并形成可以分布式計(jì)算的信息處理模型。
依據(jù)神經(jīng)元觸發(fā)放電的原理,人工神經(jīng)網(wǎng)絡(luò)設(shè)置了激活函數(shù),使得具備處理強(qiáng)非線性問題的能力,神經(jīng)元結(jié)構(gòu)如圖2所示,其網(wǎng)絡(luò)結(jié)構(gòu)便是由多個(gè)神經(jīng)元交叉連接構(gòu)成的。選用合適的激活函數(shù)及網(wǎng)絡(luò)層數(shù)理論,可使其適用于所有模型。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是具有時(shí)序特性的神經(jīng)網(wǎng)絡(luò)模型。RNN在隱藏層建立了一個(gè)互相連接的權(quán)重矩陣,隱藏層中的信息將在時(shí)序過程中持續(xù)傳遞,可以將多個(gè)時(shí)序下輸入迭代更新的層間權(quán)重記錄下來。因此,RNN在客流預(yù)測中具有天然優(yōu)勢。RNN細(xì)胞結(jié)構(gòu)如圖3所示,x(t-1),x(t),x(t+1)分別表示前一時(shí)刻、當(dāng)前時(shí)刻、下一時(shí)刻的模型輸入,表示模型結(jié)構(gòu)的循環(huán)特性。其中W為層間,U為輸入,V為輸出權(quán)重矩陣。
圖中對于隱藏層的計(jì)算方式如式(1):
式(1)中:s(t)表示當(dāng)前輸出;s(t-1)表示前一時(shí)刻的輸出。
輸出層的計(jì)算方式如式(2):
RNN在實(shí)際應(yīng)用中,存在不同的計(jì)算形式,圖4為較常見的兩種情況。其中,“多對一”指利用多個(gè)時(shí)刻的數(shù)據(jù)預(yù)測模型預(yù)測下一時(shí)刻的數(shù)據(jù),而“多對多”則是指預(yù)測未來一段時(shí)間內(nèi)的整體數(shù)據(jù)。
當(dāng)輸入數(shù)量過大時(shí),RNN模型訓(xùn)練易導(dǎo)致算法的梯度爆炸。添加門控制并減少輸入數(shù)量,可以優(yōu)化處理此類問題。長短時(shí)記憶網(wǎng)絡(luò)(LSTM)即具有門控RNN網(wǎng)絡(luò),通過門控保留往期輸入的特征,從而降低模型的輸入長度,LSTM細(xì)胞結(jié)構(gòu)如圖5所示。
LSTM的算法流程與RNN相同,只在隱藏層增加三個(gè)門控單元:遺忘門f(t)、輸入門i(t)、輸出門o(t)。門控的計(jì)算公式為下式(3)、(4)、(5):
式(3)~(5)中:Uf、Ui、Uo為輸入信息權(quán)重;Wf、Wi、Wo為歷史信息權(quán)重;bf、bi、bo為偏置;δ為激活函數(shù)sigmoid()函數(shù)。
候選記憶如式(6):
細(xì)胞產(chǎn)生的新記憶s(t)、細(xì)胞的輸出h(t)以及網(wǎng)絡(luò)的輸出Z(t),計(jì)算方法分別為下式(7)、(8)、(9):
本文介紹了城市軌道交通客流預(yù)測的理論方法,通過對多輸入源的數(shù)據(jù)進(jìn)行融合處理,搭建LSTM模型的系統(tǒng)框架,實(shí)現(xiàn)多目標(biāo)的短時(shí)客流預(yù)測。使用神經(jīng)網(wǎng)絡(luò)將多源和時(shí)序的歷史數(shù)據(jù)結(jié)合建模,調(diào)整神經(jīng)網(wǎng)絡(luò)超參數(shù),對模型進(jìn)行訓(xùn)練并實(shí)現(xiàn)預(yù)測功能。首先,對多源輸入數(shù)據(jù)進(jìn)行了特征構(gòu)造,建立進(jìn)站、出站及在站客流的關(guān)聯(lián)度;其次,根據(jù)聚類搭建多組神經(jīng)網(wǎng)絡(luò)模型;最后,建立具有時(shí)序特征的神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建、處理多客流的預(yù)測系統(tǒng)。