国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹模型的地鐵線網(wǎng)短時(shí)OD客流預(yù)測

2023-05-30 06:46:19張恒秦振華肖為周張明嬌
河北工業(yè)科技 2023年2期

張恒 秦振華 肖為周 張明嬌

摘 要:為了準(zhǔn)確獲取地鐵線網(wǎng)短時(shí)OD(起訖點(diǎn))的客流分布,從而高效協(xié)調(diào)運(yùn)輸能力和客運(yùn)需求,結(jié)合集成學(xué)習(xí)思想構(gòu)建了基于決策樹模型的多時(shí)間粒度下地鐵線網(wǎng)短時(shí)OD客流預(yù)測模型。首先利用地鐵自動售檢票數(shù)據(jù)分析得到線網(wǎng)OD客流出行的時(shí)空分布特征,引入多種時(shí)空影響因素對全網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測,其次分析了地鐵線網(wǎng)OD客流量預(yù)測精度與時(shí)間粒度之間的關(guān)系,最后以蘇州市地鐵為對象進(jìn)行實(shí)例分析。結(jié)果表明:相對于其他模型,研究模型不僅可以有效降低預(yù)測誤差和擬合客流峰值,而且運(yùn)算時(shí)間也節(jié)約了數(shù)倍,提高了地鐵線網(wǎng)短時(shí)OD客流預(yù)測的準(zhǔn)確性和效率。因此,所設(shè)計(jì)的模型可為地鐵運(yùn)營與控制系統(tǒng)提供重要數(shù)據(jù),有助于運(yùn)營者進(jìn)行限流措施、行車計(jì)劃等的制定與調(diào)整。

關(guān)鍵詞:鐵路運(yùn)輸管理;短時(shí)OD;客流預(yù)測;決策樹模型;多時(shí)間粒度

中圖分類號:U293.13

文獻(xiàn)標(biāo)識碼:A

DOI: 10.7535/hbgykj.2023yx02010

Short-time OD passenger flow prediction of subway line network based on decision tree model

ZHANG Heng1,QIN Zhenhua2,XIAO Weizhou1,ZHANG Mingjiao1

(1.School of Rail Transportation, Soochow University, Suzhou, Jiangsu 215000,China; 2.Suzhou Rail Transit Group Company Limited, Suzhou, Jiangsu 215000, China)

Abstract:In order to accurately obtain the short-time OD (origin-destination) passenger flow distribution of the subway line network, so as to efficiently coordinate the transportation capacity and passenger demand, a multi-time granularity short-time OD passenger flow prediction model of subway line network based on the decision tree model was constructed combined with the ensemble learning idea. Firstly, the spatial and temporal distribution characteristics of OD passenger flow on the line network were obtained by using the automatic ticketing data analysis, and various spatial and temporal influencing factors were introduced to train and predict the whole network data. Secondly, the relationship between the prediction accuracy and temporal granularity of OD passenger flow on the metro line network was analyzed. Finally, Suzhou Metro was taken as an example to carry out the case analysis. The results show that, compared with other models, the model can not only effectively reduce the prediction error and fit the peak passenger flow, but also save several times of computing time, which improves the accuracy and efficiency of the short-time OD passenger flow prediction of the subway line network. The designed model can provide important data input for the metro operation and control system, and help operators to formulate traffic restriction measures, travel plans and other strategies.

Keywords:railroad transportation management; short-time OD; passenger flow prediction; decision tree model; multiple time granularity

隨著地鐵網(wǎng)絡(luò)化運(yùn)營特征的日漸凸顯,乘客路徑選擇的多樣化使線網(wǎng)客流分布呈現(xiàn)出隨機(jī)、復(fù)雜等特點(diǎn),在這樣的趨勢下預(yù)測客流需求愈發(fā)困難。短時(shí)OD是指在某一較短時(shí)間粒度下,所有乘客由起點(diǎn)O到訖點(diǎn)D的出行過程,它反映了線網(wǎng)客流需求的時(shí)空分布。OD預(yù)測無法像進(jìn)出站量預(yù)測一樣直接對客流采用時(shí)間序列法預(yù)測,因?yàn)槌丝偷某稣拘畔⑿枰?jīng)過一段時(shí)間才能獲取到1,所以O(shè)D客流不僅在時(shí)間上具有相關(guān)性,而且還具有空間相關(guān)性2。精準(zhǔn)預(yù)測地鐵線網(wǎng)短時(shí)OD客流量可以使運(yùn)營者提前掌握客流分布動向,并根據(jù)短時(shí)OD客流預(yù)測結(jié)果對運(yùn)營調(diào)度進(jìn)行優(yōu)化。

目前,短時(shí)OD客流預(yù)測領(lǐng)域比較成熟的理論主要分為2類。一類是基于統(tǒng)計(jì)學(xué)理論的方法,如歷史平均模型3、時(shí)間序列模型[4、卡爾曼濾波模型、K近鄰算法(K-NN)等。劉洋等5提出了一種基于約束條件的卡爾曼濾波模型對地鐵線網(wǎng)OD進(jìn)行預(yù)測,獲得了較好的總體估計(jì)效果和分時(shí)段估計(jì)效果。HABTEMICHAEL等6通過K-NN識別客流相似序列,證明了增強(qiáng)型K-NN比卡爾曼濾波模型、普通的K-NN模型預(yù)測效果更好?;诮y(tǒng)計(jì)學(xué)理論的方法僅注重客流時(shí)間序列的變化,難以考慮除目標(biāo)變量以外的時(shí)空特征,并且在處理具有高維非線性特征的數(shù)據(jù)時(shí)適用性不強(qiáng)。另一類是基于機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)模型7、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型、深度學(xué)習(xí)模型及集成學(xué)習(xí)模型等。TSAI等8建立了基于時(shí)間特征的多時(shí)間單位神經(jīng)網(wǎng)絡(luò)和并行集成神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)表明這2種模型的短時(shí)客流預(yù)測性能優(yōu)于傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò)模型。TIAN等9建立了長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory, LSTM)模型對工作日的客流進(jìn)行短時(shí)預(yù)測,并與支持向量機(jī)單隱藏層前饋神經(jīng)網(wǎng)絡(luò)等模型比較,證明所提出的預(yù)測模型具有更高的準(zhǔn)確率和泛化能力。CHEN等10的研究成果表明,極度梯度提升樹(extreme gradient boosting, XGBoost)模型在客流預(yù)測性能以及運(yùn)算效率上都要優(yōu)于隨機(jī)森林。上述機(jī)器學(xué)習(xí)模型僅針對單一客流特征進(jìn)行了建模,而現(xiàn)實(shí)中OD客流分布受多種時(shí)空特征因素影響。

綜上所述,準(zhǔn)確預(yù)測短時(shí)OD客流需求需要在探討時(shí)間維度上OD客流變化規(guī)律的同時(shí),挖掘空間維度上與OD客流存在關(guān)聯(lián)性的影響因素。目前既有研究多是選用一種時(shí)間粒度進(jìn)行預(yù)測,但單一時(shí)間粒度的OD客流變化規(guī)律缺乏對比性,不同時(shí)間粒度下統(tǒng)計(jì)的OD客流的規(guī)律性和穩(wěn)定性存在明顯差異11。因此,在總結(jié)既有短時(shí)OD客流預(yù)測方法的基礎(chǔ)上,本文利用地鐵自動售檢票(automatic fare collection, AFC)系統(tǒng)刷卡數(shù)據(jù),在多時(shí)間粒度場景下,建立基于決策樹的LightGBM(light gradient boosting machine)線網(wǎng)短時(shí)OD客流預(yù)測模型,并考慮OD對類型、天氣及空氣質(zhì)量因素、短時(shí)進(jìn)出站客流量因素、工作日與非工作日因素等時(shí)空特征對OD客流需求的影響,與多種模型在預(yù)測精度、運(yùn)算效率等方面進(jìn)行對比,以驗(yàn)證LightGBM模型在線網(wǎng)短時(shí)OD客流預(yù)測方面的優(yōu)越性。

1 問題描述

對于客流預(yù)測這類回歸問題來說,數(shù)據(jù)和特征決定了預(yù)測本身的上限,而模型只是逼近這個上限。先驗(yàn)數(shù)據(jù)時(shí)間粒度的選取決定了短時(shí)客流預(yù)測的輸入12,直接影響到預(yù)測結(jié)果精度。以線網(wǎng)中任一OD為例,分析其一周內(nèi)不同時(shí)間粒度Δt下的客流趨勢,如圖1所示,不同時(shí)間粒度的OD客流數(shù)據(jù)規(guī)模和趨勢存在較大差異,時(shí)間粒度越大,一個時(shí)段內(nèi)統(tǒng)計(jì)的OD客流量越多,一周內(nèi)的時(shí)段數(shù)也越少。

AFC是實(shí)現(xiàn)地鐵售檢票、計(jì)費(fèi)、統(tǒng)計(jì)等過程的自動化系統(tǒng),可詳細(xì)記錄每一乘客的出行信息,但原始數(shù)據(jù)記錄的是每個乘客的進(jìn)出站時(shí)刻,無法直接獲取到不同時(shí)段內(nèi)的線網(wǎng)OD信息13。因此將處于5:00~24:00運(yùn)營時(shí)段的1 140 min劃分為各時(shí)間粒度的時(shí)段,將所有乘客的進(jìn)出站時(shí)刻分別與時(shí)段匹配并對OD客流進(jìn)行集計(jì),得到不同時(shí)間粒度下的線網(wǎng)OD客流。短時(shí)OD預(yù)測時(shí)間粒度一般不小于15 min且不大于60 min,其中15 min客流和60 min客流通常用于超高峰小時(shí)和高峰小時(shí)的客流預(yù)測與評價(jià),在地鐵運(yùn)營中具有重要實(shí)用價(jià)值。同時(shí),由圖1可知,訓(xùn)練數(shù)據(jù)規(guī)模隨時(shí)間粒度的成倍擴(kuò)大而成倍減少,為探究預(yù)測精度隨時(shí)間粒度的變化情況,將30 min時(shí)間粒度也納入后續(xù)預(yù)測模型之中。綜上,本文選取預(yù)測的時(shí)間粒度Δt為15,30以及60 min,則每天對應(yīng)的時(shí)段個數(shù)為76,38,19(1 140/Δt)。定義輸入數(shù)據(jù)的時(shí)段總數(shù)為T,地鐵線網(wǎng)站點(diǎn)個數(shù)為N,用yi(t)(i=1,2,…,N2;t=1,2,…,T)表示第t個時(shí)段內(nèi)由車站o前往車站d的OD客流量,N2為線網(wǎng)OD數(shù)目,xi(t)=(xi1,xi2,…,xin)表示該時(shí)段對應(yīng)的影響因素特征值,n為影響因素個數(shù),則引入客流影響因素的線網(wǎng)OD客流時(shí)間序列可表示為qo,d(t)=[xi(t),yi(t)]。綜上,客流預(yù)測問題定義為對于線網(wǎng)所有OD,已知前k個時(shí)段的OD客流量yi(t)(t=1,2,…,k),結(jié)合xi(t)中影響因素的特征值,預(yù)測后續(xù)l個時(shí)段的客流量yi(t)(t=k+1,k+2,…,k+l)。

2 模型構(gòu)建

對于具有復(fù)雜規(guī)律的線網(wǎng)OD客流數(shù)據(jù),不同OD之間具有的客流趨勢往往存在較大差異,訓(xùn)練一個可以從多角度識別客流規(guī)律并作出精確預(yù)測的單一模型是極為困難的。集成學(xué)習(xí)是通過構(gòu)建一系列模型,再使用某種結(jié)合策略將各模型的學(xué)習(xí)結(jié)果整合在一起,以獲得比單一模型泛化性、準(zhǔn)確性更好的模型。它可以有效利用各子模型的預(yù)測信息,擇優(yōu)互補(bǔ),彌補(bǔ)了單一模型在預(yù)測時(shí)難以學(xué)習(xí)隨機(jī)性較強(qiáng)的不均衡數(shù)據(jù)的弊端,從而提升預(yù)測性能。此外,OD客流高峰時(shí)段往往比平峰時(shí)段高出數(shù)倍,因此,需要預(yù)測模型具有良好的泛化能力,以避免峰值客流對整體預(yù)測結(jié)果的擬合造成過大影響。LightGBM是一種基于集成學(xué)習(xí)的決策樹模型,是為了解決梯度提升決策樹(gradient boosting decision tree, GBDT)在面對海量數(shù)據(jù)時(shí)耗時(shí)過多的問題而提出的。其集成方式旨在降低預(yù)測偏差,能夠基于泛化性能較弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成14-15,因而可以較好地?cái)M合OD峰值客流。相對GBDT需要遍歷一層所有葉子節(jié)點(diǎn)進(jìn)行分裂的按層生長(level-wise)策略(如圖2所示),LightGBM采用了更為高效的按葉子生長(leaf-wise)策略(如圖3所示)。該策略無需考慮同層的其他節(jié)點(diǎn),每次從當(dāng)前所有葉子中找到分裂增益最大的一個葉子進(jìn)行分裂,可有效加快訓(xùn)練速度。同時(shí),LightGBM使用單邊梯度采樣 (gradient-based one-side sampling, GOSS)和互斥特征綁定(exclusive feature bundling,EFB)兩大優(yōu)化方式實(shí)現(xiàn)訓(xùn)練過程中對樣本數(shù)和特征數(shù)的減少16,可以快速處理具有多特征的海量地鐵線網(wǎng)OD數(shù)據(jù)。

給定訓(xùn)練數(shù)據(jù)所有時(shí)段的輸入qo,d={(x1,y1),(x2,y2),…,(xm,ym)},其中,m為輸入數(shù)據(jù)集序列長度,xi(i=1,2,…,m)∈xRn,xi為影響因素的特征值,x為輸入空間,Rn表示n維向量空間,每個元素為(x1,x2,…,xn)的形式,代表各影響因素的特征值。yi為某時(shí)段由車站o前往車站d的OD客流量,yi∈y?R,y為輸出空間,R表示實(shí)數(shù)集,損失函數(shù)為L(y,f(x))。綜上,LightGBM模型構(gòu)建流程如下:

1)初始化決策樹(弱學(xué)習(xí)器)f0(x),并使所有訓(xùn)練樣本的均值為c。

2)迭代訓(xùn)練s=1,2,…,S個決策樹,將影響因素的特征值xi輸入決策樹中進(jìn)行訓(xùn)練,計(jì)算每個樣本i(i=1,2,…,m)的負(fù)梯度rs,i,作為下一輪決策樹擬合的目標(biāo)值。

式中:f(x)為上一次迭代生成的決策樹;f(xi)為f(x)在樣本i的輸出值。

3)將(xi,rs,i)作為下一個決策樹的訓(xùn)練數(shù)據(jù),最小化當(dāng)前損失函數(shù),求出每個決策樹各葉子結(jié)點(diǎn)的輸出值cs,j。

式中:Rs,j(j=1,2,…,J)表示第s個決策樹的葉子節(jié)點(diǎn)區(qū)域,J為其對應(yīng)的葉子節(jié)點(diǎn)個數(shù);fs-1(xi)為第s-1個決策樹在樣本i的輸出值。

4)更新學(xué)習(xí)器。

式中:fs(x)為第s個決策樹;I為指示函數(shù),若輸入空間x∈Rs,j,I=1,否則I=0。

5)對每個弱學(xué)習(xí)器的輸出求和,得到最終的OD客流預(yù)測模型f^(x)。

3 數(shù)據(jù)來源與分析

3.1 AFC數(shù)據(jù)處理

數(shù)據(jù)來源于2020年8月份蘇州市地鐵AFC系統(tǒng)采集的刷卡數(shù)據(jù),原始數(shù)據(jù)記錄約1 800萬條,其中每條刷卡數(shù)據(jù)包含一位乘客的卡號、票卡類型、進(jìn)出站的日期和時(shí)間、進(jìn)出車站編號,初始數(shù)據(jù)格式如表1所示。

由于工作人員日常進(jìn)出維修以及數(shù)據(jù)上傳中可能存在干擾數(shù)據(jù)等各類現(xiàn)實(shí)狀況,初始數(shù)據(jù)會包含部分非自由乘客的出行數(shù)據(jù),在進(jìn)行短時(shí)OD客流集計(jì)前對這類數(shù)據(jù)進(jìn)行了清洗,數(shù)據(jù)清洗后余約1 726萬條。主要按照以下原則進(jìn)行數(shù)據(jù)清洗:1)去除包含空值數(shù)據(jù)的行和重復(fù)行;2)去除超出運(yùn)行時(shí)間范圍的數(shù)據(jù);3)去除進(jìn)出閘機(jī)時(shí)間小于1 min或大于3 h的數(shù)據(jù)。

3.2 客流特征

線網(wǎng)短時(shí)OD客流分布受多方面因素的影響,將相關(guān)影響因素特征與短時(shí)OD特征綁定有利于算法識別客流規(guī)律,從而提高預(yù)測的精度。本文對多種時(shí)空影響特征進(jìn)行了分析。

1)天氣因素 天氣數(shù)據(jù)來源于國家氣候數(shù)據(jù)中心,包含多種字段信息,其中如氣溫、氣壓、風(fēng)向、風(fēng)速以及降水量等字段記錄,其上傳時(shí)間間隔通常較短,易存在缺失值且缺乏真實(shí)有效的補(bǔ)充方式,因此選擇較為完整的天氣及空氣質(zhì)量數(shù)據(jù)作為天氣影響因素,以分析不同日期天氣對OD客流的影響。

2)OD類型的標(biāo)定 不同的OD因站點(diǎn)周圍用地性質(zhì)、環(huán)境影響所產(chǎn)生的客流趨勢不同。由于峰值客流是運(yùn)營管理中常用來衡量客流趨勢的指標(biāo),因此將一天劃分為早、晚高峰及平峰3個時(shí)段,計(jì)算各OD每天不同時(shí)段的出行比例,通過輪廓系數(shù)法確定聚類簇?cái)?shù),并使用K均值聚類算法進(jìn)行聚類。輪廓系數(shù)是評價(jià)聚類結(jié)果好壞的一種指標(biāo),值越大說明同簇樣本相距越近、不同簇樣本相距越遠(yuǎn),聚類效果越好,設(shè)置聚類簇?cái)?shù)K取值范圍為[2,15],遍歷K值并計(jì)算每一K值下的輪廓系數(shù),如圖4所示,最優(yōu)聚類簇?cái)?shù)為3,線網(wǎng)OD被分為3類。

3)起訖點(diǎn)客流影響因素 以起訖點(diǎn)249~449為例繪制15 min時(shí)間粒度下某日OD量與進(jìn)出站客流量趨勢,如圖5所示,起點(diǎn)進(jìn)站和訖點(diǎn)出站客流趨勢與OD客流趨勢存在較強(qiáng)的相似性。

4)工作日與非工作日的標(biāo)定 因人們出行目的的改變,客流在工作日與非工作日OD客流規(guī)律存在明顯差異,通常非工作日的客流隨機(jī)性更強(qiáng)。Pearson系數(shù)可以衡量數(shù)據(jù)的線性相關(guān)關(guān)系,系數(shù)越接近于1說明數(shù)據(jù)之間的相關(guān)性越強(qiáng),因此抽樣2020-08-03至2020-08-09的1周數(shù)據(jù),使用Pearson

系數(shù)度量各時(shí)間粒度一周內(nèi)每日OD客流時(shí)間序列的相似性。假設(shè)在時(shí)間粒度為Δt時(shí)該周第i天和第j天的Pearson系數(shù)為PΔt(Yi,Yj),用yti表示第i天第t個時(shí)段的OD客流量,y^ti表示在時(shí)間粒度Δt下第i天OD客流量的均值,則第i天與第j天的OD客流時(shí)間序列Yi與Yj的Pearson系數(shù)為

各時(shí)間粒度一周內(nèi)每日之間的OD客流相似性如圖6所示,其中2020-08-03至2020-08-07為工作日,2020-08-08至2020-08-09為周末(非工作日),由圖6可以明顯看出,無論在哪種時(shí)間粒度下,工作日與工作日之間的OD客流時(shí)間序列都具有較強(qiáng)的相似性,周六、周日之間OD客流雖然也具有較強(qiáng)的相似性,但相對工作日Pearson系數(shù)較低,說明非工作日時(shí)OD客流的隨機(jī)性較工作日增加。同時(shí),工作日與非工作日之間客流相似性顯著降低,說明工作日與非工作日客流趨勢存在明顯差異。

為便于算法識別,在多源數(shù)據(jù)集融合時(shí)將各類影響因素進(jìn)行特征編碼,即將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),如天氣特征中使用數(shù)字“1”代表晴天,“2”代表雨雪,其他字符型特征同理。以15 min時(shí)間粒度為例,最終訓(xùn)練數(shù)據(jù)結(jié)構(gòu)及編碼含義如表2所示,其中天氣、空氣質(zhì)量、工作日和周末(非工作日)為與時(shí)間相關(guān)聯(lián)的影響因素,根據(jù)日期字段與OD客流時(shí)間序列匹配; OD類別為與空間中的OD相關(guān)聯(lián)的影響因素,根據(jù)進(jìn)出站編號進(jìn)行匹配;進(jìn)出站量是與OD對應(yīng)的時(shí)間段內(nèi)起點(diǎn)車站的進(jìn)站客流量和終點(diǎn)車站的出站客流量,分別根據(jù)進(jìn)站車站編號、日期、時(shí)間和出站車站編號、日期、時(shí)間字段與OD客流時(shí)間序列匹配。

4 模型求解

4.1 評價(jià)指標(biāo)

回歸問題的評價(jià)指標(biāo)主要是為了反映模型預(yù)測結(jié)果與實(shí)際值的擬合程度。為全面評價(jià)預(yù)測結(jié)果,選擇平均絕對誤差(mean absolute error, MAE)和均方根誤差(root mean square error, RMSE)用于評價(jià)誤差大小,R2(決定系數(shù))用于評價(jià)預(yù)測曲線的擬合精度。

式中:ytrue為真實(shí)值;ypred為預(yù)測值;N為預(yù)測樣本數(shù)。MAE反映的是真實(shí)誤差,RMSE是先對誤差進(jìn)行平方的累加后再開方,從而放大了誤差之間的差距,因此在評價(jià)中RMSE的值越小其意義越大。R2反映的是擬合優(yōu)度,越接近1說明觀察點(diǎn)在回歸線附近越密集。

4.2 參數(shù)尋優(yōu)

劃分訓(xùn)練集數(shù)據(jù)為2020-08-03至2020-08-23的3周數(shù)據(jù),測試集數(shù)據(jù)為2020-08-24至2020-08-30的1周數(shù)據(jù),分別以15,30,60 min時(shí)間粒度執(zhí)行預(yù)測。利用智能搜索框架Optuna對LightGBM模型進(jìn)行參數(shù)尋優(yōu),參數(shù)尋優(yōu)的目標(biāo)函數(shù)即為誤差評價(jià)指標(biāo)RMSE,通過最小化目標(biāo)函數(shù)返回不同時(shí)間粒度模型的最優(yōu)參數(shù)值。參數(shù)搜索空間及不同時(shí)間粒度下的最優(yōu)參數(shù)搜索結(jié)果如表3所示,其中max_depth和num_leaves共同控制樹的形狀,max_depth為樹的深度,用于限制樹的生長以防止過擬合,當(dāng)時(shí)間粒度為15 min和30 min時(shí)決策樹深度分別為15及20,但在時(shí)間粒度為60 min時(shí)決策樹深度驟增至100,說明60 min時(shí)間粒度的模型過擬合風(fēng)險(xiǎn)較高。num_leaves為決策樹的葉子節(jié)點(diǎn)數(shù),配合max_depth共同使用,較大的num_leaves增加了訓(xùn)練集的精確度,但同樣也增加了過擬合的風(fēng)險(xiǎn)。為此,尋優(yōu)結(jié)果中決策樹深度增加時(shí)相應(yīng)葉子節(jié)點(diǎn)數(shù)減少,以降低過擬合風(fēng)險(xiǎn)。learning_rate為學(xué)習(xí)率,值越小意味著需要更多迭代次數(shù),當(dāng)時(shí)間粒度為30 min時(shí)學(xué)習(xí)率最大,其次是15 min和60 min,說明30 min的預(yù)測模型的時(shí)間成本應(yīng)會較低。cat_smooth用于特征的概率平滑,以降低特征值中噪聲數(shù)據(jù)的影響,時(shí)間粒度越大特征中噪聲表現(xiàn)的越明顯。colsample_bytree為每次迭代時(shí)對特征列的采樣比例,由于構(gòu)建的客流特征都與OD客流具有一定的相關(guān)性,模型偏全采樣,因而受時(shí)間粒度影響較小。reg_lambda為L2正則化系數(shù),通過對損失函數(shù)附加正則項(xiàng)進(jìn)行懲罰減小過擬合風(fēng)險(xiǎn),受極端值影響較大,30 min時(shí)正則化系數(shù)最小,說明30 min模型受極端值影響最小,而60 min模型受極端值影響較大。

4.3 特征重要度分析

對于模型選取的影響因素,模型訓(xùn)練的特征重要度如圖7所示,縱坐標(biāo)為特征,橫坐標(biāo)為該特征在樹中作為劃分屬性的次數(shù),代表該特征在模型構(gòu)建

過程中的重要性。其中,進(jìn)站車站編號和出站車站編號共同確定具體某一個OD,是決定預(yù)測結(jié)果最重要的因素。其次的影響因素是進(jìn)出站量,OD客流量總是屬于起訖點(diǎn)進(jìn)出站量的一部分,一個OD出行的產(chǎn)生必然導(dǎo)致起點(diǎn)進(jìn)站量和訖點(diǎn)出站量同時(shí)增長1次,兩者之間存在緊密聯(lián)系。OD類型、日期、時(shí)段和是否為工作日對OD客流預(yù)測也存在一定程度的影響,而天氣及空氣質(zhì)量對預(yù)測的影響最小。

4.4 預(yù)測結(jié)果分析

為了對比算法間的預(yù)測效果差異,選取與LightGBM模型原理近似的XGBoost模型對比運(yùn)算速度,選取算法原理不同的統(tǒng)計(jì)學(xué)原理模型,如:移動自回歸模型(ARIMA)、深度學(xué)習(xí)模型(長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)及門控循環(huán)網(wǎng)絡(luò)(GRU)),對比預(yù)測精度。對所有模型分別進(jìn)行參數(shù)調(diào)整:XGBoost和LightGBM參數(shù)類似,通過上述Optuna調(diào)參。GRU是LSTM的變體,兩者都屬于遞歸神經(jīng)網(wǎng)絡(luò)且參數(shù)相似,本文設(shè)置網(wǎng)絡(luò)層數(shù)為4層,隱藏神經(jīng)元個數(shù)為50,最大迭代次數(shù)為100,LSTM訓(xùn)練數(shù)據(jù)批大小為32,GRU訓(xùn)練數(shù)據(jù)批大小為150。ARIMA具有3個參數(shù),在3種時(shí)間粒度下自回歸項(xiàng)p為6/4/4,差分階數(shù)d為0/0/0,移動平均項(xiàng)數(shù)q為1/3/2,最終各模型輸出預(yù)測結(jié)果的誤差評價(jià)指標(biāo)如表4所示。

由表4可知,從預(yù)測模型上來看,LightGBM模型的預(yù)測誤差在15,30,60 min時(shí)均最小,并且運(yùn)算速度也最快;從預(yù)測時(shí)間粒度上看,所有模型在15 min時(shí)間粒度下預(yù)測誤差最小,在30 min時(shí)間粒度下擬合優(yōu)度最好。從運(yùn)算速度上看,基于集成學(xué)習(xí)的LightGBM和XGBoost模型在處理海量數(shù)據(jù),尤其是整個地鐵線網(wǎng)的OD數(shù)據(jù)時(shí)可以達(dá)到快速收斂的效果,而深度學(xué)習(xí)模型和ARIMA模型在處理多特征的海量數(shù)據(jù)時(shí)運(yùn)算速度極為緩慢。綜上所述:1)對于地鐵線網(wǎng)OD預(yù)測,LightGBM模型的精確度和運(yùn)算速度都為最優(yōu),在時(shí)間粒度為15 min時(shí),MAE為1.04,RMSE為1.69,為所有模型中最小,但擬合優(yōu)度R2為0.74,相對30 min時(shí)間粒度略有不足;2)在時(shí)間粒度為30 min時(shí),LightGBM的MAE為1.23,RMSE為2.3,而R2達(dá)到0.82,為所有模型中最好,因?yàn)殡S著時(shí)間粒度劃分的增加,各時(shí)段集計(jì)的OD量也會增長從而放大誤差,所以從整體上來看,以30 min時(shí)間粒度劃分時(shí)誤差項(xiàng)MAE,RMSE相對15 min僅略微增長,而擬合優(yōu)度和時(shí)間花費(fèi)達(dá)到最優(yōu),是表現(xiàn)最好的模型;3)在時(shí)間粒度為60 min時(shí),各模型的誤差和擬合優(yōu)度表現(xiàn)都開始下降,是模型中最不合適做預(yù)測的時(shí)間粒度。

利用最優(yōu)的LightGBM模型對2020-08-24至2020-08-30的1周數(shù)據(jù)30 min時(shí)間粒度的線網(wǎng)OD客流進(jìn)行預(yù)測,取其中2個OD對客流預(yù)測結(jié)果的實(shí)際值和預(yù)測值進(jìn)行比較,擬合效果如圖8和圖9所示,其中橫坐標(biāo)是將每天5:00~24:00按30 min時(shí)間粒度劃分的時(shí)間段排序,縱坐標(biāo)為OD客流量。

5 結(jié) 語

通過分析地鐵線網(wǎng)多時(shí)間粒度的OD客流,并將多種影響因素引入到OD客流預(yù)測中,建立了基于LightGBM模型的多時(shí)間粒度線網(wǎng)短時(shí)OD客流預(yù)測模型,預(yù)測結(jié)果可為地鐵線網(wǎng)的動態(tài)化運(yùn)營管理提供數(shù)據(jù)支持,對改善運(yùn)營質(zhì)量、提高服務(wù)水平具有一定價(jià)值。

1)通過綁定不同時(shí)間粒度的OD客流序列與對應(yīng)的影響因素,使LightGBM模型更好地識別客流時(shí)空分布特征并進(jìn)行預(yù)測,在獲取更高精度的同時(shí)也大幅提高了運(yùn)算速度。對于地鐵線網(wǎng)來說,具有高效率的LightGBM集成算法既可保證預(yù)測的時(shí)效性,又兼有較好的泛化能力擬合客流峰值曲線。

2)對于不同時(shí)間粒度的OD客流序列,預(yù)測結(jié)果存在較大差異,說明時(shí)間粒度的選擇對于客流預(yù)測來說具有重要影響,所以在進(jìn)行短時(shí)OD客流預(yù)測前需要預(yù)先探討短時(shí)預(yù)測的時(shí)間粒度選擇問題,不同城市的線網(wǎng)OD客流趨勢不盡相同,最優(yōu)時(shí)間粒度需要針對數(shù)據(jù)分析獲得。以蘇州市地鐵線網(wǎng)為例,當(dāng)使用前3周數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)預(yù)測下一周的線網(wǎng)短時(shí)OD時(shí),預(yù)測結(jié)果的誤差和擬合優(yōu)度在30 min時(shí)間粒度時(shí)綜合表現(xiàn)最好。

由于缺乏歷史數(shù)據(jù),未將大型活動和節(jié)假日等特殊情況考慮在內(nèi),因此構(gòu)建的模型主要適用于日常情況下的短時(shí)OD客流預(yù)測。后續(xù)研究可將特殊情況下的日期或時(shí)段進(jìn)行標(biāo)簽化,并與常規(guī)情況進(jìn)行區(qū)分,作為一個新的特征加入模型中。

參考文獻(xiàn)/References:

[1] 陳志杰,毛保華,柏赟,等.基于多時(shí)間尺度的城市軌道交通短時(shí)OD估計(jì)[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(5):166-172.

CHEN Zhijie,MAO Baohua,BAI Yun,et al.Short-term origin-destination estimation for urban rail transit based on multiple temporal scales[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(5):166-172.

[2] 林友芳,尹康,黨毅,等.基于時(shí)空LSTM的OD客運(yùn)需求預(yù)測[J].北京交通大學(xué)學(xué)報(bào),2019,43(1):114-121.

LIN Youfang,YIN Kang,DANG Yi,et al.Spatio-temporal LSTM for OD passenger demand prediction[J].Journal of Beijing Jiaotong University,2019,43(1):114-121.

[3] LING Ximan,HUANG Zhiren,WANG Chengcheng,et al.Predicting subway passenger flows under different traffic conditions[J].PLoS One,2018,13(8):e0202707.

[4] 張國赟,金輝.基于改進(jìn)ARIMA模型的城市軌道交通短時(shí)客流預(yù)測研究[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(1):339-344.

ZHANG Guoyun,JIN Hui.Research on the prediction of short-term passenger flow of urban rail transit based on improved ARIMA model[J].Computer Applications and Software,2022,39(1):339-344.

[5] 劉洋,凌力,伍元忠,等.基于約束卡爾曼濾波的城市軌道交通線網(wǎng)客流OD實(shí)時(shí)估計(jì)研究[J].鐵道運(yùn)輸與經(jīng)濟(jì),2018,40(10):103-108.

LIU Yang,LING Li,WU Yuanzhong,et al.A real-time OD estimation of passenger flow in urban rail transit network based on constrained Kalman filtering[J].Railway Transport and Economy,2018,40(10):103-108.

[6] HABTEMICHAEL F G,CETIN M.Short-term traffic flow rate forecasting based on identifying similar traffic patterns[J].Transportation Research Part C:Emerging Technologies,2016,66:61-78.

[7] 陳通箭,袁發(fā)濤.基于支持向量機(jī)的軌道車站客流高峰期持續(xù)時(shí)間預(yù)測[J].智能城市,2020,6(8):10-12.

CHEN Tongjian,YUAN Fatao.Prediction of passenger flow peak duration at rail stations based on support vector machine[J].Intelligent City,2020,6(8):10-12.

[8] TSAI T H,LEE C K,WEI C H.Neural network based temporal feature models for short-term railway passenger demand forecasting[J].Expert Systems with Applications,2009,36(2 Pt.2):3728-3736.

[9] TIAN Yongxue,PAN Li.Predicting short-term traffic flow by long short-term memory recurrent neural network[C]//2015 IEEE International Conference on Smart City/SocialCom/SustainCom.Chengdu:IEEE,2015:153-158.

[10]CHEN Tianqi,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:Association for Computing Machinery,2016:785-794.

[11]張晚笛,陳峰,王子甲,等.基于多時(shí)間粒度的地鐵出行規(guī)律相似性度量[J].鐵道學(xué)報(bào),2018,40(4):9-17.

ZHANG Wandi,CHEN Feng,WANG Zijia,et al.Similarity measurement of metro travel rules based on multi-time granularities[J].Journal of the China Railway Society,2018,40(4):9-17.

[12]馬超群,李培坤,朱才華,等.基于不同時(shí)間粒度的城市軌道交通短時(shí)客流預(yù)測[J].長安大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(3):75-83.

MA Chaoqun,LI Peikun,ZHU Caihua,et al.Short-term passenger flow forecast of urban rail transit based on different time granularities[J].Journal of Chang′an University (Natural Science Edition),2020,40(3):75-83.

[13]張萍,肖為周,沈錚璽.基于長短期記憶網(wǎng)絡(luò)的軌道交通短期OD客流量預(yù)測[J].河北工業(yè)科技,2021,38(5):351-356.

ZHANG Ping,XIAO Weizhou,SHEN Zhengxi.Forecast of short-term origin-destination passenger flow of rail transit based on long short-term memory network[J].Hebei Journal of Industrial Science and Technology,2021,38(5):351-356.

[14]韓皓,徐圣安,趙蒙.考慮線網(wǎng)結(jié)構(gòu)的LightGBM軌道交通短時(shí)客流預(yù)測模型[J].鐵道運(yùn)輸與經(jīng)濟(jì),2021,43(10):109-117.

HAN Hao,XU Shengan,ZHAO Meng.LightGBM prediction model of short-term passenger flow for rail transit considering network structure[J].Railway Transport and Economy,2021,43(10):109-117.

[15]LI Dingzhe,PENG Jingbo,HE Dawei.Aero-engine exhaust gas temperature prediction based on LightGBM optimized by imroved bat algorithm[J].Thermal Science,2021,25(2A):845-858.

[16]KE Guolin,MENG Qi,F(xiàn)INLEY T,et al.LightGBM:A highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Incorporated,2017:3149-3157.

诏安县| 宁河县| 丰镇市| 喀喇| 浏阳市| 通化市| 两当县| 邵阳县| 肇州县| 天等县| 兰坪| 侯马市| 威远县| 会理县| 会宁县| 呼玛县| 兰溪市| 扬州市| 新余市| 利辛县| 新河县| 莎车县| 韶山市| 沂源县| 池州市| 买车| 和田县| 洪湖市| 新巴尔虎左旗| 肥西县| 桃园市| 原阳县| 小金县| 阿克| 青岛市| 武冈市| 吴堡县| 尚志市| 宝清县| 芮城县| 寿阳县|