国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成學(xué)習(xí)的公交車輛到站時(shí)間預(yù)測(cè)模型研究

2019-11-15 02:17荊靈玲王安琪
關(guān)鍵詞:路況路段公交

荊靈玲,解 超,王安琪

(1.中航勘察設(shè)計(jì)研究院有限公司,北京 100098;2.中國(guó)交通通信信息中心,北京 100011;3.中交信有限責(zé)任公司,北京 100007;4.北方工業(yè)大學(xué),北京 100144)

城市公共交通是交通運(yùn)輸業(yè)的重要組成部分,落實(shí)“公交優(yōu)先”政策,大力發(fā)展公共交通系統(tǒng)是緩解城市交通擁堵和交通安全問題行之有效的手段[1],而準(zhǔn)確、實(shí)時(shí)地預(yù)測(cè)公交到站時(shí)間是城市智能交通系統(tǒng)(ITS)的重要組成部分。隨著定位和通信技術(shù)的發(fā)展和完善,準(zhǔn)確預(yù)測(cè)公交車輛到站時(shí)間有利于市民合理規(guī)劃出行時(shí)間、滿足市民多元化出行需求、減少等車時(shí)間、緩解乘客焦慮情緒及提供精細(xì)化服務(wù),將居民出行方式吸引到公共交通上來,使居民的出行融入可持續(xù)發(fā)展的交通系統(tǒng)中[2],進(jìn)而緩解城市交通擁堵等問題,有利于構(gòu)建以公共交通為主體的暢通、安全、高效、舒適、環(huán)保、經(jīng)濟(jì)、公平的城市交通系統(tǒng)[3]。

國(guó)內(nèi)外學(xué)者在公交到站時(shí)間預(yù)測(cè)方面提出了多種不同的方法。根據(jù)數(shù)據(jù)源可以分為基于歷史數(shù)據(jù)的方法、基于實(shí)時(shí)數(shù)據(jù)的方法和兩者相結(jié)合的方法。從預(yù)測(cè)方法上可以分為統(tǒng)計(jì)模型、回歸模型、時(shí)間序列模型、神經(jīng)網(wǎng)絡(luò)模型、SVM、 Kacman濾波和路況相似性方法等。李天雷等[4]基于大量的歷史公交軌跡數(shù)據(jù),用多元回歸計(jì)算各路段分時(shí)段的平均速度,基于平均速度進(jìn)行預(yù)測(cè)。該統(tǒng)計(jì)模型對(duì)于路況比較穩(wěn)定的線路預(yù)測(cè)性能好,但不能適應(yīng)路況變化較多的線路。孫棣華[5]在歷史平均速度的基礎(chǔ)上考慮車輛實(shí)時(shí)速度、到站距離、車站、信號(hào)燈等因素,建立了到站時(shí)間預(yù)測(cè)的線性方程。這種方式考慮了車輛的速度及其他影響因素,但由于公交車的密度不足以覆蓋所有時(shí)段和路段,所以在實(shí)時(shí)速度方面難以達(dá)到較高的覆蓋率和準(zhǔn)確率。Li等[6]和Tetreault等[7]基于時(shí)間、歷史速度、實(shí)時(shí)速度、天氣、路段長(zhǎng)度和交叉口數(shù)量等影響因子構(gòu)建多元回歸方程進(jìn)行預(yù)測(cè),由于路況的多變和影響因子較多,線性回歸模型的擬合能力有限。孫玉硯等[8]對(duì)歷史路況進(jìn)行聚類,找到與當(dāng)前路況相似的歷史路況來預(yù)測(cè)站點(diǎn)到站點(diǎn)的行程時(shí)間,這種方法在復(fù)雜路況下的聚類和相似性判斷方面難以達(dá)到較高準(zhǔn)確性。

另外,不少學(xué)者使用人工神經(jīng)網(wǎng)絡(luò)模型(ANN)來預(yù)測(cè)到達(dá)時(shí)間。 Chien[9]提出了基于link和stop的ANN預(yù)測(cè)模型。與線性模型相比,該模型學(xué)習(xí)能力更強(qiáng),預(yù)測(cè)更準(zhǔn)確,但是需要大量的訓(xùn)練數(shù)據(jù)且在線性能較差。

卡爾曼濾波模型由于對(duì)歷史數(shù)據(jù)依賴小、抗干擾能力強(qiáng)被許多學(xué)者采用。Shalaby[10]提出用卡爾曼濾波來預(yù)測(cè)公交到站時(shí)間和離站時(shí)間??柭鼮V波利用通過某路段的前車數(shù)據(jù)對(duì)后面通過該路段的公交車時(shí)間進(jìn)行預(yù)測(cè)。這種方法較好地考慮了實(shí)時(shí)路況,對(duì)歷史數(shù)據(jù)要求不高,但是由于公交車運(yùn)行在各路段和各時(shí)段的不均衡,會(huì)導(dǎo)致數(shù)據(jù)稀疏。此外,由于長(zhǎng)距離預(yù)測(cè)時(shí)路況變化較大,所以在實(shí)際應(yīng)用中存在較多限制。

SVM 作為主流機(jī)器學(xué)習(xí)方法,因非線性擬合能力強(qiáng)、適合小樣本的特點(diǎn)常被用來預(yù)測(cè)到達(dá)時(shí)間。Yu[11]提出了基于SVM的預(yù)測(cè)模型,把時(shí)間、天氣、路段、當(dāng)前路段的行程時(shí)間和下游路段的行程時(shí)間作為特征。實(shí)驗(yàn)結(jié)果表明,該模型的預(yù)測(cè)精度優(yōu)于歷史平均模型和ANN模型。陳旭梅等[12]在卡爾曼濾波基礎(chǔ)上結(jié)合SVM對(duì)BRT進(jìn)行了行程時(shí)間預(yù)測(cè),效果較好。由于公交線路及路況的復(fù)雜性遠(yuǎn)大于BRT系統(tǒng),所以該模型在公交系統(tǒng)上的適用性還需要進(jìn)一步驗(yàn)證。

智能公交系統(tǒng)在長(zhǎng)時(shí)間運(yùn)營(yíng)過程中積累了海量的公交軌跡數(shù)據(jù)。 作為一項(xiàng)數(shù)據(jù)驅(qū)動(dòng)的技術(shù),機(jī)器學(xué)習(xí)在眾多領(lǐng)域取得了成功。集成學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要研究領(lǐng)域,通過聯(lián)合若干弱模型來提高效果,與單一模型相比可以得到更好的預(yù)測(cè)效果。張威威等[13]利用實(shí)測(cè)的車輛旅行時(shí)間數(shù)據(jù),提出了多步預(yù)測(cè)的主成分分析-梯度提升決策樹 (PCA-GBDT) 方法,實(shí)驗(yàn)結(jié)果表明該方法具有更高的預(yù)測(cè)精度與算法穩(wěn)定性。

本文提出了一種基于集成學(xué)習(xí)的公交車到站時(shí)間預(yù)測(cè)方法。利用集成學(xué)習(xí)方法,確定優(yōu)化目標(biāo),把公交車到站時(shí)間相關(guān)的影響因素進(jìn)行特征化,基于海量歷史數(shù)據(jù)訓(xùn)練出機(jī)器學(xué)習(xí)模型,預(yù)測(cè)公交到站時(shí)間。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)源

數(shù)據(jù)源包括靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)主要指公交線路及站點(diǎn),動(dòng)態(tài)數(shù)據(jù)主要指車輛上報(bào)GPS坐標(biāo)流。公交線路及站點(diǎn)見圖1,公交車輛GPS坐標(biāo)流見表1。

圖1 北京市公交站點(diǎn)線路

線路編號(hào)車輛編號(hào)GPS上報(bào)時(shí)間緯度經(jīng)度10016b8c4f149860901339.873 863116.458 18110016b8c4f149860902039.873 849116.458 85310016b8c4f149860902739.873 914116.459 15210016b8c4f149860903439.874 104116.459 43110016b8c4f149860904139.874 065116.459 80210016b8c4f149860904839.873 881116.460 54910016b8c4f149860905539.873 678116.460 77010016b8c4f149860906239.873 124116.460 82610016b8c4f149860906939.872 554116.460 84610016b8c4f149860907639.872 268116.460 92810016b8c4f149860909039.871 643116.460 82710016b8c4f149860909739.871 442116.460 88810016b8c4f149860910439.871 539116.461 16110016b8c4f149860911139.871 977116.461 21310016b8c4f149860911839.872 714116.461 21110016b8c4f149860912539.873 374116.461 215

1.2 預(yù)測(cè)方法

本文采用集成學(xué)習(xí)GBDT的方法進(jìn)行公交車輛到達(dá)站點(diǎn)的時(shí)間預(yù)測(cè)。

集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)[14]。GBDT是集成學(xué)習(xí)的一種算法。GBDT算法(gradient boosting decision tree)由Friedman最早提出,它利用最速下降的近似方法,即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為回歸問題中提升樹算法的殘差的近似值擬合一個(gè)回歸樹[15]。GBDT通過迭代地訓(xùn)練一系列的分類器,使每個(gè)分類器采用的樣本分布都與上一輪的學(xué)習(xí)結(jié)果有關(guān)。GBDT算法輸入是訓(xùn)練集樣本T={(x1,y1),(x2,y2),…,(xm,ym)},最大迭代次數(shù)T,損失函數(shù)L。GBDT算法描述如下[16]:

步驟1初始化f0(x);

步驟2迭代輪數(shù)t=1~T,有:

1) 對(duì)樣本i=1,2,…,N,計(jì)算負(fù)梯度rit:

2) 利用(xi,rit)(i=1,2,…,N),擬合1顆CART回歸樹,得到第t顆回歸樹,其對(duì)應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽jt,j=1,2,…,Jt。其中J為回歸樹t的葉子節(jié)點(diǎn)的個(gè)數(shù);

3) 對(duì)j=1,2,…,Jt,計(jì)算最佳擬合值cjt:

4) 更新ft(x):

步驟3輸出f(x)

GBDT預(yù)測(cè)方法框架(如圖2)包括:① 目標(biāo)函數(shù)定義;② 特征工程:確定特征因子和分析其重要性。公交車輛到站時(shí)間預(yù)測(cè)涉及影響因素主要有歷史路況、實(shí)時(shí)路況、站點(diǎn)分布、路段距離、紅路燈數(shù)量和路口數(shù)量等;③ 離線訓(xùn)練與驗(yàn)證;④ 在線預(yù)測(cè)。

圖2 GBDT預(yù)測(cè)方法框架

1.3 評(píng)價(jià)指標(biāo)

常用的回歸預(yù)測(cè)評(píng)價(jià)指標(biāo)有MAE、RMSE和MAPE等,具體含義詳見表2。本文采用預(yù)測(cè)誤差MAPE作為集成學(xué)習(xí)目標(biāo)函數(shù)。

表2 評(píng)價(jià)指標(biāo)MAE、RMSE和MAPE的含義

2 基于集成學(xué)習(xí)的ETA預(yù)測(cè)模型實(shí)現(xiàn)

2.1 目標(biāo)函數(shù)定義

定義目標(biāo)函數(shù)L為

訓(xùn)練目標(biāo)為求解最優(yōu)化:

2.2 特征工程

將特征因子分為初階和高階特征。初階特征包括請(qǐng)求時(shí)間、到站點(diǎn)距離、經(jīng)過站點(diǎn)數(shù)等;高階特征分為路網(wǎng)(路口數(shù)量、紅綠燈數(shù)量)和統(tǒng)計(jì)特征(歷史路況和實(shí)時(shí)路況),特征列表見表3。

表3 特征列表

2.2.1特征因子計(jì)算

請(qǐng)求時(shí)間:按15 min作為時(shí)間片段,用[0,96)來表示全天各個(gè)時(shí)間片段。

路網(wǎng)特征:利用公交線路對(duì)應(yīng)的道路數(shù)據(jù)提取路口數(shù)量及紅路燈數(shù)量。

統(tǒng)計(jì)特征:歷史路況和實(shí)時(shí)路況。

1) 歷史路況計(jì)算

基于公交線路歷史軌跡計(jì)算歷史平均路況。計(jì)算某一路段在某一時(shí)間窗口的平均速度,該過程主要考慮時(shí)間塊劃分(t)和路段劃分(s)問題。

時(shí)間塊劃分(t):路況隨時(shí)間變化呈現(xiàn)出明顯的高峰期和平峰期、工作日和休息日的差異規(guī)律。公交車排班也呈現(xiàn)明顯的高峰期、平峰期、工作日和休息日的差異。

基于公交車排班差異將工作日和節(jié)假日采用不同的時(shí)間片劃分方式,主要差異在早晚高峰的劃分上?;诠卉嚺虐嗖町惪杀WC時(shí)間片內(nèi)有足夠的樣本數(shù)量?;谶@兩點(diǎn)采用如表4的時(shí)間塊劃分,時(shí)間塊是將每天的各個(gè)時(shí)間區(qū)間映射成一個(gè)數(shù)值。

表4 時(shí)間塊劃分

續(xù)表(表4)

路段劃分(s):① 不同路段路況不同,兩站點(diǎn)間距離從幾百米到幾公里不等,會(huì)導(dǎo)致嚴(yán)重的路況異質(zhì)性;② 某一路線存在多條公交線路的車輛數(shù)據(jù),這些不同公交線路的歷史軌跡都可以用來計(jì)算該路段的歷史路況?;谝陨蟽牲c(diǎn)提出網(wǎng)格劃分的線路離散化方法。該方法將公交線路抽象成一系列連續(xù)的網(wǎng)格,網(wǎng)格大小為100 m,如圖3所示。

圖3 線路離散化網(wǎng)格

歷史路況計(jì)算采用cost單條軌跡計(jì)算方法,方法如下:

步驟1將軌跡數(shù)據(jù)映射到線路網(wǎng)格;

步驟2計(jì)算網(wǎng)格耗時(shí)。如圖4所示,2個(gè)軌跡點(diǎn)落在2號(hào)網(wǎng)格和5號(hào)網(wǎng)格;每個(gè)網(wǎng)格的耗時(shí)為 avg = (T1-T0)/ (5-2);

圖4 軌跡數(shù)據(jù)映射到線路網(wǎng)格

步驟3計(jì)算網(wǎng)格耗時(shí)異常值過濾和均值。當(dāng)有若干條軌跡數(shù)據(jù)需進(jìn)行異常值檢驗(yàn)之后進(jìn)行平均計(jì)算,最終得到每一個(gè)網(wǎng)格的平均耗時(shí)。

2) 實(shí)時(shí)路況計(jì)算

計(jì)算方式與歷史路況類似,統(tǒng)計(jì)了過去15min內(nèi)通過該路段的公交車輛平均耗時(shí)。

2.2.2特征因子重要性評(píng)價(jià)

特征的選取和處理決定了預(yù)測(cè)效果的上限。對(duì)于特征j,全局特征重要性通過在每棵樹中的重要度的平均值來計(jì)算:

其中M是樹的數(shù)量。

特征j在1棵樹中的特征重要性為

2.3 訓(xùn)練與驗(yàn)證

采用過去N天公交車輛到站時(shí)間請(qǐng)求數(shù)據(jù),按2.2方法計(jì)算出所有特征,并計(jì)算出實(shí)際到達(dá)時(shí)間。從訓(xùn)練集隨機(jī)抽取10%作為驗(yàn)證集。本文測(cè)試了不同訓(xùn)練參數(shù)下的不同效果,如表5所示。

表5 不同訓(xùn)練參數(shù)下的不同測(cè)試效果

2.4 線上預(yù)測(cè)

線上預(yù)測(cè)部分主要包括特征生成模塊、預(yù)測(cè)模塊和驗(yàn)證模塊。線上生成特征向量傳入預(yù)測(cè)模型,最終得到結(jié)果。驗(yàn)證模塊會(huì)記錄公交車實(shí)際到達(dá)每個(gè)站點(diǎn)的時(shí)間,進(jìn)而計(jì)算出預(yù)測(cè)的精度。

3 實(shí)例研究

本文選取北京市2017-06-01—2017-06-30公交車輛的軌跡數(shù)據(jù)作為訓(xùn)練集,以07-01—07-07日的數(shù)據(jù)作為測(cè)試集,利用XGBoost進(jìn)行訓(xùn)練,驗(yàn)證公交到站時(shí)間預(yù)測(cè)模型的有效性。不同方法的測(cè)試效果見圖5。

圖5 不同方法測(cè)試效果

4 結(jié)束語

本文利用數(shù)條重合線路的坐標(biāo)流數(shù)據(jù),提出將集成學(xué)習(xí)GBDT方法用于預(yù)測(cè)公交車輛到站時(shí)間,提高了公交到站預(yù)測(cè)的準(zhǔn)確性。通過實(shí)例分析和驗(yàn)證發(fā)現(xiàn),基于GBDT方法的預(yù)測(cè)性能明顯優(yōu)于其他方法,可靈活處理混合類型特征,包括連續(xù)值和離散值,無需特征歸一化處理,且預(yù)測(cè)準(zhǔn)確率更高;有特征組合的作用,可自然地處理缺失值,對(duì)異常點(diǎn)魯棒,具有易于實(shí)現(xiàn)、抗干擾能力強(qiáng)及泛化能力強(qiáng)等優(yōu)點(diǎn)。但該方法也有一定的局限性,在ETA預(yù)測(cè)中,不同的線路、不同的司機(jī)都會(huì)影響到達(dá)時(shí)間,這些特征在GBDT模型中較難表達(dá)。另外,對(duì)突發(fā)的路況變化預(yù)測(cè)精度不夠, 例如,在北京等大城市,由于道路突發(fā)事件較多,類似體育比賽、臨時(shí)封路等也會(huì)影響周邊路況,實(shí)時(shí)路況特征無法表達(dá)這種特殊路況持續(xù)的時(shí)間和波及的區(qū)域,會(huì)影響長(zhǎng)距離的到達(dá)時(shí)間預(yù)測(cè)精度。這些存在的問題有待進(jìn)一步的研究。

猜你喜歡
路況路段公交
冬奧車道都有哪些相關(guān)路段如何正確通行
一元公交開進(jìn)太行深處
基于XGBOOST算法的擁堵路段短時(shí)交通流量預(yù)測(cè)
高速公路重要路段事件檢測(cè)技術(shù)探討
等公交
基于元胞自動(dòng)機(jī)下的交通事故路段仿真
基于元胞自動(dòng)機(jī)下的交通事故路段仿真
從路況報(bào)道看廣播“類型化”新聞的要素構(gòu)成
基于互聯(lián)網(wǎng)地圖語言的實(shí)時(shí)路況信息服務(wù)項(xiàng)目探析
高速公路實(shí)時(shí)路況分析系統(tǒng)方案