基于LSTM引入客車占比特征的短時(shí)交通流預(yù)測(cè)

2020-11-25 11:32翁小雄

重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年11期

翁小雄，郝翊

(華南理工大學(xué) 土木與交通學(xué)院，廣東廣州 510000)

0 引言

準(zhǔn)確、及時(shí)的交通流信息對(duì)于智能交通系統(tǒng)至關(guān)重要。近年來(lái)，交通數(shù)據(jù)呈爆炸式增長(zhǎng)。在交通大數(shù)據(jù)背景下，短時(shí)交通流分析與預(yù)測(cè)工作不斷深入?，F(xiàn)有的交通流預(yù)測(cè)方法多采用傳統(tǒng)時(shí)間序列模型[1]，如李琦等[2]應(yīng)用的移動(dòng)平均法、J.RICE等[3]應(yīng)用的KNN算法、M. S. AHMED[4]應(yīng)用的ARIMA方法和近年來(lái)提出的組合模型法等。但以上算法均存在固有缺陷，導(dǎo)致對(duì)實(shí)際交通流預(yù)測(cè)效果不理想，這種情況促使筆者重新思考基于大數(shù)據(jù)的交通流預(yù)測(cè)問(wèn)題。

最近，LSTM神經(jīng)網(wǎng)絡(luò)作為一種擁有較強(qiáng)“記憶”能力的深度學(xué)習(xí)方法，已成功應(yīng)用于分類任務(wù)、自然語(yǔ)言處理[5]、降維、物體檢測(cè)[6]、運(yùn)動(dòng)建模等場(chǎng)景中。國(guó)內(nèi)外許多學(xué)者也將其應(yīng)用于交通工程領(lǐng)域，例如：2015年，X.L.MA等[7]利用其長(zhǎng)時(shí)間學(xué)習(xí)優(yōu)勢(shì)，將LSTM應(yīng)用于交通流預(yù)測(cè)；WU Yuankai[8]等基于LSTM對(duì)交通流的時(shí)空相關(guān)性進(jìn)行了研究；2018年，王祥雪等[9]搭建基于LSTM的城市快速路短時(shí)交通流預(yù)測(cè)模型等。但是以上預(yù)測(cè)模型的搭建均以交通流量為單一特征進(jìn)行輸入，并未挖掘交通流數(shù)據(jù)中隱含的周期性部分，忽略了其對(duì)交通流預(yù)測(cè)的影響。

筆者通過(guò)對(duì)歷史交通流數(shù)據(jù)的分析，證明客車占比是交通流數(shù)據(jù)中隱含的周期性部分，提出了增加客車占比特征的LSTM模型，并以廣州北環(huán)高速某收費(fèi)站為例進(jìn)行交通流預(yù)測(cè)的實(shí)例分析。結(jié)果表明：引入客車占比特征的LSTM預(yù)測(cè)模型降低了短時(shí)交通流預(yù)測(cè)的誤差，提高了預(yù)測(cè)的正確率。

1 交通流數(shù)據(jù)分析

1.1 數(shù)據(jù)集介紹及數(shù)據(jù)處理

1.1.1 數(shù)據(jù)集介紹

筆者所采用數(shù)據(jù)為廣東省廣州市北環(huán)高速公路某收費(fèi)站2015年12月14日—20日一周的車流數(shù)據(jù)，共183 033條數(shù)據(jù)記錄。每條數(shù)據(jù)記錄中包含路網(wǎng)編號(hào)、路段編碼、站編號(hào)、車道編號(hào)、車道類型、日期及時(shí)間、車型、車種、車牌號(hào)碼、客貨標(biāo)識(shí)等信息。其字段和數(shù)據(jù)類型如表1。

表1 數(shù)據(jù)集說(shuō)明

抽取站編號(hào)、日期及時(shí)間、車型及客貨標(biāo)識(shí)4個(gè)關(guān)鍵數(shù)據(jù)進(jìn)行分析：站編號(hào)代表具體收費(fèi)站，數(shù)據(jù)類型為整型；日期及時(shí)間數(shù)據(jù)為Datetime型；車型數(shù)據(jù)為整型，1,2,3,4,5分別為交通部統(tǒng)一標(biāo)準(zhǔn)的一類車至五類車的車型；客貨標(biāo)識(shí)數(shù)據(jù)為整型，1表示客車，2表示貨車。數(shù)據(jù)實(shí)例如表2。

表2 數(shù)據(jù)實(shí)例

1.1.2 數(shù)據(jù)集處理

去除數(shù)據(jù)異常值、空值并進(jìn)行線性歸一化，最終獲得9號(hào)收費(fèi)站共182 539條車流信息數(shù)據(jù)。對(duì)數(shù)據(jù)按時(shí)間順序進(jìn)行排列，設(shè)定統(tǒng)計(jì)時(shí)間間隔為15 min，得到672個(gè)時(shí)間序列，一周交通流量數(shù)據(jù)如圖1。

同時(shí)，計(jì)算此收費(fèi)站每個(gè)時(shí)間序列的客車占比。設(shè)第i個(gè)時(shí)間序列內(nèi)車流量總數(shù)為Mi，客車車流數(shù)為Vi，則第i個(gè)時(shí)間序列內(nèi)客車占比Ki的計(jì)算公式如式(1)：

(1)

利用式(1)計(jì)算一周的車流數(shù)據(jù)中每個(gè)時(shí)序的客車占比情況，作出折線圖，結(jié)果如圖2。

從圖1和圖2看出，高速公路交通流量數(shù)據(jù)與高速公路客車占比數(shù)據(jù)呈現(xiàn)明顯的周期性特征，與城市交通流理論中指出的大部分交通流量數(shù)據(jù)存在周期性相符合。這種特性不僅存在于周與周之間，不同的工作日之間，甚至一天內(nèi)某些時(shí)段的交通流量數(shù)據(jù)也存在著相似。提取出交通流數(shù)據(jù)中隱藏的周期性部分可以幫助更好地理解交通系統(tǒng)，便于取得更準(zhǔn)確的預(yù)測(cè)結(jié)果。

1.2 基于快速傅里葉變換(FFT)的周期性驗(yàn)證

1.2.1 FFT算法介紹

周期性模式可以理解為對(duì)于包含N個(gè)事件的時(shí)序數(shù)據(jù)庫(kù){E1,E2,E3,E4,…,EN}，其中的事件總以固定時(shí)間間隔重復(fù)發(fā)生，則認(rèn)為時(shí)間序列數(shù)據(jù)庫(kù)具有該模式。周期性驗(yàn)證在信號(hào)處理領(lǐng)域是一個(gè)眾所周知的問(wèn)題。傅里葉變換是一種基礎(chǔ)的信號(hào)處理工具，可確定數(shù)據(jù)中的頻率分量?？焖俑道锶~變換FFT(fast Fourier transformation)是離散傅里葉變換(DFT)的快速算法[10]，其根據(jù)離散傅里葉變換的奇、偶、虛、實(shí)等特性，對(duì)離散傅里葉變換進(jìn)行改進(jìn)，使計(jì)算機(jī)計(jì)算離散傅里葉變換所需要的乘法次數(shù)大為減少。利用FFT算法，將數(shù)據(jù)從時(shí)域轉(zhuǎn)換至頻域，通過(guò)頻率函數(shù)可有效驗(yàn)證數(shù)據(jù)的周期性[11]。其計(jì)算公式如式(2)、式(3)：

(2)

(3)

1.2.2 高速公路數(shù)據(jù)的周期性驗(yàn)證

利用1.2.1節(jié)介紹的快速傅里葉(FFT)算法對(duì)高速公路流量數(shù)據(jù)(圖1)及客車占比數(shù)據(jù)(圖2)進(jìn)行周期性驗(yàn)證，分別繪制其功率頻譜圖，結(jié)果如圖3、圖4。

從圖3和圖4中可看出，高速公路流量數(shù)據(jù)及客車占比數(shù)據(jù)均有明顯周期性，且兩者的最小周期相等，均為96。由于統(tǒng)計(jì)時(shí)間間隔為15 min，則96個(gè)時(shí)間序列剛好構(gòu)成一天(24 h)，亦即說(shuō)明車流量數(shù)據(jù)與客車占比數(shù)據(jù)均具有日周期性的特征，其中客車占比數(shù)據(jù)是交通流量數(shù)據(jù)中隱含的周期性部分。

2 預(yù)測(cè)模型的建立

2.1 LSTM的原理介紹

(4)

(5)

(6)

(7)

(8)

Ht=Ot×tanh(Ct-1)

(9)

式中：sigmoid函數(shù)是輸入門、輸出門、和遺忘門的激活函數(shù)，為雙曲正切函數(shù)。

2.2 模型的預(yù)測(cè)性能評(píng)價(jià)

采用均方根誤差(RMSE)、均方誤差(MSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能。RMSE、MSE、MAE和MAPE的計(jì)算公式如式(10)～式(13):

(10)

(11)

(12)

(13)

式中：MAPE為相對(duì)誤差，代表模型的適用程度； RMSE、MSE和MAE為絕對(duì)誤差，其值越小，說(shuō)明預(yù)測(cè)值和真實(shí)值越接近，模型效果越好。

2.3 交通流預(yù)測(cè)的整體流程

基于高速公路樣本數(shù)據(jù)采用長(zhǎng)短時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)訓(xùn)練構(gòu)建高速公路的短時(shí)交通流預(yù)測(cè)模型。其總體流程為：①數(shù)據(jù)預(yù)處理剔除異常值；②利用FFT對(duì)流量數(shù)據(jù)及客車占比數(shù)據(jù)進(jìn)行周期性驗(yàn)證；③利用LSTM對(duì)交通流量進(jìn)行預(yù)測(cè)；④在流量數(shù)據(jù)中引入客車占比特征對(duì)流量進(jìn)行預(yù)測(cè)；⑤模型評(píng)估，得出最優(yōu)預(yù)測(cè)模型。其整體流程見(jiàn)圖6。

3 實(shí)例分析

以廣州市北環(huán)高速公路某收費(fèi)站2015年12月14日—2015年12月20日共計(jì)一周的車流數(shù)據(jù)進(jìn)行短時(shí)交流預(yù)測(cè)分析，其中有效數(shù)據(jù)為182 539條，選取其中122 301條作為訓(xùn)練樣本，其余60 238條作為測(cè)試樣本。

3.1 基于LSTM的短時(shí)交通流預(yù)測(cè)

3.1.1 LSTM模型搭建及參數(shù)選擇

基于歸一化數(shù)據(jù)搭建LSTM模型，t為時(shí)間間隔,Nt為t時(shí)段車流量數(shù)。將t時(shí)段收費(fèi)站的車流量作為模型的輸出，將此收費(fèi)站t時(shí)段前的r個(gè)連續(xù)時(shí)間序列車流量值作為模型的輸入，總體的輸入輸出模式如圖7。圖7中，虛線框?yàn)橐粋€(gè)訓(xùn)練樣本，箭頭指向?yàn)榇擞?xùn)練樣本的標(biāo)簽。選擇合適時(shí)間步長(zhǎng)、網(wǎng)絡(luò)層數(shù)、各層節(jié)點(diǎn)數(shù)使模型擁有良好的性能。為了使模型具有較強(qiáng)的泛化能力，在每次做時(shí)間步長(zhǎng)調(diào)整過(guò)后，需要對(duì)訓(xùn)練集利用隨機(jī)函數(shù)將數(shù)據(jù)塊完全打亂，使得最大化地降低塊與塊之間的關(guān)聯(lián)性，增強(qiáng)預(yù)測(cè)的合理性和準(zhǔn)確性。

試驗(yàn)中的網(wǎng)絡(luò)構(gòu)建采用Keras框架實(shí)現(xiàn)LSTM模塊。通過(guò)交叉驗(yàn)證的試驗(yàn)發(fā)現(xiàn)，采用2層LSTM構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)，時(shí)間步長(zhǎng)為4時(shí)，模型具有良好的表現(xiàn)力。模型采用隨機(jī)梯度下降(stochastic gradient descent, SGD)的方法進(jìn)行優(yōu)化，學(xué)習(xí)率為0. 001，批處理大小為128，最大迭代次數(shù)為5 000。

3.1.2 引入客車占比特征的改進(jìn)模型

根據(jù)1.2.2節(jié)對(duì)高速公路收費(fèi)站車流量數(shù)據(jù)和其客車占比數(shù)據(jù)的周期性驗(yàn)證可知，客車占比數(shù)據(jù)是交通流數(shù)據(jù)中隱藏的周期性部分。類似于此的周期性數(shù)據(jù)有利于提高模型預(yù)測(cè)的準(zhǔn)確度，故而在t時(shí)間間隔內(nèi)的輸入特征中引入客車占比。改進(jìn)后的輸入輸出模式如圖8。同時(shí)，為使實(shí)驗(yàn)結(jié)果具有可比性，引入客車占比特征后依然運(yùn)用2層LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)，采用隨機(jī)梯度下降進(jìn)行優(yōu)化，學(xué)習(xí)率為0.001，批處理大小為128，最大迭代次數(shù)為5 000。

3.2 實(shí)驗(yàn)結(jié)果

3.2.1 實(shí)驗(yàn)1

根據(jù)3.1.1節(jié)的預(yù)測(cè)模型，分別選取時(shí)間間隔t為5、10、15 min,選取r=4,即利用前4個(gè)時(shí)間序列的高速公路收費(fèi)站車流量數(shù)據(jù)，預(yù)測(cè)第5個(gè)時(shí)間段的車流量。3個(gè)不同時(shí)間間隔的模型預(yù)測(cè)結(jié)果如圖9，3個(gè)不同時(shí)間間隔的預(yù)測(cè)誤差如表3。由表3可以看出： 3個(gè)時(shí)間間隔的預(yù)測(cè)模型的MAPE均在20%以下，說(shuō)明模型有較好的適用程度；當(dāng)時(shí)間間隔選取5 min時(shí)，預(yù)測(cè)模型的均方根誤差(RMSE)、均方誤差(MSE)和平均絕對(duì)誤差(MAE)分別為1.27、1.61和9.95，模型的預(yù)測(cè)效果最好。同時(shí)，為了比較算法的優(yōu)劣程度，分別利用ARIMA算法、BP神經(jīng)網(wǎng)絡(luò)對(duì)同樣的數(shù)據(jù)進(jìn)行訓(xùn)練及預(yù)測(cè)，各類算法預(yù)測(cè)誤差的比較結(jié)果如表4，其中LSTM算法的誤差最小，預(yù)測(cè)效果最好。

表3 不同時(shí)間間隔下算法的誤差

表4 各類算法誤差比較

3.2.2 實(shí)驗(yàn)2

基于3.1.2節(jié)，對(duì)輸入樣本增加客車占比特征，同時(shí)選取與未加此特征時(shí)相同的t與r。模型預(yù)測(cè)結(jié)果如圖10。不同時(shí)間間隔下算法的誤差如表5。對(duì)比表3和表5可知：引入客車占比特征后，相同時(shí)間間隔下預(yù)測(cè)模型的RMSE、MSE與MAE均減小，且當(dāng)時(shí)間間隔為5 min時(shí)，預(yù)測(cè)模型的RMSE、MSE與MAE分別為1.16、1.35和9.07，分別下降了0.11、0.26和0.88，說(shuō)明引入客車占比特征可以有效減小模型誤差，提高預(yù)測(cè)準(zhǔn)確率。

表5 引入客車占比后不同時(shí)間間隔下算法的誤差

3.2.3 小結(jié)

對(duì)實(shí)驗(yàn)1和實(shí)驗(yàn)2進(jìn)行比較，可得：當(dāng)時(shí)間間隔選取為5 min時(shí)的模型預(yù)測(cè)結(jié)果最為優(yōu)越；加入客車占比特征后，模型預(yù)測(cè)誤差減小，準(zhǔn)確度提高。

4 結(jié) 語(yǔ)

以高速公路收費(fèi)站的車流數(shù)據(jù)為基礎(chǔ)，引入客車占比特征，利用LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建高速公路短時(shí)交通流量預(yù)測(cè)模型。提取車流數(shù)據(jù)中的客車占比特征并利用快速傅里葉算法(FFT)繪制功率頻譜圖對(duì)其進(jìn)行有效的周期性驗(yàn)證，證明其是高速公路收費(fèi)站車流量數(shù)據(jù)中隱藏的周期性部分。通過(guò)在模型中引入此特征，并選取適當(dāng)?shù)臅r(shí)間間隔，降低了模型的預(yù)測(cè)誤差，提高了短時(shí)車流量預(yù)測(cè)的正確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡