翁小雄,郝 翊
(華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510000)
準(zhǔn)確、及時(shí)的交通流信息對(duì)于智能交通系統(tǒng)至關(guān)重要。近年來(lái),交通數(shù)據(jù)呈爆炸式增長(zhǎng)。在交通大數(shù)據(jù)背景下,短時(shí)交通流分析與預(yù)測(cè)工作不斷深入?,F(xiàn)有的交通流預(yù)測(cè)方法多采用傳統(tǒng)時(shí)間序列模型[1],如李琦等[2]應(yīng)用的移動(dòng)平均法、J.RICE等[3]應(yīng)用的KNN算法、M. S. AHMED[4]應(yīng)用的ARIMA方法和近年來(lái)提出的組合模型法等。但以上算法均存在固有缺陷,導(dǎo)致對(duì)實(shí)際交通流預(yù)測(cè)效果不理想,這種情況促使筆者重新思考基于大數(shù)據(jù)的交通流預(yù)測(cè)問(wèn)題。
最近,LSTM神經(jīng)網(wǎng)絡(luò)作為一種擁有較強(qiáng)“記憶”能力的深度學(xué)習(xí)方法,已成功應(yīng)用于分類任務(wù)、自然語(yǔ)言處理[5]、降維、物體檢測(cè)[6]、運(yùn)動(dòng)建模等場(chǎng)景中。國(guó)內(nèi)外許多學(xué)者也將其應(yīng)用于交通工程領(lǐng)域,例如:2015年,X.L.MA等[7]利用其長(zhǎng)時(shí)間學(xué)習(xí)優(yōu)勢(shì),將LSTM應(yīng)用于交通流預(yù)測(cè);WU Yuankai[8]等基于LSTM對(duì)交通流的時(shí)空相關(guān)性進(jìn)行了研究;2018年,王祥雪等[9]搭建基于LSTM的城市快速路短時(shí)交通流預(yù)測(cè)模型等。但是以上預(yù)測(cè)模型的搭建均以交通流量為單一特征進(jìn)行輸入,并未挖掘交通流數(shù)據(jù)中隱含的周期性部分,忽略了其對(duì)交通流預(yù)測(cè)的影響。
筆者通過(guò)對(duì)歷史交通流數(shù)據(jù)的分析,證明客車占比是交通流數(shù)據(jù)中隱含的周期性部分,提出了增加客車占比特征的LSTM模型,并以廣州北環(huán)高速某收費(fèi)站為例進(jìn)行交通流預(yù)測(cè)的實(shí)例分析。結(jié)果表明:引入客車占比特征的LSTM預(yù)測(cè)模型降低了短時(shí)交通流預(yù)測(cè)的誤差,提高了預(yù)測(cè)的正確率。
1.1.1 數(shù)據(jù)集介紹
筆者所采用數(shù)據(jù)為廣東省廣州市北環(huán)高速公路某收費(fèi)站2015年12月14日—20日一周的車流數(shù)據(jù),共183 033條數(shù)據(jù)記錄。每條數(shù)據(jù)記錄中包含路網(wǎng)編號(hào)、路段編碼、站編號(hào)、車道編號(hào)、車道類型、日期及時(shí)間、車型、車種、車牌號(hào)碼、客貨標(biāo)識(shí)等信息。其字段和數(shù)據(jù)類型如表1。
表1 數(shù)據(jù)集說(shuō)明
抽取站編號(hào)、日期及時(shí)間、車型及客貨標(biāo)識(shí)4個(gè)關(guān)鍵數(shù)據(jù)進(jìn)行分析:站編號(hào)代表具體收費(fèi)站,數(shù)據(jù)類型為整型;日期及時(shí)間數(shù)據(jù)為Datetime型;車型數(shù)據(jù)為整型,1,2,3,4,5分別為交通部統(tǒng)一標(biāo)準(zhǔn)的一類車至五類車的車型;客貨標(biāo)識(shí)數(shù)據(jù)為整型,1表示客車,2表示貨車。數(shù)據(jù)實(shí)例如表2。
表2 數(shù)據(jù)實(shí)例
1.1.2 數(shù)據(jù)集處理
去除數(shù)據(jù)異常值、空值并進(jìn)行線性歸一化,最終獲得9號(hào)收費(fèi)站共182 539條車流信息數(shù)據(jù)。對(duì)數(shù)據(jù)按時(shí)間順序進(jìn)行排列,設(shè)定統(tǒng)計(jì)時(shí)間間隔為15 min,得到672個(gè)時(shí)間序列,一周交通流量數(shù)據(jù)如圖1。
同時(shí),計(jì)算此收費(fèi)站每個(gè)時(shí)間序列的客車占比。設(shè)第i個(gè)時(shí)間序列內(nèi)車流量總數(shù)為Mi,客車車流數(shù)為Vi,則第i個(gè)時(shí)間序列內(nèi)客車占比Ki的計(jì)算公式如式(1):
(1)
利用式(1)計(jì)算一周的車流數(shù)據(jù)中每個(gè)時(shí)序的客車占比情況,作出折線圖,結(jié)果如圖2。
從圖1和圖2看出,高速公路交通流量數(shù)據(jù)與高速公路客車占比數(shù)據(jù)呈現(xiàn)明顯的周期性特征,與城市交通流理論中指出的大部分交通流量數(shù)據(jù)存在周期性相符合。這種特性不僅存在于周與周之間,不同的工作日之間,甚至一天內(nèi)某些時(shí)段的交通流量數(shù)據(jù)也存在著相似。提取出交通流數(shù)據(jù)中隱藏的周期性部分可以幫助更好地理解交通系統(tǒng),便于取得更準(zhǔn)確的預(yù)測(cè)結(jié)果。
1.2.1 FFT算法介紹
周期性模式可以理解為對(duì)于包含N個(gè)事件的時(shí)序數(shù)據(jù)庫(kù){E1,E2,E3,E4,…,EN},其中的事件總以固定時(shí)間間隔重復(fù)發(fā)生,則認(rèn)為時(shí)間序列數(shù)據(jù)庫(kù)具有該模式。周期性驗(yàn)證在信號(hào)處理領(lǐng)域是一個(gè)眾所周知的問(wèn)題。傅里葉變換是一種基礎(chǔ)的信號(hào)處理工具,可確定數(shù)據(jù)中的頻率分量??焖俑道锶~變換FFT(fast Fourier transformation)是離散傅里葉變換(DFT)的快速算法[10],其根據(jù)離散傅里葉變換的奇、偶、虛、實(shí)等特性,對(duì)離散傅里葉變換進(jìn)行改進(jìn),使計(jì)算機(jī)計(jì)算離散傅里葉變換所需要的乘法次數(shù)大為減少。利用FFT算法,將數(shù)據(jù)從時(shí)域轉(zhuǎn)換至頻域,通過(guò)頻率函數(shù)可有效驗(yàn)證數(shù)據(jù)的周期性[11]。其計(jì)算公式如式(2)、式(3):
(2)
(3)
1.2.2 高速公路數(shù)據(jù)的周期性驗(yàn)證
利用1.2.1節(jié)介紹的快速傅里葉(FFT)算法對(duì)高速公路流量數(shù)據(jù)(圖1)及客車占比數(shù)據(jù)(圖2)進(jìn)行周期性驗(yàn)證,分別繪制其功率頻譜圖,結(jié)果如圖3、圖4。
從圖3和圖4中可看出,高速公路流量數(shù)據(jù)及客車占比數(shù)據(jù)均有明顯周期性,且兩者的最小周期相等,均為96。由于統(tǒng)計(jì)時(shí)間間隔為15 min,則96個(gè)時(shí)間序列剛好構(gòu)成一天(24 h),亦即說(shuō)明車流量數(shù)據(jù)與客車占比數(shù)據(jù)均具有日周期性的特征,其中客車占比數(shù)據(jù)是交通流量數(shù)據(jù)中隱含的周期性部分。
(4)
(5)
(6)
(7)
(8)
Ht=Ot×tanh(Ct-1)
(9)
式中:sigmoid函數(shù)是輸入門 、輸出門 、和遺忘門的激活函數(shù),為雙曲正切函數(shù)。
采用均方根誤差(RMSE)、均方誤差(MSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能。RMSE、MSE、MAE和MAPE的計(jì)算公式如式(10)~式(13):
(10)
(11)
(12)
(13)
式中:MAPE為相對(duì)誤差,代表模型的適用程度; RMSE、MSE和MAE為絕對(duì)誤差,其值越小,說(shuō)明預(yù)測(cè)值和真實(shí)值越接近,模型效果越好。
基于高速公路樣本數(shù)據(jù)采用長(zhǎng)短時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)訓(xùn)練構(gòu)建高速公路的短時(shí)交通流預(yù)測(cè)模型。其總體流程為:①數(shù)據(jù)預(yù)處理剔除異常值;②利用FFT對(duì)流量數(shù)據(jù)及客車占比數(shù)據(jù)進(jìn)行周期性驗(yàn)證;③利用LSTM對(duì)交通流量進(jìn)行預(yù)測(cè);④在流量數(shù)據(jù)中引入客車占比特征對(duì)流量進(jìn)行預(yù)測(cè);⑤模型評(píng)估,得出最優(yōu)預(yù)測(cè)模型。其整體流程見(jiàn)圖6。
以廣州市北環(huán)高速公路某收費(fèi)站2015年12月14日—2015年12月20日共計(jì)一周的車流數(shù)據(jù)進(jìn)行短時(shí)交流預(yù)測(cè)分析,其中有效數(shù)據(jù)為182 539條,選取其中122 301條作為訓(xùn)練樣本,其余60 238條作為測(cè)試樣本。
3.1.1 LSTM模型搭建及參數(shù)選擇
基于歸一化數(shù)據(jù)搭建LSTM模型,t為時(shí)間間隔,Nt為t時(shí)段車流量數(shù)。將t時(shí)段收費(fèi)站的車流量作為模型的輸出,將此收費(fèi)站t時(shí)段前的r個(gè)連續(xù)時(shí)間序列車流量值作為模型的輸入,總體的輸入輸出模式如圖7。圖7中,虛線框?yàn)橐粋€(gè)訓(xùn)練樣本,箭頭指向?yàn)榇擞?xùn)練樣本的標(biāo)簽。選擇合適時(shí)間步長(zhǎng)、網(wǎng)絡(luò)層數(shù)、各層節(jié)點(diǎn)數(shù)使模型擁有良好的性能。為了使模型具有較強(qiáng)的泛化能力,在每次做時(shí)間步長(zhǎng)調(diào)整過(guò)后,需要對(duì)訓(xùn)練集利用隨機(jī)函數(shù)將數(shù)據(jù)塊完全打亂,使得最大化地降低塊與塊之間的關(guān)聯(lián)性,增強(qiáng)預(yù)測(cè)的合理性和準(zhǔn)確性。
試驗(yàn)中的網(wǎng)絡(luò)構(gòu)建采用Keras框架實(shí)現(xiàn)LSTM模塊。通過(guò)交叉驗(yàn)證的試驗(yàn)發(fā)現(xiàn),采用2層LSTM構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò),時(shí)間步長(zhǎng)為4時(shí),模型具有良好的表現(xiàn)力。模型采用隨機(jī)梯度下降(stochastic gradient descent, SGD)的方法進(jìn)行優(yōu)化,學(xué)習(xí)率為0. 001,批處理大小為128,最大迭代次數(shù)為5 000。
3.1.2 引入客車占比特征的改進(jìn)模型
根據(jù)1.2.2節(jié)對(duì)高速公路收費(fèi)站車流量數(shù)據(jù)和其客車占比數(shù)據(jù)的周期性驗(yàn)證可知,客車占比數(shù)據(jù)是交通流數(shù)據(jù)中隱藏的周期性部分。類似于此的周期性數(shù)據(jù)有利于提高模型預(yù)測(cè)的準(zhǔn)確度,故而在t時(shí)間間隔內(nèi)的輸入特征中引入客車占比。改進(jìn)后的輸入輸出模式如圖8。同時(shí),為使實(shí)驗(yàn)結(jié)果具有可比性,引入客車占比特征后依然運(yùn)用2層LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),采用隨機(jī)梯度下降進(jìn)行優(yōu)化,學(xué)習(xí)率為0.001,批處理大小為128,最大迭代次數(shù)為5 000。
3.2.1 實(shí)驗(yàn)1
根據(jù)3.1.1節(jié)的預(yù)測(cè)模型,分別選取時(shí)間間隔t為5、10、15 min,選取r=4,即利用前4個(gè)時(shí)間序列的高速公路收費(fèi)站車流量數(shù)據(jù),預(yù)測(cè)第5個(gè)時(shí)間段的車流量。3個(gè)不同時(shí)間間隔的模型預(yù)測(cè)結(jié)果如圖9,3個(gè)不同時(shí)間間隔的預(yù)測(cè)誤差如表3。由表3可以看出: 3個(gè)時(shí)間間隔的預(yù)測(cè)模型的MAPE均在20%以下,說(shuō)明模型有較好的適用程度;當(dāng)時(shí)間間隔選取5 min時(shí),預(yù)測(cè)模型的均方根誤差(RMSE)、均方誤差(MSE)和平均絕對(duì)誤差(MAE)分別為1.27、1.61和9.95,模型的預(yù)測(cè)效果最好。同時(shí),為了比較算法的優(yōu)劣程度,分別利用ARIMA算法、BP神經(jīng)網(wǎng)絡(luò)對(duì)同樣的數(shù)據(jù)進(jìn)行訓(xùn)練及預(yù)測(cè),各類算法預(yù)測(cè)誤差的比較結(jié)果如表4,其中LSTM算法的誤差最小,預(yù)測(cè)效果最好。
表3 不同時(shí)間間隔下算法的誤差
表4 各類算法誤差比較
3.2.2 實(shí)驗(yàn)2
基于3.1.2節(jié),對(duì)輸入樣本增加客車占比特征,同時(shí)選取與未加此特征時(shí)相同的t與r。模型預(yù)測(cè)結(jié)果如圖10。不同時(shí)間間隔下算法的誤差如表5。對(duì)比表3和表5可知:引入客車占比特征后,相同時(shí)間間隔下預(yù)測(cè)模型的RMSE、MSE與MAE均減小,且當(dāng)時(shí)間間隔為5 min時(shí),預(yù)測(cè)模型的RMSE、MSE與MAE分別為1.16、1.35和9.07,分別下降了0.11、0.26和0.88,說(shuō)明引入客車占比特征可以有效減小模型誤差,提高預(yù)測(cè)準(zhǔn)確率。
表5 引入客車占比后不同時(shí)間間隔下算法的誤差
3.2.3 小 結(jié)
對(duì)實(shí)驗(yàn)1和實(shí)驗(yàn)2進(jìn)行比較,可得:當(dāng)時(shí)間間隔選取為5 min時(shí)的模型預(yù)測(cè)結(jié)果最為優(yōu)越;加入客車占比特征后,模型預(yù)測(cè)誤差減小,準(zhǔn)確度提高。
以高速公路收費(fèi)站的車流數(shù)據(jù)為基礎(chǔ),引入客車占比特征,利用LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建高速公路短時(shí)交通流量預(yù)測(cè)模型。提取車流數(shù)據(jù)中的客車占比特征并利用快速傅里葉算法(FFT)繪制功率頻譜圖對(duì)其進(jìn)行有效的周期性驗(yàn)證,證明其是高速公路收費(fèi)站車流量數(shù)據(jù)中隱藏的周期性部分。通過(guò)在模型中引入此特征,并選取適當(dāng)?shù)臅r(shí)間間隔,降低了模型的預(yù)測(cè)誤差,提高了短時(shí)車流量預(yù)測(cè)的正確率。