基于GRU-RNN模型的交叉口短時(shí)交通流預(yù)測(cè)研究

2020-09-07 07:03于德新周戶星王卓睿

公路工程 2020年4期

于德新，邱實(shí)，周戶星，王卓睿

（1.吉林大學(xué) 交通學(xué)院，吉林長(zhǎng)春 130022；2.吉林省道路交通重點(diǎn)實(shí)驗(yàn)室，吉林長(zhǎng)春 130022）

0 引言

智能交通系統(tǒng)中，短時(shí)交通流預(yù)測(cè)一直是學(xué)術(shù)界關(guān)注的重點(diǎn)，它即能為交通管理者制定管控措施提供依據(jù)，又能為交通參與者提供引導(dǎo)信息，使交通流合理分配，提高道路交通效率，減少碳排放，緩解道路交通擁擠。國(guó)內(nèi)外學(xué)者均進(jìn)行了大量研究，其模型主要分為4大類：①線性系統(tǒng)理論預(yù)測(cè)方法，包括歷史平均法、時(shí)間序列預(yù)測(cè)法［1］、卡爾曼濾波預(yù)測(cè)方法［2］等。系統(tǒng)狀態(tài)通過描述系統(tǒng)行為特征的變量來(lái)表現(xiàn)，其原理相對(duì)簡(jiǎn)單。GUO［3］等利用卡爾曼濾波器實(shí)現(xiàn)了SARIMA＋GARCH結(jié)構(gòu)，以交通流15 min區(qū)間數(shù)據(jù)作實(shí)例驗(yàn)證，表明自適應(yīng)卡爾曼濾波方法能夠生成水平預(yù)測(cè)和預(yù)測(cè)區(qū)間，在流量不穩(wěn)定的情況下表現(xiàn)出更好的適應(yīng)性。林培群［4］等提出用K近鄰算法匹配地鐵客流量進(jìn)行短時(shí)客流量預(yù)測(cè)，結(jié)果表明能夠準(zhǔn)確預(yù)測(cè)不同交通模式的地鐵客流量。②非線性系統(tǒng)理論預(yù)測(cè)方法，包括小波分析法［5］、突變理論［6］、混沌理論等。短時(shí)交通流具有非線性特性，故應(yīng)用效果更好。CARDOSO［7］提出自適應(yīng)估計(jì)小波變換尺度系數(shù)的方法，仿真結(jié)果驗(yàn)證了小波域內(nèi)對(duì)建模參數(shù)的估計(jì)是準(zhǔn)確的。③智能模型預(yù)測(cè)法，包括神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型［8-9］、支持向量機(jī)預(yù)測(cè)模型、元胞自動(dòng)機(jī)理論等。智能模型具有預(yù)測(cè)精度好、自適應(yīng)能力強(qiáng)、可實(shí)時(shí)預(yù)測(cè)等優(yōu)點(diǎn)，適用于復(fù)雜的交通系統(tǒng)。王體迎［10］等采用門限遞歸單元循環(huán)神經(jīng)網(wǎng)絡(luò)的方法預(yù)測(cè)加拿大某省的交通數(shù)據(jù)，其結(jié)果優(yōu)于ARIMA與SVR兩種方法，但未能表明是否適用于我國(guó)交通現(xiàn)狀。④組合模型預(yù)測(cè)法。CEEMDANPE-OSELM預(yù)測(cè)模型［11］，提出了一種根據(jù)歷史數(shù)據(jù)的噪聲分解重組構(gòu)建新序列方法，將重組結(jié)果相加獲得最終的預(yù)測(cè)流量。所述各類方法具有不同適用情況，客觀地反映了交通流變化的根本特征。

近年來(lái)，機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)已成為眾多學(xué)者的研究?jī)?nèi)容［12-13］，它模擬人腦進(jìn)行學(xué)習(xí)分析圖像、聲音和文本，能夠?qū)崿F(xiàn)特定的任務(wù)。本文利用其分類下的RNN（Recurrent Neural Network）循環(huán)神經(jīng)網(wǎng)絡(luò)模型，當(dāng)大量交通數(shù)據(jù)作為輸入時(shí)，可以根據(jù)時(shí)空相關(guān)性對(duì)數(shù)據(jù)進(jìn)行時(shí)序分解和重構(gòu)，處理后樣本的依賴性明顯降低，其預(yù)測(cè)結(jié)果反映了數(shù)據(jù)變化規(guī)律，相比其他模型具有更快的處理速度和更強(qiáng)的計(jì)算能力［14-15］。

1 隨機(jī)森林算法數(shù)據(jù)預(yù)處理

首先分析缺失數(shù)據(jù)的模式，利用算法對(duì)數(shù)據(jù)樣本之間關(guān)系的出色自動(dòng)分析能力對(duì)交叉口交通流量進(jìn)行隨機(jī)森林算法補(bǔ)全。

1.1 缺失數(shù)據(jù)描述

現(xiàn)有檢測(cè)器數(shù)據(jù)由于故障等原因并不能得到完整數(shù)據(jù)，這就需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行補(bǔ)全或者丟棄處理。但簡(jiǎn)單地?cái)?shù)據(jù)丟棄并不是一個(gè)合理做法，有價(jià)值的數(shù)據(jù)可能會(huì)隨之丟失。常用缺失數(shù)據(jù)處理方法一般采用剔除法、均值替換法、線性回歸法等等，但是這些方法都無(wú)法避免主觀因素對(duì)原始數(shù)據(jù)的影響，且預(yù)測(cè)誤差很大。本文針對(duì)城市交叉口檢測(cè)器數(shù)據(jù)的長(zhǎng)周期缺失情況，即缺失時(shí)間是數(shù)周期甚至數(shù)小時(shí)，提出采用隨機(jī)森林模型進(jìn)行數(shù)據(jù)補(bǔ)全，此算法利用非缺失的數(shù)據(jù)序列訓(xùn)練回歸樹，再通過樹的組合形成隨機(jī)森林，在變量（列）的使用和數(shù)據(jù) （行）的使用上進(jìn)行隨機(jī)化，生成很多回歸，再通過求均值，匯總回歸樹的結(jié)果，預(yù)測(cè)出缺失值。

1.2 算法步驟

隨機(jī)森林回歸算法是基于回歸樹的集成算法?；貧w樹采用最小均方差原則，即對(duì)于任意劃分特征A，對(duì)應(yīng)的任意劃分點(diǎn)S兩邊劃分成的數(shù)據(jù)集D1和D2，遍歷所有特征與嘗試該特征所有取值后，求出使D1和D2各自集合的均方差最小，同時(shí)D1和D2的均方差之和最小所對(duì)應(yīng)的特征和特征值劃分點(diǎn)。表達(dá)式為：

式中：c1為D2數(shù)據(jù)集的樣本輸出均值，c2為D2數(shù)據(jù)集的樣本輸出均值。

回歸樹的預(yù)測(cè)是根據(jù)葉子結(jié)點(diǎn)的均值，因此隨機(jī)森林的預(yù)測(cè)是所有樹的預(yù)測(cè)值的平均值。

假設(shè)隨機(jī)森林由NTREE回歸樹構(gòu)成，算法步驟如下：

步驟1：從訓(xùn)練集Sii∈（1，n( )）中隨機(jī)取樣（有放回抽樣）；

步驟2：從N個(gè)特征中隨機(jī)抽取K個(gè)特征；

步驟3：按照回歸樹算法訓(xùn)練得到模型Ht；

步驟4：重復(fù)步驟1、2、3，直到NTREE棵樹構(gòu)建完畢；

步驟5：對(duì)未知樣本X回歸時(shí)，每個(gè)模型Ht都得出一個(gè)回歸結(jié)果，通過計(jì)算平均值，最終得到隨機(jī)森林預(yù)測(cè)結(jié)果。

補(bǔ)全數(shù)據(jù)流程如圖1所示。

其中基尼不純度是指將來(lái)自集合中的某種結(jié)果隨機(jī)應(yīng)用于集合中某一數(shù)據(jù)項(xiàng)的預(yù)期誤差率，即：

圖1 數(shù)據(jù)補(bǔ)全流程Figure 1 Data completion process

式中：fi為事件發(fā)生的概率。

2 基于深度學(xué)習(xí)的短時(shí)交通流預(yù)測(cè)模型

2.1 時(shí)間序列模型

為便于理解本方法，簡(jiǎn)單介紹循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN），它區(qū)別于前饋神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)據(jù)后向前傳播得出損失函數(shù)的殘差，再把殘差向后傳播，不斷調(diào)節(jié)網(wǎng)絡(luò)權(quán)重值后，得出訓(xùn)練結(jié)果，其目的是最少量得出預(yù)測(cè)值［16］。而RNN是一類專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，對(duì)文本處理上有明顯優(yōu)勢(shì)，序列中當(dāng)前的輸出與之前的輸出相關(guān)，會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出中，在RNN結(jié)構(gòu)中引入GRU單元，通過門的控制，決定歷史數(shù)據(jù)序列的權(quán)重，在實(shí)踐過程中降低訓(xùn)練的復(fù)雜性、縮短訓(xùn)練的時(shí)間［17-18］。

將RNN的反饋結(jié)構(gòu)展開，如圖2所示，引入門的概念，修改了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏狀態(tài)的計(jì)算方式，其他輸入和輸入設(shè)計(jì)不變。圖2中，為時(shí)刻的輸入，隱藏層中存在兩個(gè)門限，分別為更新門和重置門，即圖中的和。將輸入和前一時(shí)刻隱藏狀態(tài)組合成向量，經(jīng)過激活函數(shù)Tanh后，輸出新的隱藏狀態(tài)，進(jìn)行信息的傳遞過程。

圖2 GRU-RNN結(jié)構(gòu)展開圖Figure 2 RNN structure expansion diagram based on GRU

a.更新門rt與重置門zt。

更新門決定前一時(shí)刻的狀態(tài)對(duì)當(dāng)前狀態(tài)的影響程度，值越大影響程度越大。重置門控制對(duì)前一時(shí)刻的忽略程度，值越小說(shuō)明忽略的越多，其中ht-1表示前一時(shí)刻的隱藏狀態(tài)，σ表示sigmoid激活函數(shù)，W為輸入的權(quán)重向量。

c.隱藏狀態(tài)。

綜上所述，流量數(shù)據(jù)具有明顯時(shí)間依賴性，過去的交通狀態(tài)會(huì)對(duì)當(dāng)前狀態(tài)產(chǎn)生長(zhǎng)期影響，GRURNN通過控制與更新門限層控制模型的記憶能力［19］（7），在不斷迭代過程中，對(duì)歷史數(shù)據(jù)的特征信息進(jìn)行記憶與更新，歷史數(shù)據(jù)會(huì)被賦予不同的權(quán)重值，已經(jīng)訓(xùn)練的模型會(huì)對(duì)接下來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)［20］。

2.2 時(shí)序分解步驟

首先將交通流數(shù)據(jù)從檢測(cè)器中提取并進(jìn)行簡(jiǎn)單處理，用矩陣形式表示當(dāng)天駛過此監(jiān)測(cè)點(diǎn)的交通流量數(shù)據(jù)記錄，采用熱獨(dú)編碼形式對(duì)其外部因素進(jìn)行獨(dú)立編碼，預(yù)測(cè)未來(lái)時(shí)刻交叉口的交通流量，因此設(shè)置時(shí)間間隔為24 h，第N天的交通流量矩陣為X∈RN，其中矩陣中元素Xi，j，i為該交叉口的5 min序列號(hào)，j為交叉口的特征。這種方法不僅可以預(yù)測(cè)交叉口的每天流量，對(duì)每5 min的交通流量也可精準(zhǔn)預(yù)測(cè)，能夠達(dá)到更細(xì)粒度的結(jié)果，對(duì)交通管理和調(diào)度更有利。

時(shí)間序列的GRU-RNN模型可分解為3個(gè)RNN子序列，其每個(gè)子序列分別對(duì)應(yīng)短時(shí)記憶、周期記憶與長(zhǎng)時(shí)記憶。捕捉數(shù)據(jù)中的交通流量特性，分別進(jìn)行擬合，將子序列的權(quán)重進(jìn)行加權(quán)融合，通過訓(xùn)練得到最終結(jié)果

基于時(shí)間序列的GRU-RNN交通流量預(yù)測(cè)方法的基本思想如下：

步驟2：分析每個(gè)數(shù)據(jù)的特征，及其相對(duì)應(yīng)的變化規(guī)律，對(duì)此進(jìn)行時(shí)序分解建模。

步驟3：構(gòu)建GRU-RNN模型，對(duì)訓(xùn)練后的結(jié)果賦予不同的權(quán)重，求解后可得到最終模型。X′＝θ1Xs＋θ2Xp＋θ3Xl，式中 θ1，θ2，θ3為權(quán)重值，Xs，Xp，Xl分別對(duì)應(yīng)不同特性的擬合結(jié)果。

3 實(shí)例驗(yàn)證

選取合肥市黃山路交叉口，采集西進(jìn)口連續(xù)5個(gè)工作日的5 min流量數(shù)據(jù)，其檢測(cè)器的布設(shè)及交叉口類型如圖3所示。共有1 440個(gè)數(shù)據(jù)樣本，由于檢測(cè)器故障等原因，數(shù)據(jù)集有10%缺失，故用隨機(jī)森林回歸算法做補(bǔ)全數(shù)據(jù)處理。

3.1 數(shù)據(jù)預(yù)處理

選用完整數(shù)據(jù)作為特征值，并篩選非空樣本集合作為因變量，建立隨機(jī)森林回歸模型，對(duì)存在缺失值的樣本進(jìn)行填充。為有效消除量綱影響，便于機(jī)器學(xué)習(xí)，采用Z-score標(biāo)準(zhǔn)化方法對(duì)自變量進(jìn)行數(shù)據(jù)處理，使得數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布，即；

圖3 交叉口特性Figure 3 Characteristics of intersections

式中：x為個(gè)體觀測(cè)值；μ為總體數(shù)據(jù)的均值；σ總體數(shù)據(jù)的標(biāo)準(zhǔn)差。

硬件及軟件環(huán)境分別為Intel i 7、3.6 GHz CPU、32 GB內(nèi)存的工作機(jī)，以Myeclipse 8.5作為開發(fā)環(huán)境，連接Python實(shí)現(xiàn)隨機(jī)森林模型及GRU-RNN的搭建與訓(xùn)練，其中，對(duì)比了隨機(jī)森林模型與線性回歸模型的誤差水平。

如圖4所示，隨機(jī)森林模型可以實(shí)現(xiàn)與現(xiàn)有交通流的變化趨勢(shì)，且交通量出現(xiàn)突變時(shí)，本文采用模型補(bǔ)全方法更貼近真實(shí)值?？梢钥闯?，在長(zhǎng)周期缺失情況下，線性回歸模型的補(bǔ)全交通量可能為負(fù)值，模型的穩(wěn)定性相較之略差。

圖4 缺失值補(bǔ)全數(shù)據(jù)Figure 4 Missing value completion data

以原始結(jié)果作為橫坐標(biāo)，以預(yù)測(cè)結(jié)果作為縱坐標(biāo)，如圖5所示，隨機(jī)森林的預(yù)測(cè)結(jié)果更貼近于標(biāo)準(zhǔn)線，模型訓(xùn)練結(jié)果更好。采用擬合優(yōu)度（R2）與均方差誤差根作為評(píng)價(jià)指標(biāo)，從表1中能夠得到隨機(jī)森林算法的擬合優(yōu)度大于線性回歸法，誤差也有所減小。

圖5 擬合結(jié)果Figure 5 Fitting results

擬合優(yōu)度（R2）與均方根誤差（RMSE）分別為；

表1 預(yù)測(cè)結(jié)果指標(biāo)對(duì)比Table 1 Comparison of prediction indicators results

3.2 結(jié)果分析

將前四天流量數(shù)據(jù)作為模型訓(xùn)練集，第五天數(shù)據(jù)作為模型測(cè)試集，訓(xùn)練集維度為287行4列，對(duì)比經(jīng)典BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型，采用擬合優(yōu)度與均方差誤差根作為評(píng)價(jià)指標(biāo)，驗(yàn)證本文所提方法的有效性。

參數(shù)設(shè)置如表2所示，因?yàn)榻煌髁繑?shù)據(jù)具有噪聲，使用Adam算法進(jìn)行優(yōu)化，更適用于噪聲和梯度消失的問題。

表2 參數(shù)設(shè)置Table 2 Parameter Settings

由圖6可知，GRU-RNN模型流量預(yù)測(cè)值與真實(shí)值最為接近，對(duì)于流量的變化幅度擬合更好。BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型與真實(shí)值的擬合程度低，與真實(shí)值有所偏離。

圖6 預(yù)測(cè)效果評(píng)估Figure 6 Prediction effect evaluation

由圖7可知，GRU-RNN模型誤差小于BP神經(jīng)網(wǎng)絡(luò)模型，更貼近于真實(shí)值。由表3所示，擬合優(yōu)度為0.962，越接近于1時(shí)說(shuō)明擬合效果越好，均方根誤差RMSE為6.258，較BP模型誤差小近一半，說(shuō)明誤差分布更穩(wěn)定。GRU-RNN連續(xù)流量數(shù)據(jù)中挖掘時(shí)間序列的規(guī)律，精度高擬合效果好的主要原因：在擬合過程中沒有忽略樣本中的缺失數(shù)據(jù)，補(bǔ)全之后獲得高質(zhì)量高連續(xù)性數(shù)據(jù)；在預(yù)測(cè)過程中通過激活函數(shù)和門限控制獲得了更好的時(shí)空信息相關(guān)性，減少了原本RNN中的梯度爆炸與梯度消失的問題。

表3 模型預(yù)測(cè)指標(biāo)對(duì)比Table 3 Comparison of prediction indexes of the model

圖7 預(yù)測(cè)結(jié)果誤差分布Figure 7 Error distribution of prediction results

4 結(jié)論

a.從交通流量數(shù)據(jù)長(zhǎng)周期缺失問題中入手，提出采用隨機(jī)森林算法的數(shù)據(jù)補(bǔ)全方法，評(píng)估了算法的性能，驗(yàn)證了數(shù)據(jù)補(bǔ)全的有效性。

b.在深度學(xué)習(xí)理論框架下，采用GRU-RNN模型根據(jù)流量數(shù)據(jù)的時(shí)空關(guān)聯(lián)性完成時(shí)間序列重構(gòu)，實(shí)現(xiàn)了交通流量精準(zhǔn)預(yù)測(cè)。

c.預(yù)測(cè)模型與經(jīng)典BP神經(jīng)網(wǎng)絡(luò)相比，擬合優(yōu)度值為0.962，與真實(shí)值擬合效果更好，均方根誤差為6.2576，誤差分布更均勻穩(wěn)定。

d.所用方法對(duì)城市交叉口的檢測(cè)器數(shù)據(jù)有明顯適用性，所預(yù)測(cè)結(jié)果準(zhǔn)確度優(yōu)于其他方法。

e.隨著深度學(xué)習(xí)不斷發(fā)展，將成果應(yīng)用于大數(shù)據(jù)環(huán)境中，且交通流預(yù)測(cè)不僅與時(shí)間序列相關(guān)，也受相鄰交叉口上下游流量的空間屬性影響，今后將進(jìn)一步深入研究以上內(nèi)容，實(shí)現(xiàn)更高效準(zhǔn)確的交通流預(yù)測(cè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡