于德新,邱 實(shí),周戶星,王卓睿
(1.吉林大學(xué) 交通學(xué)院,吉林 長(zhǎng)春 130022;2.吉林省道路交通重點(diǎn)實(shí)驗(yàn)室,吉林 長(zhǎng)春 130022)
智能交通系統(tǒng)中,短時(shí)交通流預(yù)測(cè)一直是學(xué)術(shù)界關(guān)注的重點(diǎn),它即能為交通管理者制定管控措施提供依據(jù),又能為交通參與者提供引導(dǎo)信息,使交通流合理分配,提高道路交通效率,減少碳排放,緩解道路交通擁擠。國(guó)內(nèi)外學(xué)者均進(jìn)行了大量研究,其模型主要分為4大類:①線性系統(tǒng)理論預(yù)測(cè)方法,包括歷史平均法、時(shí)間序列預(yù)測(cè)法[1]、卡爾曼濾波預(yù)測(cè)方法[2]等。系統(tǒng)狀態(tài)通過描述系統(tǒng)行為特征的變量來(lái)表現(xiàn),其原理相對(duì)簡(jiǎn)單。GUO[3]等利用卡爾曼濾波器實(shí)現(xiàn)了SARIMA+GARCH結(jié)構(gòu),以交通流15 min區(qū)間數(shù)據(jù)作實(shí)例驗(yàn)證,表明自適應(yīng)卡爾曼濾波方法能夠生成水平預(yù)測(cè)和預(yù)測(cè)區(qū)間,在流量不穩(wěn)定的情況下表現(xiàn)出更好的適應(yīng)性。林培群[4]等提出用K近鄰算法匹配地鐵客流量進(jìn)行短時(shí)客流量預(yù)測(cè),結(jié)果表明能夠準(zhǔn)確預(yù)測(cè)不同交通模式的地鐵客流量。②非線性系統(tǒng)理論預(yù)測(cè)方法,包括小波分析法[5]、突變理論[6]、混沌理論等。短時(shí)交通流具有非線性特性,故應(yīng)用效果更好。CARDOSO[7]提出自適應(yīng)估計(jì)小波變換尺度系數(shù)的方法,仿真結(jié)果驗(yàn)證了小波域內(nèi)對(duì)建模參數(shù)的估計(jì)是準(zhǔn)確的。③智能模型預(yù)測(cè)法,包括神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[8-9]、支持向量機(jī)預(yù)測(cè)模型、元胞自動(dòng)機(jī)理論等。智能模型具有預(yù)測(cè)精度好、自適應(yīng)能力強(qiáng)、可實(shí)時(shí)預(yù)測(cè)等優(yōu)點(diǎn),適用于復(fù)雜的交通系統(tǒng)。王體迎[10]等采用門限遞歸單元循環(huán)神經(jīng)網(wǎng)絡(luò)的方法預(yù)測(cè)加拿大某省的交通數(shù)據(jù),其結(jié)果優(yōu)于ARIMA與SVR兩種方法,但未能表明是否適用于我國(guó)交通現(xiàn)狀。④組合模型預(yù)測(cè)法。CEEMDANPE-OSELM預(yù)測(cè)模型[11],提出了一種根據(jù)歷史數(shù)據(jù)的噪聲分解重組構(gòu)建新序列方法,將重組結(jié)果相加獲得最終的預(yù)測(cè)流量。所述各類方法具有不同適用情況,客觀地反映了交通流變化的根本特征。
近年來(lái),機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)已成為眾多學(xué)者的研究?jī)?nèi)容[12-13],它模擬人腦進(jìn)行學(xué)習(xí)分析圖像、聲音和文本,能夠?qū)崿F(xiàn)特定的任務(wù)。本文利用其分類下的RNN(Recurrent Neural Network)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,當(dāng)大量交通數(shù)據(jù)作為輸入時(shí),可以根據(jù)時(shí)空相關(guān)性對(duì)數(shù)據(jù)進(jìn)行時(shí)序分解和重構(gòu),處理后樣本的依賴性明顯降低,其預(yù)測(cè)結(jié)果反映了數(shù)據(jù)變化規(guī)律,相比其他模型具有更快的處理速度和更強(qiáng)的計(jì)算能力[14-15]。
首先分析缺失數(shù)據(jù)的模式,利用算法對(duì)數(shù)據(jù)樣本之間關(guān)系的出色自動(dòng)分析能力對(duì)交叉口交通流量進(jìn)行隨機(jī)森林算法補(bǔ)全。
現(xiàn)有檢測(cè)器數(shù)據(jù)由于故障等原因并不能得到完整數(shù)據(jù),這就需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行補(bǔ)全或者丟棄處理。但簡(jiǎn)單地?cái)?shù)據(jù)丟棄并不是一個(gè)合理做法,有價(jià)值的數(shù)據(jù)可能會(huì)隨之丟失。常用缺失數(shù)據(jù)處理方法一般采用剔除法、均值替換法、線性回歸法等等,但是這些方法都無(wú)法避免主觀因素對(duì)原始數(shù)據(jù)的影響,且預(yù)測(cè)誤差很大。本文針對(duì)城市交叉口檢測(cè)器數(shù)據(jù)的長(zhǎng)周期缺失情況,即缺失時(shí)間是數(shù)周期甚至數(shù)小時(shí),提出采用隨機(jī)森林模型進(jìn)行數(shù)據(jù)補(bǔ)全,此算法利用非缺失的數(shù)據(jù)序列訓(xùn)練回歸樹,再通過樹的組合形成隨機(jī)森林,在變量 (列)的使用和數(shù)據(jù) (行)的使用上進(jìn)行隨機(jī)化,生成很多回歸,再通過求均值,匯總回歸樹的結(jié)果,預(yù)測(cè)出缺失值。
隨機(jī)森林回歸算法是基于回歸樹的集成算法?;貧w樹采用最小均方差原則,即對(duì)于任意劃分特征A,對(duì)應(yīng)的任意劃分點(diǎn)S兩邊劃分成的數(shù)據(jù)集D1和D2,遍歷所有特征與嘗試該特征所有取值后,求出使D1和D2各自集合的均方差最小,同時(shí)D1和D2的均方差之和最小所對(duì)應(yīng)的特征和特征值劃分點(diǎn)。表達(dá)式為:
式中:c1為D2數(shù)據(jù)集的樣本輸出均值,c2為D2數(shù)據(jù)集的樣本輸出均值。
回歸樹的預(yù)測(cè)是根據(jù)葉子結(jié)點(diǎn)的均值,因此隨機(jī)森林的預(yù)測(cè)是所有樹的預(yù)測(cè)值的平均值。
假設(shè)隨機(jī)森林由NTREE回歸樹構(gòu)成,算法步驟如下:
步驟1:從訓(xùn)練集Sii∈(1,n( ))中隨機(jī)取樣(有放回抽樣);
步驟2:從N個(gè)特征中隨機(jī)抽取K個(gè)特征;
步驟3:按照回歸樹算法訓(xùn)練得到模型Ht;
步驟4:重復(fù)步驟1、2、3,直到NTREE棵樹構(gòu)建完畢;
步驟5:對(duì)未知樣本X回歸時(shí),每個(gè)模型Ht都得出一個(gè)回歸結(jié)果,通過計(jì)算平均值,最終得到隨機(jī)森林預(yù)測(cè)結(jié)果。
補(bǔ)全數(shù)據(jù)流程如圖1所示。
其中基尼不純度是指將來(lái)自集合中的某種結(jié)果隨機(jī)應(yīng)用于集合中某一數(shù)據(jù)項(xiàng)的預(yù)期誤差率,即:
圖1 數(shù)據(jù)補(bǔ)全流程Figure 1 Data completion process
式中:fi為事件發(fā)生的概率。
為便于理解本方法,簡(jiǎn)單介紹循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),它區(qū)別于前饋神經(jīng)網(wǎng)絡(luò)通過輸入數(shù)據(jù)后向前傳播得出損失函數(shù)的殘差,再把殘差向后傳播,不斷調(diào)節(jié)網(wǎng)絡(luò)權(quán)重值后,得出訓(xùn)練結(jié)果,其目的是最少量得出預(yù)測(cè)值[16]。而RNN是一類專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),對(duì)文本處理上有明顯優(yōu)勢(shì),序列中當(dāng)前的輸出與之前的輸出相關(guān),會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出中,在RNN結(jié)構(gòu)中引入GRU單元,通過門的控制,決定歷史數(shù)據(jù)序列的權(quán)重,在實(shí)踐過程中降低訓(xùn)練的復(fù)雜性、縮短訓(xùn)練的時(shí)間[17-18]。
將RNN的反饋結(jié)構(gòu)展開,如圖2所示,引入門的概念,修改了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏狀態(tài)的計(jì)算方式,其他輸入和輸入設(shè)計(jì)不變。圖2中,為時(shí)刻的輸入,隱藏層中存在兩個(gè)門限,分別為更新門和重置門,即圖中的和。將輸入和前一時(shí)刻隱藏狀態(tài)組合成向量,經(jīng)過激活函數(shù)Tanh后,輸出新的隱藏狀態(tài),進(jìn)行信息的傳遞過程。
圖2 GRU-RNN結(jié)構(gòu)展開圖Figure 2 RNN structure expansion diagram based on GRU
a.更新門rt與重置門zt。
更新門決定前一時(shí)刻的狀態(tài)對(duì)當(dāng)前狀態(tài)的影響程度,值越大影響程度越大。重置門控制對(duì)前一時(shí)刻的忽略程度,值越小說(shuō)明忽略的越多,其中ht-1表示前一時(shí)刻的隱藏狀態(tài),σ表示sigmoid激活函數(shù),W為輸入的權(quán)重向量。
c.隱藏狀態(tài)。
綜上所述,流量數(shù)據(jù)具有明顯時(shí)間依賴性,過去的交通狀態(tài)會(huì)對(duì)當(dāng)前狀態(tài)產(chǎn)生長(zhǎng)期影響,GRURNN通過控制與更新門限層控制模型的記憶能力[19](7),在不斷迭代過程中,對(duì)歷史數(shù)據(jù)的特征信息進(jìn)行記憶與更新,歷史數(shù)據(jù)會(huì)被賦予不同的權(quán)重值,已經(jīng)訓(xùn)練的模型會(huì)對(duì)接下來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)[20]。
首先將交通流數(shù)據(jù)從檢測(cè)器中提取并進(jìn)行簡(jiǎn)單處理,用矩陣形式表示當(dāng)天駛過此監(jiān)測(cè)點(diǎn)的交通流量數(shù)據(jù)記錄,采用熱獨(dú)編碼形式對(duì)其外部因素進(jìn)行獨(dú)立編碼,預(yù)測(cè)未來(lái)時(shí)刻交叉口的交通流量,因此設(shè)置時(shí)間間隔為24 h,第N天的交通流量矩陣為X∈RN,其中矩陣中元素Xi,j,i為該交叉口的5 min序列號(hào),j為交叉口的特征。這種方法不僅可以預(yù)測(cè)交叉口的每天流量,對(duì)每5 min的交通流量也可精準(zhǔn)預(yù)測(cè),能夠達(dá)到更細(xì)粒度的結(jié)果,對(duì)交通管理和調(diào)度更有利。
時(shí)間序列的GRU-RNN模型可分解為3個(gè)RNN子序列,其每個(gè)子序列分別對(duì)應(yīng)短時(shí)記憶、周期記憶與長(zhǎng)時(shí)記憶。捕捉數(shù)據(jù)中的交通流量特性,分別進(jìn)行擬合,將子序列的權(quán)重進(jìn)行加權(quán)融合,通過訓(xùn)練得到最終結(jié)果
基于時(shí)間序列的GRU-RNN交通流量預(yù)測(cè)方法的基本思想如下:
步驟2:分析每個(gè)數(shù)據(jù)的特征,及其相對(duì)應(yīng)的變化規(guī)律,對(duì)此進(jìn)行時(shí)序分解建模。
步驟3:構(gòu)建GRU-RNN模型,對(duì)訓(xùn)練后的結(jié)果賦予不同的權(quán)重,求解后可得到最終模型。X′=θ1Xs+θ2Xp+θ3Xl,式中 θ1,θ2,θ3為權(quán)重值,Xs,Xp,Xl分別對(duì)應(yīng)不同特性的擬合結(jié)果。
選取合肥市黃山路交叉口,采集西進(jìn)口連續(xù)5個(gè)工作日的5 min流量數(shù)據(jù),其檢測(cè)器的布設(shè)及交叉口類型如圖3所示。共有1 440個(gè)數(shù)據(jù)樣本,由于檢測(cè)器故障等原因,數(shù)據(jù)集有10%缺失,故用隨機(jī)森林回歸算法做補(bǔ)全數(shù)據(jù)處理。
選用完整數(shù)據(jù)作為特征值,并篩選非空樣本集合作為因變量,建立隨機(jī)森林回歸模型,對(duì)存在缺失值的樣本進(jìn)行填充。為有效消除量綱影響,便于機(jī)器學(xué)習(xí),采用Z-score標(biāo)準(zhǔn)化方法對(duì)自變量進(jìn)行數(shù)據(jù)處理,使得數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,即;
圖3 交叉口特性Figure 3 Characteristics of intersections
式中:x為個(gè)體觀測(cè)值;μ為總體數(shù)據(jù)的均值;σ總體數(shù)據(jù)的標(biāo)準(zhǔn)差。
硬件及軟件環(huán)境分別為Intel i 7、3.6 GHz CPU、32 GB內(nèi)存的工作機(jī),以Myeclipse 8.5作為開發(fā)環(huán)境,連接Python實(shí)現(xiàn)隨機(jī)森林模型及GRU-RNN的搭建與訓(xùn)練,其中,對(duì)比了隨機(jī)森林模型與線性回歸模型的誤差水平。
如圖4所示,隨機(jī)森林模型可以實(shí)現(xiàn)與現(xiàn)有交通流的變化趨勢(shì),且交通量出現(xiàn)突變時(shí),本文采用模型補(bǔ)全方法更貼近真實(shí)值??梢钥闯?,在長(zhǎng)周期缺失情況下,線性回歸模型的補(bǔ)全交通量可能為負(fù)值,模型的穩(wěn)定性相較之略差。
圖4 缺失值補(bǔ)全數(shù)據(jù)Figure 4 Missing value completion data
以原始結(jié)果作為橫坐標(biāo),以預(yù)測(cè)結(jié)果作為縱坐標(biāo),如圖5所示,隨機(jī)森林的預(yù)測(cè)結(jié)果更貼近于標(biāo)準(zhǔn)線,模型訓(xùn)練結(jié)果更好。采用擬合優(yōu)度 (R2)與均方差誤差根作為評(píng)價(jià)指標(biāo),從表1中能夠得到隨機(jī)森林算法的擬合優(yōu)度大于線性回歸法,誤差也有所減小。
圖5 擬合結(jié)果Figure 5 Fitting results
擬合優(yōu)度(R2)與均方根誤差(RMSE)分別為;
表1 預(yù)測(cè)結(jié)果指標(biāo)對(duì)比Table 1 Comparison of prediction indicators results
將前四天流量數(shù)據(jù)作為模型訓(xùn)練集,第五天數(shù)據(jù)作為模型測(cè)試集,訓(xùn)練集維度為287行4列,對(duì)比經(jīng)典BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,采用擬合優(yōu)度與均方差誤差根作為評(píng)價(jià)指標(biāo),驗(yàn)證本文所提方法的有效性。
參數(shù)設(shè)置如表2所示,因?yàn)榻煌髁繑?shù)據(jù)具有噪聲,使用Adam算法進(jìn)行優(yōu)化,更適用于噪聲和梯度消失的問題。
表2 參數(shù)設(shè)置Table 2 Parameter Settings
由圖6可知,GRU-RNN模型流量預(yù)測(cè)值與真實(shí)值最為接近,對(duì)于流量的變化幅度擬合更好。BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型與真實(shí)值的擬合程度低,與真實(shí)值有所偏離。
圖6 預(yù)測(cè)效果評(píng)估Figure 6 Prediction effect evaluation
由圖7可知,GRU-RNN模型誤差小于BP神經(jīng)網(wǎng)絡(luò)模型,更貼近于真實(shí)值。由表3所示,擬合優(yōu)度為0.962,越接近于1時(shí)說(shuō)明擬合效果越好,均方根誤差RMSE為6.258,較BP模型誤差小近一半,說(shuō)明誤差分布更穩(wěn)定。GRU-RNN連續(xù)流量數(shù)據(jù)中挖掘時(shí)間序列的規(guī)律,精度高擬合效果好的主要原因:在擬合過程中沒有忽略樣本中的缺失數(shù)據(jù),補(bǔ)全之后獲得高質(zhì)量高連續(xù)性數(shù)據(jù);在預(yù)測(cè)過程中通過激活函數(shù)和門限控制獲得了更好的時(shí)空信息相關(guān)性,減少了原本RNN中的梯度爆炸與梯度消失的問題。
表3 模型預(yù)測(cè)指標(biāo)對(duì)比Table 3 Comparison of prediction indexes of the model
圖7 預(yù)測(cè)結(jié)果誤差分布Figure 7 Error distribution of prediction results
a.從交通流量數(shù)據(jù)長(zhǎng)周期缺失問題中入手,提出采用隨機(jī)森林算法的數(shù)據(jù)補(bǔ)全方法,評(píng)估了算法的性能,驗(yàn)證了數(shù)據(jù)補(bǔ)全的有效性。
b.在深度學(xué)習(xí)理論框架下,采用GRU-RNN模型根據(jù)流量數(shù)據(jù)的時(shí)空關(guān)聯(lián)性完成時(shí)間序列重構(gòu),實(shí)現(xiàn)了交通流量精準(zhǔn)預(yù)測(cè)。
c.預(yù)測(cè)模型與經(jīng)典BP神經(jīng)網(wǎng)絡(luò)相比,擬合優(yōu)度值為0.962,與真實(shí)值擬合效果更好,均方根誤差為6.2576,誤差分布更均勻穩(wěn)定。
d.所用方法對(duì)城市交叉口的檢測(cè)器數(shù)據(jù)有明顯適用性,所預(yù)測(cè)結(jié)果準(zhǔn)確度優(yōu)于其他方法。
e.隨著深度學(xué)習(xí)不斷發(fā)展,將成果應(yīng)用于大數(shù)據(jù)環(huán)境中,且交通流預(yù)測(cè)不僅與時(shí)間序列相關(guān),也受相鄰交叉口上下游流量的空間屬性影響,今后將進(jìn)一步深入研究以上內(nèi)容,實(shí)現(xiàn)更高效準(zhǔn)確的交通流預(yù)測(cè)。