田佳, 王德勇, 師文喜
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院, 烏魯木齊 830017; 2.新疆聯(lián)海創(chuàng)智信息科技有限公司, 烏魯木齊 830011;3.中國(guó)電子科學(xué)研究院, 北京 100041)
近年來,隨著經(jīng)濟(jì)的快速發(fā)展和人們生活水平的提高,機(jī)動(dòng)車保有量與日俱增,隨之而來的交通擁堵和能源浪費(fèi)等問題也日趨嚴(yán)重。在這一背景下,智能交通系統(tǒng)的應(yīng)用越來越受到交通管理部門的關(guān)注[1]。短時(shí)交通流研究作為智能交通系統(tǒng)的重要組成部分,可以為交通引導(dǎo)和道路管理提供便利,是交通領(lǐng)域研究的重要內(nèi)容[2]。短時(shí)交通流預(yù)測(cè)是指利用歷史交通流數(shù)據(jù),實(shí)時(shí)預(yù)測(cè)未來較短時(shí)間內(nèi)的交通流[3];通?;诮煌鞯娜髤?shù),即平均車流量、平均車速、平均占有率等進(jìn)行相關(guān)研究[3]。
短時(shí)交通流預(yù)測(cè)方法可以分為統(tǒng)計(jì)分析、非線性理論、仿真預(yù)測(cè)、智能預(yù)測(cè)和組合預(yù)測(cè)五大類[3-4]。但面對(duì)復(fù)雜且不確定的交通數(shù)據(jù),并不存在一種算法可以在任何條件下都能具備良好的性能,因此,研究人員就提高模型預(yù)測(cè)精度和擴(kuò)大其適用范圍展開了大量的研究。Yu等[5]提出了一種基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)的短時(shí)交通流預(yù)測(cè)模型,并在高速公路數(shù)據(jù)集上驗(yàn)證了該模型的泛化能力。但是LSTM存在參數(shù)選擇困難、易陷入局部最優(yōu)解及收斂速度慢等問題。鑒于以上問題,Liu[6]為提高模型預(yù)測(cè)精度,提出了一種基于支持向量回歸(support vector regression,SVR)的交通流預(yù)測(cè)模型,并通過實(shí)驗(yàn)證明,相比LSTM模型,該模型具有更好的預(yù)測(cè)效果。但是SVR對(duì)于復(fù)雜的預(yù)測(cè)樣本難以選取合適的核函數(shù),從而對(duì)實(shí)際具有干擾的短時(shí)交通流時(shí)間序列預(yù)測(cè)性能有所欠缺?;诖?鄒宗民等[7]利用粒子群優(yōu)化算法對(duì)SVR的參數(shù)進(jìn)行尋優(yōu),實(shí)驗(yàn)證明,該方法可進(jìn)一步提升SVR的預(yù)測(cè)精度。冒云香等[8]結(jié)合隨機(jī)森林訓(xùn)練速度快、參數(shù)簡(jiǎn)單、預(yù)測(cè)精度高及對(duì)輸入數(shù)據(jù)不敏感等優(yōu)點(diǎn),構(gòu)建了一種基于隨機(jī)森林的短時(shí)交通流預(yù)測(cè)模型,并通過實(shí)驗(yàn)驗(yàn)證了該模型的可行性和有效性。因此,在前人的研究基礎(chǔ)上,現(xiàn)選用隨機(jī)森林進(jìn)行下一步研究。同時(shí),隨著對(duì)短時(shí)交通流研究的不斷深入,發(fā)現(xiàn)許多文獻(xiàn)都將注意力集中在提高模型的預(yù)測(cè)性能上,忽略了交通流數(shù)據(jù)本身存在的可預(yù)測(cè)性[9-10]。于是,方方等[3]將小波分析與集成學(xué)習(xí)算法進(jìn)行組合,對(duì)短時(shí)交通流進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明,相比單一的預(yù)測(cè)模型,組合模型能進(jìn)一步提升模型預(yù)測(cè)效果。但是小波分析中的小波基函數(shù)和分解層數(shù)都存在較大的人為選擇性,容易產(chǎn)生虛假分量。而集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition,EEMD)是根據(jù)數(shù)據(jù)本身的時(shí)頻尺度特征,將原始數(shù)據(jù)分解為若干個(gè)本征模函數(shù)(intrinsic mode function,IMF)和一個(gè)殘差分量(residual,RES);然后根據(jù)各個(gè)分量的特點(diǎn)構(gòu)建模型并進(jìn)行整合,從而有效提高模型預(yù)測(cè)精度。殷禮勝等[11]提出了一種基于EEMD與最小二乘支持向量機(jī)(least squares support vector machine,LSSVM)相結(jié)合的組合模型,結(jié)果表明相比LSSVM模型,組合模型具有更高的預(yù)測(cè)性能。Tang等[9]提出了一種基于EEMD與模糊C均值神經(jīng)網(wǎng)絡(luò)(fuzzyC-means neural network,FCMNN)相結(jié)合的交通流組合預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明相比FCMNN模型,引入EEMD的FCMNN組合模型預(yù)測(cè)精度得到顯著提升。由此可見,將EEMD與其他智能算法結(jié)合起來對(duì)短時(shí)交通流進(jìn)行預(yù)測(cè),可有效提高模型的預(yù)測(cè)精度。
基于上述研究,現(xiàn)提出一種基于EEMD和隨機(jī)森林(random forest,RF)[12]的短時(shí)交通流預(yù)測(cè)模型。EEMD可將復(fù)雜的、非線性的短時(shí)交通流數(shù)據(jù)分解為若干個(gè)不同時(shí)間尺度下相對(duì)平穩(wěn)的序列,細(xì)化交通流數(shù)據(jù)的信息;同時(shí),RF不僅克服了LSTM訓(xùn)練速度慢、易陷入局部最優(yōu)解等問題,還解決了SVR參數(shù)選擇困難的困境,從而使用EEMD與RF相結(jié)合的方法對(duì)于短時(shí)交通流預(yù)測(cè)能夠達(dá)到較好的預(yù)測(cè)效果。首先,利用EEMD將原始短時(shí)交通流數(shù)據(jù)分解為若干個(gè)子序列;接著,對(duì)IMF1進(jìn)行EEMD分解;隨后將各個(gè)子序列分別使用RF進(jìn)行預(yù)測(cè),同時(shí)通過學(xué)習(xí)曲線和交叉驗(yàn)證的方法選取模型最優(yōu)參數(shù)組合;最后將各子模型的預(yù)測(cè)結(jié)果線性求和,得到模型最終的預(yù)測(cè)結(jié)果,并在阿拉爾市內(nèi)路段的真實(shí)數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn)。
為解決經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)過程中出現(xiàn)的模態(tài)混疊現(xiàn)象,EEMD向原始數(shù)據(jù)中加入白噪聲進(jìn)行擾動(dòng),并通過足夠的實(shí)驗(yàn)次數(shù)將添加的白噪聲平均化而使最終得到的分量保持物理上的唯一性[11,13-14]。EEMD的具體步驟如下。
步驟1向原始數(shù)據(jù)X(t)中加入白噪聲ω(t),得到新的序列X′(t)。
X′(t)=X(t)+ω(t)
(1)
步驟2計(jì)算出X′(t)的所有上、下極值點(diǎn),并畫出上、下包絡(luò)線U(t)和L(t),再求上、下包絡(luò)線的均值,得到均值包絡(luò)線G(t)。
(2)
步驟3使用X′(t)減去G(t),得到中間序列H(t)。
H(t)=X′(t)-G(t)
(3)
步驟4判斷中間序列H(t)是否滿足IMF的兩個(gè)條件,若滿足,則該序列就是一個(gè)IMF分量;反之,以該序列為基礎(chǔ),重新做步驟2~步驟4的分析,直到滿足條件為止。IMF的兩個(gè)具體條件為:在整個(gè)數(shù)據(jù)段內(nèi),極值點(diǎn)的數(shù)量必須和過零點(diǎn)的數(shù)量相等或相差不超過一個(gè);在任意時(shí)段,上包絡(luò)線和下包絡(luò)線均值都為零,即上、下包絡(luò)線相對(duì)于時(shí)間軸對(duì)稱。
步驟5經(jīng)過以上步驟得到第一個(gè)IMF后,用X′(t)減去該IMF分量,并將其作為新的序列,重復(fù)步驟2~步驟4,得到m個(gè)IMF和1個(gè)RES。
(4)
步驟6重復(fù)加入噪聲M次進(jìn)行分解,即重復(fù)M次步驟1~步驟5操作。
步驟7將上述每次分解得到的相同序號(hào)的IMF分量求平均值得到最終的IMF分量Ij(t)。
(5)
式(5)中:Ii,j(t)為第i次加入噪聲分解得到的第j個(gè)IMF分量;Ij(t)為最終的第j個(gè)IMF分量。
RF是一種集成學(xué)習(xí)算法,它由兩個(gè)部分組成:決策樹和Bagging算法[12]。決策樹是一種基于樹結(jié)構(gòu)進(jìn)行判斷決策的有監(jiān)督模型,它由根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉節(jié)點(diǎn)構(gòu)成。Bagging算法的主要思想是:通過有放回抽樣的方式從訓(xùn)練集中抽取多個(gè)樣本,再對(duì)每輪獲取的子訓(xùn)練集,分別訓(xùn)練各自的模型。RF是由許多決策樹構(gòu)成的,其中不同決策樹之間沒有關(guān)聯(lián)。RF回歸算法的構(gòu)造步驟如下。
步驟1從原始訓(xùn)練集中有放回的抽取n次,一次抽取一個(gè)樣本,最終得到由這n個(gè)樣本組成的子訓(xùn)練集X′。
X′={(x1,y1),(x2,y2),…,(xn,yn)}
(6)
式(6)中:xi∈Rn為輸入值;yi∈R為輸出值。
步驟2從樣本的h個(gè)屬性中隨機(jī)選取m個(gè)屬性構(gòu)成特征子集T′。
T′={t1,t2,…,tm},m?h
(7)
步驟3基于X′和T′,構(gòu)建CART回歸樹,即通過求解式(8),選擇最優(yōu)切分變量t∈T′與它的取值s,得到最優(yōu)的(t,s)組合。
(8)
式(8)中:Ri為第i個(gè)子區(qū)域;ci為第i個(gè)子區(qū)域的輸出值。
步驟4對(duì)選定的(t,s)劃分區(qū)域并計(jì)算相應(yīng)的輸出值。
R1(t,s)={x|xt≤s},R2(t,s)={x|xt>s}
(9)
(10)
步驟5繼續(xù)對(duì)兩個(gè)子區(qū)域調(diào)用步驟3、步驟4,直至滿足停止條件。
步驟6隨后輸入空間被劃分為M個(gè)區(qū)域R1,R2,…,RM,構(gòu)成決策樹,其輸出值計(jì)算公式為
(11)
步驟7按照步驟1~步驟6建立K棵決策樹,這樣就構(gòu)成了RF。
步驟8對(duì)每棵決策樹的輸出值求取簡(jiǎn)單平均值或者加權(quán)平均值,可得到RF的最終值,分別如式(12)和式(13)所示。
(12)
(13)
由于短時(shí)交通流的非線性、不確定性等特性,單一的預(yù)測(cè)模型很難取得較好的預(yù)測(cè)結(jié)果[3,11]。故將EEMD對(duì)非線性數(shù)據(jù)分解的優(yōu)勢(shì)與非線性模型RF結(jié)合起來進(jìn)行預(yù)測(cè)。然而,對(duì)短時(shí)交通流進(jìn)行一次EEMD分解后,低頻的序列可以較好地?cái)M合,高頻的序列擬合誤差較大,為緩解這一現(xiàn)象,將一次分解后擬合效果最差的高頻IMF1分量進(jìn)行EEMD二次分解。EEMD-RF預(yù)測(cè)模型框架如圖1所示,其具體操作步驟如下。
圖1 EEMD-RF模型框架Fig.1 EEMD-RF model framework
步驟1利用EEMD對(duì)原始時(shí)間序列數(shù)據(jù)進(jìn)行分解,得到若干個(gè)IMF分量和1個(gè)RES分量。
步驟2將步驟1的各個(gè)分量劃分為訓(xùn)練集、驗(yàn)證集及測(cè)試集。
步驟3在訓(xùn)練集上對(duì)每個(gè)分量構(gòu)建RF模型,并在驗(yàn)證集上使用交叉驗(yàn)證的方法驗(yàn)證模型的泛化能力,最后利用泛化能力最強(qiáng)的RF模型參數(shù)組合來訓(xùn)練RF模型,并對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。交叉驗(yàn)證結(jié)果和樣本預(yù)測(cè)值計(jì)算分別如下。
(14)
(15)
步驟4利用模型評(píng)估指標(biāo)分析各個(gè)RF模型的預(yù)測(cè)性能,并將最高頻IMF1分量進(jìn)行二次EEMD分解,即重復(fù)步驟2、步驟3,隨后將二次分解各分量預(yù)測(cè)值線性相加,得到IMF1二次分解預(yù)測(cè)值。
步驟5將所有RF模型的預(yù)測(cè)值線性相加,得到最終預(yù)測(cè)結(jié)果。
選取阿拉爾市一段道路高清卡口系統(tǒng)采集的過車數(shù)據(jù)進(jìn)行實(shí)驗(yàn),采集時(shí)間為2019年10月26日—11月29日,共35 d,該實(shí)驗(yàn)設(shè)定時(shí)間間隔為10 min。在進(jìn)行實(shí)驗(yàn)之前,需要對(duì)卡口數(shù)據(jù)進(jìn)行預(yù)處理,處理框架如圖2所示,其步驟描述如下。
圖2 數(shù)據(jù)預(yù)處理框架Fig.2 Data preprocessing framework
步驟1去除原始數(shù)據(jù)中的重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)。
步驟2使用SQL語句,篩選出經(jīng)過研究路段的車輛,并統(tǒng)計(jì)車輛的行駛時(shí)間。
步驟3去除步驟2中由于中途停車和超速行駛導(dǎo)致的異常數(shù)據(jù)。
步驟4以10 min為統(tǒng)計(jì)時(shí)窗,當(dāng)統(tǒng)計(jì)時(shí)窗內(nèi)的樣本數(shù)量小于3條時(shí),則認(rèn)為該統(tǒng)計(jì)時(shí)窗內(nèi)缺失數(shù)據(jù),選用合適的缺失值填補(bǔ)策略進(jìn)行處理,其中,當(dāng)數(shù)據(jù)為單個(gè)缺失時(shí),采用時(shí)間序列填補(bǔ)策略進(jìn)行填補(bǔ),即使用前3個(gè)統(tǒng)計(jì)時(shí)窗的平均值進(jìn)行填補(bǔ),但當(dāng)數(shù)據(jù)為連續(xù)缺失時(shí),采用歷史數(shù)據(jù)填補(bǔ)策略進(jìn)行填補(bǔ),即使用歷史相同統(tǒng)計(jì)時(shí)窗的數(shù)據(jù)進(jìn)行填補(bǔ);反之,則認(rèn)為存在異常值,使用箱型圖法去除異常值[15,17]。
(16)
式(16)中:L為路段長(zhǎng)度;m為統(tǒng)計(jì)時(shí)窗內(nèi)車輛數(shù)量;ti為第i輛車的行駛時(shí)間。
交通流數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù),因此可以從該序列中提取出具有時(shí)間特性的元素[16]。
(1)工作日與非工作日特性。交通流數(shù)據(jù)在工作日會(huì)出現(xiàn)明顯的上下班高峰,相較于非工作日,規(guī)律性更強(qiáng)。由此,提取DayOfWeek這一特性,例如周一則將DayOfWeek標(biāo)記成1;再提取IsWeekend這個(gè)特性,例如周末就將IsWeekend標(biāo)記成1,否則標(biāo)記成0。
(2)日期特征。為細(xì)化交通流數(shù)據(jù)的時(shí)間特性,可以提取出其日期特征,即提取每條記錄統(tǒng)計(jì)時(shí)段的年、月、日、時(shí)、分,例如統(tǒng)計(jì)時(shí)窗的起始時(shí)間為“2019-10-26 09:10:00”,可以提取出來的時(shí)間特征為“2019”“10”“26”“09”“10”。因?qū)嶒?yàn)數(shù)據(jù)的年和月兩個(gè)時(shí)間尺度對(duì)實(shí)驗(yàn)結(jié)果基本無影響,故只提取日、時(shí)與分3個(gè)特征。
(3)周期特征。周期特征分兩類進(jìn)行考慮,一類是當(dāng)前時(shí)間段的前若干個(gè)連續(xù)時(shí)間段的交通流會(huì)對(duì)當(dāng)前的交通流產(chǎn)生影響。例如第i天的[10:00,10:10]的交通流受第i天的[09:50,10:00]、[09:40,09:50]、[09:30,09:40]等n個(gè)時(shí)間段的影響。另一類是同一段路每天相同時(shí)間段的交通流變化具有相似,因此,預(yù)測(cè)第k日的[10:00,10:10]的交通流,可以將第k-1,k-2,…,k-m日[10:00,10:10]的交通流作為特征值。其中,n和m的最佳值通過后續(xù)實(shí)驗(yàn)進(jìn)行選取。
評(píng)估模型前,首先確定需要優(yōu)化的超參數(shù),包括決策樹的數(shù)量ntrees、決策樹最大層數(shù)md、劃分節(jié)點(diǎn)的最少樣本數(shù)mss和葉子節(jié)點(diǎn)最少樣本數(shù)msl。初始化超參數(shù)的搜索空間,ntrees為[2,300],md為[2,51],mss為[2,30],msl為[1,30]。同時(shí),通過繪制學(xué)習(xí)曲線和交叉驗(yàn)證的方式對(duì)超參數(shù)依次調(diào)優(yōu),并根據(jù)評(píng)估指標(biāo)對(duì)其預(yù)測(cè)效果進(jìn)行判斷,從而確定最優(yōu)的參數(shù)組合。選擇4個(gè)模型指標(biāo)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)估,分別為均方根誤差(root mean squared error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)、平均絕對(duì)百分比誤差(mean average precision,MAPE)。計(jì)算公式分別如式(17)~式(20)所示。
(17)
(18)
(19)
(20)
考慮到在午夜和凌晨這兩個(gè)時(shí)間段車流量較少,進(jìn)行交通流預(yù)測(cè)的現(xiàn)實(shí)意義不大[16],故根據(jù)地域作息時(shí)間,從經(jīng)過上述預(yù)處理的5 040條數(shù)據(jù)中選取每天10:00—22:00的時(shí)間段進(jìn)行實(shí)驗(yàn)。最后,用于實(shí)驗(yàn)的數(shù)據(jù)共2016條結(jié)果如圖3所示。
圖3 交通流波動(dòng)圖Fig.3 Traffic flow fluctuation chart
為確定n和m的值,選取n的值為2~12,即預(yù)測(cè)時(shí)間段的前20 min~2 h;m的值為1~7,即預(yù)測(cè)時(shí)間段前1 d~1周,進(jìn)行實(shí)驗(yàn),故用于EEMD分解的數(shù)據(jù)共2 940條,其分解結(jié)果如圖4所示。
圖4 經(jīng)EEMD分解后的交通流序列Fig.4 Traffic flow sequence decomposed by EEMD
隨后,將分解得到的IMF1~RES處理成式(21)的形式,如圖5所示。
圖5 樣本數(shù)據(jù)結(jié)構(gòu)圖Fig.5 The structure diagram of sample data
x(k,t)={x(k,t-1),x(k,t-2),…,x(k,
t-n),DOW,IW,D,H,M,x(k-1,t),
x(k-2,t),…,x(k-m,t)}
(21)
式(21)中:x(k,t)為第k天第t時(shí)段的交通流;x(k,t-n)為當(dāng)前時(shí)段前n個(gè)時(shí)間段的交通流;DOW為DayOfWeek的值;IW為IsWeekend的值;D代表天,H代表時(shí),M代表分,x(k-m,t)代表當(dāng)前時(shí)段前m天同時(shí)段的交通流數(shù)據(jù)。并將處理后的數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,劃分比例分別為75%、15%和10%。
其中,模型預(yù)測(cè)效果隨m和n取值變化的曲線圖分別如圖6和圖7所示。
圖6 參數(shù)n的變化圖Fig.6 Curve graph of n
圖7 參數(shù)m的變化圖Fig.7 Curve graph of m
從圖6可以看出,隨著參數(shù)n的變化,RMSE在3~4波動(dòng),MAE在2~3波動(dòng),MAPE在10~11波動(dòng),并且這3個(gè)模型評(píng)估指標(biāo)的整體波動(dòng)幅度都不大,換言之,參數(shù)n的變化對(duì)模型的RMSE、MAE、MAPE值影響較小,而MSE在12~14波動(dòng),其波動(dòng)幅度較大,具體表現(xiàn)為,在2~10呈現(xiàn)緩慢下降的趨勢(shì),在10~12呈現(xiàn)緩慢上升的趨勢(shì),且在取值為10時(shí)達(dá)到最小值。因此,綜合考慮RMSE、MAE、MSE和MAPE這4個(gè)模型評(píng)估指標(biāo)的效果,認(rèn)為前10個(gè)時(shí)間間隔的交通流數(shù)據(jù)對(duì)該時(shí)段產(chǎn)生的影響最大。因此,最終選擇n=10進(jìn)行后續(xù)的實(shí)驗(yàn)。
從圖7可以看出,隨著參數(shù)m的變化,RMSE、MAE、MAPE和MSE的整體波動(dòng)幅度不大,RMSE和MSE在0~4呈現(xiàn)緩慢下降的趨勢(shì),在4~7呈現(xiàn)緩慢上升的趨勢(shì)。因此,綜合RMSE、MAE、MSE和MAPE 這4個(gè)指標(biāo)的結(jié)果,可以看出預(yù)測(cè)結(jié)果相差較小,前幾天同一時(shí)段的交通流變化對(duì)預(yù)測(cè)結(jié)果影響不大,即歷史前幾天同時(shí)段的交通流對(duì)最后的預(yù)測(cè)精度影響較小。最后綜合考慮,最終選擇預(yù)測(cè)效果最好的m=4進(jìn)行后續(xù)的實(shí)驗(yàn)。原始數(shù)據(jù)經(jīng)過EEMD一次分解后,各個(gè)分量的模型參數(shù)和模型評(píng)估結(jié)果分別如表1和表2所示。
表1 11個(gè)子模型預(yù)測(cè)性能評(píng)估結(jié)果
表2 11個(gè)子模型預(yù)測(cè)性能評(píng)估結(jié)果
同時(shí),為進(jìn)一步提高模型效果,將IMF1分量進(jìn)行EEMD分解,如圖8所示,隨后,使用RF對(duì)每個(gè)分量進(jìn)行預(yù)測(cè),IMF1分解前后的模型預(yù)測(cè)結(jié)果對(duì)比如表3所示。
表3 IMF1模型預(yù)測(cè)性能結(jié)果
圖8 IMF1經(jīng)EEMD分解后序列Fig.8 IMF1 sequence decomposed by EEMD
由表3可見,IMF1進(jìn)行EEMD分解后,在RMSE、MSE和MAE這3個(gè)評(píng)估指標(biāo)中,相比未分解時(shí)的評(píng)估結(jié)果分別減少了6.29%、12.14%、5.58%??梢妼⒏哳lIMF1分量進(jìn)一步分解,可有效提高模型的預(yù)測(cè)性能。
為了驗(yàn)證本文模型的有效性,分別對(duì)原有的交通流數(shù)據(jù)建立RF模型、一次EEMD-RF模型及本文EEMD-RF模型,進(jìn)行對(duì)比實(shí)驗(yàn),3種模型的對(duì)比預(yù)測(cè)效果和模型評(píng)估結(jié)果分別如圖9和表4所示。
表4 模型預(yù)測(cè)性能評(píng)估結(jié)果
圖9 各模型預(yù)測(cè)結(jié)果對(duì)比圖Fig.9 Comparison of prediction results of different models
由表4可見,一次EEMD-RF模型的RMSE、MAE、MSE和MAPE均遠(yuǎn)高于RF模型,說明對(duì)數(shù)據(jù)進(jìn)行EEMD分解可有效提升模型的預(yù)測(cè)性能,歸根結(jié)底是EEMD能捕捉到交通流數(shù)據(jù)本身在不同時(shí)頻的信息及其總體趨勢(shì),保證RF模型在了解交通流數(shù)據(jù)的總體趨勢(shì)的同時(shí)能學(xué)習(xí)到數(shù)據(jù)內(nèi)部的細(xì)節(jié)信息。同時(shí),相較于一次EEMD分解與RF的組合模型,所提出的對(duì)高頻分量IMF1進(jìn)行二次EEMD分解,可在一定程度上進(jìn)一步提升模型的預(yù)測(cè)性能,其原因是經(jīng)過二次EEMD分解能更進(jìn)一步細(xì)化高頻分量IMF1中所包含的隨機(jī)信息,提高模型精度。
從提高交通流預(yù)測(cè)精度的角度出發(fā),提出了一種基于EEMD和RF的交通流組合預(yù)測(cè)模型。通過實(shí)驗(yàn)結(jié)果可知,一次EEMD-RF模型預(yù)測(cè)效果明顯優(yōu)于單一的RF模型,并且本文提出的對(duì)高頻分量IMF1進(jìn)行二次分解的EEMD-RF模型可在一定程度上進(jìn)一步提升模型的預(yù)測(cè)性能。但是,實(shí)際的交通流預(yù)測(cè),還會(huì)受到許多其他因素的影響,比如上下游路段的時(shí)空相關(guān)性、天氣、交通事故等,本文模型尚未將以上的因素考慮進(jìn)來;同時(shí),EEMD分解會(huì)增加模型的預(yù)測(cè)時(shí)間,因此在實(shí)時(shí)性要求較高的場(chǎng)景下,還需進(jìn)一步研究分析。