朱永強(qiáng),王小凡
(青島理工大學(xué)機(jī)械與汽車工程學(xué)院,青島 266520)
隨著中國(guó)汽車制造技術(shù)成熟以及道路網(wǎng)建設(shè)規(guī)劃逐步完善,汽車保有率迅速上升,也增加了對(duì)城市交通進(jìn)行控制與規(guī)劃的需求,而精準(zhǔn)的交通流預(yù)測(cè)是相關(guān)研究的重要基礎(chǔ),如何準(zhǔn)確地預(yù)測(cè)交通流量也引起了越來(lái)越多學(xué)者的關(guān)注,提出包括指數(shù)平滑模型[1]、數(shù)據(jù)序列模型[2]、回歸分析法[3]等方法。但傳統(tǒng)預(yù)測(cè)方法大多應(yīng)用線性模型,而目前的交通流由于自身的復(fù)雜性以及非線性等特征并不適用,因此近年來(lái)開始提出用混合模型來(lái)增加預(yù)測(cè)可靠性。余林等[4]對(duì)交通信號(hào)序列采用經(jīng)驗(yàn)?zāi)B(tài)分解,將分解后得到的分量經(jīng)過分類后重新構(gòu)造時(shí)間序列進(jìn)行預(yù)測(cè),結(jié)果表明組合模型優(yōu)于傳統(tǒng)的時(shí)間序列;曹成濤等[5]提出用粒子群算法來(lái)優(yōu)化支持向量機(jī)中的相關(guān)參數(shù)提高預(yù)測(cè)精度;張朝元等[6]實(shí)驗(yàn)證明了支持向量機(jī)模型優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果。李松等[7]對(duì)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行優(yōu)化,研究表明神經(jīng)網(wǎng)絡(luò)中的參數(shù)經(jīng)過優(yōu)化后能取得更好的預(yù)測(cè)效果。
上述研究中組合預(yù)測(cè)模型能夠結(jié)合多種模型的優(yōu)點(diǎn),提高了模型預(yù)測(cè)精度,但研究多以算法優(yōu)化支持向量機(jī)模型較多,而最小二乘支持向量機(jī)能夠降低支持向量機(jī)的計(jì)算復(fù)雜程度,更適用于非線性問題求解;同時(shí)由于交通流量本身的非線性和復(fù)雜性,模型在表現(xiàn)數(shù)據(jù)的非平穩(wěn)性存在局限,選取的訓(xùn)練樣本也不能夠完全反映數(shù)據(jù)特征,而經(jīng)驗(yàn)?zāi)B(tài)分解雖然能夠分解信號(hào)得到模態(tài)函數(shù),但方法本身存在分解不穩(wěn)定,容易產(chǎn)生模態(tài)混疊現(xiàn)象影響預(yù)測(cè)效果;另外組合模型大多以單一算法優(yōu)化模型為主,直接用于不穩(wěn)定的交通流數(shù)據(jù)預(yù)測(cè)波動(dòng)較大。
針對(duì)目前預(yù)測(cè)模型存在的問題,結(jié)合當(dāng)前中外研究趨勢(shì),提出一種基于互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解和遺傳算法優(yōu)化最小二乘支持向量機(jī)的組合預(yù)測(cè)模型,并運(yùn)用于實(shí)際道路流量預(yù)測(cè)中,驗(yàn)證其是否具有比其他預(yù)測(cè)模型更優(yōu)的預(yù)測(cè)效果和精度。
經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)是由 Huang等[8]提出的,它適用于非線性、非平穩(wěn)的信號(hào)處理。根據(jù)原始信號(hào)的局部特征,EMD將不同尺度的信號(hào)分解,并得到具有特征尺度的本征模態(tài)函數(shù)(intrinsic mode function,IMF)[9],因此將原始序列分解為本征模態(tài)函數(shù)和殘余分量,即
(1)
式(1)中:m為IMFS的個(gè)數(shù);ci(t)為第i個(gè)IMF;rm(t)為第m個(gè)殘余分量。
雖然EMD能夠處理非線性問題,但在分解過程仍存在模態(tài)混疊,隨后劉瑩等[10]提出互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解(complete ensemble empirical mode decomposition,CEEMD),在初始信號(hào)中加入正負(fù)成對(duì)形式的白噪聲信號(hào),不僅克服了EMD中的模態(tài)混疊現(xiàn)象,也能夠消除重構(gòu)信號(hào)中的殘余輔助噪聲,提高模型計(jì)算效率,具體步驟如下。
(1) 將n組白噪聲加入原始信號(hào)中。
(2)
式(2)中:M1、M2表示為加入輔助白噪聲之后的信號(hào);S表示原始信號(hào);N表示加入的輔助白噪聲。
(2)EMD分解后每個(gè)信號(hào)得到一組IMF分量。
(3)多組分量取均值得到分解結(jié)果。
(3)
式(3)中:cj表示分解后最終得到的第j個(gè)IMF分量。
傳統(tǒng)的支持向量機(jī)(support vector machine,SVM)在處理小樣本數(shù)據(jù)問題時(shí)具有優(yōu)良的統(tǒng)計(jì)能力,Suykens等[11]進(jìn)一步提出改進(jìn)版支持向量機(jī)(least square support vector machine,LSSVM),使用一組線性方程組取代 SVM 的二次規(guī)劃問題來(lái)解決函數(shù)估計(jì),且將 SVM 的不等式約束變?yōu)?LSSVM 的等式約束,采用最小二乘線性系統(tǒng)作為模型的損失函數(shù)[12],大大地簡(jiǎn)化模型計(jì)算過程,提高運(yùn)算速度。LSSVM將一個(gè)樣本集D={(xi,yi) |i=1,2,…,N},其中xi∈Rn,yi∈R,通過使用一個(gè)非線性變換Ф(x)從原來(lái)的低維空間映射到高維空間,即將非線性函數(shù)轉(zhuǎn)化為線性函數(shù),構(gòu)建最優(yōu)回歸函數(shù),具體過程模型表示為
y(x)=ωTΦ(x)+b
(4)
式(4)中:ωT表示為空間權(quán)向量;b表示偏置量。
根據(jù)結(jié)構(gòu)最小風(fēng)險(xiǎn)化的原則,目標(biāo)函數(shù)和約束條件設(shè)置如下:
(5)
式(5)中:J為優(yōu)化函數(shù);γ為懲罰系數(shù),且γ≥0;ei表示第i個(gè)誤差變量。
定義引入朗格朗日函數(shù)
(6)
式(6)中:a為 Lagrange乘子。根據(jù)最優(yōu)化理論中的KKT(karush-kuhn-tuche)條件使用Lagrange函數(shù)分別對(duì)上式中ω、b、ei、ai求偏導(dǎo),結(jié)果匯總?cè)缦拢?/p>
(7)
消除上式中的ω和e,可以得到如下矩陣方程:
(8)
式(8)中:s=[1,1,…,1]T;K=Ф(xi)TФ(xi);I表示單位矩陣;a= [a1,a2,…,al]T;b= [b1,b2,…,bl]T;y= [y1,y2,…,yl]T。
使用最小二乘法求出a和b得到LSSVM回歸函數(shù)最終預(yù)測(cè)模型:
(9)
式(9)中:K(x,xi)表示核函數(shù),選擇結(jié)構(gòu)簡(jiǎn)單并適用于非線性問題的徑向基函數(shù)的作為核函數(shù);σ>0,表示為核函數(shù)的待定寬度參數(shù)。
在LSSVM模型中,懲罰系數(shù)γ的選取將直接影響整個(gè)模型計(jì)算的復(fù)雜程度以及穩(wěn)定情況,當(dāng)γ設(shè)定較小,將導(dǎo)致模型訓(xùn)練更長(zhǎng),誤差較大;而當(dāng)γ取值過大則會(huì)導(dǎo)致模型訓(xùn)練過擬合。核函數(shù)的寬度參數(shù)σ控制整個(gè)函數(shù)的徑向作用范圍,σ的取值變小后擬合誤差將會(huì)減少,但訓(xùn)練時(shí)間會(huì)延長(zhǎng)。因此為提高LSSVM模型的預(yù)測(cè)精度,需要對(duì)兩種參數(shù)進(jìn)行優(yōu)化得到最優(yōu)解[13]。傳統(tǒng)的參數(shù)優(yōu)化方法是通過交叉驗(yàn)證法、窮盡搜索法等,這些方法雖能得到最優(yōu)解但耗時(shí)較長(zhǎng)且容易盲目選擇,而遺傳算法操作簡(jiǎn)單,收斂速度快同時(shí)具有更好的全局尋優(yōu)能力,因此使用遺傳算法對(duì)LSSVM模型參數(shù)進(jìn)行優(yōu)化后,將新得到的參數(shù)賦予訓(xùn)練,達(dá)到預(yù)設(shè)誤差和迭代次數(shù)后結(jié)束網(wǎng)絡(luò)訓(xùn)練,輸出預(yù)測(cè)結(jié)果,以提高模型的預(yù)測(cè)能力。
遺傳算法(genetic algorithm,GA)[14]主要是在計(jì)算模型中設(shè)定成生物自然地進(jìn)化競(jìng)爭(zhēng)的機(jī)制,編碼模型中問題參數(shù)成染色體,模擬自然界中生物遺傳的選擇,交叉和突變過程,并根據(jù)健康狀況保留具有良好適應(yīng)值的優(yōu)秀個(gè)體,在繼續(xù)迭代的同時(shí)形成一個(gè)新的組,使得該組逐漸接近最優(yōu)[15]。遺傳算法具有自適應(yīng)隨機(jī)優(yōu)化搜索,可以做到全局尋優(yōu),在最優(yōu)化領(lǐng)域方面更加成熟,收斂速度和效果更好。
傳統(tǒng)二進(jìn)制編碼存在連續(xù)函數(shù)離散化的映射誤差,實(shí)數(shù)編碼更適合應(yīng)用于多維數(shù)值問題,使得遺傳算法更加接近待解問題空間,對(duì)于個(gè)體較多的神經(jīng)網(wǎng)絡(luò),用實(shí)數(shù)對(duì)每個(gè)個(gè)體編碼,獲得初始種群。
個(gè)體適應(yīng)度值是指預(yù)測(cè)輸出與實(shí)際輸出之間的誤差絕對(duì)值和,即
(10)
式(10)中:n為網(wǎng)絡(luò)輸出節(jié)點(diǎn)數(shù);yi為網(wǎng)絡(luò)的第i個(gè)節(jié)點(diǎn)的實(shí)際值;oi為第i個(gè)節(jié)點(diǎn)的預(yù)測(cè)值;k為系數(shù)。
對(duì)于大量數(shù)據(jù)個(gè)體,確定隨機(jī)選擇個(gè)體的概率與其適應(yīng)度函數(shù)值成正比,遺傳算法選擇輪盤賭法選擇概率如下:
(11)
式(11)中:Fi為第i個(gè)個(gè)體的適應(yīng)度值;k為系數(shù);N為種群個(gè)體數(shù)。
將上代中優(yōu)秀的基因組合傳遞至下一代,隨機(jī)選取一個(gè)基因位置作為交叉位置,組成新的個(gè)體,產(chǎn)生新的尋優(yōu)空間:
(12)
式(12)中:akj指第k個(gè)染色體上位于j位置時(shí)的基因;alj表示第l個(gè)染色體上位于j位置時(shí)的基因;b是[0,1]間的隨機(jī)數(shù)。
選取第i個(gè)個(gè)體的第j個(gè)基因aij進(jìn)行變異:
(13)
(14)
式中:r2為隨機(jī)數(shù);g為網(wǎng)絡(luò)已迭代次數(shù);Gmax為網(wǎng)絡(luò)最多進(jìn)化次數(shù);amax、amin分別為基因aij的上界和下界;r為[0,1]間的隨機(jī)數(shù)。
針對(duì)交通流的非穩(wěn)定性和非線性的特點(diǎn),首先使用CEEMD對(duì)交通流進(jìn)行分解,提高數(shù)據(jù)穩(wěn)定性的同時(shí)還能減小分解的模態(tài)混疊現(xiàn)象,得到分量和殘余分量,采用GA優(yōu)化參數(shù)后的LSSVM模型對(duì)各個(gè)分量進(jìn)行預(yù)測(cè),最后疊加各分量預(yù)測(cè)值,模型流程如圖1所示,具體實(shí)施步驟如下。
圖1 模型預(yù)測(cè)流程圖Fig.1 Flow chart of model prediction
(1) 使用C EEMD降低數(shù)據(jù)非平穩(wěn)性,分解原始數(shù)據(jù)后得到若干分量。
(2) 對(duì)各分量使用GA-LSSVM模型分別進(jìn)行預(yù)測(cè)。
(3) 將各分量預(yù)測(cè)結(jié)果疊加得到預(yù)測(cè)值。
(4) 分析預(yù)測(cè)結(jié)果誤差。
選取美國(guó)加利福利亞州某道路2018年3月交通量數(shù)據(jù)為研究對(duì)象,選取每天早上8點(diǎn)至10點(diǎn),采樣周期5 min,共750組樣本數(shù)據(jù),將前650組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后100組作為測(cè)速數(shù)據(jù),設(shè)置添加白噪聲的標(biāo)準(zhǔn)偏差為0.4,原始數(shù)據(jù)分解后根據(jù)不同的頻率得到9個(gè)本征模態(tài)函數(shù)IMFs分量,和1個(gè)殘余分量,如圖2所示。
圖2 原始數(shù)據(jù)分解Fig.2 Decomposition of the original data
為了驗(yàn)證本文提出的互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解后基于遺傳算法優(yōu)化最小二乘支持向量機(jī)模型(CEEMD-GA-LSSVM)預(yù)測(cè)的準(zhǔn)確性,另選取最小二乘支持向量機(jī)(LSSVM)、經(jīng)驗(yàn)?zāi)B(tài)分解后最小二乘支持向量機(jī)(EMD-LSSVM)、互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解后最小二乘支持向量機(jī)(CEEMD-LSSVM)和經(jīng)驗(yàn)?zāi)B(tài)分解后基于遺傳算法優(yōu)化最小二乘支持向量機(jī)(EMD-GA-LSVVM)共5種模型進(jìn)行對(duì)比分析,從圖3可以看出LSSVM、EMD-LSSVM兩種模型預(yù)測(cè)值與實(shí)際值曲線偏離過多且波動(dòng)較大。圖4所示為CEEMD-LSSVM、EMD-GA-LSSVM與CEEMD-GA-LSSVM 3種模型預(yù)測(cè)值與實(shí)際值對(duì)比,可以看出,CEEMD-GA-LSSVM模型預(yù)測(cè)曲線更貼近實(shí)際值,具有較高的擬合度,預(yù)測(cè)效果明顯高于另4種模型。
圖3 EMD-LSSVM與LSSVM模型預(yù)測(cè)結(jié)果Fig.3 Predictions of EMD-LSSVM and LSSVM models
圖4 CEEMD-GA-LSSVM、EMD-GA-LSSVM、CEEMD-LSSVM模型預(yù)測(cè)結(jié)果Fig.4 Predictions of CEEMD-GA-LSSVM、EMD-GA-LSSVM and CEEMD-LSSVM models
引入平均相對(duì)誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)兩種評(píng)價(jià)指標(biāo)來(lái)更直觀地反映出模型預(yù)測(cè)精度。
(15)
(16)
式中:n為樣本數(shù);yi為實(shí)際值;yi′為模型預(yù)測(cè)值。
表1中列出各模型的MAPE和RMSE,由表1可知單一的LSSVM模型預(yù)測(cè)誤差最差,組合模型能夠提高預(yù)測(cè)精度;CEEMD-LSSVM與EMD-LSSVM相比,前者的 MAPE和RMSE分別減小了4.23%和4.25%,說(shuō)明CEEMD能夠克服EMD的模態(tài)混疊現(xiàn)象,得到更有規(guī)律的分量,提高了預(yù)測(cè)精度;CEEMD-GA-LSSVM預(yù)測(cè)模型MAPE值為6.51%,RMSE值為8.29%,在所有模型中最優(yōu),且高于CEEMD-LSSVM,表明提出的模型能夠汲取GA的尋優(yōu)能力,更適用于預(yù)測(cè)。
表1 預(yù)測(cè)模型誤差對(duì)比Table 1 Errors of different prediction models
(1) CEEMD-GA-LSSVM模型預(yù)測(cè)誤差均優(yōu)于其余5種預(yù)測(cè)模型,MAPE為6.51%,RMSE為8.29%,CEEMD-GA-LSSVM模型預(yù)測(cè)值在所有對(duì)比模型中最接近實(shí)際值。
(2) 單一模型LSSVM預(yù)測(cè)MAPE為18.32%,在所有模型中預(yù)測(cè)效果最差,表明組合模型預(yù)測(cè)效果優(yōu)于單一模型。
(3) CEEMD-LSSVM的預(yù)測(cè)誤差10.04%優(yōu)于EMD-LSSVM模型的14.27%,同樣地也體現(xiàn)在CEEMD-GA-LSSVM和EMD-GA-LSSVM中,證明CEEMD能夠克服EMD后出現(xiàn)模態(tài)混疊的現(xiàn)象,提高了預(yù)測(cè)精度,表明CEEMD比傳統(tǒng)EMD更適用于預(yù)測(cè)模型。
(4) 通過對(duì)比CEEMD-LSSVM和CEEMD-GA-LSSVM,可以看出后者平均相對(duì)誤差6.51%明顯低于前者的10.04%,經(jīng)過GA優(yōu)化后的模型預(yù)測(cè)曲線比其他模型更加平穩(wěn),數(shù)據(jù)預(yù)測(cè)波動(dòng)較少,該模型能夠?yàn)榻煌黝A(yù)測(cè)提供一定參考。