基于互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解和遺傳最小二乘支持向量機(jī)的交通流量預(yù)測(cè)模型

2020-07-14 00:06朱永強(qiáng)王小凡

科學(xué)技術(shù)與工程 2020年17期

朱永強(qiáng)，王小凡

(青島理工大學(xué)機(jī)械與汽車工程學(xué)院，青島 266520)

隨著中國(guó)汽車制造技術(shù)成熟以及道路網(wǎng)建設(shè)規(guī)劃逐步完善，汽車保有率迅速上升，也增加了對(duì)城市交通進(jìn)行控制與規(guī)劃的需求，而精準(zhǔn)的交通流預(yù)測(cè)是相關(guān)研究的重要基礎(chǔ)，如何準(zhǔn)確地預(yù)測(cè)交通流量也引起了越來(lái)越多學(xué)者的關(guān)注，提出包括指數(shù)平滑模型[1]、數(shù)據(jù)序列模型[2]、回歸分析法[3]等方法。但傳統(tǒng)預(yù)測(cè)方法大多應(yīng)用線性模型，而目前的交通流由于自身的復(fù)雜性以及非線性等特征并不適用，因此近年來(lái)開始提出用混合模型來(lái)增加預(yù)測(cè)可靠性。余林等[4]對(duì)交通信號(hào)序列采用經(jīng)驗(yàn)?zāi)B(tài)分解，將分解后得到的分量經(jīng)過分類后重新構(gòu)造時(shí)間序列進(jìn)行預(yù)測(cè)，結(jié)果表明組合模型優(yōu)于傳統(tǒng)的時(shí)間序列；曹成濤等[5]提出用粒子群算法來(lái)優(yōu)化支持向量機(jī)中的相關(guān)參數(shù)提高預(yù)測(cè)精度；張朝元等[6]實(shí)驗(yàn)證明了支持向量機(jī)模型優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果。李松等[7]對(duì)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行優(yōu)化，研究表明神經(jīng)網(wǎng)絡(luò)中的參數(shù)經(jīng)過優(yōu)化后能取得更好的預(yù)測(cè)效果。

上述研究中組合預(yù)測(cè)模型能夠結(jié)合多種模型的優(yōu)點(diǎn)，提高了模型預(yù)測(cè)精度，但研究多以算法優(yōu)化支持向量機(jī)模型較多，而最小二乘支持向量機(jī)能夠降低支持向量機(jī)的計(jì)算復(fù)雜程度，更適用于非線性問題求解；同時(shí)由于交通流量本身的非線性和復(fù)雜性，模型在表現(xiàn)數(shù)據(jù)的非平穩(wěn)性存在局限，選取的訓(xùn)練樣本也不能夠完全反映數(shù)據(jù)特征，而經(jīng)驗(yàn)?zāi)B(tài)分解雖然能夠分解信號(hào)得到模態(tài)函數(shù)，但方法本身存在分解不穩(wěn)定，容易產(chǎn)生模態(tài)混疊現(xiàn)象影響預(yù)測(cè)效果；另外組合模型大多以單一算法優(yōu)化模型為主，直接用于不穩(wěn)定的交通流數(shù)據(jù)預(yù)測(cè)波動(dòng)較大。

針對(duì)目前預(yù)測(cè)模型存在的問題，結(jié)合當(dāng)前中外研究趨勢(shì)，提出一種基于互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解和遺傳算法優(yōu)化最小二乘支持向量機(jī)的組合預(yù)測(cè)模型，并運(yùn)用于實(shí)際道路流量預(yù)測(cè)中，驗(yàn)證其是否具有比其他預(yù)測(cè)模型更優(yōu)的預(yù)測(cè)效果和精度。

1 互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解

1.1 經(jīng)驗(yàn)?zāi)B(tài)分解原理

經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition，EMD)是由 Huang等[8]提出的，它適用于非線性、非平穩(wěn)的信號(hào)處理。根據(jù)原始信號(hào)的局部特征，EMD將不同尺度的信號(hào)分解，并得到具有特征尺度的本征模態(tài)函數(shù)(intrinsic mode function，IMF)[9]，因此將原始序列分解為本征模態(tài)函數(shù)和殘余分量，即

(1)

式(1)中：m為IMFS的個(gè)數(shù)；ci(t)為第i個(gè)IMF；rm(t)為第m個(gè)殘余分量。

1.2 互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解原理

雖然EMD能夠處理非線性問題，但在分解過程仍存在模態(tài)混疊，隨后劉瑩等[10]提出互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解(complete ensemble empirical mode decomposition，CEEMD)，在初始信號(hào)中加入正負(fù)成對(duì)形式的白噪聲信號(hào)，不僅克服了EMD中的模態(tài)混疊現(xiàn)象，也能夠消除重構(gòu)信號(hào)中的殘余輔助噪聲，提高模型計(jì)算效率，具體步驟如下。

(1) 將n組白噪聲加入原始信號(hào)中。

(2)

式(2)中：M1、M2表示為加入輔助白噪聲之后的信號(hào)；S表示原始信號(hào)；N表示加入的輔助白噪聲。

(2)EMD分解后每個(gè)信號(hào)得到一組IMF分量。

(3)多組分量取均值得到分解結(jié)果。

(3)

式(3)中：cj表示分解后最終得到的第j個(gè)IMF分量。

2 最小二乘支持向量機(jī)

傳統(tǒng)的支持向量機(jī)(support vector machine，SVM)在處理小樣本數(shù)據(jù)問題時(shí)具有優(yōu)良的統(tǒng)計(jì)能力，Suykens等[11]進(jìn)一步提出改進(jìn)版支持向量機(jī)(least square support vector machine，LSSVM)，使用一組線性方程組取代 SVM 的二次規(guī)劃問題來(lái)解決函數(shù)估計(jì)，且將 SVM 的不等式約束變?yōu)?LSSVM 的等式約束，采用最小二乘線性系統(tǒng)作為模型的損失函數(shù)[12]，大大地簡(jiǎn)化模型計(jì)算過程，提高運(yùn)算速度。LSSVM將一個(gè)樣本集D={(xi,yi) |i=1,2,…，N},其中xi∈Rn,yi∈R，通過使用一個(gè)非線性變換Ф(x)從原來(lái)的低維空間映射到高維空間，即將非線性函數(shù)轉(zhuǎn)化為線性函數(shù)，構(gòu)建最優(yōu)回歸函數(shù)，具體過程模型表示為

y(x)=ωTΦ(x)+b

(4)

式(4)中：ωT表示為空間權(quán)向量；b表示偏置量。

根據(jù)結(jié)構(gòu)最小風(fēng)險(xiǎn)化的原則，目標(biāo)函數(shù)和約束條件設(shè)置如下：

(5)

式(5)中：J為優(yōu)化函數(shù)；γ為懲罰系數(shù)，且γ≥0；ei表示第i個(gè)誤差變量。

定義引入朗格朗日函數(shù)

(6)

式(6)中：a為 Lagrange乘子。根據(jù)最優(yōu)化理論中的KKT(karush-kuhn-tuche)條件使用Lagrange函數(shù)分別對(duì)上式中ω、b、ei、ai求偏導(dǎo)，結(jié)果匯總?cè)缦拢?/p>

(7)

消除上式中的ω和e，可以得到如下矩陣方程：

(8)

式(8)中：s=[1,1,…，1]T；K=Ф(xi)TФ(xi)；I表示單位矩陣；a= [a1,a2,…，al]T；b= [b1,b2,…，bl]T；y= [y1,y2,…，yl]T。

使用最小二乘法求出a和b得到LSSVM回歸函數(shù)最終預(yù)測(cè)模型：

(9)

式(9)中：K(x,xi)表示核函數(shù)，選擇結(jié)構(gòu)簡(jiǎn)單并適用于非線性問題的徑向基函數(shù)的作為核函數(shù)；σ>0，表示為核函數(shù)的待定寬度參數(shù)。

在LSSVM模型中，懲罰系數(shù)γ的選取將直接影響整個(gè)模型計(jì)算的復(fù)雜程度以及穩(wěn)定情況，當(dāng)γ設(shè)定較小，將導(dǎo)致模型訓(xùn)練更長(zhǎng)，誤差較大；而當(dāng)γ取值過大則會(huì)導(dǎo)致模型訓(xùn)練過擬合。核函數(shù)的寬度參數(shù)σ控制整個(gè)函數(shù)的徑向作用范圍，σ的取值變小后擬合誤差將會(huì)減少，但訓(xùn)練時(shí)間會(huì)延長(zhǎng)。因此為提高LSSVM模型的預(yù)測(cè)精度，需要對(duì)兩種參數(shù)進(jìn)行優(yōu)化得到最優(yōu)解[13]。傳統(tǒng)的參數(shù)優(yōu)化方法是通過交叉驗(yàn)證法、窮盡搜索法等，這些方法雖能得到最優(yōu)解但耗時(shí)較長(zhǎng)且容易盲目選擇，而遺傳算法操作簡(jiǎn)單，收斂速度快同時(shí)具有更好的全局尋優(yōu)能力，因此使用遺傳算法對(duì)LSSVM模型參數(shù)進(jìn)行優(yōu)化后，將新得到的參數(shù)賦予訓(xùn)練，達(dá)到預(yù)設(shè)誤差和迭代次數(shù)后結(jié)束網(wǎng)絡(luò)訓(xùn)練，輸出預(yù)測(cè)結(jié)果，以提高模型的預(yù)測(cè)能力。

3 遺傳算法

遺傳算法(genetic algorithm，GA)[14]主要是在計(jì)算模型中設(shè)定成生物自然地進(jìn)化競(jìng)爭(zhēng)的機(jī)制，編碼模型中問題參數(shù)成染色體，模擬自然界中生物遺傳的選擇，交叉和突變過程，并根據(jù)健康狀況保留具有良好適應(yīng)值的優(yōu)秀個(gè)體，在繼續(xù)迭代的同時(shí)形成一個(gè)新的組，使得該組逐漸接近最優(yōu)[15]。遺傳算法具有自適應(yīng)隨機(jī)優(yōu)化搜索，可以做到全局尋優(yōu)，在最優(yōu)化領(lǐng)域方面更加成熟，收斂速度和效果更好。

3.1 初始種群編碼

傳統(tǒng)二進(jìn)制編碼存在連續(xù)函數(shù)離散化的映射誤差，實(shí)數(shù)編碼更適合應(yīng)用于多維數(shù)值問題，使得遺傳算法更加接近待解問題空間，對(duì)于個(gè)體較多的神經(jīng)網(wǎng)絡(luò)，用實(shí)數(shù)對(duì)每個(gè)個(gè)體編碼，獲得初始種群。

3.2 適應(yīng)度函數(shù)

個(gè)體適應(yīng)度值是指預(yù)測(cè)輸出與實(shí)際輸出之間的誤差絕對(duì)值和，即

(10)

式(10)中：n為網(wǎng)絡(luò)輸出節(jié)點(diǎn)數(shù)；yi為網(wǎng)絡(luò)的第i個(gè)節(jié)點(diǎn)的實(shí)際值；oi為第i個(gè)節(jié)點(diǎn)的預(yù)測(cè)值；k為系數(shù)。

3.3 選擇操作

對(duì)于大量數(shù)據(jù)個(gè)體，確定隨機(jī)選擇個(gè)體的概率與其適應(yīng)度函數(shù)值成正比，遺傳算法選擇輪盤賭法選擇概率如下：

(11)

式(11)中：Fi為第i個(gè)個(gè)體的適應(yīng)度值；k為系數(shù)；N為種群個(gè)體數(shù)。

3.4 交叉操作

將上代中優(yōu)秀的基因組合傳遞至下一代，隨機(jī)選取一個(gè)基因位置作為交叉位置，組成新的個(gè)體，產(chǎn)生新的尋優(yōu)空間：

(12)

式(12)中：akj指第k個(gè)染色體上位于j位置時(shí)的基因；alj表示第l個(gè)染色體上位于j位置時(shí)的基因；b是[0,1]間的隨機(jī)數(shù)。

3.5 變異操作

選取第i個(gè)個(gè)體的第j個(gè)基因aij進(jìn)行變異：

(13)

(14)

式中:r2為隨機(jī)數(shù)；g為網(wǎng)絡(luò)已迭代次數(shù)；Gmax為網(wǎng)絡(luò)最多進(jìn)化次數(shù)；amax、amin分別為基因aij的上界和下界；r為[0,1]間的隨機(jī)數(shù)。

4 模型建立

針對(duì)交通流的非穩(wěn)定性和非線性的特點(diǎn)，首先使用CEEMD對(duì)交通流進(jìn)行分解，提高數(shù)據(jù)穩(wěn)定性的同時(shí)還能減小分解的模態(tài)混疊現(xiàn)象，得到分量和殘余分量，采用GA優(yōu)化參數(shù)后的LSSVM模型對(duì)各個(gè)分量進(jìn)行預(yù)測(cè)，最后疊加各分量預(yù)測(cè)值，模型流程如圖1所示，具體實(shí)施步驟如下。

圖1 模型預(yù)測(cè)流程圖Fig.1 Flow chart of model prediction

(1) 使用C EEMD降低數(shù)據(jù)非平穩(wěn)性，分解原始數(shù)據(jù)后得到若干分量。

(2) 對(duì)各分量使用GA-LSSVM模型分別進(jìn)行預(yù)測(cè)。

(3) 將各分量預(yù)測(cè)結(jié)果疊加得到預(yù)測(cè)值。

(4) 分析預(yù)測(cè)結(jié)果誤差。

5 實(shí)際預(yù)測(cè)及研究

選取美國(guó)加利福利亞州某道路2018年3月交通量數(shù)據(jù)為研究對(duì)象，選取每天早上8點(diǎn)至10點(diǎn)，采樣周期5 min，共750組樣本數(shù)據(jù)，將前650組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，后100組作為測(cè)速數(shù)據(jù)，設(shè)置添加白噪聲的標(biāo)準(zhǔn)偏差為0.4，原始數(shù)據(jù)分解后根據(jù)不同的頻率得到9個(gè)本征模態(tài)函數(shù)IMFs分量，和1個(gè)殘余分量，如圖2所示。

圖2 原始數(shù)據(jù)分解Fig.2 Decomposition of the original data

為了驗(yàn)證本文提出的互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解后基于遺傳算法優(yōu)化最小二乘支持向量機(jī)模型(CEEMD-GA-LSSVM)預(yù)測(cè)的準(zhǔn)確性，另選取最小二乘支持向量機(jī)(LSSVM)、經(jīng)驗(yàn)?zāi)B(tài)分解后最小二乘支持向量機(jī)(EMD-LSSVM)、互補(bǔ)型集成經(jīng)驗(yàn)?zāi)B(tài)分解后最小二乘支持向量機(jī)(CEEMD-LSSVM)和經(jīng)驗(yàn)?zāi)B(tài)分解后基于遺傳算法優(yōu)化最小二乘支持向量機(jī)(EMD-GA-LSVVM)共5種模型進(jìn)行對(duì)比分析，從圖3可以看出LSSVM、EMD-LSSVM兩種模型預(yù)測(cè)值與實(shí)際值曲線偏離過多且波動(dòng)較大。圖4所示為CEEMD-LSSVM、EMD-GA-LSSVM與CEEMD-GA-LSSVM 3種模型預(yù)測(cè)值與實(shí)際值對(duì)比，可以看出，CEEMD-GA-LSSVM模型預(yù)測(cè)曲線更貼近實(shí)際值，具有較高的擬合度，預(yù)測(cè)效果明顯高于另4種模型。

圖3 EMD-LSSVM與LSSVM模型預(yù)測(cè)結(jié)果Fig.3 Predictions of EMD-LSSVM and LSSVM models

圖4 CEEMD-GA-LSSVM、EMD-GA-LSSVM、CEEMD-LSSVM模型預(yù)測(cè)結(jié)果Fig.4 Predictions of CEEMD-GA-LSSVM、EMD-GA-LSSVM and CEEMD-LSSVM models

引入平均相對(duì)誤差(mean absolute percentage error，MAPE)和均方根誤差(root mean square error，RMSE)兩種評(píng)價(jià)指標(biāo)來(lái)更直觀地反映出模型預(yù)測(cè)精度。

(15)

(16)

式中：n為樣本數(shù)；yi為實(shí)際值；yi′為模型預(yù)測(cè)值。

表1中列出各模型的MAPE和RMSE，由表1可知單一的LSSVM模型預(yù)測(cè)誤差最差，組合模型能夠提高預(yù)測(cè)精度；CEEMD-LSSVM與EMD-LSSVM相比，前者的 MAPE和RMSE分別減小了4.23%和4.25%，說(shuō)明CEEMD能夠克服EMD的模態(tài)混疊現(xiàn)象，得到更有規(guī)律的分量，提高了預(yù)測(cè)精度；CEEMD-GA-LSSVM預(yù)測(cè)模型MAPE值為6.51%，RMSE值為8.29%，在所有模型中最優(yōu)，且高于CEEMD-LSSVM，表明提出的模型能夠汲取GA的尋優(yōu)能力，更適用于預(yù)測(cè)。

表1 預(yù)測(cè)模型誤差對(duì)比Table 1 Errors of different prediction models

6 結(jié)論

(1) CEEMD-GA-LSSVM模型預(yù)測(cè)誤差均優(yōu)于其余5種預(yù)測(cè)模型，MAPE為6.51%，RMSE為8.29%，CEEMD-GA-LSSVM模型預(yù)測(cè)值在所有對(duì)比模型中最接近實(shí)際值。

(2) 單一模型LSSVM預(yù)測(cè)MAPE為18.32%，在所有模型中預(yù)測(cè)效果最差，表明組合模型預(yù)測(cè)效果優(yōu)于單一模型。

(3) CEEMD-LSSVM的預(yù)測(cè)誤差10.04%優(yōu)于EMD-LSSVM模型的14.27%，同樣地也體現(xiàn)在CEEMD-GA-LSSVM和EMD-GA-LSSVM中，證明CEEMD能夠克服EMD后出現(xiàn)模態(tài)混疊的現(xiàn)象，提高了預(yù)測(cè)精度，表明CEEMD比傳統(tǒng)EMD更適用于預(yù)測(cè)模型。

(4) 通過對(duì)比CEEMD-LSSVM和CEEMD-GA-LSSVM，可以看出后者平均相對(duì)誤差6.51%明顯低于前者的10.04%，經(jīng)過GA優(yōu)化后的模型預(yù)測(cè)曲線比其他模型更加平穩(wěn)，數(shù)據(jù)預(yù)測(cè)波動(dòng)較少，該模型能夠?yàn)榻煌黝A(yù)測(cè)提供一定參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡