高立東,白軍成
(1.蘭州交通大學(xué)交通運輸學(xué)院,甘肅 蘭州 730070;2.西安電子科技大學(xué)經(jīng)濟管理學(xué)院,陜西 西安 710071)
隨著我國城鎮(zhèn)化水平的提升以及社會經(jīng)濟發(fā)展水平的持續(xù)增長,選擇高鐵為旅行方式的乘客正逐步增多。乘客是交通運輸?shù)闹黧w,科學(xué)地預(yù)測客流量,對旅客列車開通以及客運組織方案的制定都有著很大的現(xiàn)實意義。高鐵短期客流預(yù)測其實就是對日乘坐高速鐵路出行的旅客數(shù)量的預(yù)測統(tǒng)計,在一定程度上可以很直觀地顯示高鐵客流在短期內(nèi)的變化態(tài)勢以及以此推斷出來旅客數(shù)量的未來變化趨勢,而取得穩(wěn)定且較為準(zhǔn)確的客流預(yù)測也可以給乘客創(chuàng)造更為便捷的條件和更加良好的服務(wù)質(zhì)量。
隨著鐵路交通客流量預(yù)測理論的深入研究,在中長期客流預(yù)測領(lǐng)域中已經(jīng)有很多學(xué)者都做過相關(guān)的研究,可以說成果頗多,但相比之下短期客流方面的研究還有待發(fā)展,近幾年短期客流量預(yù)測的新方法被日益提出。在交通客流量預(yù)測方法中,傳統(tǒng)的數(shù)理統(tǒng)計學(xué)方法最先被運用其中,例如Sangsoo等[1]對ARIMA模型做出了詳細的解析,在文中將影響高鐵客流的時間、空間,以及社會經(jīng)濟因素等統(tǒng)統(tǒng)考慮進來,從而達到比較全面對預(yù)測模型性能的探討研究,并最終得到的預(yù)測結(jié)果表明該論文中的思路方法有很不錯的借鑒價值。Jonas[2]創(chuàng)立的模型要區(qū)別于一般的回歸類模型,是一種多元的回歸預(yù)測模型,用來預(yù)測客流量,在文中具體實驗結(jié)果表明預(yù)測值的偏差減少了并且輸出結(jié)果較穩(wěn)定。但這些方法學(xué)習(xí)能力一般,面對實際問題中數(shù)據(jù)的復(fù)雜性通常預(yù)測精度和穩(wěn)定性會受到較大的影響,且此類模型很難抓住非線性動態(tài)數(shù)據(jù)的特征,所以實驗結(jié)果的預(yù)測精度還有待提高。人工智能技術(shù)的深入研究應(yīng)用目前在很多領(lǐng)域都比較常見,在預(yù)測方面已經(jīng)熟知的方法中包括有支持向量機、前饋神經(jīng)網(wǎng)絡(luò)系統(tǒng)以及相關(guān)結(jié)合生物算法的神經(jīng)網(wǎng)絡(luò)等。人工智能技術(shù)的特點可以總結(jié)為模仿人類大腦認知和推演的過程,具體表現(xiàn)為通過結(jié)合數(shù)據(jù)的時間和空間特征參數(shù)來構(gòu)建相關(guān)模型,同時可以在沒有任何先驗知識的情況下以任意精度逼近任何非線性模式,所以其能被廣泛地應(yīng)用到鐵路、航空等的客流預(yù)測領(lǐng)域中,為旅客出行提供了重要參考依據(jù)。鄧軍生等[3]探討分析了幾種預(yù)測模型,對比各模型預(yù)測結(jié)果的評價指標(biāo),得出支持矢量回歸機(SVR)的客流預(yù)測模型在各方面都具有優(yōu)越性,運用該模型開展的實驗研究其實驗結(jié)果表明構(gòu)建模型的預(yù)測性能相對最好。韓媛媛等[4]將時間序列信息解析基礎(chǔ)理論和信息挖掘技術(shù)相結(jié)合,利用構(gòu)建了采用信息挖掘新技術(shù)的徑向基神經(jīng)網(wǎng)絡(luò)模型進行客流預(yù)測,將結(jié)果和采用BP神經(jīng)網(wǎng)絡(luò)模擬的預(yù)測結(jié)果比較,顯示預(yù)測效果良好。極限學(xué)習(xí)機的提出表明,其在各方面相較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)性能優(yōu)異[5]。具體由于輸入權(quán)重和偏置隨機產(chǎn)生,使得模型的泛化性能和學(xué)習(xí)速度都大大提升,進而使得非線性擬合能力表現(xiàn)更加突出。此外,在這一基礎(chǔ)上核極限學(xué)習(xí)機也被提出,它的預(yù)測性能有所改善,主要因為它相較極限學(xué)習(xí)機可以利用核函數(shù)來替代原先的激活函數(shù),以此提高整個模型的預(yù)測性能,且在短時客流預(yù)測方面得以良好應(yīng)用。
因為人工智能技術(shù)需要初始化權(quán)重和閾值,所以其參數(shù)設(shè)置的復(fù)雜性使得無法保證持續(xù)輸出穩(wěn)定的預(yù)測結(jié)果。在短期客流量預(yù)測研究大發(fā)展的背景下,組合類預(yù)測模型開始被學(xué)者探討研究,成為了短時客流預(yù)測研究的重點方向之一。在高鐵客運領(lǐng)域,因為一般原始客流數(shù)據(jù)波動性很強,所以在此基礎(chǔ)上得到的客流量預(yù)估會出現(xiàn)預(yù)測結(jié)果與實際值誤差較大的現(xiàn)象。學(xué)者們通常利用數(shù)據(jù)預(yù)處理技術(shù)來極大程度減小復(fù)雜數(shù)據(jù)帶來的預(yù)測不穩(wěn)定的問題,并相應(yīng)提高預(yù)測準(zhǔn)確性。比較常見的處理技術(shù)有很多,其中小波包分解和變分模態(tài)分解就是學(xué)者使用較多的、經(jīng)驗?zāi)B(tài)分解也隨著發(fā)展逐步更新有了完全重組經(jīng)驗?zāi)B(tài)分解算法的創(chuàng)新。利用這些分解方式可以達到使原有時間序列自適應(yīng)地分解成一些較為平穩(wěn)的子序列的效果,這樣再進行預(yù)測時得到的預(yù)測結(jié)果更準(zhǔn)確且穩(wěn)定性也有所提升。例如Yu等[6]使用EMD方式對地鐵的短期旅客流量做出分解處理,并在此基礎(chǔ)上建立了短期客流量預(yù)測模型,實驗結(jié)果表明該模型有很大參考價值,尤其是它啟發(fā)了考慮利用分解組合的模式來建立模型進行客流預(yù)測實驗是非常有效的方法。楊軍和侯忠生[7]分析了北京站的具體車站客流量情況,其中對各個時間間隔下的乘客出行人數(shù)做了詳細統(tǒng)計,并運用小波分解對數(shù)據(jù)做出了分解處理,從而減弱了其不規(guī)則的波動性態(tài)勢,同時結(jié)合支持向量機對車站的客流量做出了預(yù)測,最后經(jīng)過測試證明了預(yù)測結(jié)果良好,且該方法模型創(chuàng)新使用的效果得以顯現(xiàn)。潘杉[8]分別對比了EEMD-ARIMA、EEMD-SVR、ARIMASVR等模型在鐵路客流量預(yù)測實例中的效果,得出結(jié)論即EEMD算法對原始數(shù)據(jù)的分解起到了關(guān)鍵的作用,它讓客流數(shù)據(jù)分解為IMF分量形式再輸入預(yù)測模型結(jié)構(gòu)中,這樣有效提高了實驗結(jié)果的預(yù)測準(zhǔn)確性,同時突顯了組合預(yù)測模型預(yù)測性能穩(wěn)定和適用性強的良好特點。何九冉和四兵鋒[9]分析了北京地鐵的歷史客運量數(shù)據(jù),針對日客流量有著不穩(wěn)定變化規(guī)律特點,構(gòu)建了EMD-RBF客運量預(yù)測模型,得到的日車站客流量預(yù)測值具有很好的精度,說明利用分解分量來預(yù)測的EMD-RBF預(yù)測模型方案可以很好改善預(yù)測結(jié)果的精確度和穩(wěn)定性。
高速鐵路的短期客流時間序列會同時受到時間、空間等多個隨機變化因素的綜合影響,并且在一定程度上表現(xiàn)為很大的波動性。論文中采用引入相關(guān)分解模型對高速鐵路客流時間序列進行初步分解的方法,并通過綜合分析高鐵短期客流對應(yīng)在各個時間尺度下的波動特征來更全面挖掘出客流數(shù)據(jù)變化規(guī)律背后隱含的信息,以此來揭示高鐵短期客流量變化的發(fā)展趨勢。
經(jīng)驗?zāi)B(tài)分解(EMD)算法對于解決信號時頻處理相關(guān)問題十分有效,具體表現(xiàn)為它可以自適應(yīng)地進行對信息特征識別并篩選的過程[10]。對比傳統(tǒng)傅里葉變換方法,它沒有預(yù)先確定任何基函數(shù),僅對時間序列自身的波動發(fā)展趨勢加以分析。它能夠把復(fù)雜時間序列進行分解,使原來的復(fù)雜序列變?yōu)橛邢迋€本征模態(tài)函數(shù),這樣以分量形式的再預(yù)測,可以充分挖掘原始數(shù)據(jù)背后的大量隱含信息,同時使得復(fù)雜波動的數(shù)據(jù)更為平滑化,便于后續(xù)預(yù)測模型的訓(xùn)練。因而該方法在非線性非均勻時間序列的問題解決中開始應(yīng)用較多。針對本文的高鐵客流數(shù)據(jù)序列,其EMD的具體實現(xiàn)過程為:
(1)找出原始序列X(t)中的局部極大值,然后用三階樣條函數(shù)進行插值,得到原序列上下包絡(luò)值Xmax(t)和Xmin(t);
(2)對每一個時間段的Xmax(t)和Xmin(t)取均值:
(3)類距平均值序列h(t):
如果h(t)中跨零點的數(shù)目和極值點的數(shù)目小于等于一個,就得到了內(nèi)模函數(shù);否則,繼續(xù)上面的步驟。用原始序列X(t)減去I1(t)得到剩余值r1(t):
重復(fù)直到?jīng)]有IMF能夠被提取出來。
對經(jīng)驗?zāi)B(tài)分解模型來說,它本身就在信息處理中具有一定缺陷,即是由于信息中斷而導(dǎo)致的模態(tài)混疊現(xiàn)象。這對預(yù)測精度有著十分不好的影響。
Wu和Huang[11]為解決這一問題,在EMD方法的基礎(chǔ)上提出了給原始數(shù)據(jù)加白噪聲的方法,從一定程度上減少了EMD中的模態(tài)混疊現(xiàn)象。但是又因為增加了大量白噪聲,它所形成的殘余會對原始數(shù)據(jù)產(chǎn)生其他污染,因此為減少由于增加白噪聲所產(chǎn)生的影響,Torres等[12]在EEMD的基礎(chǔ)上提出了完全重組經(jīng)驗?zāi)B(tài)分解(CEEMD)方法,把一對正噪聲和負噪聲都加入到了初始信號中,這樣通過抵消的方式以降低分解過程造成噪聲殘留帶來的干擾。其中具體CEEMD描述如下:
(1)原始數(shù)據(jù)加入噪聲Z1和Z2;
A表示原始數(shù)據(jù);E是添加的噪聲;表示添加了正噪聲的數(shù)據(jù)序列;Z2表示添加了負噪聲的數(shù)據(jù)序列。
(2)噪聲序列Z1和Z2被EMD 分解成2個本征模態(tài)函數(shù)集合;
(3)重復(fù)上面的步驟直到殘余項成為一個單調(diào)遞增函數(shù);
(4)得到最終的本征模態(tài)函數(shù)集合。
Dominique[13]提出的變分模態(tài)分解(VMD),其具體實現(xiàn)過程為假定各模態(tài)分量為uk,且對模態(tài)函數(shù)設(shè)置中心頻率為ωk,為使uk的有限帶寬在中心頻率ωk的規(guī)定范圍內(nèi),需作如下處理:
(1)對每個uk進行Hilbert變換得到單邊頻譜;
(2)將頻譜轉(zhuǎn)移到基帶;
(3)每個uk帶寬由L2范數(shù)梯度的平方估算可得。
綜上,可得約束變分問題模型如下式所示:
在式(6)和(7)中:k 為迭代次數(shù);δ(t)為脈沖函數(shù);f(t)為待分解信號;i為虛部。
為求得最優(yōu)解,得到增廣拉格朗日表達式:
式(8)中:α為平衡參數(shù)。
樣本熵是被在近似熵的基礎(chǔ)上提出的一種模型算法,它提高了熵值測量的精確度,并且降低了誤差[14]。它可以對非線性數(shù)據(jù)的復(fù)雜性指標(biāo)進行合理評估。其中整個序列的復(fù)雜度如果越高那么它對應(yīng)的熵值越大,相反。詳細計算步驟如下:
(1)重構(gòu)原始數(shù)據(jù)形成一個矩陣:
(2)定義變量x(i)和變量x(j)之間的距離d[x(i),x(j)]:
(3)給定閾值r,然后記錄滿足條件d[x(i),x(j)]≤r的數(shù)量Ai(r),記做:Aim(r)
第二,福建小學(xué)教育經(jīng)費的持續(xù)增加,也緩解了戰(zhàn)時小學(xué)教育的壓力。1940年福建省的國教經(jīng)費為994014元,1941年增為1254897元[28]73;1942年全省教費列為10198450元,其中國教經(jīng)費2079302元,到1943年,全省教費列為14944589元,國教經(jīng)費2295768元[27]3。就這四年而言,國教經(jīng)費就增加了1301754元。由于福建省對小學(xué)教育經(jīng)費的增加,在一定程度上促進了小學(xué)教育的發(fā)展。
(4)計算Aim(r)的均值A(chǔ)m(r):
(5)更新m,重復(fù)步驟(1)到(3),然后得到Am+1(r)
(6)計算樣本熵值:
Huang[10]提出的極限學(xué)習(xí)機(ELM)對比其他傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò),各方面優(yōu)勢都較為突出。鑒于此,該方法已被許多專家學(xué)者研究應(yīng)用于多個領(lǐng)域[15-16]。
對于n個任意(xi,yi)的樣本,其中xi∈R,yi∈R,i=1,2…,n,單層前饋神經(jīng)網(wǎng)絡(luò)構(gòu)建如下:
式中:Y代表輸出矩陣,β表示極限學(xué)習(xí)機的權(quán)值,W表示輸入權(quán)值,z代表隱含層的節(jié)點數(shù),公式(15)簡寫如下:
上式的解可由下面的計算得到:
利用核函數(shù)取代原來的激活函數(shù)k(x),即可得到核極限學(xué)習(xí)機,具體如下:
為了提高高速鐵路短時客流量時間序列的預(yù)測精度,提出了一種新型的CEEMD-ELM-VMDKELM組合預(yù)測模型。因為通常在進行客流預(yù)測時,原始數(shù)據(jù)序列內(nèi)在噪聲的干擾會很大程度影響預(yù)測結(jié)果,使得預(yù)測輸出結(jié)果的穩(wěn)定性和精確度都受到影響。本文將充分利用數(shù)據(jù)預(yù)處理技術(shù)來減少噪聲影響,并且在傳統(tǒng)一次分解之后,進行對較復(fù)雜序列的再次分解,這樣讓一次分解后得出的高頻分量可以被再一次分解來降低分量的預(yù)測難度,從而達到對最復(fù)雜分量進行平滑處理的目的,同時減少整體數(shù)據(jù)的復(fù)雜性并更好地利用IMF分量預(yù)測模型方案,具體步驟如下:
步驟一:對原始客流量數(shù)據(jù)進行CEEMD分解;
步驟二:引入樣本熵模型對一次分解分量的復(fù)雜度進行計算判斷;
步驟三:選擇復(fù)雜度最高的分量進行二次分解,在充分降低數(shù)據(jù)復(fù)雜度的同時也更好地挖掘時間序列中的隱藏信息;
步驟四:再次使用樣本熵測量二次分解分量的復(fù)雜度;
步驟五:通過分析確定預(yù)測模型的輸入個數(shù);
步驟六:建立基于極限學(xué)習(xí)機的短時客流預(yù)測模型,用來預(yù)測除最大SE值序列以外的一次分解分量,以及使用基于核函數(shù)的極限學(xué)習(xí)機來預(yù)測二次分解分量;
步驟七:將所有預(yù)測結(jié)果相加求和。
本研究以ZD013-ZD190-01的OD 日客流作為原始數(shù)據(jù),預(yù)測時劃分訓(xùn)練集和測試集,其中選擇樣本共145個(2015 年1 月1 日—2015年5月25 日)作為訓(xùn)練集,樣本36個(2015年5 月26 日—2015 年6 月30 日)作為測試集。通過對前145項數(shù)據(jù)進行模型訓(xùn)練,將訓(xùn)練好的模型用于其后測試集的預(yù)測。基準(zhǔn)模型中,將高鐵的日客流量數(shù)據(jù)分別帶入BP神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)、ELM和KELM等模型進行實例檢驗和分析比較。隨后在組合模型中,構(gòu)建出一次分解組合預(yù)測模型,然后對生成的各預(yù)測數(shù)據(jù)及對應(yīng)評價指標(biāo)進行對比分析。最后在一次分解基礎(chǔ)上進行二次分解,構(gòu)建出二次分解組合預(yù)測模型,通過預(yù)測結(jié)果比較各模型的預(yù)測性能以確定出最終的預(yù)測模型方案。
分別以BP神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)、ELM和KELM為基準(zhǔn)預(yù)測模型,輸入原始數(shù)據(jù),運用各基準(zhǔn)模型進行訓(xùn)練學(xué)習(xí),可獲得預(yù)測結(jié)果。
本章通過采用平均絕對值百分比誤差(MAPE)、均方根誤差(RMSE)和平均絕對誤差(MAE)來評價各模型的預(yù)測性能。在此基礎(chǔ)之上,還引入了Dstat作為重要的衡量方向程度的標(biāo)準(zhǔn)。
其中MAPE、MAE和RMSE的值越小,說明預(yù)測模型表現(xiàn)越良好。而對Dstat來說,數(shù)值越大說明預(yù)測效果越好。具體對應(yīng)各模型的預(yù)測效果見表1。
表1 基準(zhǔn)模型預(yù)測效果對比
從表1中可以看出,用4種基準(zhǔn)模型預(yù)測高鐵日客流量時,ELM和KELM預(yù)測模型的相關(guān)指標(biāo)接近,且前三項指標(biāo)都較小,Dstat值較大,這說明ELM和KELM預(yù)測模型的預(yù)測效果優(yōu)于BP和Elamn神經(jīng)網(wǎng)絡(luò)。參考其他文獻[17-22],該類基準(zhǔn)模型在預(yù)測精度方面還有改善提升的空間。
由于高速鐵路客流量具有非線性、非平穩(wěn)性的特點,BP神經(jīng)網(wǎng)絡(luò)等基準(zhǔn)模型在預(yù)測時,那些波動性強的復(fù)雜數(shù)據(jù)會對整個網(wǎng)絡(luò)產(chǎn)生干擾,致使預(yù)測精度受影響。因此通過CEEMD算法和VMD算法分別進行一次,二次分解,可逐步降低原始數(shù)據(jù)的波動性和復(fù)雜性,結(jié)合基準(zhǔn)模型ELM和KELM,可形成CEEMD-ELM-VMD-KELM的二次分解組合預(yù)測模型。
3.1.1 預(yù)測模型構(gòu)建
首先,通過對原始客流量數(shù)據(jù)進行CEEMD分解,且如果分解后得到的模態(tài)數(shù)量過多會導(dǎo)致偏差的積累,從而使得預(yù)測效果較差;如果分解得到的模態(tài)數(shù)量過少,又說明有效信息沒有完全挖掘,因此本文將數(shù)據(jù)分解為8 個本征模態(tài)函數(shù)。然后用樣本熵模型計算比較得出最復(fù)雜的分量進行VMD二次分解,同理分解后獲得8 個本征模態(tài)函數(shù),且所有分解結(jié)果顯示在圖1和圖2,熵值計算結(jié)果見表2和表3。
表2 CEEMD分解子序列的樣本熵值
表3 VMD分解子序列的樣本熵值
圖1 CEEMD分解結(jié)果
圖2 VMD分解結(jié)果
其中,原始數(shù)據(jù)經(jīng)分解后,有針對性的將CEEMD分解結(jié)果輸入ELM模型來預(yù)測和將VMD分解結(jié)果輸入KELM模型來預(yù)測。同時,神經(jīng)網(wǎng)絡(luò)輸入結(jié)構(gòu)的設(shè)置也很關(guān)鍵,本文通過對比輸入層節(jié)點數(shù)從3到10時的預(yù)測表現(xiàn)如圖3所示,得出當(dāng)節(jié)點數(shù)為7時可取得最好的預(yù)測效果。
圖3 不同輸入個數(shù)預(yù)測結(jié)果MAPE值
為了驗證CEEMD-ELM-VMD-KELM模型預(yù)測的精確性,進行相關(guān)對比實驗,其中不同模型的預(yù)測結(jié)果見表4和圖4,通過分析得出:
圖4 模型預(yù)測結(jié)果對比
表4 各分解組合預(yù)測模型的評估結(jié)果
(1)在所有的一次分解組合預(yù)測模型中,CEEMDELM的平均絕對百分比誤差值最低,均方根誤差偏小,且其他兩項指標(biāo)都具有優(yōu)勢。同理在各指標(biāo)下,VMD-KELM的預(yù)測效果也較好。這決定了后續(xù)的二次分解將分別采用完全重組經(jīng)驗?zāi)B(tài)和變分模態(tài)分解算法。當(dāng)平均絕對百分比誤差(MAPE)的值小于10的時候,預(yù)測結(jié)果良好[16]。
(2)相比較一次分解組合預(yù)測模型中最小MAPE值3.52,CEEMD-ELM-VMD-KELM的MAPE 值2.21減少了37.2%,這說明了二次分解可以將隱藏在數(shù)據(jù)序列背后的規(guī)律信息更充分地挖掘,降低一次分解后高頻部分的預(yù)測難度,使得預(yù)測效果有所提升,進一步證明了二次分解預(yù)測的優(yōu)越性。
(3)在所有二次分解方法的比較中,本研究提出的新型二次分解組合預(yù)測模型的預(yù)測結(jié)果在各項指標(biāo)上表現(xiàn)最好。
最后,通過分別對基準(zhǔn)模型、一次分解和二次分解組合預(yù)測模型中預(yù)測表現(xiàn)最好的模型預(yù)測結(jié)果作圖比較可更直觀看到,CEEMD-ELM-VMDKELM的預(yù)測曲線與原始數(shù)據(jù)曲線基本重合,預(yù)測結(jié)果最好,能夠有效地對高鐵OD日客流量數(shù)據(jù)進行預(yù)測。
本文采用二次分解組合預(yù)測模對高鐵OD日客流量進行預(yù)測,這為客流預(yù)測問題提供了全新的解決方法。具體在數(shù)據(jù)實驗中進行CEEMD-ELMVMD-KELM模型構(gòu)建,同時通過學(xué)習(xí)和訓(xùn)練,完成模型的最終預(yù)測。比較其他預(yù)測模型,結(jié)果顯示本文中所構(gòu)建的模型在預(yù)測精確度和穩(wěn)定性上都有較大優(yōu)勢。仍要說明的是雖然在實例中的客流量預(yù)測雖然取得了良好的預(yù)測結(jié)果,但還需進一步優(yōu)化模型以提高預(yù)測精度,且本文在后續(xù)研究還會充分考慮其他外在因素對預(yù)測精度的影響。