曾鳴,林磊,程文明
1.西南交通大學(xué)機(jī)械工程學(xué)院,成都 610031
2.紐約州立大學(xué)布法羅分校土木工程學(xué)院,美國布法羅 14260
基于LIBSVM和時(shí)間序列的區(qū)域貨運(yùn)量預(yù)測(cè)研究
曾鳴1,林磊2,程文明1
1.西南交通大學(xué)機(jī)械工程學(xué)院,成都 610031
2.紐約州立大學(xué)布法羅分校土木工程學(xué)院,美國布法羅 14260
區(qū)域貨運(yùn)量是反映地區(qū)運(yùn)輸需求的一項(xiàng)重要指標(biāo),同時(shí)也是進(jìn)行地區(qū)運(yùn)輸系統(tǒng)規(guī)劃和管理的基礎(chǔ),其預(yù)測(cè)精度和誤差水平對(duì)整個(gè)區(qū)域的運(yùn)輸組織、規(guī)劃、管理和決策等都會(huì)產(chǎn)生十分重要的影響。因此,選擇一種精度較高的預(yù)測(cè)方法,對(duì)區(qū)域未來的貨運(yùn)量進(jìn)行分析研究具有較強(qiáng)的理論和實(shí)際意義。區(qū)域貨運(yùn)量產(chǎn)生的影響因素眾多,不僅包括該地區(qū)的運(yùn)輸系統(tǒng)供給,而且涵蓋大量的區(qū)域經(jīng)濟(jì)因素,同時(shí)各影響因素對(duì)整個(gè)區(qū)域貨運(yùn)量的影響程度也不盡相同,使得區(qū)域貨運(yùn)量預(yù)測(cè)問題具有模糊性和高度非線性的特點(diǎn)。此外,由于人力、物力以及技術(shù)等方面的限制,統(tǒng)計(jì)過程常受到各種噪聲干擾,一些區(qū)域的統(tǒng)計(jì)資料尚不完備,無法獲得足夠多的樣本,使得預(yù)測(cè)精度無法保證。
由此可見,區(qū)域貨運(yùn)量預(yù)測(cè)的關(guān)鍵在于解決高維度非線性小樣本預(yù)測(cè)問題。傳統(tǒng)的貨運(yùn)量預(yù)測(cè)方法包括回歸分析法[1]、時(shí)間序列分析法[2]、因果分析法、彈性系數(shù)法,以及綜合這些方法的組合預(yù)測(cè)方法[3]等,然而這些方法所建立的模型大都不能準(zhǔn)確反映數(shù)據(jù)復(fù)雜的內(nèi)部結(jié)構(gòu),造成信息量丟失和結(jié)果失真。當(dāng)前貨運(yùn)量預(yù)測(cè)大多采用模糊[4]、小波分析[5]、灰色模型[6-7]以及神經(jīng)網(wǎng)絡(luò)[8-9]及其相應(yīng)的改進(jìn),如BP[10]、RBF[11]、廣義回歸神經(jīng)網(wǎng)絡(luò)以及這些方法的組合[12]。雖然這些方法能夠較好地解釋數(shù)據(jù)非線性關(guān)系,但對(duì)于區(qū)域貨運(yùn)量這類影響因素多、樣本量較小的預(yù)測(cè)問題仍具有很大局限性,不能保證其預(yù)測(cè)精度。為此,本文提出了將MI與LIBSVM支持向量回歸模型以及狀態(tài)空間時(shí)間序列模型相結(jié)合的預(yù)測(cè)方法,采用互信息(Mutual Information,MI)方法在不減少貨運(yùn)量影響因素信息量條件下,進(jìn)行綜合信息提取和降維,以解決信息冗余、噪聲和維數(shù)過高的問題。將所得低維空間作為輸入,并在此基礎(chǔ)上分別建立(Library for Support Vector Machines,LIBSVM)支持向量回歸預(yù)測(cè)模型以及狀態(tài)空間時(shí)間序列預(yù)測(cè)模型。通過重慶市貨運(yùn)量預(yù)測(cè)算例分析,驗(yàn)證了方法的有效性。
高維度特征降維方法主要分為特征抽取和特征選擇兩種類型。相對(duì)于主成分分析、非線性PCA網(wǎng)絡(luò)、獨(dú)立成分分析等特征抽取方法涉及語義分析,特征選擇方法選出的特征集是原始特征集的子集,組成的新低維空間不改變?cè)继卣骺臻g的性質(zhì),因此更容易實(shí)現(xiàn)且效果更為顯著。本文采用典型的特征選擇方法互信息MI[13]對(duì)原始特征空間進(jìn)行降維。作為高維數(shù)據(jù)的分離度量方法,MI建立了高維特征提取向量與輸出分類信息之間的內(nèi)在聯(lián)系,是一種有效的信息判據(jù)特征提取方法。
根據(jù)信息論[14],熵用以度量隨機(jī)變量的不確定性,因此信息類別ω=() ω1,ω2,…,ωn的熵可以表示為:
信息類別與特征向量F=() f1,f2,…,fn的聯(lián)合熵為:
根據(jù)定義,信息類別ω與特征向量F之間的互信息可由以下公式計(jì)算:
其中P(ω,f)為聯(lián)合概率密度,P(ω) P(f)為邊緣概率密度。互信息值越大,表示變量間的相關(guān)度越高。
對(duì)于區(qū)域貨運(yùn)量而言,當(dāng)其受到如政策變化、自然災(zāi)害等一些特殊原因影響時(shí),該區(qū)域貨運(yùn)量在所對(duì)應(yīng)的預(yù)測(cè)單位時(shí)間內(nèi),會(huì)產(chǎn)生劇烈增加或者減少。經(jīng)分析,這種影響的本質(zhì),仍由這些特殊原因引起的貨運(yùn)量相關(guān)影響因素大幅變動(dòng)所體現(xiàn),并且這些影響因素對(duì)于最終預(yù)測(cè)結(jié)果通常具有更為直接的影響。因此,為綜合考慮此類區(qū)域貨運(yùn)量預(yù)測(cè)問題,同時(shí)反映上述特點(diǎn),決定引入判別因子σi及調(diào)整系數(shù)λi。
其中fti表示第t個(gè)單位時(shí)間內(nèi)第i個(gè)特征的值。調(diào)整系數(shù):
其中Q(σi)表示滿足σi〉0的判別因子數(shù)量。
通過判別因子及調(diào)整系數(shù)的計(jì)算,使發(fā)生劇烈變化且具有較大互信息值的影響因素,首選進(jìn)入新的特征集合,并以此首選特征為基礎(chǔ),計(jì)算確定其他選擇特征,從而提高預(yù)測(cè)結(jié)果的準(zhǔn)確度。
以MIFS算法[15]為基礎(chǔ),具體步驟如下:
第一步,初始化特征集合F,使其含有N個(gè)特征,設(shè)置集合A為空集。
第二步,計(jì)算判別因子σi,i=1,2,…,N及Q(σi)。當(dāng)Q(σi)〉0,σi〉0,令相應(yīng)調(diào)整系數(shù)λi=1;當(dāng)Q(σi)〉0,σi≤0,令相應(yīng)調(diào)整系數(shù)λi=0;當(dāng)Q(σi)=0,則令所有調(diào)整系數(shù)λi=1。
第三步,計(jì)算特征集合F中的每一個(gè)特征fi,i=1,2,…, N與信息類別ω之間含有調(diào)整系數(shù)的互信息λiΙ() ω;fi,i= 1,2,…,N。
第四步,找出使λiΙ(ω;fi)最大的首選特征fm,將其賦給集合A的同時(shí)從原特征集合F中消除。
原特征集合F中消除;若不成立,則令λi=1,i=1,2,…,N-1然后進(jìn)行上述特征選擇。重復(fù)以上貪心選擇方法直到找出所有k個(gè)特征,即|| A=k。第六步,輸出含有全部所選擇特征的集合A。
支持向量回歸(Support Vector Regression,SVR)是Vapnik[16]在1995年基于統(tǒng)計(jì)學(xué)習(xí)理論提出的一種機(jī)器學(xué)習(xí)方法,它涵蓋了支持向量機(jī)(SVM)的許多優(yōu)點(diǎn),在許多領(lǐng)域得到廣泛應(yīng)用。支持向量機(jī)體現(xiàn)了結(jié)構(gòu)風(fēng)險(xiǎn)最小化以及泛化誤差上界最小化的原則,其最初產(chǎn)生的目的是為了解決分類問題。在1997年Vapnik提出不敏感損失函數(shù)后,支持向量機(jī)方法的應(yīng)用領(lǐng)域得以延伸,形成了支持向量回歸方法(SVR)用以解決非線性回歸問題[17]。
狀態(tài)空間時(shí)間序列模型與其他時(shí)間序列方法不同,它以模型結(jié)構(gòu)和組成成分分析為基礎(chǔ),當(dāng)模型結(jié)構(gòu)隨著時(shí)間發(fā)生變化時(shí),具有很強(qiáng)的靈活性。同時(shí),該模型能夠很好地處理觀測(cè)值丟失的問題,并且通過將卡爾曼濾波引入最終的預(yù)測(cè),能夠更直接地獲得所需的估計(jì)值及標(biāo)準(zhǔn)差。
3.1 LIBSVM支持向量回歸模型
支持向量回歸方法為:給定數(shù)據(jù)點(diǎn)集{(x1,y1),(x2,y2),…,(xn,yn)}?X×R,其中X表示輸入模式空間,n表示總的訓(xùn)練樣本個(gè)數(shù)。根據(jù)數(shù)據(jù)點(diǎn)集可建立以下線性回歸方程:f(x)=〈ω,x〉+b,ω∈X,b∈R,〈,〉表示X中的點(diǎn)積,b表示標(biāo)量閾值。假設(shè)一個(gè)不敏感損失函數(shù)ε,允許計(jì)算值與實(shí)際值之間存在一定范圍或區(qū)間內(nèi)的可忽略誤差,ω和b可由下式進(jìn)行計(jì)算:同時(shí)滿足約束:
其中,ε(≥0)為不敏感損失函數(shù),表示允許的最大誤差。C(≥0)為訓(xùn)練過程中與超出誤差相關(guān)的懲罰。ξi,ξ*i為松弛變量,表示超出允許誤差的程度。二者分別對(duì)應(yīng)計(jì)算值小于實(shí)際值,以及計(jì)算值大于實(shí)際值的兩種情況。
為解決以上最優(yōu)化問題,支持向量回歸首先通過非線性映射將訓(xùn)練樣本映射到高維內(nèi)核誘導(dǎo)特征空間,其次在該空間內(nèi)進(jìn)行線性回歸。若用φ() X表示從輸入空間到高維特征空間的非線性變換,那么特征空間分類超平面可以表示為:
上式中,φ(Xj)表示第j個(gè)輸入模式Xj經(jīng)非線性映射,在高維特征空間中的像,φ(X)表示輸入向量X在高維特征空間中的像。可見內(nèi)核映射是僅由輸入數(shù)據(jù)向量的點(diǎn)積所決定隱式,因此能夠保證在較低的計(jì)算復(fù)雜度基礎(chǔ)上,將數(shù)據(jù)映射到非常高的維度。內(nèi)積核函數(shù)不同算法不同,徑向基函數(shù)(RBF)K(x,y)=exp(-γ|x-y|2)就是一種常見的核函數(shù)。支持向量回歸的參數(shù),即核函數(shù)中的γ以及懲罰因子C則通過折交叉驗(yàn)證法[18]進(jìn)行優(yōu)化計(jì)算。
3.2 狀態(tài)空間時(shí)間序列模型
狀態(tài)空間時(shí)間序列模型對(duì)于區(qū)域貨運(yùn)量預(yù)測(cè)同樣具有很強(qiáng)的針對(duì)性。其中,狀態(tài)由包含所有信息的向量組成,同時(shí)這些信息在將來會(huì)繼續(xù)存在。即,狀態(tài)向量是過去的一系列線性無關(guān)信息的線性組合,這些信息同時(shí)又與將來的內(nèi)生變量有關(guān)。通過連續(xù)預(yù)測(cè),可以得到相應(yīng)的狀態(tài)向量。時(shí)間序列的多元狀態(tài)空間模型為:
第一個(gè)等式為觀測(cè)方程,第二個(gè)等式為狀態(tài)方程。其中,Yt表示t時(shí)刻非觀測(cè)數(shù)據(jù)向量,即預(yù)測(cè)單位時(shí)間內(nèi)的貨運(yùn)量。Xt是一個(gè)p維向量,表示在t時(shí)刻狀態(tài)的觀測(cè)值,其變化過程由狀態(tài)方程控制。這里用以表示與區(qū)域貨運(yùn)量相關(guān)的各影響因素。Dt表示對(duì)Xt進(jìn)行的與時(shí)間順序有關(guān)的線性變換。Zt表示由外生回歸量所組成的K維向量,這里表示政策、自然因素等外生變量。E表示對(duì)K維向量Zt的回歸。Vt為觀測(cè)噪聲。{Nt,t=1,2,…,n}序列由獨(dú)立同分布的p維隨機(jī)向量組成。其中,前s個(gè)元素的非奇異協(xié)方差矩陣為A,均值為0;后p-s個(gè)元素全部為0。{Vt,t=1,2,…,n}序列由獨(dú)立同分布的r維隨機(jī)向量組成。其中,前m個(gè)元素的非奇異協(xié)方差矩陣為B,均值為0;后r-m個(gè)元素全部為0。初始狀態(tài)X0用以計(jì)算μ的均值以及非奇異協(xié)方差矩陣Σ。
對(duì)于所有的t和t′,Vt與Nt相互獨(dú)立,Vt,Nt與X0之間相互獨(dú)立。假設(shè)隨機(jī)向量X0,Vt,Nt服從多元正態(tài)分布,給定X0,X1,…,Xn,Y1,Y2,…,Yn,Z1,Z2,…,Zn為常數(shù)值,則有對(duì)數(shù)似然函數(shù):
通過狀態(tài)空間求解過程,即使得lbL最大化,從而得到參數(shù)φ,E,A,B的值。
搜集重慶市2000年至2010年的人口數(shù)量、運(yùn)輸線路長度(含鐵路營業(yè)里程、內(nèi)河航道里程以及公路里程)、國內(nèi)生產(chǎn)總值、全社會(huì)固定資產(chǎn)投資、工業(yè)總產(chǎn)值、財(cái)政收入等36項(xiàng)與貨運(yùn)量產(chǎn)生密切相關(guān)的指標(biāo)作為原始數(shù)據(jù)輸入,以該區(qū)域年度貨運(yùn)量(數(shù)據(jù)均依照我國貨運(yùn)量統(tǒng)計(jì)標(biāo)準(zhǔn),鐵路按貨物發(fā)送量統(tǒng)計(jì),公路按貨物到達(dá)量統(tǒng)計(jì),內(nèi)河運(yùn)輸按發(fā)送量,近海運(yùn)輸按到達(dá)量統(tǒng)計(jì))為輸出,具體樣本值見表1。由于樣本數(shù)據(jù)維數(shù)高且不滿足一般傳統(tǒng)預(yù)測(cè)方法對(duì)樣本數(shù)量的要求,因此采用本文所提出的方法,在原始數(shù)據(jù)互信息特征降維基礎(chǔ)上,分別使用LIBSVM支持向量回歸以及狀態(tài)空間時(shí)間序列模型進(jìn)行貨運(yùn)量預(yù)測(cè)。
為消除原始數(shù)據(jù)在數(shù)量級(jí)及量綱的不同,經(jīng)數(shù)據(jù)歸一化處理后,按照第1章互信息特征降維原理及算法編寫程序,計(jì)算各影響因素之間的互信息值Ix為:
表1 重慶市貨運(yùn)量預(yù)測(cè)樣本數(shù)據(jù)
同理計(jì)算各影響因素與輸出變量之間的互信息值Ix,y為:
根據(jù)前面區(qū)域貨運(yùn)量預(yù)測(cè)模型及算法,采用R-2.15.1編寫狀態(tài)空間時(shí)間序列模型計(jì)算程序,以2000年各影響因素指標(biāo)數(shù)據(jù)作為初始狀態(tài)X0,2000年至2007年各指標(biāo)數(shù)據(jù)作為學(xué)習(xí)樣本進(jìn)行訓(xùn)練,令時(shí)間t=0,1,…,7。同時(shí),采用Matlab2011編寫LIBSVM支持向量回歸模型計(jì)算程序,將(RBF)徑向基函數(shù)作為該模型內(nèi)積核函數(shù),設(shè)置不敏感損失函數(shù)ε為0.01。以2000年至2007年各指標(biāo)歷史數(shù)據(jù)作為學(xué)習(xí)樣本輸入,則有輸入數(shù)據(jù)X(t)=[X(1),X(2),…,X(8)]Τ,區(qū)域貨運(yùn)量實(shí)際值Y(t)=[y1,y2,…,y8]Τ。訓(xùn)練過程采用動(dòng)態(tài)更新方式進(jìn)行,即模型總是利用當(dāng)前最新的訓(xùn)練結(jié)果,預(yù)測(cè)下一階段的值。懲罰因子C以及核函數(shù)參數(shù)γ在樣本訓(xùn)練過程中采取調(diào)優(yōu)方式取值。
圖1 未采用互信息降維的各模型預(yù)測(cè)結(jié)果
圖2 采用互信息降維的各模型預(yù)測(cè)結(jié)果
將以上經(jīng)過訓(xùn)練的模型,應(yīng)用于重慶市2008年至2010年貨運(yùn)量預(yù)測(cè)。同時(shí),為檢驗(yàn)互信息降維方法對(duì)模型預(yù)測(cè)結(jié)果的影響,以模型的輸入數(shù)據(jù)是否采用互信息降維為標(biāo)準(zhǔn),對(duì)幾種模型前后預(yù)測(cè)效果進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖1、圖2所示。使用Minitab16進(jìn)行多元線性回歸預(yù)測(cè),各種預(yù)測(cè)方法最終結(jié)果及相對(duì)誤差見表2。通過重慶市貨運(yùn)量預(yù)測(cè)實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:(1)采用互信息高維度特征降維方法,在不改變?cè)继卣骺臻g性質(zhì)的基礎(chǔ)上,選出原始特征集的子集,形成新的低維空間,有效地解決了原始數(shù)據(jù)存在的冗余、噪聲以及相關(guān)性問題。因此,在互信息特征降維基礎(chǔ)上建立起來的預(yù)測(cè)模型和算法,預(yù)測(cè)精度普遍高于同類型未采用互信息特征降維的方法,且這一差異對(duì)于LIBSVM支持向量回歸方法尤為顯著。
(2)經(jīng)互信息降維處理后,各影響因素與貨運(yùn)量之間的相互關(guān)系存在非線性、模糊性等特點(diǎn),所以通過狀態(tài)空間時(shí)間序列以及LIBSVM支持向量回歸兩種模型所預(yù)測(cè)的結(jié)果,其精度明顯優(yōu)于多元線性回歸模型。
表2 重慶市貨運(yùn)量對(duì)比預(yù)測(cè)結(jié)果及相對(duì)誤差比較
(3)雖然與傳統(tǒng)預(yù)測(cè)方法相比,狀態(tài)空間時(shí)間序列模型及LIBSVM支持向量回歸模型均能保證較高的預(yù)測(cè)精度,但對(duì)于區(qū)域貨運(yùn)系統(tǒng)來說,其本身具有相當(dāng)?shù)膹?fù)雜程度,難以獲得足夠的樣本資料,因此樣本數(shù)量小是造成兩種預(yù)測(cè)方法在精度方面有一定差別的重要原因。支持向量回歸是針對(duì)小樣本問題提出的高度非線性學(xué)習(xí)算法,具有收斂快、不會(huì)陷入局部最小化等優(yōu)點(diǎn),進(jìn)行區(qū)域貨運(yùn)量預(yù)測(cè)十分有效。
針對(duì)區(qū)域貨運(yùn)量預(yù)測(cè)這一高維度非線性小樣本預(yù)測(cè)問題,本文采用了互信息MI方法提取與區(qū)域貨運(yùn)量相關(guān)的影響因素,同時(shí)對(duì)原始特征空間進(jìn)行降維。將含有原始特征空間全部性質(zhì)的新的低維空間作為樣本輸入,運(yùn)用LIBSVM支持向量回歸及狀態(tài)空間時(shí)間序列模型對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè)。此外,通過在綜合信息提取階段引入判別因子和調(diào)整系數(shù),以及在模型建立階段增加外生回歸量的辦法,綜合考慮了特殊影響條件下區(qū)域貨運(yùn)量的預(yù)測(cè)問題,進(jìn)一步提高了預(yù)測(cè)結(jié)果的準(zhǔn)確度。經(jīng)多種預(yù)測(cè)方法的運(yùn)用和綜合比較,證明本文所提出的方法具有更好的預(yù)測(cè)效果,為區(qū)域貨運(yùn)量預(yù)測(cè)提供了一種新的思路。
[1]Fite J Τ,Τaylor G D,Usher J S,et al.Forecasting freight demand using economic indices[J].International Journal of Physical Distribution&Logistics Management,2002,32(4):299-308.
[2]Garrido R A,Mahmassani H S.Forecasting freight transportation demand with the space-time multinomial probit model[J]. Τransportation Research Part B,2000,34:403-418.
[3]郝佳,李瀾.鐵路貨運(yùn)量組合預(yù)測(cè)模型的研究[J].鐵道運(yùn)輸與經(jīng)濟(jì),2004,26(11):73-75.
[4]趙建有,周孫鋒,崔曉娟,等.基于模糊線性回歸模型的公路貨運(yùn)量預(yù)測(cè)方法[J].交通運(yùn)輸工程學(xué)報(bào),2012,12(3):80-85.
[5]陳淑燕,王煒,瞿高峰.短時(shí)交通量時(shí)間序列的小波分析-模糊馬爾柯夫預(yù)測(cè)方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2005,35(4):637-640.
[6]蓋春英,裴玉龍.公路貨運(yùn)量灰色模型-馬爾可夫鏈預(yù)測(cè)方法研究[J].中國公路學(xué)報(bào),2003,16(3):113-116.
[7]林曉言,陳有孝.基于灰色-馬爾可夫鏈改進(jìn)方法的鐵路貨運(yùn)量預(yù)測(cè)研究[J].鐵道學(xué)報(bào),2005,27(3):15-18.
[8]張擁軍,葉懷珍,任民.神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)運(yùn)輸貨運(yùn)量[J].西南交通大學(xué)學(xué)報(bào),1999,34(5):602-605.
[9]盧學(xué)強(qiáng),梁雪慧.神經(jīng)網(wǎng)絡(luò)方法及其在非線性時(shí)間序列預(yù)測(cè)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,1997,17(6):97-99.
[10]杜波,劉凱.基于BP神經(jīng)網(wǎng)絡(luò)的鐵路貨運(yùn)量組合預(yù)測(cè)[J].物流技術(shù),2009,28(1):92-94.
[11]劉志杰,季令,葉玉玲,等.基于徑向基神經(jīng)網(wǎng)絡(luò)的鐵路貨運(yùn)量預(yù)測(cè)[J].鐵道學(xué)報(bào),2006,28(5):1-5.
[12]趙淑芝,田振中,張樹山,等.基于BP神經(jīng)網(wǎng)絡(luò)的組合預(yù)測(cè)模型及其在公路運(yùn)輸量預(yù)測(cè)中的應(yīng)用[J].交通運(yùn)輸系統(tǒng)工程與信息,2006,6(4):108-112.
[13]Peng H,Long F,Ding C.Feature selection based on mutual information criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Τransactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[14]Hild K E,Erdogmus D,Τorkkola K,et al.Feature extraction using information-theoretic learning[J].IEEE Τransactions on Pattern Analysis and Machine Intelligence,2006,28(9):1385-1392.
[15]Batiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Τrans on Neural Networks,1994,5(4):537-550.
[16]Vapnik V.Τhe nature of statistical learning theory[M].2nd ed. New York:Springer-Verlag,2000:208-216.
[17]Hong W C.Forecasting regional electric load based on recurrent support vector machines with genetic algorithms[J].Electric Power Systems Research,2005,74(3):417-425.
[18]Kobayashi K,Nakano R.Faster optimization of SVR hyperparameters based on minimizing cross-validation error[C]// IEEE Proceedings on Cybernetics and Intelligent Systems,2004:1022-1027.
ZENG Ming1,LIN Lei2,CHENG Wenming1
1.School of Mechanical Engineering,Southwest Jiaotong University,Chengdu 610031,China
2.Civil,Structural and Environmental Engineering,University at Buffalo,the State University of New York,Buffalo 14260,USA
Τo the problem of excessive affecting factors and small sample size in regional freight volume forecasting,the LIBSVM support vector regression model and state space time series model with mutual information technique are proposed.In this approach, the MI is adopted to reduce the dimensionality of the high dimensional features,and then the new lower dimensional subspace is treated as the sample input to establish the LIBSVM support vector regression model and the state space time series model.Τhe experimental results of Chongqing freight volume forecasting and comparative analysis show that the method can improve the prediction accuracy while accomplishing a valid forecast,and the relative error is about 0.06.
Mutual Information(MI);Library for Support Vector Machines(LIBSVM)support vector regression;state space time series;regional freight volume;forecasting
針對(duì)區(qū)域貨運(yùn)量預(yù)測(cè)中影響因素多、樣本數(shù)量小的問題,提出了互信息MI與LIBSVM支持向量回歸以及狀態(tài)空間時(shí)間序列相結(jié)合的預(yù)測(cè)方法,采用MI進(jìn)行高維度特征降維后,以新的低維空間作為樣本輸入,分別建立LIBSVM支持向量回歸和狀態(tài)空間時(shí)間序列預(yù)測(cè)模型。通過重慶市貨運(yùn)量預(yù)測(cè)實(shí)驗(yàn)結(jié)果及對(duì)比分析表明,該方法在進(jìn)行有效預(yù)測(cè)的同時(shí)能夠改善預(yù)測(cè)精度,相對(duì)誤差約為0.06。
互信息(MI);支持向量機(jī)程序庫(LIBSVM)支持向量回歸;狀態(tài)空間時(shí)間序列;區(qū)域貨運(yùn)量;預(yù)測(cè)
A
U491.1+4
10.3778/j.issn.1002-8331.1303-0342
ZENG Ming,LIN Lei,CHENG Wenming.Research of regional freight volume forecasting based on LIBSVM and time series.Computer Engineering and Applications,2013,49(21):6-10.
國家留學(xué)基金委建設(shè)高水平大學(xué)研究生項(xiàng)目專項(xiàng)資金資助(留金發(fā)[2012]3013)。
曾鳴(1985—),女,博士研究生,主要研究方向?yàn)槲锪鞴こ?;林磊?986—),男,博士研究生,主要研究方向?yàn)檫\(yùn)輸系統(tǒng)工程;程文明(1963—),男,教授,博士生導(dǎo)師,主要研究方向?yàn)槲锪鞴こ?、工業(yè)工程。E-mail:jiaoda12345@163.com
2013-03-22
2013-06-25
1002-8331(2013)21-0006-05
CNKI出版日期:2013-06-27http://www.cnki.net/kcms/detail/11.2127.ΤP.20130627.1102.001.html