葛 靈, 張 杰
(西南交通大學(xué) 數(shù)學(xué)學(xué)院統(tǒng)計(jì)系, 成都 611756)
近年來,鐵路在經(jīng)濟(jì)發(fā)展中起著越來越重要的作用,對社會發(fā)展產(chǎn)生了深遠(yuǎn)影響。在汽車、船舶、航天器等眾多運(yùn)輸工具中,火車具有成本低、運(yùn)輸距離長、安全性好等優(yōu)勢,是一種便捷的交通運(yùn)輸工具。從安全、舒適、速度、價(jià)格等綜合因素來看,鐵路將是大多數(shù)人長途旅行選擇的主要交通方式。社會經(jīng)濟(jì)發(fā)展水平、居民消費(fèi)水平、城鎮(zhèn)化水平等會影響鐵路客運(yùn)量的變化,同時(shí)也會受到氣候條件、法定節(jié)假日、運(yùn)輸服務(wù)質(zhì)量與舒適度以及政策等因素的影響[1],鐵路客運(yùn)量呈現(xiàn)增長趨勢并具有一定的規(guī)律性。分析與預(yù)測鐵路客運(yùn)量,提高預(yù)測率有助于鐵路部門更好地進(jìn)行資源配置,促進(jìn)我國鐵路運(yùn)輸不斷發(fā)展。
申耀偉[2]運(yùn)用灰色動(dòng)態(tài)GM(1,1)模型,對武昌車站2006—2020年的客運(yùn)量進(jìn)行了預(yù)測。劉會芳[3]綜合比較單一多元線性回歸、時(shí)間序列以及支持向量機(jī)的分析預(yù)測法,最終建立了精確度較高的鐵路客運(yùn)量組合預(yù)測模型。針對局限于單變量序列的鐵路客運(yùn)量預(yù)測,林璐[4]探討了鐵路客運(yùn)量的主要影響因素,并將其一起作為輸入變量序列納入模型、參與預(yù)測;通過比較B-J、灰色預(yù)測、灰色線性回歸以及ARIMAX模型,認(rèn)為ARIMAX模型的預(yù)測效果最好。郝軍章等[5]利用Eviews和SPSS分析與建模,對我國鐵路客運(yùn)量建立SARIMA模型,探究數(shù)據(jù)之間的季節(jié)性變化。曹韓、許曉鈴[6]運(yùn)用R軟件,針對1997—2016年鐵路客運(yùn)量月度數(shù)據(jù),建立鐵路客運(yùn)量乘法季節(jié)ARIMA模型,改進(jìn)了預(yù)測方法。
據(jù)新聞報(bào)道,數(shù)據(jù)統(tǒng)計(jì)至2017年10月底,全國鐵路已完成固定資產(chǎn)投資超6 200億元;鐵路客運(yùn)量、貨運(yùn)量大幅度增長[7]。研究鐵路客運(yùn)量變化并預(yù)測,仍是有意義的。對于具有顯著長期趨勢和明顯季節(jié)性的客運(yùn)量序列,簡單的ARIMA模型不能充分提取其間相關(guān)信息。R語言操作簡便,分析效果良好,在數(shù)據(jù)挖掘中具有廣泛的實(shí)際應(yīng)用優(yōu)勢[8]。故本文建立乘積季節(jié)模型,利用Eviews和R這兩種不同的軟件來對中國鐵路客運(yùn)量進(jìn)行建模與預(yù)測,通過分析比較選擇最優(yōu)的操作與模型。
如果有一序列{Xt}經(jīng)過d階差分和D階長度為s的季節(jié)差分后變成了平穩(wěn)序列,并且可以利用ARMA模型對差分后的平穩(wěn)序列建模,則稱序列{Xt}模型結(jié)構(gòu)為簡單季節(jié)模型[9]:
通過季節(jié)差分和差分可以消除序列的周期性,但并不能完全消除季節(jié)性。如果隨機(jī)序列{Xt,t=0,±1,±2,…}有如下結(jié)構(gòu),則稱其為乘積季節(jié)模型,記ARIMA(p,d,q)×(P,D,Q)s:
其中,p是消除同一周期不同周期點(diǎn)之間相關(guān)性的自回歸階數(shù),q是消除同一周期不同周期點(diǎn)之間相關(guān)性的移動(dòng)平均階數(shù),P是消除不同周期的同一周期點(diǎn)之間相關(guān)性的自回歸階數(shù),Q是消除不同周期的同一周期點(diǎn)之間相關(guān)性的移動(dòng)平均階數(shù),d是差分的階數(shù),D是季節(jié)差分的階數(shù),s是周期長度。
U(Bs)=1-u1Bs-u2B2s-…-uPBPs
V(Bs)=1-v1Bs-v2B2s-…-vQBQs
可以對不同周期的同一周期點(diǎn)之間的相關(guān)性進(jìn)行擬合:
φ(B)=1-φ1B-φ2B2-…-φpBp
θ(B)=1-θ1B-θ2B2-…-θqBq
以此消除同一周期不同周期點(diǎn)之間的相關(guān)性。
為研究中國鐵路客運(yùn)量,從國家統(tǒng)計(jì)局獲取了2005年1月至2017年6月我國鐵路客運(yùn)量數(shù)據(jù),見表1。將2005年1月至2016年12月的數(shù)據(jù)作為訓(xùn)練集(記為序列x),建立適當(dāng)模型并預(yù)測后6期數(shù)據(jù);將2017年1月至6月的數(shù)據(jù)作為測試集,評估模型的預(yù)測能力。
3.1.1 直觀分析和相關(guān)分析
通過軟件操作,得到序列x描述性統(tǒng)計(jì)結(jié)果:其相伴概率為0.005 335,拒絕序列x為正態(tài)分布的原假設(shè);經(jīng)繪制序列x的QQ圖后發(fā)現(xiàn):圖形并不呈現(xiàn)出一條直線,故認(rèn)為序列x不服從正態(tài)分布。
通過自相關(guān)和偏相關(guān)分析,可得序列x的樣本偏自相關(guān)系數(shù)如圖1:
圖1 序列x的樣本自相關(guān)系數(shù)和偏相關(guān)系數(shù)
從圖1中可以看出,序列x的樣本自相關(guān)系數(shù)在滯后期為12、24時(shí)出現(xiàn)最大值,說明序列x具有波動(dòng)性和季節(jié)性,需進(jìn)行差分操作。
3.1.2 單位根檢驗(yàn)
序列x單位根檢驗(yàn)結(jié)果,認(rèn)為x是非平穩(wěn)序列。由于序列x具有波動(dòng)性和季節(jié)性,序列x進(jìn)行對數(shù)變換后又進(jìn)行一階差分,得序列x1。由線性分析可知其均值在零點(diǎn)附近波動(dòng),再通過單位根檢驗(yàn)序列x1為平穩(wěn)序列。
3.1.3 季節(jié)性分析
利用軟件得到一階差分序列x1的自相關(guān)和偏相關(guān)函數(shù)圖,如圖2所示。
圖2 序列x1樣本自相關(guān)系數(shù)和偏相關(guān)系數(shù)
由圖2可以發(fā)現(xiàn),當(dāng)滯后期為12的倍數(shù)時(shí),序列x1的樣本偏自相關(guān)系數(shù)較大。顯然地,序列具有季節(jié)性,周期為12個(gè)月。
3.1.4 模式識別與初步定階
當(dāng)k>1時(shí),樣本自相關(guān)系數(shù)1步截尾。
當(dāng)k>3時(shí),樣本偏相關(guān)系數(shù)4步截尾。
綜上所述,據(jù)Box-Jenkins思想用ARMA(4,1)模型對序列x2進(jìn)行擬合。即需擬合和檢驗(yàn)的ARMA模型為ARMA(4,3)、ARMA(3,2)、ARMA(2,1),即對原序列l(wèi)ogx嘗試用ARIMA(4,1,3)×(0,1,0)12、ARIMA(3,1,2)×(0,1,0)12、ARIMA(2,1,1)×(0,1,0)12進(jìn)行擬合。
3.1.5 參數(shù)估計(jì)與相應(yīng)的AIC值
利用軟件可得到各個(gè)模型參數(shù)的最小二乘估計(jì)、模型的剩余平方和、模型的AIC值,具體的數(shù)值見表2。
表2 序列x2的各個(gè)模型的相應(yīng)結(jié)果Table 2 The result of models about the sequence
其中,ARMA(2,1)模型的AIC值最小,即對原序列l(wèi)ogx用ARIMA(2,1,1)×(0,1,0)12進(jìn)行擬合比較恰當(dāng)。
3.1.6 參數(shù)顯著性檢驗(yàn)
利用模型進(jìn)行參數(shù)估計(jì),選擇最小二乘法,得到的檢驗(yàn)結(jié)果如圖3所示。
圖3 序列x2的ARMA(2,1)模型的參數(shù)檢驗(yàn)結(jié)果
P值近乎于0,擬合結(jié)果較好。即對原序列l(wèi)ogx用ARIMA(2,1,1)×(0,1,0)12進(jìn)行擬合是比較恰當(dāng)?shù)摹?/p>
3.1.7 模型適用性檢驗(yàn)
對序列x2ARMA(2,1)進(jìn)行適應(yīng)性檢驗(yàn),殘差序列resid的樣本自相關(guān)系數(shù)除個(gè)別外,其余均滿足:
殘差序列在單位根檢驗(yàn)下,結(jié)果顯示是平穩(wěn)的。
綜上所述,模型ARMA(2,1)對序列x2是適應(yīng)性的。
所以,綜合圖3各項(xiàng)系數(shù),鐵路客運(yùn)量取自然對數(shù)后的值logx模型結(jié)構(gòu)滿足:
(1+0.4727B+0.417148B2)(1-B)(1-B12)Xt=εt+0.610 824εt-1
Xt=logxt
(1)
3.1.8 模型預(yù)測
利用上述模型,采用條件期望預(yù)測方法對全國客運(yùn)量取了對數(shù)后值的變化情況進(jìn)行預(yù)測,向前做6步預(yù)測,根據(jù)條件期望預(yù)測公式得:
0.610 824εt=10.098 395 95
同理,可得:
將自然對數(shù)形式轉(zhuǎn)換回去,得到原序列的預(yù)測值,依次為:24 304、27 040、24 022、27 190、25 868和26 238,填制如表3。
表3 預(yù)測結(jié)果與真實(shí)值之間的誤差Table 3 The deviation between the predicted resultand the true value
3.2.1 平穩(wěn)性檢驗(yàn)
對于客運(yùn)量序列x,繪制其時(shí)間變化趨勢圖:認(rèn)為圖形有明顯的上升趨勢、些許的指數(shù)趨勢,同時(shí)具有周期變化,故序列是非平穩(wěn)的。
將序列x轉(zhuǎn)換成對數(shù)序列x3,經(jīng)一階差分與中心化處理,得序列Z,經(jīng)檢驗(yàn)序列Z是平穩(wěn)序列。
3.2.2 模型的識別與定階
對序列Z進(jìn)行相關(guān)性分析,繪制自相關(guān)和偏相關(guān)圖,如圖4所示。
圖4 序列Z的樣本自相關(guān)系數(shù)和偏相關(guān)系數(shù)
從ACF和PACF可以看出,該序列在滯后期為12和24處有明顯的波動(dòng),說明該序列接下來需要做長度為12的一階季節(jié)差分。結(jié)果如圖5所示。
圖5 樣本穩(wěn)定性和相關(guān)系數(shù)圖
對于非季節(jié)項(xiàng),只做了一階非季節(jié)差分,故d=1,由偏自相關(guān)圖可以知道p=2,q=1。對于季節(jié)項(xiàng),已做一階12步季節(jié)差分,故D=1,由偏自相關(guān)圖可以知道P=4,Q=2。
在時(shí)間序列分析中,季節(jié)算子的階數(shù)小于等于一階,所以最終對序列建立ARIMA(2,1,1)×(1,1,1)12模型。
3.2.3 模型適應(yīng)性檢驗(yàn)
模型適應(yīng)性檢驗(yàn)即是殘差序列的白噪聲檢驗(yàn)。直接調(diào)用R軟件函數(shù),結(jié)果中p值都大于0.9,通過適應(yīng)性檢驗(yàn)。
3.2.4 模型參數(shù)估計(jì)與預(yù)測
模型參數(shù)估計(jì)方法主要有矩估計(jì)、最小二乘估計(jì)、極大似然估計(jì),本文采用極大似然估計(jì),得到如下模型:
(1-0.369B12)(1+0.435 4B+0.398B2)(1-B12)(1-B)Zt=(1+0.829 9B12)(1+0.644 1B)εt
調(diào)用函數(shù),得到模型后6個(gè)預(yù)測值,將自然對數(shù)形式轉(zhuǎn)換回去,得到原序列的預(yù)測值,如表4所示。
表4 預(yù)測結(jié)果與真實(shí)值之間的誤差Table 4 The deviation between the predicted resultand the true value
研究兩種軟件分析下的預(yù)測效果,綜合預(yù)測結(jié)果表3和預(yù)測結(jié)果表4得表5。
表5 兩種軟件預(yù)測結(jié)果與真實(shí)值之間的誤差Table 5 The deviation between the predicted result and the true value under two softwares
(1) Eviews操作下,分析結(jié)果最終建立ARIMA(2,1,1)×(0,1,0)12模型;R操作下,最終建立ARIMA(2,1,1)×(1,1,1)12模型。
(2) Eviews操作下的預(yù)測誤差率在9%以下,平均預(yù)測誤差為4.59%;R操作下的預(yù)測值誤差率均在5.5%以下,平均預(yù)測誤差為3.36%,兩種操作下誤差率都小于10%,是有效預(yù)測。但是相比之下,R預(yù)測結(jié)果更為精準(zhǔn)。
Eviews模式識別與參數(shù)估計(jì)階段,本文研究過是否可以建立ARIMA(2,1,1)×(1,1,1)12模型。但季節(jié)AR算子和季節(jié)MA算子并沒有通過t檢驗(yàn),p值很大,故拒絕原假設(shè)。最終選擇建立ARIMA(2,1,1)×(0,1,0)12模型。
為使研究結(jié)果更具有說服力,本文用R直接建立ARIMA(2,1,1)×(0,1,0)12模型,得:
(1+0.47B+0.413 1B2)(1-B)(1-B12)Xt=
Xt=logxt
由于各軟件操作分析方法與精度稍有不同,總體上看,此模型與Eviews建立的模型(*)結(jié)果基本一致。表6為預(yù)測結(jié)果與真實(shí)值之間的誤差。
表6 預(yù)測結(jié)果與真實(shí)值之間的誤差Table 6 The deviation between the predicted resultand the true value
R操作下的預(yù)測值誤差率波動(dòng)大,平均預(yù)測誤差為4.29%(大于3.36%,小于4.59%),較ARIMA(2,1,1)×(1,1,1)12模型其預(yù)測結(jié)果稍差,但預(yù)測結(jié)果仍好于用Eviews建立的ARIMA(2,1,1)×(0,1,0)12模型。由于兩種軟件操作分析方法的不同,致使分析建模結(jié)果稍有不同;綜合上述,建議使用R軟件分析中國鐵路客運(yùn)量數(shù)據(jù),對客運(yùn)量數(shù)據(jù)未來變化能進(jìn)行更有效的預(yù)測。
在兩種統(tǒng)計(jì)軟件操作下,對中國鐵路客運(yùn)量數(shù)據(jù)進(jìn)行訓(xùn)練與測試,都可以較好地建立模型預(yù)測中國鐵路客運(yùn)量的未來變化值。
(1) Eviews建立乘積季節(jié)模型,經(jīng)歷了相關(guān)分析、平穩(wěn)性檢驗(yàn)、季節(jié)性分析、顯著性檢驗(yàn)、適用性檢驗(yàn)等一系列流程,最終進(jìn)行模型的識別與定階,利用條件期望預(yù)測法預(yù)測。分析思維更加嚴(yán)謹(jǐn),但操作較為復(fù)雜。
(2) R軟件分析并建模,歷經(jīng)平穩(wěn)性采用一階自然對數(shù)差分消除序列線性遞增趨勢后,在模型識別與定階過程中,利用相關(guān)性研究選擇進(jìn)行一階季節(jié)差分,繼而進(jìn)行模型的適用性檢驗(yàn)、參數(shù)估計(jì)與模型預(yù)測。可利用程序包中相關(guān)函數(shù)直接進(jìn)行分析與預(yù)測,操作較為簡便,數(shù)據(jù)預(yù)測的正確率較高。
通過本文的研究,可以利用R建立ARIMA(2,1,1)×(1,1,1)12模型。經(jīng)檢驗(yàn),模型的預(yù)測精度較好,可為預(yù)測未來全國鐵路客運(yùn)量變化提供一定的參考價(jià)值。
參考文獻(xiàn)(References):
[1] 關(guān)于中國鐵路客運(yùn)量及其影響因素的實(shí)證研究[J/OL]. http://www.docin.com/p-760268172.html
[2] 申耀偉, 謝孝如. 基于灰色動(dòng)態(tài)模型的鐵路客運(yùn)量預(yù)測與分析[J]. 中國鐵路, 2008(6):36-38
SHEN Y W, XIE X R. Prediction and Analysis of Railway Passenger Volume Based on Grey Dynamic Model[J]. China Railway, 2008(6): 36-38
[3] 劉會芳. 我國鐵路客運(yùn)量的組合問題研究[D]. 長沙:長沙理工大學(xué), 2013
LIU H F. Study on the Combination of Chinese Railway Passenger Transport[D]. Changsha:Changsha University of Science & Technology, 2013
[4] 郝軍章, 崔玉杰, 韓江雪. 基于SARIMA模型在我國鐵路客運(yùn)量中的預(yù)測[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識, 2015, 45(18):95-104
HAO J Z, CUI Y J, HAN J X. Prediction of the Railway Passenger Volume Based on the SARIMA Model[J]. Journal of Mathematics in Practice and Theory, 2005, 45(18):95-104
[5] 林璐. 基于ARIMAX模型的鐵路客運(yùn)量預(yù)測研究[D]. 廣州:暨南大學(xué), 2016
LIN L. Prediction of Passenger Railway Volume Based on ARIMAX[D]. Guangzhou:JiNan University, 2016
[6] 曹韓, 許曉鈴. 基于ARIMA模型的中國鐵路客運(yùn)量研究[J]. 廣西民族師范學(xué)院學(xué)報(bào), 2017, 34(2):85-89
CAO H, XU X L. Research on China Railway Passenger Volume Based on ARIMA Model[J]. Journal of Nanning Junior Teachers College, 2017, 34(2):85-89
[7] 人民網(wǎng). 中鐵總:全國鐵路今年已完成固定資產(chǎn)投資6256.4億[EB/OL]. http://finance.people.com.cn/n1/2017/1120/c1004-29657018.html
[8] 陳榮鑫. R軟件的數(shù)據(jù)挖掘應(yīng)用[J]. 重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 28(6):602-607
CHEN R X. Data Mining Application Based on R[J]. Journal of Chongqing Technology and Business University(Naturnal Science Edition), 2011,28(6):602-607
[9] 王沁. 時(shí)間序列分析及其應(yīng)用[M]. 成都:西南交通大學(xué)出版社, 2008
WANG Q. Time Series Analysis and the Application[M]. Chengdu: Southwest Jiaotong University Publishing House, 2008