陶 青
(西藏民族大學(xué)財(cái)經(jīng)學(xué)院 陜西咸陽(yáng) 712082)
西藏有著悠久的歷史文化資源和優(yōu)異的自然資源稟賦,在全世界是獨(dú)一無(wú)二的,是世界十大旅游目的地之一。西藏旅游業(yè)也在西藏經(jīng)濟(jì)發(fā)展中扮演著越來(lái)越重要的角色。旅游對(duì)經(jīng)濟(jì)的貢獻(xiàn)也成為西藏制定經(jīng)濟(jì)發(fā)展政策的重要因素,尤其在中央第五次西藏工作座談會(huì)確立把西藏建設(shè)成為“中華民族特色文化保護(hù)地和重要的世界旅游目的地”的戰(zhàn)略定位以來(lái),西藏對(duì)旅游業(yè)發(fā)展提出了更高要求。因此,開(kāi)展旅游收入預(yù)測(cè)研究,有利于我們定量認(rèn)識(shí)旅游業(yè)發(fā)展水平,為政府決策提供參考,促進(jìn)西藏經(jīng)濟(jì)更好更快地發(fā)展。
本文以1981-2016年西藏旅游收入數(shù)據(jù)為研究對(duì)象。數(shù)據(jù)均來(lái)自于《西藏統(tǒng)計(jì)年鑒2017》,以下所建模型的訓(xùn)練集均為1981-2014年數(shù)據(jù),測(cè)試集為2015-2016兩年數(shù)據(jù)(見(jiàn)表1)。
為了初步判斷西藏旅游收入序列特征和趨勢(shì)性,作出序列圖(如圖1所示)。從圖中可以看出,西藏旅游收入存在明顯上升趨勢(shì),除2008年較2007年有明顯下降外,其余年份均環(huán)比增長(zhǎng),且增速不斷擴(kuò)大。
根據(jù)時(shí)序圖趨勢(shì)判斷,西藏旅游收入數(shù)據(jù)類(lèi)似一條指數(shù)曲線,因此將1981-2014年數(shù)據(jù)作為測(cè)試集試建立指數(shù)曲線模型:
其中,yt為西藏旅游收入取值,t為年份,a、b為待估參數(shù),e為自然對(duì)數(shù)。為估計(jì)模型,首先對(duì)(1)式兩邊取對(duì)數(shù),變換為:
表1:1981-2016年西藏旅游收入數(shù)據(jù)(單位:萬(wàn)元)
表2:指數(shù)曲線模型的擬合值及擬合誤差(單位:萬(wàn)元)
根據(jù)模型得到的預(yù)測(cè)曲線及預(yù)測(cè)區(qū)間如圖2所示,由于西藏旅游收入數(shù)據(jù)的量級(jí)發(fā)生了很大改變,導(dǎo)致從圖形上看,曲線擬合狀況尚可,但平均絕對(duì)百分比誤差(MAPE)較大,為46.39%。
圖1:西藏旅游收入1981-2016年時(shí)序圖
圖2:曲線模型擬合線及估計(jì)區(qū)間
指數(shù)曲線回歸是非局部回歸,是在整個(gè)數(shù)據(jù)集上進(jìn)行擬合,單個(gè)觀測(cè)值會(huì)對(duì)整條曲線擬合產(chǎn)生影響。由于西藏旅游收入數(shù)據(jù)變化較大,這種非局部回歸模型效果不甚理想。一種可行的改進(jìn)方法是將數(shù)據(jù)分成多個(gè)連續(xù)區(qū)間,在每個(gè)區(qū)間上用單獨(dú)模型擬合,即回歸樣條法。
1、光滑樣條法簡(jiǎn)介
首先根據(jù)定義域[a,b]內(nèi)的觀測(cè)點(diǎn)t1……tn將其分成多個(gè)區(qū)間,(a<t1<t2<……<tn<b),模型g(t)采用分段的三次多項(xiàng)式
其中定義t0=a,tn+1=b,i=0,1,2……n
然后求解最優(yōu)的g(t)。最優(yōu)模型應(yīng)該同時(shí)滿足以下兩個(gè)條件:(1)估計(jì)誤差盡可能??;(2)曲線盡可能光滑,曲線越光滑,模型泛化能力越強(qiáng)。衡量曲線光滑性有多種辦法,比如拐點(diǎn)個(gè)數(shù),二階導(dǎo)數(shù)值等,此處采用二階導(dǎo)數(shù)積分(∫(g'')2dt),二階導(dǎo)數(shù)對(duì)應(yīng)的是斜率變化程度,其積分(∫(g'')2dt)則代表了g'(t)在整個(gè)取值區(qū)域內(nèi)整體的變化情況。曲線越光滑,其取值越小。綜上,使式(4)最小的g(t)為最佳估計(jì)。
2、λ的選取
上述模型中采用“誤差+懲罰項(xiàng)”形式選擇模型,λ∫(g'')2dt是對(duì)模型g(t)波動(dòng)性懲罰,λ衡量懲罰項(xiàng)所起作用大小。λ=0時(shí),懲罰項(xiàng)不起作用,模型結(jié)果波動(dòng)性會(huì)很大,當(dāng)λ=∝時(shí),模型結(jié)果很穩(wěn)定,趨于一條直線。我們通過(guò)交叉驗(yàn)證法,選出使得誤差RSS盡可能小的λ。交叉驗(yàn)證誤差為
3、模型結(jié)果
和指數(shù)曲線模型類(lèi)似,采用1981-2014年西藏旅游收入數(shù)據(jù)作為訓(xùn)練集擬合模型,2015-2016兩年數(shù)據(jù)作為驗(yàn)證集計(jì)算模型準(zhǔn)確率。圖3是應(yīng)用光滑樣條擬合結(jié)果,虛線是應(yīng)用交叉驗(yàn)證法選擇λ后得到光滑樣條,實(shí)線是自主選擇λ得到結(jié)果。圖中可以明顯得看出,交叉驗(yàn)證法擬合得更佳,表3給出了訓(xùn)練集內(nèi)擬合值以及擬合誤差。
圖3:光滑樣條法估計(jì)結(jié)果
表3:光滑樣條法的擬合值及擬合誤差
1、序列的平穩(wěn)化處理
從圖1可以看出西藏旅游收入的序列存在顯著上升趨勢(shì),屬于非平穩(wěn)時(shí)間序列。根據(jù)序列特點(diǎn),采用差分方式提取數(shù)據(jù)所蘊(yùn)含的確定性信息。從時(shí)序圖4可以清楚看出,一階差分只提取原始序列中部分信息,其仍蘊(yùn)含著向上趨勢(shì)。因此對(duì)差分后序列再做一次差分運(yùn)算,得到二階差分序列。二階差分序列確定性趨勢(shì)基本消除。
圖4:一階差分與二階差分序列圖
為判斷二階差分序列是否為平穩(wěn)性序列,對(duì)其進(jìn)行ADF單位根檢驗(yàn),計(jì)算得到其ADF統(tǒng)計(jì)量的值為-3.5378對(duì)應(yīng)的PT值為0.05,即在5%顯著性水平下,二階差分序列平穩(wěn)。
2、ARIMA(p,d,q)模型估計(jì)和檢驗(yàn)
由序列平穩(wěn)化過(guò)程可知,d=2。為確定p、q取值,畫(huà)出二階差分序列自相關(guān)系數(shù)和偏自相關(guān)系數(shù)圖,如圖5所示,該序列自相關(guān)系數(shù)一階截尾,偏自相關(guān)系數(shù)2階截尾,初步確認(rèn)滯后階數(shù)為:p=2,q=1。
圖5:二階差分序列的自相關(guān)與偏相關(guān)系數(shù)圖
為進(jìn)一步確認(rèn)自回歸階數(shù)p和移動(dòng)平均階數(shù)q取值,現(xiàn)計(jì)算不同p和q(最大p和q均設(shè)置為5)取值下相應(yīng)BIC值,其結(jié)果如圖6所示,
圖6:對(duì)于不同的p和q計(jì)算相應(yīng)的BIC值
從圖6可以看出,自回歸滯后一階,移動(dòng)平均滯后1階或者三階,BIC值均較小。試分別做ARIMA(1,2,1)和ARIMA(1,2,3)模型,估計(jì)結(jié)果如表4和表5所示,可明顯看出,ARIMA(1,2,3)模型系數(shù)的標(biāo)準(zhǔn)誤差較大,系數(shù)基本不顯著,因此該模型屬于過(guò)渡擬合模型。ARIMA(1,2,1)模型系數(shù)均顯著,AIC的值相比ARIMA(1,2,3)模型略小,因此,最終模型考慮選擇ARIMA(1,2,1)。
表4:ARIMA(1,2,3)模型的回歸結(jié)果
表5:ARIMA(1,2,1)模型的回歸結(jié)果
圖7:殘差診斷圖
表6:ARIMA模型擬合值及擬合誤差
模型檢驗(yàn)是為了檢驗(yàn)殘差是否為白噪聲,診斷圖如圖8所示。Ljung-Box的原假設(shè)是序列獨(dú)立(和某階滯后相比),p值很小說(shuō)明存在相關(guān)性,對(duì)于不相關(guān)的序列,p值很大。Ljung-Box檢驗(yàn)(診斷圖左上)的p值均在0.6以上。從Ljung-Box檢驗(yàn)、acf和pacf圖可以看出,這個(gè)模型的殘差是一個(gè)隨機(jī)過(guò)程。從Q-Q圖(診斷圖右上)來(lái)看,散點(diǎn)基本在一條直線附近,說(shuō)明模型的殘差分布近似正態(tài)。綜上,基本可以斷定模型的殘差序列是白噪聲序列。
3、擬合值與擬合誤差
根據(jù)1981-2014年數(shù)據(jù)建立的ARIMA(1,2,1)模型,計(jì)算擬合值和擬合誤差如表6所示。
現(xiàn)將三個(gè)模型應(yīng)用于測(cè)試集,即用西藏2015-2016年兩年旅游收入數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,判斷模型應(yīng)用效果。計(jì)算每個(gè)模型平均絕對(duì)百分比誤差
表7:三個(gè)模型的平均絕對(duì)百分比誤差
由表7可知,從測(cè)試集預(yù)測(cè)誤差來(lái)看,光滑樣條法優(yōu)于ARIMA模型,優(yōu)于指數(shù)模型。指數(shù)模型和ARIMA模型訓(xùn)練集平均絕對(duì)百分比誤差均在45%左右,測(cè)試集在15%左右,這兩個(gè)模型都是以模擬所有數(shù)據(jù),從中找到經(jīng)濟(jì)活動(dòng)變化規(guī)律為主要技術(shù)手段。西藏旅游收入這一經(jīng)濟(jì)變量,在1990和2008年出現(xiàn)大幅度下滑,環(huán)比下降81%和53%。在1986年和1999年急速上漲,環(huán)比增長(zhǎng)664%和115%。對(duì)于這種缺乏明顯模式的數(shù)據(jù),這兩個(gè)模型捕捉到的信息量有限。光滑樣條法通過(guò)采用分段擬合方式克服這種缺點(diǎn),提取信息量更大,測(cè)試集的平均絕對(duì)百分比誤差只有10.9%。光滑樣條法所需要的假定要比ARIMA模型和指數(shù)模型弱得多,尤其沒(méi)有假設(shè)變量的函數(shù)形式(指數(shù)曲線模型假設(shè)數(shù)據(jù)來(lái)自于指數(shù)分布),使其對(duì)西藏旅游收入這一數(shù)據(jù)的擬合更有效。另一方面,西藏是一個(gè)邊疆民族地區(qū),由于其民族、宗教問(wèn)題的特殊性,西藏地區(qū)的穩(wěn)定問(wèn)題是重中之重。旅游產(chǎn)業(yè)發(fā)展,除了市場(chǎng)的因素外,政策因素影響也不可忽略,在建模過(guò)程中,政策影響很難量化,這也是指數(shù)模型和ARIMA模型擬合結(jié)果不理想的原因。
表8:ARIMA模型和光滑樣條法的估計(jì)結(jié)果
雖然指數(shù)模型和ARIMA模型的預(yù)測(cè)精度不如光滑樣條法高,但指數(shù)模型和ARIMA模型可以估計(jì)預(yù)測(cè)區(qū)間,而光滑樣條法只能做點(diǎn)值預(yù)測(cè)。因此,為了更全面預(yù)測(cè)未來(lái)5年西藏旅游收入,建議采用ARIMA模型和光滑樣條法對(duì)西藏2017-2022年西藏旅游收入進(jìn)行預(yù)測(cè),結(jié)果如表8所示:給出了95%置信水平下旅游收入的預(yù)測(cè)區(qū)間,和光滑樣條法的預(yù)測(cè)值。