謝成興,王豐效*,聶 僮
(1.喀什大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,新疆 喀什 844000;2.中國(guó)農(nóng)業(yè)大學(xué) 生物學(xué)院,北京 100193)
GDP對(duì)國(guó)家制定貨幣、財(cái)政政策進(jìn)行宏觀調(diào)控和企業(yè)進(jìn)行投融資決策具有重要的參考價(jià)值,如何對(duì)GDP進(jìn)行科學(xué)預(yù)測(cè)一直是宏觀經(jīng)濟(jì)學(xué)的重要研究領(lǐng)域.我國(guó)在2016~2019年期間的宏觀經(jīng)濟(jì)增長(zhǎng)穩(wěn)定且波動(dòng)幅度收窄,相比于經(jīng)濟(jì)舊常態(tài)下的中高速增長(zhǎng)[1],新常態(tài)下的經(jīng)濟(jì)明顯保持著穩(wěn)定的中低速增長(zhǎng).然而,國(guó)內(nèi)供給側(cè)改革推進(jìn)產(chǎn)業(yè)結(jié)構(gòu)升級(jí)和經(jīng)濟(jì)結(jié)構(gòu)的變化,加上全球疫情蔓延和經(jīng)濟(jì)金融風(fēng)險(xiǎn)的不確定性因素,給經(jīng)濟(jì)發(fā)展增加了下行壓力.通過(guò)預(yù)測(cè)未來(lái)GDP的走勢(shì),輔助制定經(jīng)濟(jì)增長(zhǎng)目標(biāo)和宏觀政策也面臨了較大的挑戰(zhàn).選擇合適的預(yù)測(cè)工具對(duì)GDP精確地預(yù)測(cè),是值得關(guān)注的重要課題.
GDP時(shí)間序列數(shù)據(jù)包含了經(jīng)濟(jì)運(yùn)行過(guò)程中的隨機(jī)性、線性波動(dòng)性和非線性波動(dòng)性特征,被廣泛地應(yīng)用于GDP預(yù)測(cè)模型構(gòu)建和分析,模型包括灰色預(yù)測(cè)[2]、神經(jīng)網(wǎng)絡(luò)[3]、計(jì)量經(jīng)濟(jì)模型[4]以及各類組合預(yù)測(cè)模型等[5-6].在預(yù)測(cè)中,主要考慮數(shù)據(jù)的兩個(gè)特征進(jìn)行建模,一是GDP時(shí)間序列數(shù)據(jù)的線性特征;二是非線性特征.線性特征描述的是一種宏觀經(jīng)濟(jì)中恒定的變動(dòng)規(guī)律,無(wú)法很好地解釋經(jīng)濟(jì)系統(tǒng)中復(fù)雜的變動(dòng)現(xiàn)象.近年來(lái),時(shí)間序列的非線性特征也越來(lái)越被人們所關(guān)注,特別是將神經(jīng)網(wǎng)絡(luò)引入解決非線性的模型中,擬合效果和預(yù)測(cè)效果都表現(xiàn)出了顯著的優(yōu)勢(shì)[7-9].半?yún)?shù)回歸同時(shí)含有參數(shù)和非參數(shù)分量[10],比線性模型更為靈活,又優(yōu)于非參數(shù)回歸模型,而混合了參數(shù)和非參數(shù)的半?yún)?shù)回歸模型在解決線性和非線性疊加的系統(tǒng)中具有很好的擬合效果.考慮自回歸(AR)模型,滯后期階數(shù)作為解釋變量時(shí),常常出現(xiàn)滯后期變量的選擇并不具有顯著的統(tǒng)計(jì)學(xué)相關(guān)性,在將該變量引入回歸方程時(shí)禁不起顯著性的檢驗(yàn),將不顯著的變量剔除模型或者繼續(xù)做線性回歸都不是很好的解決方案.韓玉濤[11]將自回歸模型中的不顯著變量進(jìn)行剔除,并把外生變量作為半?yún)?shù)引入自回歸模型,其預(yù)測(cè)效果明顯比單獨(dú)的回歸模型要精確;楊凱[12]認(rèn)為自回歸模型是半?yún)?shù)可加自回歸模型的退化形式,推導(dǎo)半?yún)?shù)可加自回歸模型估計(jì)量的強(qiáng)相合性和漸近正態(tài)性,并利用黃金價(jià)格數(shù)據(jù)檢驗(yàn)了模型的改進(jìn)效果;劉洪[13]建立半?yún)?shù)回歸模型用于檢驗(yàn)我國(guó)GDP數(shù)據(jù)的準(zhǔn)確性.半?yún)?shù)可加自回歸模型采用的非線性回歸函數(shù)能克服AR模型對(duì)解釋變量線性結(jié)構(gòu)的約束,使模型更加符合觀測(cè)數(shù)據(jù)的客觀規(guī)律,更具一般性.
鑒于半?yún)?shù)回歸模型在時(shí)間序列分析上的成功應(yīng)用,本文從GDP時(shí)間序列數(shù)據(jù)的線性和非線性特征出發(fā),將自回歸(AR)模型中不具顯著相關(guān)性的滯后期變量作為非參數(shù)部分,構(gòu)建半?yún)?shù)可加自回歸模型.利用我國(guó)1978~2019年的GDP時(shí)間序列數(shù)據(jù)構(gòu)建模型,并進(jìn)行分析和比較.
一系列時(shí)間點(diǎn)上的觀測(cè)數(shù)據(jù)構(gòu)成的隨機(jī)變量序列{Yt:t=0,±1,±2,±3,…}是一個(gè)平穩(wěn)時(shí)間序列,可以利用具有自相關(guān)的滯后階變量和隨機(jī)項(xiàng)的線性組合對(duì)當(dāng)期變量進(jìn)行解釋,自回歸(AR)模型可以表示為
(1)
其中,Yt為n行1列的當(dāng)期被解釋變量;X=(Yt-1,…,Yt-p)為n-p行p列的滯后期解釋變量矩陣;β=(β0,β1,…,βp)Τ為p+1行1列的待估參數(shù);εt包含了序列在t期無(wú)法用滯后階信息來(lái)解釋并獨(dú)立于滯后期解釋變量的殘差向量.
自回歸(AR)模型的滯后期解釋變量選擇決定回歸方程解釋能力,即X=(Yt-1,…,Yt-p)對(duì)Yt進(jìn)行解釋.通常選擇解釋變量的方法可以依據(jù)自相關(guān)圖(ACF)、偏相關(guān)圖(PACF)、AIC信息準(zhǔn)則和BIC準(zhǔn)則等來(lái)確定,并在給定的時(shí)間序列樣本中,利用最小二乘法擬合待估參數(shù)β.通常使用F統(tǒng)計(jì)量和T統(tǒng)計(jì)量對(duì)回歸方程和變量的顯著性進(jìn)行檢驗(yàn),并使用Ljung-Box統(tǒng)計(jì)量檢驗(yàn)時(shí)間序列的殘差是否為白噪聲.
在模型(1)的基礎(chǔ)上,根據(jù)AIC信息準(zhǔn)則確定滯后期解釋變量常常出現(xiàn)部分滯后期變量并不具有顯著相關(guān)性,將其放入自回歸模型中建立線性回歸模型無(wú)法通過(guò)顯著性檢驗(yàn).為盡量保留滯后期信息對(duì)Yt的解釋,考慮將部分不具有顯著性的滯后期變量作為非參數(shù)引入自回歸模型,同時(shí)利用可加模型(GAM)構(gòu)建半?yún)?shù)可加自回歸模型,具體形式為
(2)
其中,Yt為當(dāng)期被解釋變量;α為截距項(xiàng);β=(β1,β2,…,βq)Τ為線性部分的待估參數(shù);Yt-i為q個(gè)與被解釋變量具有顯著相關(guān)性的滯后期解釋變量,相信部分用來(lái)確定Yt的結(jié)構(gòu)性趨勢(shì);gj(Yt-j)為未知的非參光滑函數(shù),Yt-j為k個(gè)與被解釋變量不具有顯著線性關(guān)系的變量.非參數(shù)部分對(duì)不確定因素進(jìn)行局部調(diào)整,且q+k≤p;εt為與解釋變量獨(dú)立的隨機(jī)誤差,且E(εt)=0,Var(εt)=δ2<∞.
(3)
第2步.假設(shè)gj(Yt-j)為樣條函數(shù),只要估計(jì)出gj(Yt-j)在Yt-j的取值,得到光滑樣條估計(jì)即可,即使得下式最小,
(4)
第3步.得到非參數(shù)估計(jì)部分后,基于最小二乘法重新估計(jì)β,將β作為已知數(shù)據(jù)代入步驟1,迭代直至收斂.
本文構(gòu)建半?yún)?shù)可加自回歸模型依賴于R語(yǔ)言中mgcv軟件包的GAM函數(shù),可以快捷地實(shí)現(xiàn)GAM分析和最優(yōu)模型的選取,其模型構(gòu)建主要分為以下4個(gè)步驟.
利用GDP時(shí)間序列建立自回歸模型首先需要檢驗(yàn)該序列的平穩(wěn)性.常用于檢驗(yàn)時(shí)間序列平穩(wěn)性的方法有2種,一種是通過(guò)時(shí)間序列樣本隨時(shí)間變化的趨勢(shì)圖,觀察該序列的隨機(jī)波動(dòng)情況,初步判斷其平穩(wěn)性,以及根據(jù)自相關(guān)圖(ACF)和偏相關(guān)圖(PACF)呈現(xiàn)出的序列自相關(guān)來(lái)分析序列的平穩(wěn)性;另一種是用單位根檢驗(yàn)(ADF),檢驗(yàn)通過(guò)的為平穩(wěn)時(shí)間序列;若存在單位根則為非平穩(wěn)時(shí)間序列,需要差分處理避免出現(xiàn)偽回歸.
自回歸(AR)模型確定滯后階數(shù)p值十分重要,p值過(guò)大會(huì)導(dǎo)致模型統(tǒng)計(jì)值不穩(wěn)定,p值過(guò)小會(huì)降低模型精度.在實(shí)際應(yīng)用中,觀察自相關(guān)圖(ACF)和偏自相關(guān)圖(PACF)確定p值,此法帶有較大的主觀性.赤池弘次 (Akaike) 提出的AIC信息準(zhǔn)則被廣泛應(yīng)用到時(shí)間序列定階,該準(zhǔn)則將K-L距離和極大似然方法相結(jié)合,其定義為
MAIC=-2lnL+2n,
(5)
其中,L為極大似然函數(shù);n為未知參數(shù)個(gè)數(shù).利用MAIC的最小值來(lái)確定AR模型滯后階數(shù)p值.
本文基于AIC信息準(zhǔn)則選擇最小AIC值對(duì)應(yīng)的滯后階數(shù)作為模型的p值.
在AIC信息準(zhǔn)則選擇的滯后期變量基礎(chǔ)上,構(gòu)建本文的半?yún)?shù)可加自回歸模型.首先需要確定哪些變量作為線性部分,哪些作為非參數(shù)部分.參照文獻(xiàn)[11]的做法,首先通過(guò)AIC準(zhǔn)則的結(jié)果選擇對(duì)應(yīng)的滯后期變量作為解釋變量構(gòu)建自回歸(AR)模型,使用T統(tǒng)計(jì)量檢驗(yàn),將線性回歸中顯著的變量作為線性部分,其它解釋變量作為非參數(shù)部分,構(gòu)建半?yún)?shù)可加自回歸模型.同時(shí)考慮解釋變量之間的共線性,刪除相關(guān)性較高且滯后期較大的解釋變量.
本文使用R軟件對(duì)模型的參數(shù)進(jìn)行估計(jì),自回歸(AR)模型采用最小二乘法進(jìn)行參數(shù)估計(jì),半?yún)?shù)可加自回歸模型的求解參照文獻(xiàn)[15],最后使用mgcv包中的GAM函數(shù)對(duì)參數(shù)進(jìn)行指定和求解.
求解自回歸(AR)模型和半?yún)?shù)可加自回歸模型的參數(shù)估計(jì)后,都需要檢驗(yàn)?zāi)P偷臍埐钚蛄惺欠裼行В礄z驗(yàn)自回歸(AR)模型和半?yún)?shù)可加自回歸模型是否提取了樣本中足夠多的信息.通常檢驗(yàn)殘差序列是否為白噪聲序列,若為白噪聲序列則考慮模型有效.
H0:ρ1=ρ2=…=ρm=0.
H1:至少存在一個(gè)ρk≠0(1≤k≤m).
檢驗(yàn)所用的Ljung-Box(LB)統(tǒng)計(jì)量為
(6)
n為觀測(cè)期數(shù);m為指定滯后期數(shù).
當(dāng)LB統(tǒng)計(jì)量的p值大于顯著性水平α?xí)r,則該殘差序列為白噪聲序列.
本文收集了1978~2019年我國(guó)每年的GDP值作為樣本數(shù)據(jù),數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)局公布的統(tǒng)計(jì)年鑒和統(tǒng)計(jì)公報(bào).將樣本數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中,1978~2016年的數(shù)據(jù)作為訓(xùn)練集進(jìn)行模型擬合,2017~2019年的數(shù)據(jù)作為測(cè)試集進(jìn)行模型的測(cè)試.
3.1.1 序列平穩(wěn)化
利用R軟件繪制1978~2016年我國(guó)GDP時(shí)序圖,如圖1和圖2所示.
圖1 1978~2016年我國(guó)GDP時(shí)序圖
圖2 1978~2016年我國(guó)GDP二階差分時(shí)序圖
從圖中可以明顯看出該時(shí)間序列非平穩(wěn),單位根檢驗(yàn)的p-value=0.9823.進(jìn)行差分處理,得到二階差分后的序列為平穩(wěn)時(shí)間序列,其時(shí)序圖如圖1所示,單位根檢驗(yàn)p-value<0.0001.使用二階差分的序列進(jìn)行建模,記Yt為被解釋變量,記滯后p期的差分序列Yt-1,…,Yt-p為解釋變量.
3.1.2 模型定階
自相關(guān)(ACF)和偏自相關(guān)(PACF)表明當(dāng)期序列值和過(guò)去序列值的相關(guān)性,可以初步地判斷哪些滯后期變量用來(lái)預(yù)測(cè)未來(lái)的值.二階自相關(guān)圖(ACF)和偏自相關(guān)(PACF)如圖3、圖4所示.
圖3 二階差分序列自相關(guān)圖
圖4 二階差分序列偏自相關(guān)圖
由圖可以看出,滯后2期和3期的自相關(guān)較大,6期以后的自相關(guān)較小,滯后2期的偏自相關(guān)較大,且二者均表現(xiàn)出拖尾現(xiàn)象.進(jìn)一步借助AIC值來(lái)確定p值,考察滯后1到6階的AIC值,當(dāng)p值為5時(shí),顯示出的最小AIC值為772.0471,則AR模型的p階為5,自回歸(AR)模型為
Yt=β0+β1Yt-1+β2Yt-2+
β3Yt-3+β4Yt-4+β5Yt-5+εt,
即Yt-1,…,Yt-5對(duì)Yt進(jìn)行解釋.
3.2.1 變量選擇與估計(jì)
建立AR(5)模型,使用OLS進(jìn)行參數(shù)估計(jì),得到最終回歸結(jié)果,見(jiàn)表1所列.
表1 AR(5)模型回歸結(jié)果
結(jié)果顯示,模型F統(tǒng)計(jì)量的p-value=0.0078,Adj-R2為0.3271,對(duì)于滯后期變量Yt-2和Yt-3分別在0.001和0.01的水平下顯著,其他變量在線性回歸模型中均為不顯著變量,故考慮將不顯著變量作為非參數(shù)部分進(jìn)行回歸,所以Yt-2和Yt-3作為線性部分,而Yt-1、Yt-4和Yt-5為非參數(shù)部分,構(gòu)建半?yún)?shù)可加自回歸模型.
進(jìn)一步考慮各個(gè)變量的共線性問(wèn)題[16],通過(guò)計(jì)算滯后期變量的pearson相關(guān)系數(shù),得出Yt-3和Yt-5在具有明顯的相關(guān)性時(shí)其相關(guān)系數(shù)0.625>0.5,且滯后期越靠后對(duì)Yt的解釋能力越弱,將Yt-5變量刪除處理,最終選擇變量構(gòu)建的半?yún)?shù)可加自回歸模型為
Yt=α+β2Yt-2+β3Yt-3+
g1(Yt-1)+g4(Yt-4)+εt.
模型參數(shù)估計(jì)時(shí)GAM函數(shù)中的family變量選擇高斯函數(shù),光滑函數(shù)選擇薄板回歸樣條函數(shù)[17-18],光滑函數(shù)的參數(shù)使用廣義交叉驗(yàn)證 (GCV),模型的參數(shù)估計(jì)結(jié)果如表2、表3所列.結(jié)果顯示參數(shù)變量和非參數(shù)變量的檢驗(yàn)結(jié)果在5%及以上的水平均表現(xiàn)出顯著性,而Yt-1和Yt-4作為非參數(shù)變量通過(guò)了顯著性檢驗(yàn),整個(gè)模型的R-adj為0.903,異常的解釋率達(dá)到95%,相比AR(5)模型將所有變量都作為線性回歸的參數(shù)進(jìn)行估計(jì),半?yún)?shù)可加自回歸模型更加準(zhǔn)確地描述GDP數(shù)據(jù)的線性和非線性的混合特征.
表2 半?yún)?shù)可加自回歸模型的參數(shù)估計(jì)結(jié)果
表3 半?yún)?shù)可加自回歸模型的非參數(shù)估計(jì)結(jié)果
3.2.2 模型檢驗(yàn)
模型擬合得到參數(shù)的估計(jì)后,對(duì)兩個(gè)模型的殘差序列進(jìn)行Ljung-Box白噪聲檢驗(yàn).檢驗(yàn)顯示,AR(5)的LB統(tǒng)計(jì)量p-value 為0.7457,檢驗(yàn)結(jié)論為白噪聲序列;半?yún)?shù)可加自回歸模型對(duì)應(yīng)LB統(tǒng)計(jì)量的p-value 為0.9466,檢驗(yàn)結(jié)論依然為白噪聲序列.二者都通過(guò)了白噪聲檢驗(yàn),模型擬充分,對(duì)GDP時(shí)間序列的建模都具有實(shí)際意義.
3.2.3 模型擬合與預(yù)測(cè)結(jié)果
不同參數(shù)形式的GDP時(shí)間序列數(shù)據(jù)建模都能對(duì)其進(jìn)行解釋,但是解釋能力是否一致,還需要進(jìn)一步考察.通過(guò)比較兩個(gè)模型的擬合結(jié)果和在測(cè)試集上的預(yù)測(cè)準(zhǔn)確度,采用相對(duì)誤差和平均相對(duì)誤差反映模型的預(yù)測(cè)準(zhǔn)確度.平均相對(duì)誤差的公式為
MRE越小則預(yù)測(cè)準(zhǔn)確度越高.模型的擬合和預(yù)測(cè)結(jié)果如表4、表5所列.
表4 兩個(gè)模型的擬合值對(duì)比
表5 2017~2019年兩個(gè)模型的預(yù)測(cè)值對(duì)比
以上兩個(gè)模型的擬合結(jié)果可以看出:整體上AR(5)和半?yún)?shù)可加自回歸模型的擬合效果相差不大,二者總的MRE分別為3.84%和3.64%;AR(5)模型整體的相對(duì)誤差較為平穩(wěn),而半?yún)?shù)可加自回歸模型的相對(duì)誤差在最開(kāi)始達(dá)到最大28.11%,隨后相對(duì)誤差平穩(wěn)且逐漸趨于0;二者較大的相對(duì)誤差主要體現(xiàn)在前五年的數(shù)據(jù)上,不看前五年的擬合情況,半?yún)?shù)可加自回歸模型的MRE為1.30%,而AR(5)的MRE為3.38%.所以,在該時(shí)間段上,半?yún)?shù)可加自回歸模型具有明顯的擬合優(yōu)勢(shì).兩個(gè)模型預(yù)測(cè)值的相對(duì)誤差較為一致,在2018年的預(yù)測(cè)值誤差最小,預(yù)測(cè)值與真實(shí)值較為接近,2017年的誤差較大;兩個(gè)模型的MRE分別為1.12%和0.82%,所以,半?yún)?shù)可加自回歸模型預(yù)測(cè)能力更有優(yōu)勢(shì).
對(duì)GDP時(shí)間序列數(shù)據(jù)進(jìn)行建模需要滿足宏觀經(jīng)濟(jì)運(yùn)行的實(shí)際情況,要充分考慮序列數(shù)據(jù)的線性和非線性混合特征.在自回歸(AR)模型的基礎(chǔ)上,將回歸過(guò)程中不顯著的滯后期解釋變量作為非參數(shù)變量,由滯后期解釋變量構(gòu)成的參數(shù)和非參數(shù)兩部分對(duì)GDP當(dāng)期數(shù)據(jù)進(jìn)行解釋,從而構(gòu)建半?yún)?shù)可加自回歸模型.通過(guò)AIC信息準(zhǔn)則確定的模型階數(shù),在盡量保留滯后期變量對(duì)Yt的解釋能力下,將部分變量作為非參數(shù)引入具有很好的模型解釋能力,各類型變量的顯著效果明顯,符合經(jīng)濟(jì)運(yùn)行的現(xiàn)實(shí)意義.同時(shí),也反映了GDP時(shí)間序列數(shù)據(jù)的線性和非線性混合特征,本文實(shí)證結(jié)果顯示滯后2期和滯后3期表現(xiàn)為線性特征,滯后1期和滯后4期具有非線性特征,所以,在對(duì)其進(jìn)行建模的過(guò)程中應(yīng)充分考慮非線性特征.從模型的擬合效果來(lái)看,半?yún)?shù)可加自回歸模型擬合值和真實(shí)值更加吻合,特別是在2009年以后其相對(duì)誤差趨向于0,并且預(yù)測(cè)效果也更好.
本文選取的非參數(shù)變量部分,在回歸過(guò)程中遇到滯后期不顯著變量較多時(shí),結(jié)論是否具有一般性還待進(jìn)一步驗(yàn)證.年度GDP時(shí)間序列數(shù)據(jù)的樣本量有限,試圖將半?yún)?shù)可加自回歸模型應(yīng)用到大樣本或者高頻時(shí)間序列數(shù)據(jù)是未來(lái)努力的一個(gè)方向.神經(jīng)網(wǎng)絡(luò)對(duì)非線性問(wèn)題建模也具有一定優(yōu)勢(shì),后期可以比較和分析兩類模型在解決非線性問(wèn)題的不同特點(diǎn).