馬亮亮
(攀枝花學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,四川 攀枝花 617000)
近些年,ARIMA、ARMA等經(jīng)典時(shí)間分析方法在股票、網(wǎng)絡(luò)流量、害蟲(chóng)發(fā)生、發(fā)病率等時(shí)間序列中得到了廣泛的應(yīng)用[1-4]。ARMA模型極具彈性,可以表示各種不同類(lèi)型的時(shí)間序列預(yù)測(cè)模型,融合了時(shí)間序列分析和回歸分析的優(yōu)點(diǎn),在時(shí)間序列預(yù)測(cè)中得到了廣泛的應(yīng)用[5]。然而時(shí)間序列受多種因素綜合影響,是一種非常復(fù)雜的非線性變化系統(tǒng),基于線性建模的ARMA難以準(zhǔn)確描述時(shí)間序列的非線性變化規(guī)律,導(dǎo)致預(yù)測(cè)結(jié)果不理想[6]。
實(shí)際科學(xué)研究中經(jīng)常遇到多個(gè)指標(biāo)的實(shí)際問(wèn)題,雖然含有多個(gè)指標(biāo)的數(shù)據(jù)可以提供豐富的信息,但同時(shí)增加了分析問(wèn)題的復(fù)雜性和難度,而且事實(shí)上,不同指標(biāo)之間往往存在一定的相關(guān)性。那么,能否有一種合理的方法,即用較少的幾個(gè)相互獨(dú)立的指標(biāo)來(lái)代替原來(lái)的多個(gè)指標(biāo),使其既減少了指標(biāo)的個(gè)數(shù),又能綜合反映原指標(biāo)的信息?回答是肯定的,主成分分析 (principal component analysis,PCA)就是用于解決此類(lèi)問(wèn)題的一種處理方法。
為了有效利用各種時(shí)間序列預(yù)測(cè)模型的優(yōu)點(diǎn),克服單一模型的缺陷,一些學(xué)者基于著名的M-競(jìng)爭(zhēng)理論提出了時(shí)間序列組合預(yù)測(cè)模型,實(shí)證結(jié)果表明,相對(duì)于單一模型,組合預(yù)測(cè)模型能夠較大限度地利用預(yù)測(cè)樣本的各種信息,大幅度地提高時(shí)間序列的預(yù)測(cè)精度,比單一模型考慮的問(wèn)題更系統(tǒng)、更全面[7-8]。
為了提高時(shí)間序列的預(yù)測(cè)精度,考慮時(shí)間序列的環(huán)境影響因子,本文將主成分分析 (principal component analysis,PCA)和ARIMA相融合,產(chǎn)生一種新的時(shí)間序列組合預(yù)測(cè)模型-PCA-ARIMA,并通過(guò)高血壓發(fā)病率對(duì)PCA-ARIMA預(yù)測(cè)性能進(jìn)行驗(yàn)證。
PCA-ARIMA模型的預(yù)測(cè)原理為:首先利用PCA對(duì)時(shí)間序列的影響因子進(jìn)行篩選,只保留對(duì)系統(tǒng)影響較大的變量,然后采用ARIMA模型對(duì)保留變量進(jìn)行預(yù)測(cè)和建模。PCA-ARIMA具體的預(yù)測(cè)流程如圖1所示。
圖1 PCA-ARIMA模型的預(yù)測(cè)流程
為了評(píng)價(jià)PCA-ARIMA模型性能的優(yōu)劣,選擇PCA-MLR、ARIMA作為參比模型,其中PCA-MLR表示首先采用PCA進(jìn)行影響因子篩選,然后采用多元線性回歸 (multiple linear regression,MLR)進(jìn)行建模和預(yù)測(cè);ARIMA表示直接采用ARIMA模型進(jìn)行建模和預(yù)測(cè),并使用均方誤差 (mean square error,MSE)和平均相對(duì)誤差 (mean absolute percentage error,MAPE)作為模型的評(píng)價(jià)指標(biāo)。MSE和MAPE分別定義如下:
其中yi表示時(shí)間序列的實(shí)際值表示模型的預(yù)測(cè)值,n表示測(cè)試樣本數(shù)。
數(shù)據(jù)資料來(lái)源于甘肅省天水市疾病預(yù)防控制中心提供的1999年1月至2005年12月高血壓發(fā)病率(y)。高血壓發(fā)病率的氣象影響因子有:月平均氣壓x1(pha),月平均氣溫x2(℃),月平均相對(duì)濕度x3(%),月平均風(fēng)速x4(m/s),月降水量x5(mm)。
利用氣象影響因子:月平均氣壓x1,月平均氣溫x2,月平均相對(duì)濕度x3,月平均風(fēng)速x4,月降水量x5做主成分分析,得主成分的統(tǒng)計(jì)信息如表1所示。
表1 主成分統(tǒng)計(jì)分析
從主成分分析結(jié)果可知,第一主成分的特征根為2.664,它解釋了總變異的52.883%;第二主成分的特征根為1.500,它解釋了總變異的30.003%;前兩個(gè)特征根均大于1,累計(jì)貢獻(xiàn)率82.886%。由于第三個(gè)主成分的特征根較接近于1,故宜取前三個(gè)主成分,此時(shí)累計(jì)貢獻(xiàn)率達(dá)93.698%。
前三個(gè)主成分與各個(gè)變量x1,x2,x3,x4,x5的關(guān)系如下:
其中stdxi(i=1,2,3,4,5)表示標(biāo)準(zhǔn)指標(biāo)變量:
從主成分分析結(jié)果可知,影響高血壓發(fā)病率變化的因子有很多,而這些因子之間可能存在多重共線性,特別是當(dāng)各個(gè)解釋變量之間存在著高度的相互依賴關(guān)系時(shí),就會(huì)給回歸系數(shù)的估計(jì)帶來(lái)不合理的解釋?zhuān)?]。
為了得到一個(gè)可靠的預(yù)測(cè)模型,需要從眾多影響因子中挑選出對(duì)高血壓發(fā)病率變化貢獻(xiàn)率大的影響因子,本文采用PCA對(duì)影響因子進(jìn)行篩選。采用SPSS11.5對(duì)高血壓發(fā)病率進(jìn)行主成分分析,表明前三個(gè)主成分包含了原有5個(gè)指標(biāo)93.698%的信息,故采用前三個(gè)主成分(z1,z2,z3)代替原有的5個(gè)變量(x1,x2,x3,x4,x5)進(jìn)行建模和預(yù)測(cè)。
3.4.1 MLR擬合
運(yùn)用PCA篩選的對(duì)高血壓發(fā)病率影響顯著的前三個(gè)主成分:z1,z2,z3采用 MLR進(jìn)行預(yù)測(cè),采用SPSS11.5實(shí)現(xiàn),得到的線性回歸方程為:
將式 (3) -(5)的z1,z2,z3表達(dá)式代入式(12),得到因變量y與標(biāo)準(zhǔn)自變量stdx1~stdx5的線性回歸方程:
將標(biāo)準(zhǔn)自變量還原為原自變量,得到因變量y與原自變量x1~x5的線性回歸方程為:
模型主要參數(shù)為:相關(guān)系數(shù)r=0.892;F=2.138;顯著水平P=0.0413<0.05,表明建立的線性方程達(dá)到顯著性要求,該方程可以進(jìn)行預(yù)測(cè)應(yīng)用。
3.4.2 ARIMA擬合
利用高血壓發(fā)病率(y)繪制該序列的樣本自相關(guān)分析圖,可知當(dāng)p=1,d=1,q=2時(shí),模型的預(yù)測(cè)精度最高,可達(dá)94.50%。由此可見(jiàn),ARIMA模型的進(jìn)行高血壓發(fā)病率預(yù)測(cè)的效果好于PCA-MLR預(yù)測(cè)效果,主要是經(jīng)過(guò)對(duì)樣本測(cè)試集進(jìn)行差分處理后,序列的趨勢(shì)性等基本消除,序列更接近于平穩(wěn),波動(dòng)性減小,因此預(yù)測(cè)效果更佳。ARIMA(1,1,2)模型對(duì)應(yīng)的方程為:
式中隨機(jī)項(xiàng)εt是相互獨(dú)立的白噪聲序列,且服從均值為0,方差為σ2的正態(tài)分布。
3.4.3 PCA-ARIMA擬合
運(yùn)用經(jīng)過(guò)PCA篩選的前三個(gè)主成分(z1,z2,z3)建立PCA-ARIMA模型,得到訓(xùn)練樣本集的預(yù)測(cè)模型PCA-ARIMA(1,1,2):
將式 (3) -(5)的z1,z2,z3表達(dá)式代入式(16),得到因變量y與標(biāo)準(zhǔn)自變量stdx1~stdx5的PCA-ARIMA(1,1,2):
將標(biāo)準(zhǔn)自變量還原為原自變量,得到因變量y與原自變量x1~x5的PCA-ARIMA(1,1,2)方程為:
各種預(yù)測(cè)模型擬合的MSE和MAPE見(jiàn)表2。
從表2的對(duì)比結(jié)果可知,在所有模型中,PCA-ARIMA模型擬合精度最高,誤差最小,結(jié)果表明,PCA-ARIMA首先采用PCA對(duì)高血壓發(fā)病率的影響因子進(jìn)行主成分分析,然后采用ARIMA進(jìn)行建模,能更加準(zhǔn)確描述高血壓發(fā)病率的變化規(guī)律,有效地提高了高血壓發(fā)病率的擬合精度。
表2 各模型的擬合性能比較
由于評(píng)價(jià)一個(gè)預(yù)測(cè)模型的好壞,主要考察其預(yù)測(cè)能力而非回代擬合結(jié)果,因此,再分別采用PCAMLR、ARIMA、PCA-ARIMA模型進(jìn)行獨(dú)立預(yù)測(cè),把數(shù)據(jù)分兩部分:1999年1月至2004年12月的數(shù)據(jù)作為訓(xùn)練集,2005年1月至12月的數(shù)據(jù)作為測(cè)試集,以便獲得實(shí)際高血壓發(fā)病率建模精度與預(yù)測(cè)能力的評(píng)定。幾種模型對(duì)高血壓發(fā)病率進(jìn)行學(xué)習(xí)的預(yù)測(cè)結(jié)果如表3所示。
從表3可知,線性MLR模型和ARIMA模型的預(yù)測(cè)效果較差,主要是因?yàn)樗鼈兙荒芊从掣哐獕喊l(fā)病率的片段信息,不能全面捕捉到高血壓發(fā)病率的動(dòng)態(tài)變化規(guī)律;而組合預(yù)測(cè)模型PCA-ARIMA與MLR和ARIMA相比,預(yù)測(cè)精度有了較大的提高,由于組合預(yù)測(cè)模型能夠充分利用時(shí)間序列數(shù)據(jù)中的信息,并對(duì)高血壓發(fā)病率變化規(guī)律進(jìn)行深入挖掘,避免了單一模型的局限性,其對(duì)高血壓發(fā)病率的預(yù)測(cè)結(jié)果有了較為明顯的提高。
表3 幾種模型對(duì)2005年高血壓發(fā)病率的預(yù)測(cè)結(jié)果
時(shí)間序列受到眾多因子的影響,呈現(xiàn)高度非線性變化規(guī)律,難以建立精確的數(shù)學(xué)模型,利用ARIMA模型本身的優(yōu)點(diǎn),將PCA引入到時(shí)間序列建模中,建立一種時(shí)間序列組合模型PCA-ARIMA,并應(yīng)用于高血壓預(yù)測(cè)中。實(shí)例結(jié)果表明,PCAARIMA模型簡(jiǎn)單、容易實(shí)現(xiàn)、速度快,而且提高了高血壓發(fā)病率預(yù)測(cè)準(zhǔn)確率,較好地揭示了高血壓發(fā)病率的變化規(guī)律[5]。
[1]馬亮亮,田富鵬.基于非對(duì)稱ARCH模型的海西州地區(qū)支氣管炎發(fā)病情況研究[J].科技導(dǎo)報(bào),2009,27(24):51-55.
[2]馬亮亮,田富鵬.ARMA模型在膽結(jié)石發(fā)病率預(yù)測(cè)中的應(yīng)用[J].軍事醫(yī)學(xué)科學(xué)院院刊,2010,34(05):1-4.
[3]馬亮亮,田富鵬.時(shí)間序列分析方法在膽囊炎發(fā)病率預(yù)測(cè)中的應(yīng)用[J].中華實(shí)驗(yàn)外科雜志,2010,27(06):779.
[4]馬亮亮,田富鵬.不同時(shí)間序列分析方法在高血壓發(fā)病率預(yù)測(cè)中的應(yīng)用[J].中國(guó)老年學(xué)雜志,2010,30(13):1777-1780.
[5]向昌盛.基于支持向量機(jī)的時(shí)間序列組合預(yù)測(cè)模型[D].長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2011.
[6]羅盛健.基于人工神經(jīng)網(wǎng)絡(luò)的剛竹毒蛾發(fā)生面積的預(yù)測(cè)模型[J].華東昆蟲(chóng)學(xué)報(bào),2006,15(01):37-39.
[7]Salgdo R M,Pereira J J F,Ohishi T.A hybrid ensemble model applied to the short-term load forecasting problem[A].International Joint Conference on Neural Networks[C].Vancouver:B C Canada,2006,10:2627-2634.
[8]Vila J P,Wagner V,Neveu P.Bayesian nonlinear model selection and neural network:A conjugate prior approach[J].IEEE Trans Neural Netw,2000,11(02):265-278.
[9]馬亮亮,田富鵬.逐步回歸分析在糖尿病發(fā)病情況中的應(yīng)用[J].渤海大學(xué)學(xué)報(bào),2009,30(04):321-324.