山東大學(xué)公共衛(wèi)生學(xué)院(250012) 劉曉冬 姜寶法
時(shí)間序列是將某一指標(biāo)在不同時(shí)間上的數(shù)值按時(shí)間先后順序排列而成的數(shù)列〔1〕。時(shí)序分析中對(duì)非平穩(wěn)時(shí)間序列的處理有兩種方法:(1)確定性分析方法,假定序列的變化不是變化莫測(cè)的,而是可以用一條趨勢(shì)線來(lái)加以刻畫(huà)的,即序列的趨勢(shì)是時(shí)間t的確定函數(shù),常用的方法有線性模型、指數(shù)模型等〔2〕。該方法只能提取確定性信息,沒(méi)有利用隨機(jī)性信息。(2)隨機(jī)性分析方法,ARIMA模型是典型代表,通過(guò)差分方法提取確定性信息,能提高非平穩(wěn)序列的擬合精度,但難以對(duì)模型進(jìn)行直觀解釋。殘差自回歸(error auto-regressive Model)模型〔3〕綜合了上述兩種方法的優(yōu)點(diǎn),成為非平穩(wěn)時(shí)間序列分析的重要方法。本文利用該模型對(duì)中國(guó)人口出生率進(jìn)行擬合并預(yù)測(cè),旨在探討該模型在衛(wèi)生領(lǐng)域中的適用性。
1.資料來(lái)源
本研究所利用的數(shù)據(jù)是中國(guó)1975~2008年的人口出生率數(shù)據(jù),來(lái)源于中國(guó)衛(wèi)生部《2009中國(guó)衛(wèi)生統(tǒng)計(jì)年鑒》〔4〕,數(shù)據(jù)真實(shí)可靠。
2.殘差自回歸模型介紹
一般回歸分析要求殘差之間相互獨(dú)立,而時(shí)間序列經(jīng)一般回歸分析后的殘差通常具有自相關(guān)性,這違背了一般回歸分析殘差獨(dú)立的前提,且大大降低了擬合精度〔3〕。而殘差自回歸模型的構(gòu)造思想是:首先通過(guò)確定性因素分解方法提取序列中的確定性信息,然后再檢驗(yàn)殘差序列的的自相關(guān)性。構(gòu)建的確定性回歸模型如下:
其中,a是常數(shù)項(xiàng),b為線性回歸系數(shù),{εt}為殘差序列。
由于受模型本身的精度和隨機(jī)因素的影響,因素分解方法對(duì)確定性信息的提取可能不充分,需對(duì)殘差序列{εt}進(jìn)行自相關(guān)性檢驗(yàn)。如果檢驗(yàn)結(jié)果顯示殘差序列自相關(guān)性不顯著,說(shuō)明模型(1)對(duì)信息的提取比較充分,分析可以結(jié)束;如果檢驗(yàn)結(jié)果顯示殘差序列自相關(guān)性顯著,說(shuō)明模型(1)對(duì)信息的提取不充分,需要繼續(xù)對(duì)殘差序列擬合自回歸模型。本研究所采用的殘差自相關(guān)性檢驗(yàn)方法是Durbin-Waston檢驗(yàn)(簡(jiǎn)稱DW檢驗(yàn))。下面以殘差1階自相關(guān)性檢驗(yàn)為例介紹DW檢驗(yàn)的原理。
即 DW≌2(1-ρ),因?yàn)?-1≤ρ≤1,所以 0≤DW≤4。當(dāng)0<ρ≤1時(shí),序列正相關(guān);當(dāng)-1<ρ≤0時(shí),序列負(fù)相關(guān)。
若檢驗(yàn)結(jié)果顯示殘差序列無(wú)自相關(guān)性,提示確定性回歸模型對(duì)信息的提取較充分,分析可到此為止;若檢驗(yàn)結(jié)果顯示殘差序列存在自相關(guān)性,須進(jìn)一步提取相關(guān)信息,可用自回歸模型對(duì)殘差序列進(jìn)一步擬合,構(gòu)造的模型{vt}如下:
將(1)式和(5)式結(jié)合,就構(gòu)成了殘差自回歸模型:
其中,φp是殘差自回歸模型系數(shù),{at}是均數(shù)為0、方差為σ2的正態(tài)獨(dú)立白噪聲序列。
3.本研究使用 SAS9.1.3 軟件包中的 SAS/ETS〔5〕模塊進(jìn)行分析。平穩(wěn)性檢驗(yàn)采用時(shí)序圖法,純隨機(jī)性檢驗(yàn)采用LB統(tǒng)計(jì)量。
若LB統(tǒng)計(jì)量的P值<0.05,則可以認(rèn)為該序列是一非純隨機(jī)序列或非白噪聲序列。
首先對(duì)該時(shí)間序列進(jìn)行平穩(wěn)性檢驗(yàn)和純隨機(jī)性檢驗(yàn),若該時(shí)間序列為非平穩(wěn)和非純隨機(jī)序列,然后使用Error Auto-regressive模型對(duì)該數(shù)據(jù)進(jìn)行擬合。平穩(wěn)性檢驗(yàn)結(jié)果見(jiàn)圖1。
圖1 中國(guó)1975~2008年人口出生率時(shí)序圖
時(shí)序圖顯示,該序列有一個(gè)明顯的下降趨勢(shì),并伴有一定的波動(dòng),是一個(gè)非平穩(wěn)時(shí)間序列。
純隨機(jī)性檢驗(yàn)結(jié)果:
延遲6階的LB統(tǒng)計(jì)量為107.73(P<0.0001),說(shuō)明該序列是一非白噪聲序列。
經(jīng)以上檢驗(yàn),該序列是一非平穩(wěn)非白噪聲序列,可以用error auto-regressive模型進(jìn)行擬合。
確定性模型為:
對(duì)殘差序列{εt}進(jìn)行自相關(guān)性檢驗(yàn),得DW=0.293 0(P<0.000 1),表明該殘差序列具有自相關(guān)性,下面對(duì)該殘差序列用自回歸模型進(jìn)行擬合。用逐步回歸法篩選顯著的自相關(guān)因子,并使用ML法進(jìn)行參數(shù)估計(jì)。3-5階的自相關(guān)項(xiàng)無(wú)統(tǒng)計(jì)學(xué)意義,故從模型中消除,只保留顯著的1階和2階自相關(guān)項(xiàng)。結(jié)果見(jiàn)表1。
表1 殘差序列自回歸模型擬合結(jié)果
擬合的殘差序列自回歸模型為:
下面將確定性模型擬合過(guò)程和殘差序列自回歸模型擬合過(guò)程同時(shí)進(jìn)行,將所有參數(shù)聯(lián)合求解,得擬合的最終模型參數(shù)估計(jì)結(jié)果見(jiàn)表2。
擬合的最終模型為:
最終模型擬合的R2=0.9322,高于確定性模型;MSE=1.0231,AIC=102.75,SBC=108.85,明顯小于確定性模型,說(shuō)明最終模型的擬合效果優(yōu)于確定性模型。對(duì)殘差序列{at}進(jìn)行自相關(guān)性檢驗(yàn),DW=1.8767,P=0.2909,不能拒絕H0,可以認(rèn)為殘差序列{at}自相關(guān)性無(wú)意義,不需要繼續(xù)進(jìn)行分析。
表2 最終擬合模型輸出結(jié)果
圖2 最終模型擬合效果圖
圖2為模型擬合效果圖。圖2中,黑點(diǎn)表示的是原始序列值,虛線為確定性模型擬合線,實(shí)線為最終模型擬合曲線??梢钥闯觯罱K模型的擬合效果明顯好于確定性模型。應(yīng)用該模型預(yù)測(cè)中國(guó)2009~2011年人口出生率分別為12.05‰、11.86‰、11.60‰。
隨著社會(huì)的發(fā)展和計(jì)算機(jī)技術(shù)的進(jìn)步,時(shí)間序列分析技術(shù)的應(yīng)用越來(lái)越廣泛,在衛(wèi)生領(lǐng)域中的應(yīng)用日益深入〔5,6〕。國(guó)內(nèi)外醫(yī)學(xué)界也正在尋求借助時(shí)序分析技術(shù)解決醫(yī)學(xué)問(wèn)題的途徑。殘差自回歸模型是一種擬合非平穩(wěn)時(shí)間序列的方法,它既能提取序列的確定性信息,又能提取其隨機(jī)性信息,不僅提高了模型的擬合精度,還使結(jié)果符合實(shí)際,變得更易解釋,兼具了時(shí)間序列確定性分析和隨機(jī)性分析的優(yōu)點(diǎn)。當(dāng)一個(gè)時(shí)間序列具有明顯的確定性趨勢(shì)或季節(jié)效應(yīng)時(shí),可考慮應(yīng)用此模型。在醫(yī)學(xué)、農(nóng)業(yè)、工業(yè)、氣象、經(jīng)濟(jì)等領(lǐng)域中的諸多現(xiàn)象都具有時(shí)間序列的特征,殘差自回歸模型的應(yīng)用也日趨廣泛。尤其在生物醫(yī)學(xué)領(lǐng)域,如我國(guó)婦幼衛(wèi)生監(jiān)測(cè)網(wǎng)監(jiān)測(cè)的出生缺陷率、孕產(chǎn)婦死亡率以及多種傳染病的發(fā)病率等都具有非平穩(wěn)時(shí)間序列的特征,可利用殘差自回歸模型對(duì)其進(jìn)行擬合和預(yù)測(cè)。
本文采用的是中國(guó)1975~2008年人口出生率時(shí)間序列數(shù)據(jù),經(jīng)平穩(wěn)性和純隨機(jī)性檢驗(yàn),該數(shù)據(jù)為非平穩(wěn)非白噪聲序列,呈明顯的下降趨勢(shì),并伴有一定的波動(dòng)。若僅用一般線性回歸進(jìn)行擬合,殘差序列會(huì)存在自相關(guān)性,對(duì)序列信息的提取不充分。本研究在對(duì)數(shù)據(jù)擬合了確定性模型后,對(duì)殘差序列進(jìn)行自相關(guān)性檢驗(yàn),發(fā)現(xiàn)殘差序列有自相關(guān)性,遂繼續(xù)擬合殘差自回歸模型,得到最終模型。由結(jié)果部分可知,該模型的擬合效果明顯好于確定性模型。需要說(shuō)明的是,表1估計(jì)的參數(shù)值數(shù)值不一致,這是因?yàn)榇_定性模型和殘差自回歸模型是分開(kāi)求解的,忽略了殘差序列{εt}和序列
最終模型其實(shí)是一個(gè)組合模型,由確定性模型和殘差自回歸模型組成,但通常把該組合模型稱為殘差自回歸模型。需要注意的是,殘差自回歸模型同時(shí)對(duì)時(shí)間序列的確定信息和隨機(jī)信息進(jìn)行擬合,所以時(shí)間序列樣本點(diǎn)不能過(guò)少,一般不能少于30個(gè)。當(dāng)序列較短時(shí),只能進(jìn)行確定性時(shí)間序列分析〔7〕。殘差自回歸模型的計(jì)算雖然復(fù)雜,但借助計(jì)算機(jī)技術(shù)可方便快捷地實(shí)現(xiàn)這一過(guò)程,如應(yīng)用 SAS/ETS模塊中的 AUTOREG過(guò)程,通過(guò)自行編程可以靈活實(shí)現(xiàn)不同領(lǐng)域時(shí)間序列的殘差自回歸模型擬合。因此,殘差自回歸模型的應(yīng)用有著良好的發(fā)展前景。
1.王振龍主編.時(shí)間序列分析.北京:中國(guó)統(tǒng)計(jì)出版社,2000:2.
2.王春平,王志峰,單杰,等.隨機(jī)時(shí)間序列分析法在傳染病預(yù)測(cè)中的應(yīng)用.中國(guó)醫(yī)院統(tǒng)計(jì),2006,13(3):229-232.
3.王燕.應(yīng)用時(shí)間序列分析.北京:中國(guó)人民大學(xué)出版社,2005:167-178.
4.中華人民共和國(guó)衛(wèi)生部《2009中國(guó)衛(wèi)生統(tǒng)計(jì)年鑒》.http://www.moh.gov.cn/publicfiles/business/htmlfiles/zwgkzt/ptjnj/year2009/t-8.htm.
5.高慧璇等編譯.SAS系統(tǒng)·SAS/ETS軟件使用手冊(cè).北京:中國(guó)統(tǒng)計(jì)出版社,1998,116-153.
5.吳家兵,葉臨湘,尤爾科.時(shí)間序列模型在傳染病發(fā)病率預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(6):482-485.
6.華來(lái)慶,熊林平,孟虹,等.AR-EGARCH模型在疾病指數(shù)時(shí)間序列建模中的應(yīng)用研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(3):276.
7.陶莊,金水高.時(shí)間序列分析簡(jiǎn)明攻略.中國(guó)衛(wèi)生統(tǒng)計(jì),2003,20(3):151-153.
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年3期