陳國偉 伍嘯青 林藝蘭
ARIMA模型在廈門市居民人均期望壽命預(yù)測中的應(yīng)用
陳國偉1,2,3△伍嘯青1,2,3林藝蘭1,2,3
目的 探討自回歸綜合移動(dòng)平均數(shù)(ARIMA)模型預(yù)測廈門市居民人均期望壽命的可行性。方法 利用1987年至2013年廈門市居民期望壽命數(shù)據(jù),借助SAS9.1軟件建立模型,參數(shù)估計(jì)采用最小二乘法。結(jié)果 廈門市居民的期望壽命從1987年的72.62歲上升至2013年的79.68歲,女性期望壽命均大于男性,平均相差(5.79±0.45)歲。建立的疏系數(shù)ARIMA((4),1,0)模型預(yù)測值與實(shí)際值的平均相對(duì)誤差為1.07%,預(yù)測2013年的期望壽命約為79.35歲(95%CI:77.46~81.26歲)。加入2013年數(shù)據(jù)重新調(diào)整模型后預(yù)測2014-2016年廈門市居民的期望壽命分別為79.91歲、80.31歲和80.60歲。結(jié)論 ARIMA模型可用于對(duì)廈門市居民期望壽命的短期預(yù)測。
期望壽命 時(shí)間序列 ARIMA模型 預(yù)測
期望壽命是衡量一個(gè)國家或地區(qū)的人群健康狀況和經(jīng)濟(jì)發(fā)展水平的綜合指標(biāo),其不受國度和種族的影響,適于不同國家地區(qū)間的比較[1]。預(yù)測人群期望壽命的未來走勢可為國家或地區(qū)制定社會(huì)發(fā)展規(guī)劃及決策提供重要參考,但目前對(duì)期望壽命的預(yù)測研究較少,本研究欲探討自回歸綜合移動(dòng)平均數(shù)法(autoregressive integrated moving average,ARIMA)預(yù)測廈門市居民期望壽命的可行性,現(xiàn)將結(jié)果報(bào)告如下。
1.資料來源
1987-2013年的人口死亡資料來自廈門市死因監(jiān)測系統(tǒng)。其中1987-1989年的數(shù)據(jù)為1989年對(duì)島內(nèi)居民做的回顧性調(diào)查,1990年開始島內(nèi)和同安縣建立死因監(jiān)測點(diǎn),2002年后,監(jiān)測范圍覆蓋全市(島內(nèi)兩個(gè)區(qū),島外四個(gè)區(qū),其中同安、翔安兩個(gè)區(qū)原屬同安縣)。2002年以前采用ICD-9編碼、2002年及之后采用ICD-10編碼建立死因數(shù)據(jù)庫。人口學(xué)資料來自廈門市公安局。
2.建模方法
ARIMA(p,d,q)模型是 1976 年Box-Jenkins提出的隨機(jī)時(shí)間序列預(yù)測方法[2],其中p為自回歸階數(shù)、d為差分階數(shù)、q為滑動(dòng)平均階數(shù),模型結(jié)構(gòu)可表示如下:
其中Φ(B)=1-φ1B-φ2B2-…-φpBp,Θ(B)=1-θ1B-θ2B2-…-θqBq,B為后移算子,dxt為d階差分,εt為模型在t時(shí)期的偏差或誤差。φi為模型自回歸系數(shù),θi為模型滑動(dòng)平均系數(shù)。若模型出現(xiàn)某些系數(shù)(φi或θi)省缺了,則稱為疏系數(shù)ARIMA模型[2]。
本研究利用1987-2012年廈門市居民的期望壽命確定最優(yōu)模型,用2013年期望壽命進(jìn)行組外回代,計(jì)算預(yù)測誤差以判斷預(yù)測精度。最后用1987-2013年的數(shù)據(jù)重新擬合模型,預(yù)測廈門市居民未來三年的期望壽命。建模前利用原始數(shù)據(jù)的散點(diǎn)圖和自相關(guān)圖(ACF)觀察數(shù)據(jù)是否平穩(wěn)。若不平穩(wěn)則采用差分處理。利用SAS提供的p≤5、q≤5的BIC信息量,取BIC值最小者初步進(jìn)行模型定階,根據(jù)BIC值不斷調(diào)試模型的階數(shù)進(jìn)行模型檢驗(yàn)(包括參數(shù)檢驗(yàn)和殘差檢驗(yàn))。采用最小二乘法估計(jì)參數(shù),若某個(gè)參數(shù)不顯著,則剔除后重新擬合模型;若模型信息提取不完全,即殘差為非白噪聲序列,不能用于預(yù)測,需重新建模。若同時(shí)有幾個(gè)模型通過檢驗(yàn),以AIC值最小者為最佳模型。
3.統(tǒng)計(jì)分析方法
1.廈門市居民期望壽命變化情況
廈門市居民期望壽命從1987年的72.62歲逐漸上升到1993年的77.92歲,之后有所下降逐漸平穩(wěn),2002年上升至78.23歲,之后又有所下降,至2006年降至74.54歲,之后逐漸回升,至2013年為79.68歲。女性期望壽命大于男性,差異值最小為3.56歲(1994年),最大為7.78歲(2001年),平均相差(5.79±0.45)歲,見圖1。
2.建立預(yù)測模型
從圖1可以看出原始數(shù)據(jù)可能存在上升趨勢,其自相關(guān)函數(shù)圖(圖2)顯示自相關(guān)系數(shù)長期位于零軸一邊,且部分超過2倍標(biāo)準(zhǔn)差,數(shù)據(jù)不平穩(wěn);經(jīng)1階差分后的自相關(guān)函數(shù)基本落入2倍標(biāo)準(zhǔn)差范圍(圖3),數(shù)據(jù)平穩(wěn)可用于建模。利用SAS軟件提供的p≤5、q≤5的BIC信息量,模型初步定階為p=4,q=0。經(jīng)參數(shù)檢驗(yàn),模型ARIMA(4,1,0)中只有延遲階數(shù)為4的自回歸系數(shù)有意義(見表1),剔除沒有意義的參數(shù)重新擬合模型,最后建立疏系數(shù)ARIMA((4),1,0)模型,其殘差檢驗(yàn)各延遲階數(shù)卡方統(tǒng)計(jì)量的P值均大于0.05(見表2),殘差為白噪聲序列,擬合的模型有效。此時(shí)AIC值為71.098,SBC值為73.536。組內(nèi)回代結(jié)果顯示,預(yù)測值與實(shí)際值平均相對(duì)誤差為1.07%,預(yù)測2013年的期望壽命約為79.35歲(95%CI:77.46~81.26歲),比實(shí)際79.68歲少0.33歲。
3.模型預(yù)測結(jié)果
加入2013年期望壽命值重新擬合模型,最后所得模型參數(shù)φ4=-0.42361,模型可表示為:xt=xt-1-0.42361xt-4+0.42361xt-5+εt,其中x為期望壽命,t為年份,εt為殘差。預(yù)測2014-2016年廈門市居民的期望壽命分別為79.97歲、80.31歲和80.60歲。2006年的理論預(yù)測值與實(shí)際值相差最大(預(yù)測值為76.23歲,實(shí)際值為74.54歲,相對(duì)誤差2.26%),但預(yù)測值仍在95%可信區(qū)間范圍內(nèi),見圖4。
期望壽命是衡量一個(gè)國家或地區(qū)的人群健康狀況和社會(huì)經(jīng)濟(jì)發(fā)展水平的綜合指標(biāo),它消除年齡結(jié)構(gòu)影響,適于不同人群和不同地區(qū)之間直接比較[1]。世界衛(wèi)生組織(WHO)最新統(tǒng)計(jì)數(shù)據(jù)顯示2012年我國居民的出生期望壽命為75歲(男性74歲、女性77歲),比北美、歐洲的發(fā)達(dá)國家略低,但遠(yuǎn)高于全球平均水平70歲(男性68歲、女性73歲)[3]。廈門市居民在1993年期望壽命就已超過75歲,2012年達(dá)到79.19歲,高于全國平均水平4.19歲,這與我市成為經(jīng)濟(jì)特區(qū),經(jīng)濟(jì)與社會(huì)協(xié)調(diào)發(fā)展分不開。WHO的報(bào)告還顯示所有調(diào)查地區(qū)的期望壽命女性均高于男性,從全球看平均相差5歲左右,從全國看平均相差4歲左右[3],廈門市居民1987-2013年的期望壽命也都是男性低于女性,平均相差5.79歲。男性壽命低于女性除生理因素外,也可能與男性工作生活壓力較大、作息不規(guī)律、飲食不平衡及吸煙、酗酒等生活習(xí)慣和方式有關(guān)[4]。
對(duì)人群期望壽命發(fā)展趨勢的預(yù)測可為政府制定社會(huì)發(fā)展規(guī)劃及決策提供參考,但目前對(duì)期望壽命的預(yù)測研究較少,僅見用線性回歸模型進(jìn)行預(yù)測[5]。ARIMA 模型是應(yīng)用日臻成熟的時(shí)間序列分析方法,它無須事先了解資料的典型特征,只須預(yù)設(shè)一個(gè)可能適用的模型,再不斷調(diào)整參數(shù)獲取最優(yōu)模型,在疾病發(fā)病或死亡的預(yù)測中應(yīng)用廣泛[6-8],很少應(yīng)用于對(duì)期望壽命的趨勢預(yù)測。本研究嘗試建立ARIMA模型對(duì)廈門市居民期望壽命進(jìn)行預(yù)測,結(jié)果顯示預(yù)測值與實(shí)際值平均相對(duì)誤差為1.07%,預(yù)測精度較好,預(yù)測2013年的期望壽命約為79.35歲,比實(shí)際少0.33歲,在可接受范圍,且模型擬合效果圖也顯示預(yù)測值與實(shí)際值基本吻合,說明所建立模型預(yù)測效果較好,可用疏系數(shù)ARIMA模型對(duì)廈門市居民未來的期望壽命進(jìn)行短期預(yù)測。根據(jù)模型預(yù)測值2015年廈門市居民期望壽命將達(dá)到80.31歲,比2011年增加約1.33歲,能達(dá)到國家十二五規(guī)劃制定的五年人均期望壽命增加1歲的要求。與靜態(tài)數(shù)據(jù)的回歸分析不同,時(shí)間序列分析的模型擬合是動(dòng)態(tài)過程[2],實(shí)際應(yīng)用中須不斷收集新數(shù)據(jù),用于驗(yàn)證已建立的模型,并不斷加入新數(shù)據(jù)重新調(diào)整模型,使其更接近實(shí)際情況。
ARIMA模型預(yù)測具有資料易得、操作簡便且精確度高等優(yōu)點(diǎn)[9],但在建模過程中應(yīng)注意幾個(gè)問題:首先,建模過程最困難的是模型識(shí)別和定階步驟,常用的瞎子爬坡(從低階向高階遞進(jìn))逐步試探法或根據(jù)自相關(guān)圖和偏自相關(guān)圖的截尾性和拖尾性定階的方法過程冗雜,要求建模者有一定經(jīng)驗(yàn),且須花費(fèi)大量精力篩選最優(yōu)模型[10]。SAS軟件可提供p≤5,q≤5的模型BIC值,并直接指出BIC量最小的模型階數(shù),本研究發(fā)現(xiàn)利用其直接提供BIC量最小的階數(shù)初步識(shí)別模型,并根據(jù)BIC值從小到大不斷嘗試建模,在通過參數(shù)檢驗(yàn)和殘差檢驗(yàn)的幾個(gè)有意義的模型中根據(jù)AIC準(zhǔn)則[2](AIC值越小越好)篩選最優(yōu)模型,簡化了定階過程,經(jīng)驗(yàn)不足者也能快速掌握。其次,建模的時(shí)間序列太短會(huì)影響模型的穩(wěn)定性,可靠性較差,一般要求序列達(dá)到30,本研究用25年期望壽命值建的模型平均相對(duì)誤差并不大,未來每年應(yīng)不斷加入新的期望壽命值重新調(diào)整模型,使模型更穩(wěn)定。再次,本研究發(fā)現(xiàn)模型的預(yù)測值如果提前一個(gè)間隔期,即用模型算出的t+1年的期望壽命值來作為t年的期望壽命預(yù)測值,模型擬合效果更好,平均相對(duì)誤差只有原來的一半(約0.56%),2013年的期望壽命預(yù)測值為79.62歲,只比實(shí)際值相差0.06歲,是否每個(gè)一階差分模型都會(huì)有這樣的效果有待于進(jìn)一步探索。最后,在建模過程中,如果序列的均值遠(yuǎn)大于0,如本研究中原始數(shù)據(jù)期望壽命均值達(dá)76歲多,擬合的模型若沒有常數(shù)項(xiàng),結(jié)果將與實(shí)際值偏差很大,沒法用于預(yù)測,此時(shí)即使常數(shù)項(xiàng)無統(tǒng)計(jì)學(xué)意義也應(yīng)予以保留。本研究最后擬合的是一階差分后的序列,均值0.27接近于0,常數(shù)項(xiàng)沒統(tǒng)計(jì)學(xué)意義剔除后不影響預(yù)測。
總之,ARIMA模型對(duì)廈門市居民期望壽命的預(yù)測相對(duì)誤差小,模型穩(wěn)定,可進(jìn)行短期預(yù)測。
[1]黃洋洋,王曼,楊永利,等.河南省居民期望壽命及與經(jīng)濟(jì)和衛(wèi)生事業(yè)發(fā)展的關(guān)系.鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版), 2013,48(5):643-645.
[2]王燕.應(yīng)用時(shí)間序列分析.北京:中國人民大學(xué)出版社,2008:152-159.
[3]World Health Organization.Life expectancy:Life expectancy Data by country[DB/OL].http://apps.who.int/gho/data/node.main.688(2014-05-05/2014-07-10).
[4]沈潔,姜慶五.2005-2010年中國城市居民期望壽命性別差異的分析.中華流行病學(xué)雜志,2013,34(75):690-695.
[5]呂行,關(guān)思宇,猶憶,等.期望壽命與嬰兒死亡率的預(yù)測.現(xiàn)代預(yù)防醫(yī)學(xué),2011,38(21):4389-4390.
[6]鄭名烺,陳輝.麻城市自殺死亡水平時(shí)間序列模型分析及預(yù)測研究.中國衛(wèi)生統(tǒng)計(jì),2012,29(3):395-396.
[7]陳正利,陳偉,許汴利.應(yīng)用ARIMA模型對(duì)河南省1991-2011年乙型肝炎發(fā)病趨勢分析.中國衛(wèi)生統(tǒng)計(jì),2013,30(3):401-403.
[8]朱奕奕,趙琦,徐飚,等.ARIMA乘積季節(jié)模型在上海市甲肝發(fā)病預(yù)測中的應(yīng)用.復(fù)旦學(xué)報(bào)醫(yī)學(xué)版,2012,39(5):460-464.
[9]申銅倩,劉文東,胡建利,等.x-11-ARIMA過程在痢疾疫情預(yù)測中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計(jì),2014,31(3):395-398.
[10]安淑一,趙卓,郭軍巧,等.應(yīng)用時(shí)間序列模型預(yù)測遼寧省麻疹疫情.中國衛(wèi)生統(tǒng)計(jì),2014,31(5):781-783.
(責(zé)任編輯:劉 壯)
1.廈門市疾病預(yù)防控制中心(361021)
2.福建醫(yī)科大學(xué)預(yù)防醫(yī)學(xué)專業(yè)教學(xué)基地
3.廈門大學(xué)公衛(wèi)學(xué)院預(yù)防醫(yī)學(xué)教學(xué)基地
△通信作者:陳國偉,E-mail:strlchen@163.com