李曦 溫建 潘春柳 張江萍
(1.貴州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,貴州 貴陽(yáng) 550004;2.貴陽(yáng)市云巖區(qū)疾病病預(yù)防控制中心疾病預(yù)防控制科,貴州 貴陽(yáng) 550004;3.貴陽(yáng)市云巖區(qū)衛(wèi)生與計(jì)劃生育委員會(huì),貴州 貴陽(yáng) 550004)
?
·預(yù)防醫(yī)學(xué)·
基于ARIMA模型的貴陽(yáng)市云巖區(qū)手足口病預(yù)測(cè)分析
李曦1*溫建2潘春柳2張江萍3△
(1.貴州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,貴州 貴陽(yáng) 550004;2.貴陽(yáng)市云巖區(qū)疾病病預(yù)防控制中心疾病預(yù)防控制科,貴州 貴陽(yáng) 550004;3.貴陽(yáng)市云巖區(qū)衛(wèi)生與計(jì)劃生育委員會(huì),貴州 貴陽(yáng) 550004)
手足口病; ARIMA; 趨勢(shì)預(yù)測(cè)
手足口病(HFMD) 是嬰幼兒常見(jiàn)的急性傳染性疾病,多發(fā)生于5 歲以下的兒童,主要癥狀為手足口等多個(gè)部位出現(xiàn)皰疹,少數(shù)患者可發(fā)生嚴(yán)重的神經(jīng)系統(tǒng)并發(fā)癥如無(wú)菌性腦膜炎、脊髓炎等,甚至?xí)?dǎo)致患兒死亡[1]。該病主要由多種腸道病毒(EV) 引起,國(guó)內(nèi)最常見(jiàn)的病原體是腸道病毒71 型(EV71) 和柯薩奇病毒A 組16 型(CoxA16)。根據(jù)2008-2014 年貴陽(yáng)市云巖區(qū)手足口病的發(fā)病率,創(chuàng)建未來(lái)6年的發(fā)病預(yù)測(cè)數(shù)學(xué)模型,為制定手足口病的防控措施提供科學(xué)依據(jù)。
1.1 資料來(lái)源 研究數(shù)據(jù)來(lái)源于《中國(guó)疾病預(yù)防控制信息系統(tǒng)》中貴陽(yáng)市云巖區(qū)2008-2014年疫情監(jiān)測(cè)數(shù)據(jù)。
1.2 方法
1.2.1 ARIMA模型建模原理 將預(yù)測(cè)對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列,用一定的數(shù)學(xué)模型來(lái)近似描述這個(gè)序列。這個(gè)模型一旦被識(shí)別后就可以從時(shí)間序列的過(guò)去值及現(xiàn)在值來(lái)預(yù)測(cè)未來(lái)值。根據(jù)原始數(shù)據(jù)序列是否為平穩(wěn),模型可以分為:季節(jié)性ARIMA(p,d,q)(P,D,Q)S和非季節(jié)性ARIMA(p,d,q)[2],其中ARIMA(p,d,q)稱(chēng)為差分自回歸移動(dòng)平均模型,AR是自回歸, p為自回歸項(xiàng); MA為移動(dòng)平均,q為移動(dòng)平均項(xiàng)數(shù),d為時(shí)間序列成為平穩(wěn)時(shí)所做的差分次數(shù)。
1.2.2 建模的方法和步驟 ARIMA建模法分為三個(gè)階段:模型識(shí)別、參數(shù)估計(jì)和診斷檢驗(yàn)、預(yù)測(cè)[3]。模型識(shí)別階段:對(duì)貴陽(yáng)市云巖區(qū)2008-2014年的手足口病發(fā)病率進(jìn)行“日期定義”,繪制貴陽(yáng)市云巖區(qū)手足口病發(fā)病率原始和差分后的自相關(guān)系數(shù)圖(ACF)和偏相關(guān)系數(shù)圖(PACF),以ADF單位根檢驗(yàn)其方差、趨勢(shì)及其非季節(jié)性變化規(guī)律,對(duì)序列的平穩(wěn)性進(jìn)行識(shí)別。參數(shù)估計(jì)和診斷檢驗(yàn)階段:顯著性檢驗(yàn)可以確定是否需要模型中的一些項(xiàng),擬合優(yōu)度的統(tǒng)計(jì)量可以確定模型擬合的優(yōu)劣程度;運(yùn)用Akaike信息標(biāo)準(zhǔn)(AIC)和Schwartz Bayesian標(biāo)準(zhǔn)(BIC)作為模型選擇準(zhǔn)則,其中參數(shù)值小者為優(yōu)。預(yù)測(cè)階段:利用云巖區(qū)2008-2014年發(fā)病率創(chuàng)建的模型,預(yù)測(cè)貴陽(yáng)市云巖區(qū)2008-2020年手足口病發(fā)病率。
1.3 實(shí)現(xiàn)軟件 用EXCEL對(duì)原始數(shù)據(jù)進(jìn)行分類(lèi)整理,使用SPSS 19.0進(jìn)行ARIMA模型進(jìn)行創(chuàng)建,檢驗(yàn)水準(zhǔn)α=0.05。
2.1 創(chuàng)建平穩(wěn)序列 繪制2008-2014年的手足口病發(fā)病率時(shí)間序列圖(圖1)。由圖1可知云巖區(qū)2008-2014年的手足口病發(fā)病率為非平穩(wěn)序列,無(wú)明顯季節(jié)性,對(duì)原始時(shí)間序列進(jìn)行一階差分后近似平穩(wěn)序列。
2.2 模型識(shí)別 為使時(shí)間序列平穩(wěn),先將云巖區(qū)手足口病發(fā)病率進(jìn)行差分,差分后的自相關(guān)系數(shù)圖2(ACF)和偏相關(guān)系數(shù)圖3(PACF),該序列通過(guò)一階非季節(jié)性差分可以達(dá)到近似平穩(wěn)序列,此時(shí),可創(chuàng)建ARIMA模型。
2.3 參數(shù)估計(jì)和診斷檢驗(yàn) 由時(shí)間序一階列差分得到類(lèi)似平穩(wěn)序列,可得出d=1;由ACF圖(圖2),出現(xiàn)滯后現(xiàn)象Lag=1,q=1; 由PACF圖(圖3), 出現(xiàn)滯后現(xiàn)象Lag=1,p=1。因模型階數(shù)過(guò)高會(huì)造成過(guò)度擬合,故各階數(shù)均限定在2以?xún)?nèi),SPSS19.0報(bào)告得出的最終參數(shù):平穩(wěn)的決定系數(shù),同時(shí)應(yīng)用Akaike信息標(biāo)準(zhǔn)(AIC)和Schwartz Bayesian標(biāo)準(zhǔn)(BIC)作為模型選擇準(zhǔn)則。根據(jù)SPSS 19.0 報(bào)告的擬合優(yōu)度和統(tǒng)計(jì)量結(jié)果可見(jiàn),排除與預(yù)測(cè)結(jié)果差異太大的模型ARIMA(1,0,1)和ARIMA(0,1,1),兩個(gè)較好的備選模型中ARIMA(1,1,1),ARIMA(1,1,0)相比較,模型ARIMA(1,1,1)的AIC11.570、BIC11.462及殘差方差均小,而其參數(shù)的P<0.05,選定該模型建立方程。
對(duì)ARIMA(1,1,1)的殘差做自相關(guān)和偏自相關(guān)分析(圖4)殘差是隨機(jī)的白噪聲,殘差序列的box-ljung Q統(tǒng)計(jì)結(jié)果顯示統(tǒng)計(jì)量差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),對(duì)殘差序列進(jìn)行t 檢驗(yàn),差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。進(jìn)一步證實(shí)殘差是白噪聲序列,所選模型恰當(dāng)。
2.4 預(yù)測(cè)結(jié)果 根據(jù)已知的貴陽(yáng)市云巖區(qū)2008-2014年手足口病發(fā)病率(1/10萬(wàn)),運(yùn)用ARIMA(1,1,1)模型對(duì)貴陽(yáng)市云巖區(qū)2015-2020年手足口病發(fā)病率(1/10萬(wàn))進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果依次為121.1742、221.1876、148.1587、245.9970、175.0109、270.7259。擬合時(shí)序圖如下(圖7)。經(jīng)檢驗(yàn)預(yù)測(cè)結(jié)果擬合度較好,由圖5可見(jiàn),擬合時(shí)間序列動(dòng)態(tài)趨勢(shì)與真實(shí)時(shí)間序列動(dòng)態(tài)趨勢(shì)基本一致;擬合結(jié)果都在預(yù)測(cè)發(fā)病率的95%可信限(95%CI)。由ARIMA(1,1,1)模型參數(shù)結(jié)果可得出預(yù)測(cè)模型為:Dyt=yt-yt1;Dyt=-0.990Dyt-1+εt+εt-1。
隨著數(shù)學(xué)模型被運(yùn)用到交叉學(xué)科以來(lái),運(yùn)用數(shù)學(xué)模型進(jìn)行預(yù)測(cè),運(yùn)用數(shù)理統(tǒng)計(jì)來(lái)尋求事物規(guī)律思維的發(fā)展與完善,越來(lái)越多的數(shù)學(xué)理論、統(tǒng)計(jì)方法及預(yù)測(cè)模型被應(yīng)用于傳染病的預(yù)測(cè)。但是,我們并不能用單一因素分析傳染病的流行特征及規(guī)律,應(yīng)從傳染病的發(fā)病特征,發(fā)病人群,發(fā)病時(shí)間,發(fā)病因素等等水平來(lái)預(yù)測(cè)傳染病。ARIMA 預(yù)測(cè)模型是基于原始數(shù)據(jù)服從時(shí)間序列分布,利用任何事物發(fā)展均具有一定慣性趨勢(shì)的原理,建立時(shí)間序列模型,從而達(dá)到預(yù)測(cè)的目的[4]。ARIMA 預(yù)測(cè)模型既吸收了傳統(tǒng)回歸分析的優(yōu)點(diǎn)又發(fā)揮了移動(dòng)平均的長(zhǎng)處,具有適用范圍廣,實(shí)用性強(qiáng)、預(yù)測(cè)誤差小的特點(diǎn),是 一種預(yù)測(cè)精確度較高的短期預(yù)測(cè)方法[5]。
本研究對(duì)2008-2014年云巖區(qū)手足口病發(fā)病情況,運(yùn)用ARIMA(1,1,1)模型通過(guò)模型識(shí)別、參數(shù)估計(jì)和診斷檢驗(yàn)、預(yù)測(cè)三個(gè)階段完成數(shù)學(xué)建模。模型預(yù)測(cè)的結(jié)果均在95%CI內(nèi),預(yù)測(cè)結(jié)果顯示未來(lái)6年貴陽(yáng)市云巖區(qū)手足口病的發(fā)病不會(huì)持續(xù)下降,相反發(fā)病率會(huì)出現(xiàn)反復(fù)狀態(tài)。因此,這就需要相關(guān)部門(mén)提前預(yù)警,加大防控工作力度,防止手足口病出現(xiàn)大規(guī)模流行。
數(shù)據(jù)記錄的準(zhǔn)確性和全面性對(duì)數(shù)學(xué)模型的預(yù)測(cè)至關(guān)重要。因此 為提高模型預(yù)測(cè)的準(zhǔn)確度和精度,應(yīng)全面收集影響傳染病發(fā)生的相關(guān)因素,建立可以考慮到影響因素的預(yù)測(cè)模型[6]。在今后傳染病監(jiān)測(cè)和預(yù)防工作中,首先應(yīng)提高傳染病的報(bào)告準(zhǔn)確性和記錄全面性;其次要運(yùn)用預(yù)測(cè)模型結(jié)果,運(yùn)用不斷更新的數(shù)據(jù)多次擬合預(yù)測(cè)未來(lái)發(fā)病率,謹(jǐn)慎使用傳染病預(yù)測(cè)結(jié)果,提前引導(dǎo)社區(qū)居民,易感人群做好消毒和防護(hù)措施,為工作人員采取預(yù)防措施提供正確的參考依據(jù),以期最大化實(shí)現(xiàn)控制疾病的傳播。
[1] 張雅娟, 崔彩巖, 史劉輝. 2010-2013年西安市手足口病流行病學(xué)特征分析[J]. 現(xiàn)代預(yù)防醫(yī)學(xué), 2015,42(7):1235.
[2] 范引光, 呂金偉, 戴色鶯,等. ARIMA模型與灰色預(yù)測(cè)模型GM(1,1)在HIV感染人數(shù)預(yù)測(cè)中的應(yīng)用[J]. 中華疾病控制雜志, 2012, 16(12):1100-1103.
[3] 朱奕奕, 馮瑋, 趙琦,等. ARIMA乘積季節(jié)模型在上海市甲肝發(fā)病預(yù)測(cè)中的應(yīng)用[J]. 復(fù)旦學(xué)報(bào):醫(yī)學(xué)版, 2012, 39(5):460-464.
[4] 譚姣,雷靜 . ARIMA 模型在乙型病毒性肝炎發(fā)病率預(yù)測(cè)中的應(yīng)用[J]. 公共衛(wèi)生與預(yù)防醫(yī)學(xué),2013,24(4):8-10.
[5] 張澤武,盧展鵬,曾耀明,等. ARIMA 模型在東莞市細(xì)菌性痢 疾預(yù)測(cè)中的應(yīng)用[J]. 公共衛(wèi)生與預(yù)防醫(yī)學(xué),2013,24 (4) :43-45.
[6] 韓琴,蘇虹,王忱誠(chéng),等. ARIMA 模型與GRNN 模型對(duì)性病發(fā)病率的預(yù)測(cè)研究 [J]. 現(xiàn)代預(yù)防醫(yī)學(xué),2012,39 (6) : 1337-1340.
R181.8
B
1000-744X(2016)07-0775-02
2016-03-03)
*貴州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院2014級(jí)在讀碩士研究生
△通信作者,E-mail:jpzhang1972@163.com