劉雙,柳曉琳
(1.錦州醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,遼寧 錦州 121000;2.遼寧省朝陽(yáng)市第二醫(yī)院,遼寧 朝陽(yáng) 122000)
丙型病毒性肝炎(簡(jiǎn)稱(chēng)丙肝),是由丙型病毒性肝炎病毒引起的一種傳染性疾病,血液途徑、性途徑、母嬰途徑為其擴(kuò)散的主要方式[1]。世界衛(wèi)生組織在2017年的報(bào)告中估計(jì),全球丙肝感染率為1.0%,約有7100萬(wàn)人為慢性丙肝感染病例,而中國(guó)2006年丙肝血清流行病學(xué)調(diào)查結(jié)果顯示,丙肝感染率0.43%,由此推算,中國(guó)丙肝感染者約為560萬(wàn)。目前人群中尚沒(méi)有有效預(yù)防接種的生物制品進(jìn)行注射,丙肝的防治已成為嚴(yán)重的公共衛(wèi)生問(wèn)題[2]?;诮y(tǒng)計(jì)分析和數(shù)學(xué)模型等方法對(duì)丙肝疫情發(fā)展規(guī)律進(jìn)行預(yù)測(cè),是丙肝疫情的控制、預(yù)防以及衛(wèi)生決策過(guò)程中不可或缺的科學(xué)依據(jù)。ARIMA模型是最基本應(yīng)用最廣泛的模型之一[3],它用相應(yīng)的數(shù)學(xué)模型描述一組依賴(lài)于時(shí)間的隨機(jī)變量相互之間所具有的自相關(guān)性,以表征預(yù)測(cè)對(duì)象發(fā)展的延續(xù)性并從時(shí)序的過(guò)去值與現(xiàn)在值預(yù)測(cè)其未來(lái)值[4]。
本研究運(yùn)用ARIMA模型對(duì)朝陽(yáng)市2009年1月至2020年12月丙肝月發(fā)病數(shù)進(jìn)行時(shí)間序列發(fā)展趨勢(shì)的研究,預(yù)測(cè)2021年朝陽(yáng)市丙肝發(fā)病數(shù),旨在為今后衛(wèi)生行政部門(mén)傳染病防治和衛(wèi)生應(yīng)急工作部署提供參考依據(jù)。
根據(jù)“中國(guó)疾病預(yù)防控制信息系統(tǒng)”中的“傳染病報(bào)告信息管理系統(tǒng)”,于2009年1月至2020年12月期間,收集朝陽(yáng)市丙肝月發(fā)病數(shù)據(jù)??紤]到人口基數(shù)較大,最終本次研究以疾病的發(fā)病數(shù)代替了發(fā)病率進(jìn)行分析預(yù)測(cè)。
1.2.1 ARIMA建模步驟
應(yīng)用SPSS 26.0軟件中ARIMA模型進(jìn)行數(shù)據(jù)處理與分析。ARIMA模型建模過(guò)程包括4個(gè)階段:(1)數(shù)據(jù)平穩(wěn)化處理:將2009年1月1日至2020年12月31日,丙肝月發(fā)病數(shù)的數(shù)據(jù)分為兩部分:2009年1月1日至2019年12月31日,丙肝月發(fā)病數(shù)作為訓(xùn)練集構(gòu)建時(shí)間序列模型,2018年1月1日至2018年12月31日,2020年1月1日至2020年12月31日,丙肝月發(fā)病數(shù)的數(shù)據(jù)作為驗(yàn)證集評(píng)價(jià)模型預(yù)測(cè)效能,繪制丙肝月發(fā)病數(shù)時(shí)序圖判斷序列的特征及平穩(wěn)性,對(duì)非平穩(wěn)的原始序列采用差分的方法以達(dá)到序列平穩(wěn)化,采用單位根(ADF)檢驗(yàn)驗(yàn)證序列平穩(wěn)性;(2)模型的識(shí)別和定階:根據(jù)平穩(wěn)序列自相關(guān)系數(shù)圖(ACF)、偏自相關(guān)系數(shù)圖(PACF)進(jìn)行初步識(shí)別和定階,估計(jì)p、q、P、Q取值,在ARIMA模型中,P和Q的取值一般在0、1、2中選擇[5],通過(guò)不同的取值構(gòu)建多個(gè)模型;(3)模型參數(shù)估計(jì)和模型診斷:采用非線性最小二乘法對(duì)模型的參數(shù)進(jìn)行估計(jì),對(duì)參數(shù)進(jìn)行t檢驗(yàn),殘差序列進(jìn)行白噪聲Ljung-Box檢驗(yàn),根據(jù)貝葉斯信息準(zhǔn)則(BIC)最小為標(biāo)準(zhǔn)綜合判定最優(yōu)模型;(4)模型預(yù)測(cè)效果評(píng)價(jià):采用平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)[7-8]評(píng)價(jià)預(yù)測(cè)模型。平均絕對(duì)百分比誤差主要用來(lái)反映真實(shí)值與預(yù)測(cè)值之間差異的大小,計(jì)算公式:∑[|實(shí)際值-預(yù)測(cè)值|×100 /實(shí)際值] /樣本量。均方根誤差通常用于比較真實(shí)值與預(yù)測(cè)值之間的誤差,真實(shí)值和預(yù)測(cè)值之間的誤差越大,均方根誤差越大,計(jì)算方法:預(yù)測(cè)值與真實(shí)值差值的平方和與樣本量的比值的平方根。
采用Excel 2007及SPSS 26.0軟件對(duì)2009年1月至2020年12月的朝陽(yáng)市丙肝月報(bào)告發(fā)病數(shù)進(jìn)行錄入及整理,建立ARIMA時(shí)間序列模型預(yù)測(cè)2021年1月至2021年12月朝陽(yáng)市丙肝發(fā)病趨勢(shì)。
構(gòu)建朝陽(yáng)市2009年1月至2019年12月丙肝月發(fā)病數(shù)原始時(shí)間序列圖并進(jìn)行趨勢(shì)分解,見(jiàn)表1、圖1,顯示該序列為非平穩(wěn)時(shí)間序列,丙肝歷年發(fā)病數(shù)呈現(xiàn)明顯的上升趨勢(shì)(χ2=187.780,P<0.001)并具有明顯季節(jié)性效應(yīng),在2018年發(fā)病數(shù)達(dá)到峰值,之后稍作回落,每年的發(fā)病數(shù)在3月達(dá)到高峰。
對(duì)數(shù)據(jù)進(jìn)行一階差分以及一階季節(jié)性差分,使序列基本平穩(wěn)化,長(zhǎng)期趨勢(shì)及季節(jié)波動(dòng)基本消除,見(jiàn)圖2,采用單位根(ADF)平穩(wěn)性檢驗(yàn)P<0.001,證明序列處于平穩(wěn)狀態(tài)。
2.2 模型識(shí)別和定階
根據(jù)原始時(shí)間序列特征分析,原始數(shù)據(jù)是以S=12為周期的季節(jié)性時(shí)間序列,經(jīng)過(guò)一階差分以及一階季節(jié)性差分后,序列平穩(wěn)化,可初步確定模型的參數(shù)d=D=1,因此初步確定模型的基本形式為:ARIMA(p,1,q)(P,1,Q)12,繪制數(shù)據(jù)預(yù)處理后平穩(wěn)序列的ACF圖和PACF圖,時(shí)間序列的自相關(guān)系數(shù)在1階之后趨于平穩(wěn),偏自相關(guān)系數(shù)在2階之后趨于平穩(wěn),見(jiàn)圖3~4。初步判定p=1和q=2。根據(jù)相關(guān)經(jīng)驗(yàn),p(P)與q(Q)取值超過(guò)2階的情況很少,所以P、Q取為0,1,2進(jìn)行篩選??紤]模型的擬合效果、最小信息準(zhǔn)則和殘差序列等有關(guān)指標(biāo)綜合進(jìn)行評(píng)價(jià)。
表1 2009—2020年朝陽(yáng)市丙肝月發(fā)病數(shù)
圖1 2009—2019年朝陽(yáng)市丙肝月發(fā)病數(shù)原始時(shí)序圖
圖2 2009—2019年朝陽(yáng)市丙肝原始時(shí)間序列一階差分及一階季節(jié)性差分后平穩(wěn)時(shí)序圖
圖3 丙肝月發(fā)病數(shù)預(yù)處理后的時(shí)間序列自相關(guān)圖
利用SPSS 26.0軟件建立丙肝預(yù)測(cè)備選模型,通過(guò)白噪聲Ljung-Box檢驗(yàn)和模型系數(shù)的t檢驗(yàn)要求,剔除不滿足要求的模型,得到四個(gè)備選模型信息,見(jiàn)表2。根據(jù)BIC值最小原則選擇最優(yōu)模型,其中BIC最小模型為ARIMA(1,1,2)(1,1,2)12,并通過(guò)白噪聲檢驗(yàn),P>0.05,可認(rèn)為各個(gè)時(shí)滯的殘差之間無(wú)相關(guān)性,殘差序列為白噪聲序列。對(duì)確定的最優(yōu)模型的參數(shù)進(jìn)行t檢驗(yàn),P<0.05,模型參數(shù)檢驗(yàn)具有統(tǒng)計(jì)學(xué)意義;模型的擬合優(yōu)度值平穩(wěn)R2=0.656,認(rèn)為模型擬合良好,BIC=7.350,結(jié)果最小,認(rèn)為模型較優(yōu),見(jiàn)表3。
表2 丙肝備選模型信息表
表3 模型參數(shù)估計(jì)與檢驗(yàn)結(jié)果情況
運(yùn)用篩選出的最優(yōu)模型ARIMA(1,1,2)(1,1,2)12對(duì)朝陽(yáng)市2020年的數(shù)據(jù)進(jìn)行擬合預(yù)測(cè),采用MAPE及RMSE評(píng)價(jià)模型預(yù)測(cè)效能,根據(jù)預(yù)測(cè)值及真實(shí)值得MAPE=9.41%,RMSE=15.17,見(jiàn)表4、圖5。再次運(yùn)用2009年1月至2017年12月丙肝月發(fā)病數(shù)據(jù)對(duì)2018年丙肝的月發(fā)病數(shù)進(jìn)行擬合預(yù)測(cè),由真實(shí)值及預(yù)測(cè)值得MAPE=6.40%,RMSE=15.92,見(jiàn)表5、圖5。運(yùn)用朝陽(yáng)市丙肝月發(fā)病數(shù)兩次對(duì)最優(yōu)模型的預(yù)測(cè)效果進(jìn)行評(píng)價(jià),MAPE<10%,RMSE<20,認(rèn)為模型的精度較高,預(yù)測(cè)效果良好。
運(yùn)用模型ARIMA(1,1,2)(1,1,2)12對(duì)2021年12個(gè)月的數(shù)據(jù)進(jìn)行擬合預(yù)測(cè),結(jié)果顯示2021年朝陽(yáng)市丙肝整體的發(fā)病數(shù)有所上升,合計(jì)發(fā)病1885例,較2020年丙肝發(fā)病數(shù)1775例上升了6.20%,預(yù)計(jì)在未來(lái)3月為丙肝的高發(fā)月,見(jiàn)表6。
圖5 2009—2020年朝陽(yáng)市丙肝月發(fā)病數(shù)模型擬合結(jié)果
表4 2020年朝陽(yáng)市丙肝月發(fā)病數(shù)預(yù)測(cè)值與真實(shí)值比較
表5 2018年朝陽(yáng)市丙肝月發(fā)病數(shù)預(yù)測(cè)值與真實(shí)值比較
表6 2021年朝陽(yáng)市丙肝月發(fā)病數(shù)預(yù)測(cè)值
ARIMA模型近年來(lái)被廣泛應(yīng)用于傳染病的短期預(yù)測(cè)[9],它不僅綜合考慮了疾病可能存在的長(zhǎng)期趨勢(shì)、季節(jié)效應(yīng)、周期性及隨機(jī)波動(dòng),而且對(duì)模型的參數(shù)采用量化的方式進(jìn)行檢驗(yàn)并評(píng)價(jià)模型優(yōu)劣,具有建模過(guò)程簡(jiǎn)單、經(jīng)濟(jì)、實(shí)用,短期預(yù)測(cè)精度高等特點(diǎn)[8]。丙型肝炎病毒多損害患者肝臟,因具有較強(qiáng)的傳染性、較廣的涉及范圍、較高的發(fā)病率和較為復(fù)雜的傳播方式,是我國(guó)常見(jiàn)的一種對(duì)人群威脅較大的血源及性傳播傳染病[9]。2019年新型冠狀病毒肺炎疫情席卷全球,仍是當(dāng)前和未來(lái)一段時(shí)間最為嚴(yán)重的“國(guó)際關(guān)注的公共衛(wèi)生事件”和“重大危機(jī)”,故本文分別對(duì)2018年、2020年月發(fā)病數(shù)進(jìn)行了回代性預(yù)測(cè),得到丙肝最優(yōu)模型ARIMA(1,1,2)(1,1,2)12,平均絕對(duì)百分比誤差均小于10%,均方根誤差均小于20[10],顯示ARIMA模型預(yù)測(cè)朝陽(yáng)市丙型肝炎未來(lái)的走勢(shì)及發(fā)病數(shù),預(yù)測(cè)精度高,效果好。運(yùn)用構(gòu)建的最優(yōu)模型對(duì)2021年12個(gè)月丙肝發(fā)病數(shù)進(jìn)行預(yù)測(cè),若2021年朝陽(yáng)市疫情的發(fā)病情況屬于正常范疇,則實(shí)際發(fā)病數(shù)應(yīng)落在預(yù)測(cè)值95%置信區(qū)間內(nèi);若2021年朝陽(yáng)市疫情的發(fā)病情況呈現(xiàn)暴發(fā)或流行趨勢(shì),則實(shí)際發(fā)病數(shù)處于預(yù)測(cè)值95%置信區(qū)間外,建議疾控機(jī)構(gòu)及衛(wèi)生管理部門(mén)快速響應(yīng),控制疫情蔓延。研究結(jié)果顯示朝陽(yáng)市2021年丙肝發(fā)病數(shù)呈上升趨勢(shì),延續(xù)了2009—2020年丙肝的發(fā)病走勢(shì),這與荊州市[11]、包頭市[12]流行趨勢(shì)相同,與各級(jí)醫(yī)療機(jī)構(gòu)實(shí)驗(yàn)室檢測(cè)技術(shù)的提高、疾病篩查敏感性的增強(qiáng)、各級(jí)疾控機(jī)構(gòu)對(duì)傳染病直報(bào)工作的督導(dǎo)有關(guān)。在未來(lái)3月發(fā)病數(shù)有所上升,考慮與2月是中國(guó)農(nóng)歷新年,就醫(yī)量明顯下降,3月新年過(guò)后,大量患者醫(yī)院就醫(yī)而導(dǎo)致病例增多。提示衛(wèi)生管理部門(mén)應(yīng)在3月加強(qiáng)對(duì)丙肝的防治及管理工作,做好宣傳,提高大眾防病、控病意識(shí)。
運(yùn)用ARIMA模型進(jìn)行丙肝預(yù)測(cè)應(yīng)保證充足、完整的基礎(chǔ)數(shù)據(jù),一般要求具有30個(gè)以上的時(shí)間序列數(shù)據(jù),7~8個(gè)以上的季節(jié)周期月發(fā)病率序列值。本研究數(shù)據(jù)包含了12年共144個(gè)月的發(fā)病數(shù),滿足ARIMA建模對(duì)數(shù)據(jù)的要求,這從一定程度上降低了ARIMA模型本身的局限性。因僅應(yīng)用了“傳染病報(bào)告信息管理系統(tǒng)”上報(bào)的監(jiān)測(cè)數(shù)據(jù)而丙肝的流行狀況往往受到經(jīng)濟(jì)水平、社會(huì)環(huán)境、政治因素、人口流動(dòng)和生活方式等多種因素的影響[13]。當(dāng)影響丙肝流行的因素發(fā)生重大變化時(shí),如疫苗的普及,衛(wèi)生條件的改善等,將導(dǎo)致預(yù)測(cè)值和實(shí)際值之間明顯不符,故ARIMA只適合短期預(yù)測(cè),不適合長(zhǎng)期預(yù)測(cè)。需在實(shí)際應(yīng)用中,不斷加入新數(shù)據(jù),對(duì)模型反復(fù)的識(shí)別及診斷,確定最優(yōu)模型,今后可多維度分析丙肝發(fā)病趨勢(shì),提高預(yù)測(cè)的準(zhǔn)確性,擬合出精度較高的模型[14]。
綜上所述,ARIMA模型對(duì)朝陽(yáng)市丙肝未來(lái)的流行趨勢(shì)預(yù)測(cè)效果較好,這對(duì)了解朝陽(yáng)市丙肝的流行病學(xué)特征、流行趨勢(shì)、未來(lái)防治重點(diǎn)及制定相應(yīng)的預(yù)防控制措施,防止丙肝的暴發(fā)及流行具有重要的公共衛(wèi)生意義,可為丙肝的防治提供科學(xué)參考。