盧普慶
摘要:目的:分析ARIMA模型和指數(shù)平滑法對我國新型冠狀肺炎(COVID-19)疫情變化趨勢的預(yù)測效能。方法:選取我國2020年1月10日-2020年4月20日新冠肺炎累計確診病例數(shù)作為ARIMA模型和指數(shù)平滑法的建模部分,2020年4月21日-2020年4月30日數(shù)據(jù)作為模型驗證部分,比較兩種模型的擬合情況和預(yù)測效果優(yōu)劣。結(jié)果:ARIMA(2,2,1)模型的均方誤差根(RMSE)為301.9043,相對誤差百分比(REP)為3.1743,指數(shù)平滑模型的RMSE為200.9823,REP為2.1306。結(jié)論:指數(shù)平滑模型擬合效果較好,預(yù)測精度更高,可應(yīng)用于我國COVID-19累計確診病例數(shù)的預(yù)測。
Abstract: Objective: To analyze the predictive power of the ARIMA model and exponential smoothing method for the trend of COVID-19 in China. Methods: The cumulative number of newly diagnosed cases of new coronary pneumonia in China from January 10, 2020 to April 20, 2020 was selected as the modeling part of the ARIMA model and exponential smoothing method, and the data from April 21, 2020 to April 30, 2020 was used as the model In the verification part, compare the fitting situation of the two models and the pros and cons of the prediction effect. Results: The root mean square error (RMSE) of the ARIMA (2,2,1) model was 301.9043, the relative error percentage (REP) was 3.1743, the RMSE of the exponential smoothing model was 200.9823, and the REP was 2.1306. Conclusion: The exponential smoothing model has a better fitting effect and higher prediction accuracy, and can be used to predict the cumulative number of confirmed cases of COVID-19 in China.
關(guān)鍵詞:新型冠狀肺炎;ARIMA模型;指數(shù)平滑法;預(yù)測
Key words: COVID-19;ARIMA model;exponential smoothing method;prediction
中圖分類號:N32? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)23-0164-04
0? 引言
自2019年12月底在湖北省武漢市發(fā)現(xiàn)新型冠狀病毒肺炎病例以來,新冠肺炎迅速在全球流行。2020年1月12日世界衛(wèi)生組織(WHO)將該病毒命名為2019-nCoV[1], 2月11日世界衛(wèi)生組織(WHO)將該病毒引起的疾病正式命名為COVID-19(Corona virus disease 2019)[2],3月11日,世界衛(wèi)生組織正式宣布此次疫情為世界大流行,防控工作已成為全球公共衛(wèi)生共同關(guān)注的問題。截止5月1日24時,COVID-19已影響到全球212個國家和地區(qū),累計確診病例逾300萬,累計死亡已超過23萬。絕大多數(shù)國家目前疫情仍在持續(xù)增長階段,沒有達(dá)到有效控制。而我國疫情在精準(zhǔn)施策,科學(xué)防控等一系列措施下,取得了階段性勝利,目前以境外輸入性病例為主。疫情防控的成功與對病毒傳播趨勢的了解密不可分。因此,構(gòu)建新冠肺炎疫情變化趨勢的有效預(yù)測模型,對新冠肺炎疫情的防控具有重要的現(xiàn)實意義。
1? 文獻(xiàn)綜述
目前,針對新冠肺炎防控的相關(guān)研究,主要可以分為三個方面:一是基于參數(shù)和建模的研究:尹楠(2020)[3]應(yīng)用標(biāo)準(zhǔn)流行病學(xué)SIR倉室模型,對此次新冠肺炎疫情中的幾種感染情況做了仿真研究,并根據(jù)研究結(jié)果提出了一些控制疫情蔓延的措施和方法。Yang Zi-feng(2020)[4]結(jié)合經(jīng)典SIR倉室模型和SEIR倉室模型,以多重擬合確定模型參數(shù),對疫情趨勢做了預(yù)測研究,在參數(shù)估計方面更接近實際。顏銘江等(2020)[5]改進(jìn)了傳統(tǒng)SEIR模型中僅考慮確診病例存在傳染性而潛伏期病例無傳染性這一缺陷,提出了新模型(ISEIR),應(yīng)用ISEIR模型預(yù)測了今后疫情的進(jìn)一步發(fā)展趨勢。二是基于疫情防控措施效果評估的研究:陳端兵等(2020)[6]以有效再生數(shù)作為評價防控措施的核心指標(biāo),計算并反推了患者癥狀的出現(xiàn)時間,發(fā)現(xiàn)切斷本地傳播源、實施交通管制等舉措有顯著成效。MOORE(2020)[7]基于目標(biāo)函數(shù)法,研究了自我防控、初期診斷治療和末期診斷治療三種防控措施分別實施和組合實施下的疫情傳播速度,結(jié)果指出三種防控措施組合效果更好。三是基于臨床醫(yī)學(xué)和藥理學(xué)的研究:楊小林、袁永亮等(2020)[8]采用ETCM、中藥系統(tǒng)藥理學(xué)分析平臺(TCMSP),分析得到升降復(fù)方靶蛋白基因,結(jié)果表明升降散對新冠肺炎具有潛在抑制作用。
上述研究為新冠肺炎的防控提拱了寶貴意見,也為本文提供了啟發(fā)。基于統(tǒng)計學(xué)視角,將我國新冠肺炎累計確診病例隨時間變化而變化的數(shù)據(jù)看成一組時間序列。采用ARIMA模型和指數(shù)平滑法對數(shù)據(jù)進(jìn)行分析,建立ARIMA模型和指數(shù)平滑模型,并通過實證研究來評價兩種模型的預(yù)測效能,從而確定最優(yōu)預(yù)測模型,為將來我國新冠肺炎疫情防控工作提供參考依據(jù),也為其他新冠肺炎疫情研究提供借鑒。
2? 資料與方法
2.1 數(shù)據(jù)來源及假設(shè)
2020年1月10日-2020年4月30日我國COVID-19累計確診病例數(shù)來源于國家衛(wèi)生健康委員會疫情通報。這里做個基本假定:國家衛(wèi)建委于2020年1月21日通報全國新冠肺炎疫情情況,1月10日-1月20日無全國累計確診病例數(shù),由于疫情重災(zāi)區(qū)位于湖北省武漢市,故假定武漢市1月10日-1月20日累計確診病例數(shù)為全國累計確診病例數(shù)。
2.2 研究方法
2.2.1 ARIMA模型全稱為自回歸移動平均模型,由美國George Box和英國Gwilym Jenkins于20世紀(jì)70年代初共同建立。ARIMA模型定義為[9]:
2.2.2 指數(shù)平滑法是由(Robert G. Brown)提出的一種基于移動平均法,改進(jìn)而來的時間序列分析方法。指數(shù)平滑法在流行性傳染病發(fā)病率預(yù)測中的應(yīng)用已十分廣泛,如流感樣病例等[10]。指數(shù)平滑法彌補(bǔ)了移動平均法的不足,充分利用了所有數(shù)據(jù)信息,又體現(xiàn)出近期數(shù)據(jù)對未來影響作用更大的特點。根據(jù)時間序列是否具有季節(jié)性,可分為季節(jié)性模型(季節(jié)指數(shù)平滑法、Holt-Winter加法指數(shù)平滑法、Holt-Winter乘法指數(shù)平滑法)和非季節(jié)性模型(一次指數(shù)平滑法、二次指數(shù)平滑法)[11],其中一次指數(shù)平滑法主要應(yīng)用于沒有趨勢的季節(jié)性的序列,二次指數(shù)平滑法主要應(yīng)用于有趨勢但沒有季節(jié)性的序列。根據(jù)我國新冠肺炎累計確診病例數(shù)據(jù)的變化趨勢,本文選擇二次指數(shù)平滑模型,其公式為:
2.2.3 分析方法 本研究采用SPSS 23.0,將1月10日-4月20日我國新冠肺炎累計確診病例數(shù)作為建模部分, 4月21日-4月30日數(shù)據(jù)作為模型驗證部分。選取二次指數(shù)平滑模型中的簡單線性趨勢模型、Holt線性趨勢模型、Brown線性趨勢模型依次擬合三種模型,依據(jù)確定系數(shù)R2最大、均方誤差平方根(RMSE)、平均絕對誤差百分比(MAPE)和平均絕對誤差(MAE)最小確定最優(yōu)模型[12]。
3? 結(jié)果
3.1 我國COVID-19累計確診病例數(shù)分布特征
對我國1月10日-4月30日新冠肺炎累計確診病例數(shù)進(jìn)行分析,觀察累計確診病例數(shù)時間序列圖,可見累計確診病例數(shù)總體呈明顯上升趨勢,且無明顯季節(jié)性和周期性。
3.2 ARIMA模型建立
3.2.1 平穩(wěn)性檢驗
對原始序列做單位根檢驗,根據(jù)結(jié)果可知,原始序列非平穩(wěn),對其一次差分后做單位根檢驗,P>0.001,進(jìn)而二次差分,顯示序列平穩(wěn)。
3.2.2 ARIMA模型識別
觀察二次差分后序列的自相關(guān)函數(shù)圖(AC)和偏自相關(guān)函數(shù)圖(PAC)可知,AC和PAC圖存在明顯拖尾性,且AC圖一階截尾,故q=1,由PAC圖可知,p取2或3。根據(jù)可決系數(shù)(R2)、調(diào)整的可決系數(shù)、赤池信息準(zhǔn)則(AIC)以及施瓦茲準(zhǔn)則(SC)可得,p取2。綜合上述分析可知,確定模型為ARIMA(2,2,1)。
3.2.3 ARIMA模型檢驗
根據(jù)ARIMA(2,2,1)模型做回歸,并對其殘差序列進(jìn)行白噪聲檢驗,由殘差序列的AC圖、PAC圖以及p值可知,殘差序列不存在自相關(guān),且滿足零均值,為白噪聲序列,故認(rèn)為其通過檢驗。
3.2.4 模型預(yù)測
利用ARIMA(2,2,1)模型對我國4月21日-4月30日新冠肺炎累計確診病例做預(yù)測,并于實際值進(jìn)行對比,結(jié)果如表1。
3.3 指數(shù)平滑法
3.3.1 構(gòu)建模型
根據(jù)我國COVID-19累計確診病例數(shù)時序圖,初步選擇指數(shù)平滑模型中的簡單模型、Holt線性趨勢模型和Brown線性趨勢模型,分別對我國1月10日-4月20日新冠肺炎累計確診病例數(shù)進(jìn)行擬合,模型擬合結(jié)果見表2。
根據(jù)表3可知,Brown線性趨勢模型的最大,且RMSE、MAPE、MAE以及正態(tài)化BIC值最小,因此,選擇Brown線性趨勢模型對COVID-19累計確診病例數(shù)進(jìn)行擬合,擬合情況見圖1。
3.3.2 指數(shù)平滑模型預(yù)測結(jié)果
運用指數(shù)平滑模型中的Brown趨勢模型對我國新冠肺炎累計確診病例數(shù)進(jìn)行預(yù)測,擬合預(yù)測曲線圖見圖2,預(yù)測結(jié)果見表3。
3.3.3 ARIMA模型和指數(shù)平滑模型比較
為了更好的對兩個模型的預(yù)測精度進(jìn)行對比分析,本文引入均方根誤差(RMSE)和相對誤差百分比(REP)兩種度量指標(biāo),相應(yīng)度量指標(biāo)定義如下:
根據(jù)表4可知,指數(shù)平滑模型的RMSE值和REP值均小于ARIMA模型,因此,指數(shù)平滑模型預(yù)測效果更好。
4? 討論
ARIMA模型和指數(shù)平滑模型均是通過探索歷史數(shù)據(jù)隨時間變化而變化的某種規(guī)律,并將這種規(guī)律進(jìn)行外延,來預(yù)測將來情況。兩種模型均適合于中短期預(yù)測。ARIMA模型比較全面的考慮了序列的長期趨勢、季節(jié)變動、循環(huán)變動以及不規(guī)則變動等情況,并結(jié)合模型參數(shù)對其進(jìn)行了量化,能較好的反映時間序列的變化和趨勢[13]。但ARIMA模型的建模過程相對復(fù)雜,模型參數(shù)的識別存在一定主觀性。指數(shù)平滑法則需要反復(fù)運算,以確定最優(yōu)平滑系數(shù),其基本思想是給近期數(shù)據(jù)賦予更大的權(quán)重,而遠(yuǎn)期數(shù)據(jù)賦予較小權(quán)重,適合于序列隨時間變化不大的數(shù)據(jù)。因此,兩種模型均有一定局限性,在不同條件下,應(yīng)結(jié)合具體情況而定。
本文采用ARIMA(2,2,1)模型和指數(shù)平滑模型對我國新冠肺炎累計確診病例數(shù)進(jìn)行了預(yù)測,研究結(jié)果表明,ARIMA(2,2,1)模型的均方誤差根(RMSE)為301.9043,相對誤差百分比(REP)為3.1743,指數(shù)平滑模型的RMSE為200.9823,REP為2.1306,均小于ARIMA(2,2,1)模型,且指數(shù)平滑模型預(yù)測結(jié)果與國家衛(wèi)健委疫情通報結(jié)果基本吻合。因此,指數(shù)平滑模型更適合于我國新冠肺炎累計確診病例的短期預(yù)測。
參考文獻(xiàn):
[1]武漢市衛(wèi)生健康委員會通報:1月13日無新增新型冠狀病毒感染的肺炎病例,中國發(fā)展網(wǎng),2020,1,15.http:www.chinadevelopment.com.cn/sh/2020/0115/1601245.shtml.
[2]世界衛(wèi)生組織給新冠病毒命名,新京報,2020,2,12.http//news.sina.com.cn/w/2020-02-12/doc-iimxxstf0768050.shtml.
[3]尹楠.基于SIR模型的有限區(qū)域內(nèi)新冠肺炎疫情傳播仿真模擬[J].統(tǒng)計與決策,2020(5).
[4]Yang Zi-feng, Zeng Zhi-qi, Wang Ke, et al. Modified SEIR and AI? ?prediction of the epidemics trend of COVID-19 in China under public Health interventions[J].Journal of Thoracic Disease,2020,doi:10.2103/jtd.2020.0264.
[5]顏銘江,董一鴻,賈香恩,鄭海陽,辛宇.新型冠狀病毒肺炎的疫情趨勢預(yù)測[J/OL].病毒學(xué)報:1-10[2020-4-30].http://kns.cnki.net/kcms/detail/11.1865.r.20200429.1658.004.html.
[6]陳端兵,白薇,王巖,王敏,俞伍平,周濤.新型冠狀病毒肺炎防控效果的定量評估[J/OL].電子科技大學(xué)學(xué)報:1-6[2020-3-31].http://kns.cnki.net/kcms/detail/51.1207.T.2020.330.1149.002.html.
[7]MOORE S E, OKYERE E. Controlling the Transmission Dynamics of COVID-19[J/OL].arXiv:2004.00443v2[q-bio.PE].[2020-04-02].http://arXiv.org/abs/2004.00443.
[8]楊小林,袁永亮,張杰,王如鋒,倪力強(qiáng).基于網(wǎng)絡(luò)藥理學(xué)和分子對接探尋升降散對抗新型冠狀病毒潛在作用機(jī)制研究[J/OL].中草藥,2020,51(7):1795-1803.
[9]Box G E P. Jenkins G M. Time Series Analysis: Forecasting and Control[M]. 4 th ed New Jersey: Hoboken,2011.
[10]孔德川,潘浩,鄭雅旭,等.指數(shù)平滑模型在上海猩紅熱發(fā)病率預(yù)測中的應(yīng)用[J].疾病檢測,2019,34(10):932-936.
[11]P. R. A Firmino, P S de Mattos Neto, Tiago T. E Ferreira. Correcting and Combining time series forecasters[J]. Neural Networks,2014,50:1-11.
[12]顧蓉艷,張玲,宋肖肖,等.基于季節(jié)性指數(shù)平滑法的學(xué)校因病缺課預(yù)測研究[J].中華疾病控制雜志,2019,23(7):845-855.
[13]王春平,王志峰,單杰,等.隨機(jī)時間序列分析方法在傳染病預(yù)測中的應(yīng)用[J].中國醫(yī)院統(tǒng)計,2006,13(3):229-232.