李鳳英
摘要:以湖北省2020/1/22-2020/3/24新型冠狀病毒肺炎確診數(shù)據(jù)為樣本,利用 R語言構(gòu)建求和自回歸移動(dòng)平均預(yù)測模型ARIMA(1,1,1),以1/22日-3/17日為訓(xùn)練數(shù)據(jù), 3/18-3/24日為預(yù)測數(shù)據(jù)。運(yùn)行模型發(fā)現(xiàn),預(yù)測數(shù)據(jù)與真實(shí)數(shù)據(jù)擬合度高,檢驗(yàn)效果顯著。初期確診病例數(shù)迅速上升,2月15日左右趨于穩(wěn)定進(jìn)入平穩(wěn)緩慢期。將預(yù)測模型用于北京市,擬合效果良好,效果同樣顯著。充分說明ARIMA(1,1,1)模型穩(wěn)健性良好,可用于新冠肺炎預(yù)測。
Abstract: Taking the confirmed data of COVID-19 in Hubei Province from 2020/1/22-2020/3/24 as samples, the summed autoregressive moving average prediction model ARIMA (1,1,1) was constructed by R language, 1/22 -3/17 Day is training data, 3/18-3/24 is prediction data. Running the model found that the prediction data and the real data have a high degree of fit, and the test effect is significant. 2/15 is about to stabilize and enter a stable and slow period. The model is used to predict the number of diagnosed people in Beijing. The fitting effect is good and the effect is also significant. It fully shows that the ARIMA (1,1,1) model has good robustness and can be used for COVID-19 prediction.
關(guān)鍵詞:新冠肺炎;求和自回歸移動(dòng)平均模型;預(yù)測
Key words: COVID-19;ARIMA(1,1,1);forecast
中圖分類號(hào):O212.96 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1006-4311(2020)25-0229-03
0 ?引言
新型冠狀病毒肺炎(COVID-19,以下簡稱“新冠肺炎”)是一種急性感染性肺炎,患者癥狀主要包括發(fā)熱、干咳和乏力,逐漸出現(xiàn)呼吸困難等癥狀。自2019年12月新冠肺炎在湖北省武漢市發(fā)現(xiàn)以來,截至2020年4月22日,全球新冠肺炎確診病例超過243萬,其中美國累計(jì)確診病例數(shù)已超過82萬,死亡病例超過45000例,絕大多數(shù)國家疫情仍然在持續(xù)增長,遠(yuǎn)沒達(dá)到峰值.湖北省尤其武漢市作為新冠肺炎疫情重災(zāi)區(qū),實(shí)施有效的控制與治療措施后,取得了巨大成功,為世界應(yīng)對(duì)新冠肺炎疫情提供了方向,意義非凡.因此構(gòu)建模型對(duì)湖北省的累計(jì)確診數(shù)據(jù)進(jìn)行研究分析,不僅對(duì)我國未來的疫情防控預(yù)測提供參考價(jià)值,也可對(duì)當(dāng)前世界新冠肺炎的防控提供決策依據(jù)[1]。
1 ?理論基礎(chǔ)
求和自回歸移動(dòng)平均模型(ARIMA, Autoregressive Integrated Moving Average model)模型被廣泛用于各方面的流感預(yù)測[2-3],如具有如下結(jié)構(gòu)的模型為求和自回歸移動(dòng)平均模型,簡記為ARIMA(p,d,q)模型[4-5]:
2 ?實(shí)證分析
2.1 數(shù)據(jù)來源
數(shù)據(jù)來源于湖北省和北京市衛(wèi)生健康委員會(huì),以1月22日-3月24日湖北省、北京市新冠肺炎確診病例數(shù)據(jù)為樣本,分為預(yù)測數(shù)據(jù)和訓(xùn)練數(shù)據(jù),1月22日-3月17日56天數(shù)據(jù)為訓(xùn)練數(shù)據(jù),3月18日-3月24日7天數(shù)據(jù)為預(yù)測數(shù)據(jù)。
2.2 訓(xùn)練數(shù)據(jù)處理與分析
以ARIMA理論為基礎(chǔ),利用R語言(R-Studio7.2環(huán)境,R版本3.6.3)語言編程,訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)分析如下:
2.2.1 平穩(wěn)性檢驗(yàn)
湖北省與北京市1月22日-3月17日56天新冠肺炎確診病例的時(shí)序圖如圖1所示,兩地區(qū)確診人數(shù)趨勢一致,數(shù)據(jù)有明顯的直線上升趨勢,可以看出是不平穩(wěn)的。
對(duì)數(shù)據(jù)進(jìn)行一階差分,差分之后的55個(gè)數(shù)據(jù)如圖2所示,可以看出數(shù)據(jù)趨勢是平穩(wěn)的。
2.2.2 一階差分后的數(shù)據(jù)隨機(jī)性檢驗(yàn)
利用博克斯-皮爾斯(Box-Pierce)隨機(jī)性檢驗(yàn),結(jié)果如表1所示, p-value均小于0.05,數(shù)據(jù)為非純隨機(jī)性序列。
2.2.3 一階差分后的數(shù)據(jù)自相關(guān)性檢驗(yàn)
自相關(guān)性是指隨機(jī)誤差項(xiàng)的各期望值之間存在著相關(guān)關(guān)系,通過模型得到湖北省與北京市自相關(guān)圖(圖3和圖4),湖北省自相關(guān)圖具有一階截尾性,北京市自相關(guān)圖具有明顯的拖尾性。
2.2.4 一階差分后的數(shù)據(jù)偏自相關(guān)性檢驗(yàn)
偏自相關(guān)分析也稱凈相關(guān)分析,它在控制其他變量的線性影響的條件下分析兩變量間的線性相關(guān)性,當(dāng)兩個(gè)變量同時(shí)與第三個(gè)變量相關(guān)時(shí),將第三個(gè)變量的影響剔除,只分析另外兩個(gè)變量之間相關(guān)程度的過程。通過模型得到到湖北省與北京市偏自相關(guān)圖(圖5和圖6),湖北省偏自相關(guān)圖表現(xiàn)出明顯的截尾性, 北京市偏自相關(guān)圖表現(xiàn)出拖尾性。