劉忠典,黎燕寧
(廣西醫(yī)科大學公共衛(wèi)生學院統計學教研室,南寧 530021)
2019年12月,湖北省武漢市出現了新型冠狀病毒肺炎(COVID-19)疫情,疫情蔓延至今。COVID-19已納入乙類傳染病,并采用甲類傳染病的管理方法[1]。COVID-19 大流行是二戰(zhàn)以后最為嚴重的全球危機,影響了地球上所有國家[2]。研究COVID-19疫情的發(fā)展趨勢,并構建合理的預測模型,對科學有效防控COVID-19 的疫情具有重要意義。目前,國內外專家學者已對COVID-19建立相關的預測模型[3-6],如平滑指數模型、GM(1,1)模型、SEIR流行病動力學模型和改進的SEIR 與AI 相結合等。然而,流行病學模型需要確定參數,并依賴許多假設;人工智能算法需要大量數據,且具有高復雜性和不確定性[7]。為了克服這些局限性,本文嘗試使用ARIMA模型,該模型具有結構簡單、適用性強和數據解釋能力強等優(yōu)點[8],被廣泛應用于傳染病的短期預測[8-10]。現有的研究大多針對全球和湖北省疫情發(fā)展狀況,而基層公共衛(wèi)生建設和醫(yī)療救治能力薄弱的西部地區(qū)研究較少。一旦類似疫情暴發(fā),將面臨巨大挑戰(zhàn)。故本文選擇西部具有代表性的廣西壯族自治區(qū),分析其COVID-19 確診病例時空分布特征,構建ARIMA模型預測廣西疫情的發(fā)展趨勢,深入了解其流行病學特征,為今后類似的新發(fā)傳染病疫情暴發(fā)時,對其流行病學分布、發(fā)展趨勢及預警防控提供科學依據和借鑒意義。
1.1 數據來源
數據來源廣西壯族自治區(qū)衛(wèi)生健康委員會官網(http://wsjkw.gxzf.gov.cn/)公布數據,以2020-1-22廣西出現第一例COVID-19確診病例開始,收集1、2月份廣西COVID-19 確診病例,以1-22 至2-11 確診病例數據為樣本,樣本數的70%(即1-22 至2-4)為訓練數據,30%(即2-5至2-11)為驗證數據。地圖數據來源于全國地理信息資源目錄服務系統(https://www.webmap.cn/main.do?method=index)。
1.2 方法
1.2.1 時空特征分析 本文運用ArcGIS 10.5 軟件繪制廣西各市疫情地區(qū)分布圖,根據《廣西新冠肺炎疫情分區(qū)分級精準防控方案》將各市劃分為高(累計確診病例數超過50例)、中(有新增確診病例,但累計確診病例數未超50 例)、低(無確診病例,或者連續(xù)14 d內無新增確診病例)風險地區(qū),R語言繪制1、2 月時間趨勢圖,從時間和空間屬性分析廣西COVID-19疫情的流行特征。
1.2.2 自回歸求和移動平均模型(ARIMA)ARIMA模型是一種分析隨機時間序列并進行預測的方法。構建步驟包括:平穩(wěn)性檢驗,檢驗時間序列是否平穩(wěn),如不平穩(wěn),則可通過差分操作[11-12]將其轉變?yōu)槠椒€(wěn)時序,消除序列的趨勢性,并確定參數d的值;參數估計,使用自相關性(ACF)圖和偏自相關性(PACF)圖確定參數q和p值;擬合和評估模型,使用ACF、PACF 圖及博克斯—皮爾斯(Box-Pierce)檢驗來判斷模型殘差序列是否為白噪聲,若結果中P>0.05,則為白噪聲,即模型可以更好地擬合數據,運用構建的模型進行預測。以絕對平均百分誤差(MAPE)為標準,值越小,模型精度越高[13]。用數學公式表示為:
再結合平均百分誤差(MAPE)、均方標準誤差(MASE)、赤池信息量準則(AIC)等擬合指標來選擇最優(yōu)模型。
1.2.3 統計學方法 運用ArcGIS 10.5 繪制廣西各市疫情地區(qū)分布圖,R語言(R-Studio 1.4.1103環(huán)境,R版本4.0.3)base包plot()和diff()函數分別繪制廣西各市1、2 月的時間趨勢圖和進行差分操作,stats包acf()和pacf()函數分別進行自相關性和偏自相關性檢驗,以及arima()和Box.test()函數分別構建ARIMA 模型和進行Box-Pierce 檢驗,forecast 包forecast()函數進行了預測,以廣西2020-1-22 至2020-2-11 新冠肺炎確診病例數據為樣本,以樣本的70%(即1-22至2-4)為訓練數據,30%(2-5至2-11)為驗證數據。以P<0.05為差異有統計學意義。
2.1 空間分布
廣西1 月份疫情(圖1)分為二個層次,南寧市、桂林市和北海市等處于中風險地區(qū);欽州市、崇左市和貴港市等處于低風險地區(qū)。廣西2 月份疫情(圖2)分為三個層次,南寧市屬于高風險地區(qū);北海市、柳州市和桂林市等屬于中風險地區(qū);欽州市、梧州市和賀州市等屬于低風險地區(qū)。
圖1 2020年1月廣西COVID-19地區(qū)分布圖
圖2 2020年2月廣西COVID-19地區(qū)分布圖
2.2 時間趨勢 自2020-1-22 第一例COVID-19 確診后,各市都一直處于增長趨勢,其中北海市、桂林市和南寧市增長較快;其它地級市增長相對較為平緩,見圖3。2020-2 月前半月確診病例增長較為明顯,特別是南寧市和北海市;后半月增長明顯減弱;從圖中可判斷2-17為廣西COVID-19確診人數增長拐點,見圖4。
圖3 2020年1月廣西COVID-19增長趨勢圖
圖4 2020年2月廣西COVID-19增長趨勢圖
2.3 ARIMA模型預測分析
2.3.1 平穩(wěn)性檢驗 圖5 顯示了1-22 至2-4 新冠肺炎確診病例的時序圖,可看出數據具有上升趨勢,表明其不穩(wěn)定。對其進行一階差分操作,如圖6 所示,可以看出數據序列基本趨于平穩(wěn),符合ARIMA建模要求。
圖5 COVID-19確診人數趨勢圖
圖6 COVID-19確診人數一階差分后的趨勢圖
2.3.2 參數估計 數據一階差分后,序列基本趨于平穩(wěn),確定模型中參數d=1。對一階差分后的序列進行ACF、PACF分析(圖7、圖8),ACF圖顯示第一個時滯后,逐漸趨向于0,即第一時滯截斷,q=0或1;PACF圖顯示相關值未超過有效邊界(0.5),p=0。根據AIC 最小信息準則及相關模型擬合指數(表1),選擇模型為ARIMA(0,1,0)。
表1 不同ARIMA模型的評價指標
圖7 COVID-19確診人數一階差分后自相關性圖
圖8 COVID-19確診人數一階差分后偏自相關性圖
2.3.3 模型擬合和評估 模型殘差進行自相關性、偏自相關性分析(圖9、圖10),ACF圖顯示滯自相關值基本沒有超過邊界值(0.5),PACF 圖顯示相關值未超過有效邊界(0.5);進行Box-Pierce 檢驗,P>0.05,見表2。結果顯示,模型殘差序列為白噪聲,其模型擬合指數值也較小,故ARIMA(0,1,0)模型擬合效果良好,可用于進一步預測。
圖9 殘差自相關性圖
圖10 殘差偏自相關性圖
表2 ARIMA模型的預測指標
2.3.4 模型預測 利用ARIMA(0,1,0)模型,進行步長為7 的預測,即預測2-5 至2-11 的累計COVID-19確診人數,見表3和圖11;可以看出預測值和真實值基本吻合,相對誤差相對較小,真實值位于預測區(qū)間內。
表3 廣西新冠肺炎確診人數預測對比表
圖11 廣西預測人數和置信區(qū)間
自湖北省武漢市暴發(fā)COVID-19 疫情以來,疫情蔓延至中國每一個省份,廣西作為中國西南部的一個自治區(qū),自2020-1-22 出現首例確診病例,疫情影響到全區(qū)各市。分析其COVID-19疫情的流行特征,結果表明:(1)全區(qū)中疫情最為嚴重的地級市有南寧市、桂林市和北海市。南寧市是首府城市,桂林市和北海市是旅游城市,交通便利,流動人口較多,疫情較為嚴重。這和其他省份的研究結果相似[14-15];(2)廣西COVID-19疫情嚴重程度呈現“低—高—低”的曲線變化,初期感染程度較輕,可能是與武漢市較遠有關,疫情爆發(fā)的初始階段為一月底和二月初,可能與春節(jié)期間人口流動大有關[14],從二月中旬開始,廣西區(qū)內COVID-19疫情得到有效控制,確診病例增速大大放緩,表明政府等有關部門防控新冠疫情的相應措施可能發(fā)揮了有效作用。
本文構建了ARIMA模型,預測COVID-19確診病例的動態(tài)變化趨勢,以MAPE 為評價標準,再結合MPE、MASE、AIC 等擬合指標,選擇最優(yōu)模型為ARIMA(0,1,0),MAPE為5.46。本次研究結果與其他研究結果類似,認為使用ARIMA 模型適宜預測COVID-19 在不同國家的趨勢[10,16]。在伊朗,Moftakhar等[17]研究表明ARIMA模型比人工神經網絡更準確。Ceylan 等[16]構建ARIMA 模型預測意大利、西班牙和法國COVID-19 流行病學趨勢,MPAE分別為4.752、5.849 和5.634。因此ARIMA(0,1,0)模型被認為是合理的高精度預測模型,可應用于COVID-19 的預測。這將有助于有效配置醫(yī)療資源,對COVID-19的科學防治具有指導意義。
本研究也存在著不足之處:由于COVID-19 存在潛伏期,前期COVID-19檢測技術不完善,有部分疑似COVID-19 感染者未能及時診斷為確診病例,各地區(qū)報告確診病例時間不一,可能存在遲報和誤報的情況,導致每日公布的確診病例數與真實值不符;以及一些防控措施的實施,從而影響到ARIMA模型的預測效果。