王瑞 李瑞沂 曹沛根 馮和棠 黃猛
DOI:10.19850/j.cnki.2096-4706.2024.01.024
收稿日期:2023-01-16
基金項目:防災科技學院2022大學生創(chuàng)新創(chuàng)業(yè)項目(202211775011)
摘? 要:傳染病一直是科學研究的熱點,利用科學的方法控制傳染病的傳播對整個國家乃至全世界具有舉足輕重的作用。文章選取乙類傳染病中新型冠狀病毒感染數(shù)據(jù)作為研究對象,搜集了北京市2022年1月至2022年4月新冠感染累計確診病例數(shù),構(gòu)成時間序列,基于自回歸移動平均模型(ARIMA)和長短期記憶神經(jīng)網(wǎng)絡(LSTM)的混合模型進行預測分析。結(jié)果表明,混合模型的預測結(jié)果與實際情況基本一致。
關(guān)鍵詞:時間序列;ARIMA模型;LSTM模型;組合預測模型
中圖分類號:TP391? ? 文獻標識碼:A? 文章編號:2096-4706(2024)01-0116-05
Prediction Analysis of Infectious Diseases Based on ARIMA-LSTM Mixed Model
WANG Rui, LI Ruiyi, CAO Peigen, FENG Hetang, HUANG Meng
(Institute of Disaster Prevention, Langfang? 065201, China)
Abstract: Infectious diseases have always been a hot topic in scientific research, and using scientific methods to control the spread of infectious diseases plays a crucial role in the entire country and even the world. This paper selects COVID-19 infected persons in class B infectious diseases as the research object, collects the cumulative number of confirmed cases of COVID-19 infection in Beijing from January 2022 to April 2022, forms a time series, and conducts prediction analysis based on a mixed model of autoregressive moving average model (ARIMA) and Long Short-Term Memory (LSTM). The results indicate that the prediction results of the mixed model are basically consistent with the actual situation.
Keywords: time series; ARIMA model; LSTM model; combinatorial prediction model
0? 引? 言
自2020年12月新冠疫情暴發(fā)以來,全球多數(shù)國家均陷入疫情風波,為了抗擊疫情,我國不斷調(diào)整疫情防控政策,一次又一次渡過難關(guān)??尚鹿诓《緛韯輿皼?、變化不定且蔓延范圍廣,為了保證國家的正常發(fā)展和人民的穩(wěn)定生活,國家只能不斷完善疫情防控政策。由此可見,新型冠狀病毒感染作為典型的呼吸道傳染疾病具有很大的研究價值,如果能對其進行深入研究,發(fā)現(xiàn)其發(fā)展的規(guī)律性,那么我們對流行傳染病的研究將向前跨一大步。當對新型傳染病的疾病動態(tài)尚不清楚的時候,我們常使用數(shù)學模型進行研究,數(shù)學模型不僅能估算最壞情況下的感染人數(shù),對所采取的預防措施的效果進行評估,還可以幫助人們理解流行傳染病的復雜性,并提供針對性的解決方案,因此利用數(shù)學模型來預測流行傳染病的發(fā)展趨勢十分必要。由于傳染病的傳播受多種因素影響,數(shù)學模型中關(guān)于這些因素的假設(shè)和模型中設(shè)置的參數(shù)值都會影響預測結(jié)果,因此選取模型和參數(shù)尤為重要。
鑒于此,本文以新冠疫情暴發(fā)后北京市產(chǎn)生的確診病例構(gòu)成時序數(shù)據(jù),利用混合模型ARIMA-LSTM對該數(shù)據(jù)進行研究,預測出未來短期內(nèi)的新冠疫情的發(fā)展趨勢,從而發(fā)現(xiàn)傳染病傳播發(fā)展的規(guī)律性,這不僅有利于國家更好地制定防疫計劃,還能為科研人員研究流行傳染病提供有力的參考依據(jù)。
1? 研究現(xiàn)狀
傳染病始終存在于人類生存和發(fā)展過程中,是全人類不得不面對的一大難題。許多來自不同專業(yè)領(lǐng)域的科研人員投身其中,不斷推進著對傳染病傳播的研究。早期適用性較好且使用較多的算法有基于指數(shù)函數(shù)的趨勢預測方法、多元回歸算法等,隨著科技的發(fā)展和深度學習的火爆,不少研究在傳統(tǒng)傳染病模型的基礎(chǔ)上增加了基于神經(jīng)網(wǎng)絡模型和基于時間序列的預測方法。
1.1? 傳統(tǒng)傳染病模型
目前比較常用的傳染病模型有SIR[1]和SEIR[2],這兩個模型都常用于研究傳統(tǒng)傳染病,通過構(gòu)建微分方程的方式,對傳染病傳播的發(fā)展進行參數(shù)計算、模擬和預測等操作。黃森忠等[3]基于SEIR模型,判斷疫情發(fā)展趨勢,明確2020年初疫情的基本參數(shù),如基本再生數(shù)、平均潛伏期等;楊赟等[4]考慮到現(xiàn)實生活中時常會有一些隨機突發(fā)情況,因此他們利用馬氏過程模擬新冠疫情的傳播過程,通過轉(zhuǎn)移概率來模擬新冠疫情在不同艙室傳播的可能性,建立出隨機SEIR模型。
傳統(tǒng)的傳染病模型可以預測未來的感染數(shù)量,從而有效地預防和控制傳染病,但其建立過程和模型參數(shù)獲取相對復雜。因此,部分研究利用簡單易操作的單一預測模型進行相關(guān)的傳染病預測分析。
1.2? 單一預測模型
巴艷坤等[5]選取了挪威地區(qū)2021年7—9月的COVID-19累計感染人數(shù),使用基于麻雀搜索算法(SSA)優(yōu)化過后的BP神經(jīng)網(wǎng)絡模型進行研究。白璐等[6]通過機器學習的分析方法建立ARIMA模型,通過模型分析對湖北省未來確診人數(shù)進行預測。盛華雄等[7]分析武漢封城前這段時間的疫情,利用Logistic模型模擬了提前5天或延后5天實施隔離政策的情況,從而得到引起新冠疫情發(fā)展趨勢變化的曲線。
在單一模型中,數(shù)據(jù)信息提取不足,大樣本數(shù)據(jù)分析效果差,導致預測效果與實際數(shù)據(jù)誤差較大。因此,一些研究開始結(jié)合單一模型的優(yōu)點,避免其缺點,使用組合模型使預測值更接近真實情況。
1.3? 組合預測模型
張晴等[8]將傳染病模型SIR和邏輯回歸模型Logistic相結(jié)合,并在考慮到線性模型的局限性后,加入了時間卷積神經(jīng)網(wǎng)絡TCN,但TCN模型有時不太穩(wěn)定,需要進一步優(yōu)化。董章功等[9]人基于SEIR和ARIMA構(gòu)建的傳統(tǒng)傳染病動態(tài)混合模型SEIR-ARIMA預測了不同時間和地點的COVID-19感染人數(shù),但該混合模型尚未研究更復雜的情況,比如康復者是否會再次感染等,因此具有一定局限性。甘雨等[10]提出結(jié)合SEIR和LSTM,預測疫情發(fā)展趨勢,預測結(jié)果優(yōu)于傳統(tǒng)SEIR模型。
從以上研究結(jié)果可以發(fā)現(xiàn),使用單一的傳統(tǒng)傳染病模型或時間序列模型都存在限制條件太多、模型復雜時參數(shù)選取困難、模型簡單時預測效果差等問題,將模型之間進行組合后能在一定程度上彌補單一模型的某些缺點,使研究結(jié)果更有說服力。由于在組合模型的應用研究中,基于ARIMA-LSTM混合模型對局部流行病傳播的預測分析比較少見,因此本文運用該混合模型對傳染病傳播進行研究。
2? ARIMA模型
ARIMA差分整合移動平均自回歸模型是一種應用廣泛的經(jīng)典時間序列模型。該模型中,共有三個參數(shù),分別是p(自回歸階數(shù))、d(差分階數(shù))和q(移動平均階數(shù)),大致為以下形式:
其中,yt為時間序列,如果該時間序列不具穩(wěn)定性,一般先采用ADF檢驗,選取差分階數(shù)后將yt變平穩(wěn),再結(jié)合赤池信息準則AIC和貝葉斯信息準則BIC對模型進行最佳參數(shù)選擇。
3? LSTM模型
長短時記憶神經(jīng)網(wǎng)絡(LSTM)是循環(huán)神經(jīng)網(wǎng)絡的一個變體,對長期依賴問題和梯度消失的問題能有效解決,該模型的關(guān)鍵是引入一組記憶單元(Memory Units)允許Web學習何時忘記歷史信息,何時用新信息更新記憶單元,并由3個“門”控制:輸入門it,遺忘門ft和輸出門Ot。
式中,Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門、輸入門和中間變量與當前時刻輸入Xt和上一時刻輸出ht-1作乘法運算的權(quán)重,bf、bi、bo、bc為偏置向量。
4? ARIMA-LSTM混合模型
ARIMA模型作為一種經(jīng)典的時間序列預測模型,可用于時間序列的隨機平滑建模和預測,但它在分析過去與未來數(shù)據(jù)之間的聯(lián)系時去掉了事物發(fā)展的因果關(guān)系。LSTM神經(jīng)網(wǎng)絡能記憶大量的長期數(shù)據(jù),常用于處理時序時間序列。因此,本文首先使用ARIMA提取線性信息,預測線性結(jié)果的第一部分,并計算殘差序列;然后將第一部分生成的殘差序列輸入LSTM模型,生成第二部分的非線性結(jié)果。最后,將兩部分預測結(jié)果相加,得到最終的預測值。
5? 實驗分析
5.1? 實驗數(shù)據(jù)采集
在數(shù)據(jù)采集方面,本研究采用爬蟲技術(shù)采集百度疫情提供的北京市2022年1月2日至4月20日的新冠感染確診人數(shù),建立時間序列數(shù)據(jù),分析北京市疫情發(fā)展趨勢,如表1所示。
5.2? 數(shù)據(jù)預處理
5.2.1? 平穩(wěn)性檢驗
在采集的109條數(shù)據(jù)中,選取其中2022年1月2日至4月15日COVID-19的感染人數(shù)作為訓練集數(shù)據(jù),繪制序列圖如圖1所示。
從訓練集時序圖可以看出均值在隨時間變化而變化,但僅憑肉眼看不能有力證明該訓練集數(shù)據(jù)的非平穩(wěn)性,因此為了進一步加強該時間序列非平穩(wěn)的假設(shè),接下來進行ADF測驗。驗證結(jié)果如表2所示。
從理論和實戰(zhàn)經(jīng)驗中了解到,如果一個時間序列是平穩(wěn)的,那么它的ADF測試結(jié)果中的p值應較低,并且1%、5%和10%置信區(qū)間的閾值應盡可能接近Test Statistic這個屬性值。但從以上ADF檢驗結(jié)果可以看出,p值不夠小,臨界值與檢驗統(tǒng)計量也不夠接近,因此可以得出該時間序列目前處于非平穩(wěn)狀態(tài)。
5.2.2? 數(shù)據(jù)的平穩(wěn)性處理
通常情況下,把時序數(shù)據(jù)應用于ARIMA模型時,需要確保平均值和均值隨時間變化保持不變,為了達到該目的,本文采用目前常用的處理非平穩(wěn)序列的手段差分處理,但由于“過差分”容易造成資訊的流失,因此本文逐階進行差分處理。首先進行一階差分處理?yt = yt - yt-1,做出一階差分后時序圖,如圖2所示。
圖2? 一階差分時序圖
從這張圖中,我們大致可以看到,原始數(shù)據(jù)中的增長趨勢已經(jīng)通過差分運算提取出來,序列應該是大致穩(wěn)定的。為了幫助我們更客觀地判斷序列是否穩(wěn)定,我們對差分后的數(shù)據(jù)進行ADF單位根檢驗,結(jié)果如表3所示。
從表3中可知,ADF結(jié)果值都是顯著小于Test Statistic檢驗統(tǒng)計量,則認為在置信水平為95%的情況下無單位根,說明一階差分后序列是平穩(wěn)的,可進行后續(xù)分析。
5.3? ARIMA模型構(gòu)建
5.3.1? 確定模型階數(shù)
通常ARIMA(p,d,q)模型的p和q值是通過自相關(guān)圖和偏自相關(guān)圖來確定的,但這種判斷比較主觀。因此,本文的具體定階方法如下:根據(jù)自相關(guān)圖和偏自相關(guān)圖判斷階的近似范圍,然后利用AIC和BIC信息準則選擇更準確的模型,如圖3所示。
其中,橫坐標為滯后階數(shù),縱坐標為相關(guān)系數(shù)。
從圖3可以看出,ACF和PACF經(jīng)過2階滯后后,在2倍標準差范圍內(nèi)基本穩(wěn)定。但由于判斷圖像呈拖尾還是截尾主觀性太強,因此我們通過Python的sm庫中的arma_order_select_ic方法,計算出最優(yōu)的AIC的BIC,即挑選出最佳模型ARIMA(2,1,2),模型結(jié)果如圖4所示。
圖4? 模型調(diào)試結(jié)果
根據(jù)圖4我們發(fā)現(xiàn):依據(jù)AIC和BIC挑選出來的模型并非完全符合實際,因為第二個非常量參數(shù)的p值為0.162,大于0.05,顯然沒有通過參數(shù)檢驗。所以,ARIMA(2,1,2)的擬合效果并不完美。這表明上述數(shù)據(jù)的ARIMA建模仍有改進的空間,為LSTM模型的建立提供了基礎(chǔ)。
5.3.2? 建立模型和預測結(jié)果
使用上述ARIMA(2,1,2)模型進行相關(guān)預測。模型殘差擬合效果圖及相關(guān)預測結(jié)果如表4所示。
為了更直觀地反映模型的預測精度,我們選用衡量指標均方誤差MSE來反映誤差。MSE值越小,實際值與預測值之間的差距越小。結(jié)合公式? 得到MSE為3.476,可見誤差比較小,說明ARIMA模型的預測精度還是可以接受的,具有一定的指導意義。
5.4? LSTM模型構(gòu)建
5.4.1? 數(shù)據(jù)處理
在本文中,67%的數(shù)據(jù)作為訓練數(shù)據(jù)集用于訓練LSTM模型,剩余33%的數(shù)據(jù)作為測試數(shù)據(jù)用于測試模型。然后利用歸一化過程將訓練集數(shù)據(jù)標準化到0~1的范圍內(nèi),使模型訓練效果更好。
5.4.2? 模型訓練
LSTM模型的訓練過程如下:
1)輸入訓練集,得到初始權(quán)值。
2)利用驗證集反向優(yōu)化權(quán)重。
3)訓練最佳模型。
由于Python中的TensorFlow庫已經(jīng)將LSTM模型算法封裝完畢,我們只需投入數(shù)據(jù),設(shè)置好相關(guān)參數(shù)進行調(diào)用即可。其中核心參數(shù)的設(shè)置如下:epochs=500,batch_size=1,verbose=2。
最后運行結(jié)果顯示整體損失率大致范圍為1%~
4%,這說明利用該訓練模型進行預測效果尚可。
5.5? ARIMA-LSTM結(jié)合預測
ARIMA-LSTM結(jié)合預測過程如下:
1)通過ARIMA模型得到數(shù)據(jù)的殘差序列,如圖5所示。
圖5? 殘差序列圖
2)將殘差序列輸入經(jīng)過良好訓練的LSTM模型,得到這部分非線性信息的預測值。最后將該預測值與ARIMA相加,得到診斷病例數(shù)的預測值,并得到最終結(jié)果,如圖6和表5所示。
到目前為止,我們發(fā)現(xiàn)單個ARIMA模型的均方誤差為3.476,混合ARIMA-LSTM模型的均方誤差為3.161。由此得出結(jié)論:混合模型的預測精度略高于單一時序模型ARIMA。
6? 結(jié)? 論
綜上所述,ARIMA(2,1,2)與LSTM神經(jīng)網(wǎng)絡混合模型能較好擬合北京市新型冠狀病毒短期流行趨勢,因此在進行傳染病預測研究時可選取該混合模型進行一定程度的分析,為政府制定相關(guān)防疫政策提供合理有效的參考。本研究下一步將考慮如何在ARIMA-LSTM混合模型的基礎(chǔ)上將預測結(jié)果準確率大幅提升。
參考文獻:
[1] 劉乙陽,黃洋,尹瀾瑜,等.基于SIR模型的流行性傳染病傳播趨勢預測研究 [J].高師理科學刊,2021,41(7):37-41.
[2] 馬思婕,黃珈銘,印英東,等.基于SEIR模型的COVID-19傳染力研究 [J].江蘇科技信息,2022,39(10):73-76.
[3] 黃森忠,彭志行,靳禎.新型冠狀病毒肺炎疫情控制策略研究:效率評估及建議 [J].中國科學:數(shù)學,2020,50(6):885-898.
[4] 楊赟,趙亞男.基于隨機SEIR模型的新冠肺炎傳播動力學分析 [J].東北師大學報:自然科學版,2022,54(4):37-43.
[5] 巴艷坤,郭松林.基于BP神經(jīng)網(wǎng)絡的新冠肺炎疫情病例預測模型 [J].電腦知識與技術(shù),2022,18(20):78-80.
[6] 白璐,郭佩汶,范晉蓉.湖北省新冠肺炎確診人數(shù)的建模與預測分析 [J].檢驗檢疫學刊,2020,30(2):10-12.
[7] 盛華雄,吳琳,肖長亮.新冠肺炎疫情傳播建模分析與預測 [J].系統(tǒng)仿真學報,2020,32(5):759-766.
[8] 張晴.關(guān)于新冠肺炎疫情的研究和預測 [D].濟南:山東大學,2021.
[9] 董章功,宋波,孟友新.基于SEIR-ARIMA混合模型的新冠肺炎預測 [J].計算機與現(xiàn)代化,2022(2):1-6.
[10] 甘雨,吳雨,王建勇.新冠肺炎疫情趨勢預測模型 [J].智能系統(tǒng)學報,2021,16(3):528-536.
作者簡介:王瑞(2001—),女,漢族,四川宜賓人,本科在讀,研究方向:計算機科學與技術(shù)。