濰坊醫(yī)學(xué)院公共衛(wèi)生學(xué)院(261053) 馮佳寧 肖宇飛 王曉璇 孫 娜 許小珊 王素珍 石福艷
【提 要】 目的 探尋適合猩紅熱發(fā)病的預(yù)測模型,為猩紅熱的預(yù)防和控制提供科學(xué)依據(jù)。方法 利用全國2011年1月至2018年12月的猩紅熱月發(fā)病率,通過R 3.6.1軟件建立求和自回歸移動(dòng)平均(autoregressive integrated moving average,ARIMA)乘積季節(jié)模型和軟件Matlab 9.1創(chuàng)建廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural netword,GRNN),通過R2比較模型的擬合效果,平均相對(duì)誤差比較模型預(yù)測能力,并對(duì)2019年1月-6月發(fā)病率進(jìn)行預(yù)測。結(jié)果 創(chuàng)建的ARIMA(2,1,2)(0,1,1)12乘積季節(jié)模型平穩(wěn)R2為0.336,預(yù)測2019年1-6月的發(fā)病率(1/10萬)分別為0.637、0.274、0.377、0.579、0.910和0.937,GRNN模型的R2為0.823,預(yù)測2019年1-6月發(fā)病率(1/10萬)分別為0.626、0.178、0.321、0.445、0.789和0.774。模型的平均相對(duì)誤差分別為31.1%和20.3%。結(jié)論 ARIMA模型和GRNN模型均能對(duì)猩紅熱發(fā)病率進(jìn)行預(yù)測,但GRNN模型預(yù)測能力較前者更優(yōu)。
猩紅熱是兒童常見的急性呼吸道傳染病,在我國屬于法定報(bào)告的乙類傳染病[1]。在對(duì)猩紅熱的發(fā)生、流行及其變化趨勢進(jìn)行預(yù)測時(shí),通常采用求和自回歸移動(dòng)平均(autoregressive integrated moving average,ARIMA)模型[2-4],但是傳染病的相關(guān)數(shù)據(jù)往往是不穩(wěn)定的,易受自然和社會(huì)因素的影響而發(fā)生不同的變化,這類數(shù)據(jù)通常具有線性趨勢和非線性關(guān)系,只通過線性模型信息提取不夠充分。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)以其獨(dú)特的并行結(jié)構(gòu)、自適應(yīng)、自組織、較強(qiáng)的容錯(cuò)性、穩(wěn)健性等特點(diǎn)和獨(dú)特的信息處理方法,在時(shí)間序列預(yù)測領(lǐng)域得到了廣泛的應(yīng)用[5-6]。目前在預(yù)測上應(yīng)用較多的BP神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練時(shí)存在收斂速度慢和容易出現(xiàn)局部最優(yōu)解的缺點(diǎn)。而廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)基于徑向基神經(jīng)元和線性神經(jīng)元建立,對(duì)樣本數(shù)據(jù)要求不高,也可以有很好的預(yù)測效果,尤其對(duì)非線性問題處理效果較好。
本研究采用我國2011年1月至2018年12月的猩紅熱月發(fā)病率進(jìn)行分析,分別建立ARIMA乘積季節(jié)模型和GRNN模型,并對(duì)兩種模型的預(yù)測效果進(jìn)行比較,從而為猩紅熱發(fā)病預(yù)警提供更優(yōu)模型,在今后的預(yù)防決策中提供科學(xué)指導(dǎo)。
1.猩紅熱發(fā)病資料
本研究資料為中國疾病預(yù)防控制中心(http://www.chinacdc.cn/)報(bào)告系統(tǒng)發(fā)布的2011年1月至2018年12月猩紅熱月發(fā)病人數(shù),計(jì)算發(fā)病率所用的人口數(shù)來自中國統(tǒng)計(jì)年鑒。
2.模型原理與方法
(1)ARIMA模型建立
ARIMA 模型是由美國統(tǒng)計(jì)學(xué)家Box和英國統(tǒng)計(jì)學(xué)家Jenkins提出的,ARIMA(p,d,q)模型中p,d,q分別表示自回歸階數(shù)、差分階數(shù)、平均移動(dòng)階數(shù)[7]。ARIMA 模型記作:
(2)GRNN模型建立
GRNN是一種前饋式神經(jīng)網(wǎng)絡(luò)模型,是在觀測樣本中得到自變量與因變量的聯(lián)合概率密度函數(shù)后,直接計(jì)算因變量對(duì)自變量的回歸值[10]。GRNN 只需要人工調(diào)節(jié)光滑因子這一個(gè)參數(shù),所以其結(jié)構(gòu)的搭建比其他網(wǎng)絡(luò)簡單。其結(jié)構(gòu)如圖1所示,包括輸入層、模式層、求和層與輸出層等4層神經(jīng)元。對(duì)應(yīng)網(wǎng)絡(luò)輸入X=[x1,x2,…,xn]T,其輸出為Y=[y1,y2,…ym]T。
圖1 廣義回歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
GRNN模型建立可簡單分為兩步:①確定神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)、訓(xùn)練樣本和預(yù)測樣本。本研究選擇的輸入數(shù)據(jù)為2011年至2017年猩紅熱月發(fā)病率,輸出數(shù)據(jù)為2013年至2018年猩紅熱月發(fā)病率,訓(xùn)練樣本選擇2017年和2018年的1-6月發(fā)病率,對(duì)2019年1-6月的發(fā)病率預(yù)測。②創(chuàng)建GRNN模型。模型創(chuàng)建通過MATLAB中程序代碼net=grnn(P,T,spread)實(shí)現(xiàn),其中P為輸入樣本,T為輸出樣本,spread為光滑因子。預(yù)測程序代碼為y=sim(net,p),p表示預(yù)測集的輸入數(shù)據(jù),y表示預(yù)測結(jié)果。通過交叉驗(yàn)證法獲得最優(yōu)光滑因子spread,使函數(shù)的逼近誤差最小[11]。選擇2011年-2017年任意6個(gè)月的發(fā)病率作為測試集數(shù)據(jù),最小均方誤差MSE對(duì)應(yīng)的spread即為最優(yōu)光滑因子。模型的建立在Matlab 9.1軟件中實(shí)現(xiàn)。兩模型比較通過決定系數(shù)R2檢驗(yàn)?zāi)P蛿M合優(yōu)度,通過平均相對(duì)誤差MRE比較預(yù)測效果。
1.猩紅熱流行特征
研究數(shù)據(jù)為2011年1月至2018年12月底全國猩紅熱的月發(fā)病率。猩紅熱的流行情況在時(shí)間上具有明顯的季節(jié)規(guī)律,主要集中在每年的5~6月和11~12月,具體情況如圖2所示。
圖2 2011-2018年猩紅熱月發(fā)病率
2.ARIMA乘積季節(jié)模型建立
(1)模型識(shí)別
根據(jù)圖3中差分后序列均值圍繞零值波動(dòng),得出經(jīng)過1階12步差分后序列滿足了平穩(wěn)性,白噪聲檢驗(yàn)顯示為非白噪聲序列(表1),可以擬合ARIMA模型進(jìn)一步提取信息。
表1 差分后序列的白噪聲檢驗(yàn)
圖3 1階12步差分后序列的趨勢和相關(guān)分析
首先觀察差分后序列12階以內(nèi)的ACF和PACF的特征,存在短期相關(guān)性;考察延遲12階的偏自相關(guān)系數(shù),顯示序列存在著季節(jié)相關(guān),可以考慮建立模型ARIMA(p,d,q)(P,D,Q)s,根據(jù)ACF和PACF的特征擬合短期相關(guān)模型ARIMA(2,2)提取短期相關(guān)信息;季節(jié)信息的提取根據(jù)相關(guān)資料可知,一般季節(jié)模型階數(shù)在2階以內(nèi),擬對(duì)P、Q分別取值0、1、2以確定最佳模型。經(jīng)過反復(fù)調(diào)整,根據(jù)AIC最小的原則,初步擬合模型ARIMA(2,1,2)(0,1,1)12,詳見表2,圖3。
表2 ARIMA(p,d,q)(P,D,Q)12模型的選取
(2)參數(shù)估計(jì)與模型檢驗(yàn)
ARIMA(2,1,2)(0,1,1)12模型的各參數(shù)估計(jì)值檢驗(yàn)均有統(tǒng)計(jì)學(xué)意義,見表3。且模型順利通過了白噪聲檢驗(yàn),見表4。由圖4可知,擬合的模型的殘差A(yù)CF與PACF均落在的2倍標(biāo)準(zhǔn)差范圍之內(nèi),白噪聲檢驗(yàn)均在0.05之上,可認(rèn)為模型擬合有效,模型的平穩(wěn)R2為0.336。據(jù)此確定擬合的模型為:
根據(jù)建立的模型預(yù)測2019年1~6月的猩紅熱發(fā)病率(1/10萬)的結(jié)果分別為0.637、0.274、0.377、0.579、0.910和0.937。
表3 ARIMA(2,1,2)(0,1,1)12模型參數(shù)估計(jì)
表4 ARIMA(2,1,2)(0,1,1)12模型殘差白噪聲檢驗(yàn)
圖4 ARIMA(2,1,2)(0,1,1)12模型的殘差診斷
3.GRNN模型建立
本研究選擇的訓(xùn)練集為2011年至2018年6月猩紅熱月發(fā)病率,測試集為2018年7~12月猩紅熱月發(fā)病率,模型的唯一參數(shù)spread由測試集最小均方誤差MSE對(duì)應(yīng)的最優(yōu)值確定。可見圖5,通過交叉驗(yàn)證尋找最優(yōu)光滑因子,即當(dāng)spread=0.05時(shí),MSE最小,對(duì)應(yīng)的MSE為0.011,逼近能力強(qiáng);此時(shí)模型的R2為0.823,擬合效果較好。根據(jù)建立的GRNN模型預(yù)測2019年1~6月發(fā)病率(1/10萬)分別為0.626、0.178、0.321、0.445、0.789和0.774。
圖5 光滑因子對(duì)應(yīng)的均方誤差曲線圖
4.猩紅熱預(yù)測能力比較
分別通過對(duì)2011-2017年6月數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測2017年7~12月發(fā)病率;對(duì)2011-2017年數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測2018年1~6月發(fā)病率;2011-2018年6月數(shù)據(jù)進(jìn)行訓(xùn)練,預(yù)測2018年7~12月發(fā)病率。兩模型的預(yù)測能力通過比較平均相對(duì)誤差大小,其中建立的三組GRNN模型的平均相對(duì)誤差分別為23.0%、21.3%、16.8%以及總的平均相對(duì)誤差為20.3%,三組ARIMA模型的平均相對(duì)誤差分別為47.5%、25.0%、20.8%以及總的平均相對(duì)誤差為31.1%,GRNN模型的平均相對(duì)誤差均小于ARIMA模型,認(rèn)為預(yù)測能力較后者更優(yōu)。詳見表5~7。
表5 ARIMA模型與GRNN模型第一次預(yù)測比較
表6 ARIMA模型與GRNN模型第二次預(yù)測比較
眾多研究表明ARIMA模型具有不受數(shù)據(jù)類型限制和較強(qiáng)適應(yīng)性的優(yōu)點(diǎn),在短期預(yù)測中具有較好的表現(xiàn)能力[12-13]。ARIMA乘積季節(jié)模型可以提取出數(shù)據(jù)中蘊(yùn)含的季節(jié)信息,當(dāng)時(shí)間序列同時(shí)有短期相關(guān)性和季節(jié)趨勢時(shí),需要擬合ARIMA季節(jié)乘積模型以分析數(shù)據(jù)中的短期相關(guān)性、季節(jié)效應(yīng)與隨機(jī)誤差的復(fù)雜關(guān)系。ARIMA模型作為一種較為經(jīng)典的方法在傳染病的預(yù)測上早已得到廣泛的應(yīng)用,并且表現(xiàn)出短期預(yù)測精度較高的優(yōu)點(diǎn)。
人工神經(jīng)網(wǎng)絡(luò)能夠逼近任意的非線性關(guān)系,具有良好的泛化能力,此外,人工神經(jīng)網(wǎng)絡(luò)沒有任何對(duì)變量的假設(shè)要求,許多國內(nèi)學(xué)者已將該模型應(yīng)用在對(duì)疾病的發(fā)病率研究當(dāng)中。GRNN模型其局部逼近能力強(qiáng),且學(xué)習(xí)速度較快,既解決了局部最優(yōu)問題,又同時(shí)提高了訓(xùn)練速度,且能保證預(yù)測的效果。
本研究結(jié)果顯示,兩種模型的預(yù)測結(jié)果與實(shí)際情況基本符合,均能較好地對(duì)全國猩紅熱發(fā)病率進(jìn)行擬合。通過比較ARIMA乘積季節(jié)模型和GRNN模型的R2和預(yù)測結(jié)果的平均相對(duì)誤差,GRNN模型均優(yōu)于ARIMA乘積季節(jié)模型,由于猩紅熱受到氣象因素、環(huán)境及個(gè)人防護(hù)等因素的影響,收集的資料數(shù)據(jù)是非線性的,而GRNN模型不對(duì)數(shù)據(jù)的分布做要求,故GRNN模型的預(yù)測能力更強(qiáng),可以為今后研究猩紅熱等傳染性疾病的流行趨勢及提出防控措施提供科學(xué)依據(jù)。
本研究尚存在不足之處,GRNN訓(xùn)練樣本的選取為猩紅熱的月發(fā)病率,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)程度和預(yù)測能力可能會(huì)受到一定影響,且猩紅熱與氣象因素密切相關(guān),本研究未考慮氣象因素也可能影響預(yù)測精度,且傳染病流行規(guī)律復(fù)雜多變,在今后的研究中應(yīng)及時(shí)更新數(shù)據(jù)對(duì)模型進(jìn)行多次擬合,以提高預(yù)測水平。