何振歡,肖建華
(東北農(nóng)業(yè)大學(xué) 動(dòng)物醫(yī)學(xué)學(xué)院 黑龍江省普通高等學(xué)校動(dòng)物普通疾病防治重點(diǎn)實(shí)驗(yàn)室 黑龍江,哈爾濱 150030)
禽霍亂(Fowl cholera)是一種由多殺性巴氏桿菌引起的接觸性、敗血性傳染病,雞、鴨和鵝等禽類均易感[1]。禽霍亂是世界范圍內(nèi)家禽的主要疫病之一,具有較高的發(fā)病率和死亡率,給禽養(yǎng)殖業(yè)造成了巨大的經(jīng)濟(jì)損失[2-3]。我國目前仍廣泛應(yīng)用弱毒疫苗和滅活疫苗預(yù)防禽霍亂,但弱毒疫苗副作用大、免疫期偏短,滅活疫苗除免疫期短外,還存在保護(hù)率低等問題[4]。禽類接種弱毒疫苗和滅活疫苗后,仍存在患病的風(fēng)險(xiǎn)。因此,進(jìn)行禽霍亂疫病的監(jiān)測(cè),對(duì)于該病的防控具有重要的現(xiàn)實(shí)意義。
機(jī)器學(xué)習(xí)是一門通過識(shí)別和利用現(xiàn)有知識(shí)獲取新知識(shí)的多領(lǐng)域交叉學(xué)科,其可通過學(xué)習(xí)已有數(shù)據(jù)建立模型,并對(duì)未來數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)[5]。其中,長短期記憶模型(LSTM)由于具有較好的預(yù)測(cè)性能,近年來被廣泛應(yīng)用于傳染性疾病的預(yù)測(cè)[6-8]。LSTM模型可通過識(shí)別和學(xué)習(xí)疾病的已有數(shù)據(jù),預(yù)測(cè)疾病未來的發(fā)展趨勢(shì)[9]。集合經(jīng)驗(yàn)?zāi)B(tài)分解是一種基于經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)提出的新算法,其目的是將原始數(shù)據(jù)分解為有限個(gè)固有模態(tài)函數(shù)(intrinsic mode function,IMF)和一個(gè)殘差(residual),以識(shí)別共存的振蕩模式,克服EMD算法的模態(tài)混疊問題[10-11]。EEMD可從原始時(shí)間序列中提取簡單的周期信號(hào),將這些信號(hào)用作機(jī)器學(xué)習(xí)模型的輸入,可顯著提高模型的預(yù)測(cè)性能。近年來,EEMD已廣泛應(yīng)用于傳染性疾病的預(yù)測(cè)研究[12-13]。Tiago等利用EEMD-ARIMAX組合模型和ARIMAX模型進(jìn)行了巴西新冠肺炎病例數(shù)的預(yù)測(cè)研究,研究結(jié)果表明,EEMD-ARIMAX組合模型的預(yù)測(cè)性能優(yōu)于單一ARIMAX模型的預(yù)測(cè)性能[13]。
綜上所述,應(yīng)用機(jī)器學(xué)習(xí)模型預(yù)測(cè)人類傳染病的發(fā)病趨勢(shì)已成為國際上的研究熱點(diǎn),而在動(dòng)物傳染病領(lǐng)域的研究較少。本研究在前人研究的基礎(chǔ)上,構(gòu)建了一種以EEMD為分解模型,LSTM為預(yù)測(cè)模型的EEMD-LSTM組合模型,應(yīng)用禽霍亂的發(fā)病數(shù)據(jù)分析模型的預(yù)測(cè)性能,以期為禽霍亂的有效防控,以及為該模型的其他應(yīng)用研究提供理論依據(jù)。
禽霍亂的發(fā)病數(shù)據(jù)來自中國農(nóng)業(yè)農(nóng)村部《獸醫(yī)公報(bào)》(http://www.moa.gov.cn/gk/sygb/)。將收集到的我國2006年1月至2020年12月禽霍亂的發(fā)病數(shù)據(jù)按照時(shí)間順序進(jìn)行排列。應(yīng)用Microsoft Excel 2016統(tǒng)計(jì)分析軟件對(duì)我國2006年1月至2020年12月各省市禽霍亂的發(fā)病情況進(jìn)行分析,研究結(jié)果顯示,2006年-2020年間,湖北省禽霍亂的發(fā)病數(shù)最多(圖1)。由于湖北省禽霍亂的發(fā)病數(shù)據(jù)最多,連續(xù)性較強(qiáng),因此,利用湖北省的禽霍亂數(shù)據(jù)進(jìn)行模型預(yù)測(cè)性能分析。
圖1 2006年~2020年我國禽霍亂發(fā)病情況
利用MATLAB 2020b軟件構(gòu)建EEMD-LSTM模型。將2006年湖北省的禽霍亂發(fā)病數(shù)據(jù)作為模型的初始化輸入,進(jìn)行模型的初步構(gòu)建。
利用湖北省2006年-2015年的禽霍亂發(fā)病數(shù)據(jù)訓(xùn)練模型。訓(xùn)練模型時(shí),禽霍亂的發(fā)病數(shù)據(jù)首先經(jīng)EEMD分解為6個(gè)固有模態(tài)函數(shù)和1個(gè)殘差,然后將分解后的數(shù)據(jù)輸入到LSTM模型當(dāng)中,每次訓(xùn)練后,在可視化窗口可觀察到模型預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的擬合情況,當(dāng)預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)達(dá)到最佳擬合時(shí),終止訓(xùn)練,將模型訓(xùn)練期的預(yù)測(cè)發(fā)病數(shù)導(dǎo)出,利用Microsoft Excel 2016和SPSS 22.0軟件分別計(jì)算預(yù)測(cè)發(fā)病數(shù)和實(shí)際發(fā)病數(shù)的線性回歸分析R2值和組內(nèi)相關(guān)系數(shù)ICC值,分析模型的可信度。ICC是Bartko提出的一種衡量可信度的方法[14],后發(fā)展成為評(píng)估預(yù)測(cè)值與實(shí)際值之間一致性的方法[15]。ICC取值范圍為[0,1],當(dāng)ICC值大于0.75時(shí),預(yù)測(cè)結(jié)果具有較好的可信度[16]。最后將訓(xùn)練期可信度最佳的模型用于禽霍亂發(fā)病趨勢(shì)的預(yù)測(cè)。
應(yīng)用訓(xùn)練好的EEMD-LSTM模型預(yù)測(cè)湖北省2016年-2020年禽霍亂的發(fā)病數(shù),然后與實(shí)際發(fā)病數(shù)比較進(jìn)行驗(yàn)證,最后應(yīng)用Microsoft Excel 2016和SPSS 22.0軟件分別計(jì)算線性回歸系數(shù)R2值及組內(nèi)相關(guān)系數(shù)ICC值,衡量預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的一致性,分析模型的可信度。
2.1.1 EEMD模型訓(xùn)練期的分解結(jié)果 訓(xùn)練模型時(shí),首先利用EEMD模型將湖北省2006年-2015年禽霍亂的發(fā)病數(shù)據(jù)分解為6個(gè)個(gè)固有模態(tài)函數(shù)和1個(gè)殘差。當(dāng)模型終止訓(xùn)練時(shí),將EEMD分解數(shù)據(jù)導(dǎo)出,然后應(yīng)用GraphPad Prism 8.0.2軟件進(jìn)行分解結(jié)果可視化分析。結(jié)果顯示,經(jīng)EEMD分解后的禽霍亂時(shí)序數(shù)據(jù)的趨勢(shì)逐漸趨于平穩(wěn),并且其信號(hào)周期更為簡單(圖2)。
圖2 EEMD分解結(jié)果
2.1.2 EEMD-LSTM模型訓(xùn)練期的預(yù)測(cè)結(jié)果 利用2006年-2015年禽霍亂的發(fā)病數(shù)訓(xùn)練模型,每一次訓(xùn)練結(jié)束后,可通過模型的可視化窗口觀察模型訓(xùn)練期的預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的擬合情況,當(dāng)實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)達(dá)到最佳擬合時(shí),終止模型的訓(xùn)練。將模型訓(xùn)練期的預(yù)測(cè)發(fā)病數(shù)從模型中導(dǎo)出,應(yīng)用GraphPad Prism 8.0.2將實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)進(jìn)行可視化擬合。結(jié)果顯示,在EEMD-LSTM模型的訓(xùn)練期間,預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)擬合結(jié)果良好(圖3),表明該組合模型能夠較準(zhǔn)確的預(yù)測(cè)禽霍亂的發(fā)病趨勢(shì)。
圖3 EEMD-LSTM模型訓(xùn)練期禽霍亂實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)擬合結(jié)果
2.1.3 EEMD-LSTM模型訓(xùn)練期的可信度分析結(jié)果 將模型訓(xùn)練期的最佳預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)擬合結(jié)果導(dǎo)出,應(yīng)用Microsoft Excel 2016和SPSS 22.0軟件分別計(jì)算預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的線性回歸系數(shù)R2值和組內(nèi)相關(guān)系數(shù)ICC值,分析模型的可信度。結(jié)果顯示,線性回歸系數(shù)R2值為0.993 5,ICC值為0.997,其ICC值大于0.75并接近于1(圖4),表明該組合模型具有較高的可信度,可用于預(yù)測(cè)禽霍亂未來的發(fā)病趨勢(shì)。
圖4 模型訓(xùn)練期ICC分析結(jié)果
2.2.1 EEMD-LSTM模型預(yù)測(cè)期的預(yù)測(cè)結(jié)果 應(yīng)用訓(xùn)練好的EEMD-LSTM模型預(yù)測(cè)2016年-2020年禽霍亂的發(fā)病數(shù),將模型預(yù)測(cè)期的預(yù)測(cè)發(fā)病數(shù)從模型中導(dǎo)出,應(yīng)用GraphPad Prism 8.0.2將實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)進(jìn)行可視化擬合。結(jié)果顯示,禽霍亂預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)擬合結(jié)果良好(圖5),表明該組合模型能夠較為準(zhǔn)確的預(yù)測(cè)禽霍亂的發(fā)病趨勢(shì)。
圖5 EEMD-LSTM模型預(yù)測(cè)期禽霍亂實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)擬合結(jié)果
2.2.2 EEMD-LSTM模型預(yù)測(cè)期的可信度分析結(jié)果 應(yīng)用訓(xùn)練好的EEMD-LSTM模型預(yù)測(cè)2016年-2020年禽霍亂的發(fā)病數(shù),將模型預(yù)測(cè)期的預(yù)測(cè)發(fā)病數(shù)從模型中導(dǎo)出,應(yīng)用Microsoft Excel 2016和SPSS 22.0軟件分別計(jì)算預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的線性回歸系數(shù)R2值和組內(nèi)相關(guān)系數(shù)ICC值,分析模型的可信度。結(jié)果顯示,線性回歸系數(shù)R2值為0.750 7,ICC值為0.825,其ICC值大于0.75(圖6),表明該組合模型的預(yù)測(cè)結(jié)果具有較高的可信度。
圖6 模型預(yù)測(cè)期ICC分析結(jié)果
禽霍亂被我國列為二類動(dòng)物疫病,該病是我國《獸醫(yī)公報(bào)》中發(fā)病數(shù)據(jù)最多的家禽傳染病,嚴(yán)重危害家禽健康[17]。目前,國內(nèi)外主要應(yīng)用機(jī)器學(xué)習(xí)模型進(jìn)行人類傳染病的預(yù)測(cè)研究,而在動(dòng)物床染病領(lǐng)域的研究較少。韓天齊等[18]應(yīng)用1950年-2014年麻疹的發(fā)病率構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò),并應(yīng)用構(gòu)建好的LSTM模型預(yù)測(cè)未來5年麻疹發(fā)病率的趨勢(shì)。Chimmula等[6]構(gòu)建LSTM模型對(duì)加拿大新冠肺炎病例數(shù)進(jìn)行了預(yù)測(cè)研究。Shastri等[19]構(gòu)建并應(yīng)用LSTM模型預(yù)測(cè)印度和美國新冠肺炎的病例數(shù)。
禽霍亂的傳播受交通運(yùn)輸、貿(mào)易和飼養(yǎng)管理等因素影響[20]。而本研究使用的時(shí)間序列分析法是在已知疾病數(shù)據(jù)的基礎(chǔ)上去預(yù)測(cè)未來疾病的發(fā)展趨勢(shì),該方法假定預(yù)測(cè)對(duì)象的變化與時(shí)間變化有關(guān),克服了無法收集疫病復(fù)雜影響因素的困難[21]。在本研究中,應(yīng)用MATLAB 2020b軟件構(gòu)建EEMD-LSTM模型后,首先對(duì)模型進(jìn)行訓(xùn)練,在訓(xùn)練模型時(shí),禽霍亂的發(fā)病數(shù)據(jù)經(jīng)EEMD分解為6個(gè)固有模態(tài)函數(shù)IMF和1個(gè)殘差Residual(圖2),其分解后的序列周期性簡單,易于模型的識(shí)別和學(xué)習(xí)。然后對(duì)模型終止訓(xùn)練時(shí)的預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)進(jìn)行驗(yàn)證(圖3),并計(jì)算實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)的線性回歸系數(shù)R2值和組內(nèi)相關(guān)系數(shù)ICC值(圖4),分析訓(xùn)練期模型的可信度。最后應(yīng)用訓(xùn)練好的EEMD-LSTM模型進(jìn)行禽霍亂的預(yù)測(cè),并將實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)進(jìn)行驗(yàn)證,發(fā)現(xiàn)其擬合結(jié)果良好(圖5),并計(jì)算模型預(yù)測(cè)期的實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)的線性回歸系數(shù)R2值和組內(nèi)相關(guān)系數(shù)ICC值(圖6),分析預(yù)測(cè)期模型的可信度,高翔等[17,22]應(yīng)用該方法分析模型預(yù)測(cè)的豬巴氏桿菌病預(yù)測(cè)發(fā)病數(shù)與實(shí)際發(fā)病數(shù)的一致性,說明該方法具有一定的可信度。
本研究結(jié)果顯示,模型訓(xùn)練期禽霍亂的實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)的R2和ICC值分別為0.993 5和0.997,其ICC值大于0.75并接近于1,表明該組合模型具有良好的預(yù)測(cè)能力,可用于預(yù)測(cè)未來禽霍亂的發(fā)病趨勢(shì)。模型預(yù)測(cè)期的禽霍亂實(shí)際發(fā)病數(shù)與預(yù)測(cè)發(fā)病數(shù)的R2和ICC值分別為0.7505和0.825,其ICC值大于0.75,同時(shí)大于Landis和Koch的建議值0.80[15],進(jìn)一步說明該組合模型具有較高的可信度。
本研究結(jié)果表明,應(yīng)用EEMD-LSTM模型能夠較為準(zhǔn)確的預(yù)測(cè)未來禽霍亂的發(fā)病趨勢(shì),并且該組合模型的預(yù)測(cè)結(jié)果具有較高的可信度,可為禽霍亂的防控提供參考,同時(shí)也為該模型的其他應(yīng)用研究提供理論依據(jù)。