胡紅萍,喬世昌,孔慧華,徐喬王,白艷萍
(1.中北大學 理學院,山西 太原 030051;2.臨汾市財政局 國際金融組織貸款服務中心,山西 臨汾 041000)
新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)由于其高傳染性和高致病性,嚴重威脅到了人類的生命安全,并已迅速蔓延到全球,成為全球關注的問題之一.自疫情暴發(fā)以來,我國進行了全民總動員,真正做到“早發(fā)現(xiàn),早隔離”.但由于境外輸入COVID-19和無癥狀感染的影響,疫情防控仍然面臨反彈壓力.因此有效地預測COVID-19的累計確診人數(shù)對COVID-19的防控具有非常大的價值.
目前,常用的預測方法有差分自回歸移動平均乘積季節(jié)模型[1],群智能算法優(yōu)化神經(jīng)網(wǎng)絡模型[2?3],多尺度組合模型[4],隨機森林算法和模糊信息?;幕旌纤惴╗5],經(jīng)驗模態(tài)分解和極限學習機的組合預測模型[6],等等.隨著群智能算法和機器學習的不斷改進,預測模型也隨之增加,更利于解決實際問題.如用螢火蟲算法優(yōu)化長短時記憶神經(jīng)網(wǎng)絡,并利用其預測生豬價格[2];將粒子群算法和差分進化相結合優(yōu)化自適應小波神經(jīng)網(wǎng)絡的初始化網(wǎng)絡參數(shù),進而對風電功率超短期多步預測[3];利用改進的灰狼算法優(yōu)化Elman神經(jīng)網(wǎng)絡,對基于基因表達譜的乳腺癌進行識別[7];利用改進粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡對甜菜產(chǎn)量進行預測[8]等.
最近很多學者將群智能算法和機器學習相結合對COVID-19進行預測.例如,文獻[9]利用機器學習、自適應神經(jīng)模糊推理系統(tǒng)和增強甲蟲天線搜索群智能元啟發(fā)式相結合的混合方法預測COVID-19確診人數(shù);文獻[10]利用遞歸神經(jīng)網(wǎng)絡對COVID-19確診人數(shù)進行預測;文獻[11]利用集合經(jīng)驗模態(tài)分解和自回歸移動平均模型對COVID-19全球預測系統(tǒng)預測結果進行改進.
樽海鞘群算法(Salp Swarm Algorithm,SSA)是受深海中樽海鞘的航行和覓食行為啟發(fā)提出的[12].自SSA提出以來,研究者已對SSA做了很多改進.例如,將SSA中樽海鞘鏈的領頭者的搜索方式修改為貪婪的交叉選擇方法,加強了SSA的性能且避免陷入局部最優(yōu)[13];將正余弦算法和干擾算子加到SSA得到了一種特征選擇方法[14];將混沌映射加入SSA中代替隨機數(shù)建立了混沌SSA(CSSA),并且將CSSA與2維曲波變換和深度學習技術相結合用于X射線圖像對COVID-19進行診斷[15];將SSA的樽海鞘的位置更新修改為Singer的混沌映射,在開發(fā)階段使用局部搜索算法,得到動態(tài)的SSA[16].
本文針對其他樽海鞘對鏈中第i個跟隨者均有影響的問題,提出加權平均樽海鞘群算法(Average Salp Swarm Algorithm,AVSSA),并通過23個基準函數(shù)驗證AVSSA的有效性,進而用AVSSA優(yōu)化BP神經(jīng)網(wǎng)絡的權值和偏差,建立預測境外輸入COVID-19的預測模型AVSSA-BP.
樽海鞘群算法是受深海中樽海鞘的航行和覓食行為的啟發(fā)提出的[12].樽海鞘有透明的桶形身體,其組織非常類似于在海洋中發(fā)現(xiàn)的水母,它們像水母一樣通過身體泵水前進.SSA是從樽海鞘的群體行為中獲得的,它是以樽海鞘群體構成一個樽海鞘鏈,在該鏈中,第一個樽海鞘為領導者,其余的樽海鞘為跟隨者.
設F是n維搜索空間中的食物源,將其作為樽海鞘鏈的目標.與F相關的領導者的更新位置的方式為:
其中:l是當前迭代次數(shù),L是迭代的最大次數(shù).
根據(jù)牛頓運動定律,跟隨者xs的位置更新方式為:
由于優(yōu)化的時間是迭代t,迭代之間的差異為1,在v0=0時,方程(3)變?yōu)椋?/p>
在SSA中,第i個跟隨者的位置更新方式定義為方程(4),為第i個跟隨者和第i-1個跟隨者的位置的平均值,這可能導致樽海鞘鏈中前i個跟隨者對第i個跟隨者的影響不大.為此,將樽海鞘鏈中第i個跟隨者的位置更新改進為前i個跟隨者的加權平均,即:
其中:c1與方程(2)中的定義相同.我們將此改進稱為加權平均SSA,記為AVSSA.
為驗證所提算法AVSSA的有效性,選取了5個比較的優(yōu)化算法:蟻獅優(yōu)化器(ALO)、灰狼優(yōu)化器(GWO)、飛蛾撲火優(yōu)化(MFO)算法、鯨優(yōu)化算法(WOA)和樽海鞘群算法(SSA).本文所采用的23個基準函數(shù)F1(x)~F23(x)來源于文獻[17],其中:F1(x)~F7(x)為7個n維單峰函數(shù),F(xiàn)8(x)~F13(x)為6個n維多峰函數(shù),F(xiàn)14(x)~F23(x)為10個固定維數(shù)的基準函數(shù).在Win10 64bit專業(yè)平臺和64 GB RAM下Matlab R2019a工具箱下運行這6個算法.
在這6個可比較的算法中,種群大小為50,最大迭代次數(shù)T=500.每個可比較的算法獨立運行30次.將這30次獨立運行的每個算法所獲得的全局最小值的平均值(Avg.)和標準差(Std.)作為評價算法的性能指標.
獨立運行這6個算法30次,得到了23個基準函數(shù)的最小函數(shù)值的Avg.和Std.,如表1所示.部分基準函數(shù)的收斂曲線如圖1所示.由圖1可見,AVSSA有最好的收斂性能.由表1可知,利用AVSSA得到單峰函數(shù)F1(x)~F4(x),F(xiàn)7(x)的Avg.分別為1.18×10?145、1.61×10?73、2.66×10?145、1.15×10?73和5.81×10?5,這些都最接近全局最小值0,而AVSSA和SSA在函數(shù)F6(x)上有相近的Avg..AVSSA在多峰函數(shù)F9(x)和F11(x)上的Avg.達到全局最小值0,在函數(shù)F7(x)、F10(x)和F12(x)的Avg.分別是5.81×10?5、8.88×10?16和4.40×10?3,這些都最接近全局最小值0,且在多峰函數(shù)F13(x)上的Avg.與其它可比較的算法具有相同的數(shù)量級.對于固定維數(shù)的函數(shù)F16(x)~F19(x),所有可比較的算法AVSSA、SSA、ALO、GWO、MFO和WOA都達到了全局最小值-1.031 6、3、0.398和-3.86,但AVSSA有最小的Std..對于固定維數(shù)的函數(shù)F22(x),AVSSA得到了最小的Avg.-8.326 6,最接近于全局最小值-10.402 8.
圖1 部分基準函數(shù)的收斂曲線
表1 23個基準函數(shù)的Avg.和Std.
基于上述分析和討論,所提出的算法AVSSA優(yōu)于其它可比較的算法SSA、ALO、GWO、MFO和WOA,更適于基準函數(shù)的極值尋優(yōu).
利用所提出的AVSSA優(yōu)化有一個隱含層的BP神經(jīng)網(wǎng)絡的參數(shù):輸入層與隱含層的連接權值W,隱含層與輸出層的連接層的連接權值W′,隱含層的偏差b和輸出層的偏差b′.將此預測模型記為AVSSA-BP,具體步驟為:
步驟1:初始化.初始化的參數(shù)包括樽海鞘鏈中樽海鞘的大小、最大迭代次數(shù)、隱含層中神經(jīng)元節(jié)點的個數(shù)、終止條件.
步驟2:將鏈中的每個樽海鞘映射為連接權值W和W′,偏差b和b′.選取函數(shù)
作為AVSSA的適應度函數(shù),其中Q是樣本數(shù),yis和分別是第s個樣本的預測輸出和目標輸出.
步驟3:執(zhí)行AVSSA算法,利用公式(1)和(5)分別更新鏈中領導者和跟隨者的位置.
步驟4:若滿足終止條件,則返回AVSSA算法的食物源F,轉向步驟5.否則執(zhí)行AVSSA,轉向步驟2.
步驟5:將食物源F映射為連接權值W和W′,偏差b和b′,訓練和測試BP神經(jīng)網(wǎng)絡.
預測模型AVSSA-BP的流程圖如圖2所示.
圖2 AVSSA-BP模型的流程圖
本文所采用的COVID-19數(shù)據(jù)為2020年3月5日至2020年10月6日國家衛(wèi)健委公布的境外輸入COVID-19累計確診病例數(shù),網(wǎng)站為http://www.nhc.gov.cn/xcs/xxgzbd/gzbd-index.shtml.所采用的COVID-19數(shù)據(jù)利用前3天的COVID-19累計確診病例數(shù)預測第4天的COVID-19累計確診病例數(shù).得到了214組3維輸入數(shù)據(jù),再刪除最后一組3維數(shù)據(jù),這樣就得到了213組輸入數(shù)據(jù),將前192組數(shù)據(jù)作為訓練數(shù)據(jù),剩下的21組數(shù)據(jù)作為測試數(shù)據(jù).
為驗證AVSSA-BP的預測性能,我們?nèi)匀贿x取SSA、ALO、GWO、MFO和WOA優(yōu)化BP神經(jīng)網(wǎng)絡的參數(shù),建立預測模型SSA-BP、ALO-BP、GWO-BP、MFO-BP和WOA-BP進行比較,并與BP神經(jīng)網(wǎng)絡進行比較.
在本文中,平均絕對誤差(Mean Absolute Error,MAE),根均方差誤差(Root Mean Square Error,RMSE),平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和確定性系數(shù)R2[16]作為預測模型AVSSA-BP的評價指標.
在預測模型AVSSA-BP的BP神經(jīng)網(wǎng)絡中,輸入層神經(jīng)元的個數(shù)為3,輸出層的節(jié)點個數(shù)為1.經(jīng)過大量的實驗,選取預測模型AVSSA-BP中BP神經(jīng)網(wǎng)絡的隱含層的神經(jīng)元節(jié)點數(shù)為6.這樣我們將AVSSA-BP中樽海鞘鏈的每個樽海鞘映射為輸入層與隱含層之間的連接權值W,隱含層與輸出層之間的連接權值W′,隱含層的偏差b和輸出層的偏差b′,這樣預測模型AVSSA-BP中樽海鞘鏈的每個樽海鞘的維數(shù)為3×6+6×1+6+1=31,并選擇方程(7)作為AVSSA的適應度函數(shù).
在實驗中,AVSSA-BP、SSA-BP、ALO-BP、GWO-BP、MFO-BP和WOA-BP的種群大小為50,最大迭代次數(shù)為100.獨立運行BP神經(jīng)網(wǎng)絡,AVSSA-BP、SSA-BP、ALO-BP、GWO-BP、MFO-BP、WOA-BP和BP各30次,得到7個預測模型AVSSA-BP、SSA-BP、ALO-BP、GWO-BP、MFO-BP、WOA-BP和BP的21個測試樣本的預測值的平均值和評價指標,分別見表2和表3.
表2 測試數(shù)據(jù)的預測值
表3 測試數(shù)據(jù)的評價指標
由表3可知,利用AVSSA-BP得到的境外輸入病例確診的COVID-19累計病例數(shù)預測的平均MAE、RMSE和MAPE最小,分別為4.311 0、1.413 4和0.154 7,且具有最高的平均確定性系數(shù).因此,預測模型AVSSA-BP優(yōu)于其它預測模型SSA-BP、ALO-BP、GWO-BP、MFO-BP、WOA-BP和BP.實驗結果表明AVSSA算法能有效地優(yōu)化神經(jīng)網(wǎng)絡的參數(shù)實現(xiàn)COVID-19的預測.
本文對SSA中樽海鞘鏈中第i個跟隨者的位置更新進行了改進,得到加權平均的SSA,記為AVSSA.將AVSSA與BP神經(jīng)網(wǎng)絡相結合,對境外輸入確診COVID-19累計病例建立了預測模型AVSSA-BP,且AVSSA-BP具有最小的預測誤差MSE、MAE、RMSE和MAPE,最高的確定性系數(shù)R2.實驗結果表明AVSSA-BP優(yōu)于SSA-BP、ALOBP、GWO-BP、MFO-BP、WOA-BP和BP模型.
在以后的研究中,我們還可以對SSA算法進行改進,并將其與其他一種或多種群智能算法相結合,建立新的混合算法來提高其性能.這些新算法可以用來優(yōu)化某些機器學習算法的參數(shù),以解決預測和分類問題.