朱宗玖,趙藝偉
(安徽理工大學(xué) 電氣與信息工程學(xué)院,安徽 淮南 232001)
空氣污染不僅會(huì)對(duì)身體健康產(chǎn)生威脅,嚴(yán)重者將會(huì)影響國(guó)家的長(zhǎng)遠(yuǎn)發(fā)展,不能以犧牲環(huán)境來(lái)?yè)Q取一時(shí)的利益[1]??諝赓|(zhì)量主要受CO、SO2、NO2、O3、PM2.5和PM10這六種因素影響,將其與空氣質(zhì)量指數(shù)(air quality index, AQI)結(jié)合可以直觀地反映空氣質(zhì)量[2]。在預(yù)測(cè)模型中,支持向量機(jī)(SVM)和最小二乘支持向量機(jī)(LSSVM)的使用較為廣泛,但其均不能準(zhǔn)確選擇參數(shù)。因此,何柳等[3]通過(guò)改進(jìn)的灰狼算法(DEGWO)對(duì)SVM模型的懲罰參數(shù)和核函數(shù)進(jìn)行尋優(yōu),建立最優(yōu)DEGWO-SVM診斷模型對(duì)電力變壓器進(jìn)行故障診斷;韓旺龍等[4]通過(guò)魚(yú)群優(yōu)化算法進(jìn)行參數(shù)γ和σ的尋優(yōu),采用徑向基函數(shù)作為核函數(shù),建立土壤水分流失預(yù)測(cè)模型;彭軍龍等[5]采用麻雀搜索算法(SSA)對(duì)LSSVM模型的正則化參數(shù)c和核函數(shù)參數(shù)σ進(jìn)行優(yōu)化,以彌補(bǔ)LSSVM模型參數(shù)確定困難的缺陷;王紅雨[6]通過(guò)海鷗算法(SOA)對(duì)LSSVM模型進(jìn)行優(yōu)化,得到壓降預(yù)測(cè)模型;欒洲等[7]通過(guò)灰狼優(yōu)化(GWO)算法進(jìn)行懲罰因子c和核函數(shù)參數(shù)σ的尋優(yōu),再通過(guò)隨機(jī)森林(RF)計(jì)算每個(gè)特征的重要性和GWO-LSSVM共同建立預(yù)測(cè)模型,對(duì)地表下沉系數(shù)進(jìn)行預(yù)測(cè)。相比于SVM模型來(lái)說(shuō),LSSVM模型在一定程度上降低了求解難度,更能適合于求解大規(guī)模問(wèn)題,可以獲得較快的速度和較高的精度,因此,選擇選取最小二乘支持向量機(jī)進(jìn)行預(yù)測(cè)。上述文獻(xiàn)中,雖然各模型都能實(shí)現(xiàn)預(yù)測(cè),但精度不高,容易擴(kuò)大尋優(yōu)范圍使迭代次數(shù)增加,不利于尋找最優(yōu)解。綜上,提出一種基于多個(gè)子種群,可以利用不同時(shí)間段的信息對(duì)搜索空間進(jìn)行徹底的探索,追求更強(qiáng)的搜索能力,以避免陷入局部最優(yōu)的蜣螂優(yōu)化算法(DBO)。本研究將LSSVM模型與蜣螂算法相結(jié)合,形成DBO-LSSVM預(yù)測(cè)模型,旨在探索開(kāi)發(fā)一種新型高效率、高精度的預(yù)測(cè)模型。將該模型應(yīng)用于空氣質(zhì)量指數(shù)預(yù)測(cè)具有一定的重要意義與應(yīng)用價(jià)值。
最小二乘支持向量機(jī)(least squares support vector machine, LSSVM),LSSVM是SVM(支持向量機(jī))的一種改進(jìn)算法,它是將傳統(tǒng)的支持向量機(jī)中的不等式約束改為等式約束,且將誤差平方和損失函數(shù)作為訓(xùn)練集的經(jīng)驗(yàn)損失,把解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程組問(wèn)題,提高求解問(wèn)題的速度和收斂精度,是機(jī)器學(xué)習(xí)中應(yīng)用較廣泛的一種建模方法[8-10]。
LSSVM模型常采用的核函數(shù)有高斯徑向基核函數(shù)(radial basis function, RBF)、線性核函數(shù)和多項(xiàng)式核函數(shù)。
蜣螂優(yōu)化(Dung Beetle Optimizer, DBO)算法是2022年11月,由提出麻雀搜索算法(SSA)的東華大學(xué)沈波教授團(tuán)隊(duì)提出的一種全新群智能優(yōu)化算法。對(duì)蜣螂的滾球、覓食、偷竊和繁殖行為進(jìn)行數(shù)學(xué)建模,提出了DBO算法也可稱(chēng)為蜣螂優(yōu)化器。該算法將種群中的蜣螂進(jìn)行了分配,完成這四個(gè)不同的行為。DBO算法主要包括四個(gè)過(guò)程:滾球、繁殖、覓食和偷竊[11]。
蜣螂滾球行為分為有障礙物模式和無(wú)障礙物模式。
當(dāng)處于無(wú)障礙模式中時(shí),蜣螂利用太陽(yáng)導(dǎo)航,此時(shí)光源的強(qiáng)度會(huì)對(duì)其位置產(chǎn)生影響,位置更新如式(1)所示。
xi(t+1)=xi(t)+akxi(t-1)+
b|xi-xw|
(1)
式(1)中,t表示當(dāng)前迭代次數(shù),xi(t)表示種群中第i只蜣螂在第t次迭代時(shí)的位置。α為1時(shí)表示路線無(wú)偏差,-1時(shí)表示偏離原方向。xw表示種群中的最差位置,|xi-xw|用來(lái)表示光強(qiáng)的變化,數(shù)值越大光源越弱。k為偏轉(zhuǎn)系數(shù),b為(0,1)的一個(gè)常數(shù)值。
當(dāng)處于有障礙模式時(shí),蜣螂需要通過(guò)跳舞來(lái)獲得新的前進(jìn)方向,算法提出者使用了切線函數(shù)來(lái)模仿跳舞行為,得到新的滾動(dòng)方向,此時(shí)位置更新表達(dá)式如式(2)所示。
xi(t+1)=xi(t)+tan(θ)|xi(t)-
xi(t-1)|
(2)
式(2)中,θ為偏轉(zhuǎn)角,|xi(t)-xi(t-1)|為第t-1次和第t次的位置之差。
蜣螂為了給后代提供安全的環(huán)境,通常會(huì)選擇合適的產(chǎn)卵地點(diǎn)。因此,提出了模擬蜣螂產(chǎn)卵的區(qū)域邊界選擇策略,如式(3)所示。
(3)
Bi(t+1)=xb+b1(Bi(t)-Lb*)+
b2(Bi(t)-Ub*)
(4)
式(4)中,Bi(t)為第i個(gè)卵在第t次迭代時(shí)的位置,b1和b2是大小為1×D的獨(dú)立隨機(jī)向量,D為優(yōu)化問(wèn)題的維數(shù)。
一些蜣螂會(huì)從地下出來(lái)尋找食物,其最佳覓食區(qū)域是動(dòng)態(tài)更新的,如式(5)所示。
(5)
式(5)中,R與前文相同,xg為當(dāng)前種群的局部的最優(yōu)位置,Ubg和Lbg分別為出來(lái)覓食的蜣螂活動(dòng)范圍上下界,此時(shí)出來(lái)覓食的蜣螂位置更新如式(6)所示。
xi(t+1)=xi(t)+C1(xi(t)-Lbg)+
C2(xi(t)-Ubg)
(6)
式(6)中,C1為服從正態(tài)分布的隨機(jī)數(shù),C2為1×D的屬于(0,1)之間的隨機(jī)向量。
在種群中,有一些蜣螂會(huì)偷取其他蜣螂的糞球,在迭代過(guò)程中,偷竊者的位置更新如式(7)所示。
xi(t+1)=xg+Sg(|xi(t)-
xb|+|xi(t)-xg|)
(7)
式(7)中,g為服從正態(tài)分布的大小為1×D的隨機(jī)向量,S是一個(gè)常數(shù)。
綜上所述,與其他算法相比不同的是,它不是基于雙種群的,而是基于多個(gè)子種群,每個(gè)子種群執(zhí)行不同的搜索方式,算法的提出者將其劃分成了四個(gè)子種群。因此,DBO算法在探索或開(kāi)發(fā)方面比其他算法更具競(jìng)爭(zhēng)力,可以利用不同時(shí)間段的信息對(duì)搜索空間進(jìn)行徹底的探索,追求更強(qiáng)的搜索能力,以避免陷入局部最優(yōu);R參數(shù)具有動(dòng)態(tài)變化的特點(diǎn),可以進(jìn)一步激發(fā)算法的探索和開(kāi)發(fā)狀態(tài);不同的區(qū)域搜索策略,可以促進(jìn)算法的利用行為;不同的更新規(guī)則,可以保證所開(kāi)發(fā)的算法在局部和全局搜索能力之間保持足夠的平衡。
LSSVM以徑向基函數(shù)(RBF)為模型預(yù)測(cè)的內(nèi)核,而參數(shù)的選擇對(duì)模型的影響較大,人為的對(duì)參數(shù)進(jìn)行確定,會(huì)使該模型的精度以及預(yù)測(cè)性能降低。而利用蜣螂優(yōu)化算法來(lái)選擇合適的參數(shù),使人為選參致使的誤差變大問(wèn)題得以解決。參數(shù)選擇的步驟如下。
(1)初始化蜣螂群和DBO優(yōu)化算法運(yùn)行參數(shù)初值;
(2)根據(jù)目標(biāo)函數(shù)計(jì)算出所有agent的適應(yīng)度值;
(3)更新所有蜣螂位置;
(4)判斷每個(gè)agent是否超出邊界;
(5)更新當(dāng)前最優(yōu)解及其適應(yīng)度值;
(6)根據(jù)設(shè)定的迭代次數(shù)或結(jié)束運(yùn)行條件,對(duì)
上述步驟進(jìn)行循環(huán);
(7)得到最優(yōu)解。
根據(jù)以上步驟構(gòu)建DBO-LSSVM預(yù)測(cè)模型如圖1所示。
圖1 DBO-LSSVM預(yù)測(cè)模型流程圖
選擇四個(gè)標(biāo)準(zhǔn)函數(shù)來(lái)驗(yàn)證DBO算法的有效性,F1-F3為單峰函數(shù),F4為多峰函數(shù),測(cè)試函數(shù)具體內(nèi)容如表1所示。將DBO和灰狼優(yōu)化算法(GWO)、麻雀搜索算法(SSA)、鯨魚(yú)優(yōu)化算法(WOA)、北方蒼鷹優(yōu)化算法(NGO)進(jìn)行對(duì)比,設(shè)置每種算法種群規(guī)模為30,最大迭代次數(shù)500,在MATLAB 2022b中進(jìn)行算法編程和運(yùn)行仿真,每個(gè)算法獨(dú)立運(yùn)行30次。
表1 標(biāo)準(zhǔn)函數(shù)信息
將算法進(jìn)行對(duì)比觀察其收斂性能和尋優(yōu)精度,取得的數(shù)據(jù)如表2所示,根據(jù)最優(yōu)值和平均值來(lái)考察算法的性能。在求解函數(shù)F2時(shí),DBO算法對(duì)比其余算法至少提高了5個(gè)數(shù)量級(jí);在求解函數(shù)F3時(shí),DBO算法對(duì)比其余算法至少提高了35個(gè)數(shù)量級(jí);在求解函數(shù)F4時(shí),均接近理論最優(yōu)值。實(shí)驗(yàn)結(jié)果表明,DBO算法具有較好的精度和收斂性,其穩(wěn)定性也相對(duì)較好。
表2 各算法對(duì)應(yīng)測(cè)試結(jié)果
使用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站的全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布平臺(tái)發(fā)布的成都市公開(kāi)數(shù)據(jù),包括PM2.5、PM10、SO2、NO2、CO、O3和AQI指數(shù)等指標(biāo)。除此之外,使用成都市2021年3月至2022年3月間的每天的數(shù)據(jù)作為數(shù)據(jù)集,按照7:3來(lái)劃分訓(xùn)練集和測(cè)試集在MATLAB R2022b軟件上進(jìn)行仿真實(shí)驗(yàn)。
使用決定系數(shù)R2(coefficient of determination)平均絕對(duì)誤差MAE(mean absolute error)和均方誤差MSE(mean square error)三種評(píng)估指標(biāo)來(lái)更好的對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)估,如式(8)-式(10)所示。
(8)
(9)
(10)
設(shè)置種群數(shù)量為30、迭代次數(shù)為50時(shí),DBO-LSSVM模型的收斂曲線如圖2所示。
圖2 DBO-LSSVM模型收斂圖
將處理后的數(shù)據(jù)輸入模型,以七三來(lái)劃分訓(xùn)練集和測(cè)試集,對(duì)DBO-LSSVM模型進(jìn)行訓(xùn)練如圖3所示。通過(guò)結(jié)果圖可以得出結(jié)論:無(wú)論是在訓(xùn)練集還是測(cè)試集,曲線波動(dòng)走向近乎一致,空氣質(zhì)量指數(shù)的預(yù)測(cè)值和真實(shí)值都非常貼近。這就說(shuō)明此模型對(duì)空氣質(zhì)量指數(shù)的預(yù)測(cè)誤差小且精確度較高。
(a)訓(xùn)練集對(duì)比圖
為驗(yàn)證對(duì)于空氣質(zhì)量指數(shù)預(yù)測(cè),DBO-LSSVM模型是否相對(duì)具有優(yōu)勢(shì),將LSSVM模型和灰狼算法優(yōu)化最小二乘支持向量機(jī)模型(GWO-LSSVM)與其進(jìn)行比對(duì)。將LSSVM和GWO-LSSVM和DBO-LSSVM模型在測(cè)試集上的預(yù)測(cè)評(píng)價(jià)指標(biāo)進(jìn)行記錄,并且將三種模型預(yù)測(cè)值與真實(shí)值的擬合程度分析進(jìn)行對(duì)比,如表3和圖4所示。
表3 評(píng)價(jià)指標(biāo)數(shù)據(jù)表
(a)LSSVM模型擬合程度圖
從表3和圖4中可以清晰的看出,提出的DBO-LSSVM模型的MSE、MAE值均低于另外兩個(gè)模型,分別為3.5440和1.3385。其中MAE、MSE值較LSSVM模型分別降低了0.3727、3.1161;較GWO-LSSVM模型降低了0.2027、1.1568;除此之外,R2值和擬合程度分析圖也均為最佳。由此可得,LSSVM模型通過(guò)DBO尋找最優(yōu)參數(shù),最終得到了更為精準(zhǔn)的AQI預(yù)測(cè)效果。
提出了一種基于蜣螂優(yōu)化算法對(duì)最小二乘支持向量機(jī)的空氣質(zhì)量指數(shù)預(yù)測(cè)模型,蜣螂優(yōu)化算法是新提出的算法,其性能優(yōu)于SSA、GWO、WOA等算法。通過(guò)仿真實(shí)驗(yàn)證明了與其他兩種模型相比較DBO-LSSVM模型不僅預(yù)測(cè)精度較高,而且速度也得到了改善,三種評(píng)價(jià)指標(biāo)值皆為最佳且誤差波動(dòng)最小。綜上所述,此模型對(duì)空氣質(zhì)量指數(shù)可以提供更為精確的預(yù)測(cè),算法穩(wěn)健性和預(yù)測(cè)精度較其他模型可以達(dá)到更高。
黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版)2024年1期