国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GWO-XGBoost 的工業(yè)污水水質(zhì)關(guān)鍵數(shù)據(jù)預(yù)測(cè)算法

2024-01-25 11:02:40牛景輝
工業(yè)水處理 2024年1期
關(guān)鍵詞:污水處理斷面水質(zhì)

牛景輝

(天津石油職業(yè)技術(shù)學(xué)院,天津 301607)

在工業(yè)污水處理領(lǐng)域,對(duì)水質(zhì)指標(biāo)的變化進(jìn)行預(yù)測(cè)能更好地優(yōu)化工業(yè)污水設(shè)施管理水平〔1-3〕。以實(shí)際工業(yè)污水處理過程的pH 和濁度為例,進(jìn)出水水質(zhì)的預(yù)測(cè)任務(wù)對(duì)污水處理工藝控制非常關(guān)鍵。對(duì)污水指標(biāo)預(yù)測(cè)的相關(guān)理論研究近年來獲得了國內(nèi)外高度關(guān)注。預(yù)測(cè)工業(yè)污水?dāng)?shù)據(jù)的方法主要分成兩大類,一類是基于水質(zhì)處理過程建模的方法〔4-5〕,另一類是數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)方法〔6-7〕。水質(zhì)處理的機(jī)理建模存在較多的非線性參數(shù),機(jī)理數(shù)學(xué)建模過程復(fù)雜繁瑣,預(yù)測(cè)精度容易受到數(shù)據(jù)噪聲的干擾影響,且一般只能針對(duì)特定污水處理工藝過程進(jìn)行,遷移性具有很大的限制。隨著污水處理的計(jì)算機(jī)自動(dòng)化控制技術(shù)的發(fā)展,數(shù)據(jù)信息化積累了大量的污水處理監(jiān)測(cè)數(shù)據(jù)。如何有效地利用污水處理的監(jiān)測(cè)數(shù)據(jù)是亟需解決的問題。有許多數(shù)據(jù)驅(qū)動(dòng)類方法被引入污水處理數(shù)據(jù)的預(yù)測(cè)中,如:回歸統(tǒng)計(jì)、時(shí)間序列分析、BP 神經(jīng)網(wǎng)絡(luò)、長短時(shí)回憶網(wǎng)絡(luò)等方法可以對(duì)數(shù)據(jù)做到較為準(zhǔn)確的預(yù)測(cè)。N. BHOJ 等〔8〕提出了融合深度學(xué)習(xí)算法的時(shí)間序列預(yù)測(cè)方法,該方法可識(shí)別數(shù)據(jù)特征和異常情況,能夠較準(zhǔn)確地預(yù)測(cè)數(shù)據(jù)變化趨勢(shì),并指出利用優(yōu)化算法提升預(yù)測(cè)算法效果具有很大空間。Fenghua YANG 等〔9〕將提出了基于長短時(shí)回憶神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)水質(zhì)的方法,該方法用于預(yù)測(cè)水質(zhì)處理藥劑的投加量,提升了污水處理的運(yùn)行管理水平。K. BANERJ 等〔10〕研究了使用SVM 回歸等多種機(jī)器學(xué)習(xí)算法,該方法結(jié)合了多種水質(zhì)數(shù)據(jù)變量,實(shí)現(xiàn)了較為準(zhǔn)確的水質(zhì)數(shù)據(jù)變化預(yù)測(cè)。唐亦舜等〔11〕將非線性自回歸算法用于神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,實(shí)現(xiàn)了對(duì)污水pH 和DO 等水質(zhì)數(shù)據(jù)良好的預(yù)測(cè)效果,但是調(diào)整參數(shù)比較繁瑣。何丹等〔12〕通過粒子群算法改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行污水處理過程的預(yù)測(cè),使神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法的收斂速度進(jìn)一步提升,跳出局部極值點(diǎn),實(shí)現(xiàn)了算法預(yù)測(cè)效果的優(yōu)化。王立輝等〔13〕基于灰狼優(yōu)化(Grey Wolf Optimizer,GWO)算法改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)能夠減少參數(shù)調(diào)整的復(fù)雜程度進(jìn)而執(zhí)行數(shù)據(jù)預(yù)測(cè),在水流量預(yù)測(cè)中發(fā)現(xiàn)具有良好的效果。王春玲等〔14〕對(duì)水質(zhì)的COD數(shù)據(jù)采用了XGboost 構(gòu)建預(yù)測(cè)算法模型,并且利用了主成分分析算法進(jìn)行了數(shù)據(jù)預(yù)處理,提升了算法訓(xùn)練速度和水質(zhì)預(yù)測(cè)精度,與多種機(jī)器學(xué)習(xí)算法對(duì)照,表明XGBoost 算法預(yù)測(cè)效果最優(yōu)。

因此,筆者提出了通過XGBoost 模型構(gòu)建污水的關(guān)鍵水質(zhì)數(shù)據(jù)預(yù)測(cè)算法,另外針對(duì)其需要調(diào)整參數(shù)較多的問題,采用了灰狼優(yōu)化算法進(jìn)行模型參數(shù)的優(yōu)化調(diào)整。此外考慮到水質(zhì)數(shù)據(jù)的復(fù)雜隨機(jī)非線性特征,數(shù)據(jù)經(jīng)過預(yù)處理后,預(yù)測(cè)算法能夠更好地提取水質(zhì)數(shù)據(jù)的特征,最后通過與默認(rèn)參數(shù)的XGBoost、LSTM 算法進(jìn)行預(yù)測(cè)對(duì)照,檢驗(yàn)了該算法的穩(wěn)定性和能達(dá)到預(yù)期效果的能力。

1 預(yù)測(cè)模型方法

1.1 灰狼優(yōu)化原理

狼群有其獨(dú)特的狩獵方式,GWO 通過研究其行為模式進(jìn)行了數(shù)學(xué)建模。借由模仿狼群的移動(dòng)模式來實(shí)現(xiàn)目標(biāo)的最優(yōu)化。在種群內(nèi)部,個(gè)體有α、β、δ3 個(gè)等級(jí),分別是頭狼、第二級(jí)別、第三級(jí)別。其圍獵過程如下:

第一步是包圍獵物:

式中:t——當(dāng)前的代數(shù);

A、C——協(xié)同系數(shù)向量;

Xp——獵物的位置向量;

X——灰狼的位置向量;

D——灰狼與獵物之間的坐標(biāo)距離。

A、C的計(jì)算方法如下:

式中,a是收斂因數(shù),伴隨迭代次數(shù)變多,從2 線性降低到0;r1、r2是[0,1]的隨機(jī)數(shù)向量。

第二步是抓捕獵物:由于獵物的坐標(biāo)未知,可以知道目標(biāo)的最優(yōu)值也未知。采用以下思路:假定α是最接近獵物的,β、δ其次,用式(5)~式(7)測(cè)算α、β、δ與獵物的距離。伴隨著不斷更新α、β、δ狼的坐標(biāo)〔式(8)~式(10)〕來召喚其他灰狼不斷接近獵物〔式(11)〕,最后認(rèn)定α狼的坐標(biāo)就是獵物的坐標(biāo)。為增加隨機(jī)性,減小陷入局部極值的概率,在位置迭代計(jì)算公式上增加了隨機(jī)項(xiàng)rand。因本研究中所有的參數(shù)被歸一化到[0,1]區(qū)間內(nèi),所以隨機(jī)項(xiàng)為[0.01,0.1]之間的隨機(jī)數(shù)。其計(jì)算式如下:

式中,Xα(t)、Xβ(t)、Xδ(t)分別為t代時(shí)α、β、δ的位置。

1.2 XGBoost 算法原理

XGBoost 即極端決策提升樹算法,由GBDT 提升樹算法模型演變改造優(yōu)化而來〔15-16〕,通過反向疊加算法,集成Boost 策略改進(jìn)多個(gè)弱學(xué)習(xí)算法融合成1 個(gè)高度精確的學(xué)習(xí)預(yù)測(cè)算法,將多個(gè)學(xué)習(xí)器結(jié)合與預(yù)測(cè)實(shí)際值進(jìn)行評(píng)估誤差疊加加權(quán)求和不斷迭代,改進(jìn)了回歸分類決策樹的結(jié)構(gòu),從而最終實(shí)現(xiàn)提升模型的預(yù)測(cè)效果。XGBoost 算法最重要的核心問題是決策樹疊加融合評(píng)估誤差的目標(biāo)函數(shù):

式中,Loss是實(shí)際值與預(yù)測(cè)值偏差的損失函數(shù),yj是預(yù)測(cè)數(shù)據(jù)的實(shí)際值,y?i是上一個(gè)決策樹算法的結(jié)果,x是輸入數(shù)據(jù),從而擬合多個(gè)決策樹的算法結(jié)果,而fm是決策樹所采用的近似函數(shù),γ是對(duì)決策數(shù)的結(jié)果正則化改進(jìn)懲罰系數(shù)項(xiàng),而基本的決策樹近似求取函數(shù)為:

XGBoost 模型優(yōu)化調(diào)整的主要問題是以所需要預(yù)測(cè)數(shù)據(jù)樣本的特征為輸入,訓(xùn)練改進(jìn)各項(xiàng)函數(shù)的系數(shù)調(diào)整取值,并且最優(yōu)化的數(shù)據(jù)預(yù)測(cè)結(jié)果為目標(biāo),建立最優(yōu)化的XGBoost 模型算法預(yù)測(cè)所需數(shù)據(jù)的結(jié)果。在XGBoost 模型中,通常對(duì)模型預(yù)測(cè)表現(xiàn)影響較大的超參數(shù)有:最大生成樹計(jì)數(shù)、學(xué)習(xí)率、樹的最大深度和最小葉子節(jié)點(diǎn)樣本權(quán)重之和。為降低在參數(shù)調(diào)優(yōu)過程中產(chǎn)生計(jì)算工作量過大的風(fēng)險(xiǎn),僅使用GWO 優(yōu)化以上4個(gè)參數(shù)。

2 工業(yè)污水水質(zhì)關(guān)鍵數(shù)據(jù)GWO-XGBoost預(yù)測(cè)算法構(gòu)建

XGBoost模型超參數(shù)多,難以同時(shí)優(yōu)化。通過GWO優(yōu)化模型超參數(shù)的取值方法進(jìn)一步增強(qiáng)XGBoost 模型的預(yù)測(cè)能力。在XGBoost 模型參數(shù)優(yōu)化階段,狼群種群個(gè)體的適應(yīng)度函數(shù)為該個(gè)體參數(shù)下XGBoost 模型的預(yù)測(cè)結(jié)果與真實(shí)數(shù)據(jù)的均方根誤差(RMSE)。當(dāng)RMSE達(dá)到全局最小值時(shí),認(rèn)為GWO 已經(jīng)尋找到了XGBoost的最佳參數(shù)組合。

使用GWO 優(yōu)化XGBoost 算法流程示意如圖1所示。

圖1 使用GWO 優(yōu)化XGBoost 算法流程示意Fig.1 Using GWO to optimize the XGBoost algorithm process

首先隨機(jī)初始化GWO算法的種群,確定搜索范圍。把當(dāng)前輪的種群所指代的參數(shù)數(shù)據(jù)按照順序?qū)隭GBoost 模型,通過對(duì)XGBoost 模型的訓(xùn)練,獲得XGBoost 模型的計(jì)算結(jié)果。再使用驗(yàn)證集對(duì)此次完成訓(xùn)練的模型進(jìn)行求證,最后獲得適應(yīng)度函數(shù)。以適應(yīng)度函數(shù)的大小評(píng)估種群內(nèi)部各個(gè)體的水平,并計(jì)算得到下一輪的迭代種群內(nèi)各個(gè)體的移動(dòng)方向。如果滿足算法收斂條件,則停止迭代,輸出XGBoost 優(yōu)化后的參數(shù)。若不滿足收斂條件,則按照迭代規(guī)則,更新種群內(nèi)部各個(gè)個(gè)體的位置,重復(fù)上一輪操作。

在啟動(dòng)GWO 算法前,首先確定XGBoost 參數(shù)的取值范圍,其中最大生成樹數(shù)目,取值范圍為100~1 500;學(xué)習(xí)率默認(rèn)值初始設(shè)置為0.30,取數(shù)區(qū)間最小值為0.01、最大值為0.5;樹的最大深度一般初始值設(shè)定為6,取數(shù)區(qū)間最小值為3、最大值為12;最小葉子節(jié)點(diǎn)樣本權(quán)重和一般默認(rèn)數(shù)值設(shè)定為1,取數(shù)區(qū)間最小值為1,最大值為10;確定取數(shù)區(qū)間后,將所有參數(shù)進(jìn)行Min-Max歸一化,即種群的所有個(gè)體為四維空間內(nèi)的向量。同時(shí)設(shè)置狼群數(shù)量為20,最大迭代次數(shù)為200 次。

3 數(shù)據(jù)處理與數(shù)據(jù)集的構(gòu)建

為驗(yàn)證所提算法的有效性,選取了某處水體斷面的部分關(guān)鍵水質(zhì)監(jiān)測(cè)數(shù)據(jù)。選區(qū)的樣本數(shù)據(jù)時(shí)間跨度從2019 年1 月1 日到2019 年8 月9 日,總共221 個(gè)自然日合計(jì)2 652 個(gè)時(shí)間點(diǎn),采樣間隔為120 min。在數(shù)據(jù)預(yù)處理環(huán)節(jié)使用了四分位距法移除了異常數(shù)值點(diǎn),并采用多項(xiàng)式插值法(二階)補(bǔ)齊了缺失數(shù)據(jù)。數(shù)據(jù)包含了pH、溶解氧、濁度、總磷和總氮等各項(xiàng)指標(biāo)記錄13 260條。訓(xùn)練集為前2 232 個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(186個(gè)自然日),驗(yàn)證集包括了288 個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(24 個(gè)自然日),測(cè)試集為最后120 個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(10 個(gè)自然日)。

對(duì)所有的原始數(shù)據(jù)采用滑動(dòng)窗口的方式進(jìn)行構(gòu)造訓(xùn)練集、驗(yàn)證集與測(cè)試集。本研究中,數(shù)據(jù)滑窗寬度取l=12,滑窗步長取s=1。訓(xùn)練集數(shù)據(jù)和驗(yàn)證集、測(cè)試集數(shù)據(jù)分別進(jìn)行了均值方差歸一化(化為均值為0,方差為1 的數(shù)據(jù))與最值歸一化(數(shù)據(jù)被映射到[0,1]區(qū)間)。

4 預(yù)測(cè)算法對(duì)比分析

本次優(yōu)化XGBoost模型的4個(gè)重要超參數(shù),分別是:最大生成樹數(shù)目(n estimator)、學(xué)習(xí)率(learning rate)、樹的最大深度(max depth)和最小葉子節(jié)點(diǎn)樣本權(quán)重和(min child weight)。最大生成樹數(shù)目取數(shù)區(qū)間最小值為100,最大值為1 500,默認(rèn)值為500;學(xué)習(xí)率默認(rèn)值為0.30,取數(shù)區(qū)間最小為0.01,最大為0.5;樹的最大深度默認(rèn)值為6,取數(shù)區(qū)間最小為3,最大為12;最小葉子節(jié)點(diǎn)樣本權(quán)重和默認(rèn)值為1,取數(shù)區(qū)間最小為1,最大值為10。

首先對(duì)XGBoost 上述4 個(gè)超參數(shù)進(jìn)行初步手動(dòng)調(diào)參,得到手動(dòng)調(diào)參后的初始值如表1 所示,其余超參數(shù)則采用默認(rèn)值。同樣地,對(duì)于對(duì)照組LSTM 也進(jìn)行了手動(dòng)調(diào)參,得到的參數(shù)值如表1 所示。為了驗(yàn)證GWO對(duì)XGBoost 預(yù)測(cè)表現(xiàn)的提升效果,在測(cè)試部分與手動(dòng)調(diào)優(yōu)后的XGBoost、LSTM 相比較,將三者分別用于預(yù)測(cè)同一水質(zhì)指標(biāo)的變化。使用GWO 優(yōu)化XGBoost 的初始超參數(shù)與手動(dòng)調(diào)優(yōu)后的XGBoost 相同。

表1 各算法初始參數(shù)Table 1 Initial parameters of each algorithm

測(cè)試集的數(shù)據(jù)時(shí)間跨度從2019 年7 月30 日開始到8 月9 日為止,共計(jì)10 個(gè)自然日(包括了用于預(yù)測(cè)7月31 日指標(biāo)的輸入數(shù)據(jù))。GWO-XGBoost、XGBoost與LSTM 分別用于預(yù)測(cè)pH、溶解氧、濁度、總磷和總氮的預(yù)測(cè)結(jié)果如圖2~圖6 所示,各算法的RMSE 與決定因數(shù)(R2)如表2 所示。

表2 各算法在不同水質(zhì)指標(biāo)下的預(yù)測(cè)表現(xiàn)比較Table 2 Comparison of the prediction performance of the algorithms for different water quality indicators

圖2 用于pH 指標(biāo)的預(yù)測(cè)結(jié)果Fig.2 Prediction results for pH

由實(shí)測(cè)結(jié)果可知,目標(biāo)斷面pH 在7.0~7.5 之間波動(dòng)。預(yù)測(cè)結(jié)果如圖2 所示。GWO-XGBoost、XGBoost與LSTM 的R2分別是0.86、0.79 和0.69,RMSE 分別為0.01、0.02 和0.04。

在預(yù)測(cè)斷面的溶解氧數(shù)值時(shí),目標(biāo)斷面溶解氧在5.1~9.5 mg/L 之間波動(dòng)。預(yù)測(cè)結(jié)果如圖3 所示,GWOXGBoost、XGBoost 與LSTM 的R2分別為0.90、0.78 和0.71,RMSE 分別為0.14、0.82 和1.51。

圖3 用于溶解氧指標(biāo)的預(yù)測(cè)結(jié)果Fig.3 Prediction results for dissolve oxygen

在預(yù)測(cè)斷面的濁度數(shù)值時(shí),目標(biāo)值在1.1~12.2 NTU之間波動(dòng)。預(yù)測(cè)結(jié)果如圖4 所示,GWO-XGBoost、XGBoost 與LSTM 的R2分別為0.85、0.74 和0.73,RMSE分別為0.53、2.01 和1.98。

圖4 用于濁度指標(biāo)的預(yù)測(cè)結(jié)果Fig.4 Prediction results for NTU

在預(yù)測(cè)斷面的總磷數(shù)值時(shí),目標(biāo)斷面總磷在0.009~0.053 mg/L 之間波動(dòng)。預(yù)測(cè)結(jié)果如圖5 所示,GWO-XGBoost、XGBoost 與LSTM 的R2分別為0.86、0.85和0.81,RMSE分別為0.001 9、0.002 3和0.002 7。

圖5 用于總磷指標(biāo)的預(yù)測(cè)結(jié)果Fig.5 Prediction results for TP

在預(yù)測(cè)斷面的總氮數(shù)值時(shí),目標(biāo)斷面總氮質(zhì)量濃度在2.2~12.3 mg/L 之間波動(dòng)。預(yù)測(cè)結(jié)果如圖6 所示,GWO-XGBoost、XGBoost 與LSTM 的R2分別為0.87、0.84 和0.80,RMSE 分別為0.64、0.93 和1.31。

圖6 用于總氮指標(biāo)的預(yù)測(cè)結(jié)果Fig.6 Prediction results for TN

由圖2~圖6、表2 可知,基于GWO 算法優(yōu)化的XGBoost 模型對(duì)目標(biāo)斷面的pH、溶解氧、濁度、總磷和總氮的預(yù)測(cè)值與實(shí)測(cè)值的變化趨勢(shì)基本保持一致,并且R2均達(dá)到0.71以上。在預(yù)測(cè)斷面的pH時(shí),結(jié)合RMSE值可知:與默認(rèn)參數(shù)的XGBoost 模型相比,經(jīng)過超參數(shù)優(yōu)化后,基于GWO 算法優(yōu)化的XGBoost 模型的預(yù)測(cè)精度和自相關(guān)檢驗(yàn)通過率均得到顯著改善;各時(shí)間序列預(yù)測(cè)結(jié)果出現(xiàn)的差異主要是由原始時(shí)間序列的波動(dòng)和量級(jí)的影響所致。

5 結(jié)論

污水水質(zhì)數(shù)據(jù)具有很強(qiáng)的隨機(jī)性和非線性特征,一般的預(yù)測(cè)算法難以實(shí)現(xiàn)高精度的預(yù)測(cè),但是更高精度的預(yù)測(cè)模型對(duì)優(yōu)化污水處理運(yùn)行管理有重要指導(dǎo)作用。本研究利用灰狼算法優(yōu)化后的XGBoost模型對(duì)污水的關(guān)鍵水質(zhì)數(shù)據(jù)進(jìn)行了預(yù)測(cè)。首先,對(duì)GWO 進(jìn)行了簡化,降低了計(jì)算復(fù)雜性,同時(shí)強(qiáng)化了隨機(jī)性,降低了GWO 在迭代過程中容易陷入局部最優(yōu)區(qū)域的風(fēng)險(xiǎn)。其次,將水質(zhì)時(shí)間序列數(shù)據(jù)進(jìn)行了預(yù)處理,選取了其中部分對(duì)XGBoost模型表現(xiàn)影響大的參數(shù),并使用GWO 進(jìn)行了優(yōu)化。最后,由GWO 優(yōu)化后的XGBoost模型與手動(dòng)調(diào)參的XGBoost、LSTM 進(jìn)行了對(duì)比,證明由GWO 優(yōu)化后的XGBoost模型有著更高的預(yù)測(cè)精度和更強(qiáng)的泛化能力。與手動(dòng)調(diào)參的XGBoost模型相比,由GWO 優(yōu)化過的XGBoost模型在預(yù)測(cè)pH、溶解氧、濁度、總磷和總氮的決定因數(shù)R2分別提高了8.86%、15.38%、14.86%、1.18%和3.57%,實(shí)現(xiàn)了較為準(zhǔn)確的水質(zhì)關(guān)鍵數(shù)據(jù)預(yù)測(cè)。

猜你喜歡
污水處理斷面水質(zhì)
水質(zhì)抽檢豈容造假
環(huán)境(2023年5期)2023-06-30 01:20:01
我國鄉(xiāng)鎮(zhèn)污水處理模式的探討
??? ??? ?? ????? ? ??(斷面)
太原市61個(gè)村要建污水處理設(shè)施嚴(yán)禁直排入河
一月冬棚養(yǎng)蝦常見水質(zhì)渾濁,要如何解決?這9大原因及處理方法你要知曉
涌浪機(jī)在污水處理中的應(yīng)用
基于Dijkstra算法的最優(yōu)解列斷面快速搜索方法
國內(nèi)首臺(tái)全斷面煤巷高效掘進(jìn)機(jī)誕生并交付
天鋼Ф210mm斷面圓坯的開發(fā)與生產(chǎn)實(shí)踐
天津冶金(2014年4期)2014-02-28 16:52:32
水質(zhì)總磷測(cè)定存在的問題初探
河南科技(2014年23期)2014-02-27 14:19:07
南宁市| 杭锦旗| 通江县| 馆陶县| 越西县| 永州市| 鹿泉市| 仲巴县| 原平市| 宜章县| 泸水县| 辽中县| 安图县| 临武县| 县级市| 景宁| 邢台县| 黄浦区| 商丘市| 内黄县| 凤台县| 拜泉县| 金山区| 泗阳县| 富川| 彭山县| 建德市| 庆阳市| 新乡县| 景泰县| 远安县| 英吉沙县| 伊川县| 琼中| 九台市| 内江市| 哈巴河县| 元氏县| 富阳市| 专栏| 惠水县|