苗 露,姚怡帆,王黎佳,王麗艷,黃黎明,劉長青
(1.青島市團島污水處理廠,青島 266002;2.青島理工大學(xué) 環(huán)境與市政工程學(xué)院,青島 266525;3.青島張村河水務(wù)有限公司,青島 266100)
生物化學(xué)需氧量(Biochemical Oxygen Demand,BOD)反映水質(zhì)中可生化降解的有機物質(zhì)的含量,是水質(zhì)凈化過程中必不可少的監(jiān)測指標(biāo)。污水處理廠常用BOD5(5 d生化需氧量)表示可被微生物分解代謝的有機污染物含量,BOD5檢測所得到的數(shù)值直接影響生化處理部分的藥劑投加與鼓風(fēng)曝氣[1]。因此,及時準(zhǔn)確地獲取進(jìn)水BOD5對污水處理廠評價進(jìn)水有機污染物的水平、進(jìn)行對應(yīng)的工藝參數(shù)調(diào)整具有重要意義。
目前,常用稀釋測定法與微生物電極法檢測BOD5[2],因其檢測數(shù)值重復(fù)性較好,準(zhǔn)確度和精密度高,所以得到了廣泛的使用。但這兩種測定方法在指導(dǎo)污水處理廠工藝運行方面仍存在一定不足,例如稀釋測定法的檢測周期長、操作專業(yè)度較高;微生物電極法[3]雖可快速、便捷地獲得大批量水質(zhì)分析數(shù)據(jù),但是其儀器的使用存在局限性,且微生物電極法的檢出限也普遍高于稀釋測定法[4]。因此隨著污水處理廠工藝的提升,需要構(gòu)建一種更高效、簡便、精準(zhǔn)的BOD5檢測方式。
隨著計算機及大數(shù)據(jù)相關(guān)技術(shù)的迅猛發(fā)展,機器學(xué)習(xí)作為模擬人類學(xué)習(xí)活動的一門人工智能學(xué)科應(yīng)運而生。在環(huán)境領(lǐng)域,善于挖掘數(shù)據(jù)之間關(guān)系的機器學(xué)習(xí)進(jìn)入科研工作者的視野,通過建立準(zhǔn)確的數(shù)學(xué)模型對水質(zhì)中某些重要的參數(shù)進(jìn)行科學(xué)的軟測量與預(yù)測,取得了一定的成果。ELIAS等[5]提出了一種集經(jīng)驗?zāi)B(tài)分解、深度學(xué)習(xí)和長短期記憶神經(jīng)網(wǎng)絡(luò)于一體的混合模型,通過此模型對養(yǎng)殖水質(zhì)中的溶解氧、濁度、pH三項指標(biāo)進(jìn)行預(yù)測,數(shù)據(jù)展現(xiàn)了較高的預(yù)測精度,優(yōu)于其他同類水質(zhì)參數(shù)預(yù)測模型。WU等[6]利用極端梯度提升(Extreme Gradient Boosting,XGBoost)與麻雀搜索算法優(yōu)化的LSTM模型進(jìn)行長期與短期的溶解氧軟測量,能夠滿足池塘溶解氧準(zhǔn)確預(yù)測的實際需求。LIU等[7]在無線監(jiān)測的基礎(chǔ)上,采用支持向量算法預(yù)測總氮、總磷、氨氮等水質(zhì)指標(biāo),并能夠自動、實時地對流域水質(zhì)進(jìn)行監(jiān)測。
如今,已有多種水質(zhì)軟測量的機器學(xué)習(xí)方法。OOI等[8]利用順序特征選擇方法進(jìn)行特征選擇,采用了多種機器學(xué)習(xí)方法預(yù)測湖泊水樣BOD5值,最終選擇預(yù)測結(jié)果穩(wěn)定的多層感知器用于湖泊水質(zhì)預(yù)警。以上軟測量方法打破了實驗操作誤差的壁壘,突破了檢測設(shè)備性能的局限。但是基礎(chǔ)的模型預(yù)測效果各有差異,因此部分研究人員把方向聚焦在模型的參數(shù)優(yōu)化上,仿生算法可有效解決參數(shù)組合優(yōu)化問題,常見的仿生算法有遺傳算法(Genetic Algorithm,GA)、粒子群算法(Particle Swarm Optimization,PSO)、蟻群算法(Ant Colony Algorithm,ACA)等。遺傳算法借鑒了達(dá)爾文的進(jìn)化論和孟德爾的遺傳學(xué)說,在預(yù)先設(shè)置的參數(shù)區(qū)間內(nèi)隨機選取數(shù)據(jù)以形成初始種群,計算種群的適應(yīng)度并對未達(dá)到理想適應(yīng)度的種群數(shù)據(jù)進(jìn)行選擇、交叉、變異的操作[9],最終獲得滿足優(yōu)化目標(biāo)下適應(yīng)度最高的參數(shù)組合。YAO等[10]利用反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)模型預(yù)測厭氧膜生物反應(yīng)器的膜過濾性能,引入GA對仿真過程進(jìn)行優(yōu)化,克服BP局部極小化問題,使得預(yù)測相對誤差進(jìn)一步降低。喬俊飛等[11]采用基于PSO對神經(jīng)網(wǎng)絡(luò)輸出權(quán)重進(jìn)行調(diào)整訓(xùn)練,加強了對污水關(guān)鍵水質(zhì)參數(shù)BOD5預(yù)測的有效性,能夠有效實現(xiàn)污水處理閉環(huán)控制。
因此,本研究立足于利用機器學(xué)習(xí)模型進(jìn)行BOD5指標(biāo)的快速預(yù)測,選取支持向量機回歸(Support Vector Regression,SVR)和XGBoost兩種機器學(xué)習(xí)進(jìn)行比對分析,并且引入GA進(jìn)一步提升預(yù)測準(zhǔn)確性,力求尋找一個快速并且準(zhǔn)確的預(yù)測模型。
本研究所用數(shù)據(jù)來源為山東青島某污水處理廠2021年1月1日至2021年12月31日的運行參數(shù)監(jiān)測報表,數(shù)據(jù)以天為單位,包括5個水質(zhì)指標(biāo)(進(jìn)水流量、COD、SS、pH和氨氮)的365條記錄。通過使用污水處理廠實時自動檢測的5個水質(zhì)數(shù)據(jù)組成五維輸入數(shù)據(jù)作為模型的輸入變量。
對存在數(shù)據(jù)不完整的天數(shù)進(jìn)行整條數(shù)據(jù)刪除,排除原始數(shù)據(jù)中包含的波動較大的干擾數(shù)據(jù)和不完整數(shù)據(jù),并對數(shù)據(jù)進(jìn)行無量綱化和數(shù)據(jù)降維。
1) 剔除異常值。利用3σ準(zhǔn)則(拉依達(dá)準(zhǔn)則),以3倍測量列的標(biāo)準(zhǔn)偏差為極限取舍標(biāo)準(zhǔn)[12],假設(shè)數(shù)據(jù)只含有隨機誤差,計算數(shù)據(jù)的均值μ與標(biāo)準(zhǔn)差σ,篩選出于(μ-3σ,μ+3σ)范圍外的誤差數(shù)據(jù),以排除污水處理廠在受氣候、人口、經(jīng)濟等因素影響下出現(xiàn)的進(jìn)水波動情況。
2) 數(shù)據(jù)無量綱化。按照式(1)進(jìn)行數(shù)據(jù)歸一化處理,可令數(shù)據(jù)服從正態(tài)分布并且收斂至[0,1]。由于不同輔助變量的數(shù)據(jù)大小、分布和單位各有差異,而該步驟可以削弱這類數(shù)據(jù)產(chǎn)生的影響,加快模型求解速度。
(1)
式中:xscale為輔助變量樣本值進(jìn)行無量綱化后所得數(shù)值;x為輔助變量樣本值;xmax為輔助變量中的最大值;xmin為輔助變量中的最小值。
3) PCA數(shù)據(jù)降維。通過主成分分析(Principal Components Analysis,PCA),利用矩陣分解等一系列數(shù)學(xué)操作在數(shù)據(jù)總信息量不損失太多的條件下,將原始特征數(shù)據(jù)壓縮到少數(shù)特征上,從而得出方便計算的新特征向量。丟棄信息量很少的特征向量噪音來達(dá)到減輕模型冗余計算的目的。
數(shù)據(jù)經(jīng)過預(yù)處理之后,原有數(shù)據(jù)集的11條數(shù)據(jù)被剔除,構(gòu)成新數(shù)據(jù)集。訓(xùn)練集與測試集由新數(shù)據(jù)集按9∶1的比例隨機劃分而成。
1) 支持向量機。支持向量機(Support Vector Machine,SVM)是一類基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法,既可以用于分類預(yù)測也可以用于回歸預(yù)測。支持向量機回歸(Support Vector Regression,SVR)是用于回歸預(yù)測的一個強學(xué)習(xí)器,其原理是通過核函數(shù)φ(x)將原始數(shù)據(jù)映射至特征空間,尋求一個令原始數(shù)據(jù)在同一容許誤差下距離最近的超平面,該超平面特征向量wT與輸出向量f(x)滿足回歸方程f(x)=wTφ(x)+b,其中b為截距向量。本文使用的核函數(shù)類型為高斯徑向基函數(shù)“rbf”,表達(dá)式為
φ(y,xi)=e-γ‖y-xi‖
(2)
式中:xi為原始數(shù)據(jù)向量;y為xi映射至特征空間的向量;γ為核函數(shù)次數(shù)。
假設(shè)容許誤差為ε,則超平面存在于|f(x)-wTφ(x)-b|≤ε所形成的容錯空間內(nèi)。容錯空間大,對數(shù)據(jù)擬合的包容性大;容錯空間小,存在數(shù)據(jù)無法擬合的情況。為了權(quán)衡容錯空間的大小,引入懲罰因子C,進(jìn)一步保證所選取超平面的合理性。
2) 極限梯度提升算法。XGBoost是由CHEN[13]于2016年所設(shè)計的一種集成學(xué)習(xí)模型。其核心思想是梯度提升算法,構(gòu)建多個弱評估器并匯總建模結(jié)果,組合弱評估器,不斷迭代預(yù)測結(jié)果直到損失函數(shù)最小,從而構(gòu)成一個強評估器。相比普通梯度提升算法,XGBoost運算更加快速,近年來被普遍認(rèn)為是在分類與回歸上都具有超高性能的先進(jìn)評估器。其中,弱評估器數(shù)量N和提升樹最大深度D決定評估器的個數(shù)與深度;學(xué)習(xí)率η決定迭代過程中誤差減小的方向步長;正則項參數(shù)α與λ互相影響,共同調(diào)整弱評估器的權(quán)重以防止最終的模型過擬合或欠擬合。
3) 參數(shù)優(yōu)化。為了使模型獲得更好的預(yù)測效果,本文利用如下2種方法尋找SVR模型和XGBoost模型最優(yōu)參數(shù)組合,其中兩類模型的參數(shù)類型、性質(zhì)和取值范圍見表1。
表1 各模型的參數(shù)類型、性質(zhì)和取值范圍
方法1:利用網(wǎng)格搜索法對單一參數(shù)在設(shè)置的參數(shù)取值范圍內(nèi)進(jìn)行窮舉,首先使用較廣的搜索范圍和較大的步長,觀察全局最優(yōu)參數(shù)可能存在的位置;然后逐漸縮小搜索范圍和步長,獲得循環(huán)遍歷后表現(xiàn)最優(yōu)的參數(shù)作為最終的結(jié)果。
方法2:利用GA在全局范圍進(jìn)行搜索,對需優(yōu)化的參數(shù)進(jìn)行編碼,令編碼在一定的概率下進(jìn)行交叉和突變的遺傳操作,計算每組編碼的適應(yīng)度,最終在參數(shù)取值范圍內(nèi)求得適應(yīng)度最高的參數(shù)取值。
本文采用python語言在Pycharm平臺進(jìn)行編譯,利用David Cournapeau于2007年針對機器學(xué)習(xí)應(yīng)用而開發(fā)的Scikit-learn項目庫所提供的API接口對模型進(jìn)行開發(fā)[14]。
如式(3)、式(4)所示,采用均方誤差EMS和均根方誤差ERMS函數(shù)來檢測模型的預(yù)測值和實測值之間的偏差。如式(5)所示,采用決定系數(shù)(R2)評價回歸模型的擬合度,觀察模型擬合效果,確定是否適用于模型預(yù)測。
(3)
(4)
(5)
采用窮舉方式進(jìn)行網(wǎng)格搜索,依次對SVR模型中的懲罰因子C、核函數(shù)參數(shù)γ和容錯度ε進(jìn)行訓(xùn)練,采用交叉驗證方法對結(jié)果進(jìn)行評價,從而得到最優(yōu)的參數(shù),繼而可據(jù)此利用R2,EMS和ERMS進(jìn)行模型評估。
對于懲罰因子C,取值越大模型越易過擬合,因此令C取值范圍為[0.5,19.5],假設(shè)步長為1,則C值有19種取值方式,作K折交叉驗證下擬合度(R2)隨C的變化趨勢曲線,其中取K=5。由圖1(a)可以看出,C最佳取值為6.5,模型得最大R2為0.78。同理,核函數(shù)參數(shù)γ和容錯度ε取值范圍分別為[0,1]和[0,0.24],對應(yīng)步長為0.1和0.02。將γ與ε對R2的影響進(jìn)行可視化分析,如圖1(b)(c)所示,經(jīng)比較后選擇最高R2對應(yīng)的參數(shù),分別是γ=0.7,ε=0.02。
圖1 SVR模型下R2隨不同參數(shù)取值的變化趨勢
因為模型參數(shù)較多且參數(shù)之間互相影響,若參數(shù)選擇不當(dāng),會影響模型的精度與復(fù)雜程度,模型太簡單或太復(fù)雜都會導(dǎo)致預(yù)測結(jié)果欠擬合或過擬合,故使用GA對SVR模型進(jìn)行參數(shù)優(yōu)化。其中,種群個數(shù)設(shè)為10,最大進(jìn)化迭代次數(shù)設(shè)為300,交叉率為0.9,突變率為0.5。C,γ和ε的取值范圍與網(wǎng)格搜索法一致。最終得到最優(yōu)參數(shù)C=4.48,γ=0.05,ε=0.12。
采用網(wǎng)格搜索法依次對XGBoost模型中的弱評估器數(shù)量N、提升樹最大深度D、學(xué)習(xí)率η、正則項參數(shù)α、正則項參數(shù)λ5項參數(shù)進(jìn)行最優(yōu)選擇,采取與SVR模型相同的方式進(jìn)行模型訓(xùn)練與評估。D和λ作單獨參數(shù)調(diào)整時,模型波動并不明顯,因此D和λ取默認(rèn)值,即D=6,λ=1。
設(shè)置參數(shù)N,η和α的取值范圍分別為[10,60],[0.02,0.2]和[0,5],步長分別為4,0.01和0.5。由圖2可以看出,隨著N值的增加,R2先逐漸增加后趨于平緩,當(dāng)N取34時,R2取得最大值0.76。同理最大R2下η值取值為0.12。λ與前兩者趨勢相反,R2隨λ值的增加顯著降低,因此最優(yōu)參數(shù)α=0。
圖2 XGBoost模型下R2隨不同參數(shù)取值的變化趨勢
研究GA對XGBoost模型參數(shù)的影響時,設(shè)置最大進(jìn)化迭代次數(shù)、突變率分別為100和0.1,種群個數(shù)與交叉率同GA-SVR模型。各個參數(shù)的取值范圍與網(wǎng)格搜索法一致,最終得到最優(yōu)參數(shù)N=270,η=0.025,D=8,α=1.39,λ=1.98。
表2為使用網(wǎng)格搜索法-SVR、GA-SVR、網(wǎng)格搜索法-XGBoost和GA-XGBoost 4種模型運行結(jié)果評估??梢钥闯?GA進(jìn)行參數(shù)優(yōu)化模型的預(yù)測效果優(yōu)于網(wǎng)格搜索法參數(shù)調(diào)優(yōu),且GA-SVR的模型的預(yù)測效果更優(yōu)于GA-XGBoost,R2可達(dá)0.918。令預(yù)測值與實測值之差的絕對值為模型的絕對誤差,經(jīng)計算,GA-SVR模型的最小絕對誤差為0.06 mg/L,最大絕對誤差為25.36 mg/L。
表2 模型運行結(jié)果
相對于SVR模型,XGBoost模型利用GA提升模型預(yù)測準(zhǔn)確度效果更加顯著。與網(wǎng)格搜索法-SVR模型相比,使用GA-SVR模型預(yù)測BOD5,預(yù)測值的擬合度由0.898提高至0.918,ERMS由13.93降低至12.44;與網(wǎng)格搜索法-XGBoost模型相比,使用GA-XGBoost模型預(yù)測BOD5,預(yù)測值R2由0.757提高至0.891,ERMS由21.48降低至14.32。比較不同類型模型之間的區(qū)別,可以發(fā)現(xiàn)從模型角度分析,SVR類模型的EMS與ERMS均小于XGBoost類模型,且預(yù)測精度更高。但從優(yōu)化角度分析,經(jīng)遺傳算法優(yōu)化后,SVR類模型的EMS與ERMS分別降低了20.28%,10.70%;XGBoost類模型的EMS與ERMS分別降低了55.54%,33.33%,可見XGBoost類模型受遺傳算法影響優(yōu)化效果更加顯著。
使用以上4種模型對污水處理廠進(jìn)水水質(zhì)參數(shù)BOD5進(jìn)行軟測量預(yù)測,在測試集中選取任意20組運行結(jié)果通過作圖進(jìn)行對比,由圖3、圖4可以看出經(jīng)過GA優(yōu)化的模型更加逼近BOD5實測值。
根據(jù)以上實驗結(jié)果分析可知,經(jīng)過GA優(yōu)化過的模型在BOD5數(shù)值的預(yù)測精度優(yōu)于網(wǎng)格搜索法模型,其中R2(GA-SVR)>R2(網(wǎng)格搜索法-SVR);R2(GA-XGBoost)>R2(網(wǎng)格搜索法-XGBoost),JIANG等[15]研究也證明了GA更有利于SVR模型獲得最優(yōu)參數(shù)從而提高預(yù)測性能。結(jié)果表明,GA-SVR模型的預(yù)測效果優(yōu)于GA-XGBoost模型,因此,GA-SVR模型具有較好的模型預(yù)測性能和泛化性能,可以滿足污水處理廠進(jìn)水BOD5實時監(jiān)測的需求。從模型優(yōu)化效果角度分析,XGBoost模型比SVR模型受GA參數(shù)優(yōu)化影響更大。這可能是因為SVR模型的原理相較于XGBoost模型的原理更加簡單,能影響模型預(yù)測的參數(shù)較少,因此通過優(yōu)化參數(shù)來提升SVR模型的回歸能力有一定的限度。而XGBoost模型涉及參數(shù)較多,模型復(fù)雜,參數(shù)互相影響互相制約的現(xiàn)象更加顯著,GA可以充分考慮參數(shù)間的影響,激發(fā)XGBoost潛力,優(yōu)化預(yù)測效果。
通過比較兩類機器學(xué)習(xí)模型(SVR模型與XGBoost模型)經(jīng)過GA優(yōu)化后的預(yù)測效果,發(fā)現(xiàn)各組模型的R2均得到了提高,同時數(shù)據(jù)顯示ERMS也得到了下降,其中SVR模型與XGBoost模型分別下降10.70%和33.33%。根據(jù)實驗結(jié)果可知,兩類模型在預(yù)測污水處理廠進(jìn)水BOD5數(shù)值上,可以使用GA從而提升模型精度。其中SVR模型更加精確,有較好的實用性,而XGBoost模型更加敏感,有較廣的研究前景。從污水處理廠日常運營來看,GA-SVR對BOD5的精準(zhǔn)軟測量可為污水處理廠制定處理方案、合理規(guī)劃能耗提供科學(xué)依據(jù)。