歐陽群文
(廣州市城建規(guī)劃設(shè)計院有限公司,廣東廣州 510000)
廣州以河長制為“統(tǒng)領(lǐng)”,深入開展清四亂和源頭控污工作,全市水環(huán)境治理水平及治理成效實現(xiàn)了根本性提升,完成了對原有黑臭河湖的治理。然而河道水安全和水環(huán)境依然較為脆弱,各類問題有反彈風(fēng)險,治水成效難以鞏固,河湖水質(zhì)存在返黑返臭風(fēng)險。隨著廣州河長制工作的不斷深入,以信息化為主要手段的河長管理機制不斷更新迭代,并積累了大量數(shù)據(jù)[1-3]。但現(xiàn)有的廣州河長信息管理系統(tǒng)主要功能是收集整理和發(fā)布河湖管理方面的基本信息,缺乏對數(shù)據(jù)的深入分析與挖掘,并沒有結(jié)合實際需求進行模型的開發(fā),例如如何進行水質(zhì)預(yù)警、如何根據(jù)預(yù)報結(jié)果進行針對性治理等[4]。利用數(shù)據(jù)資源指導(dǎo)實際工作是河長制信息化推進的主要方向。鑒于此,文章利用廣州河長管理信息系統(tǒng)中的數(shù)據(jù)(下稱“系統(tǒng)數(shù)據(jù)”),通過對數(shù)據(jù)進行深入挖掘與分析,基于擅長挖掘數(shù)據(jù)縱深的LightGBM(light gradient boosting machine)算法建立水質(zhì)預(yù)測模型。通過建模型預(yù)測水質(zhì)等級,并據(jù)此分析河湖水質(zhì)變化趨勢及系統(tǒng)數(shù)據(jù)的重要程度,從而提高河長對河湖事件的預(yù)測能力以及河湖管理的執(zhí)行能力,全面促進河長制實施。
模型中,采取廣州河長管理信息系統(tǒng)數(shù)據(jù)(河涌問題數(shù)據(jù)、河長行為數(shù)據(jù)等)、河涌上月水質(zhì)數(shù)據(jù)作為特征數(shù)據(jù),河涌本月水質(zhì)數(shù)據(jù)作為標簽數(shù)據(jù),通過多分類機器學(xué)習(xí)算法深入挖掘特征數(shù)據(jù)與標簽數(shù)據(jù)之間的映射關(guān)系,得到一個可以根據(jù)上月特征數(shù)據(jù)預(yù)測當月水質(zhì)的機器學(xué)習(xí)模型,即LightGBM的水質(zhì)預(yù)測模型。通過內(nèi)業(yè)模型輸出結(jié)果指導(dǎo)外業(yè)對于水質(zhì)較差以及有變差趨勢的河涌,并執(zhí)行定向巡查,通過多分類機器學(xué)習(xí)算法實現(xiàn)水質(zhì)預(yù)測的目標。
模型構(gòu)建環(huán)節(jié)包括數(shù)據(jù)整合、樣本劃分、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練及參數(shù)優(yōu)化、模型結(jié)果分析評價、變量重要性評分及內(nèi)外業(yè)融合分析。
根據(jù)廣州河長管理信息系統(tǒng)中的不同數(shù)據(jù)源,將不同來源的數(shù)據(jù)整合成一張建模寬表。由于每條河涌對應(yīng)多個河長,故河涌對應(yīng)的河長行為數(shù)據(jù)采用均值平滑方法處理,即采用多個河長的行為數(shù)據(jù)均值作為特征數(shù)據(jù)。
考慮到樣本數(shù)據(jù)比較有限,為了保證模型能夠充分地訓(xùn)練,需要擴大訓(xùn)練集的占比,所以采取9∶1的比例將1 771條樣本數(shù)據(jù)劃分成訓(xùn)練集及測試集,其中訓(xùn)練集1 593條,測試集178條。
鑒于設(shè)備故障、網(wǎng)絡(luò)通信等不可控因素的影響,原始數(shù)據(jù)中可能存在臟數(shù)據(jù)、缺失數(shù)據(jù)等情況。因此,首先對原始數(shù)據(jù)進行預(yù)處理。預(yù)處理工作主要包括數(shù)據(jù)清洗、特征分類、缺失值處理、異常值檢測等,包括數(shù)據(jù)清晰、特征分類、數(shù)據(jù)缺失值處理、數(shù)據(jù)異常值處理。
特征工程是指將預(yù)處理后的數(shù)據(jù)進行加工,轉(zhuǎn)變?yōu)槟P退枰奶卣鲾?shù)據(jù),同時將原有特征通過計算、組合等方式轉(zhuǎn)換為新的特征[5-9]。研究中,對于河涌問題數(shù)據(jù)進行了縱向(多級河長)與橫向(同級河長上報的不同問題)的特征工程處理,共得到31個特征數(shù)據(jù)。
將上月特征數(shù)據(jù)作為輸入,當月水質(zhì)等級預(yù)測作為輸出,構(gòu)建基于LightGBM的水質(zhì)預(yù)測模型。采用LightGBM算法在訓(xùn)練集中訓(xùn)練模型,并通過模型在驗證集上的表現(xiàn)進行算法參數(shù)優(yōu)化。初步訓(xùn)練時,設(shè)置參數(shù)如下:決策樹的數(shù)量設(shè)置為200,樹最大深度設(shè)置為3,其他參數(shù)均使用默認參數(shù)。初步訓(xùn)練的準確率為48.31%,參數(shù)優(yōu)化效果以此基準模型作為參考。
LightGBM模型參數(shù)較多,研究選取LightGBM最重要的7個參數(shù)進行算法優(yōu)化,以準確率為評價指標通過網(wǎng)格搜索法選取最優(yōu)參數(shù)。優(yōu)化的結(jié)果如圖1所示,評價指標均為測試集上的準確率。
圖1 LightGBM模型參數(shù)調(diào)優(yōu)結(jié)果
由圖1可知,將決策樹的數(shù)量初始值設(shè)為20,準確率為0.48,當決策樹的數(shù)量取50時,準確率變?yōu)?.51,繼續(xù)增大決策樹的數(shù)量到100、200、300、400、500、600,準確率呈現(xiàn)下降趨勢。將浮點數(shù)設(shè)定為0.6~1.0的調(diào)整范圍,當浮點數(shù)取值為0.7、0.8、0.9時,準確率趨于穩(wěn)定。當樹最大深度取值小于4時,準確率上升,當取值大于4時,準確率呈上下波動變化,但均小于取值為4的準確率。最小樣本數(shù)量在4種取值下(10、30、50和100)的準確率分別為0.51、0.52、0.47和0.47。將正則化系數(shù)設(shè)定為0~3.0的調(diào)整范圍,隨著參數(shù)增大,模型預(yù)測效果反而變差,調(diào)參后最優(yōu)解仍保持為0。選擇兩種正則化系數(shù)進行調(diào)參,正則化系數(shù)1.0與正則化系數(shù)2.0參數(shù)取值范圍相同,調(diào)參后最優(yōu)解為1。對于學(xué)習(xí)速率,0.1為最佳取值。由以上分析可知,參數(shù)決策樹的數(shù)量、浮點數(shù)、樹最大深度、最小樣本數(shù)量、正則化系數(shù)1、正則化系數(shù)2.0、學(xué)習(xí)速率的最優(yōu)取值分別為50.0、0.9、4.0、30.0、0、1.0、0.1。特征選擇結(jié)果如表1所示。
表1 特征選擇結(jié)果
研究采用“準確率”為評價指標。將上述尋優(yōu)的參數(shù)代入模型,輸出預(yù)測結(jié)果。通過混淆矩陣可以得出,Ⅱ類、Ⅵ類(劣五類)水質(zhì)的河涌預(yù)測比較準確,Ⅱ類、Ⅲ類水質(zhì)容易相互混淆??傮w準確率為53.37%。除了準確率之外,還可以通過針對某一類別的查準率、查全率分析模型的分類結(jié)果。對于重點關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計算其查準率、查全率。Ⅴ類查準率為40%,Ⅴ類查全率為11.76%,Ⅵ類查準率為63.16%,Ⅵ類查全率為68.57%。因此,5類水質(zhì)河涌的查準及查全表現(xiàn)較低,尤其是查全率,原因在于訓(xùn)練樣本中Ⅴ類水質(zhì)河涌的樣本數(shù)過少,模型無法學(xué)習(xí)到相應(yīng)特征。雖然Ⅴ類水質(zhì)的模型效果并不理想,但Ⅵ類水質(zhì)的查準和查全比較理想,查全率達到68.57%,Ⅵ類水質(zhì)的模型效果對于河涌黑臭預(yù)警、水質(zhì)惡化預(yù)警有重要意義。
研究中采用Gini Importance方法得到重要性評估結(jié)果如圖2所示。
圖2 變量重要性評價結(jié)果
由圖2可知,責(zé)任一般河湖數(shù)量、上月水質(zhì)、連續(xù)打卡式巡河的次數(shù)是影響水質(zhì)的3個重要特征。責(zé)任一般河湖數(shù)量是指河涌對應(yīng)河長所管轄的一般河湖數(shù)量,反映出河涌管理者的精力分散程度,由此結(jié)果可以推測,河涌管理者的精力分散程度對水質(zhì)有較大影響,此結(jié)論對于河長的人手分配、河涌分配具有指導(dǎo)意義。連續(xù)打卡式巡河次數(shù)反映出河長巡河行為對水質(zhì)的影響,此結(jié)論對河長管理、培訓(xùn)、督導(dǎo)具有指導(dǎo)意義。另外,特征重要性分析結(jié)果表明,所有問題、問題上報率、一般河湖巡河率等特征對河涌水質(zhì)也會產(chǎn)生較大影響。此外,可以發(fā)現(xiàn)在眾多河涌問題中,工業(yè)廢水排放是影響水質(zhì)的最大問題。
為了進一步驗證模型效果,采用后一個月具有水質(zhì)數(shù)據(jù)的河涌共計422條作為驗證樣本,將河涌的前一個月特征數(shù)據(jù)輸入訓(xùn)練好的模型中,輸出各河涌后一個月水質(zhì)預(yù)測數(shù)據(jù),根據(jù)輸出的預(yù)測結(jié)果與實際結(jié)果進行比對,對模型進行驗證。
驗證結(jié)果顯示其總體準確率為53.10%,基本不變。對于重點關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計算其查準率、查全率分別為:Ⅴ類查準率為40%、Ⅴ類查全率為18.60%、Ⅵ類查準率為63.63%、Ⅵ類查全率為67.96%。與測試集的模型效果相比,總體準確率略有下降,但Ⅴ類查全率有明顯提升、Ⅵ類查準率略微提升,Ⅵ類查全率略微下降,模型錯分樣本大部分集中在Ⅱ、Ⅲ、Ⅳ類水質(zhì)??傮w來說,模型效果與測試集上相當,說明模型比較穩(wěn)定、泛化能力強,具有應(yīng)用價值。
根據(jù)LightGBM水質(zhì)預(yù)測多分類模型輸出結(jié)果,可以構(gòu)建兩個重點河涌庫,其一是Ⅵ類(劣Ⅴ類)水質(zhì)河涌庫;其二是水質(zhì)惡化河涌庫,根據(jù)預(yù)測的水質(zhì)等級與河涌上月水質(zhì)等級做對比,等級衰退兩個以上的河涌應(yīng)被列為“有水質(zhì)惡化傾向”的河涌。在實際工作過程中,根據(jù)模型分析結(jié)果,分別對南沙區(qū)、荔灣區(qū)相關(guān)河涌進行現(xiàn)場調(diào)研反饋,從現(xiàn)場調(diào)研情況看,其河涌存在的問題能夠反映出河涌存在一定的黑臭風(fēng)險。從而得出,基于LightGBM水質(zhì)預(yù)測模型能有效指導(dǎo)外業(yè)定向巡查、定向督導(dǎo)河長,防患于未然,對于重點河涌進行提前干預(yù),提前發(fā)現(xiàn)問題,防止河涌水質(zhì)惡化以及反黑反臭。
以廣州河長管理信息系統(tǒng)中2020年3月—11月的樣本數(shù)據(jù)為例,基于LightGBM的水質(zhì)預(yù)測模型輸出結(jié)果,在訓(xùn)練集和測試集上,準確率都超過了53%,重點類別河涌Ⅵ類(劣Ⅴ類)的查準率達到63%以上、查全率達到68%以上,模型整體預(yù)測效果較好,具有應(yīng)用價值。同時將水質(zhì)等級預(yù)測與重要性評估的內(nèi)業(yè)工作成果相結(jié)合,針對性地對水質(zhì)有變差趨勢的河涌及疑似劣Ⅴ類河涌開展外業(yè)專項巡查工作,找出重大污染源的來源以及分析河涌流域污染源的分布、特性。通過內(nèi)業(yè)數(shù)據(jù)挖掘,并結(jié)合外業(yè)專項的巡查,能夠彌補內(nèi)業(yè)發(fā)現(xiàn)問題的局限性,在有限的資源利用背景下,達到最優(yōu)化分配,減少資源浪費,提升督導(dǎo)巡查效率和準確性,實現(xiàn)了對河長的定向督導(dǎo),進一步壓實河長履職責(zé)任,提升履職水平。