盧冰鋒
(晉能控股煤業(yè)集團(tuán)供水分公司,山西 大同 037003)
在完整的水循環(huán)中,有許多可能的機(jī)器學(xué)習(xí)應(yīng)用程序來優(yōu)化流程和支持決策。例如,關(guān)于下水道網(wǎng)絡(luò),目前有新興技術(shù)可以對(duì)管道內(nèi)部的圖像進(jìn)行處理和分類,以檢測泄漏和異常情況。實(shí)時(shí)查看數(shù)千張圖像對(duì)人類來說是一項(xiàng)艱巨的任務(wù);然而,機(jī)器學(xué)習(xí)系統(tǒng)可以在幾秒鐘內(nèi)完成。因此,將這些系統(tǒng)集成為支持工具可以大大減少意外事件的數(shù)量,從而縮短應(yīng)急響應(yīng)時(shí)間?;A(chǔ)設(shè)施老化明顯,意外泄漏和中斷的發(fā)生仍然是供水網(wǎng)絡(luò)管理公司關(guān)心的問題,利用數(shù)據(jù)并應(yīng)用機(jī)器學(xué)習(xí)算法可減少意外的管道故障[1]。本文介紹了機(jī)器學(xué)習(xí)及其在供水網(wǎng)絡(luò)管理中的應(yīng)用?;仡櫫似鋵?shí)施的主要階段及其關(guān)鍵問題。此外,8項(xiàng)研究描述了用于解決這些關(guān)鍵問題的機(jī)制,這些研究均是使用監(jiān)督機(jī)器學(xué)習(xí)系統(tǒng)來預(yù)測供水網(wǎng)絡(luò)的管道故障。它們中的大多數(shù)都展示了來自世界各地的真實(shí)案例研究并包含了可靠的數(shù)據(jù)。此外,選定的研究修改了領(lǐng)域內(nèi)常用的機(jī)器學(xué)習(xí)技術(shù),并為其在案例研究中的應(yīng)用提供了詳細(xì)的解釋。
機(jī)器學(xué)習(xí)是通過構(gòu)建算法和技術(shù)來創(chuàng)建能夠從經(jīng)驗(yàn)中學(xué)習(xí)的系統(tǒng),必須概括行為并從數(shù)據(jù)中識(shí)別模式。目前有三種不同的機(jī)器學(xué)習(xí)系統(tǒng),即監(jiān)督學(xué)習(xí)系統(tǒng)、無監(jiān)督學(xué)習(xí)系統(tǒng)和強(qiáng)化學(xué)習(xí)系統(tǒng)。
監(jiān)督學(xué)習(xí)需要標(biāo)記數(shù)據(jù),即輸出變量必須被識(shí)別和可用。如果輸出變量是一個(gè)實(shí)值,回歸方法是最合適的,當(dāng)輸出變量是類別或類時(shí),分類系統(tǒng)是合適的,最終目標(biāo)是預(yù)測。當(dāng)沒有數(shù)據(jù)標(biāo)簽或沒有明確標(biāo)識(shí)時(shí),使用無監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)系統(tǒng)與環(huán)境交互,接收反饋,因此,它的性能會(huì)隨著時(shí)間的推移而提高。
本研究側(cè)重于監(jiān)督學(xué)習(xí)應(yīng)用作為供水網(wǎng)絡(luò)中的預(yù)測系統(tǒng)。監(jiān)督學(xué)習(xí)技術(shù)在供水行業(yè)中較為常見,因?yàn)樗鼈円子谂c支持決策系統(tǒng)工具集成。
圖1為監(jiān)督學(xué)習(xí)系統(tǒng)的具體實(shí)施階段。首先,將數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集;其次,訓(xùn)練數(shù)據(jù)用于估計(jì)定義機(jī)器學(xué)習(xí)模型的參數(shù);然后通過驗(yàn)證集上的某些質(zhì)量指標(biāo)來衡量模型的性能。
為了展示使用供水網(wǎng)絡(luò)數(shù)據(jù)實(shí)施監(jiān)督學(xué)習(xí)系統(tǒng)可能出現(xiàn)的主要問題和解決方案,對(duì)8項(xiàng)國內(nèi)外研究進(jìn)行了分析。表1列出了參考文獻(xiàn)及其應(yīng)用的模型、預(yù)測的輸出變量以及他們用來評(píng)估這些模型性能的真實(shí)案例研究的一些參數(shù)。
表1 模型、輸出變量與案例研究統(tǒng)計(jì)表
根據(jù)網(wǎng)絡(luò)長度將其分為三類,即大型(長度大于3 000 km),中等(1 000 km~3 000 km)和小型(1 000 km以下)。此外統(tǒng)計(jì)了管道故障數(shù)量。另一方面,案例研究包含多個(gè)國家,以證明這些技術(shù)廣泛應(yīng)用于世界各地,有關(guān)案例研究的更多信息見參考文獻(xiàn)。
物理和統(tǒng)計(jì)模型能夠描述供水網(wǎng)絡(luò)行為并分析管道故障以發(fā)現(xiàn)模式和弱點(diǎn),但其主要限制是無法發(fā)現(xiàn)變量之間的復(fù)雜關(guān)系。統(tǒng)計(jì)模型為機(jī)器學(xué)習(xí)算法的基礎(chǔ)。機(jī)器學(xué)習(xí)系統(tǒng)確實(shí)需要大量數(shù)據(jù),系統(tǒng)既可以用作描述模型,也可以用作預(yù)測模型,并且可以發(fā)現(xiàn)復(fù)雜的隱藏特征。
表1中有許多應(yīng)用于供水網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)模型,下面對(duì)其主要特征及英文縮寫進(jìn)行簡要定義。
人工神經(jīng)網(wǎng)絡(luò)(ANN),因其準(zhǔn)確性和從數(shù)據(jù)中提取模式而聞名,該模型試圖模擬人腦的功能,其中神經(jīng)元由節(jié)點(diǎn)表示,神經(jīng)沖動(dòng)由輸入變量的加權(quán)和表示,學(xué)習(xí)過程包括對(duì)其參數(shù)的調(diào)整,而網(wǎng)絡(luò)結(jié)構(gòu)通常不會(huì)改變。它們具有出色的泛化能力,但此類模型不允許解釋每個(gè)變量在預(yù)測過程中的作用,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,支持向量機(jī)可用于回歸(SVR)和分類(SVC)目的。這種方法通過非線性結(jié)構(gòu)將解釋變量映射到高維空間,然后生成對(duì)數(shù)據(jù)進(jìn)行最佳調(diào)整或分離類的超平面ANN和SVM都非正式地稱為“黑箱”系統(tǒng)。相比之下,生存模型(SM)和邏輯回歸(LR)提供了對(duì)結(jié)果的可解釋性,但它們在從數(shù)據(jù)中提取模式方面存在更多局限性。
遺傳編程(GP)是一種進(jìn)化方法,它使用迭代過程來找到最適合多個(gè)變量之間關(guān)系的方程。該方法給出了系統(tǒng)行為的詳細(xì)描述,但是如果方程太復(fù)雜,則結(jié)論提取困難,訓(xùn)練過程計(jì)算效率低下。
模糊邏輯使用模糊集和規(guī)則矩陣對(duì)樣本進(jìn)行分類或歸類。該技術(shù)已在許多供水研究中實(shí)施,根據(jù)管道或網(wǎng)絡(luò)區(qū)域的故障風(fēng)險(xiǎn)對(duì)其進(jìn)行分組。然而,在所有這些研究中,規(guī)則都是根據(jù)專家意見生成的。目前出現(xiàn)了一種新的模糊邏輯應(yīng)用,包括用于估計(jì)系統(tǒng)規(guī)則和參數(shù)的進(jìn)化算法,被稱為進(jìn)化模糊系統(tǒng)(EFS),并且比傳統(tǒng)系統(tǒng)更加獨(dú)立和準(zhǔn)確。EFS的主要優(yōu)點(diǎn)是以簡單規(guī)則的形式直接解釋結(jié)果。缺點(diǎn)是它的訓(xùn)練計(jì)算成本很高,并且這些系統(tǒng)的設(shè)計(jì)很大程度上依賴于案例研究,因?yàn)楸仨毺崆按_定許多參數(shù)。需要說明的是,該方法在供水領(lǐng)域還沒有得到充分的探索和應(yīng)用。
貝葉斯信念網(wǎng)絡(luò)(BBNs)是直接無環(huán)圖的圖形表示,其中節(jié)點(diǎn)表示參數(shù),并將它們之間的概率關(guān)系弧化,它給出了每對(duì)變量之間關(guān)系的全局視野。
決策樹(DT)是一種簡單且計(jì)算效率高的方法,可用于回歸和分類目的。使用分層組合成樹的分割規(guī)則將預(yù)測器空間分層為有限數(shù)量的區(qū)域。它的主要優(yōu)勢在于變量之間關(guān)系的直接可視化,可以檢測供水網(wǎng)絡(luò)中最脆弱的點(diǎn)。作為缺點(diǎn),DT容易導(dǎo)致數(shù)據(jù)過擬合。Almheiri等[2]提出了一種提升技術(shù)來減少單個(gè)決策樹的預(yù)測誤差。另一種選擇是使用隨機(jī)森林(RF),它結(jié)合了大量決策樹并聚合它們的預(yù)測。隨機(jī)森林技術(shù)用于預(yù)測下水道管道的管道狀況,以便根據(jù)每個(gè)區(qū)域的故障風(fēng)險(xiǎn)優(yōu)化計(jì)劃檢查。
RankBoost可以進(jìn)行二分排名,供水網(wǎng)絡(luò)管理的最終需求是根據(jù)管道的風(fēng)險(xiǎn)或故障概率對(duì)管道進(jìn)行排名,因此,該方法適合應(yīng)用于此類問題。
選擇模型之前必須定義結(jié)果的準(zhǔn)確性、可解釋性和變量的作用之間的優(yōu)先級(jí)。優(yōu)先考慮結(jié)果準(zhǔn)確性時(shí)使用ANN和SVM;分析解釋結(jié)果與變量的作用,推薦選擇統(tǒng)計(jì)模型、決策樹或BBNs[3]。
數(shù)據(jù)處理是構(gòu)建預(yù)測系統(tǒng)的重要階段,多數(shù)供水網(wǎng)絡(luò)的數(shù)據(jù)具有相似的特征,可使用相同的技術(shù)進(jìn)行處理。表2收集了引用研究不同的數(shù)據(jù)處理方式,編號(hào)與表1對(duì)應(yīng)。
表2 每項(xiàng)研究的數(shù)據(jù)處理方式
缺失值和異常值在數(shù)據(jù)庫中常見,通常是由于數(shù)據(jù)收集錯(cuò)誤或某些異常情況造成的。若包含這些異常的觀測值被認(rèn)為不具有代表性,則建議剔除它們。但剔除意味著信息丟失,因此最好使用變量的平均值、中位數(shù)或代理來填充或替換。
輸入大量變量會(huì)導(dǎo)致訓(xùn)練緩慢或結(jié)果解釋困難等。供水網(wǎng)絡(luò)數(shù)據(jù)變量較少,但并非所有變量都會(huì)影響破損,建議根據(jù)某些質(zhì)量指標(biāo)來尋找最佳變量集,有時(shí)是根據(jù)專家意見選擇的或使用一些特征選擇技術(shù)。
變量的縮放和變換與機(jī)器學(xué)習(xí)模型有更多的關(guān)系,因?yàn)槠渲幸恍?duì)變量尺度表現(xiàn)出很高的敏感性。式(1)為變量的歸一化,已證明對(duì)訓(xùn)練ANN很有用。其次,式(2)為標(biāo)準(zhǔn)化,減少了數(shù)據(jù)庫中典型的異常值的影響。
Xi=(xi-xmin)/(xmax-xmin)
(1)
xi=(xi-xmean)/xstd
(2)
訓(xùn)練和驗(yàn)證階段訓(xùn)練和驗(yàn)證是機(jī)器學(xué)習(xí)預(yù)測系統(tǒng)的核心,訓(xùn)練階段需要估計(jì)控制模型的參數(shù),目的是使用一組數(shù)據(jù)(通常稱為訓(xùn)練集)來找到優(yōu)化某些質(zhì)量指標(biāo)的參數(shù),多數(shù)情況下均使用相同的指標(biāo)來訓(xùn)練和驗(yàn)證模型[4]。
交叉驗(yàn)證是一個(gè)迭代的訓(xùn)練驗(yàn)證過程,可得到更為準(zhǔn)確的結(jié)果,并避免過度擬合。首先將數(shù)據(jù)分組,用其中的一部分?jǐn)?shù)據(jù)來訓(xùn)練模型,然后用剩余的數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證,圖2顯示了3層交叉驗(yàn)證過程的示意圖。通過統(tǒng)計(jì)研究表明,如表3所示多數(shù)研究均采用了該技術(shù),在研究6中,數(shù)據(jù)集分為三組,即訓(xùn)練、測試和驗(yàn)證。驗(yàn)證數(shù)據(jù)不參與訓(xùn)練過程,使用訓(xùn)練集和測試集實(shí)現(xiàn)交叉驗(yàn)證,以估計(jì)最終模型的參數(shù)。
表3 不同研究的訓(xùn)練與驗(yàn)證階段方法
另一方面,有必要處理不平衡類問題,該問題存在于所有供水網(wǎng)絡(luò)歷史管道故障數(shù)據(jù)庫中。通常供水網(wǎng)絡(luò)中未發(fā)生故障的管道比發(fā)生故障的管道多,如果比率超過了1∶10,監(jiān)督學(xué)習(xí)任務(wù)將被認(rèn)為是一個(gè)不平衡的學(xué)習(xí)問題。此類情況可能會(huì)對(duì)模型的行為產(chǎn)生負(fù)面影響,尤其是如果它是一個(gè)分類器。但部分研究認(rèn)為,不平衡類的存在并不總是會(huì)使預(yù)測模型的性能惡化,因?yàn)轭A(yù)測模型的性能取決于模型本身和模型的數(shù)據(jù)結(jié)構(gòu)。大多數(shù)分類研究是通過對(duì)數(shù)據(jù)進(jìn)行采樣來解決此問題(見圖3)。
包括消除樣本(欠采樣)或生成新的人工樣本(過采樣),以減少數(shù)據(jù)集中兩個(gè)類之間的不平衡問題。欠采樣的缺點(diǎn)是會(huì)丟失有價(jià)值的數(shù)據(jù),而過采樣會(huì)產(chǎn)生錯(cuò)誤的模式,因此訓(xùn)練集不具有代表性。選擇一種技術(shù)或另一種技術(shù)必須基于數(shù)據(jù)集中記錄的管道故障數(shù)量來決定。如果記錄的管道故障數(shù)量具有代表性,則最好使用欠采樣,若供水網(wǎng)絡(luò)中管道故障數(shù)量很少,則過采樣是最佳選擇。
一般來說,這些研究的結(jié)果必須由通常不是機(jī)器學(xué)習(xí)專家的供水公司的員工來解釋。因此,應(yīng)仔細(xì)選擇質(zhì)量指標(biāo),以準(zhǔn)確表示模型行為,使其更易于解釋。質(zhì)量指標(biāo)是代表模型性能的數(shù)字度量,每個(gè)模型都建議制定一個(gè)質(zhì)量指標(biāo)。
回歸方法通過誤差測量進(jìn)行驗(yàn)證,如均方誤差(MSE)、平均絕對(duì)誤差(MAE)或決定系數(shù)(R2)。 他們的公式在式(3)~式(5)中給出。這些指標(biāo)量化了預(yù)測系統(tǒng)與實(shí)際系統(tǒng)輸出之間的差異或偏差[5]。
(3)
(4)
(5)
混淆矩陣和接收器操作特征(ROC)曲線是評(píng)估分類模型的特定工具。一方面,混淆矩陣量化了每個(gè)類別的正確和錯(cuò)誤預(yù)測數(shù)量。這是一個(gè)易于解釋的指標(biāo),可以提取大量信息。另一方面,ROC曲線以圖形方式表示不同閾值的真陽性率與假陽性率(見圖4)。曲線下面積(AUC)是一個(gè)介于0和1之間的數(shù)值度量,可用于比較不同的模型,AUC越接近1,模型越準(zhǔn)確[6]。
8項(xiàng)研究中,研究1~4獲得了一個(gè)實(shí)際值作為輸出變量,而研究6~8獲得了管道的分類。研究6是一個(gè)特例,因?yàn)樗烙?jì)了每個(gè)區(qū)域的所有變量,雖然研究6是一個(gè)分類系統(tǒng),但它的質(zhì)量指標(biāo)更像是回歸系統(tǒng)。
本文研究了機(jī)器學(xué)習(xí)技術(shù)在供水網(wǎng)絡(luò)管理中的應(yīng)用趨勢。研究發(fā)現(xiàn),機(jī)器學(xué)習(xí)應(yīng)用時(shí),當(dāng)結(jié)果的準(zhǔn)確性占優(yōu)勢時(shí)建議使用ANN或SVM模型,目標(biāo)是分析和解釋結(jié)果以及變量的作用時(shí),統(tǒng)計(jì)模型或BBNs模型是更好的選擇。數(shù)據(jù)處理時(shí)重要的是應(yīng)用特征選擇技術(shù)而不是專家意見的趨勢,此外,變量的縮放和轉(zhuǎn)換有利于模型的性能提升。本文研究鼓勵(lì)了供水網(wǎng)絡(luò)行業(yè)應(yīng)用機(jī)器學(xué)習(xí)系統(tǒng)。
在未來的研究中,可以分析每項(xiàng)研究中使用的變量及其對(duì)管道故障的影響,更換和維護(hù)供水網(wǎng)絡(luò)管道的計(jì)劃通常包括供水管和下水道,因此,后續(xù)可對(duì)應(yīng)用于下水道的機(jī)器學(xué)習(xí)模型進(jìn)行分析。