徐振興 葛志松 許駿龍 張進(jìn)明
上海市計(jì)量測(cè)試技術(shù)研究院
能耗在線監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)是面向能源主題的數(shù)據(jù)集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái),并包含歷史數(shù)據(jù),不可避免會(huì)包含錯(cuò)誤數(shù)據(jù),或有相互之間有沖突的數(shù)據(jù)。這些錯(cuò)誤的、有沖突的數(shù)據(jù)通常被稱(chēng)為異常數(shù)據(jù)。在實(shí)際的數(shù)據(jù)統(tǒng)計(jì)分析中,異常數(shù)據(jù)通常有以下幾種表現(xiàn)形式:數(shù)據(jù)遺失、信息缺失、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)、數(shù)據(jù)離群等數(shù)據(jù)質(zhì)量問(wèn)題。
異常數(shù)據(jù)檢測(cè)是數(shù)據(jù)清洗(data cleaning)過(guò)程的第一步,是指對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的監(jiān)測(cè)和識(shí)別,其任務(wù)是發(fā)現(xiàn)數(shù)據(jù)觀測(cè)值中真正的異常點(diǎn),將數(shù)學(xué)特征顯著不同于其他數(shù)據(jù)的觀測(cè)值識(shí)別并標(biāo)識(shí)出來(lái),以便于后續(xù)對(duì)數(shù)據(jù)的修復(fù)和糾正。對(duì)于數(shù)據(jù)遺失、信息缺失問(wèn)題,通常是通過(guò)人工檢索的方式進(jìn)行識(shí)別和修復(fù),對(duì)于數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)、數(shù)據(jù)離群等問(wèn)題,通常通過(guò)四分法、差分法、滑動(dòng)平均法或者聚類(lèi)分析等方法進(jìn)行多角度的識(shí)別,綜合判斷、糾正和修復(fù)數(shù)據(jù)。
基于案例的推理(Case-Based Reasoning,簡(jiǎn)稱(chēng)CBR)是人工智能的一個(gè)分支,它是一種根據(jù)過(guò)去的實(shí)際經(jīng)驗(yàn)或經(jīng)歷的深度學(xué)習(xí),并用以支撐未來(lái)問(wèn)題的解決。在解決能耗在線監(jiān)測(cè)系統(tǒng)異常數(shù)據(jù)問(wèn)題的過(guò)程中,也是一個(gè)經(jīng)驗(yàn)不斷積累過(guò)程,可以用人工智能的方式嘗試從以往類(lèi)似的案例中找到合適的解決方案。本文對(duì)CBR技術(shù)的數(shù)據(jù)質(zhì)量管控流程進(jìn)行歸納,并采用CBR技術(shù)對(duì)能耗在線監(jiān)測(cè)系統(tǒng)中的異常數(shù)據(jù)進(jìn)行檢測(cè)和識(shí)別,對(duì)該技術(shù)在能耗數(shù)據(jù)質(zhì)量問(wèn)題的應(yīng)用進(jìn)行試驗(yàn)。
當(dāng)能耗在線監(jiān)測(cè)的對(duì)象從一個(gè)單體的工業(yè)企業(yè)或一棟大樓,擴(kuò)展成一個(gè)區(qū)域乃至一個(gè)城市時(shí),帶來(lái)的變化不僅是項(xiàng)目邊界的擴(kuò)大、傳輸網(wǎng)絡(luò)復(fù)雜程度的提高,還會(huì)帶來(lái)數(shù)據(jù)采集節(jié)點(diǎn)的幾何倍數(shù)的數(shù)量增大,以及數(shù)據(jù)種類(lèi)、數(shù)據(jù)量的爆炸式增長(zhǎng)。以上海市重點(diǎn)用能單位能耗在線監(jiān)測(cè)系統(tǒng)信息化平臺(tái)為例,在接入500多個(gè)重點(diǎn)用能單位的部分能源種類(lèi)一級(jí)計(jì)量數(shù)據(jù)時(shí),接入3 000多個(gè)數(shù)據(jù)采集節(jié)點(diǎn),包含電能、蒸汽、燃?xì)?、煤等不同能源種類(lèi)。其中,電能采集對(duì)象進(jìn)一步細(xì)分為有功功率、無(wú)功功率、有功累積電量、無(wú)功累積電量等;蒸汽采集對(duì)象細(xì)分為工況流速、工況流量、溫度、壓力等;燃?xì)饧?xì)分為天然氣、人工煤氣、工況流速、工況流量、溫度、壓力等;加上時(shí)間戳、采集位置等基本信息以及計(jì)量單位等輔助信息,以15min/次的頻率進(jìn)行采集,每天的實(shí)時(shí)采集能源數(shù)據(jù)已超過(guò)300 000條次,動(dòng)態(tài)流量約1Mb/min。隨著系統(tǒng)平臺(tái)對(duì)于企業(yè)范圍、能源種類(lèi)覆蓋面的不斷擴(kuò)大,接入的能耗數(shù)據(jù)量進(jìn)一步提升之后,系統(tǒng)的數(shù)據(jù)處理能力面臨著較大的挑戰(zhàn)。
在對(duì)系統(tǒng)中的能耗數(shù)據(jù)進(jìn)行分析時(shí),抽取了某種能源3 340個(gè)采集節(jié)點(diǎn)每天0:00的數(shù)據(jù),連續(xù)采樣352天。經(jīng)初步統(tǒng)計(jì)分析,得到的結(jié)果見(jiàn)表1。
在352天的時(shí)間范圍內(nèi),應(yīng)該獲得的數(shù)據(jù)條數(shù)為1 175 680條,實(shí)際獲得的數(shù)據(jù)條數(shù)為1 065 932條,為應(yīng)有數(shù)據(jù)的91%;遺失的數(shù)據(jù)條數(shù)為109 748條,占應(yīng)有數(shù)據(jù)的9%。
在獲得的1 065 932條數(shù)據(jù)中,由于數(shù)據(jù)中所包含字段信息缺失而無(wú)法計(jì)算能耗的數(shù)據(jù)條數(shù)為18 972條,占實(shí)際數(shù)據(jù)的1.8%;根據(jù)數(shù)據(jù)中所包含字段計(jì)算得到能耗值為零值或者負(fù)值等明顯不合理的數(shù)據(jù)條數(shù)為28 919條,占實(shí)際數(shù)據(jù)的2.7%;包含完整字段信息的數(shù)據(jù)條數(shù)為1 018 041條,占實(shí)際數(shù)據(jù)的95.5%。數(shù)據(jù)情況見(jiàn)表2。
表1 系統(tǒng)能耗數(shù)據(jù)抽樣分析表
表2 系統(tǒng)實(shí)際獲取的能耗數(shù)據(jù)抽樣分析表
需要指出的是,即使在信息完整的1 018 041條數(shù)據(jù)中,仍然存在數(shù)據(jù)重復(fù)、計(jì)量單位錯(cuò)誤、極大值、極小值等問(wèn)題,需要通過(guò)多種的數(shù)據(jù)處理手段對(duì)這些問(wèn)題進(jìn)行識(shí)別,進(jìn)而剔除或修復(fù),使能耗數(shù)據(jù)可供后期統(tǒng)計(jì)和分析使用。
耶魯大學(xué)R.Schank首先提出了CBR技術(shù)的概念和原理,提出了動(dòng)態(tài)存儲(chǔ)、歷史環(huán)境及環(huán)境模式回憶對(duì)問(wèn)題求解的作用。案例推理的過(guò)程可以看作是一個(gè)4R(Retrieve,Reuse,Revise,Retain)的循環(huán)過(guò)程,即相似案例檢索、案例重用、案例的修改和調(diào)整、案例學(xué)習(xí)等四個(gè)步驟的循環(huán)。
當(dāng)遇到新的數(shù)據(jù)質(zhì)量問(wèn)題時(shí),將新問(wèn)題通過(guò)案例描述輸入基于CBR技術(shù)搭建的模型;模型將檢索出與目標(biāo)案例最匹配的案例,若有與目標(biāo)案例情況一致的源案例,則將其解決方案直接提交給用戶(hù);若沒(méi)有完全一致的案例則根據(jù)目標(biāo)案例的情況對(duì)相似案例的解決方案進(jìn)行調(diào)整和修改,若效果滿(mǎn)意則將新的解決方案提交給使用者,若不滿(mǎn)意則需要繼續(xù)對(duì)解決方案進(jìn)行調(diào)整和修改;對(duì)效果滿(mǎn)意的解決方案進(jìn)行評(píng)價(jià)和學(xué)習(xí),并將其保存到案例庫(kù),如圖1所示。
圖1 基于CBR技術(shù)的數(shù)據(jù)質(zhì)量管控流程示意圖
CBR技術(shù)是在特定領(lǐng)域內(nèi)進(jìn)行問(wèn)題求解和自學(xué)習(xí)的方法,不存在普遍使用的CBR方法,是一個(gè)動(dòng)態(tài)的、不斷學(xué)習(xí)的過(guò)程。對(duì)于特定領(lǐng)域的應(yīng)用,基于該技術(shù)搭建的系統(tǒng)均由4個(gè)部分組成:案例表示、案例檢索、案例的調(diào)整和修改和案例學(xué)習(xí)?;贑BR技術(shù)的異常數(shù)據(jù)檢測(cè)流程如圖2所示:
圖2 基于CBR技術(shù)的異常數(shù)據(jù)檢測(cè)流程示意圖
整個(gè)異常數(shù)據(jù)檢測(cè)的流程由CBR模型自動(dòng)完成,只需人工最后確認(rèn)實(shí)施解決方案即可,提高了數(shù)據(jù)質(zhì)量管控的效率。同時(shí),由于異常數(shù)據(jù)的檢查、判斷、解決方案的建議均由計(jì)算機(jī)自動(dòng)進(jìn)行,對(duì)數(shù)據(jù)管控人員的計(jì)算機(jī)知識(shí)要求不高,可以提高數(shù)據(jù)質(zhì)量管控結(jié)果的有效性。
基于CBR技術(shù)的能耗在線監(jiān)測(cè)系統(tǒng)異常數(shù)據(jù)檢測(cè)方法是從案例庫(kù)中找到與當(dāng)前問(wèn)題最相關(guān)的案例,然后對(duì)該案例做必要的改動(dòng)以適合當(dāng)前需解決的問(wèn)題。在對(duì)系統(tǒng)進(jìn)行綜合判斷和評(píng)價(jià)時(shí),可將當(dāng)前運(yùn)行數(shù)據(jù)(如電力、溫度、壓力、流量、通訊狀況、數(shù)據(jù)等重要監(jiān)測(cè)參數(shù))、數(shù)據(jù)質(zhì)量評(píng)價(jià)、診斷結(jié)果、處理意見(jiàn)等,以案例的形式存入案例庫(kù),作為知識(shí)庫(kù)的一部分。當(dāng)下次對(duì)數(shù)據(jù)質(zhì)量管控進(jìn)行綜合判斷、評(píng)價(jià)或遇到問(wèn)題時(shí),可以從案例庫(kù)中檢索相似案例,為當(dāng)前問(wèn)題提供參考。相似案例一般是按最顯著的特征進(jìn)行索引,這樣可高效檢索那些與當(dāng)前問(wèn)題具有相當(dāng)數(shù)量公共特征的案例。檢索相似案例的算法有最近鄰算法、決策樹(shù)算法、樸素貝葉斯等機(jī)器學(xué)習(xí)算法,及深度神經(jīng)網(wǎng)絡(luò)算法等。當(dāng)檢索到相似案例之后,可以重用這個(gè)案例,給出初步解決或處理意見(jiàn),可以是文字性描述,或是推導(dǎo)過(guò)程,也可以是參數(shù)化關(guān)系模型;當(dāng)進(jìn)行案例重用時(shí),系統(tǒng)根據(jù)提前預(yù)定義的某種案例修改策略對(duì)相似案例的解決方案進(jìn)行調(diào)整和修改,并將調(diào)整和修改后的方案交給用戶(hù)。用戶(hù)也可對(duì)維修或處理意見(jiàn)進(jìn)行手工修改,以滿(mǎn)足數(shù)據(jù)質(zhì)量管控問(wèn)題的需要。當(dāng)問(wèn)題解決后,可以將這些數(shù)據(jù)保存起來(lái),作為新的案例,成為案例庫(kù)的一個(gè)案例,以使案例庫(kù)不斷豐富,案例庫(kù)中案例越多,覆蓋面越廣,越有利于故障診斷質(zhì)量的提高。
以能耗在線監(jiān)測(cè)系統(tǒng)中的能耗數(shù)據(jù)作為試驗(yàn)對(duì)象,基于CBR技術(shù)建立異常數(shù)據(jù)檢測(cè)模型,并抽取某種能源某一個(gè)采集節(jié)點(diǎn)連續(xù)352天的能耗數(shù)據(jù)進(jìn)行長(zhǎng)周期(352天)、中周期(30天)、短周期(7天)三個(gè)不同周期的異常數(shù)據(jù)檢測(cè)試驗(yàn),可得到如圖3的結(jié)果。
圖3 長(zhǎng)周期異常數(shù)據(jù)檢測(cè)結(jié)果示意圖
在長(zhǎng)周期(352天)異常數(shù)據(jù)檢測(cè)試驗(yàn)中,使用基于CBR技術(shù)的異常數(shù)據(jù)檢測(cè)方法可以準(zhǔn)確識(shí)別到所有的異常點(diǎn),包括數(shù)據(jù)極大值和數(shù)據(jù)負(fù)值兩種情況均可被正常識(shí)別,沒(méi)有發(fā)生誤判的情況。
在中周期(30天)異常數(shù)據(jù)檢測(cè)試驗(yàn)中,使用基于CBR技術(shù)的異常數(shù)據(jù)檢測(cè)方法同樣可以準(zhǔn)確識(shí)別到所有的數(shù)據(jù)負(fù)值異常點(diǎn),見(jiàn)圖4。
圖4 中周期異常數(shù)據(jù)檢測(cè)結(jié)果示意圖
在短周期(7天)異常數(shù)據(jù)檢測(cè)試驗(yàn)中,由于在該時(shí)間范圍內(nèi)能耗數(shù)據(jù)本身沒(méi)有異常,使用基于CBR技術(shù)的異常數(shù)據(jù)檢測(cè)方法未出現(xiàn)數(shù)據(jù)誤判的情況見(jiàn)圖5。
圖5 短周期異常數(shù)據(jù)檢測(cè)結(jié)果示意圖
在本項(xiàng)目所做的其他抽樣異常數(shù)據(jù)檢測(cè)試驗(yàn)中,也均能得到與展示案例相同的結(jié)果,無(wú)論在長(zhǎng)周期(352天)、中周期(30天)和短周期(7天),基于CBR技術(shù)的異常數(shù)據(jù)檢測(cè)方法能對(duì)各種數(shù)據(jù)質(zhì)量異常問(wèn)題進(jìn)行識(shí)別和判定。
能耗在線監(jiān)測(cè)系統(tǒng)需要采集大量的能耗實(shí)時(shí)數(shù)據(jù)和相關(guān)能耗信息,主要范圍包括企業(yè)能耗監(jiān)測(cè)數(shù)據(jù)、公共供能單位數(shù)據(jù)、其他相關(guān)業(yè)務(wù)數(shù)據(jù)和各級(jí)能源計(jì)量平臺(tái)數(shù)據(jù)等。隨著系統(tǒng)平臺(tái)持續(xù)的運(yùn)行,大量數(shù)據(jù)的匯集,及數(shù)據(jù)質(zhì)量管控的標(biāo)準(zhǔn)不一致,導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題突出?;贑BR技術(shù)的異常數(shù)據(jù)檢測(cè)方法能夠有效地解決數(shù)據(jù)異常點(diǎn)識(shí)別的問(wèn)題,通過(guò)相似案例檢索、案例重用、案例的修改與調(diào)整和案例學(xué)習(xí)四個(gè)步驟的循環(huán)不斷完善案例庫(kù),并建立案例信息庫(kù)采集的關(guān)鍵指標(biāo)項(xiàng),組織、索引不斷提高檢索和重用的效率,然后從案例庫(kù)中搜索出與目標(biāo)案例最為相似,對(duì)目標(biāo)案例最有幫助的案例,根據(jù)需求和新情況對(duì)案例進(jìn)行修改和調(diào)整,最終產(chǎn)生適用于新問(wèn)題的解決方案。通過(guò)本項(xiàng)目中對(duì)CBR技術(shù)的應(yīng)用試驗(yàn),論證了該技術(shù)在能耗在線監(jiān)測(cè)系統(tǒng)異常數(shù)據(jù)檢測(cè)方法上的可行性,有較好的應(yīng)用前景。