戴吉平 史晨
1 深圳達實智能股份有限公司
2 清遠市清城區(qū)住房和城鄉(xiāng)建設(shè)局
隨著社會的發(fā)展,建筑機電系統(tǒng)設(shè)備量越來越大,在實際運行的過程中,存在諸多隱蔽性異常,設(shè)備的異常運行是困擾機電系統(tǒng)節(jié)能運行的主要問題。工程上通常是監(jiān)測逐時刻能耗數(shù)據(jù),結(jié)合數(shù)據(jù)統(tǒng)計法去判斷找到異常。
現(xiàn)在信息化技術(shù)趨于成熟,建筑機電系統(tǒng)運行過程中積累的大量數(shù)據(jù)是設(shè)備運行經(jīng)驗很好的載體,結(jié)合數(shù)據(jù)挖掘技術(shù),可用于建筑機電系統(tǒng)的運行優(yōu)化工作[1-2]。數(shù)據(jù)挖掘的預(yù)測方法旨在通過相關(guān)性變量來預(yù)測其他變量的未知值或未知狀態(tài)。描述方法旨在找到挖掘數(shù)據(jù)中隱藏的有用的知識,例如關(guān)聯(lián)和聚類[3]。本文基于數(shù)據(jù)挖掘技術(shù)從實際數(shù)據(jù)中挖掘歷史用能規(guī)律,通過預(yù)測機電設(shè)備運行能耗來判斷實際能耗是否異常。
大數(shù)據(jù)分析過程包括三個步驟:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識表達。由于原始數(shù)據(jù)中往往存在缺失、突變、不聯(lián)系等問題,數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析工作的不可或缺的重要環(huán)節(jié)。數(shù)據(jù)挖掘是從數(shù)據(jù)中挖掘潛在有價值的信息,常用的分析方法有:顯著性分析檢驗、聚類和關(guān)聯(lián)分析、分類預(yù)測等。數(shù)據(jù)挖掘產(chǎn)生的大量信息數(shù)據(jù),如何選擇、解析和利用知識來獲取隱藏價值,往往存在著困難和挑戰(zhàn),需要利用知識表達(包括知識選擇和解釋) 對挖掘產(chǎn)生的知識信息進行分析,并將分析結(jié)果應(yīng)用到策略挖掘、故障診斷和控制優(yōu)化等方面。典型大數(shù)據(jù)分析流程如圖1 所示。
圖1 大數(shù)據(jù)分析典型流程
建筑機電設(shè)備運行能耗診斷應(yīng)用該數(shù)據(jù)分析流程涉及到的方法有:特征提取,聚類分析,Apriori 關(guān)聯(lián)規(guī)則,結(jié)合數(shù)據(jù)統(tǒng)計方法,展示了其應(yīng)用效果。
使用數(shù)據(jù)挖掘技術(shù)的商業(yè)建筑機電設(shè)備運行能耗診斷的方法流程主要包括以下四個步驟:數(shù)據(jù)預(yù)處理、特征分析、DBSCAN 聚類分析、Apriori 關(guān)聯(lián)規(guī)則。數(shù)據(jù)預(yù)處理是提升數(shù)據(jù)質(zhì)量是為了做后續(xù)數(shù)據(jù)分析的重要基礎(chǔ)工作;特征分析是正確聚類的基礎(chǔ)?;谑彝猸h(huán)境數(shù)據(jù)、日期特征、聚類標(biāo)簽應(yīng)用關(guān)聯(lián)規(guī)則算法建立因子-結(jié)果對應(yīng)的條件規(guī)則,獲取強關(guān)聯(lián)的條件規(guī)則,即識別的運行規(guī)律。
建筑機電系統(tǒng)運維平臺數(shù)據(jù)庫獲取的歷史日能耗數(shù)據(jù)有必要經(jīng)過數(shù)據(jù)預(yù)處理,即去除空缺數(shù)據(jù),去除突變數(shù)據(jù),去除噪點數(shù)據(jù),提升數(shù)據(jù)質(zhì)量。為了保證能耗數(shù)據(jù)的可靠性及數(shù)據(jù)量,本文涉及到的預(yù)處理方法中突變數(shù)據(jù)可理解為:當(dāng)前時刻點能耗值與前后時刻點能耗值都相差10 倍,或是當(dāng)前時刻點能耗與前后時刻點能耗偏差值都大于額定值(額定值即逐時刻點能耗量所能達到的最大值)。同時需要考慮噪點日能耗曲線樣本的影響,取統(tǒng)計學(xué)方法置信度95%的能耗數(shù)據(jù)樣本。
基于統(tǒng)計學(xué)方法的機電設(shè)備日能耗數(shù)據(jù)預(yù)處理方法流程如圖2 所示。
圖2 日能耗數(shù)據(jù)樣本預(yù)處理流程
機電設(shè)備的用能規(guī)律挖掘?qū)嵸|(zhì)上是日能耗曲線的識別工作,選擇合適的曲線特征參數(shù)是正確聚類結(jié)果的基礎(chǔ)。根據(jù)機電設(shè)備的類型和日能耗曲線的分析結(jié)果,特征分析主要分兩個步驟:設(shè)備屬性的劃分,特征參數(shù)的選取。設(shè)備屬性的劃分本質(zhì)上是區(qū)分照明、暖通、電梯、動力等類型的用電設(shè)備,可采用樣本差異系數(shù)進行區(qū)分。所謂差異系數(shù)就是以樣本標(biāo)準(zhǔn)差去除樣本平均數(shù)其計算公式為:
其中S為樣本標(biāo)準(zhǔn)差,M為樣本平均數(shù),CV為樣本差異系數(shù)。差異系數(shù)大,則代表著其數(shù)據(jù)的差異程度大。
特征參數(shù)的選取本質(zhì)上是依據(jù)運行能耗曲線的特征定義,本方法選擇開啟時間長度、開啟區(qū)間能耗均值、能耗方差。彈性設(shè)備特征選擇開啟時間長度、開啟區(qū)間能耗均值、能耗方差。剛性設(shè)備特征選擇開啟時間長度、開啟區(qū)間能耗均值。
圖3 日能耗數(shù)據(jù)樣本特征提取流程
基于 DBSCAN 聚類算法的一些優(yōu)勢,即不需要指定簇的個數(shù);可以對任意形狀的稠密數(shù)據(jù)集進行聚類,相對的K-Means 等相關(guān)的聚類算法一般只適用于凸數(shù)據(jù)集;擅長找到離群點。只需要輸入兩個模型參數(shù)即可。本文采用 DBSCAN 聚類對設(shè)備運行日能耗曲線進行類別的聚類分析。對設(shè)備的運行能耗數(shù)據(jù)進行基于數(shù)據(jù)聚類的挖掘分析,對帶有分類標(biāo)簽的日能耗數(shù)據(jù),室外環(huán)境數(shù)據(jù)分類標(biāo)簽,日期特征數(shù)據(jù)即月份、是否節(jié)假日、是否工作日進行 Apriori 關(guān)聯(lián)規(guī)則的學(xué)習(xí)訓(xùn)練,預(yù)測未來日能耗曲線類別,即日能耗范圍。
圖4 基于數(shù)據(jù)挖掘技術(shù)識別設(shè)備運行規(guī)律的方法流程
從室外環(huán)境角度考慮,影響機電設(shè)備運行模式的驅(qū)動因素主要有室外溫度、室外相對濕度、降水量 3 個因素,從時間角度考慮主要驅(qū)動因素有工作日、節(jié)假日、月份3 個因素。本文采用最大信息系數(shù)(MIC)方法用來檢測以上影響因素與對應(yīng)聚類標(biāo)簽相關(guān)性進行不確定性度量。
本次案例數(shù)據(jù)來源于某商業(yè)集團公司運行監(jiān)測平臺中的暖通、照明、電梯、動力等分項設(shè)備的能耗數(shù)據(jù),獲取到不同氣候區(qū)共 12 個大型商業(yè)建筑,其2019年的逐15 分鐘的日能耗數(shù)據(jù),經(jīng)過必要的數(shù)據(jù)預(yù)處理,即空缺值處理,突變數(shù)據(jù)處理,取置信度 95%數(shù)據(jù)作為本次數(shù)據(jù)分析的基準(zhǔn)數(shù)據(jù)。
將帶有聚類標(biāo)簽的 2019 年能耗數(shù)據(jù)樣本集采用隨機拆分方法拆為80%訓(xùn)練集和 20%測試集,測試集應(yīng)用關(guān)聯(lián)規(guī)則根據(jù)室外環(huán)境因子和日期特征因子得到預(yù)測的聚類標(biāo)簽。同時為了分析強關(guān)聯(lián)規(guī)則和一般關(guān)聯(lián)規(guī)則對識別結(jié)果的影響,本次將置信度大于0.8,支持度大于0.1 的規(guī)則定義為強關(guān)聯(lián)規(guī)則;置信度大于0.5,支持度大于0.1 的規(guī)則定義為一般關(guān)聯(lián)規(guī)則。
一般情況下測試集采用關(guān)聯(lián)規(guī)則進行預(yù)測,一定程度上會出現(xiàn)測試集因子找不到規(guī)則,匹配不到結(jié)果,該情況下沒法預(yù)測。因此可定義兩個指標(biāo)進行評價:即準(zhǔn)確度和測試集匹配率。準(zhǔn)確度即預(yù)測準(zhǔn)確的樣本數(shù)除以能夠預(yù)測到的樣本數(shù),匹配率即能夠匹配到的樣本數(shù)除以測試集樣本總數(shù)。
圖5、6 表示該識別方法不同關(guān)聯(lián)規(guī)則結(jié)果對測試驗證結(jié)果對比情況,從結(jié)果可以看出:
圖5 一般關(guān)聯(lián)規(guī)則識別驗證結(jié)果
1)一般關(guān)聯(lián)規(guī)則識別方法建筑機電各分項設(shè)備準(zhǔn)確率平均為0.91,匹配率平均為0.95,其中空調(diào)箱預(yù)測的準(zhǔn)確率低,主要是因為空調(diào)箱運行規(guī)律不明顯;制熱主機、停車場消防通風(fēng)、生活水泵、送排風(fēng)機、室內(nèi)公用照明、景觀照明、停車場照明、直梯、扶梯預(yù)測的準(zhǔn)確率高,因為其屬于剛性設(shè)備,其運行規(guī)律單一。
2)強關(guān)聯(lián)規(guī)則識別方法建筑機電各分項設(shè)備準(zhǔn)確率平均為0.95,匹配率平均為0.82,同上空調(diào)箱預(yù)測結(jié)果最低,剛性分項預(yù)測結(jié)果最高。
3)綜合分析可知,基于數(shù)據(jù)挖掘技術(shù)識別設(shè)備運行規(guī)律的方法識別結(jié)果較好。強關(guān)聯(lián)規(guī)則準(zhǔn)確度更高,但是其匹配率會降低,出現(xiàn)無法預(yù)測的結(jié)果。
圖6 強關(guān)聯(lián)規(guī)則識別驗證結(jié)果
本文從不同類型的大型商業(yè)建筑機電系統(tǒng)實際運行數(shù)據(jù)出發(fā),分析了強關(guān)聯(lián)規(guī)則和一般關(guān)聯(lián)規(guī)則識別設(shè)備運行規(guī)律方法的準(zhǔn)備度和匹配度,得到以下結(jié)論,驗證了該數(shù)據(jù)挖掘方法的可行性。
1)采用強關(guān)聯(lián)規(guī)則方法,即置信度大于 0.80 下識別設(shè)備的運行規(guī)律準(zhǔn)確度達到0.95,預(yù)測規(guī)律準(zhǔn)確度高。但匹配率只有0.82,也就是說設(shè)備歷史運行規(guī)律顯著的樣本不足,對于那一部分樣本是無法匹配到歷史運行規(guī)律的。
2)采用一般關(guān)聯(lián)規(guī)則方法,即置信度大于 0.50 下識別設(shè)備的運行規(guī)律準(zhǔn)確度為0.91,預(yù)測準(zhǔn)確度下降,但是其匹配率高達0.95。也就是說,設(shè)備歷史運行規(guī)律不那么顯著情況下去識別,相對預(yù)測的準(zhǔn)確度是下降的,但是大部分樣本能夠在歷史運行中找到運行規(guī)律。
3)數(shù)據(jù)挖掘技術(shù)在機電設(shè)備運行規(guī)律識別當(dāng)中具有高的識別精度,但是預(yù)測精度還依賴于關(guān)聯(lián)規(guī)則算法的閾值設(shè)定。強關(guān)聯(lián)規(guī)則即置信度要求大于0.80情況下,適用于運行規(guī)律單一或顯著的機電設(shè)備,如制熱主機、停車場消防通風(fēng)、生活水泵、送排風(fēng)機、室內(nèi)公用照明、景觀照明、停車場照明、直梯、扶梯等。一般關(guān)聯(lián)規(guī)則即置信度要求大于 0.50 情況下,適用于空調(diào)箱等運行規(guī)律不顯著的機電設(shè)備,或是歷史數(shù)據(jù)不足的機電設(shè)備。