摘要:針對冷水機組運行過程中數(shù)據(jù)類別不平衡問題,提出基于馬氏距離進行“三角”區(qū)域插值的MSSMOTE方法對故障數(shù)據(jù)進行擴充,將得到的數(shù)據(jù)輸入CNN模型進行訓練,實現(xiàn)對冷水機組中7種故障的診斷。在不同擴充比例下和同一種數(shù)據(jù)類型下分別進行仿真測試,結果顯示:在擴充比例為4時,MSSMOTE-CNN模型對于正常樣本測試的準確率和F1-score分別達到0.961和0.971,能夠較準確識別出冷水機組的故障類型。
關鍵詞:MSSMOTE-CNN模型;數(shù)據(jù)不平衡;故障診斷;冷水機組
中圖分類號:TP277文獻標志碼:A文章編號:1671-5276(2024)06-0128-05
Abstract:To deal with the unbalanced data types during the operation of water chillers, this paper proposes the MSSMOTE method based on Mahalanobis distance and \"triangle\" area interpolation to expand the fault data, and input the obtained data into the CNN model for training, so as to realize the diagnosis of seven kinds of faults in water chillers. Simulation tests were conducted under different expansion ratios and the same data type. The results showed that when the expansion ratio was 4, the MSSMOTE-CNN model achieved an accuracy of 0.961 and a F1-score of 0.971 respectively for normal sample testing, which was capable of accurately identifying the fault type of the chiller.
Keywords:MSSMOTE-CNN model; data imbalance; fault diagnosis; water chilling unit
0引言
隨著國內建筑全壽命周期能源消耗總量占據(jù)全國能源消耗總量比例的日益增高[1],如果暖通空調(heating, ventilating and air conditioning,HVAC)系統(tǒng)發(fā)生故障,不僅影響室內環(huán)境的舒適度,而且會造成能源的大量浪費。所以設備的故障診斷研究是非常有必要的[2]?;跀?shù)據(jù)的方法在異常檢測[3]和語音識別[4-5]等領域都展現(xiàn)出了一定的優(yōu)勢。可以說工業(yè)互聯(lián)網(wǎng)和智能化技術的不斷發(fā)展為故障診斷技術帶來了新的機遇[6],但是在大數(shù)據(jù)背景下往往存在著極度的類別不平衡特性,即正常樣本數(shù)量遠遠多于故障樣本。這種情況嚴重影響傳統(tǒng)的基于數(shù)據(jù)驅動故障診斷模型的診斷效果[7-9]。本文主要針對數(shù)據(jù)采樣方法中的過采樣方法進行改進,研究基于數(shù)據(jù)的冷水機組故障診斷方法,有助于及時識別并解決冷水機組故障。
為了獲得更具競爭力的平衡效果,基于過采樣的方法主要關注少數(shù)樣本,采用各種采集少數(shù)樣本的思想來擴展其樣本集的大小。隨機復制幾種類型的樣本是一種相對簡單的采樣思想,但單個復制的樣本只重復原始樣本信息,往往會導致分類模型的過擬合[10]。面向不平衡數(shù)據(jù)集的分類方法,一般基于SMOTE改進的過采樣方法是將SMOTE方法與密度思想或者k-means聚類思想相結合,或者通過賦予選擇權重,以達到較好的樣本平衡化效果。有通過構建穩(wěn)定空間和改變插值方式來降低樣本重疊性,進而對故障數(shù)據(jù)進行有效擴充的[11],還有通過改變距離的度量方式來優(yōu)化數(shù)據(jù)擴充方法的[12]。除此之外,還有很多基于支持向量機的平衡化樣本方法,其實驗結果較傳統(tǒng)的分類算法具有更好的性能和更高的精度。
實際冷水機組運行過程中通常存在類別不平衡以及多類型故障識別準確率低的問題。針對這兩種問題,本文提出一種改進的MSSMOTE樣本平衡化方法。最后將平衡化后得到的數(shù)據(jù)集輸入CNN模型進行訓練,實現(xiàn)對冷水機組運行過程中多類故障的診斷。
1基于MSSMOTE-CNN的故障診斷模型
1.1故障的類型
根據(jù)COMSTOCK等[13]對美國主流冷水機組產(chǎn)品進行的調查,同時列出了7種值得研究的故障類型,如表1所示。
在同一條件下,由于不同故障類型和同一故障類型的不同方面都有一定的影響,這會大大增加故障診斷模型構建的難度。
1.2數(shù)據(jù)擴充方法的對比
在傳統(tǒng)SMOTE方法的基礎上,SSMOTE和MSMOTE分別在插值方式和距離度量方式上進行了改進。本文將利用SSMOTE方法的插值方式改進MSMOTE方法樣本重疊性低的問題,其中SMOTE、SSMOTE和MSMOTE在距離度量方式和插值方式上的對比如表2所示。
1.3改進的MSSMOTE方法
由于MSMOTE方法的聚類效果好,但是采用線性插值導致樣本重疊性較高,而SSMOTE方法的聚類效果較差,而采用的“三角”區(qū)域插值能降低樣本重疊性。為了得到更好的聚類效果,同時降低樣本重疊性,將SSMOTE方法中的“三角”區(qū)域插值方式與MSMOTE方法基于馬氏距離這兩個方式相結合,以改進MSMOTE方法樣本重疊性低的問題,以下是基于改進后的MSSMOTE方法的具體步驟。
1)利用式(1)計算故障樣本集X∧min中的任意一個樣本X∧min,i到X∧min中其他樣本的馬氏距離,篩選出其中最小的k個樣本作為近鄰樣本,并記為X∧min,j。將少數(shù)類樣本X∧min,i與其近鄰樣本組合成形式為x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik的樣本組。
式中:S-1為S的逆矩陣,S為樣本協(xié)方差矩陣;k一般取值為5。
2)對于每個樣本組{x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik},統(tǒng)計其中的樣本x∧min,i1~x∧min,ik所對應的故障類型標簽,并設定比率閾值rs。對于樣本X∧min,i, 若在k個近鄰樣本的類型標簽中與X∧min,i類型標簽相同樣本的數(shù)目所占比例超過rs,則樣本X∧min,i被保留,否則被去除。通過這種方式對各個類型的樣本集進行樣本篩選,每個類型的保留樣本構成了所屬類型的穩(wěn)定特征空間集合St(t=1,2,…)。
3)在任一穩(wěn)定特征空間集合St中,隨機選出一個保留樣本x∧Sti。然后,在樣本x∧Sti的k個近鄰樣本中隨機選出兩個近鄰樣本x∧Sti1和x∧Sti2。最后,利用上述3個樣本合成新樣本x∧new,計算公式如下:
式中re1、re2和re3均為取值在0~1之間的隨機數(shù)。
MSSMOTE方法流程如圖1所示。首先將訓練樣本集分為故障樣本集和正常樣本集,然后分別進行歸一化,得到歸一化后的故障樣本集和正常樣本集。按照上面的步驟得到新樣本x∧new,直到x∧new和X∧min數(shù)量達到一定比例。將得到的新樣本添加到故障樣本集X∧min中,此時X∧max和X∧min構成新的訓練數(shù)據(jù)集。
2實驗方案及仿真分析
2.1MSSMOTE方法可行性分析
在本節(jié)仿真過程中,選用了RP-1043公開數(shù)據(jù)集[14]中的LEVEL2數(shù)據(jù)集來訓練MSSMOTE-CNN、MSSMOTE-LSTM和MSSMOTE-TCN模型,并測試各模型在正常和7種故障數(shù)據(jù)中的故障診斷性能。
故障診斷結果如圖2所示,混淆矩陣的橫向代表樣本預測類別,縱向為樣本的真實類別。主對角線方塊中的數(shù)字代表正確分類的樣本數(shù)量,除主對角線以外的深色方塊中的數(shù)字表示錯誤分類的樣本數(shù)量。可以看出,圖2(b)和圖2(c)中的第一行錯誤分類的樣本數(shù)字和分別為20和9,大于圖2(a)中第一行錯誤分類的樣本數(shù)字和3;同樣圖2(b)和圖2(c)中其余幾行錯誤分類的樣本數(shù)字和都大于圖2(a)中相應行的錯誤分類的樣本數(shù)字和,這說明MSSMOTE-LSTM和MSSMOTE-TCN錯誤分類的樣本更多。從圖2(a)來看,MSSMOTE方法產(chǎn)生的數(shù)據(jù)在CNN模型上的適用性更好。
2.2故障診斷方案
基于MSSMOTE方法的冷卻系統(tǒng)故障診斷整體方案如圖3所示,具體流程如下。
1)仿真數(shù)據(jù)設定
本節(jié)所使用的數(shù)據(jù)集是從原始數(shù)據(jù)集中隨機選取了6 668個正常樣本,而每一種故障類型都僅選取了800個樣本,由此組成不平衡數(shù)據(jù)集。測試集則是由與不平衡數(shù)據(jù)集不重復的13 344個樣本組成。為了驗證MSSMOTE方法的數(shù)據(jù)擴充能力,在仿真過程中,選擇了SSMOTE和MSMOTE這兩種作為數(shù)據(jù)擴充對比方法。分類器選用了在上節(jié)表現(xiàn)較好的CNN模型進行訓練。本文選擇準確率(Accuracy)和F1分數(shù)(F1-score)作為評價指標,其中F1分數(shù)定義為精確率(Precision)和召回率(Recall)的調和平均值,是一個衡量分類模型綜合能力的指標,F(xiàn)1-score值越高說明模型的綜合識別能力越好。評價指標的混沌矩陣如表3所示,計算過程如下:
2)按照擴充比例對MSSMOTE方法的性能測試
為了驗證MSSMOTE方法的數(shù)據(jù)擴充能力,在實驗分析中,選擇了SSMOTE和MSMOTE作為數(shù)據(jù)擴充對比方法,并將擴充之后的數(shù)據(jù)輸入CNN模型中訓練,MSSMOTE、SSMOTE和MSMOTE與CNN模型的組合分別簡記為MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN。最后,使用測試集獲取3種模型各自的Accuracy和F1-score指標。
測試結果如圖4所示,從圖中可以看出,在擴充比例為1、2和3的情況下,3種方法擴充的數(shù)據(jù)都可以使模型的Accuracy和F1-score指標得到不同程度的上升,并且在擴充比例為4時達到了最大值,但在4以上都有不同程度的下降。
詳細數(shù)據(jù)結果如表4所示??梢园l(fā)現(xiàn),在擴充比例從0~1的變化階段,MSSMOTE-CNN方法的性能提升得更多,在Accuracy指標中上升了15.1%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在Accuracy指標中分別上升了5.8%和6.0%;MSSMOTE-CNN方法的性能在F1-score指標中提升了16.9%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在F1-score指標中分別提升了7.3%和4.7%;MSSMOTE-CNN在擴充比例上升到4時,Accuracy和F1-score兩項指標達到最高值,分別為0.961和0.971。達到最大值之后MSSMOT-CNN還可以保持較穩(wěn)定的性能。
總之,相比較于其他方法,MSSMOTE方法可以實現(xiàn)更大比例的數(shù)據(jù)擴充,仿真結果表明:MSSMOTE-CNN模型在解決冷水機組故障診斷問題上具有出色的表現(xiàn)。
3)按照數(shù)據(jù)類型對MSSMOTE方法的性能測試。
為了進一步分析MSSMOTE方法的性能,對MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN 3種模型在數(shù)據(jù)擴充比例為4時的故障診斷表現(xiàn)進行了詳細比較。使用測試集獲取了3種模型在每一種數(shù)據(jù)類型下的Accuracy和F1-score結果,3種模型的對比情況如圖5所示。
通過圖5中7種故障類型的Accuracy和F1-score指標比較結果可以看出,SSMOTE-CNN和MSMOTE-CNN的表現(xiàn)相對接近;MSSMOTE-CNN明顯更高。
表5為在同一數(shù)據(jù)類型中3種方法的實驗數(shù)據(jù)結果。從表5仿真結果數(shù)據(jù)可以看出,在RL故障的Accuracy指標中,MSSMOTE-CNN比SSMOTE-CNN提高了15.9%,MSSMOTE-CNN比MSMOTE-CNN提升了14.7%。在其他數(shù)據(jù)類型中,相較于SSMOTE-CNN和MSMOTE-CNN兩種方法,MSSMOTE-CNN的Accuracy指標都有不同程度的提升。而在CF故障的F1-score指標結果中,MSSMOTE-CNN比SSMOTE-CNN提升了7.3%;在RO故障的F1-score結果中,MSSMOTE-CNN比MSMOTE-CNN提高了13.7%。在其他數(shù)據(jù)類型中,MSSMOTE-CNN比SSMOTE-CNN和MSMOTE-CNN在F1-Score上都有不同程度的提升。
3結語
本文為了解決冷水機組數(shù)據(jù)類別不平衡問題,利用MSSMOTE方法實現(xiàn)數(shù)據(jù)的有效擴充。訓練結果顯示:在擴充比例為4時,對于正常樣本測試的Accuracy和F1-score值分別達到0.961和0.971,所構建的MSSMOTE-CNN模型具有更好的故障診斷性能。但是從仿真結果數(shù)據(jù)可以看出,仍有一定的提升空間,并且本文仿真分析所采用的是公開數(shù)據(jù)集,必然會受到一些相關外在因素的影響,但本文尚未考慮這些問題。
參考文獻:
[1] 中國建筑節(jié)能協(xié)會. 中國建筑能耗研究報告2020[J]. 建筑節(jié)能(中英文),2021,49(2):1-6.
[2] JIA F,LEI Y G,GUO L,et al. A neural network constructed by deep learning technique and its application to intelligent fault diagnosis of machines[J]. Neurocomputing,2018,272(C):619-628.
[3] WANG Z M,TIAN J Y,F(xiàn)ANG H,et al. LightLog:a lightweight temporal convolutional network for log anomaly detection on the edge[J]. Computer Networks,2022,203:108616.
[4] KORVEL G,TREIGYS P,TAMULEVICUS G,et al. Analysis of 2D feature spaces for deep learning-based speech recognition[J]. Journal of the Audio Engineering Society,2018,66(12):1072-1081.
[5] BOU NASSIF A,SHAHIN I,ATTILI I,et al. Speech recognition using deep neural networks:a systematic review[J]. IEEE Access,2885,7:19143-19165.
[6] 柴天佑,劉強,丁進良,等. 工業(yè)互聯(lián)網(wǎng)驅動的流程工業(yè)智能優(yōu)化制造新模式研究展望[J]. 中國科學:技術科學,2022,52(1):14-25.
[7] DUAN A,GUO L,GAO H L,et al. Deep focus parallel convolutional neural network for imbalanced classification of machinery fault diagnostics[J]. IEEE Transactions on Instrumentation and Measurement,2020,69(11):8680-8689.
[8] HU Z X,JIANG P. An imbalance modified deep neural network with dynamical incremental learning for chemical fault diagnosis[J]. IEEE Transactions on Industrial Electronics,2019,66(1):540-550.
[9] YANG G,ZHONG Y,YANG L,et al. Fault diagnosis of harmonic drive with imbalanced data using generative adversarial network[J]. IEEE Transactions on Instrumentation and Measurement,2021,70:3519911.
[10] 丁勝奪,趙剛,閻紅巧,等. 基于遺傳理論的改進數(shù)據(jù)過采樣方法[J]. 計算機系統(tǒng)應用,2022,31(2):185-190.
[11] 申存驍. 基于數(shù)據(jù)的冷水機組故障檢測與診斷[D]. 濟南:山東建筑大學,2022.
[12] 程曉倩. 面向類別不平衡數(shù)據(jù)的工業(yè)過程多故障診斷方法研究[D]. 北京:北京化工大學,2022.
[13] COMSTOCK M C, BRAUN J E, GROLL E A. A survey of common faults for chillers/discussion[J]. Ashrae Transactions, 2002, 108: 819.
[14]COMSTOCK M C, BRAUN J E, BERNHARD R. Development of analysis tools for the evaluation of fault detection and diagnostics in chillers[M]. [S.I]:Purdue University, 1999.
收稿日期:20230414
基金項目:國網(wǎng)天津市電力公司科技項目(KJ22-2-02);國網(wǎng)天津市電力公司科技項目(KJ21-1-21);天津理工大學 2022年天津市研究生科研創(chuàng)新項目(2022SKYZ070);天津理工大學 2022年校級研究生科研創(chuàng)新實踐項目(YJ2209);企業(yè)科技特派員項目(20YDTPJC01670)
第一作者簡介:曹冉冉(1996—),女,河北邯鄲人,碩士研究生,研究方向為機械及機器學習算法,3401517075@qq.com。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.025