羅方芳,郭文忠,劉耿耿,陳國龍
1(福州大學 數(shù)學與計算機科學學院,福州 350116) 2(福州大學 空間數(shù)據(jù)挖掘與信息共享教育部重點實驗室,福州 350116) 3(集美大學 計算機工程學院,廈門 361021)E-mail:fzugwz@163.com
移動通信系統(tǒng)中的基站通過無線連接技術(shù)為移動臺提供接入系統(tǒng)的接口.據(jù)工信部發(fā)布的《2017年通信運營業(yè)統(tǒng)計公報》顯示,2017年,移動通信基站的總數(shù)達到593萬,其中4G基站新增86.1萬個,總數(shù)達到328萬個,移動網(wǎng)絡(luò)覆蓋范圍和服務(wù)能力繼續(xù)提升[1].由于基站設(shè)備需要在相對恒溫的條件下才能正常工作,所以移動通信基站中都要加裝專用的通信空調(diào),為基站內(nèi)各種設(shè)備的穩(wěn)定運行提供必要條件.對基站空調(diào)各傳感器數(shù)據(jù)進行健康狀態(tài)評估不僅可以了解設(shè)備的運行狀況,還可以對異常狀態(tài)及時報警,以便盡早進行故障排查,盡可能將軟故障解決于萌芽狀態(tài),避免硬故障的發(fā)生而影響通信設(shè)備的正常運行.因此,高效的、多維度故障源分析的基站空調(diào)故障檢測和診斷系統(tǒng)的研究有其實際意義.
空調(diào)故障診斷實際上是一個分類問題,目前已有一些人工智能技術(shù)應用于空調(diào)故障診斷.如將主成成分分析(PCA)法應用于變風量空調(diào)傳感器故障診斷[2],利用神經(jīng)網(wǎng)絡(luò)檢測空氣處理機組故障[3],綜合角度分析法和Fisher判別法應用于空調(diào)傳感器多故障診斷[4],構(gòu)建專家規(guī)則集進行空調(diào)系統(tǒng)故障診斷[5],將SVM應用于螺桿制冷系統(tǒng)故障診斷[6],等等.從這些研究中可以發(fā)現(xiàn),相較于PCA法和專家系統(tǒng),基于神經(jīng)網(wǎng)絡(luò)和SVM的故障診斷模型魯棒性強,診斷精度較高,但普遍存在兩個問題:
1)忽略了訓練集中的類別不平衡問題.上述算法均是在訓練集類別平衡的假設(shè)基礎(chǔ)上構(gòu)建的.然而,數(shù)據(jù)集類別不均衡現(xiàn)象很普遍,這種不平衡性會使得一些少量樣本的故障類型在分類器的訓練過程中被視為噪聲而遭“吞噬”.與決策樹處理方法相比,小類樣本識別率低的問題在神經(jīng)網(wǎng)絡(luò)類型的故障診斷中更為嚴重.
2)上述方法大多給出單類的已發(fā)生的硬故障診斷結(jié)果.空調(diào)系統(tǒng)處于亞健康狀態(tài)時,軟故障源通常不是一種,并且一種軟故障可能引發(fā)另外一種軟故障發(fā)生.若能檢測出仍在繼續(xù)工作的多維度的軟故障并及時預警,可為通信基站空調(diào)系統(tǒng)的高效運行提供更堅實的保障.
針對不平衡數(shù)據(jù)分類已有一些研究,主要可以劃分為數(shù)據(jù)層面方法和算法層面方法兩大類.數(shù)據(jù)層面方法是通過重采樣的數(shù)據(jù)預處理方式來平衡數(shù)據(jù)集中的樣本分布.重采樣的代表算法有SMOTE[7]及其衍生方法.SMOTE算法在相鄰樣本之間通過插值來合成一定數(shù)量的正類樣本,使得正類樣本數(shù)量與負類樣本的數(shù)量相近達到平衡,但易出現(xiàn)數(shù)據(jù)重疊的現(xiàn)象,并且在樣本特征維度高的情況下會合成不準確數(shù)據(jù)[8].算法層面方式是通過設(shè)計特定的分類模型使其對不平衡的樣本分布不敏感.一種途徑是訓練單類分類器,再集成獲得最終的分類結(jié)果[9].這種方法在標簽空間龐大時效率低,并且沒有利用負類樣本的信息.另一種途徑是代價敏感學習[10,11],在訓練分類器的時候考慮不同類別樣本的錯分代價,通過最小化錯分總代價來改變樣本的空間分布,這種方式綜合考慮了正負樣本的信息.
基于上述分析,本文設(shè)計一個基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的基站空調(diào)故障診斷系統(tǒng),針對各個故障模式給出多標簽診斷結(jié)果.在最小化風險損失的訓練階段,引入非對稱階式損失函數(shù),通過為小樣本類別設(shè)置較高的截斷參數(shù)和邊界參數(shù)來提高小類樣本的識別率.另一方面,多標簽的分類結(jié)果可以為空調(diào)維護人員提供軟故障排查的故障源的偏序序列.
如圖1所示,實驗對象是目前應用最為廣泛的移動通信基站空調(diào)系統(tǒng)(非迷你型通信基站),基站空調(diào)有內(nèi)機和外機兩部分,中間采用制冷劑管道連接.基站空調(diào)主要部件有:全封閉渦旋式壓縮機、室外風冷冷凝器、冷凝風機、室內(nèi)蒸發(fā)器、送風風機、電子膨脹閥及控制系統(tǒng)等.
圖1 移動基站空調(diào)系統(tǒng)示意圖Fig.1 Schematic diagram of base station′s air conditioner
本文所設(shè)計的故障監(jiān)測和診斷系統(tǒng)分為離線訓練階段與在線監(jiān)測分析兩部分.離線訓練階段,對數(shù)據(jù)歸一化預處理后,導入基于單隱層前饋多標簽分類器進行訓練,獲得穩(wěn)定的故障診斷模型.在線監(jiān)測階段,系統(tǒng)接收基站空調(diào)傳感器的數(shù)據(jù)(溫度、濕度、壓力等),歸一化預處理后輸入離線訓練階段所獲得的診斷模型,分析當前空調(diào)的運行狀態(tài).對軟故障及時預警排查以提高空調(diào)系統(tǒng)的制冷效率.
表1 實例參數(shù)及其含義Table 1 Parameters and their meaning of sample
表2 故障模式與樣本數(shù)Table 2 Fault mode and number of samples
圖2 SLF結(jié)構(gòu)圖Fig.2 Structure diagram of SLF
(1)
一般情況下,損失函數(shù)的計算是用平方誤差損失函數(shù)L2,即,l(T.,i,Y.,i)=‖T.,i-Y.,i‖2.L2損失函數(shù)實現(xiàn)簡單,但存在著一些不適用于類別不平衡數(shù)據(jù)集的因素.首先,L2損失函數(shù)對異常樣本不魯棒,當異常樣本的邊界(margin)為較小的負值時,損失函數(shù)值仍很大.其次,L2損失函數(shù)不是單調(diào)遞減的,依舊懲罰Yji>1的樣本xi,從統(tǒng)計學角度分析Yji>1時,故障模式j(luò)的分類置信度很高.再者,L2損失函數(shù)無差別對待所有的訓練樣本,在不平衡分類問題中應用效果不佳.
本文采用非對稱階式最小二乘損失函數(shù)(asymmetric stage wise least square loss function ASLS)[12]替代L2損失函數(shù),ASLS的定義和迭代規(guī)則如公式(2)所示.其中,r是截斷系數(shù),δ是邊界系數(shù).
(2)
ASLS通過截斷參數(shù)和邊界參數(shù)不僅可以給不同類別的樣本設(shè)定不同的錯分代價,還可以使正類樣本被錯分為負類樣本的代價更大.通過邊界參數(shù)δ的調(diào)整,使得正類樣本比負類樣本更加遠離分類邊界.當ASLS收斂時的表達式如公式(3)所示.
(3)
對類別不平衡的故障診斷問題,各故障模式的負類樣本的ASLS的截斷參數(shù)和邊界參數(shù)設(shè)置為(γ-,δ-)=(1,1),這樣只需調(diào)節(jié)正類樣本的ASLS參數(shù)(γ+,δ+).為了提高小類樣本的故障識別率,需要特別設(shè)置較大的(γ+,δ+)值,并且為了加速收斂,在迭代的過程中可以動態(tài)調(diào)整ASLS.
目標函數(shù) 本文將面向類別不平衡的單隱層神經(jīng)網(wǎng)絡(luò)(single hidden layer feed-ward neural network with class imbalance)稱為SLF-CIB.采用ASLS損失函數(shù),第t次迭代時SLF-CIB模型可用公式(4)表示.
(4)
其中,Λ是一個對角矩陣,如果Tji=-1,那么Λjj=1;如果Tji=+1,那么Λjj=(r+)/(δ2).
凸分析 SLF-CIB模型通過引入代價敏感的ASLS參數(shù)改變了樣本的分布,改善了類別不平衡數(shù)據(jù)產(chǎn)生的不利影響.同時由于施加了截斷參數(shù)r,對異常樣本更加魯棒,具有更好的稀疏性.對于模型(1),當W或H有一個是固定時,即可轉(zhuǎn)為凸規(guī)劃問題.SLF-CIB模型在模型(1)的基礎(chǔ)上加入了ASLS損失函數(shù).由于在每輪迭代ASLS損失函數(shù)均為最小二乘形式,因而在每輪迭代模型(4)仍是凸的.綜上,SLF-CIB仍是一個凸規(guī)劃問題,因而交替方向乘子算法(alternating direction method of multipliers ADMM)[13]可以應用于SLF-CIB的求解.
模型(4)的拉格朗日形式如公式(5)所示.
(5)
在第t輪迭代中,采用ADMM方法獲得如公式(6)所示的W(t+1)、H(t+1)、ξ(t+1)、λ(t+1)后,進入t+1輪迭代.
(6)
故障診斷結(jié)果輸出 當訓練完成后,獲得穩(wěn)定的SLF-CIB結(jié)構(gòu).將未知實例x輸入SLF-CIB可得到預測輸出Y=[y1,…,yq],對于yi≥0的各分量進行降序排序,得到可能故障源的一個偏序關(guān)系.ya>yb?ta?tb,表示故障ta的發(fā)生概率高于故障tb的發(fā)生概率.最終獲得一個故障源的偏序序列[y(1),y(2),…,y(q)],y(1)?y(2)?…?y(q),為基站空調(diào)維護人員進行故障排查提供參考.
為了更好地測試SLF-CIB算法的性能,本文對3組不同領(lǐng)域的類別分布不均衡的UCI數(shù)據(jù)集(Wine、Glass、Abalone)進行測試.數(shù)據(jù)集的具體信息如表3所示,數(shù)據(jù)集名稱后的(n)中的數(shù)字代表少數(shù)類的類別.規(guī)模為M的不平衡類別數(shù)據(jù)集的混淆矩陣如表4定義.采用TPR(True positive ratio),TNR(True negative ratio),ACC(Accuracy),AUC(Area under the curve of ROC)指標進行評價.TPR=TP/(TP+FN),TNR=TN/(TN+FP),ACC=(TP+TN)/M.
表3 UCI數(shù)據(jù)集信息Table 3 Properties of the UCI data sets
表4 混淆矩陣Table 4 Confusion matrix
對比算法有BP神經(jīng)網(wǎng)絡(luò)、多類SVM、決策樹C4.5算法.各程序均在Matlab2017上部署運行,SVM采用徑向基函數(shù)作為核函數(shù),參數(shù)采用網(wǎng)格計算方法,λ和γ的搜索范圍為λ∈{2-9,…,210}和γ∈{2-9,…,25}. 采用增量生長法來確定SLF-CIB算法和BP神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點數(shù)目,從5開始遞增,測試學習誤差,若誤差的變化低于閾值(0.01),則停止增長.SLF-CIB算法輸出的偏序序列的第一個分量參與評價指標計算,實驗采用五折交叉驗證法,實驗結(jié)果的平均值如表5所示.從表5可以看到,SLF-CIB在大多數(shù)的數(shù)據(jù)集下取得了較高的AUC和TPR.對于存在著極小類樣本的數(shù)據(jù)集Glass、Abalone,SLF-CIB算法與決策樹算法的TNR值相近,但TPR值提高了,說明對于小類樣本的識別率有顯著的提高,進而提高了AUC指標值.
表5 各算法在UCI數(shù)據(jù)集上的實驗結(jié)果Table 5 Experiment results on the UCI data sets
針對通信基站空調(diào)故障數(shù)據(jù)集,SLF-CIB算法各故障模式的ASLS參數(shù)設(shè)置如表6所示.故障模式2、4、7為少數(shù)類(ASLS參數(shù)(γ+,δ+)設(shè)置較高),其余故障模式均可視為多數(shù)類.將SLF-CIB算法與SMOTE決策樹算法進行比較,輸出的偏序序列的第一個分量參與評價指標計算,實驗采用五折交叉驗證法,針對少數(shù)類正確率和多數(shù)類錯誤率進行分析,對比結(jié)果見表7.表7中的“過采樣參數(shù)”為SMOTE方法在近鄰中隨機選擇的樣本數(shù),即過采樣倍頻.基于SMOTE的采樣方法隨著過采樣參數(shù)的增高,在高維的數(shù)據(jù)集上不僅會產(chǎn)生交叉型的樣本還會生成不準確的樣本,從而影響故障診斷性能.而SLF-CIB通過非對稱的階式損失函數(shù)調(diào)整了樣本的分布來提高故障診斷性能,在不平衡數(shù)據(jù)集的處理取得了更好的分類效果.
表6 故障模式與ASLS參數(shù)Table 6 Fault mode and ASLS parameter
表7 通信基站空調(diào)故障數(shù)據(jù)集上的實驗結(jié)果Table 7 Experiment results on communication base station air conditioning data set
本文提出了一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的多標簽分類算法來解決通信基站空調(diào)故障診斷中的類別不平衡問題.可以通過為各故障模式靈活地設(shè)置損失函數(shù)的截斷參數(shù)和邊界參數(shù)來改變小類樣本的分布,在UCI標準數(shù)據(jù)集和通信基站空調(diào)故障數(shù)據(jù)集上的實驗結(jié)果表明所提SLF-CIB算法提高了不平衡數(shù)據(jù)集的故障診斷精度,特別是提高了小類樣本的識別率.并且多標簽分類輸出的故障模式的偏序序列,為維護人員在軟故障排查上提供了多維度的技術(shù)支持.但隱層神經(jīng)元數(shù)目的設(shè)定目前采用的是生長法實驗產(chǎn)生,過程較為耗時,在今后的工作中將進一步優(yōu)化隱層神經(jīng)元數(shù)目的設(shè)定.