金靜,方園,費洋,魏源
(1.西安市軌道交通集團有限公司,西安 710018; 2.南瑞軌道交通技術(shù)有限公司,南京 210061)
隨著智慧城軌的發(fā)展,城市軌道交通大多配備了智能電能表,獲取到足夠多可用于數(shù)據(jù)分析的時間序列數(shù)據(jù)。軌道交通耗電量巨大,國內(nèi)主要城市平均每公里單個車輛的牽引能耗范圍在1.8 kW·h~1.9 kW·h,每個車站年平均照明用電為150萬kW·h~250萬kW·h[1]。根據(jù)國家政策要求,減少能耗排放、降低地鐵電能損耗有積極的作用。用電能耗異常檢測能幫助地鐵維修人員快速定位異常、進行故障檢測和維修,并降低不必要的資源損耗。時間序列數(shù)據(jù)在各方面都有體現(xiàn),如傳感器[2]、物聯(lián)網(wǎng)數(shù)據(jù)[3]、心電圖[4]等。異常檢測在設(shè)備故障診斷[5]、入侵檢測[6]等方面都有應(yīng)用。針對地鐵能耗數(shù)據(jù)的異常檢測方法也可以運用到更多的相似問題上。
時間序列異常檢測是現(xiàn)今一個熱門話題,其中一大研究課題是異常分類。文獻[7]將時間序列異常分為空間異常和時間異常。文獻[8]將其分為點異常、條件(上下文)異常和組異常,這也是目前在大多數(shù)論文中使用的分類方法。文獻[9]提出了一種行為驅(qū)動的分類方法來進行更細致劃分,此文獻將異常分為點異常和模式異常(見圖1),其中全局異常和上下文異常都屬于點異常,模式異常又可細分為季節(jié)異常、形狀異常和趨勢異常。異常通常定位于特定的場景中,文中使用點異常和模式異常這種分類方法,且著重于點異常的檢測,其中相比于全局異常,上下文異常檢測較為困難。
圖1 異常類型
由于時間序列的復(fù)雜性和多變性,異常檢測尤為困難。此外,不同領(lǐng)域數(shù)據(jù)的多樣性也增加了實現(xiàn)通用異常檢測方法的難度。近年來,由于研究目的和異常點標記的不同,大多數(shù)檢測算法是無監(jiān)督的?;诤唵谓y(tǒng)計的異常檢測方法(如3sigma、箱型圖等)計算快速、簡單,但是并不適用于時間序列。子序列聚類等不一致性分析方法可以檢測出子序列間的異常,但會丟失局部時間信息,難以檢測出上下文異常?;陬A(yù)測的方法包括統(tǒng)計自回歸方法(如VAR、ARIMA[10])和深度學(xué)習(xí)方法(自編碼器[11]、多元卷積[12]、RNN[13]等)。文獻[8]總結(jié)了用于異常檢測的深度學(xué)習(xí)框架并將其分為三類:用于一般特征提取的深度學(xué)習(xí)、用于正態(tài)性表示的學(xué)習(xí)和端到端異常評分學(xué)習(xí)。深度學(xué)習(xí)方法中模型準確性受異常值影響較大,需要正確的訓(xùn)練數(shù)據(jù)。文獻[14]提出一種基于時間序列相似性的統(tǒng)計方法ESD(extreme studentized eeviate)。在此基礎(chǔ)上,文獻[15]提出S-ESD(seasonal ESD)和S-H-ESD(seasonal hybrid ESD)算法,利用季節(jié)分解來搜索異常。然而異常值的存在會影響分解后當(dāng)前季節(jié)分量和鄰居季節(jié)分量,季節(jié)曲線有向周圍季節(jié)靠攏的趨勢,正常值會被誤判為異常值。
異常檢測是一個復(fù)雜的問題,具有異常未知、異常不規(guī)則、類別不平衡、異常類型不同等特點[8]。為解決上述問題,文章將時間序列異常檢測算法和聚類相結(jié)合[16-17]。聚類是一種無監(jiān)督算法,可以分為基于劃分的方法(K-means[18-19]、K-shape[20]等)、基于模糊的方法[21]、基于密度的方法(DBSCAN,density-based spatial clustering of applications with noise[22])、基于層次的方法等。其中K-means的廣泛應(yīng)用得益于其計算的簡單快速,但需要給出聚類的數(shù)量,初始聚類中心點的選取也會影響聚類結(jié)果,并且基于劃分的算法受異常值的影響較大。DBSCAN可以劃分出邊緣點,對異常點具有魯棒性,但該方法對超參數(shù)有很大的依賴性,需要設(shè)置聚類半徑和最小聚類數(shù)。此外,在計算過程中可能會將多個聚類合并為一個聚類,這是該算法的優(yōu)點,而在缺乏細致調(diào)參的情況下也是算法的不足。密度峰值聚類算法(density peaks clustering,DPC)[23-24]通過計算獲取數(shù)據(jù)的密度峰值點,適用于文中的情況。
除了一般時間序列特征外,地鐵能耗數(shù)據(jù)還具有以下特點:
1)數(shù)據(jù)復(fù)雜多變且隨機性大,除節(jié)假日影響外還與當(dāng)日的天氣、周圍是否有大型賽事、是否有交通管控等多種因素有關(guān);
2)數(shù)據(jù)具有一定的季節(jié)性,可以表現(xiàn)為天、周、月、季度、年周期性;
3)隨著日升日落季節(jié)氣候的變化,周期會沿著時間方向有一定的前后推移;
4)某些特定周期模式的出現(xiàn)并不連續(xù),具有稀疏性和偶發(fā)性。
地鐵能耗異常檢測需要滿足的要求如下:
1)盡可能多地檢測出點異常。對于模式異常,若只在上下文顯示異常而全局存在相同模式,則不認為是異常;
2)減少假陽性誤報率;
3)某些特殊日期會有提前開站和延遲關(guān)站的情況,這不應(yīng)被視為異常。
針對上述問題,文章提出了基于模式聚類與周期分解的能耗異常檢測方法,使用子序列密度峰值聚類劃分相似模式簇集,減少檢測的假陽性;分別在聚類簇中使用S-H-ESD檢測異常,在重構(gòu)誤差基礎(chǔ)上計算異常分數(shù),用以輔助異常評判,提高檢測的準確性。實驗結(jié)果表明,所提算法得到了較為理想的效果,能夠?qū)崿F(xiàn)復(fù)雜周期數(shù)據(jù)的異常檢測。
在原始數(shù)據(jù)上尋找異常時,由于周期模式不同,相同波動值的小異常在低量級上更容易被觀測到,但是在全局大數(shù)據(jù)量背景下容易被忽略。若按原始數(shù)據(jù)大小為基準判斷異常程度,則會放大低量級上的異常,而大量級上實際大變化值的異常程度會降低。在這種權(quán)衡下,先對時間序列進行模式聚類較為有效。
密度峰值聚類算法根據(jù)數(shù)據(jù)的聚集程度將數(shù)據(jù)分為三種類型:峰值點、異常點和普通點。該算法基于兩個假設(shè):一是聚類中心相距較遠;二是聚類中心的局部密度大于相鄰區(qū)域。關(guān)鍵計算分為局部密度ρ和相對距離δ兩個步驟??偛襟E如下:
1)計算出各個點間的二維距離矩陣。
2)計算局部密度ρ。
對于文章的離散數(shù)據(jù),局部密度可用截斷距離范圍內(nèi)點的個數(shù)表示。
ρi=∑i≠jχ(dij-dc)
(1)
式中dij為點i到點j的距離;dc為給定的截斷距離;χ為一個二值函數(shù),表示為:
(2)
3)計算相對距離δ。
(3)
若當(dāng)前點為局部密度最大值,則相對距離為當(dāng)前點到最遠點的距離;否則相對距離為局部密度大于當(dāng)前點中與當(dāng)前點最近的距離。
4)找聚類中點。
根據(jù)步驟2)和步驟3)得到的結(jié)果,可以畫出橫縱坐標分別是局部密度和相對距離的二維決策圖。其中,聚類中心有較大的局部密度和相對距離,在決策圖的右上角;離群點局部密度較小但有較大的相對距離,在圖的左側(cè)。根據(jù)相對距離的計算(式(3))可以看出,局部密度最大點的相對距離較其它點有較大飛躍,選擇斜率遞減的遞增函數(shù)來處理相對距離,在此使用負指數(shù)冪函數(shù)y=x-2。將處理后的局部密度和相對距離的乘積f(式(4))作為評判標準,數(shù)值越大,聚類中心點的可能性就越大;數(shù)值越小,極有可能是異常點。
(4)
5)聚類劃分。
根據(jù)計算的聚類中點和截斷距離劃分聚類簇有多種方法:使用廣度優(yōu)先搜索劃分聚類簇,將相連聚類劃分為一個簇;根據(jù)點與聚類中心的距離直接劃分簇,文中采用這種方法。
歐幾里得距離[25]是最經(jīng)典、最常用的聚類度量方法,但它在高維數(shù)據(jù)上表現(xiàn)效果不佳。適用于計算高維數(shù)據(jù)相似度的距離度量包括余弦相似度、互相關(guān)(cross-correlation function,CCF)、Pearson相關(guān)系數(shù)[26]等,其中余弦相似度不考慮數(shù)據(jù)值的大小,而偏重于關(guān)注數(shù)據(jù)的變化。
對于數(shù)據(jù)偏移,一種方法是使用具有動態(tài)矯正的距離公式,如動態(tài)時間規(guī)整DTW(dynamic time warping)[27],這種方法適用于橫向拉伸數(shù)據(jù)的矯正,但計算復(fù)雜度較高;另一種方法是公式中加入偏移變量,將原始距離計算變?yōu)檠h(huán)對齊的距離計算,這種方法適用于數(shù)據(jù)的整體相位偏移。由于數(shù)據(jù)偏移較小,文中采用改進的基于形狀的距離SBD(shape-based distance)即循環(huán)互相關(guān)方法進行距離度量。循環(huán)方法保持一個序列靜止,另一個序列首尾相連沿順時針或逆時針方向轉(zhuǎn)動,如圖2所示,i和-i時刻的序列首位分別為yi和yd-i+1。
圖2 循環(huán)序列
改進的SBD方法得到的序列距離表示為:
(5)
式中d為數(shù)據(jù)維度,使互相關(guān)函數(shù)SBD取最小值的i是相位偏移距離。
為了充分利用序列的時間信息,文章使用S-H-ESD檢測聚類簇內(nèi)的異常。S-H-ESD是一種基于統(tǒng)計分析模型的輕量級計算方法,它不需要標簽學(xué)習(xí)且計算速度快。
S-H-ESD是ESD方法的改進,使用STL(seasonal trend decomposition procedure based on loess)周期分解。STL將時間序列數(shù)據(jù)Y分解為三部分:季節(jié)分量(seasonal)、趨勢分量(trend)和余項(residual),適用于多周期循環(huán)數(shù)據(jù)。季節(jié)分量表示數(shù)據(jù)的周期性,趨勢分量是數(shù)據(jù)整體的趨勢變化,余項則是數(shù)據(jù)擾動。用中位數(shù)替代趨勢分量得到修改后的余項公式Rd,如下所示:
Y=S+T+R
(6)
Rd=Y-S-median(Y)
(7)
中位數(shù)較均值和方程對異常值具有魯棒性,S-H-ESD使用絕對值偏差中位數(shù)(MAD,median absolute deviation)來解決異常數(shù)據(jù)敏感問題。
(8)
式中c為高斯分布中置信度為0.75的左單側(cè)置信上限。
在每一輪中選取與中位數(shù)偏差最遠的余項作為異常候選值,并從現(xiàn)有數(shù)據(jù)中刪除當(dāng)前點。
(9)
式中Rdi為第i輪(i=1,2,3…)剩余的余項數(shù)據(jù)。
為了判斷當(dāng)前點是否為異常,根據(jù)置信度?計算臨界值λ。
(10)
式中ppfT(1-p,n)是顯著性水平為p、自由度為n的t分布的左單側(cè)置信上限。若Ri大于臨界值,判定該點異常。
算法流程總結(jié)如下:
1)輸入最大異常個數(shù)M和置信度?;
2)STL將原數(shù)據(jù)分解為季節(jié)、趨勢和余項分量;
3)根據(jù)式(7)計算得到修改后的余項Rd;
4)根據(jù)式(8)和式(9)計算剩余數(shù)據(jù)MAD和與均值偏差最遠的余項Ri,并將Ri從數(shù)據(jù)中刪除;
5)根據(jù)式(10)計算剩余數(shù)據(jù)臨界值λi,若Ri>λi則該點為異常點;
6)當(dāng)?shù)螖?shù)達到M時停止,否則轉(zhuǎn)到步驟4)重復(fù)上述操作;
7)輸出異常點序列。
S-H-ESD通過動態(tài)置信度選出異常偏差高的數(shù)據(jù),也可使用下述評分函數(shù)輔助異常值篩選。
1)KNN評分。
最鄰近結(jié)點算法(K nearest neighbors,KNN)根據(jù)相鄰點的距離和狀態(tài)在每個聚類簇內(nèi)評價異常值的異常程度,以S-H-ESD余項大小作為距離標準,相鄰點若為異常則狀態(tài)為積極,否則為消極。對每個異常點,分別找距離最近的k個點計算得分:
(11)
式中d為距離。若相鄰點為異常則加上得分,否則減去得分,最終得分越大表示異常程度越大。
2)高斯尾部概率規(guī)則。
高斯尾部概率規(guī)則[7](Gaussian tail probability)使用標準正態(tài)分布的右尾概率函數(shù)Q來評判異常程度,該方法可以根據(jù)異常偏差(即余項)從全局數(shù)據(jù)中找出短時間內(nèi)連續(xù)出現(xiàn)大量異常的情況賦予高得分。
(12)
式中μw是窗口大小為w的偏差均值,μW和σW是窗口大小為W的偏差均值和方差,w< 聚類使用無標簽評判指標,根據(jù)數(shù)據(jù)本身的聚合程度評判聚類效果,包括輪廓系數(shù)和Calinski-Harabaz(CH)[28]。輪廓系數(shù)根據(jù)簇內(nèi)點距和簇間點距各代表的聚合度和分離度評判結(jié)果好壞,取值范圍為[-1,1],結(jié)果越接近1效果越好。CH計算簇內(nèi)協(xié)方差的數(shù)值,數(shù)值越大聚類效果越好。 異常檢測可看作異常二分類問題,根據(jù)分類混淆矩陣采取如下評價標準: 1)查全率(recall)。 (13) 2)查準率(precision)。 (14) 為了減少地鐵能耗異常的誤報率,權(quán)衡R和P,在保證查準率的前提下,力求最大的查全率,文章增加Fβ評價指標: (15) 式中β<1,優(yōu)先保證查準率,文中β設(shè)為0.8。 時間序列數(shù)據(jù)F=[s1,s2,...,sd],si對應(yīng)i時刻數(shù)據(jù),d為序列長度。序列中的點值為增量數(shù)據(jù),是單位時間左開右閉區(qū)間中數(shù)據(jù)的累計值,并以區(qū)間左側(cè)時間為當(dāng)前坐標。文章對4個地鐵站進行采樣,且每個地鐵站采樣四組能耗數(shù)據(jù)(共16組),以此展開研究。 實驗使用2021年7月—2022年1月廈門某地鐵線路上4個站點的能耗數(shù)據(jù),包括兩個大客流量換乘車站和兩個非換乘車站。數(shù)據(jù)為24小時累計能耗數(shù)據(jù),時間顆粒度為1小時,共有215天。 根據(jù)經(jīng)驗,實驗標注了符合預(yù)期的異常數(shù)據(jù),并選取四個與季節(jié)相關(guān)變化較大的數(shù)據(jù)序列,分別是牽引能耗、公共區(qū)域照明能耗、通風(fēng)空調(diào)能耗和電扶梯能耗。 在聚類前,為了防止異常值對距離計算的影響,對數(shù)據(jù)使用基于最小二乘法的Savitzky-Golay平滑濾波[29]。圖3是牽引用電使用DPC的模式聚類結(jié)果。其中圖3(a)是原始數(shù)據(jù)直接聚類后的結(jié)果,圖3(b)是對原始數(shù)據(jù)使用SBD循環(huán)相位矯正后再聚類的結(jié)果。實驗選取兩個聚類中點劃分簇集,在圖3中用純黑色點線標出??梢钥闯?雖然有相位偏移影響,實驗使用的聚類方法仍能找到相同的聚類中點,并且通過相位矯正后數(shù)據(jù)聚集程度更高,能夠?qū)崿F(xiàn)更好的聚類效果。 圖3 聚類結(jié)果 從圖3中看出,地鐵從開站到關(guān)站基本處于高能耗狀態(tài),凌晨處于低能耗狀態(tài)或停機狀態(tài);高低能耗間有大約兩小時的過渡期;大部分能耗數(shù)據(jù)在5:00左右開始上升,在0:00左右趨近于0;少部分數(shù)據(jù)(2.3%)工作時間在6:00—次日1:00,有1小時的偏移。通過循環(huán)距離可以矯正相位偏移,從得到的二分類結(jié)果中可以看出第一種能耗模式最大值出現(xiàn)在早高峰和晚高峰時段;第二種模式在高低能耗狀態(tài)基本穩(wěn)定,未見太大的能耗跳躍。 分別對16組地鐵能耗數(shù)據(jù)聚類與DBSCAN、K-means對比,取結(jié)果的平均值見表1。 表1 聚類結(jié)果對比 從表1中可以看出,文中的方法在照明、通風(fēng)空調(diào)和電扶梯能耗上有較高的輪廓系數(shù),在牽引和照明能耗上有較高的CH值,展現(xiàn)很好的聚類效果。與照明和電扶梯能耗相比,牽引能耗和通風(fēng)空調(diào)能耗值更大,數(shù)據(jù)更有規(guī)律性,因此整體聚類準確度更高。 表1中序號1為牽引能耗;2為公共區(qū)域照明能耗;3為通風(fēng)空調(diào)能耗;4為電扶梯能耗。 S-H-ESD設(shè)?置信度為0.04,最大異常點比例為5%。分別對原始數(shù)據(jù)和經(jīng)過模式聚類后的數(shù)據(jù)使用S-H-ESD算法,得到的重構(gòu)結(jié)果如圖4所示。原始數(shù)據(jù)和重構(gòu)數(shù)據(jù)的差為S-H-ESD中的分解余項,即數(shù)據(jù)擾動,數(shù)據(jù)擾動越大則表示數(shù)據(jù)異常程度越大。圖4(b)數(shù)據(jù)以虛線為界分前后兩個模式簇,可以看出,直接周期分解原始數(shù)據(jù)在不同模式交界處有較大的重構(gòu)誤差,而通過聚類后的重構(gòu)數(shù)據(jù)更加貼合原始數(shù)據(jù),表現(xiàn)數(shù)據(jù)周期波動的效果更好。 圖4 有無聚類的數(shù)據(jù)重構(gòu)結(jié)果對比 分別對每份聚類數(shù)據(jù)使用S-H-ESD,并綜合聚類重構(gòu)誤差整體評判數(shù)據(jù)的異常程度。圖5是牽引用電的異常結(jié)果。 圖5 牽引能耗異常檢測結(jié)果 可以看出原始數(shù)據(jù)的波動較大,模式較為多變。根據(jù)模式聚類后分解得到的重構(gòu)誤差可以使用ESD篩選得到三處異常,第一處異常是在高峰期的突然置零,這可能是傳輸過程故障導(dǎo)致的數(shù)據(jù)丟失;第二處是突起的峰值點,為全局點異常;第三處是晚高峰時期的一段低能耗值。與雙側(cè)滑動窗口、線性自回歸模型(AR)、自回歸移動平均模型(ARIMA)和無聚類S-H-ESD結(jié)果作比較,評價指標平均值如表2所示。 表2 異常檢測實驗結(jié)果的評價指標 可以看出,本文提出的方法有較高的Fβ值,在查全率較高為0.798時可達到0.813的查準率,在地鐵能耗的實際應(yīng)用中效果更好。 文章使用模式聚類和周期分解相結(jié)合的方法檢測地鐵能耗數(shù)據(jù)的異常,只在相同周期模式上考慮不同異常情況,屏蔽不同模式數(shù)據(jù)間的影響。DPC能夠篩選出合適的聚類中心點,根據(jù)此得到的聚類結(jié)果能更好反應(yīng)數(shù)據(jù)間模式關(guān)系。S-H-ESD在聚類基礎(chǔ)上檢測出異常,與多種方法對比得到了較為理想的效果,適用于復(fù)雜周期模式的異常檢測。 該方法應(yīng)用于離線數(shù)據(jù),還有進一步改善的空間:將檢測方法運用到流數(shù)據(jù)上是今后可以繼續(xù)深入研究的方向。新到達的數(shù)據(jù)需要在每個聚類中都為異常才可判定為異常點,或自成一個新聚類。提供異常解釋算法,方便點對點錯誤糾察,減少誤報率。3 評價指標與數(shù)據(jù)
3.1 聚類評價指標
3.2 異常檢測評價指標
3.3 數(shù)據(jù)集
4 實驗分析
4.1 模式聚類實驗
4.2 異常檢測
5 結(jié)束語