国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

路燈監(jiān)控系統(tǒng)中時序數(shù)據(jù)流的異常值檢測研究*

2019-01-03 07:21:26黃雄波
微處理機 2018年6期
關鍵詞:數(shù)據(jù)流時序均值

黃雄波,鐘 全

(1.佛山職業(yè)技術學院電子信息學院,佛山528000;2.廣州市明銳電氣技術有限公司研發(fā)部,廣州510800)

1 引言

隨著社會的不斷進步和科學技術的高速發(fā)展,城市景觀照明系統(tǒng)已成為城市建設的一項重要內(nèi)容。此系統(tǒng)融合了通信技術、電氣技術,檢測技術、控制技術,采用移動無線網(wǎng)絡,由上位機管理軟件、信號中繼器、Internet互聯(lián)網(wǎng)絡、移動通信網(wǎng)絡、執(zhí)行終端構成,對城市景觀照明系統(tǒng)的設備進行實時監(jiān)控,是保證系統(tǒng)安全可靠運行的重要手段。在實際應用中,通常需要對大量的燈具、繼電器和接觸器的實時狀況進行信息采集和監(jiān)控。

對設備進行實時監(jiān)控導致了海量時序數(shù)據(jù)流的產(chǎn)生。以10s的時間間隔采集燈具的電流、電壓、溫度及光照度等物理參數(shù),則10萬盞燈具每天約產(chǎn)生100MB的時序數(shù)據(jù)流。為了能對這些歷史時序數(shù)據(jù)流進行永久性的儲存,一些高效的有損壓縮算法被提出來。盧秉亮等基于旋轉(zhuǎn)門壓縮算法,將數(shù)據(jù)流注冊到區(qū)域字典中并進行比例壓縮,從而設計實現(xiàn)了一種高速的數(shù)據(jù)流壓縮/解壓縮算法[1];張冬冬等通過對歷史時序數(shù)據(jù)流實施多層遞階抽樣存儲,并在內(nèi)存中建立有關聚集值的 HDS-Tree索引,實現(xiàn)了對無限數(shù)據(jù)流歷史數(shù)據(jù)的存儲管理[2];馮秀蘭等采用加權最小二乘法對時序數(shù)據(jù)流進行分段曲線擬合,并對擬合結果進行聚類分析,進而得到了一種高保真的數(shù)據(jù)流在線壓縮存儲方法[3]。

注意到路燈時序數(shù)據(jù)流往往呈現(xiàn)出在某一均值上作微弱隨機波動的特點,據(jù)此,我們可以放棄對海量歷史數(shù)據(jù)流的存儲,轉(zhuǎn)為對時序數(shù)據(jù)流的異常值進行檢測和記錄,以便實現(xiàn)對系統(tǒng)中各元件進行故障檢測和預警分析。

2 問題描述

路燈時序數(shù)據(jù)流的觀測值有時因受異常事件、設備故障、干擾或誤差的影響,會出現(xiàn)與大多數(shù)觀測值不一致的情況。通常把這些偏離正常數(shù)值的觀測值稱為異常值。異常值在時序數(shù)據(jù)流中屬于少數(shù),但卻有著重要的應用價值。

時序數(shù)據(jù)流的異常值通常分為兩種[4-5]——附加異常值(Additive Outlier Value,AOV)和新息異常值(Innovation Outlier Value,IOV)。其中,AOV僅作用于當前時刻的序列,而IOV則以沖擊函數(shù)的激勵形式影響著隨后的序列觀測值。令Yt 為沒有異常值發(fā)生的時序數(shù)據(jù)流,wt 為Yt 疊加異常值后的時序數(shù)據(jù)流,對Yt進行去趨勢和去周期的處理后,所得到的近似平穩(wěn)序列Yt便可由自回歸模型 (Autoregressive Model,AR)來描述。于是,當時序數(shù)據(jù)流在時刻T出現(xiàn)AOV時,便可用下式所示的模型進行表示:

對應地,IOV的模型則如下式所示:

更一般地,當一個實際觀測的時序數(shù)據(jù)流wt在不同時刻T1,T2,…,Tf上受到AOV或IOV的影響時,則其模型如下式所示:

時序數(shù)據(jù)流的異常值蘊含了豐富的信息,具有重要的應用價值。系統(tǒng)的元部件在其生命周期的不同階段里,其表征著物理特征的時序數(shù)據(jù)流均有不同形式的差異變化。據(jù)此,我們有必要對式(3)中的異常值發(fā)生的時刻、種類及幅值進行估計。

上世紀70年代,英國學者A.J.Fox率先對時序數(shù)據(jù)流的異常值問題展開了研究,但由于事物的動態(tài)過程有著復雜的多樣性和相關性,故該領域一直以來并沒有取得重要的突破[6]。近年來,隨著現(xiàn)代信號處理技術的發(fā)展,時序數(shù)據(jù)流的異常值檢測領域逐步出現(xiàn)了一些可用的成果。例如,吳今培及其博士生們對時間序列的穩(wěn)健估計做了系統(tǒng)而深入的研究,并在自回歸滑動平均模型 (Autoregressive and moving average model,ARMA)實現(xiàn)了一種有效的時序數(shù)據(jù)流異常值檢測算法[7-9];George E.P.Box和GwilymM.Jenkins基于自回歸積分滑動平均模型(Autoregressive integrated moving average model,ARIMA)的殘差統(tǒng)計量,提出了一種簡便的異常值迭代檢測方法[10]。針對路燈時序數(shù)據(jù)流本身固有的特點,本研究擬在上述算法的基礎上,設計實現(xiàn)一種更為高效的異常值檢測算法。

3 時序數(shù)據(jù)流異常值的改進檢測算法

由于路燈時序數(shù)據(jù)流可看作某一均值與微弱隨機序列的疊加,于是,在去掉均值成分后,便可以在文獻[10]的基礎上,改用AR模型的殘差來定義統(tǒng)計量,進而得到一種計算效能更為高效的魯棒迭代檢測算法。

3.1 時序數(shù)據(jù)流的均值處理

在數(shù)據(jù)的統(tǒng)計分析過程中,經(jīng)常需要使用一些統(tǒng)計量來表征某一要素樣本的數(shù)據(jù)分布特點,而均值是一個常用的重要統(tǒng)計量,可作為要素總體數(shù)學期望的有效估計。以路燈時序數(shù)據(jù)流為例,要素的數(shù)據(jù)隨時間的推移而不斷增加,據(jù)此,有必要以遞推方式來計算時序數(shù)據(jù)流的均值。

假定ω0,ω1,…,ωn所對應的隨機變量為獨立的正態(tài)分布變量,且具有同一數(shù)學期望,則統(tǒng)計量為:

它服從自由度為n-1的t分布,其中指定相應的顯著水平和自由度,查t分布表得到對應的臨界值 ta,當 t<ta,就接受原假設,認為 ω0與其它資料無顯著差異;否則,就拒絕原假設,認為ω0與其它資料有顯著差異。

于是,可以得到一種基于均值顯著性差異的時序數(shù)據(jù)流子序列劃分方法。首先,利用式(4)進行時序數(shù)據(jù)流均值的遞推計算;然后,應用式(5)對加入時序數(shù)據(jù)流前后的序列樣本的均值進行顯著性判別,據(jù)此完成數(shù)段子時序數(shù)據(jù)流的劃分。

對劃分后的第j段時序子數(shù)據(jù)流ωj1,ωj2,…,ωjs進行如下式所示的去均值處理:

3.2 AR模型的定階及參數(shù)估計

對于平穩(wěn)隨機序列而言,為了數(shù)學上處理的簡便,通常都把某一時刻的數(shù)值寫成以前各時期的線性組合,這種回歸模型能對實際情況進行高精度的描述。用AR模型表示式(6)中的隨機序列,其數(shù)學形式是:

式中,p為任意正整數(shù),稱為自回歸模型的階數(shù);φ1,φ2,…,φp為自回歸參數(shù)。

求解式(7)中的自回歸模型,首要的問題就是確定模型的階數(shù)p,然后再計算對應的自回歸參數(shù)。目前,自回歸模型的定階問題仍然沒有得到徹底的解決,不同的判別準則將會產(chǎn)生不同的模型階數(shù)[11-13];而參數(shù)估計方面,則出現(xiàn)了眾多成熟而高效的迭代求解算法[14];為了提升現(xiàn)有的自回歸模型算法的計算效能及辨識精度,黃雄波通過對辨識序列自相關函數(shù)矩陣的秩的下界值進行估計,并以該估計值為初值對系統(tǒng)進行依次的遞階辨識,進而得到了一種高效的自回歸模型魯棒求解算法[15]。考慮到隨機序列中可能存在異常值(即是近似平穩(wěn)的),這里,引入如下AR模型的工程求解方法。

式(8)中,φkk和rk分別為隨機序列的k階偏自相關系數(shù)和k階樣本自相關系數(shù),而自相關系數(shù)rk則用下式所示的方法進行估計:

3.3 異常值的迭代檢測算法

當時序數(shù)據(jù)流在某些時刻上出現(xiàn)異常值時,其AR模型對應的擬合位置也將出現(xiàn)較大的偏差,于是,對于每個時刻t=1,2,…,n而言,可以定義下式所示的兩個統(tǒng)計量:

綜上所述,可以設計如下的時序數(shù)據(jù)流異常值檢測的改進算法:

算法名稱:時序數(shù)據(jù)流異常值檢測的改進算法

輸入:含AOV和IOV的時序數(shù)據(jù)流wt

步驟1:利用式(4)遞推計算時序數(shù)據(jù)流wt的均值,同時根據(jù)式(5)定義的統(tǒng)計量將wt劃分為數(shù)段均值顯著性有差異的時序子數(shù)據(jù)流;

步驟2:利用式(6)對步驟1析出的各時序子數(shù)據(jù)流進行去均值處理,并得到近似平穩(wěn)的隨機子序列

步驟3:利用式(8)、(9)對步驟2所得的隨機子序列進行AR遞推建模,遞推結束條件為

步驟7:打印輸出計算結果并結束算法。

4 實驗及結果分析

4.1 實驗設計

為驗證上述改進算法的有效性及先進性,這里選取了兩組LED燈具的溫度時序數(shù)據(jù)流來進行相關的異常值檢測。實驗在PC機上進行,其硬件配置為:

CPU:Intel酷睿i5 4570四核

RAM:Kingmax DDR3 16GB

硬盤:Samsung 850PRO SSD;操作系統(tǒng)與開發(fā)環(huán)境為:

Microsoft Windows 10

Microsoft Visual Studio 2010集成開發(fā)環(huán)境中的C++。

在實驗過程中,著重從檢測精度和計算成本等技術指標的方面與現(xiàn)有算法進行對比,并就相關結果加以詳細的分析和討論。

實驗樣本的選取如圖1、圖2所示。選取LED燈具外殼溫度時序數(shù)據(jù)流的正常工作、失效前兆共兩種狀態(tài)的樣本序列進行實驗,實驗中需要對比的算法采用了文獻[7]算法、文獻[10]算法及本算法。

4.2 實驗結果分析

各種算法對兩種實驗樣本的異常值檢測結果如表1所示。

圖1 正常工作時序數(shù)據(jù)流實驗樣本

圖2 失效前兆時序數(shù)據(jù)流實驗樣本

從表1的檢測結果可知,對正常工作時的實驗樣本而言,三種算法均得出一致的檢測結論:在時刻T1=11、T2=42處發(fā)現(xiàn)了AOV;所估算的異常值沖激幅值δ也處于同一水平級別,且文獻[10]算法與本算法的估算結果更為接近。而對失效前兆時的實驗樣本而言,文獻[7]算法給出了5處AOV的檢測結論,所對應的時刻分別為 T1=11、T2=14、T3=46、T4=65、T5=92;而文獻[10]算法與本算法則給出了這樣的檢測結論:在T1=14處發(fā)現(xiàn)的為IOV,而T2=46、T3=65、T4=92處發(fā)現(xiàn)的為AOV。

為了更為客觀地評價各種算法的檢測結果,這里以下式定義的模型殘差曲線作為依據(jù),對上述檢測結論進行討論和分析:

各種算法在兩種實驗樣本中的模型殘差曲線如圖3、圖4所示。從圖中可以發(fā)現(xiàn),對于圖1實驗樣本而言,三種算法的模型殘差曲線處于同一水平的誤差范圍,這也是它們一致地在相同時刻發(fā)現(xiàn)異常值的原因;又由于文獻[10]算法與本算法均對實驗樣本作了平穩(wěn)化處理,所以兩者估算的異常值沖激幅值δ較為接近。對于圖2的實驗樣本而言,從模型殘差的角度觀察,文獻[7]算法結果遠高于其它兩種算法,且文獻[10]算法結果又略高于本算法,據(jù)此,可以采納文獻[10]算法和本算法的檢測結論,即在T1=14處出現(xiàn)IOV,在T2=46、T3=65和T4=92處出現(xiàn)AOV;這些異常值的沖激幅值δ應以本算法的估算結果更為可靠,即有 δ1=4.89、δ2=-5.31、δ3=3.85、δ4=-5.96。

表1 各算法異常值檢測結果對比

圖3 各算法對應實驗樣本模型殘差曲線(對應圖1)

在實驗過程中還發(fā)現(xiàn),當處理的時序數(shù)據(jù)流具有良好的平穩(wěn)性時,三種算法的檢測性能相近;然而,隨著時序數(shù)據(jù)流的平穩(wěn)性變差,這些算法卻有著不同的魯棒檢測性能。以圖2的實驗樣本為例,由于LED燈具失效前兆的溫度時序數(shù)據(jù)流具有強烈的不平穩(wěn)性,從表1和圖4易知:文獻[7]算法的檢測性能表現(xiàn)最差,分別在T1=11,T1=14處出現(xiàn)虛報(把狀態(tài)切換點錯判為AOV)和誤報(把IOV檢測為AOV);而文獻[10]算法與本算法的檢測性能則具有一定的魯棒性,且本算法表現(xiàn)得更為強壯。事實上,文獻[7]算法由于直接在非平穩(wěn)數(shù)據(jù)流應用ARMA模型進行建模,從而導致了建模殘差增大,相應地,其檢測性能也迅速變壞;文獻[10]算法的差分機制及本算法的去均值處理,使得時序建模能在近似的平穩(wěn)隨機序列中進行,進而保障了它們的檢測性能具有魯棒性。

圖4 各算法對應實驗樣本模型殘差曲線(對應圖2)

應該指出,本算法是根據(jù)均值顯著性的差異,把圖2的實驗樣本劃分為ω1t=[1,11]、ω2t=[12,40]、ω3t=[41,82]、ω4t=[83,100]共四段子數(shù)據(jù)流,這些子數(shù)據(jù)流的均值分別為,異常值檢測分別在四個子數(shù)據(jù)流獨立進行。由于分段后的子數(shù)據(jù)流具有更好的平穩(wěn)性,據(jù)此,本算法的建模精度能進一步得以提升。

各種算法的計算耗時如表2所示,其中,本算法所花費的計算耗時略小于文獻[7]算法和文獻[10]算法。由于文獻[7]與文獻[10]的異常值檢測算法均基于ARMA模型,且ARMA模型的參數(shù)估計又需要求解高階非線性方程組,需要花費相當?shù)挠嬎愫臅r;又由于文獻[10]算法還需要進行差分預平穩(wěn)處理,故它比文獻[7]算法花費了更多的計算成本。與上述算法不同的是,本算法的檢測模型替換為AR模型,由于AR模型的求解有成熟的遞推算法,故此節(jié)省了一定的計算成本,事實上,本算法時間主要是在消耗在均值顯著性判別、分段劃分及去均值等處理上。

表2 各算法計算耗時對比 單位:ms

從如上分析可知,本算法較現(xiàn)有的異常值檢測算法而言,在不增加計算成本的同時其檢測精度及算法魯棒性均有了一定的提升。據(jù)此,本算法是正確和有效的。

5 結束語

針對路燈時序數(shù)據(jù)流具有均值緩變的特點,提出了一種基于均值顯著性的異常值分段檢測算法,從實驗得知,該改進算法在沒有增加計算成本的情況下,其檢測精度及算法的魯棒性得以提升。在本研究的基礎上,還有待做出進一步的工作,針對形式多樣的高度非線性和非平穩(wěn)的時序數(shù)據(jù)流,研究更為有效的線性化及預平穩(wěn)處理機制,同時,將已有的異常值檢測算法應用至時序數(shù)據(jù)流的壓縮,以便進一步提升算法的應用效能。

猜你喜歡
數(shù)據(jù)流時序均值
基于時序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識別研究
基于Sentinel-2時序NDVI的麥冬識別研究
汽車維修數(shù)據(jù)流基礎(下)
一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
一種毫米波放大器時序直流電源的設計
電子制作(2016年15期)2017-01-15 13:39:08
均值不等式失效時的解決方法
均值與方差在生活中的應用
基于數(shù)據(jù)流聚類的多目標跟蹤算法
關于均值有界變差函數(shù)的重要不等式
北醫(yī)三院 數(shù)據(jù)流疏通就診量
景德镇市| 东宁县| 永昌县| 盖州市| 积石山| 九台市| 景东| 开封县| 新源县| 泗水县| 儋州市| 共和县| 太和县| 京山县| 东源县| 吴堡县| 时尚| 玉环县| 安吉县| 林口县| 清苑县| 瓦房店市| 荣成市| 阿拉善盟| 天镇县| 同仁县| 桂东县| 明水县| 河北省| 玛纳斯县| 留坝县| 安庆市| 长武县| 荥阳市| 江城| 辽源市| 阿坝县| 德江县| 华宁县| 岑溪市| 新昌县|