盧國志,胡斐,倪萍
(山東科技大學,山東 青島 266590)
在工業(yè)生產(chǎn)中,設備是否能安全、穩(wěn)定地運行一直是一個重要問題,隨著設備的重要程度增加,其故障可能帶來的損失也就越大。工業(yè)設備正常運行的關鍵要素是維護和檢修,包括事后檢修、計劃檢修和狀態(tài)檢修。由于很多大型安全生產(chǎn)事故的發(fā)生,其原因往往僅僅是由于某一關鍵設備的帶“病”作業(yè),小問題逐漸引起細微的性能變化,從而引發(fā)大事故。因此,企業(yè)能做的除了事后維修外,更要加強以預防為主的檢測,提前識別出設備的細微變化,從而將事故扼殺在搖籃中。為了能夠更有效地進行預防性的檢測,需要對設備的運行狀態(tài)進行評估,傳統(tǒng)的狀態(tài)評估主要是基于理論分析以及物理模型分析,但由于設備故障影響因素眾多、機理復雜,難以建立完善、精確的狀態(tài)評估物理模型。近年來,隨著傳感器技術、數(shù)據(jù)收集與處理技術的發(fā)展,大數(shù)據(jù)技術在工業(yè)設備故障診斷的廣泛應用,通過數(shù)據(jù)判斷設備狀態(tài),即數(shù)據(jù)驅動成為許多企業(yè)選擇發(fā)展的方向。本文在數(shù)據(jù)驅動的基礎上,提出了一種新的狀態(tài)評估數(shù)據(jù)處理方法,并稱為“數(shù)據(jù)切片”。
針對設備的狀態(tài)預警判斷離不開對數(shù)據(jù)的處理分析,一般數(shù)據(jù)處理思路可概括為四步:標準化處理、預警閾值確定、異常點篩選、原因分析。如圖1所示,為某設備中四處監(jiān)測數(shù)據(jù),根據(jù)每組數(shù)據(jù)的波動情況合理設置預警閾值以及異常檢測的強弱,臨近預警閾值則需要警戒,超過預警閾值則需要停止運行并檢修,之后通過不同數(shù)據(jù)間的組合來分析確定故障的原因。然而,當數(shù)據(jù)種類增多時,影響數(shù)據(jù)的因素增多,僅僅用單一數(shù)據(jù)的異常點來判斷是否存在故障的準確率和效率都較低,而綜合考慮數(shù)據(jù)之間的關系建立復雜模型又對專業(yè)性的要求較高,導致實用性不足,因此,本文提出了一種數(shù)據(jù)切片模式,既能滿足綜合考慮不同數(shù)據(jù),又能降低專業(yè)性的要求。
圖1 閾值預警圖
數(shù)據(jù)切片即通過假想一個時間維度的切片,將某一設備的運行狀態(tài)通過切分分成無數(shù)個僅與時間相關的狀態(tài),每個狀態(tài)則由多個狀態(tài)參量進行表示,同時,按照設定的處理方式將每個狀態(tài)的多個狀態(tài)參量值用一組坐標代替,并放入坐標系,之后通過聚類等方式對其分組并找出異常點。
定義1:狀態(tài)參量:在某一確定時刻,用來表示機器該時刻運行狀態(tài)的參數(shù),記作ki(i=1,2,....,n)。例如,可以用某時刻人體的血壓、體溫、血糖、血脂、尿酸、總膽固醇等參數(shù)來確定該時刻人的健康程度。
定義2:狀態(tài)特征曲線:由n個狀態(tài)參量構成的可以代表設備t時刻運行狀態(tài)的曲線。
定義3:狀態(tài)坐標系:由狀態(tài)特征曲線中n個狀態(tài)參量值通過三種函數(shù)變換得到的三個值,從而組成三維坐標系中的x,y,z軸。
式中,x軸表示在t時刻下的n個狀態(tài)參量的均值;y軸表示在t時刻下的狀態(tài)特征曲線的波動情況;z軸用來區(qū)別t時刻下狀態(tài)曲線的變化方向。通過(x,y,z)可以將任一時刻下的機器運行狀態(tài)用空間中一點代表,每個點均只對應一種狀態(tài)曲線。狀態(tài)坐標系的確定規(guī)則可以針對不同設備的特征進行修改,以便聚類分析。
根據(jù)上述介紹,基于數(shù)據(jù)切片模式判斷設備狀態(tài)穩(wěn)定性的流程主要包括以下四步:(1)數(shù)據(jù)預處理;(2)獲得狀態(tài)曲線;(3)確定狀態(tài)特征值;(4)聚類分析,具體流程如圖2。
圖2 數(shù)據(jù)切片流程圖
在多指標評價體系中,由于各評價指標的性質不同,通常具有不同的量綱和數(shù)量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數(shù)值較高的指標在綜合分析中的作用,相對削弱數(shù)值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標數(shù)據(jù)先進行歸一化處理。在此,本文提供兩種數(shù)據(jù)歸一化的方法。分別為:
(1)線性函數(shù)歸一化:也稱為離差標準化,通過對原始數(shù)據(jù)進行線性變換,使得結果映射范圍在0~1。其轉換函數(shù)為:。
(2)0均值標準化:這種方法是結合原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。使處理過的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1。其轉換函數(shù)為:。
其中,Mean為所有樣本數(shù)據(jù)的均值。Standard deviation為所有樣本數(shù)據(jù)的標準差。
通過歸一化處理,可以獲得n×t個在0~1(或符合正態(tài)分布)的數(shù)據(jù),將其放入坐標系中如圖3所示,其中三個軸分別為數(shù)據(jù)種類、時間、大小,在將各個數(shù)據(jù)點生成曲線后,構想一垂直于時間軸的平面作為切片,該平面與各類數(shù)據(jù)曲線均有一個切點,連接所有切點得到一條曲線稱為數(shù)據(jù)狀態(tài)曲線。之后通過左右平移該平面,可獲得各個時間節(jié)點的數(shù)據(jù)狀態(tài)曲線。
圖3 狀態(tài)曲線圖
根據(jù)定義3,采取合理的處理規(guī)則,對狀態(tài)曲線進行處理后,每條狀態(tài)曲線可用三個數(shù)字表示,分別作為x、y、z三軸坐標放入空間坐標系中,可獲得t個空間中的點,如圖4。
圖4 數(shù)據(jù)集可視化
其中,X、Y、Z三軸分別為按照特定規(guī)則處理后的狀態(tài)坐標系,坐標系中的每個點則代表了一條狀態(tài)曲線。
聚類分析方法是在數(shù)據(jù)挖掘中常用的一種方法,按照歐氏距離或者馬氏距離等距離法對數(shù)據(jù)進行聚類,通過聚類結果,可以將原數(shù)據(jù)分成距離較小的較為相似的簇,在本文中將屬于某一簇的數(shù)據(jù)認為是正常點,不屬于任何一簇的點認為是異常點,對該點進行追溯找出其發(fā)生的時間,通過異常發(fā)生時間便能對機器的穩(wěn)定性運行提供幫助。由于馬氏距離能夠排除變量之間的相關性的干擾,故此采用馬氏距離。
式中,D(Xi,Xj)指的是樣本之間的馬氏距離,T指的是轉置操作,S指的是樣本協(xié)方差矩陣。根據(jù)3.3中狀態(tài)特征值組成的空間散點圖,通過密度聚類算法對所有點進行劃分類簇,其具體流程如下。
密度聚類算法過程如下:步驟1導入數(shù)據(jù)樣本集合A;步驟2輸入?yún)?shù)可達半徑Eps和鄰域密度閾值minpts;步驟3由數(shù)據(jù)樣本集合A中任意一個未被標記的點p開始,探索點p的Eps鄰域,如果在鄰域內的點數(shù)目大于或等于鄰域密度閾值minpts,則將點p標記為核心點,建立一個新的類簇C(p),否則,將p點標記為噪聲點;步驟4訪問所有核心點,將核心點p的Eps鄰域內的所有點都歸入類簇C(p)中;步驟5遍歷C(p)中所有沒有被掃描的點q,如果點q的Eps鄰域內點的數(shù)目大于或等于鄰域密度閾值minpts,則將點q和它Eps鄰域內的點歸入類簇C(p);步驟6訪問數(shù)據(jù)集A內的所有樣本,重復步驟(3)至步驟(5),直到所有樣本都被處理。根據(jù)上述6個步驟,可以將空間內所有聚類簇的核心點找出,并將各點進行歸類,可以看出不同簇的范圍,同時,能夠判斷出不屬于任何簇的異常點。
本文提出一種將多維時序數(shù)據(jù)組成的曲線轉換成三維空間點,并通過聚類分析判斷出異常點,從而評估設備的運行狀態(tài)的方法。此方法可將龐大的設備時序數(shù)據(jù)轉換為空間中的點,再通過空間聚類的方式將這些點進行分類,從而篩選出異常點,從而快速察覺設備運行中潛在的異常。
本文將所描述的方法稱為數(shù)據(jù)切片技術,該技術具有以下幾點優(yōu)點:(1)能夠綜合考慮多個維度的數(shù)據(jù),將復雜的多維數(shù)據(jù)降為三維,并能夠根據(jù)數(shù)據(jù)特征自行確定降維規(guī)則,有針對性地提高聚類的準確性。(2)通過該方法可以迅速從龐大多樣的數(shù)據(jù)中發(fā)現(xiàn)異常數(shù)據(jù)發(fā)生的時間,從而進行快速反應,并且具有一定的提前性。(3)與機理建模方式相比,不需要建立復雜的物理模型、機理分析,對專業(yè)性的要求不高。(4)通過該方法可以對自動化設備的穩(wěn)定運行監(jiān)測提供保障,從而有效地避免潛在故障。