周曉龍,張 輝
(中國(guó)電子科學(xué)研究院,北京 100041)
基礎(chǔ)理論
基于時(shí)間特性的周期BIT數(shù)據(jù)分析模型研究
周曉龍,張 輝
(中國(guó)電子科學(xué)研究院,北京 100041)
機(jī)內(nèi)自檢(BIT)是系統(tǒng)故障檢測(cè)的重要手段,在電子系統(tǒng)中被廣泛應(yīng)用。隨著系統(tǒng)越來(lái)越大,BIT數(shù)據(jù)越來(lái)越多。快速、準(zhǔn)確的從BIT記錄中獲取有效的故障信息,并進(jìn)行初步的故障隔離,對(duì)于大型電子系統(tǒng)事后檢測(cè)分析具有重要的意義。本文主要研究了周期BIT數(shù)據(jù)分析方法,提出了利用周期BIT數(shù)據(jù)的時(shí)間標(biāo)簽特性,進(jìn)行聚類(lèi)分析,實(shí)現(xiàn)故障事件的初步融合,從而為進(jìn)一步的故障推理提供了唯一性故障數(shù)據(jù);論文還討論了該方法在故障隔離方面的應(yīng)用情況。
周期BIT;故障隔離;時(shí)間序列;故障模糊組
隨著裝備信息化程度越來(lái)越復(fù)雜,綜合化水平越來(lái)越高,系統(tǒng)的健康狀況監(jiān)控能力越來(lái)越強(qiáng),故障預(yù)測(cè)與健康管理(PHM)技術(shù)在系統(tǒng)研制、裝備使用和后續(xù)保障中起的作用日益重要[1],測(cè)試性技術(shù)得到了快速發(fā)展。
在測(cè)試性設(shè)計(jì)技術(shù)中,機(jī)內(nèi)測(cè)試(Built-in Test,BIT)是一項(xiàng)基礎(chǔ)性技術(shù),被廣泛應(yīng)用到各類(lèi)系統(tǒng)中。機(jī)內(nèi)測(cè)試是指系統(tǒng)或設(shè)備內(nèi)部提供的檢測(cè)和隔離故障的自動(dòng)測(cè)試能力[2]。機(jī)內(nèi)測(cè)試的形式有多種,比較典型的有加電BIT,周期BIT,啟動(dòng)BIT等。其中周期BIT由于具有在線、實(shí)時(shí)的特性,具有使用和維修輔助的多重用途。但在設(shè)計(jì)時(shí),往往側(cè)重考慮使用需求,比如實(shí)時(shí)性、關(guān)鍵參數(shù)監(jiān)控、不干涉使用等。由于周期BIT的這些特性,周期BIT對(duì)于維修來(lái)說(shuō),往往有較多局限。比如,由于周期BIT信息的實(shí)時(shí)特性,不能反映歷史情況,對(duì)于不穩(wěn)定狀態(tài)不能有效進(jìn)行監(jiān)控;受周期BIT機(jī)制的影響,周期BIT數(shù)據(jù)量往往較大,不便于直接應(yīng)用。以某大型電子系統(tǒng)為例,周期BIT監(jiān)控設(shè)備數(shù)百個(gè),工作4個(gè)小時(shí)存儲(chǔ)的BIT相關(guān)的數(shù)據(jù)量數(shù)萬(wàn)條。對(duì)于簡(jiǎn)單的數(shù)據(jù)檢索應(yīng)用來(lái)說(shuō),應(yīng)用性不強(qiáng)。同時(shí),由于裝備構(gòu)成復(fù)雜,在工作過(guò)程中可能出現(xiàn)多個(gè)故障,且故障之間可能存在相關(guān)性,不能直接將故障事件用于故障推理模型,實(shí)現(xiàn)故障隔離。因此,在越來(lái)越來(lái)多的系統(tǒng)研制中,采用事后數(shù)據(jù)分析技術(shù),對(duì)周期BIT數(shù)據(jù)進(jìn)行分析,提升周期BIT的應(yīng)用價(jià)值。
本論文闡述了基于時(shí)間序列的數(shù)據(jù)分析模型,通過(guò)對(duì)周期BIT事件的進(jìn)行分析,實(shí)現(xiàn)了故障事件提取和初步的故障隔離,為進(jìn)一步開(kāi)展基于模型的故障推理(比如基于D矩陣的故障隔離)奠定了基礎(chǔ)。
周期BIT是一種實(shí)時(shí)監(jiān)控的手段,周期BIT事件報(bào)告機(jī)制主要有兩種:周期性報(bào)告機(jī)制和事件觸發(fā)機(jī)制。周期性報(bào)告機(jī)制的優(yōu)點(diǎn)是信息可靠,缺點(diǎn)是數(shù)據(jù)量大。當(dāng)監(jiān)控單元數(shù)量較多時(shí),網(wǎng)絡(luò)傳輸壓力和數(shù)據(jù)分析量將成倍增長(zhǎng)。事件觸發(fā)機(jī)制的優(yōu)點(diǎn)是數(shù)據(jù)量小,狀態(tài)更新及時(shí),一般是在監(jiān)控對(duì)象健康狀況發(fā)生變化的時(shí)候,立即進(jìn)行報(bào)告,包括正常設(shè)備發(fā)生了故障,故障設(shè)備恢復(fù)到正常等情況;該機(jī)制的缺點(diǎn)是不可靠,可能會(huì)由于某些原因造成數(shù)據(jù)丟包,導(dǎo)致漏報(bào)。對(duì)于大型信息系統(tǒng)來(lái)說(shuō),兩種機(jī)制都會(huì)采用。
當(dāng)一個(gè)故障發(fā)生后,會(huì)通過(guò)故障傳播路徑向后端系統(tǒng)進(jìn)行傳播,從而可能導(dǎo)致后端系統(tǒng)狀態(tài)異常。故障影響范圍,受系統(tǒng)電氣結(jié)構(gòu)和邏輯約束。比如當(dāng)電源系統(tǒng)出現(xiàn)了故障(故障模式是無(wú)輸出)后,受供電影響的相關(guān)設(shè)備都會(huì)出現(xiàn)異常。故障傳播特性導(dǎo)致了周期BIT數(shù)據(jù)具有顯著的時(shí)間特性,比如存在相關(guān)性的多個(gè)故障,往往在故障報(bào)告時(shí)間上存在一定的相關(guān)性。在時(shí)間特性上,相關(guān)聯(lián)故障的報(bào)告發(fā)生在一定的時(shí)間區(qū)間內(nèi)。該時(shí)間區(qū)間受系統(tǒng)BIT報(bào)故機(jī)制的約束。對(duì)于簡(jiǎn)單系統(tǒng),該時(shí)間可以很短,比如一個(gè)報(bào)故周期。對(duì)于復(fù)雜系統(tǒng),該時(shí)間可能會(huì)涉及多個(gè)報(bào)告周期,甚至更長(zhǎng)時(shí)間。這種相關(guān)性與系統(tǒng)設(shè)計(jì)有直接的關(guān)系。
在系統(tǒng)工作過(guò)程中,周期BIT監(jiān)控對(duì)象一般有3種狀態(tài):正常,故障,未知。如圖1。在某些設(shè)計(jì)中,未知狀態(tài)也可以作為相關(guān)監(jiān)控對(duì)象故障狀態(tài)的一種指示,此時(shí)可以用故障狀態(tài)來(lái)表示。對(duì)于非故障指示意義的未知狀態(tài),不在本文討論。
圖1 任務(wù)過(guò)程設(shè)備狀態(tài)轉(zhuǎn)換示意圖
不同的周期BIT報(bào)故機(jī)制導(dǎo)致不一樣的數(shù)據(jù)構(gòu)成。
周期性狀態(tài)報(bào)告機(jī)制是通過(guò)對(duì)系統(tǒng)過(guò)程中狀態(tài)的離散化生成一個(gè)狀態(tài)報(bào)告序列,如圖2。圖中,豎線表示周期BIT報(bào)告數(shù)據(jù)。其中短豎線表示被監(jiān)控對(duì)象為“正?!睜顟B(tài),長(zhǎng)豎線表示被監(jiān)控對(duì)象為“故障”狀態(tài)。下同。
圖2 監(jiān)控狀況序列(周期性狀態(tài)報(bào)告機(jī)制)
事件觸發(fā)機(jī)制是只在狀態(tài)變化時(shí)進(jìn)行狀態(tài)報(bào)告,如圖3。在不考慮數(shù)據(jù)丟失的情況下,兩種機(jī)制的結(jié)果是可以互相轉(zhuǎn)換的,本文僅針對(duì)第一種形式進(jìn)行進(jìn)一步的分析處理。
圖3 監(jiān)控狀況序列(事件觸發(fā)機(jī)制)
狀態(tài)報(bào)告序列可看作是一種時(shí)間序列。時(shí)間序列是按照時(shí)間順序取得的一系列觀測(cè)值[3]。時(shí)間序列可被抽象成二元組R=(O,t)[4]。其中t為時(shí)間變量,O為數(shù)據(jù)變量,反映數(shù)據(jù)單元的實(shí)際意義。因此,時(shí)間序列集合可以描述如下:
R={(Oi,ti)}, 滿足ti (1) 對(duì)于周期BIT來(lái)說(shuō),Oi表示為狀態(tài)值(正常,故障)。 狀態(tài)報(bào)告序列R包含了被監(jiān)控對(duì)象在整個(gè)過(guò)程中的狀態(tài)。對(duì)于使用和維護(hù)來(lái)說(shuō),故障事件更值得關(guān)注。因此,根據(jù)R進(jìn)一步生成故障事件是一種必要的過(guò)程。 故障事件需要用3個(gè)參數(shù)進(jìn)行標(biāo)識(shí),Ei=(Oi,ti,dti)。 其中Oi表示故障事件,ti表示故障開(kāi)始時(shí)間,dti表示故障持續(xù)時(shí)間。如圖4。 圖4 故障事件 從R中提取故障事件,需要按照2個(gè)步驟進(jìn)行: 1)確定故障事件的發(fā)生。逐個(gè)對(duì)比Ri中的Oi,提取故障信息,形成Fi=(Oi,ti)。Fi滿足: Fi=(Oi,ti)={Oi=故障態(tài)∧Oi-1=正常態(tài), ti=t(Ri)} (2) 其中t(Ri)為取Ri中的時(shí)間t。 2)確定故障持續(xù)時(shí)間。在確定了Fi后,繼續(xù)依次逐個(gè)對(duì)比Ri中的Oi和ti,確定dti。dti的確定需滿足: dti=max(tj-ti),滿足Oj=Oi,且tj-tj-1>Δt (3) 其中,Δt為周期BIT報(bào)告周期,或允許的間隔時(shí)間。 在Fi和dti依次確定后,R中的故障事件可以表示為故障事件集合E,表示為: E={(Fi,dti)}={(Oi,ti,dti)} (4) 在大型系統(tǒng)中,監(jiān)控設(shè)備有很多個(gè),如圖5。在BIT數(shù)據(jù)記錄中,這些數(shù)據(jù)按照時(shí)間先后順序交叉記錄在一起。經(jīng)過(guò)上述的數(shù)據(jù)預(yù)處理方法,可以分析出整個(gè)過(guò)程中所有故障事件集合Es。 Es={(Ek)}={(Oi,ti,dti)k}, 1≤k≤n…… (5) 其中,角標(biāo)k表示第k個(gè)監(jiān)控對(duì)象,n為總監(jiān)控對(duì)象數(shù)量。 圖5 多設(shè)備監(jiān)控下的事件序列示意圖 在經(jīng)過(guò)事件化表示和故障事件提取后,輸出結(jié)果可以全面的反應(yīng)系統(tǒng)的故障信息,可用于支撐對(duì)系統(tǒng)的維護(hù)和維修。但是對(duì)于復(fù)雜系統(tǒng)來(lái)說(shuō),監(jiān)控對(duì)象之間交聯(lián)關(guān)系復(fù)雜,某監(jiān)控對(duì)象發(fā)生故障后,會(huì)通過(guò)故障傳遞路徑,在系統(tǒng)中進(jìn)行傳播,從而導(dǎo)致相關(guān)的監(jiān)控對(duì)象報(bào)故,形成故障模糊組。這種現(xiàn)象,導(dǎo)致故障事件信息的混亂,給故障定位帶來(lái)困難。 解決故障模糊組是故障診斷的重要課題,國(guó)內(nèi)外提出了邏輯模型、信息流模型、多信號(hào)流圖模型[5]、結(jié)構(gòu)模型、混合診斷模型等不同類(lèi)型的測(cè)試性診斷模型[6]和方法。對(duì)于大型復(fù)雜系統(tǒng),由于工作過(guò)程中,可能有多個(gè)故障同時(shí)并發(fā),不滿足單一故障條件,會(huì)導(dǎo)致故障定位不準(zhǔn)確。 本研究提出了基于時(shí)間特性的故障模糊組分析方法,是對(duì)故障事件信息的預(yù)處理。通過(guò)本方法形成的故障模糊組,進(jìn)一步提交給推理機(jī)或其他診斷方式,可有效降低后續(xù)工作的難度。 基于時(shí)間特性的故障模糊組分析方法是利用故障事件的時(shí)間特性,進(jìn)行聚類(lèi)分析,形成模糊組集合G,使得每個(gè)故障模糊組中的故障事件之間存在強(qiáng)的關(guān)聯(lián)性。通過(guò)分析故障事件之間的時(shí)間相似性,來(lái)識(shí)別不同的故障模糊組。 本文采用基于時(shí)間序列數(shù)據(jù)的相似性分析進(jìn)行故障模糊組分析。在基于時(shí)間序列數(shù)據(jù)的相似性分析中,常用方法是計(jì)算歐幾里得距離。通過(guò)歐幾里得距離,進(jìn)行事件匹配。 故障事件Ei(Oi,ti,dti)包括的時(shí)間信息包括故障開(kāi)始時(shí)間ti,故障持續(xù)時(shí)間dti。兩個(gè)故障事件之間的歐幾里得距離d(Ei,Ej)定義如下: (6) 通過(guò)歐幾里得距離,可以通過(guò)下式判斷事件之間的相似性。 (7) 其中,1表示Ei和Ej具有相似性,0表示無(wú)相似性。d0為閾值。 通過(guò)對(duì)全系統(tǒng)的Es逐對(duì)進(jìn)行相似性判定,將具有相似性的歸為一個(gè)模糊組,即可形成故障模糊組集合G。其中第i個(gè)模糊組Gi表示為: Gi={(Oi,ti,dti),滿足σ(Ei,Ej)=1,i,j∈n} (8) 系統(tǒng)的復(fù)雜性,會(huì)導(dǎo)致閾值d0展寬。d0的取值受2個(gè)方面因素的影響,一方面是設(shè)計(jì)因素,比如周期BIT狀態(tài)報(bào)告周期、信號(hào)時(shí)延等固有特性;另一方面是數(shù)據(jù)丟包或網(wǎng)絡(luò)阻塞延遲的影響。一旦發(fā)生了數(shù)據(jù)丟包,會(huì)成倍增加故障上報(bào)的時(shí)延。因此,閾值d0的確定是一個(gè)工程問(wèn)題??筛鶕?jù)統(tǒng)計(jì)試驗(yàn)結(jié)果,確定合適的閾值d0。 閾值的確定需考慮2個(gè)方面影響: 一是閾值過(guò)小可導(dǎo)致較多的故障事件不能相關(guān)。可以通過(guò)統(tǒng)計(jì)評(píng)價(jià)試驗(yàn)的方式,確定閾值的下限。統(tǒng)計(jì)評(píng)價(jià)指標(biāo)為相關(guān)率,定義如下: (9) 其中已相關(guān)的故障事件數(shù)不包括誤相關(guān)故障事件數(shù)。 二是閾值過(guò)大會(huì)導(dǎo)致較大概率的誤相關(guān),即不存在故障傳播關(guān)系的故障事件意外關(guān)聯(lián)為一個(gè)故障模糊組。統(tǒng)計(jì)評(píng)價(jià)指標(biāo)為誤相關(guān)率,定義如下: (10) 過(guò)高的UR會(huì)給故障定位帶來(lái)一定的困難,也可能造成隱藏故障,導(dǎo)致一次維修不充分。但一般來(lái)說(shuō),誤相關(guān)的故障會(huì)在后續(xù)的診斷過(guò)程中進(jìn)行解相關(guān)。因此,誤相關(guān)的危害要小于相關(guān)率過(guò)低的為危害。從經(jīng)驗(yàn)來(lái)看,90%以上的相關(guān)率、10%以下的誤相關(guān)率是必要的閾值設(shè)定參考。 在實(shí)際應(yīng)用中,可通過(guò)試驗(yàn)的方式確定閾值,如圖6。步驟如下: a)根據(jù)系統(tǒng)的特性,設(shè)置初始閾值。 b)試驗(yàn):輸入一組BIT數(shù)據(jù)文件,運(yùn)行一遍預(yù)處理方法,并計(jì)算RR和UR; c)判斷RR和UR是否滿足要求;若滿足要求,則閾值設(shè)置合理;若RR不滿足要求,則增加閾值;若UR不滿足要去,則減小閾值。 圖6 閾值確定過(guò)程 本文論述了周期BIT數(shù)據(jù)分析的數(shù)學(xué)模型和工程方法,提出了周期BIT事件化表示模型、故障事件提取模型以及基于時(shí)間特征的故障模糊組分析模型,同時(shí),論文也討論了工程中歐幾里得距離閾值的確定方法,為周期BIT數(shù)據(jù)的事后分析提供了可行的思路和參考。周期BIT數(shù)據(jù)分析結(jié)果,可以用于輔助維修人員準(zhǔn)確掌握系統(tǒng)工作過(guò)程中發(fā)生的故障信息,從而支撐故障診斷方法的制定,提高維修效率,具有良好的應(yīng)用價(jià)值。 該方法在項(xiàng)目組研制的維修輔助設(shè)備中得到了應(yīng)用,效果較好。利用該方法,可以快速識(shí)別故障模糊組,可輔助維護(hù)人員作出相應(yīng)的診斷決策。同時(shí),對(duì)于較復(fù)雜的模糊組,該分析結(jié)果,可以提交到推理機(jī)中,進(jìn)行進(jìn)一步的診斷。 [1] 王緒智,張寶珍. 國(guó)外PHM技術(shù)的發(fā)展動(dòng)態(tài)及經(jīng)驗(yàn)教訓(xùn)[C]. 中國(guó)上海: 2010航空試驗(yàn)測(cè)試技術(shù)學(xué)術(shù)交流會(huì),2010年10月19日. [2] 石君友. 測(cè)試性設(shè)計(jì)分析與驗(yàn)證[M]. 北京:國(guó)防工業(yè)出版社,2011. [3] George E. P. Box. Time Series Analysis: Forecasting and Control[J]. Journal of Marketing Research, 1994,14(2): 199-201. [4] 賈澎濤,何華燦,劉麗,孫濤. 時(shí)間序列數(shù)據(jù)挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2007,24(11): 15-18+29. [5] 陳衛(wèi)衛(wèi). 基于信息熵的故障隔離模型[J]. 中國(guó)電子科學(xué)研究院學(xué)報(bào),2013, 8(.5): 441-443+448. [6] 張勇,邱靜,劉冠軍. 測(cè)試性模型對(duì)比及展望[J]. 測(cè)試技術(shù)學(xué)報(bào), 2011, 25(6): 504-514. The Study on the Model of Periodic BIT Data Analysis Relation to Time Sequence ZHOU Xiao-long, ZHANG Hui (China Academy of Electronics and Information Technology, Beijing 100041, China) BIT is widely applied in electric systems as one of the most import abilities for system diagnostic test. But the problem is how to obtain the useful information of fault events rapidly and correctly and isolated those faults into different fault ambiguity groups when the BIT data becomes more and more enormous. The methods to this problem are studied in different technical fields. This article proposes a model of cluster analysis for periodic BIT data which based on the character of the time table of the BIT events happened. This model can use to integrate the multi-fault events to unique event for deeper diagnosis. This article also gives a brief consulting about the usefulness to fault isolation. Periodic BIT;fault isolate; time sequence; fault ambiguity group 10.3969/j.issn.1673-5692.2016.02.005 2017-01-05 2017-03-30 TP306+.3 A 1673-5692(2017)02-128-04 周曉龍(1979—),男,湖南人,高級(jí)工程師,主要研究方向?yàn)榇笮碗娮有畔⑾到y(tǒng)與元器件技術(shù)研究和設(shè)備研發(fā); E-mail:xlzhou@pku.org.cn 張 輝(1979—),女,遼寧人,工程師,主要研究方向?yàn)榇笮碗娮有畔⑾到y(tǒng)軟件產(chǎn)品研發(fā)。3 故障事件的提取
4 基于時(shí)間特征的故障模糊組分析
5 工程應(yīng)用參考
6 結(jié) 語(yǔ)