劉明輝,周 磊,謝婷婷,霍爍爍
(中國人民解放軍63891部隊,河南洛陽471003)
電子裝備試驗的目的主要是對電子裝備的各項戰(zhàn)技指標進行考核。傳統(tǒng)意義上的試驗僅僅是對電子裝備各項性能滿足指標的程度進行考核,而并不過分關注裝備本身指標性能可以達到的程度,這對裝備性能的提升,缺陷的查找、分析和改進都是不利的。因此,有必要在試驗過程中將裝備試驗數(shù)據(jù)與指標進行對照檢驗后,再進行進一步的分析,尋找其中的規(guī)律和問題。
在試驗數(shù)據(jù)分析中,聚類分析是一類常見的試驗數(shù)據(jù)處理方法,在試驗數(shù)據(jù)分選、異常處理和故障判別等領域都有著廣泛的應用。在各種聚類分析方法中,層次聚類方法是一種應用較為廣泛的方法,典型的層次聚類算法有BIRCH算法[1]、CHAMELEON算法[2]和 CURE 算法[3]等。
CURE聚類方法是一種較為新穎的層次聚類方法,將傳統(tǒng)算法對簇的表示方法進行了改進,提出了采用簇內多個數(shù)據(jù)點來代表簇的思想,從每個簇中抽取固定數(shù)量,分布較好的點作為描述該簇的代表點,代替類簇對象進行類簇之間的距離計算。通過迭代計算,將最相似的簇進行合并,以此完成聚類的目的。對于CURE算法,當前在國內已經(jīng)有一些研究和成功的應用,如利用CURE算法進行網(wǎng)絡用戶行為分析[4]、相似重復記錄檢測[5]、通信異常檢測[6]以及交通服務系統(tǒng)應用[7]等。
在當前的電子裝備試驗模式中,其試驗數(shù)據(jù)處理方法大多是基于經(jīng)典統(tǒng)計學假設的,認為在試驗過程中,試驗數(shù)據(jù)滿足平穩(wěn)隨機過程條件,在不同時間點獲取的試驗數(shù)據(jù)均滿足同一分布,不受時間影響。然而,對于外場試驗來說,由于試驗環(huán)境、試驗條件和試驗手段的限制,其試驗過程必然要受到各種因素的影響,在某些惡劣條件下,如高動態(tài)升空平臺試驗,其過程很可能是非平穩(wěn)的,試驗數(shù)據(jù)中包含了大量時變誤差,如試驗數(shù)據(jù)誤差存在隨時間跳變現(xiàn)象;或者試驗數(shù)據(jù)誤差存在時域周期性變化現(xiàn)象;或者驗數(shù)據(jù)誤差存在遞增和歸零現(xiàn)象等。形成上述時變誤差的原因有很多,其原因可能主要有以下幾點:①試驗過程中各種干擾的影響,包括各種外部電磁環(huán)境影響,系統(tǒng)內設備的自擾以及測量設備與被試設備的互擾等;②被試設備和測量設備狀態(tài)隨時間的漂移,使得試驗結果在一定范圍內出現(xiàn)規(guī)律性變化;③被試設備本身的設計缺陷造成的影響。對于這類誤差的分析、補償和修正,是試驗數(shù)據(jù)處理中面臨的一項難題。為了更好地描述裝備的指標特性,有必要尋找一種時變誤差的處理方法來進行試驗數(shù)據(jù)分析和處理。
對于存在時變誤差的試驗過程,可以對其誤差狀態(tài)空間做如下合理假設:
假設1:被試裝備的誤差狀態(tài)空間是封閉的,并且總可以被劃分為有限的若干區(qū)間類;
假設2:被試裝備誤差狀態(tài)區(qū)間類之間相互獨立。
根據(jù)以上假設,可以采用一種按時間分段處理的方法,將整個試驗時段T劃分為若干獨立時間段,即T={t1t2…tn},因為在較短的一個時段內,可以近似地認為,系統(tǒng)的狀態(tài)是穩(wěn)定的,其誤差以短時隨機誤差為主。
由上述分析可得,對于電子裝備時變誤差的處理問題,最終可以歸結為一個電子裝備時變誤差的聚類分析問題。經(jīng)過研究,本文最終選取了CURE算法來進行時變數(shù)據(jù)的分類。
CURE聚類算法是一種高效的聚類算法,采用代表點來描述簇,其算法基本思路是:首先把每個數(shù)據(jù)點作為不同的簇,然后不斷使用基于代表點的方法對最相似的2個簇進行合并。CURE算法使用多代表點來描述簇的方法具有很多優(yōu)點:①基于多代表點的簇間相似性度量既可以降低噪聲點對簇合并的影響,又可以使相似性度量反映出簇的形狀、分布等信息,因此得到的簇的質量更好;②在計算基于代表點的簇間相似度時,只需計算代表點之間的距離,而不需要計算簇內所有數(shù)據(jù)點之間的距離,因此算法效率更高。
CURE算法的詳細描述如下:設數(shù)據(jù)集合Φ由n個數(shù)據(jù)點構成,即 Φ= { φ1φ2… φn},C為簇集合,C={C1C2…Cn},R(Ci)為簇Ci的代表點集合R(Ci)={ri1ri2…rip}(p<λ)其中 λ為每個簇中的最大代表點數(shù),收縮因子為α,定義dist(φ1,φ2)為任意2個數(shù)據(jù)項之間的歐氏距離,則2個聚類之間的距離為:
算法步驟如下:
① 根據(jù)每一個數(shù)據(jù)點 φi建立一個簇Ci,R(Ci)= φi。
② 找出簇集C中代表點最近的2個簇Cj,Ck。
③ 將簇Cj,Ck合并為新簇Cnew。
④計算新簇的質心
式中,表示簇中的樣本數(shù)。
⑤ 構 建臨時集合tempΦ,從新簇中選擇 φi,如果tempΦ為空集,則使得φi滿足條件:
否則使得φi滿足條件:
最后將φi并入tempΦ,如果tempΦ中元素個數(shù)大于λ,則終止步驟⑤。
⑥計算新簇Cnew的代表點:
⑦更新簇集,重新計算各簇間的距離dist(C1,C2),重新執(zhí)行步驟②。
對于算法終止的條件,可以采用文獻[8]中的方法來判別。
定義1 類內距:類內兩兩不相同樣本點之間的距離的平均,如果類內所有樣本均相同,則類內距定義為0,類內距反映了類內樣本的緊密程度。
定義2 類間連接對:若類i中距離樣本點xj最近的樣本點為xi,且類j中距離xi最近的點也為xj,則稱(xi,xj)為類i和類j之間的1個連接對。其中xi屬于類i,xj屬于類j。
定義3 類間距:類i和類j之間的所有連接對的距離平均,類間距反映了類間分離程度。
由上述定義可得,如果類間距大于類內距,就會認為這2類不應該合并為1類,相反地,就會認為二者應該歸為1類,在每次更新簇集后,計算一下各類的類內距和類間距,當所有類不應再聚合時,算法停止。
在成功完成誤差狀態(tài)空間分類之后,即可采用各種指標對電子裝備系統(tǒng)的時變誤差進行綜合評價。對于裝備誤差的評價指標,通常情況下為系統(tǒng)的均值和方差,以及由均值和方差衍生出的CEP、中間偏差或者其他類指標,對于電子裝備的時變誤差,采用這些指標進行考核是不合適的,因此,本文提出了3種用于考核電子裝備時變誤差的指標,這些指標具有一定的代表性。
2.3.1 時變穩(wěn)定度
設被試裝備系統(tǒng)誤差均值為μ,方差為σ2,其各時段誤差的均值為E={μ1μ2… μn},pk為各時段數(shù)據(jù)點數(shù)量與試驗數(shù)據(jù)總量的比值,即pk=nk/N,則可定義系統(tǒng)的時變穩(wěn)定度為:
時變穩(wěn)定度描述了各時段誤差均值與系統(tǒng)總體均值的偏離程度,ST值越小,則系統(tǒng)各時段的偏差值越小,系統(tǒng)性能越高。
2.3.2 時變一致性
設系統(tǒng)各時段方差為D={σ22… σ2n},則系統(tǒng)的時變一致性可定義為:
式中,pk定義同上。
時變一致性描述了系統(tǒng)在存在時變誤差條件下,在較短的時段內系統(tǒng)誤差的一致性程度,也即被試裝備系統(tǒng)短時的穩(wěn)定程度,CT值越小,系統(tǒng)的時變一致性越好。
2.3.3 精度—時間概率
由于時變誤差的存在,系統(tǒng)的精度實際上是一個變化量,在不同時間段,系統(tǒng)的精度是不同的,同理,對于某一確定的精度值,系統(tǒng)能夠滿足其要求的時間也是不同的。精度—時間概率定義如下:
設某一任務對系統(tǒng)精度需求為P,則系統(tǒng)的精度—時間概率為:
式中,tk為滿足精度需求的時段;T為總時間。
為驗證該方法的有效性,這里采用仿真數(shù)據(jù)進行了驗證,仿真數(shù)據(jù)源自2個不同型號的激光測距裝備試驗,采用線性變換的方式對試驗數(shù)據(jù)進行了處理。兩型裝備的試驗數(shù)據(jù)如圖1和圖2所示。
圖1和圖2描述了A、B不同廠家設計的一激光測距裝備的誤差分布,由圖可以看出,A廠設計的激光測距裝備誤差較為均勻,而B廠設計的激光測距裝備則表現(xiàn)出了較為明顯的誤差時變性。采用CURE算法對兩型裝備進行分類,最終A廠裝備試驗數(shù)據(jù)被分為1類,而B廠裝備試驗數(shù)據(jù)被分為5類,具體分類及數(shù)據(jù)結果如表1所示。由表1可以看出,A型裝備誤差均值小于B型裝備,但方差大于B型,二者差別不大,對于誤差均值和方差,二者不存在顯著性差別(t檢驗,P>0.05)。
圖1 A型裝備誤差分布
圖2 B型裝備誤差分布
表1 兩型激光測距裝備數(shù)據(jù)誤差及分類結果
但若對時變誤差進行考慮,計算兩型裝備的時變穩(wěn)定度、時變一致性及精度—時間概率(精度p≤3 m)指標,則可發(fā)現(xiàn)兩型裝備的明顯差別,具體計算結果如表2所示,其中試驗點數(shù)為100。
表2 兩型激光測距裝備時變誤差分析結果
由表2可知,A型裝備的時變穩(wěn)定性較好,誤差分布較為均勻,一般情況下應優(yōu)先選用A型設備;但B型裝備時變一致性較好,若系統(tǒng)中還存在其他設備進行修正或者有條件采用差分方法,則B型設備可以提供更高的精度;對于某些指定精度(如要求精度≤3 m)的任務需求,采用A型裝備是一個較好的選擇。
在以往的試驗過程中,對電子裝備的時變誤差考慮較少,因此對系統(tǒng)的評價存在一定的片面性。本文提出了一種基于CURE算法的電子裝備時變誤差分析處理方法,通過CURE算法對試驗數(shù)據(jù)進行聚類,采用時變穩(wěn)定度、時變一致性和精度—時間概率對被試裝備的時變誤差進行了考核,考核結果對裝備的評價、選型和改進都有一定的指導意義,本文所提出的方法,也可以推廣到其他應用領域中,具有較為廣泛的應用前景。
[1]ZHANG T,RAMAKRISHMAN R,LIVNY M.BIRCH:An Efficient Data Clustering Method for very Large Databases[C].In Proc.1996 ACM-SIGMOD Int.Conf.Management of Data.Canada,1996,1 032-1 141.
[2]KARYPIS G,HAN E H,KUMAR V.CHAMELEMON:Ahierarchical Clustering Algorithm Using Dynamic Modeling[J].COMPUTR,1999(32):682 -751.
[3]GUHA S,RASTOGI R,SHIM K.CURE:an Efficient Clustering Algorithm for Large Database[J].Information Systems,2001,26(1):35 -58.
[4]孫燕花,李 杰 ,李 建.基于CURE算法的網(wǎng)絡用戶行為分析[J].計算機技術與發(fā)展,2011,21(9):35-38.
[5]時念云,張金明,褚 希.基于CURE算法的相似重復記錄檢測[J].計算機工程,2009,35(5):56-58.
[6]周亞建,徐晨,李繼國.基于改進CURE聚類算法的無監(jiān)督異常檢測方法[J].通信學報,2010,31(7):18-23.
[7]張 愚 ,翁小雄.CURE聚類方法及其在交通服務信息系統(tǒng)中的應用[J].科學技術與工程,2009,9(10):2 611-2 615.
[8]向 嫻 ,湯建龍.基于改進的支持向量聚類的雷達信號分選[J].航天電子對抗,2011,27(1):50-53.