盧元磊,何佳洲,安 瑾,苗高潔
(江蘇自動(dòng)化研究所,江蘇 連云港 222006)
在目標(biāo)預(yù)測(cè)中,由于目標(biāo)測(cè)量數(shù)據(jù)采集過(guò)程受傳感器、轉(zhuǎn)換器以及無(wú)線電傳輸過(guò)程中的干擾,使得接收數(shù)據(jù)中經(jīng)常會(huì)產(chǎn)生異常跳變點(diǎn),這種偏離被測(cè)信號(hào)變化規(guī)律的數(shù)據(jù)點(diǎn)被稱為野值[1[。如果在數(shù)據(jù)預(yù)處理階段不將野值剔除,那么這些野值將會(huì)嚴(yán)重影響目標(biāo)預(yù)測(cè)的精度,甚至?xí)?dǎo)致目標(biāo)預(yù)測(cè)的發(fā)散。因此,如何剔除野值成為目標(biāo)預(yù)測(cè)中的首要問(wèn)題。本文分析了目標(biāo)預(yù)測(cè)中的野值剔除問(wèn)題,介紹了誤差理論中幾種常用的野值剔除準(zhǔn)則,并通過(guò)仿真分析了它們對(duì)野值的剔除能力及對(duì)目標(biāo)預(yù)測(cè)精度的影響。
野值的定義有很多種,一種比較公認(rèn)的且與目標(biāo)預(yù)測(cè)中的野值剔除比較貼切的定義是 Barnett 和Lewis在1984年給出的定義:野值就是一個(gè)觀測(cè)數(shù)據(jù)集中與其他數(shù)據(jù)表現(xiàn)不一致的一個(gè)或多個(gè)觀測(cè)點(diǎn)組成的子集[2]。
目標(biāo)預(yù)測(cè)中的野值剔除和常規(guī)誤差理論中的野值剔除是有區(qū)別的。在常規(guī)的誤差理論中,野值剔除是進(jìn)行重復(fù)多次測(cè)量,然后對(duì)觀測(cè)數(shù)據(jù)的事后處理。在目標(biāo)預(yù)測(cè)中,目標(biāo)狀態(tài)不斷變化,每個(gè)狀態(tài)都是單次測(cè)量,而且要求數(shù)據(jù)的處理是實(shí)時(shí)的、在線的,隨著目標(biāo)的運(yùn)動(dòng),測(cè)量環(huán)境和精度也是發(fā)生變化的。因此,這對(duì)兩種情況的處理方法也是有區(qū)別的。在常規(guī)的誤差理論中通常取多次測(cè)量的均值來(lái)替代目標(biāo)的真實(shí)狀態(tài),且大多數(shù)情況下是可行的。但在目標(biāo)預(yù)測(cè)中,我們必須通過(guò)一定的手段對(duì)目標(biāo)當(dāng)前狀態(tài)進(jìn)行估計(jì)來(lái)求取觀測(cè)誤差。
除了目標(biāo)狀態(tài)的估計(jì)會(huì)影響目標(biāo)預(yù)測(cè)中的野值剔除性能,不同的野值剔除準(zhǔn)則也會(huì)影響野值剔除的性能。例如,在某些情況下,即使一些比較公認(rèn)的野值判別準(zhǔn)則有時(shí)也會(huì)把一些非野值點(diǎn)誤判為野值,相反在另外一些情況下這些準(zhǔn)則對(duì)一些野值點(diǎn)反而不能有效地剔除[3[。比較實(shí)用的準(zhǔn)則是根據(jù)具體的情況,選擇合適的判別準(zhǔn)則使得在野值的剔除率和誤剔除率之間取得一個(gè)較好的平衡。
目標(biāo)觀測(cè)中野值分為孤立型野值和斑點(diǎn)型野值。孤立型野值是指野值點(diǎn)不是連續(xù)出現(xiàn)的,斑點(diǎn)型野值點(diǎn)是指野值成片出現(xiàn)的野值。本文主要針對(duì)孤立型的野值點(diǎn)。
目標(biāo)預(yù)測(cè)中最常用也是最簡(jiǎn)單的判別野值的準(zhǔn)則是萊特準(zhǔn)則,也稱3σ準(zhǔn)則。
對(duì)于某一量測(cè)列,若量測(cè)只含有隨機(jī)誤差,則根隨機(jī)誤差的正態(tài)分布規(guī)律,其殘余誤差落在±3σ以外的概率約為 0.3%,若發(fā)現(xiàn)有大于3σ得殘余誤差的量測(cè)值,則可以認(rèn)為該點(diǎn)是一個(gè)野值點(diǎn),應(yīng)予剔除。但存在如下一些問(wèn)題:
1)3σ準(zhǔn)則假定所有的觀測(cè)樣本的服從于同一個(gè)正態(tài)分布,在測(cè)量次數(shù)充分大的情況下,通過(guò)大量的樣本所求的樣本標(biāo)準(zhǔn)差s近似等于測(cè)量誤差的標(biāo)準(zhǔn)差σ。但是,在目標(biāo)跟蹤中,存在兩個(gè)主要的因素導(dǎo)致實(shí)際情況不能滿足該前提條件。
在目標(biāo)預(yù)測(cè)中,由于目標(biāo)的運(yùn)動(dòng)可能導(dǎo)致觀測(cè)距離和觀測(cè)環(huán)境會(huì)發(fā)生改變,觀測(cè)的精度就會(huì)發(fā)生變化。所以,傳感器的觀測(cè)誤差的標(biāo)準(zhǔn)差可能是變化的,在不同時(shí)間段可能服從不同的分布。另一個(gè)原因是,目標(biāo)當(dāng)前時(shí)刻的狀態(tài)估計(jì)是不準(zhǔn)確的。例如,在相同的觀測(cè)精度下,在目標(biāo)勻速直線運(yùn)動(dòng)階段,狀態(tài)估計(jì)相對(duì)更準(zhǔn)確,這一過(guò)程統(tǒng)計(jì)的標(biāo)準(zhǔn)差就會(huì)相對(duì)小。而目標(biāo)發(fā)生機(jī)動(dòng)時(shí),狀態(tài)估計(jì)可能會(huì)以某種規(guī)律存在一個(gè)規(guī)律性偏差,那么這一階段統(tǒng)計(jì)的樣本標(biāo)準(zhǔn)差可能會(huì)比較大。因此,3σ準(zhǔn)則在目標(biāo)跟蹤中的應(yīng)用只是一個(gè)近似的準(zhǔn)則。
2)標(biāo)準(zhǔn)的3σ準(zhǔn)則判別公式為
目前在目標(biāo)跟蹤中3σ準(zhǔn)則的應(yīng)用形式為
式中,σ為已知的觀測(cè)誤差總體標(biāo)準(zhǔn)差。
奈爾推導(dǎo)證明出統(tǒng)計(jì)量r的分布函數(shù)為
奈爾檢驗(yàn)的臨界值見(jiàn)文獻(xiàn)[4]。選定顯著性水平α,由n查表確定臨界值R(α,n),可以得到
因此有如下的判別準(zhǔn)則:若統(tǒng)計(jì)量
則認(rèn)為對(duì)應(yīng)的觀測(cè)值xi為野值,應(yīng)予剔除;否則為正常值,保留在觀測(cè)數(shù)據(jù)中。
由于目標(biāo)的運(yùn)動(dòng)是連續(xù)的,因此在一段時(shí)間tm內(nèi),觀測(cè)環(huán)境可以近似認(rèn)為是不變的。雷達(dá)的觀測(cè)精度也可近似認(rèn)為是恒定的。在時(shí)間tm內(nèi),雷達(dá)的觀測(cè)誤差可認(rèn)為服從同一個(gè)概率分布。如果用tm時(shí)間內(nèi)的樣本來(lái)統(tǒng)計(jì)樣本標(biāo)準(zhǔn)差,則能夠更真實(shí)地反映當(dāng)前時(shí)刻的觀測(cè)誤差標(biāo)準(zhǔn)差。
而在小樣本情況下,觀測(cè)誤差已經(jīng)不再服從正態(tài)分布。下面格拉布斯[5]推導(dǎo)出了在小樣本條件下,觀測(cè)誤差的概率分布情況。
式中,
格拉布斯推導(dǎo)出了統(tǒng)計(jì)量g的理論分布[1]。
格拉布斯的臨界表可參見(jiàn)文獻(xiàn)[4]。選定顯著性水平α,由樣本數(shù)n查表確定臨界值G(α,n),可以得到
格拉布斯判別準(zhǔn)則如下:若統(tǒng)計(jì)量
則認(rèn)為對(duì)應(yīng)的觀測(cè)值xi為野值,應(yīng)予剔除;否則為正常值,保留在觀測(cè)數(shù)據(jù)中。
統(tǒng)計(jì)分析表明:對(duì)于測(cè)量樣本在n=30~50時(shí),用格拉布斯準(zhǔn)則效果較好,可靠性較高[6]。樣本標(biāo)準(zhǔn)差s只用最近n個(gè)濾波值進(jìn)行統(tǒng)計(jì),然后根據(jù)樣本數(shù)和顯著性水平α確定判別門限。
在實(shí)際工程應(yīng)用中,由于濾波器的性能和雷達(dá)的探測(cè)精度等因素的不同,統(tǒng)計(jì)的樣本數(shù)n和顯著性水平α可以根據(jù)實(shí)際情況而確定。
狄克遜準(zhǔn)則[8]是直接根據(jù)測(cè)得值的順序統(tǒng)計(jì)量,采用極差比的方法里判別可疑數(shù)據(jù)是否為異常值的,避免了數(shù)據(jù)列的算術(shù)平均值、殘余誤差和標(biāo)準(zhǔn)差反復(fù)計(jì)算。在本文中,我們選擇觀測(cè)樣本數(shù)n=20,則有觀測(cè)誤差序列:
首先對(duì)觀測(cè)誤差序列進(jìn)行從小到大排序,形成新的觀測(cè)誤差序列:按照判斷待檢驗(yàn)觀測(cè)誤差是否是最大值或最小值。
如果待檢驗(yàn)的觀測(cè)誤差是最大值,則構(gòu)造統(tǒng)計(jì)量:
如果待檢驗(yàn)的觀測(cè)誤差是最小值,則構(gòu)造統(tǒng)計(jì)量
狄克遜推導(dǎo)出了這些統(tǒng)計(jì)量的分布函數(shù)[10],并給出了計(jì)算的臨界表[4]。查表得到狄克遜準(zhǔn)則的臨界值D(α,n),則
狄克遜準(zhǔn)則的判別公式如下:若統(tǒng)計(jì)量
則認(rèn)為對(duì)應(yīng)的觀測(cè)值xi為野值,應(yīng)予剔除;否則為正常值,保留在觀測(cè)數(shù)據(jù)中。
在標(biāo)準(zhǔn)差已知時(shí),通常采用奈爾準(zhǔn)則;標(biāo)準(zhǔn)差未知時(shí),采用3σ準(zhǔn)則、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則和精細(xì)準(zhǔn)則;格拉布斯布斯準(zhǔn)在在測(cè)量樣本n=30~50時(shí)效果較好,可靠性較高;若需要迅速判別野值,可以選用狄克遜準(zhǔn)則[4[。
針對(duì)單部雷達(dá)觀測(cè)空中目標(biāo)的情況進(jìn)行目標(biāo)航跡預(yù)測(cè),雷達(dá)的探測(cè)精度設(shè)置為80m和0.5deg。劇情一:目標(biāo)在距離雷達(dá)50km處以300m/s的速度做運(yùn)動(dòng)半徑為10km圓弧運(yùn)動(dòng);劇情二:目標(biāo)先勻速直線運(yùn)動(dòng),在距離觀測(cè)雷達(dá)10km處開(kāi)始比例導(dǎo)引運(yùn)動(dòng)。
每條觀測(cè)航跡中隨機(jī)地加入5個(gè)野值點(diǎn)。假設(shè)觀測(cè)誤差服從正態(tài)分布,根據(jù)正態(tài)分布的統(tǒng)計(jì)特性可知,觀測(cè)誤差大于 3倍標(biāo)準(zhǔn)差的觀測(cè)值出現(xiàn)的概率只有0.27%。從統(tǒng)計(jì)學(xué)的角度而言,這是一個(gè)小概率事件,基本上不會(huì)發(fā)生,一旦發(fā)生可認(rèn)為該觀測(cè)值為野值。本文隨機(jī)的選擇五個(gè)真實(shí)狀態(tài),在其上加或減 3~10倍的標(biāo)準(zhǔn)差作為觀測(cè)值,則這5個(gè)觀測(cè)點(diǎn)即是觀測(cè)數(shù)據(jù)中的野值點(diǎn)。
在以上的劇情條件下,本文選擇基于當(dāng)前統(tǒng)計(jì)模型的標(biāo)準(zhǔn)卡爾曼濾波器估計(jì)目標(biāo)當(dāng)前狀態(tài),機(jī)動(dòng)頻率設(shè)為1/60。目標(biāo)預(yù)測(cè)的方法采用常用的二次多項(xiàng)式擬合外推預(yù)測(cè),預(yù)測(cè)時(shí)間為1s。
野值剔除性能主要通過(guò)以下兩個(gè)指標(biāo)驗(yàn)證:一是野值的漏剔除率,如果觀測(cè)數(shù)據(jù)中含有未被剔除的野值,會(huì)大大影響目標(biāo)預(yù)測(cè)的精度,從圖1(a)中可以看出,因此野值的漏剔除現(xiàn)象會(huì)影響目標(biāo)預(yù)測(cè)的穩(wěn)健性;二是野值的誤剔除率。有些野值剔除準(zhǔn)則會(huì)將一些隨機(jī)誤差當(dāng)成野值剔除,這就造成觀測(cè)數(shù)據(jù)中的有效信息損失。在目標(biāo)狀態(tài)估計(jì)不精確的情況下,野值的誤剔除很容易將目標(biāo)的機(jī)動(dòng)誤判為野值,這將對(duì)目標(biāo)預(yù)測(cè)精度造成很大的損失。因此這兩個(gè)指標(biāo)能夠較好的反應(yīng)準(zhǔn)則的野值剔除能力。
目標(biāo)預(yù)測(cè)精度的指標(biāo)為整條航路預(yù)測(cè)誤差的均值。
1)目標(biāo)圓弧運(yùn)動(dòng),單次運(yùn)行結(jié)果
從圖1(a)中看出在野值未剔除的情況下,目標(biāo)的預(yù)測(cè)航跡受到了野值的嚴(yán)重影響;圖1(b)中觀測(cè)數(shù)據(jù)經(jīng)過(guò)格拉布斯準(zhǔn)則將野值剔除,因此預(yù)測(cè)航跡相對(duì)更平滑更接近真實(shí)狀態(tài),預(yù)測(cè)的精度遠(yuǎn)遠(yuǎn)大于野值未剔除的情況。
2)目標(biāo)比例導(dǎo)引運(yùn)動(dòng),單次運(yùn)行結(jié)果
目標(biāo)在比例導(dǎo)引運(yùn)動(dòng)時(shí),野值如果不進(jìn)行剔除處理同樣會(huì)大大降低目標(biāo)預(yù)測(cè)的精度,甚至導(dǎo)致預(yù)測(cè)值是無(wú)效的,從圖2(a)中可以看出。圖2(b)中野值剔除后,由于目標(biāo)距離近,觀測(cè)精度高,因此預(yù)測(cè)的精度很高。
圖1(a)野值未剔除的預(yù)測(cè)航跡
圖2(a)野值未剔除的預(yù)測(cè)航跡
3)野值剔除性能分析
設(shè)定野值剔除的判別顯著性水平α為 1%,仿真結(jié)果如表1所示。
表1 目標(biāo)圓弧運(yùn)動(dòng),運(yùn)行200次統(tǒng)計(jì)結(jié)果
從表1可以看出,目標(biāo)做圓弧運(yùn)動(dòng)時(shí)傳統(tǒng)的3σ準(zhǔn)則雖然能將野值剔除但野值的誤剔除率較高;狄克遜準(zhǔn)則野值的誤剔除率較低但存在野值漏剔除的現(xiàn)象;奈爾準(zhǔn)則性能最好,但要求觀測(cè)誤差的分布精確已知且要求目標(biāo)狀態(tài)估計(jì)準(zhǔn)確;格拉布斯準(zhǔn)則能能夠?qū)⒁爸堤蕹艺`剔除率保持在一個(gè)較低的水平。
表2 目標(biāo)比例導(dǎo)引運(yùn)動(dòng),運(yùn)行200次統(tǒng)計(jì)結(jié)果
目標(biāo)在做比例導(dǎo)引運(yùn)動(dòng)時(shí)觀測(cè)距離較近,因此觀測(cè)精度較高,目標(biāo)狀態(tài)估計(jì)的就相對(duì)精確,普遍提高了野值的剔除的性能。從表2看出,3σ準(zhǔn)則出現(xiàn)了野值的漏剔除現(xiàn)象。這是因?yàn)殡S著目標(biāo)的靠近,觀測(cè)誤差的標(biāo)準(zhǔn)差逐漸減小,而3σ準(zhǔn)則統(tǒng)計(jì)的誤差標(biāo)準(zhǔn)差大于實(shí)際的標(biāo)準(zhǔn)差,因此誤剔除率較低,同時(shí)出現(xiàn)了漏剔除的現(xiàn)象。狄克遜準(zhǔn)則仍然存在漏剔除的現(xiàn)象。格拉布斯準(zhǔn)則沒(méi)有出現(xiàn)野值漏剔除的現(xiàn)象,誤剔除率保持在一個(gè)較低的水平,具有較好的野值剔除性能。
4)目標(biāo)預(yù)測(cè)精度分析
表3 目標(biāo)預(yù)測(cè)誤差的統(tǒng)計(jì)結(jié)果
從表3中首先可以看出一個(gè)明顯的現(xiàn)象:觀測(cè)數(shù)據(jù)進(jìn)行野值剔除處理后大大提高了目標(biāo)預(yù)測(cè)的精度。各個(gè)野值剔除準(zhǔn)則處理后目標(biāo)預(yù)測(cè)的精度也是不同的,3σ準(zhǔn)則野值的誤剔除率較高,有時(shí)會(huì)出現(xiàn)漏剔除現(xiàn)象,目標(biāo)預(yù)測(cè)誤差大于格拉布斯準(zhǔn)則;奈爾準(zhǔn)則野值剔除的性能最好因此目標(biāo)預(yù)測(cè)的精度最高,但要求觀測(cè)誤差分布已知且目標(biāo)狀態(tài)估計(jì)要精確,實(shí)際中很難達(dá)到這樣的條件;格拉布斯準(zhǔn)則應(yīng)用條件比較寬松便于實(shí)際應(yīng)用,且具有較好的野值剔除性能,相對(duì)于3σ準(zhǔn)則和狄克遜準(zhǔn)則能取得更好的預(yù)測(cè)精度。因此在目標(biāo)預(yù)測(cè)的預(yù)處理過(guò)程中,采用格拉布斯準(zhǔn)則是比較合理的選擇。
野值剔除的性能會(huì)影響目標(biāo)預(yù)測(cè)的精度。本文首先對(duì)目標(biāo)預(yù)測(cè)中野值剔除問(wèn)題和傳統(tǒng)的的剔除方法進(jìn)行了分析,引入了誤差理論中幾種常用的野值剔除準(zhǔn)則,并將其應(yīng)用于目標(biāo)預(yù)測(cè)中的預(yù)處理。通過(guò)仿真算例表明,利用野值剔除準(zhǔn)則將觀測(cè)數(shù)據(jù)中的野值剔除后能大大提高目標(biāo)預(yù)測(cè)的精度。不同的野值剔除準(zhǔn)則對(duì)目標(biāo)預(yù)測(cè)精度的影響也是不同的:傳統(tǒng)的3σ準(zhǔn)則野值誤剔除率較高且某些情況下存在漏剔除的情況,目標(biāo)預(yù)測(cè)的精度要低于其他幾種準(zhǔn)則;在觀測(cè)誤差標(biāo)準(zhǔn)差能夠獲知且目標(biāo)狀態(tài)估計(jì)準(zhǔn)確的情況下,奈爾準(zhǔn)則能夠獲得較好的野值剔除效果和最高的目標(biāo)預(yù)測(cè)精度,但這些前提條件在實(shí)際中很難滿足;格拉布斯準(zhǔn)則沒(méi)有出現(xiàn)野值漏剔除的現(xiàn)象且誤剔除率保持一個(gè)較低的水平,野值剔除的綜合性能較好,目標(biāo)預(yù)測(cè)的精度高于3σ準(zhǔn)則和狄克遜準(zhǔn)則;狄克遜準(zhǔn)則存在野值漏剔除的現(xiàn)象,不能保證預(yù)測(cè)的穩(wěn)健性,因此統(tǒng)計(jì)的預(yù)測(cè)精度較差;綜合比較,格拉布斯準(zhǔn)則由于具有較好的野值剔除性能,是目標(biāo)預(yù)測(cè)預(yù)處理中一種比較理想的野值剔除準(zhǔn)則。
[1]費(fèi)業(yè)泰.誤差理論與數(shù)據(jù)處理[M].合肥:合肥工業(yè)大學(xué)出版社,2005.
[2]Barnett,V..T. Lewis. Outliers in Statistical Data[M]. 2nded. New York: John Wiley & Sons. A well-Written Comprehensive Text on outliers,1984.
[3]Boris Iglewicz, David C. Hoaglin, How to Detect and Handle Outliers[M]. ASQ (American Society for Quality Statistics Division),1993.
[4]王中宇,劉智敏,夏新濤,等.測(cè)量誤差與不確定度評(píng)定[M].北京:科學(xué)出版社,2008.
[5]Grubbs F E. Sample Criteria Testing Outlying Observations[J]. The Annals of Mathematical Statistics,1951, 22(1):68-78.
[6]沙定國(guó).誤差理論與數(shù)據(jù)處理[M].北京:北京理工大學(xué)出版社,1993.
[7]金學(xué)軍.基于最小二乘擬合的外彈道測(cè)量數(shù)據(jù)野值剔除方法[J].四川兵工學(xué)報(bào),2011,32(1).
[8]劉智敏.計(jì)量常用數(shù)學(xué)基礎(chǔ)[M].北京:中國(guó)計(jì)量出版社,1997.
[9]BIPM, IEC, IFCC, et al. Guide to the Expression of Uncertainty in Measurement[D].Switzerland:ISO,1995.
[10]劉智敏,陳坤堯,翁懷真,等.測(cè)量不確定度手冊(cè)[M].北京:中國(guó)計(jì)量出版社,1997.