魏浩然
(四川大學(xué)國(guó)家空管自動(dòng)化系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,成都 610065)
數(shù)據(jù)有效性分析是數(shù)據(jù)挖掘中的一個(gè)重要方面,用來(lái)發(fā)現(xiàn)“小的模式”,即數(shù)據(jù)集中顯著不同于其他數(shù)據(jù)的對(duì)象,在很多領(lǐng)域都有其應(yīng)用,如氣象預(yù)報(bào)、金融領(lǐng)域、網(wǎng)絡(luò)入侵檢測(cè)、藥物研究,等等。對(duì)數(shù)據(jù)集進(jìn)行有效性分析,能夠找出那些異常的噪聲數(shù)據(jù),降低原始數(shù)據(jù)中的勘誤影響,提高數(shù)據(jù)質(zhì)量,從而提高計(jì)算精度。文獻(xiàn)[1]將數(shù)據(jù)有效性分析應(yīng)用到計(jì)算語(yǔ)言清晰度的實(shí)驗(yàn)中,并且對(duì)比了三種有效性檢驗(yàn)方法的檢驗(yàn)效果。文獻(xiàn)[2]采用C4.5算法定義各個(gè)傳感器所采集數(shù)據(jù)對(duì)目標(biāo)傳感器的支持度以決定目標(biāo)傳感器數(shù)據(jù)的有效性,結(jié)果表明,該算法能準(zhǔn)確判斷目標(biāo)傳感器數(shù)據(jù)的有效性和故障傳感器在時(shí)域中發(fā)生的位置。文獻(xiàn)[3]給出了仿真模型確認(rèn)中的若干種數(shù)據(jù)有效性分析方法,用來(lái)保證仿真數(shù)據(jù)的正確性和可信度。文獻(xiàn)[4]提出一種基于自適應(yīng)閾值的軌跡異常點(diǎn)檢測(cè)算法,有效檢測(cè)出全部異常點(diǎn),大幅度提高軌跡數(shù)據(jù)的質(zhì)量。文獻(xiàn)[5]系統(tǒng)地對(duì)目前國(guó)內(nèi)外異常點(diǎn)檢測(cè)算法進(jìn)行了較為全面的闡述,并就這些算法在數(shù)據(jù)流挖掘中的可用性進(jìn)行了研究與探討。
針對(duì)多源航跡融合過(guò)程中的數(shù)據(jù)特性,本文考慮將數(shù)據(jù)有效性分析環(huán)節(jié)加入其中,通過(guò)基于距離的方法,檢測(cè)并處理融合數(shù)據(jù)集中的異常數(shù)據(jù),以提高融合結(jié)果的準(zhǔn)確性。
多源航跡融合摒棄了單一傳感器局限且不穩(wěn)定的缺點(diǎn),通過(guò)對(duì)同一目標(biāo)的多個(gè)觀測(cè)值進(jìn)行歸納、綜合,實(shí)現(xiàn)對(duì)目標(biāo)更精確的識(shí)別,其處理過(guò)程[6]通常包含以下幾個(gè)重要步驟:
(1)時(shí)空配準(zhǔn):從時(shí)間角度說(shuō),由于各傳感器掃描周期不同,即便周期相同傳感器位置不同各自所掃描到的目標(biāo)時(shí)間也都不同,所以要將各個(gè)傳感器報(bào)告的位置數(shù)據(jù)外推到同一時(shí)間點(diǎn)。從空間角度來(lái)說(shuō),每個(gè)傳感器可能報(bào)告大地坐標(biāo)、極坐標(biāo)、直角坐標(biāo),坐標(biāo)中心也有可能不同,融合之前需要將這些位置數(shù)據(jù)換算到同一公共坐標(biāo)系下。
(2)數(shù)據(jù)關(guān)聯(lián):其目的是為了尋找量測(cè)值之間的聯(lián)系,通過(guò)數(shù)據(jù)關(guān)聯(lián)我們可以將來(lái)自不同傳感器的同一目標(biāo)的位置信息進(jìn)行匹配,保證后續(xù)融合處理的合理性與正確性。
(3)融合估計(jì):將融合關(guān)聯(lián)表中的各個(gè)位置信息納入計(jì)算,通過(guò)某種算法得出最終的狀態(tài)估計(jì)值,常見(jiàn)的航跡融合算法有加權(quán)平均融合法、自適應(yīng)加權(quán)平均融合法等。
通過(guò)上述流程可以將來(lái)不同雷達(dá)探測(cè)到的來(lái)自同一目標(biāo)數(shù)據(jù)的進(jìn)行綜合,從而得到該目標(biāo)更確的狀態(tài)。
融合估計(jì)的要點(diǎn)是要求參與估計(jì)的信息盡量準(zhǔn)確,任何一個(gè)誤差大的觀測(cè)值都會(huì)對(duì)目標(biāo)飛行狀態(tài)的估計(jì)產(chǎn)生影響。一方面,由于環(huán)境的復(fù)雜性和信號(hào)的不穩(wěn)定性,傳感器本身報(bào)告的目標(biāo)位置信息可能存在較大的誤差,另一方面,經(jīng)過(guò)目標(biāo)跟蹤模塊形成的航跡往往是一條鋸齒形的,特別是沒(méi)有經(jīng)過(guò)濾波、平滑處理[7]的航跡,“鋸齒現(xiàn)象”更加突出。若將跟蹤航跡中的這種異常數(shù)據(jù)輸入給多源航跡融合模塊進(jìn)行融合估計(jì),勢(shì)必會(huì)對(duì)融合結(jié)果產(chǎn)生不利影響。如圖1所示。
圖1 某時(shí)刻航跡關(guān)聯(lián)情況
點(diǎn)跡A和點(diǎn)跡B雖然在關(guān)聯(lián)門限內(nèi),但由于是航跡“鋸齒突出”點(diǎn),會(huì)與其他的點(diǎn)跡數(shù)據(jù)相距較遠(yuǎn)。經(jīng)典的加權(quán)平均融合法計(jì)算公式如下:
其中(xi,yi)代表第i個(gè)量測(cè),ri為其權(quán)值。若航跡A、B權(quán)值很大的話,那融合估計(jì)結(jié)果受到的影響更大,所以消除這種異常位置數(shù)據(jù)十分有必要。
對(duì)于上述問(wèn)題,我們需要一種有效的方法去檢測(cè)數(shù)據(jù)集中可能存在的異常值。在統(tǒng)計(jì)學(xué)中,數(shù)據(jù)有效性檢測(cè)最常用的方法就是標(biāo)準(zhǔn)差檢驗(yàn)法[8],用不一致性來(lái)測(cè)試識(shí)別異常。
假設(shè)在本周期有n個(gè)點(diǎn)跡數(shù)據(jù)加入到融合列表中。(Xi,Yi)為第i個(gè)點(diǎn)的位置信息,其中i=1,2,…,n。先計(jì)算這 n個(gè)點(diǎn)的中心位置。
然后再計(jì)算這n個(gè)點(diǎn)到中心點(diǎn)的距離的標(biāo)準(zhǔn)差S。我們將離中心點(diǎn)三倍標(biāo)準(zhǔn)差距離的范圍確定為有效數(shù)據(jù)范圍,落在范圍之外的位置數(shù)據(jù)為異常數(shù)據(jù)。標(biāo)準(zhǔn)差檢驗(yàn)法簡(jiǎn)單、常用,但有效性檢測(cè)的精度不高,效果一般,并且必須保證數(shù)據(jù)集符合某種特定分布才行,具有局限性。
基于距離的方法是最先由Knorr和Ng[9]提出,其對(duì)異常點(diǎn)數(shù)據(jù)判定規(guī)則為:數(shù)據(jù)集T中的一個(gè)對(duì)象O稱為異常點(diǎn),如果它滿足下列性質(zhì):數(shù)據(jù)集T中至少p*100%的對(duì)象與O的距離大于D。其實(shí)現(xiàn)算法流程如下:
該算法的重點(diǎn)是需要不斷調(diào)整參數(shù)D和p,尋找一個(gè)合適的值,使其符合實(shí)際場(chǎng)景。若r偏大,會(huì)檢測(cè)不出異常點(diǎn);若r偏小,則可能把大部分?jǐn)?shù)據(jù)都檢測(cè)為異常點(diǎn)。參數(shù)的可調(diào)整性使得基于距離的檢測(cè)方法能應(yīng)用于不同場(chǎng)景。
檢測(cè)出異常點(diǎn)后,我們需要考慮如何處理這些異常數(shù)據(jù),一般有鄰值替代法,均值替代法或者直接剔除法[10]等。直接剔除法最為簡(jiǎn)單(后續(xù)實(shí)驗(yàn)中若不另外強(qiáng)調(diào),默認(rèn)采用直接剔除法),但是沒(méi)有考慮到某些特殊場(chǎng)景,可能確實(shí)存在目標(biāo)緊急情況下偏離軌跡的情況,異常點(diǎn)數(shù)據(jù)一定程度上也代表著真實(shí)數(shù)據(jù)可能偏向某一方的特性,所以理論上鄰值替代法會(huì)更加適合,即選擇一個(gè)離它距離最近的點(diǎn)進(jìn)行替換。一方面,替代點(diǎn)與異常點(diǎn)距離最接近,替代前后引起的誤差最小,另一方面,替代數(shù)據(jù)與異常數(shù)據(jù)具有相似性質(zhì),都是樣本域的邊界點(diǎn)。因此,采用鄰近點(diǎn)數(shù)據(jù)替代異常數(shù)據(jù)是一種較好的處理方法。
用δ2代表報(bào)告位置與真實(shí)位置的距離方差,則δ2衡量了數(shù)據(jù)源的穩(wěn)定性,δ2越大的航跡越容易出現(xiàn)鋸齒點(diǎn),δ2越小的航跡越貼近于真實(shí)軌跡。本實(shí)驗(yàn)?zāi)M了12部雷達(dá)在同一時(shí)間段下對(duì)同一目標(biāo)進(jìn)行跟蹤,總共持續(xù) 30個(gè)周期,δ2分別為(24.6,1.9,3.2,3.1,2.5,3.4,6.2,3.1,2.7,5.0,2.2,25.1)。
實(shí)驗(yàn)假設(shè)這12條模擬航跡都位于同一目標(biāo)的關(guān)聯(lián)航跡列表中,原始的方法只需把同一個(gè)周期內(nèi)的12個(gè)點(diǎn)跡進(jìn)行融合即可,改進(jìn)過(guò)的方法則需要在融合之前對(duì)這些點(diǎn)跡數(shù)據(jù)進(jìn)行異常點(diǎn)檢測(cè)、處理。
我們?cè)谕粓?chǎng)景下進(jìn)行了15次實(shí)驗(yàn),比較原始處理方法、標(biāo)準(zhǔn)差檢驗(yàn)法、基于距離的檢驗(yàn)方法(在r=8,p=60%的情況下)三種處理方式下的最終融合效果。檢測(cè)到異常點(diǎn)后將其直接剔除。15次實(shí)驗(yàn)的結(jié)果如圖2所示。
圖2 三種方法的融合結(jié)果誤差比較
折線圖中的每一個(gè)點(diǎn)代表著某一次實(shí)驗(yàn)下30個(gè)周期內(nèi)融合結(jié)果與真值距離誤差的平方和。從圖2中可以看出,在大多數(shù)情況下,加入了數(shù)據(jù)有效性分析環(huán)節(jié)的融合算法計(jì)算出的結(jié)果與真值的誤差更小,并且,基于距離的方法檢驗(yàn)效果要強(qiáng)于標(biāo)準(zhǔn)差檢驗(yàn)法。
為了驗(yàn)證哪一種異常點(diǎn)處理方式更合適,我們?cè)诨诰嚯x的異常點(diǎn)檢測(cè)方法下,對(duì)異常點(diǎn)分別進(jìn)行了均值替代、直接剔除和鄰值替代三種處理,15次實(shí)驗(yàn)對(duì)比結(jié)果如圖3所示。分析可知,80%的情況下,采用鄰近點(diǎn)替代異常點(diǎn)后,融合計(jì)算出的結(jié)果與真實(shí)位置的誤差最小,而均值替代的誤差介于直接剔除法和鄰值替代法之間,直接剔除法的總體誤差最大。
圖3 三種異常點(diǎn)處理方法誤差比較
本文從提高融合結(jié)果精度的角度出發(fā),提出了一種加入異常點(diǎn)檢測(cè)、處理的改進(jìn)融合算法,并對(duì)數(shù)據(jù)有效性檢驗(yàn)方法、異常點(diǎn)的處理方法作出了對(duì)比和分析,實(shí)驗(yàn)結(jié)果表明,對(duì)于多源航跡融合,加入了異常點(diǎn)檢測(cè)、處理環(huán)節(jié)的改進(jìn)融合算法比傳統(tǒng)融合算法的融合計(jì)算結(jié)果更加接近于真實(shí)值,并且基于距離的檢測(cè)法要比一般的標(biāo)準(zhǔn)差檢驗(yàn)法檢測(cè)效果要好。在異常點(diǎn)處理方面,建議采用鄰值替代法。