汝小虎柳 征 姜文利 黃知濤
(國(guó)防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院 長(zhǎng)沙 410073)
帶虛警抑制的基于歸一化殘差的野值檢測(cè)方法
汝小虎*柳 征 姜文利 黃知濤
(國(guó)防科學(xué)技術(shù)大學(xué)電子科學(xué)與工程學(xué)院 長(zhǎng)沙 410073)
野值檢測(cè),或稱(chēng)異常值檢測(cè)是模式識(shí)別和知識(shí)發(fā)現(xiàn)中一個(gè)重要的問(wèn)題。以往的野值檢測(cè)方法難以有效地抑制虛警概率,針對(duì)這一問(wèn)題,該文提出一種帶監(jiān)督情形下基于歸一化殘差(Normalized Residual, NR)的野值檢測(cè)方法。首先利用訓(xùn)練樣本計(jì)算待考查模式的NR值,其次比較NR值與野值檢測(cè)門(mén)限的相對(duì)大小,從而判斷待考查模式是否為野值。該文理論上推導(dǎo)了野值門(mén)限與虛警概率之間的關(guān)系表達(dá)式,以此為依據(jù)設(shè)置檢測(cè)門(mén)限,可實(shí)現(xiàn)在少量訓(xùn)練樣本情況下仍能抑制虛警率的目的。計(jì)算機(jī)仿真和實(shí)測(cè)數(shù)據(jù)測(cè)試驗(yàn)證了所提方法在野值檢測(cè)和虛警抑制方面的優(yōu)越性能。
模式識(shí)別;監(jiān)督;野值檢測(cè);虛警概率;歸一化殘差
野值定義為這樣的樣本,它偏離其他模式太遠(yuǎn)以至于可認(rèn)為它是由不同機(jī)制產(chǎn)生的[1]。野值檢測(cè)被廣泛應(yīng)用于模式識(shí)別,知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘中,具體的問(wèn)題如視頻監(jiān)控,計(jì)算機(jī)入侵檢測(cè),特定輻射源確認(rèn)(Specific Emitter Verification, SEV)[2],混合標(biāo)記數(shù)據(jù)集中的穩(wěn)健分類(lèi)[3]以及粒子圖像測(cè)速(Particle Image Velocimetry, PIV)數(shù)據(jù)中的奇異值檢測(cè)[4,5]等。
不同的應(yīng)用背景一般會(huì)有不同的野值檢測(cè)技術(shù)[6-8],而以野值檢測(cè)方法的種類(lèi)進(jìn)行區(qū)分,可主要分為基于概率分布的[3],基于深度的[9],基于距離的[10-14],基于密度的[15]和基于聚類(lèi)的[16-18]方法;以是否利用訓(xùn)練樣本進(jìn)行區(qū)分,可分為帶監(jiān)督的和無(wú)監(jiān)督的方法。針對(duì)帶監(jiān)督的野值檢測(cè)問(wèn)題,文獻(xiàn)[16]提出了基于單類(lèi)支持向量機(jī)(Support Vector Machine, SVM)的野值檢測(cè)方法,該方法將樣本映射到高維核空間,利用訓(xùn)練樣本建立超平面決策界,測(cè)試時(shí)把位于界外的樣本判為野值。文獻(xiàn)[17]引入動(dòng)態(tài)學(xué)習(xí)的思想,實(shí)現(xiàn)了訓(xùn)練樣本較少情況下超平面界的迭代擴(kuò)張。文獻(xiàn)[18]擴(kuò)展了單類(lèi)SVM,對(duì)多類(lèi)情形實(shí)現(xiàn)了穩(wěn)健分類(lèi)和野值檢測(cè)。但是這些方法存在一個(gè)共同的不足,即無(wú)法控制虛警概率。文獻(xiàn)[12-14]提出了局部化 p值估計(jì)(Localized P-value Estimation, LPE)的方法,該方法利用訓(xùn)練樣本計(jì)算某種統(tǒng)計(jì)量G,通過(guò)比較考查模式和訓(xùn)練樣本G值的相對(duì)大小得到p值的估計(jì),如果p值大于指定的虛警率水平則將考查模式判為野值。若訓(xùn)練樣本足夠并且野值滿(mǎn)足均勻分布假設(shè),LPE方法可控制虛警率,同時(shí)實(shí)現(xiàn)一致最大勢(shì)(Uniformly Most Powerful, UMP)檢驗(yàn),但是當(dāng)訓(xùn)練樣本較少時(shí)該方法仍然難以抑制虛警率。文獻(xiàn)[4,5,10]提出了基于歸一化殘差(Normalized Residual, NR)的野值檢測(cè)方法。待考查模式的殘差定義為該模式與其近鄰模式間的距離,這一距離與近鄰模式內(nèi)部距離的比值稱(chēng)為模式的NR值。如果該值大于預(yù)先設(shè)定的野值門(mén)限則將待考查模式判為野值,否則認(rèn)為其為正常模式。野值門(mén)限大小的設(shè)置往往依賴(lài)于經(jīng)驗(yàn),雖然選擇較大的門(mén)限可以降低虛警率,但是其具體的對(duì)應(yīng)關(guān)系仍然未見(jiàn)報(bào)道。
針對(duì)前述文獻(xiàn)中方法存在的不足,本文將以往基于NR的野值檢測(cè)轉(zhuǎn)化為帶監(jiān)督的情形,提出一種能有效抑制虛警概率的野值檢測(cè)方法。為便于理論分析,在計(jì)算待考查模式的NR值方面,本文用隨機(jī)選擇的部分訓(xùn)練樣本代替近鄰模式作為計(jì)算的依據(jù)。在野值檢測(cè)門(mén)限設(shè)置方面,本文根據(jù)重新定義的 NR,從理論上推導(dǎo)野值門(mén)限與虛警率之間的關(guān)系表達(dá)式,以此為依據(jù)設(shè)置門(mén)限的大小。此外,為了使檢測(cè)方法更加穩(wěn)健,本文多次從訓(xùn)練樣本中隨機(jī)選擇部分樣本,計(jì)算得到多個(gè)NR值,之后將這些值的平均與野值門(mén)限進(jìn)行比較,由此判斷出待考查模式是否為野值。仿真實(shí)驗(yàn)和實(shí)測(cè)數(shù)據(jù)測(cè)試發(fā)現(xiàn),本文方法在較少訓(xùn)練樣本情況下能夠更好地抑制虛警率,并且達(dá)到較高的野值檢測(cè)概率,性能優(yōu)于同類(lèi)方法。
本文剩余部分安排如下:第2節(jié)簡(jiǎn)單介紹典型的LPE方法,作為同類(lèi)方法,它會(huì)被用于和本文方法進(jìn)行性能比較;第3節(jié)提出基于NR的野值檢測(cè)方法,包括NR的定義、野值檢測(cè)門(mén)限的理論推導(dǎo)以及具體的方法步驟;第4節(jié)通過(guò)仿真和實(shí)測(cè)數(shù)據(jù)測(cè)試驗(yàn)證本文方法的優(yōu)良性能;最后總結(jié)全文。
文獻(xiàn)[12-14]將野值檢測(cè)轉(zhuǎn)化為二元假設(shè)檢驗(yàn)問(wèn)題,兩種假設(shè)分別為 H0:η ~f0和 H1:η ~f1,其中f1是區(qū)別于 f0的概率密度函數(shù)。帶有虛警抑制的野值檢測(cè)要求概率 P {判 為 H1|H0}≤α,其中α是指定的顯著水平。定義考查模式η的p值函數(shù)為
并假設(shè) f1是均勻分布,那么該二元假設(shè)檢驗(yàn)問(wèn)題的UMP檢驗(yàn)是
由于 f0未知,所以直接計(jì)算式(1)是不可能的。文獻(xiàn)[12-14]基于某種統(tǒng)計(jì)量G,定義
其中I是指示函數(shù),通過(guò) ?p(η)實(shí)現(xiàn)對(duì) p(η)的近似,并證明了這種近似是漸進(jìn)無(wú)偏的。
文獻(xiàn)[12]將統(tǒng)計(jì)量G定義為 G (x )= D(K)(x),即x與它周?chē)?xùn)練樣本第K個(gè)最近的距離,因此被稱(chēng)為 K-LPE方法。文獻(xiàn)[13]定義了新的統(tǒng)計(jì)量 G(x),其中表示向下取整,并在計(jì)算 G時(shí)采用平均的思想,提出了平均 K-LPE(averaged K-LPE,aK-LPE)方法。其基本思路是將訓(xùn)練樣本隨機(jī)平分為兩部分,其中一部分的樣本 xi作為考查模式時(shí),需從另一部分的樣本中尋找其近鄰樣本,計(jì)算得到G值。上述過(guò)程重復(fù)B次,將得到的所有G值取平均作為最后的統(tǒng)計(jì)量結(jié)果 G(xi)。 G(η)的計(jì)算需要首先隨機(jī)選定一半訓(xùn)練樣本,從中選擇η的K個(gè)近鄰樣本,然后通過(guò)類(lèi)似計(jì)算 G(xi)的過(guò)程得到。文獻(xiàn)[14]則實(shí)現(xiàn)了LPE野值檢測(cè)方法速度上的優(yōu)化。
在訓(xùn)練樣本足夠的情況下,式(3)中 ?p(η)對(duì) p(η)會(huì)有較好的近似,但是近似效果會(huì)隨著訓(xùn)練樣本數(shù)的減小而變差,這限制了LPE方法的應(yīng)用。
3.1 歸一化殘差的定義
以往對(duì)歸一化殘差(NR)的計(jì)算[4,5,10]用于解決無(wú)監(jiān)督的野值檢測(cè)問(wèn)題,對(duì)于帶監(jiān)督的情形,本文在文獻(xiàn)[10]的基礎(chǔ)上對(duì)NR進(jìn)行重新定義。從訓(xùn)練樣本集 Xtr中隨機(jī)選擇K個(gè)樣本,k = 1,2,…, K ,那么待考查模式η的NR值可由式(4)計(jì)算得到。
在進(jìn)行野值檢測(cè)時(shí),需要設(shè)置門(mén)限h,如果r > h則認(rèn)為η為野值,否則認(rèn)為 η ~f0為正常模式。以往的研究中對(duì)h的選擇帶有很大的主觀性,一般依據(jù)經(jīng)驗(yàn)設(shè)置為1~4。本文考慮對(duì)虛警率的控制,因此需要對(duì)門(mén)限的設(shè)置進(jìn)行理論推算,將其表示為虛警率的函數(shù)。為便于分析,本文取消加權(quán)因子即設(shè)認(rèn)為所有隨機(jī)選擇的訓(xùn)練樣本對(duì)于判別η是否為野值具有同等的重要性。
3.2 野值門(mén)限的確定
野值門(mén)限的大小與所需的虛警率有關(guān),所以只要分析待考查模式為正常模式的情形即可,即如果正常模式被識(shí)別為野值,則產(chǎn)生虛警。首先考慮高斯白噪聲的情況。設(shè)K個(gè)隨機(jī)選擇的訓(xùn)練樣本為待考查模式為 η= xk=其中 x0是模式的理論值,模式噪聲滿(mǎn)足為噪聲方差。
根據(jù)定義,忽略容差ξ的影響,正常模式 xk的歸一化殘差其中
其中E{·}表示計(jì)算期望。
由式(6)和式(7)可得r分子平方的方差為
下面計(jì)算r分母平方的均值與方差。利用
由式(8)和式(10), r2的分子與分母方差的比值為一般這是個(gè)遠(yuǎn)大于1的數(shù)。所以r2的分母相對(duì)其分子而言較為穩(wěn)定,可將視為常量,其大小為
聯(lián)合式(6),式(8),式(11),可得到正常模式NR值平方的均值和方差:
另外,容易證得 r2服從高斯分布。設(shè)野值檢測(cè)門(mén)限為 h≥ 0,利用r和h的非負(fù)性,可得本文基于NR的野值檢測(cè)方法的虛警概率為
其中 Q{·}是標(biāo)準(zhǔn)高斯分布N(0,1)的右尾概率。
設(shè)所需的虛警概率為 α= Pf,根據(jù)式(14),可得到本文方法在進(jìn)行野值檢測(cè)時(shí)應(yīng)設(shè)置的檢測(cè)門(mén)限大小為
現(xiàn)在考慮色噪聲情形。假設(shè)噪聲的均值為零,可設(shè) εi~N( 0, C),其中C是噪聲的協(xié)方差矩陣,滿(mǎn)足表示共軛轉(zhuǎn)置。假設(shè)C是已知的,或者通過(guò)
近似計(jì)算得到,其中n是訓(xùn)練樣本數(shù),x是所有訓(xùn)練樣本的平均。
將矩陣A作用在所有訓(xùn)練樣本以及待考查模式上,那么計(jì)算NR時(shí)所選訓(xùn)練樣本變?yōu)?Axi=Ax0+ζi,i =1,2,…,K ,待考查模式變?yōu)?Axk= Ax0+ ζk,k >K,其中 ζi=Aεi為變換后的模式噪聲。由于
所以經(jīng)矩陣A變換后模式中的色噪聲變?yōu)楦咚拱自肼暋=?jīng)過(guò)與前文一樣的計(jì)算過(guò)程,可得到相同的分析結(jié)果,即野值門(mén)限與虛警概率的對(duì)應(yīng)關(guān)系式(15)。這樣利用變換矩陣A就可解決色噪聲情形下野值檢測(cè)虛警率的控制問(wèn)題。
需要說(shuō)明的是,在訓(xùn)練樣本數(shù)較少時(shí),協(xié)方差矩陣C難以由訓(xùn)練樣本準(zhǔn)確估計(jì)。此時(shí),可通過(guò)先驗(yàn)信息推算C的大小。一個(gè)可行的策略是根據(jù)原始數(shù)據(jù)中噪聲的分布,以及由數(shù)據(jù)提取訓(xùn)練/測(cè)試樣本時(shí)所采取的方法計(jì)算出樣本噪聲的協(xié)方差矩陣。本文4.2節(jié)進(jìn)行實(shí)測(cè)數(shù)據(jù)測(cè)試時(shí)會(huì)給出這方面的例子。下文均假設(shè)C是先驗(yàn)已知的。
3.3 野值檢測(cè)方法
(1)對(duì)協(xié)方差矩陣C進(jìn)行特征值分解,利用式(17)計(jì)算轉(zhuǎn)換矩陣A,將其作用在訓(xùn)練樣本及待考查模式上,使得樣本中的噪聲被白化。
(2)根據(jù)虛警率 Pf的大小,利用式(15)計(jì)算野值檢測(cè)門(mén)限h。
(3)對(duì)于待考查模式 ηi,在 Xtr中隨機(jī)選擇K個(gè)訓(xùn)練樣本根據(jù)式(4)計(jì)算模式 ηi的NR值 ri。
4.1 計(jì)算機(jī)仿真
考慮到本文在處理色噪聲模式時(shí)可將其白化,所以在仿真實(shí)驗(yàn)中只考查白噪聲的情況。設(shè)正常模式由 x = x0+ε產(chǎn)生,其中 x0是幅度為1,初相為π,2.5倍周期的正弦波, ε ~N( 0, σ2I ),σ2設(shè)為 0.04,所以模式的“信噪比”約為11 dB。野值由 x= y0+ε產(chǎn)生,其中 y0是幅度/初相變化的正弦波或者多項(xiàng)式曲線。
首先驗(yàn)證虛警概率與野值門(mén)限的關(guān)系式(14)的正確性。設(shè)模式維度N為50或200,訓(xùn)練樣本的個(gè)數(shù) n= 60,計(jì)算 NR 值時(shí)選擇的訓(xùn)練樣本數(shù)K= 16,計(jì)算重復(fù)次數(shù) B= 10。另產(chǎn)生1000個(gè)正常模式和500個(gè)野值模式作為測(cè)試樣本,蒙特卡洛仿真500次,得到的結(jié)果如圖1所示。可以看出,隨著野值檢測(cè)門(mén)限的增加,虛警概率逐漸變小。本文理論推算的 Pf-h關(guān)系式(式(14))與實(shí)驗(yàn)結(jié)果吻合得很好,尤其是當(dāng)模式維數(shù)較高時(shí)二者幾乎一致,說(shuō)明本文野值門(mén)限理論推導(dǎo)結(jié)果的正確性。
其次考查參數(shù)設(shè)置對(duì)本文方法虛警抑制效果的影響。固定虛警概率 Pf= 0.05,分別改變所選訓(xùn)練樣本數(shù)K和重復(fù)計(jì)算次數(shù)B,其他設(shè)置與上一實(shí)驗(yàn)相同,得到的虛警概率測(cè)試結(jié)果如圖2所示。可以看出,計(jì)算NR值時(shí)選擇的重復(fù)次數(shù)B對(duì)虛警率的影響比較小,而K的值對(duì)虛警率抑制有較大影響,K值太小或太大會(huì)分別出現(xiàn)“過(guò)抑制”和“欠抑制”的現(xiàn)象。下面的實(shí)驗(yàn)要將本文方法和LPE方法進(jìn)行性能比較,采用統(tǒng)一的參數(shù)設(shè)置,為兼顧兩種方法,下文不做特殊說(shuō)明時(shí)均設(shè) B= 10, K= 16。
帶虛警抑制的已有方法中,雖然在一定的實(shí)驗(yàn)條件下aK-LPE方法已被證明具有比K-LPE更優(yōu)的性能[13,14],但是二者在訓(xùn)練樣本數(shù)較少情況下表現(xiàn)如何尚需實(shí)驗(yàn)檢驗(yàn)。下面的實(shí)驗(yàn)主要考慮將本文方法與這兩種方法進(jìn)行性能對(duì)比。
圖1 虛警概率隨野值門(mén)限的變化曲線
圖2 不同參數(shù)設(shè)置條件下本文方法得到的虛警概率
現(xiàn)在考查當(dāng)訓(xùn)練樣本數(shù)較少時(shí)本文方法對(duì)虛警率的抑制效果。設(shè)需要的虛警率為 Pf= 0.05,其他設(shè)置與第1個(gè)實(shí)驗(yàn)一致,改變訓(xùn)練樣本數(shù)n,得到的實(shí)際虛警概率如圖3所示,其中“NR”是指基于NR的野值檢測(cè)方法,圖3(b)中虛線第1個(gè)點(diǎn)的值為0.783,為便于各方法的對(duì)比,圖中沒(méi)有顯示該點(diǎn)的值。由于文獻(xiàn)[10]針對(duì)的是無(wú)監(jiān)督情形下的野值檢測(cè)問(wèn)題,這里用訓(xùn)練樣本代替該文獻(xiàn)方法中的初始正常模式集合。該方法的野值檢測(cè)門(mén)限需要依據(jù)經(jīng)驗(yàn)或?qū)嶒?yàn)結(jié)果人為設(shè)置,經(jīng)過(guò)反復(fù)測(cè)試,為滿(mǎn)足虛警率為0.05的要求,將其檢測(cè)門(mén)限設(shè)為1.08。注意當(dāng)訓(xùn)練樣本較少時(shí),LPE方法及本文方法可能無(wú)法取到所需數(shù)目的訓(xùn)練樣本,此時(shí)可將K值選為能夠利用的訓(xùn)練樣本數(shù)。
由圖3可以看出,本文方法在少量訓(xùn)練樣本數(shù)情況下能夠較好地抑制虛警率,使之接近設(shè)定值。在即使只有4個(gè)訓(xùn)練樣本時(shí),本文方法仍能將虛警率抑制在2倍設(shè)定值以下,而此時(shí)LPE方法的虛警率則超過(guò)了設(shè)定值5倍以上。而對(duì)于文獻(xiàn)[10]中的方法,即使野值門(mén)限設(shè)置得當(dāng),也有可能產(chǎn)生很高的虛警。此外圖3也表明,模式維數(shù)N越大,本文方法對(duì)虛警率的抑制效果越好。這是由于N越大,3.2節(jié)推導(dǎo)野值門(mén)限過(guò)程中的近似越準(zhǔn)確,此時(shí)依據(jù)式(15)設(shè)置檢測(cè)門(mén)限能更好地控制虛警率。
需要說(shuō)明的是,文獻(xiàn)[10]提出的方法是無(wú)監(jiān)督的,且沒(méi)有在野值檢測(cè)門(mén)限與虛警率之間建立直接的聯(lián)系,其檢測(cè)門(mén)限需要主觀的人為設(shè)置,無(wú)法根據(jù)虛警率大小預(yù)先選擇合適的門(mén)限值,所以無(wú)法實(shí)現(xiàn)真正意義上的虛警控制。鑒于它與本文方法及LPE方法本質(zhì)上不屬同類(lèi),下面的實(shí)驗(yàn)不再考慮該方法。
除虛警率外,野值檢測(cè)概率也是重要的性能指標(biāo),下面測(cè)試本文方法的接收機(jī)工作特性(Receiver Operating Characteristic, ROC)曲線。設(shè)訓(xùn)練樣本數(shù) n= 20,模式維數(shù)N為50或200,設(shè)置不同的虛警率,蒙特卡洛仿真200次,測(cè)試得到的ROC曲線如圖4所示,其中“NR”即指本文方法,這一表示同樣適用于后續(xù)實(shí)驗(yàn),橫軸所示的虛警率指的是實(shí)際虛警率??梢钥闯觯谳^高虛警率條件下本文方法與aK-LPE方法性能相當(dāng),說(shuō)明此時(shí)本文方法也可達(dá)到 UMP檢驗(yàn)的效果。但是本文所提野值檢測(cè)方法能夠滿(mǎn)足更低虛警率的要求,所以具有更優(yōu)的綜合檢測(cè)性能。
4.2 實(shí)測(cè)數(shù)據(jù)測(cè)試
圖3 不同訓(xùn)練樣本數(shù)目條件下的虛警概率測(cè)試結(jié)果
實(shí)測(cè)數(shù)據(jù)測(cè)試的場(chǎng)景是:由于分選錯(cuò)誤或者干擾的存在,某雷達(dá)輻射源的一組信號(hào)中混入了其他源的信號(hào),一般需要根據(jù)信號(hào)的特征參量對(duì)混入信號(hào)進(jìn)行判別。提取這些信號(hào)的特征參量后,經(jīng)過(guò)人工判斷,選出其中一部分特征參量,認(rèn)為它們來(lái)自感興趣的輻射源,將其作為訓(xùn)練樣本。由于人工挑選比較耗時(shí),得到的訓(xùn)練樣本數(shù)量并不多?,F(xiàn)在面臨的問(wèn)題是,根據(jù)已有的訓(xùn)練樣本,在一定虛警概率的要求下,需對(duì)其他特征參量進(jìn)行野值檢測(cè),從而避免混入信號(hào)的影響。
圖4 野值檢測(cè)概率隨虛警概率變化的ROC曲線
本文的測(cè)試對(duì)象是民航飛機(jī)的二次雷達(dá)(Secondary Surveillance Radar, SSR)信號(hào),它是一種單載頻形式的窄脈沖信號(hào)。提取信號(hào)的瞬時(shí)相位[19]作為考查的特征參量,經(jīng)過(guò)特征平滑,易得特征提取結(jié)果為
選擇一組SSR信號(hào),它們來(lái)自同一輻射源 E0,在這組數(shù)據(jù)中混入其他兩個(gè)輻射源 E1和 E2的信號(hào)。本實(shí)驗(yàn)共接收到了69個(gè)輻射源的數(shù)據(jù),對(duì)輻射源按1到69編號(hào),并設(shè) E0= 1,E1= 2,E2= 4。按照式(19)進(jìn)行特征提取,隨機(jī)選擇 E0的一部分特征參量作為訓(xùn)練樣本,由此對(duì)其他樣本進(jìn)行野值檢測(cè)??疾椴煌?xùn)練樣本數(shù)時(shí),虛警率設(shè)為考查ROC曲線時(shí),訓(xùn)練樣本數(shù)設(shè)為 n= 20。測(cè)試樣本由1000個(gè)正常模式(即屬于 E0的模式)和來(lái)自不同源共600個(gè)野值模式組成。野值檢測(cè)時(shí)需要考慮特征提取過(guò)程中引入的協(xié)方差矩陣C,按照 3.3節(jié)給出的方法流程進(jìn)行處理,得到的測(cè)試結(jié)果如圖5所示。圖中數(shù)據(jù)是100次測(cè)試的平均結(jié)果。可以看出,對(duì)于實(shí)測(cè)數(shù)據(jù),在較少訓(xùn)練樣本條件下本文方法仍然能夠較好地抑制虛警率,效果優(yōu)于同類(lèi)方法。此外其 ROC曲線也較理想,表明其優(yōu)越的野值檢測(cè)性能。
保持參數(shù)設(shè)置不變,表1給出了混入其他輻射源信號(hào)情況下,不同方法野值檢測(cè)結(jié)果 ROC曲線的線下面積(Area Under the Curve, AUC)大小,其中“維數(shù)”是指混入信號(hào)的最小樣點(diǎn)數(shù)??梢钥闯觯瑢?duì)于所有測(cè)試集,本文提出的方法都具有最優(yōu)的AUC性能。
圖5 實(shí)測(cè)數(shù)據(jù)測(cè)試得到的野值檢測(cè)結(jié)果
本文考慮了帶監(jiān)督情形下野值檢測(cè)的虛警抑制問(wèn)題,提出了一種基于歸一化殘差的野值檢測(cè)方法。該方法利用訓(xùn)練樣本重新定義了模式的歸一化殘差,據(jù)此,本文推導(dǎo)得到了野值檢測(cè)門(mén)限與虛警概率之間的關(guān)系表達(dá)式,為野值門(mén)限的設(shè)置和野值判別提供了理論依據(jù)。仿真實(shí)驗(yàn)和實(shí)測(cè)數(shù)據(jù)測(cè)試驗(yàn)證了本文理論推導(dǎo)的正確性,以及少量訓(xùn)練樣本情況下所提方法在野值檢測(cè)和虛警抑制方面的優(yōu)越性能。
表1 對(duì)不同數(shù)據(jù)集進(jìn)行野值檢測(cè)得到的AUC大小
需要指出的是,本文方法可以適應(yīng)高斯白噪聲以及能推導(dǎo)出協(xié)方差矩陣的色噪聲情形,對(duì)于更復(fù)雜的噪聲模式,則需要對(duì)野值檢測(cè)門(mén)限進(jìn)行重新推算以滿(mǎn)足控制虛警概率的要求。這一點(diǎn)可作為下一步的研究方向。
[1] Hawkins D. Identification of Outliers[M]. London: Chapman and Hall, 1980: Chapter 1-2.
[2] Liu J, Wan J, Zheng H, et al.. A method of specific emitter verification based on CSDA and SVDD[C]. Proceedings of the IEEE 2nd International Conference on Computer Science and Network Technology, Changchun, China, 2012: 562-565.
[3] Miller D J and Browning J. A mixture model and EM-based algorithm for class discovery, robust classification, and outlier rejection in mixed labeled/unlabeled data sets[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(11): 1468-1483.
[4] Westerweel J and Scarano F. Universal outlier detection for PIV data[J]. Experiments in Fluids, 2005, 39(6): 1096-1100.
[5] Duncan J, Dabiri D, Hove J, et al.. Universal outlier detection for Particle Image Velocimetry (PIV) and Particle Tracking Velocimetry (PTV) data[J]. Measurement Science and Technology, 2010, 21(5): 57002-57006.
[6] Wu S and Wang S R. Information-theoretic outlier detection for large-scale categorical data[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(3): 589-602.
[7] Li Z G, Baseman R J, Zhu Y D, et al.. A unified framework for outlier detection in trace data analysis[J]. IEEE Transactions on Semiconductor Manufacturing, 2014, 27(1): 95-103.
[8] Albanese A, Pal S K, and Petrosino A. Rough sets, kernel set,and spatiotemporal outlier detection[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1): 194-207.
[9] Ghosh A K and Chaudhuri P. On maximum depth and related classifiers[J]. Scandinavian Journal of Statistics, 2005,32(2): 327-350.
[10] Ru X H, Liu Z, and Jiang W L. Normalized residual-based outlier detection[C]. Proceedings of the IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), Guilin, China, 2014: 190-193.
[11] Nattorn B, Arthorn L, and Krung S. Outlier detection score based on ordered distance difference[C]. Proceedings of the IEEE International Computer Science and Engineering Conference (ICSEC), Nakhon Pathom, Thailand, 2013: 157-162.
[12] Zhao M and Saligrama V. Anomaly detection with score functions based on nearest neighbor graphs[J]. Advances in Neural Information Processing Systems, 2009, 22(1): 2250-2258.
[13] Qian J and Saligrama V. New statistic in p-value estimation for anomaly detection[C]. Proceedings of the IEEE Statistical Signal Processing Workshop (SSP), Ann Arbor, Michigan,USA, 2012: 393-396.
[14] Chen Y T, Qian J, and Saligrama V. A new one-class SVM for anomaly detection[C]. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, Canada, 2013: 3567-3571.
[15] Breunig M M, Kriegel H-P, Ng R T, et al.. LOF: identifyingdensity-based local outliers[C]. Proceedings of the ACM SIGMOD International Conference on Management of Data,New York, USA, 2000: 93-104.
[16] Sch?lkopf B, Platt J C, Shawe-Taylor J C, et al.. Estimating the support of a high-dimensional distribution[J]. Neural Computation, 2001, 13(7): 1443-1471.
[17] Furlani M, Tuia D, Munoz-Mari J, et al.. Discovering single classes in remote sensing images with active learning[C]. Proceedings of the IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Munich, Germany,2012: 7341-7344.
[18] Jumutc V and Suykens J. Multi-class supervised novelty detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(12): 2510-2523.
[19] 葉浩歡, 柳征, 姜文利. 考慮多普勒效應(yīng)的脈沖無(wú)意調(diào)制特征比較[J]. 電子與信息學(xué)報(bào), 2012, 34(11): 2654-2659. Ye H H, Liu Z, and Jiang W L. A comparison of unintentional modulation on pulse features with the consideration of Doppler effect[J]. Journal of Electronics & Information Technology, 2012, 34(11): 2654-2659.
汝小虎: 男,1988年生,博士生,研究方向?yàn)槔走_(dá)輻射源識(shí)別.
柳 征: 男,1978年生,博士,副研究員,研究方向?yàn)榫C合電子戰(zhàn)信息戰(zhàn)技術(shù)、航天電子偵察信號(hào)處理.
姜文利: 男,1967年生,博士,教授,博士生導(dǎo)師,研究方向?yàn)榫C合電子戰(zhàn)信息戰(zhàn)技術(shù)、航天電子偵察信號(hào)處理.
黃知濤: 男,1976年生,博士,教授,博士生導(dǎo)師,研究方向?yàn)榫C合電子戰(zhàn)信息戰(zhàn)技術(shù)、衛(wèi)星通信偵察與對(duì)抗.
Normalized Residual-based Outlier Detection with False-alarm Probability Controlling
Ru Xiao-hu Liu Zheng Jiang Wen-li Huang Zhi-tao
(College of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China)
Outlier detection, also called anomaly detection, is an important issue in pattern recognition and knowledge discovery. Previous outlier detection methods can not effectively control the false-alarm probability. To solve the problem, a supervised method based on Normalized Residual (NR) is proposed. Using the training patterns, it first calculates the NR value of the query pattern, which is compared with a predefined detection threshold to determine whether the pattern is an outlier. In this paper, the relationship between the threshold and false-alarm probability is theoretically derived, based on which an appropriate threshold can be chosen. In this way,the desired false-alarm probability can be obtained even when few training patterns are available. Simulations and measured data experiments validate the superior performance of the proposed method on outlier detection and false-alarm probability controlling.
Pattern recognition; Supervised; Outlier detection; False-alarm probability; Normalized Residual (NR)
TP391.4; O235
A
1009-5896(2015)12-2898-08
10.11999/JEIT150469
2015-04-22;改回日期:2015-09-01;網(wǎng)絡(luò)出版:2015-11-01
*通信作者:汝小虎 ruxiaohu88@163.com