国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

系統(tǒng)效能評估中仿真指標(biāo)數(shù)據(jù)異常值檢測方法研究

2013-11-10 05:37焦秀珍
關(guān)鍵詞:效能距離系數(shù)

焦秀珍

(電子科學(xué)研究院,北京 100041)

0 引言

目前實(shí)現(xiàn)效能評估的常用方法主要有專家評定法、試驗(yàn)統(tǒng)計(jì)法、作戰(zhàn)模擬法、ADC分析法、指數(shù)法、系統(tǒng)效能分析法(SEA)及分布交互仿真等方法[1]。其中分布交互仿真的評估方法是獲取效能評估結(jié)果的有效途徑和最可信的效能評估方法[2],也是適用于大型綜合電子信息系統(tǒng)綜合評估的有效方法。分布交互仿真評估方法的基本流程是通過構(gòu)建仿真試驗(yàn)系統(tǒng)擬制試驗(yàn)方案或戰(zhàn)術(shù)想定,確定論證系統(tǒng)效能的評估指標(biāo),進(jìn)行大量的專項(xiàng)或綜合的仿真試驗(yàn)來獲得系統(tǒng)效能評估結(jié)果。

然而通過分析基于仿真試驗(yàn)系統(tǒng)進(jìn)行系統(tǒng)效能評估的流程發(fā)現(xiàn),影響評估結(jié)果的可信度和準(zhǔn)確性主要有兩個(gè)方面,一是評估指標(biāo)的評估模型;二是仿真試驗(yàn)數(shù)據(jù)的準(zhǔn)確性。評估指標(biāo)主要指系統(tǒng)某一個(gè)或某幾個(gè)方面固有能力的體現(xiàn),通過理論研究和專家經(jīng)驗(yàn)?zāi)軌虻玫娇煽?、?zhǔn)確的效能指標(biāo)評估模型。然而評估指標(biāo)需要的數(shù)據(jù)是通過信息流程復(fù)雜的、大量的仿真試驗(yàn)?zāi)P蜆?gòu)建的仿真試驗(yàn)系統(tǒng)中采集得到的仿真試驗(yàn)數(shù)據(jù)。由于仿真模型的隨機(jī)誤差疊加或者是人為因素干擾會造成異常跳變點(diǎn),引起仿真數(shù)據(jù)的不真實(shí)值,造成評估指標(biāo)計(jì)算結(jié)果與真實(shí)值的偏離。因此仿真試驗(yàn)數(shù)據(jù)必須要經(jīng)過數(shù)據(jù)預(yù)處理,剔除異常值后得到更接近于真實(shí)值的數(shù)據(jù)輸入到評估模型中,這樣計(jì)算得到的評估結(jié)果才能正確反映系統(tǒng)的效能。所以將異常值檢測方法引入系統(tǒng)效能評估中是一項(xiàng)值得關(guān)注和研究的內(nèi)容。

1 異常值檢測方法

隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展和KDD知識發(fā)現(xiàn)領(lǐng)域的研究,異常值檢測已成為數(shù)據(jù)挖掘中研究的熱點(diǎn)內(nèi)容,并在商業(yè)和銀行、防止信用卡詐騙、醫(yī)療保險(xiǎn)等領(lǐng)域得到了廣泛的應(yīng)用,但是在效能評估領(lǐng)域中應(yīng)用還比較少。

早在1980年,D.Hawkins給出了異常值本質(zhì)的定義:異常值是指數(shù)據(jù)集中常常存在一些數(shù)據(jù)對象,他們不符合數(shù)據(jù)的一般模型,即與數(shù)據(jù)的其他部分不同或不一致,使人懷疑這些數(shù)據(jù)并非產(chǎn)生于非隨機(jī)偏差,而產(chǎn)生于完全不同的機(jī)制[3]。異常值有可能是人為錯(cuò)誤或者是機(jī)器錯(cuò)誤造成的噪聲數(shù)據(jù),對于這些數(shù)據(jù)要進(jìn)行處理,以免影響數(shù)據(jù)挖掘的結(jié)果。但是對于某些異常值,可能包含著事物真實(shí)的而且沒有被發(fā)現(xiàn)的信息,這樣就要對其進(jìn)行分析,找到蘊(yùn)含的知識,解決問題,這對于研究和應(yīng)用都有很高的實(shí)用價(jià)值和意義。因此從異常值處理的辨證關(guān)系來看,清除異常值能夠提高系統(tǒng)效能指標(biāo)評估結(jié)果的準(zhǔn)確性,辨別和分析異常值發(fā)生的原因能夠修正仿真試驗(yàn)系統(tǒng)潛在的問題。

目前異常值檢測方法主要有:基于統(tǒng)計(jì)模型的方法、基于距離的方法、基于密度的方法及聚類等方法[4]。現(xiàn)將異常值檢測方法的典型算法和各自的優(yōu)缺點(diǎn)及異常值檢測算法的適用性總結(jié),見表1。

表1 時(shí)域中異常值檢測方法和特點(diǎn)

通過對異常值檢測方法的分析,基于距離的異常值檢測方法更適用于單維屬性的系統(tǒng)效能指標(biāo)數(shù)據(jù)的預(yù)處理[5]。以某型武器裝備仿真試驗(yàn)系統(tǒng)為例通過仿真運(yùn)行得到的試驗(yàn)數(shù)據(jù)項(xiàng)屬性大都是在時(shí)間上彼此相關(guān)的單維數(shù)據(jù)序列,而且仿真數(shù)據(jù)的主要特征是在其標(biāo)準(zhǔn)值附近波動,因此比較適合采用基于距離和的異常值檢測方法進(jìn)行處理。本文將采用某型武器裝備仿真試驗(yàn)系統(tǒng)的典型效能評估指標(biāo)異常值處理過程為例介紹基于距離和檢測異常值的方法。

2 基于距離和的異常值檢測方法

基于距離和的異常值檢測方法核心思想是計(jì)算每個(gè)數(shù)據(jù)點(diǎn)在該系列數(shù)據(jù)集內(nèi)所占的距離比重,若距離比重越大就說明偏離數(shù)據(jù)集的期望中值就越遠(yuǎn),標(biāo)記為異常值;若距離比重越接近數(shù)據(jù)集的期望中值,則表示越接近真實(shí)值。將異常值定義如下:計(jì)算數(shù)據(jù)集中對象兩兩之間的距離,累計(jì)每個(gè)對象與其他對象的距離和,設(shè)用戶期望的異常值個(gè)數(shù)為M,則距離之和最大的M個(gè)對象即為異常值。

最常用的距離計(jì)算公式是絕對距離和歐氏距離。絕對距離定義為

歐氏距離的計(jì)算公式為

這兩個(gè)距離可統(tǒng)一為明考斯基距離計(jì)算公式為

對原始數(shù)據(jù)集{y1,y2,…yn}進(jìn)行標(biāo)準(zhǔn)化后,計(jì)算n個(gè)對象兩兩之間的距離di,j,得到距離矩陣R

通過算法標(biāo)識的異常值要進(jìn)行剔除才能獲得干凈的數(shù)據(jù)集,然而剔除異常值后數(shù)據(jù)集中存在數(shù)據(jù)點(diǎn)缺失的問題,因此需要將剔除的異常值替換為較為合理的數(shù)據(jù)。一般采用的方法是將異常值替換為剔除異常值后數(shù)據(jù)集的均值或替換為異常值鄰域內(nèi)的均值(鄰域大小可由用戶選擇)。

3 異常值檢測方法的應(yīng)用

以某型武器裝備仿真試驗(yàn)系統(tǒng)的信息精度指標(biāo)異常值檢測過程為例,說明基于距離和的異常值檢測方法在仿真試驗(yàn)系統(tǒng)指標(biāo)評估中的有效應(yīng)用。建立信息精度的評估模型為

采用距離公式對真實(shí)信息數(shù)據(jù)和經(jīng)過模型算法處理后報(bào)送的預(yù)測數(shù)據(jù)進(jìn)行計(jì)算,是系統(tǒng)仿真模型融合處理后報(bào)送的預(yù)測數(shù)據(jù),(x,y,z)是仿真目標(biāo)模型報(bào)送的真實(shí)信息數(shù)據(jù)。

選擇某次試驗(yàn)樣本中信息精度參數(shù),共896條記錄,采樣率為10 s為例說明該方法。信息精度估計(jì)的實(shí)際數(shù)據(jù)如圖1所示,其中存在兩段連續(xù)的明顯偏離數(shù)據(jù)集的程度較大的數(shù)據(jù)。

圖1 信息估計(jì)精度數(shù)據(jù)示意圖

通過基于距離和的異常值檢測方法,檢測896條記錄共耗時(shí)625 ms。當(dāng)調(diào)節(jié)系數(shù)為1.5時(shí),檢測結(jié)果如圖2所示,能夠檢測出在91~109 s、200~219 s和387~406 s三個(gè)時(shí)間段內(nèi)持續(xù)波動的異常值情況;當(dāng)調(diào)節(jié)系數(shù)為4時(shí)檢測結(jié)果如圖3所示,能夠檢測出200~219 s和387~406 s兩個(gè)時(shí)間段內(nèi)持續(xù)波動的異常值情況。由此看出,通過調(diào)節(jié)閾值大小可獲得不同偏離程度的異常值,提供給用戶分析和辨別異常值,從而滿足用戶不同的數(shù)據(jù)預(yù)處理需求。

圖2 調(diào)節(jié)系數(shù)=1.5時(shí)異常值檢測結(jié)果

圖3 調(diào)節(jié)系數(shù)=4時(shí)異常值檢測結(jié)果

以圖2和圖3的檢測結(jié)果為例進(jìn)行分析,當(dāng)調(diào)節(jié)系數(shù)為1.5時(shí),可以看到在80~120 s時(shí)間段內(nèi)的數(shù)據(jù)值被標(biāo)記為異常值。通過仿真試驗(yàn)人員分析,由于某型裝備仿真模型的探測距離和屬性參數(shù)設(shè)置原因,在系統(tǒng)仿真運(yùn)行2分鐘之前仿真模型的信息探測精度不高,經(jīng)融合算法處理后報(bào)送的信息誤差較大。因此當(dāng)調(diào)節(jié)系數(shù)為1.5時(shí)檢測到被標(biāo)記為異常值的數(shù)據(jù)不是真正的異常值,這些被標(biāo)記為異常值的數(shù)據(jù)點(diǎn)有可能反映的就是仿真試驗(yàn)系統(tǒng)中存在的某些問題,通過判斷檢測到的異常值能夠輔助仿真試驗(yàn)人員進(jìn)一步認(rèn)識和修正仿真試驗(yàn)系統(tǒng)中存在的潛在問題。

利用基于距離和算法在對不同數(shù)據(jù)項(xiàng)進(jìn)行異常值檢測時(shí),為了能夠避免將真實(shí)數(shù)據(jù)標(biāo)記為異常值的情況,首先要了解各個(gè)數(shù)據(jù)項(xiàng)的特點(diǎn)分析和選取合理的調(diào)節(jié)系數(shù),其次通過設(shè)置多個(gè)調(diào)節(jié)系數(shù)選取合理的閾值進(jìn)行異常值檢測,最終將檢測結(jié)果提供給仿真試驗(yàn)分析人員進(jìn)行分析辨別。

通過試驗(yàn)人員分析和異常值檢測算法結(jié)果,選取調(diào)節(jié)系數(shù)為4時(shí)的異常值檢測結(jié)果作為信息估計(jì)精度的數(shù)據(jù)預(yù)處理結(jié)果。剔除異常值后造成數(shù)據(jù)集中某些時(shí)刻數(shù)據(jù)值的缺失,本文擬采用檢測到的異常值鄰域的均值對剔除的異常值進(jìn)行替換,經(jīng)過修正異常值后的信息估計(jì)精度,如圖4所示。

圖4 修正后信息精度數(shù)據(jù)示意圖

同樣地,基于距離和的異常值檢測方法能夠應(yīng)用到仿真試驗(yàn)系統(tǒng)的其他數(shù)據(jù)項(xiàng)中,選取合理的調(diào)節(jié)系數(shù)能夠提供給用戶較為準(zhǔn)確的異常值檢測結(jié)果,同時(shí)設(shè)置不同的調(diào)節(jié)系數(shù)獲得的檢測結(jié)果能夠滿足用戶在不同性能指標(biāo)評估的預(yù)處理需求。

4 結(jié)語

從上面的實(shí)例可以看出,基于距離和的異常值檢測方法在效能指標(biāo)評估中應(yīng)用的可行性。基于距離和的異常值檢測方法能夠快速有效地鑒別各項(xiàng)數(shù)據(jù)集的異常值,能夠剔除的異常值替換為樣本均值或是鄰域內(nèi)均值,達(dá)到數(shù)據(jù)預(yù)處理的目的,從而提高效能指標(biāo)評估計(jì)算結(jié)果的真實(shí)性和準(zhǔn)確性。

接下來,要進(jìn)一步研究如何使異常值檢測方法更好地與仿真試驗(yàn)系統(tǒng)結(jié)合,以及如何滿足靈活的仿真試驗(yàn)數(shù)據(jù)處理需求,并搭建一個(gè)仿真試驗(yàn)系統(tǒng)數(shù)據(jù)預(yù)處理軟件平臺,使其實(shí)現(xiàn)從仿真數(shù)據(jù)到評估樣本的轉(zhuǎn)換。

[1]張杰,唐宏,蘇凱,等.效能評估方法研究[M].北京:國防工業(yè)出版,2009.

[2]董良東,陳曉,曾興善,等.武器裝備體系效能評估方法研究[J].兵工自動化,2008,27(2).

[3]RAMASWAMY S,RASTOGI R,SHIM K.Efficient Algorithms for Minging Outliers from large Data Sets[C]//In:Proceedings of the ACM SIGMOD Conference,2000:473-438.

[4]HAN J,KAMBER M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2000:251-303.

[5]KNORR E M,NG R T,TUCAKOV V.Distance-Based Outliers:Algorithms and Application[J].VLDB Journal:Very Large Databases,2000:237-253.

猜你喜歡
效能距離系數(shù)
基于符號相干系數(shù)自適應(yīng)加權(quán)的全聚焦成像
遷移探究 發(fā)揮效能
充分激發(fā)“以工代賑”的最大效能
這些待定系數(shù)你能確定嗎?
打雪仗
算距離
過年啦
每次失敗都會距離成功更近一步
唐代前后期交通運(yùn)輸效能對比分析
新形勢下如何發(fā)揮專賣內(nèi)管委派制的作用和效能
香港| 古丈县| 丽水市| 龙川县| 武宣县| 宿州市| 维西| 雷波县| 保康县| 永登县| 盘山县| 石首市| 丹东市| 怀化市| 水富县| 枣强县| 庄河市| 朝阳县| 乐平市| 从化市| 双柏县| 边坝县| 保定市| 安塞县| 纳雍县| 墨竹工卡县| 科技| 石柱| 陵水| 清远市| 衡阳市| 泰和县| 上犹县| 江城| 鲁山县| 溆浦县| 张家口市| 盐边县| 伽师县| 三河市| 宁海县|