国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

擴展DS證據(jù)理論在入侵檢測中的應(yīng)用*-

2014-09-05 06:36燁,劉
計算機工程與科學(xué) 2014年1期
關(guān)鍵詞:分類器證據(jù)函數(shù)

陳 燁,劉 淵

(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇 無錫214122;2.江蘇省信息融合軟件工程技術(shù)研發(fā)中心,江蘇 江陰214405)

1 引言

證據(jù)理論也稱D-S證據(jù)理論,是由Dempster于1967年提出、并由他的學(xué)生Shafer進一步發(fā)展起來的建立在有限離散領(lǐng)域之上的推理形式。DS證據(jù)理論通過定義置信函數(shù),可將不確定性和不知道進行區(qū)分,能在先驗概率未知的情況下,通過簡單的證據(jù)合成準則將多個不確定信息進行合成,得出較好的綜合結(jié)果。D-S證據(jù)理論已廣泛運用于數(shù)據(jù)融合的各個領(lǐng)域,如:專家咨詢系統(tǒng)、預(yù)測、圖像處理、人工智能、識別分類等。入侵檢測是將網(wǎng)絡(luò)數(shù)據(jù)分為正常數(shù)據(jù)和各類型的攻擊數(shù)據(jù),本質(zhì)上是一個多分類問題[1]。然而,單一的檢測算法往往存在檢測率不高、誤報率過高等局限性,所以國內(nèi)外諸多學(xué)者研究將D-S證據(jù)理論引入到入侵檢測系統(tǒng)中[2]。但是,基于經(jīng)典D-S證據(jù)理論的大部分研究需要假設(shè)截獲的數(shù)據(jù)相互獨立無沖突,而在真實網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)不可能無沖突,因此基于經(jīng)典D-S證據(jù)理論的網(wǎng)絡(luò)數(shù)據(jù)融合會導(dǎo)致融合結(jié)果不合理,影響檢測效果。

為了解決經(jīng)典D-S證據(jù)理論在沖突的數(shù)據(jù)中不能取得合理結(jié)果這一問題,本文應(yīng)用一種基于加權(quán)[3]的組合算法,能有效處理高度沖突證據(jù)的組合,并融合多個SVM分類器建立異常檢測模型。

2 D-S證據(jù)理論

2.1 經(jīng)典的D-S證據(jù)理論

D-S證據(jù)理論是建立在非空有限域Θ上的理論,Θ稱為識別框架(Frame of discernment),表示有限個系統(tǒng)狀態(tài){A1,A2,…,An},而系統(tǒng)狀態(tài)假設(shè)Hi是Θ的一個子集,也就是Θ的冪集P(Θ)中的一個元素。D-S證據(jù)理論通過對系統(tǒng)狀態(tài)的一些觀察E1,E2,…,Em來推測出當(dāng)前系統(tǒng)所處的狀態(tài)。這些觀察僅僅是系統(tǒng)狀態(tài)的不確定性表現(xiàn),并不能夠唯一確定某些系統(tǒng)狀態(tài)。D-S證據(jù)理論中的三個重要函數(shù)為:基本的概率分配函數(shù)(bpa)或叫做mass函數(shù)、信任函數(shù)(bel)和似然函數(shù)(pl)。

定義1 基本的概率分配函數(shù)(bpa):設(shè)函數(shù)m:2Θ→ [0,1],且滿足:

其中,m(A)作為焦元A的基本概率數(shù),表示依據(jù)當(dāng)前的環(huán)境對焦元A的信任程度。當(dāng)A為空集時,m(A)的值為0。

當(dāng)同一個識別框架Θ有多個數(shù)據(jù)源時,對于這些數(shù)據(jù)源根據(jù)各自的mass函數(shù)提供不同的評測值。合成這些數(shù)據(jù)源的所有信息的規(guī)則稱為合成規(guī)則。經(jīng)典的D-S證據(jù)理論假設(shè)所有的數(shù)據(jù)源具有相同的可信度。n個證據(jù)合成規(guī)則如公式(1)所示。

其中,m(A)表示證據(jù)A的mass值;k的取值范圍為[0,1],稱為沖突因子,用來反映融合過程中各證據(jù)間的沖突程度,k越接近于1,證據(jù)間的沖突越激烈,矛盾也就越明顯;而1/(1-k)是修正因子(歸一化系數(shù))。為了使識別框架Θ的理論更加完善,避免在進行證據(jù)組合時將非零的概率賦給空集,將空集所丟棄的信任分配按比例地補到非空集上,Dempster引入了1/(1-k)。

2.2 經(jīng)典D-S證據(jù)理論的缺陷

盡管單用D-S證據(jù)理論通過簡單的推理形式能得出較好的融合結(jié)果,但在實際運用中,經(jīng)典DS證據(jù)理論存在如下不足:當(dāng)各證據(jù)間的基本概率分配函數(shù)存在嚴重沖突時,融合后得到的結(jié)果明顯不合理;而且焦元的基本信任分配發(fā)生的極其微小變化會帶來其組合結(jié)果劇烈的變化。這些不足很可能導(dǎo)致判斷錯誤,從而影響入侵檢測系統(tǒng)的檢測性能[4]。

2.3 組合規(guī)則改進

針對各證據(jù)間的沖突問題,本文應(yīng)用一種基于加權(quán)的D-S證據(jù)合成方法[2]:考慮到各證據(jù)之間、焦元之間的相關(guān)性,引入平均證據(jù)距離,計算各證據(jù)的可信度并作為該證據(jù)的權(quán)值。該方法通過平均證據(jù)計算平均證據(jù)距離,并得出加權(quán)系數(shù)從區(qū)分各證據(jù)在D-S融合中的影響程度,從而解決沖突證據(jù)的組合問題。

首先,計算各證據(jù)的平均值:

然后,計算各證據(jù)到平均證據(jù)的距離:

由公式(3)知,兩個證據(jù)的相似性程度與對應(yīng)概率的距離成反比,距離小的相似性程度就大,可令該距離為證據(jù)的支持度,即s(mi)=di。

最后,計算各證據(jù)的可信度:

其中,c(mi)作為證據(jù)mi的權(quán)重,滿足1,其他證據(jù)體對證據(jù)的支持程度表現(xiàn)在該證據(jù)的權(quán)值上。證據(jù)的權(quán)值高,則其支持程度高,對組合結(jié)果影響大;反之亦然。

那么,可以得出加權(quán)D-S證據(jù)的合成規(guī)則是:

3 基于擴展D-S證據(jù)理論的入侵檢測模型設(shè)計與實現(xiàn)

3.1 入侵檢測模型分類模塊設(shè)計

該模塊中使用的數(shù)據(jù)集是MIT Lincoln實驗室提供的 DARPA 數(shù)據(jù)集 KDD CUP 99[5]。核心分類器是林智仁編寫的libsvm 2.8.9版本[6],并在Matlab2009b下完成的。KDD CPU 99數(shù)據(jù)集共有41維特征,分為:基本特征、流量特征和內(nèi)容特征[7],如圖1所示。

Figure 1 Classifiers based on improved D-S algorithm and SVM圖1 基于改進D-S算法和SVM的分類模塊

本文提出的檢測模型首先在數(shù)據(jù)集中分別選取一定的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,然后對其進行數(shù)據(jù)預(yù)處理。接著,在該檢測模型上檢測預(yù)處理好的訓(xùn)練數(shù)據(jù)集,得出最終檢測結(jié)果。

3.2 入侵檢測模型實現(xiàn)

步驟1 底層SVM分類器的實現(xiàn):將訓(xùn)練數(shù)據(jù)集按特征屬性分為三類,分別使用兩個SVM分類器進行訓(xùn)練(兩個分類器的執(zhí)行效率較高),得到一個最優(yōu)分類超平面。再使用測試數(shù)據(jù)集在各個SVM分類器上測試,將預(yù)測的結(jié)果保存在S(i)中,其中i=1,2,…,6。

步驟2 模型融合部分的實現(xiàn):將SVM得出的S(i)作為D-S證據(jù)理論的mass函數(shù)的參數(shù),再由公式(1)~公式(3)計算出各個證據(jù)的權(quán)重c(mi),最后利用公式(4)得出最終融合決策。

3.3 SVM中核函數(shù)的選擇以及參數(shù)的尋優(yōu)

支持向量機中最重要的是核函數(shù)的選擇。常用的核函數(shù)有以下幾種[8]:

(1)線性核:K(xi,xj)=(xi·xj+c),c>0。

(2)多項式核:K(xi,xj)= (?xixj+c)d,?>0,c>0,d>0。

(3)徑 向 基 核 (RBF):K(xi,xj)= exp(-γ‖xi-xj‖2),γ>0。

(4)Sigmoid核:K(xi,xj)=tan(v(xi·xj)+c),v>0,c>0。

通過對上面幾種核函數(shù)進行比較發(fā)現(xiàn),線性核即使在訓(xùn)練集特別大或?qū)傩蕴貏e多的情況下也可以快速地訓(xùn)練出結(jié)果,計算速度最快,但如果不在近似線性可分的情況下,則很難取得滿意的效果;多項式核函數(shù)計算雖較快,但其函數(shù)值跨度非常大,計算結(jié)果可能趨向無窮大或者零,所以導(dǎo)致在有些情況下計算會比較困難;Sigmoid核函數(shù)因為不是正定核,相比其他幾種核函數(shù),其通用性不夠好;RBF核函數(shù)具有良好的性能[9],同時參數(shù)也較少,在缺乏問題先驗知識時其適應(yīng)性最好,還能夠處理非線性的情況,因此本文選擇RBF核函數(shù)。

確定核函數(shù)后還需要確定懲罰參數(shù)C以及核參數(shù)γ。常用的SVM參數(shù)優(yōu)化算法有網(wǎng)格搜索算法、PSO算法以及遺傳算法等,本文使用網(wǎng)格搜索算法尋找一組較好的C和γ。網(wǎng)格搜索法首先需要根據(jù)經(jīng)驗制定C和γ的待搜索范圍(一般在這個范圍之內(nèi),C和γ會取得較好的結(jié)果),并設(shè)置好合適的搜索步長,每個參數(shù)在待搜索范圍內(nèi)取一系列待檢驗的離散值;然后分別取兩個參數(shù)的所有可能待檢驗值的組合來訓(xùn)練SVM模型,并對模型的推廣能力進行檢驗;最后選擇能訓(xùn)練出推廣能力最好的SVM模型的參數(shù)作為最優(yōu)參數(shù)。

4 仿真實驗

4.1 實驗環(huán)境

本文實驗在Matlab 2009b環(huán)境下完成,使用了libsvm工具箱[6]。由于KDD CPU 99原數(shù)據(jù)集較龐大,完全使用并不現(xiàn)實,因此本文實驗僅使用了其中Normal、DOS、Probing和R2L數(shù)據(jù)各4 000條,U2R數(shù)據(jù)249條,并將其分為兩份,分別作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

4.2 實驗流程

(1)數(shù)據(jù)的預(yù)處理。因為 KDD CUP 99數(shù)據(jù)集中各個數(shù)據(jù)的特征屬性并不統(tǒng)一,其41個特征中既有符號型特征,又有連續(xù)型特征,還有離散型特征,所以在實驗之前需要對所有的特征屬性進行預(yù)處理,使它們保持統(tǒng)一。連續(xù)型特征采用Rosetta[10]軟件中的 Na?ve算法進行離散化,而符號型特征則直接通過一般的映射將符號映射到離散型的數(shù)值中。最后,使用Matlab自帶的映射函數(shù)mapminmax將數(shù)據(jù)集歸一化,使所有屬性的度量得到統(tǒng)一。

(2)將訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集按其特征屬性分為基本特征、流量特征和內(nèi)容特征三類。將分好的訓(xùn)練數(shù)據(jù)集分別使用兩個SVM分類器進行訓(xùn)練。接著,將分好的測試數(shù)據(jù)集在訓(xùn)練好的SVM分類器上進行測試,并記錄結(jié)果。

(3)利用加權(quán)D-S證據(jù)理論的融合規(guī)則進行決策融合,最終得出檢測結(jié)果。

4.3 實驗結(jié)果及分析

為了評價本文提出的融合模型的檢測性能,本文使用以下檢測參數(shù):

(1)Precision:指經(jīng)過檢測得出的真正異常的記錄數(shù)目在總的入侵記錄數(shù)中所占的比例。

(2)Detection:指總的測試集中被正確分類的數(shù)據(jù)記錄所占的比例。

(3)False Positive:指本來為正常記錄、但被錯誤地檢測為入侵記錄的數(shù)目在總的正常記錄中所占的比例。

(4)Recall:指被檢測出來的真正的攻擊記錄在所有攻擊記錄中所占的比例。

(5)F-Score:用來評估異常檢測系統(tǒng)的好壞,是Precision和Recall的調(diào)和平均數(shù),F(xiàn)-Score值越大,該異常檢測系統(tǒng)越好。F-Score的計算公式為:

(6)AUC:ROC曲線的橫坐標是誤報率,縱坐標是檢測率,曲線下的面積是AUC值。AUC值越大說明檢測系統(tǒng)的性能越好[11]。

本文共做了三組實驗。其中,SVM采用網(wǎng)格搜索算法搜索最優(yōu)參數(shù),根據(jù)以往研究經(jīng)驗設(shè)置參數(shù)的范圍(參數(shù)C為2-5~25,步長為2;γ為0.1~1,步長為0.1),并采用10折交叉驗證方法得出最優(yōu)參數(shù)。

實驗數(shù)據(jù)集中正常數(shù)據(jù)4 000條,Probing攻擊、DOS攻擊和R2L攻擊數(shù)均為1 000條,U2R攻擊數(shù)為249條,實驗結(jié)果如表1~表4所示。

從表1和表3可以得出,與單個SVM、經(jīng)典D-S融合SVM相比,加權(quán)D-S融合SVM 的方法幾乎在所有的攻擊類型的檢測率上都有很大的提高,比較均衡,而且在提高檢測率的同時又降低了虛警率(綜合以上實驗可以看出,加權(quán)D-S融合SVM算法的虛警率為0.63%,是最低的),即通過加權(quán)D-S證據(jù)理論融合SVM的方法可以解決單一檢測算法在網(wǎng)絡(luò)異常檢測中虛警率高的問題。

Table 1 Detection rate evaluation of each type of attack on single SVM、classical D-S fuse with SVM and improved D-S fuse with SVM表1 單個SVM、經(jīng)典D-S融合SVM和改進D-S融合SVM在每種攻擊類型上的檢測率評測

Table 2 Results evaluation of three feature sets表2 分特征集訓(xùn)練結(jié)果評測 %

Table 3 Results of the weighted D-S fusion theory fused with SVM表3 加權(quán)D-S融合SVM的檢測結(jié)果

Table 4 Comparison of single SVM,classical D-S fusion SVM and weighted D-S fusion SVM on all the attacks表4 單個SVM、經(jīng)典D-S融合SVM和加權(quán)D-S融合SVM在所有攻擊上的整體比較

從表2可以明顯看出,以總體特征集訓(xùn)練的SVM比以基本特征集、內(nèi)容特征集以及流量特征集分別訓(xùn)練的單SVM檢測率要高一些,但同時也產(chǎn)生了比較高的誤報率。將多個SVM分類器得到的結(jié)果經(jīng)過本文提出的加權(quán)D-S融合檢測模型,得出的檢測率比單個SVM所訓(xùn)練預(yù)測的檢測率要高一些,同時也降低了檢測中的誤報率。

表4的數(shù)據(jù)表明,加權(quán)D-S證據(jù)理論融合多個SVM的檢測率最高,同時,從F-Score上也能看出改進D-S證據(jù)理論融合多個SVM的檢測模型的性能較好。

使用ROC曲線和AUC值對模型進行性能評價。

Figure 2 Comparison of ROCcurves圖2 ROC曲線比較

圖2 中實線下的AUC值為0.957 1,帶圈虛線下的AUC值為0.982 6,而帶框?qū)嵕€下的AUC值為0.994 4。可以看出,經(jīng)典D-S融合算法能有效地提高檢測系統(tǒng)的檢測性能,而本文使用的加權(quán)D-S融合SVM檢測模型,能夠得到比經(jīng)典D-S融合算法更好的檢測性能。

5 結(jié)束語

不管是用傳統(tǒng)的評價方式還是ROC曲線和AUC值的評價策略,都不難看出,本文提出的改進D-S融合算法在提高檢測性能的同時,也能有效地遏制誤報率,并且很好地改善了在各類攻擊上的檢測效果。

[1] Tang Zheng-jun,Li Jian-h(huán)ua.Intrusion detection[M].Beijing:Tsinghua University Press,2004.(in Chinese)

[2] Zhuge Jian-wei,Wang Da-wei,Chen Yu,et al.A network anomaly detector based on the D-S evidence theory[J].Journal of Software,2006,17(3):463-471.(in Chinese)

[3] Su Lu,Li Quan-long,Xu Xiao-fei,et al.Data fusion algorithm for sensor network based on D-S evidence theory[J].MINI-MICRO SYSTEMS,2006,27(7):1321-1325.(in Chinese)

[4] Yang Jing,Lin Yi,Hong Lu,et al.Improved method to DS evidence theory based on weight and matrix[J].Computer Engineering and Applications,2012,48(20):150-153.(in Chinese)

[5] KDD Cup 1999Data[EB/OL].[2008-01-01].http://www.ics.uci.edu/~kdd/databases/kddcup99/kddcup99.html.

[6] LIBSVM data sets[CP/OL].[2012-07-01].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.(in Chinese)

[7] Chen You,Shen Hua-wei,Li Yang,et al.An efficient feature selection algorithm toward building lightweight intrusion detection system[J].Chinese Journal of Computers,2007,30(8):1398-1408.(in Chinese)

[8] Tian Jun-feng,Zhao Wei-dong,Du Rui-zhong.D-S evidence theory and its data fusion application in intrusion detection[C]∥Proc of CIS’05,2005:244-251.

[9] Halavati R ,Shouraki S B,Zadeh S H.Recognition of human speech phonemes using a novel fuzzy approach[J].Applied Soft Computing Journal,2007,7(3):828-839.

[10] The ROSETTA Homepage[EB/OL].[1998-04-02].http://www.idi.ntnu.no/~aleks/rosetta/.

[11] Yao Yu,Gao Fu-xiang,Yu Ge.IDS evaluation approach based on ROC curves [J].Journal on Communications,2006,26(1A):113-115.(in Chinese)

附中文參考文獻:

[1] 唐正軍,李建華.入侵檢測技術(shù)[M].北京:清華大學(xué)出版社,2004.

[2] 諸葛建偉,王大為,陳昱,等.基于D-S證據(jù)理論的網(wǎng)絡(luò)異常檢測方法[J].軟件學(xué)報2006,17(3):463-471.

[3] 宿陸,李全龍,徐曉飛,等.基于DS證據(jù)理論的傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法[J].小型微型計算機系統(tǒng),2006,27(7):1321-1325.

[4] 楊靖,林益,洪露,等.一種改進的D-S證據(jù)理論合成方法[J].計算機工程與應(yīng)用,2012,48(20):150-153.

[7] 陳友,沈華偉,李洋,等.一種高效的面向輕量級入侵檢測系統(tǒng)的特征選擇算法[J].計算機學(xué)報,2007,30(8):1398-1408.

[6] LIBSVM data sets[CP/OL].[2012-07-01].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

[11] 姚羽,高福祥,于戈.基于ROC曲線的入侵檢測評估方法[J].通信學(xué)報,2006,26(1A):113-115.

猜你喜歡
分類器證據(jù)函數(shù)
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
函數(shù)備考精講
對于家庭暴力應(yīng)當(dāng)如何搜集證據(jù)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
手上的證據(jù)
手上的證據(jù)
“證據(jù)”:就在深深的水底下——《今生今世的證據(jù)》“讀不懂”反思
榆中县| 乌恰县| 望奎县| 台南市| 澎湖县| 重庆市| 元谋县| 巴塘县| 临泉县| 荃湾区| 宕昌县| 句容市| 宿松县| 鄢陵县| 新丰县| 三穗县| 平昌县| 景宁| 平原县| 鄢陵县| 穆棱市| 拉萨市| 周至县| 阳信县| 芮城县| 葫芦岛市| 巴东县| 阿鲁科尔沁旗| 泉州市| 都昌县| 盘锦市| 阆中市| 长武县| 新晃| 乌兰察布市| 灵台县| 张家港市| 石首市| 五大连池市| 大足县| 柳江县|