馮慶華
(江蘇建筑職業(yè)技術(shù)學(xué)院 實(shí)驗(yàn)實(shí)訓(xùn)與職業(yè)技能管理中心,江蘇 徐州221116)
蟻群算法選擇特征與WSVM融合的網(wǎng)絡(luò)入侵檢測(cè)
馮慶華
(江蘇建筑職業(yè)技術(shù)學(xué)院 實(shí)驗(yàn)實(shí)訓(xùn)與職業(yè)技能管理中心,江蘇 徐州221116)
為了提高網(wǎng)絡(luò)入侵檢測(cè)率,提出一種蟻群算法選擇特征與加權(quán)支持向量機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法.利用蟻群算法選擇網(wǎng)絡(luò)數(shù)據(jù)的關(guān)鍵特征,計(jì)算信息增益獲得各個(gè)特征權(quán)重,根據(jù)特征權(quán)重構(gòu)建了加權(quán)支持向量機(jī)的網(wǎng)絡(luò)入侵分類器,并通過KDD CUP 99數(shù)據(jù)集驗(yàn)證了其有效性.結(jié)果表明:該算法能夠有效降低特征維數(shù),提高網(wǎng)絡(luò)入侵檢測(cè)率和檢測(cè)效率.
網(wǎng)絡(luò)入侵檢測(cè);蟻群優(yōu)化算法;特征選擇;特征加權(quán);支持向量機(jī)
在互聯(lián)網(wǎng)發(fā)展歷程中,由于網(wǎng)絡(luò)入侵手段復(fù)雜多變,攻擊量和危害程度日益嚴(yán)重,網(wǎng)絡(luò)入侵檢測(cè)一直是網(wǎng)絡(luò)安全研究的重點(diǎn).原始網(wǎng)絡(luò)入侵包含一些冗余特征和對(duì)檢測(cè)結(jié)果起“反作用”的噪聲特征,如果將其直接輸入到分類器進(jìn)行學(xué)習(xí),對(duì)入侵檢測(cè)率將產(chǎn)生不利影響,因此需要選擇與網(wǎng)絡(luò)入侵檢測(cè)結(jié)果強(qiáng)相關(guān)的關(guān)鍵特征,降低其特征維數(shù)[3].因網(wǎng)絡(luò)入侵分類器影響著最終的檢測(cè)正確率和計(jì)算復(fù)雜度,分類器設(shè)計(jì)已成為與特征選擇并重的內(nèi)容.目前廣泛使用的主要有Fisher線性判別(FLD)、支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)等分類器.SVM通過映射能解決高維空間的學(xué)習(xí)問題,具有很好的推廣能力,成為當(dāng)前主要的網(wǎng)絡(luò)檢測(cè)算法[6-7].但由于SVM算法基于全部網(wǎng)絡(luò)狀態(tài)特征重要程度相同,當(dāng)特征中含有對(duì)網(wǎng)絡(luò)入侵檢測(cè)結(jié)果不利影響時(shí),將導(dǎo)致學(xué)習(xí)精度降低,阻礙網(wǎng)絡(luò)入侵分類器的推廣能力[8].因此,必須對(duì)不同特征賦予不同權(quán)值,以體現(xiàn)其對(duì)入侵檢測(cè)的貢獻(xiàn)[9].
為了提高網(wǎng)絡(luò)入侵檢測(cè)效果,本文提出一種蟻群算法選擇特征與WSVM融合的網(wǎng)絡(luò)入侵檢測(cè)方法(ACO- WSVM).即利用蟻群優(yōu)化算法(ACO)選擇特征,用信息增益算法計(jì)算特征權(quán)重,進(jìn)而建立特征選擇和加權(quán)支持向量機(jī)(WSVM)的網(wǎng)絡(luò)入侵檢測(cè),并可通過KDD CUP 99數(shù)據(jù)集對(duì)算法的優(yōu)劣進(jìn)行仿真測(cè)試.
在ACO進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)特征選擇時(shí),需要將網(wǎng)絡(luò)入侵檢測(cè)特征作為螞蟻要訪問的一個(gè)地點(diǎn),從而將特征優(yōu)化問題轉(zhuǎn)化為路徑搜索問題[10].
1)建立適應(yīng)度函數(shù).適應(yīng)度函數(shù)定義為:
式中:d為選擇特征子集s的維數(shù);D為網(wǎng)絡(luò)入侵檢測(cè)候選特征集的維數(shù);e為分類錯(cuò)誤率;λ為分類錯(cuò)誤率權(quán)重系數(shù).
2)確定螞蟻狀態(tài)轉(zhuǎn)移概率.螞蟻從特征i轉(zhuǎn)移至j的概率為:
式中:ηij為啟發(fā)因子;τij(t)為信息素;u k為螞蟻k的禁忌表;α為信息素的權(quán)重;β為啟發(fā)因子的權(quán)重.
3)局部細(xì)化搜索過程.設(shè)螞蟻經(jīng)過k個(gè)次重要特征搜索,得到了k個(gè)重要特征.為了防止冗余特征保留在特征子集中,在k個(gè)特征搜索最優(yōu)子集uj,滿足:
式中:Si=Sm∪u i∪{f n},u i為任意特征子集.
4)更新路徑上的信息素.每完成一輪搜索后,各條路徑上信息濃度需要更新,具體為:
式中:n為迭代輪數(shù);ρ為信息素殘留因子;k為螞蟻編號(hào);F(sk)為適應(yīng)度值;Q為信息素增長濃度.為強(qiáng)化最優(yōu)路徑影響,對(duì)信息素進(jìn)行額外的附加激勵(lì),即有
式中:F(sopt)為本輪最優(yōu)特征子集的適應(yīng)度函數(shù).
通過網(wǎng)絡(luò)特征選擇后,得到一些對(duì)入侵檢測(cè)結(jié)果有作用的特征,但每一個(gè)特征對(duì)分類結(jié)果的影響程度不同,需要對(duì)它們賦予不同的權(quán)值.在特征加權(quán)過程中,權(quán)重ω的求取是關(guān)鍵,本文通過信息增益方法度量特征的重要性,即以信息增益代表特征的權(quán)值大小,信息增益表示為:
式中:p(ci)為任意樣本屬于ci的概率;H為熵值函數(shù).由式(6)、式(7)可以得到:
通過上述方法可以計(jì)算數(shù)據(jù)集D的每個(gè)特征信息增益,具有最高信息增益的特征對(duì)分類貢獻(xiàn)最大.
假設(shè)數(shù)據(jù)集D中的每個(gè)樣本由n個(gè)m維特征描述,則各特征的信息增益I G可以準(zhǔn)確地描述各個(gè)特征的權(quán)重.
1)以加權(quán)核函數(shù)對(duì)支持向量機(jī)進(jìn)行設(shè)計(jì),這樣的支持向量機(jī)稱為特征加權(quán)支持向量機(jī)(WSVM),特征加權(quán)核函數(shù)k p定義為:
式中:P為特征加權(quán)矩陣.
采用特征加權(quán)高斯徑向基核函數(shù)為:
式中:σ2為高斯徑向基核寬度.
2)WSVM算法可描述如下:
式中:C為懲罰參數(shù),ω為權(quán)值向量.
采用Lagrange乘子對(duì)式(11)進(jìn)行求解:
式中:a i為lagrange乘子,b為偏移量.
分別對(duì)ω、b、ξ求偏導(dǎo),并令其等于0得到:
將式(13)代入式(12),得式(11)的對(duì)偶問題為:
3)網(wǎng)絡(luò)入侵檢測(cè)的ACO- WSVM構(gòu)造步驟如下:
(1)收集網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練樣本集{(x1,y1),…,(x i,y i)},其中xi=(x1i,x2i,…,x di)是d維向量,y i∈(+1,-1),i=(1,…,l).
(2)通過ACO選擇關(guān)鍵的網(wǎng)絡(luò)連接特征.
(3)根據(jù)信息增益法計(jì)算出每個(gè)特征的權(quán)重,并構(gòu)造特征權(quán)向量β=diag(β1,β2,…,βn)T.
(4)選擇適當(dāng)?shù)膽土P參數(shù)C>0,根據(jù)式(14)構(gòu)造并求解最優(yōu)化問題求得最優(yōu)解α=(α1,…,αl)T.
(5)選擇α的一個(gè)分量αj(0<αj<C)所對(duì)應(yīng)的樣本點(diǎn)(xi,x j),并據(jù)此計(jì)算b,構(gòu)造網(wǎng)絡(luò)入侵檢測(cè)的最優(yōu)決策函數(shù)f(x)=sgn((ω·x)+b).
實(shí)驗(yàn)數(shù)據(jù)選用KDD CUP 99數(shù)據(jù)集,包含4類攻擊方式:DoS(拒絕服務(wù)攻擊)、R2L(未經(jīng)授權(quán)的遠(yuǎn)程訪問)、Probe(掃描與探測(cè))和U2R(對(duì)本地超級(jí)用戶的非法訪問).
1)特征選擇前后的性能比較.(1)隨機(jī)選擇5 000個(gè)訓(xùn)練集和1 000個(gè)測(cè)試集,并將其特征進(jìn)行歸一化處理,縮小至[0,1]范圍內(nèi).(2)將訓(xùn)練集輸入到SVM中進(jìn)行訓(xùn)練,并對(duì)測(cè)試集進(jìn)行檢測(cè),得到特征選擇前的入侵檢測(cè)結(jié)果.(3)將訓(xùn)練集輸入到SVM中,采用ACO結(jié)合SVM算法進(jìn)行特征選擇,得到最優(yōu)特征如表1所示.(4)根據(jù)步驟(3)的特征選擇結(jié)果,對(duì)訓(xùn)練集和測(cè)試集進(jìn)行篩選.(5)將訓(xùn)練集輸入到SVM進(jìn)行訓(xùn)練,得到入侵檢測(cè)結(jié)果.
表1 ACO選擇的特征Tab.1 features of ACO selection
采用5組實(shí)驗(yàn),取檢測(cè)結(jié)果的平均值,得到特征選擇前后的入侵檢測(cè)率見表2,運(yùn)行時(shí)間見表3.從表2中可知,特征選擇后的平均網(wǎng)絡(luò)入侵檢測(cè)率上升了3.10%,結(jié)果表明,進(jìn)行特征選擇消除了冗余特征,入侵檢測(cè)性能明顯提高.
表2 特征選擇前后的平均入侵檢測(cè)率對(duì)比Tab.2 Comparison of average intrusion detection rates before and after feature selection %
由表3可知,特征選擇后網(wǎng)絡(luò)入侵檢測(cè)模型的運(yùn)行時(shí)間大幅度減少,表明了通過ACO進(jìn)行網(wǎng)絡(luò)特征選擇,可以取得一些關(guān)鍵特征,減少了輸入維數(shù)和計(jì)算時(shí)間,加快了檢測(cè)速度,網(wǎng)絡(luò)特征選擇能夠更加滿足網(wǎng)絡(luò)入侵檢測(cè)的實(shí)時(shí)性要求.
表3 特征選擇前后運(yùn)行時(shí)間對(duì)比Tab.3 Comparison of runtime before and after feature selectionms
2)特征加權(quán)前后的網(wǎng)絡(luò)入侵性能比較.首先采用信息增益法計(jì)算出每個(gè)特征的權(quán)重,然后對(duì)特征進(jìn)行權(quán)重處理,并構(gòu)建加權(quán)支持向量機(jī)的網(wǎng)絡(luò)入侵分類器,得到檢測(cè)結(jié)果見表4.由表4可知,在相同實(shí)驗(yàn)條件下,ACO-WSVM的網(wǎng)絡(luò)入侵檢測(cè)方法無論在時(shí)間效率還是網(wǎng)絡(luò)入侵檢測(cè)率上,較原始支持向量機(jī)分類方法均有明顯提高,對(duì)Normal的侵檢測(cè)達(dá)到了99.13%,這主要是根據(jù)特征對(duì)分類結(jié)果的影響進(jìn)行合理加權(quán)處理,有效減少了被錯(cuò)分的樣本,而原來分類正確樣本不變.結(jié)果表明,通過加權(quán)后,網(wǎng)絡(luò)入侵各類入侵檢測(cè)正確率得到不同程度地提高.
表4 加權(quán)前后的入侵檢測(cè)率對(duì)比Tab.4 Comparison of intrusion detection rates before and after weighting %
因?yàn)镾V能夠代表整個(gè)特征集,對(duì)SV集合的劃分實(shí)際就是就對(duì)整個(gè)特征集的劃分,結(jié)果表明ACO- WSVM具有一定的優(yōu)越性.特征加權(quán)前后SV集的比較結(jié)果如圖1所示.
圖1 特征加權(quán)前后支持向量集比較Fig.1 Comparison of support vector set before and after feature weighting
從圖1可以看出,加權(quán)后ACO- WSVM的SV數(shù)量為578,遠(yuǎn)低于未加權(quán)時(shí)的915,邊界支持向量(BSV)下降了70.17%,并大幅度降低了錯(cuò)分樣本數(shù),對(duì)比結(jié)果顯示,通過加權(quán)后,位于分類面邊界樣本明顯少,檢測(cè)效率得以提高,表明ACO -WSVM對(duì)特征進(jìn)行加權(quán)處理,可以提高網(wǎng)絡(luò)入侵檢測(cè)速度.
針對(duì)當(dāng)前網(wǎng)絡(luò)入侵檢測(cè)問題,提出一種蟻群算法選擇與特征加權(quán)支持向量機(jī)相融合的網(wǎng)絡(luò)入侵檢測(cè)方法.仿真結(jié)果表明,ACO- WSVM能夠選擇與檢測(cè)結(jié)果關(guān)聯(lián)程度較高的特征子集,有效地對(duì)特征進(jìn)行降維,提高了網(wǎng)絡(luò)入侵檢測(cè)效率和檢測(cè)正確率.
[1] 姜春茂,張國印,李志聰.基于遺傳算法優(yōu)化SVM的嵌入式網(wǎng)絡(luò)系統(tǒng)異常入侵檢測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(2):287- 289.
[2] Denning D E.An Intrusion Detection Model[J].IEEE Transaction on Software Engineering,2010,13(2):222- 232.
[3] Huang C L,Wang C J.A GA-based feature selection and parameters optimization for support vector machines[J].Expert Systems with Applications,August 2009,31(2):231- 240.
[4] Durga P M,Nikhil R P,Jyotirmoy D.Genetic programming for simultaneous feature selection and classifier design[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B,February,2009,36(1):106- 117.
[5] Kennedy J,Eberhart R C.Particle swarm optimization[C].Proc of IEEE International Conference on Neural Networks,USA:IEEE Press,2005:1942-1948.
[6] 彭義春,牛熠,胡琦偉.基于IRBF的入侵檢測(cè)系統(tǒng)的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(9):187- 190.[7] 李燁,蔡云澤,尹汝潑,等.基于證據(jù)理論的多類分類支持向量機(jī)集成[J].計(jì)算機(jī)研究與發(fā)展,2008,45(4):571- 578.
[8] 龔明朗,許榕生.一種改進(jìn)的PSO算法在網(wǎng)格入侵檢測(cè)系統(tǒng)中的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(3):274- 278.
[9] Helmi M R,Zulaiha A O,Abdul R H.Improved dynamic ant colony system on symmetric traveling salesman problem[C].International Conference on Intelligent and Advanced Systems,2011:43- 48.
[10] Montemanni R,Smith D H,Gambardella L M.Ant colony systems for large sequential ordering problems[C].Proceedings of the 2007 IEEE Swarm Intelligence Symposium,2007:478- 482.
Network intrusion detection with ant colony optimization feature selection and WSVM
FENG Qing-hua
(Management Center of Experimental Training and Vocational Skills,Jiangsu Jianzhu Institute,Xuzhou,Jiangsu 221116,China)
In order to improve the detection rate of network intrusion,this paper proposes a network intrusion detection method with ant colony optimization feature selection and weighted support vector machin.By selecting the key features of network data with ant colony optimization,we calculates information gain to get each feature weight,establishes network intrusion classifier of weighted support vector machine according to feature weight,and verifies the validity through KDD CUP 99 dataset.Results show that ACO-WSVM can reduce the feature dimension effectively and improve network intrusion detection rate and efficiency.
network intrusion detection;ant colony optimization;feature selection;feature weighting;support vector machine
TP 393.08
A
2095- 3550(2014)03- 0038- 04
2014- 04- 28
馮慶華,男,江蘇江都人,實(shí)驗(yàn)師,碩士.
E- mail:240169709@qq.com
(責(zé)任編輯:趙國淮)