欒玉飛,趙旭東,亞森·艾則孜
利用Pittsburgh遺傳算法優(yōu)化模糊規(guī)則的網(wǎng)絡(luò)入侵檢測
欒玉飛,趙旭東,亞森·艾則孜
針對計算機網(wǎng)絡(luò)中安全性問題,提出了一種融合模糊規(guī)則和Pittsburgh型遺傳算法的網(wǎng)絡(luò)入侵檢測方案。首先,通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。然后,利用Pittsburgh型遺傳算法,通過交叉和變異操作來進化模糊系統(tǒng)的規(guī)則,產(chǎn)生高分類率的模糊規(guī)則。最后,通過協(xié)同進化后的模糊系統(tǒng)實現(xiàn)入侵檢測。在DARPA數(shù)據(jù)集上進行實驗,結(jié)果表明該方案能夠精確的檢測U2R、R2L、DoS和PRB類網(wǎng)絡(luò)攻擊,具有很高的安全性。
網(wǎng)絡(luò)入侵檢測;模糊規(guī)則;Pittsburgh型遺傳算法;規(guī)則優(yōu)化
當前計算機網(wǎng)絡(luò)盡管具有多重安全策略,譬如,訪問控制、加密以及防火墻的應(yīng)用,然而,網(wǎng)絡(luò)安全的漏洞還是與日俱增。因此,迫切需要智能的入侵檢測系統(tǒng)(Intrusion Detection System,IDS)來自動地檢測新型的入侵行為[1]。
目前,主要有兩種入侵檢測方法:誤用檢測和異常檢測。誤用檢測的檢測速度快、誤報警率低,但其只能檢測出數(shù)據(jù)中已知的入侵模式,無法檢測新出現(xiàn)的入侵行為,且需要實時的更新數(shù)據(jù)庫[2]。異常檢測系統(tǒng)能夠檢測出新的入侵行為,但通常具有較高的誤報警率[3]。基于模糊if-then規(guī)則[4]的模糊系統(tǒng)在很多應(yīng)用領(lǐng)域已得到成功應(yīng)用。為此,學者們也提出了多種基于模糊系統(tǒng)的IDS,例如,文獻[5]提出一種基于模糊規(guī)則學習模型的入侵檢測方案,創(chuàng)建了基于權(quán)重的模糊檢測規(guī)則,并引入一種反饋學習算法,用于對檢測規(guī)則的改進。文獻[6]提出一種基于模糊關(guān)聯(lián)規(guī)則挖掘的入侵檢測方案,實現(xiàn)了從數(shù)據(jù)集屬性到模糊映射的過程,并利用K-means聚類算法為量化屬性建立模糊集合和模糊隸屬函數(shù),增強關(guān)聯(lián)規(guī)則的客觀性。
一般情況下,若模糊模型的精確性較高,其解釋性相對較差。而具備較高解釋性的模糊模型,其精確性又較低[7]。精確性與解釋性較好折衷的模糊模型,具有簡單的結(jié)構(gòu)和較少的參數(shù),運算量低,泛化能力強。由于模糊邏輯的知識表達能力與進化計算的全局自學習能力可以互補[8]。所以,可引用進化計算來改進模糊系統(tǒng)。其中,遺傳算法是進化計算理論體系中最具代表性的算法,因此可形成一種有效的遺傳模糊系統(tǒng)。
本文基于遺傳模糊系統(tǒng)的思想,提出一種融合模糊規(guī)則和Pittsburgh型遺傳算法的網(wǎng)絡(luò)入侵檢測系統(tǒng)。首先,通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。然后,利用Pittsburgh型遺傳算法進化模糊系統(tǒng)的規(guī)則,進行協(xié)同進化,最終通過模糊規(guī)則實現(xiàn)入侵檢測。實驗結(jié)果表明,本文方案能夠精確的檢測網(wǎng)絡(luò)攻擊。
1.1 模糊規(guī)則分類
本文假設(shè)模式分類問題為具有連續(xù)屬性的n-維模式空間中的c-類問題。同時還假設(shè)給定m個實向量并將其作為來自c個類的訓練模式c≤m。
由于模式空間為[0,1]n,所以每種模式的屬性值為在本文中,將每個數(shù)據(jù)集的屬性值規(guī)范化到單位區(qū)間[0,1]。
本文提出的模糊分類器系統(tǒng)中,使用如下形式的if-then規(guī)則。
其中,Rj為第j個if-then規(guī)則的標簽,Aji,K,Ajn為單位區(qū)間[0,1]上的前件模糊集,Cj為后件類(即給定C類中的一類),CFj為模糊if-then規(guī)則Rj的確定性分數(shù)。本文將一組典型的語言值用作圖1中的前件模糊集,并通過把每種屬性域劃分為對稱的三角模糊集,明確圖1中每個語言值的隸屬函數(shù)。值得注意的是,對于特定模式分類問題,本文在模糊分類系統(tǒng)中可以使用任何定制的隸屬度函數(shù),如圖1所示:
圖1 五個語言值的隸屬度函數(shù)(S:小,MS:中小,M:中,ML:中大,L:大)
在n維模式分類問題中,模糊if-then規(guī)則的總數(shù)為5n。當屬性的數(shù)量(即n)很大時(如n=41的入侵檢測問題),有可能在單模糊規(guī)則庫中使用所有5n個模糊if-then規(guī)則。
本文模糊分類系統(tǒng)搜索相對數(shù)量較小的具有高分類能力的模糊if-then規(guī)則(如100個規(guī)則)。由于每個模糊if-then規(guī)則的后件類和確定性分數(shù)可以通過簡單的啟發(fā)式過程從訓練模式中確定,所以本文模糊分類系統(tǒng)的任務(wù)是,為一個模糊if-then規(guī)則集生成前件模糊集的組合。然而,該任務(wù)對于高維模式分類器問題來說是很難的,因為搜尋空間涉及5n個組合(如在n=13時,多于1 000萬個)。
為此,在本文模糊分類器系統(tǒng)中,通過利用啟發(fā)式過程來確定每個模糊if-then后件類Ci和確定性分數(shù)CFj。步驟如下描述。
1.2 Ci和CFj的確定
步驟2:對于每個類,計算具有模糊if-then規(guī)則Rj的訓練模式的兼容性分數(shù)為式(2):
上式中,βClass(Rj)為類h中具有模糊if-then規(guī)則Rj的訓練模式的兼容性分數(shù)總和。NClass為對應(yīng)類為h的訓練模式的數(shù)量。
步驟3:找出具有最大βClassh(Rj)值的類?j為式(3):
如果兩個或更多的類具有最大值,則不能確定唯一模糊if-then規(guī)則的后件類Cj。在這種情況下,令Cj為φ。如果沒有與模糊if-then規(guī)則Rj相配的訓練模式(即,對于則還將后件類Cj指定為φ。
步驟4:如果后件類Cj為φ,則令模糊if-then規(guī)則Rj的確定性分數(shù)CFj=0。否則,用以下公式計算確定性分數(shù)CFj為式(4)、(5):
通過本文提出的啟發(fā)式過程,可以指定任意前件模糊集組合的后件類和確定性分數(shù)。
本文模糊分類器系統(tǒng)的任務(wù)是生成前件模糊集的組合,用以生成具有高分類能力的規(guī)則集S。然后,通過S中的單優(yōu)先規(guī)則來分類,其確定如為式(6):
也就是說,優(yōu)先原則選出具有最大兼容性和確定性分數(shù)CFj。如果不存在與輸入的模式一致的模糊規(guī)則(即,對于則拒絕分類。
本文中,將每個模糊if-then規(guī)則編碼為字符串。利用下面的符號來表示五個語言值:1:小;2:中小;3:中;4:中大,5:大。例如,若模糊if-then規(guī)則被編碼為—1342”,即x1為小,x2為中,x3為中大,x4為中小,則類cj滿足CF=CFj。
入侵檢測是一個高維度的分類問題,在該問題中,將41維的特征向量作為輸入,將5個類作為其輸出。所以在本文中,種群中和每個規(guī)則集中的所有規(guī)則的類標簽都相同。因此,在分類問題中,對于每個類重復遺傳模糊規(guī)則生成算法。
本文目標分類器由c個分類器組成。每個分類器獨立發(fā)展,將獲得的模糊規(guī)則集組合用于最終分類器系統(tǒng)的結(jié)構(gòu)中。目標分類器的結(jié)構(gòu)如圖2所示:
圖2 本文目標分類器結(jié)構(gòu)
Pittsburgh型遺傳算法[9]中,每一條染色體代表一個完整的模糊模型,種群中多個染色體形成多個待選擇的模糊模型,交叉與變異操作產(chǎn)生新的模糊模型,基于適應(yīng)度函數(shù)的選擇操作使較優(yōu)的模糊模型能夠產(chǎn)生下一代個體。因為染色體的適應(yīng)度值即代表著染色體的優(yōu)劣,,所以Rttsburgh型遺傳算法不需要適應(yīng)度函數(shù)的權(quán)值分配策略[10]。
本文提出一種融合Pittsburgh型遺傳算法和模糊系統(tǒng)的入侵檢測方案,其算法的執(zhí)行步驟如下:
步驟1(初始化):生成模糊規(guī)則集的原始群體。步驟2(遺傳操作):通過遺傳操作生成模糊規(guī)則集。步驟3(替換):利用新生成的規(guī)則集替換一部分當前群體。
步驟4(終止):如果滿足停止條件,則終止該算法,否則,回到步驟2。
該模糊分類器系統(tǒng)的每個步驟詳細描述如下:
步驟1 初始化
初始化步驟中,根據(jù)直接規(guī)則生成方法產(chǎn)生每個規(guī)則集中的每條規(guī)則,生成Nset規(guī)則集。根據(jù)方程(7)計算每個規(guī)則集的適用度為式(7):
上式中,sj為群體中的第j個規(guī)則集,Nrs為每個規(guī)則集中的規(guī)則數(shù),NCP(Ri)為被Ri正確分類的訓練模式的數(shù)量。
步驟2 遺傳操作
基于方程(8)所示的選擇概率,從當前群體中選擇一對模糊規(guī)則集,以生成下一個群體的新模糊規(guī)則為式(8):
上式中,fitnessmin(S)為群體中模糊規(guī)則的最小適應(yīng)度值。迭代該過程直到選出模糊規(guī)則集的預設(shè)數(shù)。
為了從每對所選的規(guī)則集中生成新的規(guī)則集,本文以交叉概率Pc執(zhí)行單點交叉操作,其中,交叉截止點是隨機確定的,且父代和子代的強度相同,如圖3所示:
圖3 單點交叉示意圖
執(zhí)行交叉操作到每對都有一個預設(shè)的交叉概率。當交叉操作結(jié)束時,將父代的字符串選作為后代。
利用Michigan型變異算法,執(zhí)行變異操作來修正每個生成的規(guī)則集,其中變異概率為Pm。在執(zhí)行完變異操作之后,確定變異個體的后件類。如果該后件類與變異操作之前的個體的類相同,則接受變異個體;否則,重復變異操作直到預設(shè)的迭代數(shù)Mrepeat。在執(zhí)行完選擇、交叉和變異步驟之后,根據(jù)方程(7)評估每個生成個體的適應(yīng)度值。
步驟3.替換
利用新生成的規(guī)則替換當前種群中預設(shè)數(shù)目的模糊if-then規(guī)則,替換概率為PrepR。即,在本文模糊分類器系統(tǒng)中,從當前種群中移除百分之PrepR具有最小適應(yīng)度值的較差規(guī)則。并添加具有百分之新生成的模糊if-then規(guī)則(PrepR為替換百分比)。
步驟4.終止
當Pittsburgh遺傳模糊分類算法迭代次數(shù)達到預先設(shè)定的最大遺傳代數(shù)時,停止迭代過程。
3.1 實驗環(huán)境
本文在2.95 GHz Intel i3酷睿雙核處理器和4GB RAM的Windows 7系統(tǒng)上進行實驗。
實驗從KDDCup99隨機選擇10%作為標準數(shù)據(jù)集,KDDCup99提取自1998 DARPA入侵檢測評價程序,這個數(shù)據(jù)庫包括軍用網(wǎng)絡(luò)環(huán)境中仿真的各種入侵,常用作評價入侵檢測技術(shù)的基準。該數(shù)據(jù)集有41個特征,每個記錄加一個包含23個攻擊的類標簽,其已經(jīng)標記為正?;蚬?。其中,惡意攻擊包含四種類別分別為:探測(PRB)攻擊、拒絕服務(wù)(DoS)攻擊、非法遠程闖(R2L)攻擊和非法提升權(quán)限(U2R)攻擊。將實驗數(shù)據(jù)分成兩部分:訓練數(shù)據(jù)和測試數(shù)據(jù),分別涉及大約25000和27000條數(shù)據(jù)。訓練數(shù)據(jù)用來根據(jù)目標問題中給定的規(guī)則產(chǎn)生模型,接下來該模型將用于測試數(shù)據(jù),以獲得驗證精度。
在本文提出的基于遺傳模糊系統(tǒng)的IDS中,設(shè)定遺傳算法所使用的參數(shù)如下:種群大小為20;交叉概率(Pc)為0.9;變異概率(Pm)為0.1;變異迭代數(shù)(Mrepeat)為20;替代率(PrepR)為20;最大遺傳代數(shù)為20。
3.2 性能指標
規(guī)則在測試階段執(zhí)行的好壞取決于分類精度測量的可靠性。一般情況下,標準分類準確率可以寫為式(9):
然而,大多數(shù)非線性分類問題的類分布極不平衡。因此式(9)不能有效的測量模型的準確率。因此本文采用新的評估指標,具體形式如式(10):
式(10)中:
(1)真陽性(TP):擁有由規(guī)則預測的類的規(guī)則覆蓋實例數(shù)。
(2)假陽性(FP):擁有不同于由規(guī)則預測類的規(guī)則覆蓋實例數(shù)。
(3)真陰性(TN):擁有不同于由規(guī)則預測類的規(guī)則不覆蓋實例數(shù)。
(4)假陰性(FN):擁有由規(guī)則預測類的規(guī)則不覆蓋實例數(shù)。
3.3 性能比較
首先,將本文方案應(yīng)用到測試集上,驗證本文方案的性能。本文方案在測試集上的實驗結(jié)果如表1所示:
表1 本文算法在測試集上的實驗結(jié)果
為了更好地體現(xiàn)本文所提方案的優(yōu)越性,將本文所提方案與其它幾種較為先進的方法在各個數(shù)據(jù)集上的實驗結(jié)果進行了比較,包括文獻[5]提出的基于模糊規(guī)則學習的入侵檢測方案和文獻[6]提出的模糊關(guān)聯(lián)規(guī)則+K-means的入侵檢測方案。列出了各種方案的比較結(jié)果如表2所示:
表2 各種IDS的入侵檢測分類準確率比較
可以看出,本文IDS的在R2L和PRB類的分類率明顯高于其他方案,整體準確分類率也遠遠高于其它方案,分別比文獻[5]和文獻[6]方案性能提高了12.3%和8.67%。這是因為本文使用的基于遺傳模糊系統(tǒng)的IDS比其他方法更可靠。
本文提出一種融合模糊規(guī)則和Pittsburgh型遺傳算法的網(wǎng)絡(luò)入侵檢測方案。通過一種啟發(fā)式過程來確定每個模糊if-then規(guī)則后件類和確定性分數(shù)。利用Pittsburgh型遺傳算法協(xié)同進化模糊系統(tǒng)的規(guī)則。實驗表明,本文方法對U2R、R2L、DoS和PRB類攻擊的整體檢測率達到了89.53%,具有很高的性能。
在今后工作中,將考慮使用多目標演化模糊系統(tǒng)來提取一個易于理解的模糊分類器,進一步提高本文IDS性能。
[1] 肖寅東, 王厚軍, 田書林. 高速網(wǎng)絡(luò)入侵檢測系統(tǒng)中包頭解析方法[J]. 儀器儀表學報, 2012, 33(6): 1414-1419.
[2] 高苗粉, 秦勇, 李勇,等. 網(wǎng)絡(luò)入侵檢測系統(tǒng)自體集檢測中的概率匹配高效尋優(yōu)機制[J]. 計算機應(yīng)用, 2013, 33(1): 156-159.
[3] Elngar A A, Elanda[A], Ghaleb F M. A real-time anomaly network intrusion detection system with high accuracy[J]. Information Sciences Letters, 2013, 35(3): 49-56.
[4] 李晶皎, 許哲萬, 王愛俠,等. 基于移動模糊推理的DoS攻擊檢測方法[J]. 東北大學學報:自然科學版, 2012, 33(10): 1394-1398.
[5] Elhag S, Fernández A, Bawakid A, et al. On the combination of genetic fuzzy systems and pairwise learning for improving detection rates on intrusion detection systems[J]. Expert Systems with Applications, 2015, 42(1): 193-202.
[6] Khamphakdee N, Benjamas N, Saiyod S. Improving intrusion detection system based on snort rules for network probe attacks detection with association rules technique of data mining[J]. Journal of Ict Research & Applications, 2015, 8(3): 234-250.
[7] 周豫蘋, 方建安. 神經(jīng)模糊理論在入侵檢測系統(tǒng)中的應(yīng)用研究[J]. 微電子學與計算機, 2010, 27(9): 126-129. [8] 李晶皎, 許哲萬, 王愛俠,等. 基于移動模糊推理的DoS攻擊檢測方法[J]. 東北大學學報:自然科學版, 2012, 33(10): 1394-1398.
[9] Mehta S B, Chaudhury S, Bhattacharyya A, et al. Tissue classification in magnetic resonance images through the hybrid approach of Pittsburgh and Pittsburg genetic algorithm.[J]. Applied Soft Computing, 2011, 11(4): 3476-3484.
[10] Li W, Gong Z. Pittsburgh-based variable-length encoding of genetic algorithm for k-anonymization[C]// Information Science and Engineering (ICISE), 2010 2nd International Conference on. 2010: 1295-1298.
A Network Intrusion Detection Schemer Based on Fuzzy Rule with Genetic Algorithm Optimization
Luan Yufei, Zhao Xudong, Yasen·Aizezi
(Xinjiang Police College, Urumqi 830011, China)
For the issue of the security problem of computer network, a network intrusion detection schemer based on fuzzy rule and Pittsburgh genetic algorithm is proposed. Firstly, a heuristic procedure is set to determine the consequent class and the certainty score of each fuzzy if-then rule. Then, the rules of fuzzy system are evolved by crossover and mutation operations of the Pittsburgh genetic algorithm, to generate the fuzzy rules of high classification rate. Finally, the intrusion detection is realized by the fuzzy system after cooperative evolved. Experiments on DARPA data sets show that the proposed scheme can accurately detect U2R, R2L, DoS and PRB attacks, and has high security.
Network intrusion detection; Fuzzy rule; Pittsburgh genetic algorithm; Rules optimization
TP393
A
1007-757X(2016)10-0022-04
2016.01.22)
新疆維吾爾自治區(qū)自然科學基金科研項目(2015211A016)
欒玉飛(1982-),男,新疆人,新疆警察學院,講師,碩士,研究領(lǐng)域:計算機網(wǎng)絡(luò)、信息安全等,烏魯木齊 830013
趙旭東(1977-),男,安徽蕪湖人,新疆警察學院,講師,碩士,研究領(lǐng)域:信息安全、軟件工程等,烏魯木齊 830013
亞森·艾則孜(1975-),男,新疆庫車人,新疆警察學院,教授,碩士,國家電子數(shù)據(jù)司法鑒定員,研究領(lǐng)域:信息安全、自然語言處理等,烏魯木齊 830013