国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林的集成學(xué)習(xí)入侵檢測方法

2022-08-31 00:54盛展陳琳
電腦知識與技術(shù) 2022年19期
關(guān)鍵詞:隨機(jī)森林入侵檢測機(jī)器學(xué)習(xí)

盛展 陳琳

摘要:為解決網(wǎng)絡(luò)入侵檢測效果不佳的問題,提出一種基于隨機(jī)森林的集成學(xué)習(xí)入侵檢測方法。通過K-means和SMOTE處理數(shù)據(jù)集獲得相關(guān)度高的平衡數(shù)據(jù)子集,隨機(jī)森林選擇出最優(yōu)的特征子集,基于樹的集成學(xué)習(xí)方法分類結(jié)果。本文采用CICIDS2017數(shù)據(jù)集進(jìn)行本文方法可行性的研究,結(jié)果表明本文提出的方法相比傳統(tǒng)的單一機(jī)器學(xué)習(xí)方法具備更高的檢測精度和更低的時間開銷。

關(guān)鍵詞:隨機(jī)森林;集成學(xué)習(xí);入侵檢測;機(jī)器學(xué)習(xí)

中圖分類號:TP18? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2022)19-0087-02

1引言

隨著機(jī)器學(xué)習(xí)在入侵檢測的應(yīng)用,國內(nèi)外的學(xué)者對此進(jìn)行了大量的研究。如使用KNN[1]、決策樹[2]、隨機(jī)森林[3]算法等傳統(tǒng)機(jī)器學(xué)習(xí)算法解決網(wǎng)絡(luò)入侵中的異常行為,判斷其中的攻擊特點進(jìn)行預(yù)防和識別。但是傳統(tǒng)的機(jī)器學(xué)習(xí)算法都存在一些缺點:檢測精度低、運行速度慢等問題。文獻(xiàn)[4]提出結(jié)合過濾式特征選擇的入侵檢測方法,該方法速度快、計算復(fù)雜度低,可以擴(kuò)展到更高維的數(shù)據(jù)集。文獻(xiàn)[5]融合特征識別異常行為,通過自回歸模型對網(wǎng)絡(luò)流量分類,雖然速度快但是模型精度不夠、容易過擬合?;旌喜煌奶卣鬟x擇方案,能有效地解決各個特征選擇的缺點。文獻(xiàn)[6]結(jié)合混合過濾式和嵌入式的特征選擇結(jié)合集成學(xué)習(xí)時間開銷更少取得的效果更好,解決傳統(tǒng)特征選擇和機(jī)器學(xué)習(xí)時間精確的弊端。文獻(xiàn)[7]結(jié)合混合特征選擇和集成選擇克服了混合特征選擇和單一機(jī)器學(xué)習(xí)算法檢測精度問題和魯棒性低的問題,但由于數(shù)據(jù)集的不平衡對結(jié)果產(chǎn)生一定影響。

綜上所述,針對網(wǎng)絡(luò)入侵檢測高維數(shù)據(jù)集檢測效果不佳的問題,通過提出的隨機(jī)森林特征選擇和集成學(xué)習(xí)方案,相比于傳統(tǒng)機(jī)器學(xué)習(xí)方案,提高了分類檢測的效率,達(dá)到了更好的檢測精度。

2網(wǎng)絡(luò)入侵檢測模型

本文網(wǎng)絡(luò)入侵檢測模型具體如圖1所示,分為三個階段:數(shù)據(jù)預(yù)處理、特征選擇和集成學(xué)習(xí)。

2.1數(shù)據(jù)預(yù)處理階段

利用標(biāo)簽編碼器對網(wǎng)絡(luò)流量數(shù)據(jù)集進(jìn)行編碼,將分類特征轉(zhuǎn)換為數(shù)字特征,以支持ML算法的輸入。然后利用Z-score算法對網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行歸一化后使用K-means聚類抽樣算法對大樣本數(shù)據(jù)集進(jìn)行抽樣處理,對數(shù)據(jù)樣本進(jìn)行劃分為訓(xùn)練集和測試集,測試樣本比例為30%。

2.2 混合特征選擇算法

處理好的訓(xùn)練集使用SMOTE過采樣平衡數(shù)據(jù)樣本,根據(jù)Gini系數(shù)和OOB袋外樣本評價指標(biāo)以去除無關(guān)特征。將結(jié)果通過隨機(jī)森林算法的Gini系數(shù)得到初始特征權(quán)重比例系數(shù)。再通過OOB袋外誤錯率的評價指標(biāo),判斷選擇特征的可靠性,得到特征子集。對重要的特征或者被忽略的特征OOB袋外樣本誤錯率,能直觀地反映出該特征的重要性程度具體特征權(quán)重如圖2所示,選擇最佳的特征為39。

Smote算法基本思想是改變數(shù)據(jù)集的平衡性來保持?jǐn)?shù)據(jù)分類方法的性能,即通過增加少數(shù)類的數(shù)據(jù)與多數(shù)類的數(shù)據(jù)樣本進(jìn)行平衡。

[Xnew=X+rand (0,1)*Mi-X,i=1,2,…,N]? ? [(1)]

Gini系數(shù)初步評估樣本中各個特征之間的權(quán)重關(guān)系,并排序特征權(quán)重得到初始排序特征集。OOB袋外樣本誤錯率根據(jù)每棵決策樹都有一部分的特征沒有納入訓(xùn)練過程中,將這部分沒納入訓(xùn)練過程中產(chǎn)生的樣本誤差,叫作袋外樣本誤錯率,用來最終評估特征以獲得最優(yōu)特征子集。

2.3 集成學(xué)習(xí)

本文采用基于樹結(jié)構(gòu)集成學(xué)習(xí),分為兩層結(jié)構(gòu)。第一層基學(xué)習(xí)器使用集成學(xué)習(xí)的ET樹、RF、XGBoost作為本文的基學(xué)習(xí)器。隨機(jī)森林(RF)是選擇決策樹投票率最高的類作為分類結(jié)果。極限樹(ET)通過處理數(shù)據(jù)集的不同子集生成的隨機(jī)決策樹集合。XGBoost是通過使用梯度下降法,組合多個決策樹來提高速度和性能。第二層選擇基學(xué)習(xí)器中精確精度最高的樹模型作為元學(xué)習(xí)器。通過樹模型訓(xùn)練的數(shù)據(jù),并通過十折交叉驗證貝葉斯優(yōu)化算法[8]對各個樹模型進(jìn)行優(yōu)化操作。在訓(xùn)練集上實現(xiàn)10倍交叉驗證,以評估模型在新數(shù)據(jù)集上的性能。選擇上述機(jī)器學(xué)習(xí)算法的原因在于大多數(shù)樹結(jié)構(gòu)ML模型使用集成學(xué)習(xí),因此它們通常比其他單一模型(如KNN)表現(xiàn)出更好的性能。

3實驗分析

3.1實驗環(huán)境

硬件使用環(huán)境為1.8GhzCPU,軟件使用環(huán)境為Python版本為3.7,sklearn版本為0.22。

3.2實驗評估

本文采用多分類常用的微平均和宏平均估各個機(jī)器學(xué)習(xí)算法的性能要求。當(dāng)數(shù)據(jù)不平衡時,微平均和宏平均的差異會較大。微平均根據(jù)每個類別的指標(biāo)計算平均值,宏平均根據(jù)是先對每一個類別統(tǒng)計各個指標(biāo),然后再對所有類別計算算術(shù)平均值。

[Micro_Precision =i=1n TPii=1n TPi+FPiMicro_Recall=i=1n TPii=1n TPi+FNiMicroF1=2×MicroPrecsion×MicroRecall micro P+ micro -R]? ? ? ? ?[(2)]

3.3實驗結(jié)果分析

本次實驗選擇比較熱門的KNN,SVM,DT,RF,ET,XGBoost、GBDT機(jī)器學(xué)習(xí)與本文提出的算法進(jìn)行對比,所提出的算法均用貝葉斯優(yōu)化算法進(jìn)行優(yōu)化。

[ Precision i=TPiTPi+FPi, Macro_P= precision in Recall i=TPiTPi+FPi, Macro_R= Recall inMarcoF1=2× Macro_P×Macro_RMacro_P+Macro_R]? ?[ (3)]

本文提出的算法對比傳統(tǒng)機(jī)器學(xué)習(xí)算法precision提高了1%~30%,召回率提高了2.2%~5.1%,F(xiàn)1提高了2.1%~27.6%。時間開銷上有明顯降低。從實驗結(jié)果可以看出,本文提出的方法無論在宏平均和微平均評價指標(biāo)上都能取得比較滿意的效果,證明本方案的有效性和可行性。

4結(jié)論

本文針對入侵檢測的檢測效果不佳提出的隨機(jī)森林集成學(xué)習(xí)入侵檢測模型,解決了傳統(tǒng)入侵檢測精確度低、召回率低、時間開銷大的問題。但該模型還有不足:在特征工程階段初步篩選的評價指標(biāo)單一,可能對初步篩選特征產(chǎn)生一定影響。

參考文獻(xiàn):

[1] 盧官宇,田秀霞,張悅.結(jié)合KNN和優(yōu)化特征工程的AMI通信入侵檢測研究[J].華電技術(shù),2021,43(2):1-8.

[2] 唐亮,李飛.基于決策樹的車聯(lián)網(wǎng)安全態(tài)勢預(yù)測模型研究[J].計算機(jī)科學(xué),2021,48(S1):514-517.

[3] 周杰英,賀鵬飛,邱榮發(fā),等.融合隨機(jī)森林和梯度提升樹的入侵檢測研究[J].軟件學(xué)報,2021,32(10):3254-3265.

[4] 胡希文,彭艷兵.基于ONE-ESVM的入侵檢測系統(tǒng)[J].電子設(shè)計工程,2021,29(20):86-91.

[5] 孫林,趙婧,徐久成,等.基于鄰域粗糙集和帝王蝶優(yōu)化的特征選擇算法[J].計算機(jī)應(yīng)用,2022,42(5):1355-1366.

[6] 張玲,張建偉,桑永宣,等.基于隨機(jī)森林與人工免疫的入侵檢測算法[J].計算機(jī)工程,2020,46(8):146-152.

[7] 艾成豪,高建華,黃子杰.混合特征選擇和集成學(xué)習(xí)驅(qū)動的代碼異味檢測[J/OL].計算機(jī)工程:1-11[2021-11-03].https://doi.org/10.19678/j.issn.1000-3428.0062165.

[8] 仉文崗,唐理斌,陳福勇,等.基于4種超參數(shù)優(yōu)化算法及隨機(jī)森林模型預(yù)測TBM掘進(jìn)速度[J].應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報,2021,29(5):1186-1200.

收稿日期:2022-02-25

作者簡介:盛展(1997—),湖北孝感人,碩士,研究方向:機(jī)器學(xué)習(xí)與人工智能;通訊作者:陳琳(1972—),男,湖北荊州人,博士研究生,教授,研究方向:網(wǎng)絡(luò)與通信、信息安全、智慧城市、網(wǎng)絡(luò)應(yīng)用開發(fā)等。

猜你喜歡
隨機(jī)森林入侵檢測機(jī)器學(xué)習(xí)
拱壩變形監(jiān)測預(yù)報的隨機(jī)森林模型及應(yīng)用
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
黑龙江省| 光山县| 沈丘县| 县级市| 罗甸县| 浦江县| 阿克陶县| 堆龙德庆县| 新晃| 潢川县| 湟中县| 马山县| 丹凤县| 北辰区| 无极县| 朝阳区| 枣强县| 阿拉善盟| 庆云县| 东阳市| 星子县| 永福县| 安阳市| 兴城市| 会宁县| 绥江县| 田林县| 昌乐县| 石柱| 肇东市| 株洲市| 徐水县| 商丘市| 石嘴山市| 恩施市| 温泉县| 金门县| 孝感市| 乐至县| 阜新| 永济市|