基于MI特征選擇與KNN分類器相結(jié)合的入侵檢測方法

2022-10-01 14:56朱林杰趙廣鵬康亮河

甘肅科技 2022年15期

朱林杰，趙廣鵬，康亮河

（1.河南理工大學(xué)信息化建設(shè)與管理中心，河南焦作 454000；2.甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院，甘肅蘭州 730070）

1 引言

隨著計算機(jī)通信技術(shù)的高速發(fā)展，信息儼然成為當(dāng)今社會的重要資源之一，尤其是在大數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)快速發(fā)展導(dǎo)致大量數(shù)據(jù)激增的情況下，人們越來越認(rèn)識到信息保護(hù)的重要性。目前生物識別技術(shù)迅速發(fā)展，信息所受到的攻擊情況越來越復(fù)雜，但是相關(guān)領(lǐng)域技術(shù)研究方法仍較少，需處理的問題和提取的信息中帶有冗余信息需要對其進(jìn)行更精確的處理等。高維數(shù)據(jù)對于入侵攻擊檢測是一個挑戰(zhàn)，如何從高維數(shù)據(jù)中找到有用的信息，一直是研究者們關(guān)注的熱點(diǎn)問題。特征選擇是機(jī)器學(xué)習(xí)預(yù)處理的一個重要過程，主要用來找到最優(yōu)的特征子集來增強(qiáng)系統(tǒng)的性能，其在統(tǒng)計、大數(shù)據(jù)分析、生物技術(shù)方面已經(jīng)得到成功的應(yīng)用。在改善系統(tǒng)的精確性方面出現(xiàn)了許多特征選擇方法，這些方法各有其優(yōu)缺點(diǎn)，找到一種有效的特征選擇方法是比較重要的。特征選擇有Wraps和Filters兩種方法，本研究中所提到的相互信息特征選擇方法屬于過濾方法的一種。該方法通過找到一個最優(yōu)的特征子集來預(yù)測入侵?jǐn)?shù)據(jù)的異常情況，數(shù)據(jù)基于4個文件，文件記錄入侵?jǐn)?shù)據(jù)的所有信息，包含訓(xùn)練集和測試集。在提出方法的過程中，簡化了原有的模型，減少變量使用MI（Mutual Information）標(biāo)準(zhǔn)建立的模型，數(shù)據(jù)和標(biāo)簽都采用Pandas讀取，再將其變成數(shù)組形式，鋪平成一維的向量，并選擇k個最優(yōu)的特征，通過擬合找到所有關(guān)聯(lián)的特征，然后根據(jù)值的大小進(jìn)行排序，排序后調(diào)用變換來過濾選擇的特征，把過濾后的特征傳到分類模型中。在該方法中，每一步需刪除無關(guān)的特征，保留剩下的特征，當(dāng)達(dá)到最小子集特征時，停止迭代。最后，通過比較其他研究，討論研究的結(jié)果和一些挑戰(zhàn)。

2 相關(guān)工作

近年來，許多學(xué)者致力于互信息的研究并取得了好的成果，收集的數(shù)據(jù)有不同的潛在特征，通過特征選擇來找到特征之間存在的差異性。研究者提出的方法有較好的改進(jìn)效果，有利于改進(jìn)特征選擇的穩(wěn)定性，然而，比較早的研究大部分未能提到數(shù)據(jù)之間的差異性。但是后來逐漸研究的成果豐富起來，如Ioannis M.Stephanakis等提出基于互信息算法優(yōu)化的特征選擇，該方法用相互的信息熵處理維數(shù)問題，通過采用并行處理方式，加速預(yù)處理的速度；Rahul Kottath等提出相互信息特征選擇在計算機(jī)視覺方面的影響變化，分析了刪除冗余特征對其方法的影響，實(shí)驗(yàn)結(jié)果提高了效率和精度；Phillip M.La－Casse等廣泛評論了特征子集的約簡方法在制造業(yè)智能化過程中做出的貢獻(xiàn)。相互信息通常用MI表示，相互信息聚類算法常被用于搜索引擎中解析自然語言，發(fā)現(xiàn)語義聚類，同時使得搜索方法得到進(jìn)一步的提升。相互信息決定2個不同標(biāo)簽數(shù)據(jù)集的相似程度，有利于類別之間的信息判別。Josu等[1]在多變量時間序列數(shù)據(jù)，提出基于特征子集選擇的相互信息分類，通過測量相關(guān)的子集，使用K近鄰的非參數(shù)相互信息估計，實(shí)驗(yàn)結(jié)果表明，增加了分類的精確性。Hyunki和Kim[2]考慮到特征和標(biāo)簽的依賴性，初始化種群，有了較好的應(yīng)用。Selvakumar 和Munees waran[3]提出特征選擇在入侵檢測中的應(yīng)用，改進(jìn)了精確性。Saúl和José[4]提出了譜特征選擇和信息理論約簡分析。Francisco等[5]對于特征選擇方法進(jìn)行了研究。Jorge等[6]研究歐幾里得范數(shù)最大化，與幾何平均最大化，使用此方法選擇了屬性特征。Laura等[7]對于特征選擇進(jìn)一步做了研究和應(yīng)用。Kahan和Sriparna[8]提出多目標(biāo)的優(yōu)化，無論是從算法還是從其他方法，特征選擇有了一定的改進(jìn)。在伴數(shù)據(jù)挖掘領(lǐng)域，不論是特征是必不#少的，而且分類在數(shù)據(jù)處理也是一項(xiàng)更大的挑戰(zhàn)[9-11]。

3 方法與步驟

相互信息是一種重要的過濾方法。為了減少特征帶有冗余信息，在所有的方法中，相互信息的特征選擇有其顯著的優(yōu)點(diǎn)，利用相互信息選擇特征，能夠方便地產(chǎn)生子集，便于相關(guān)變量的劃分。特征子集選擇是預(yù)處理的一個重要過程，主要功能是消除不相關(guān)變量和減少雜亂數(shù)據(jù)的處理次數(shù)，保持相關(guān)特征的變化。目前針對這方面的研究出現(xiàn)了很多方法，基于相互信息的特征選擇能打破傳統(tǒng)關(guān)聯(lián)特征選擇方法的限制，本研究延伸了相互信息的思想，將與距離的方法改進(jìn)互信息的特征選擇，首先預(yù)處理數(shù)據(jù)，通過距離計算，然后引入特征選擇方法，再計算相互信息的值，最后采用KNN判別。為了保持類別與屬性之間的平衡，我們需得到它們之間的關(guān)聯(lián)，將向量X=（x1，x2，…，xn）定義為屬性，將向量Y=（y1，y2，…，yn）定義為類。采用相互信息特征選擇方法計算（xi，yj）之間的相互信息，并找到相互信息比較小的子集，子集能夠加快模型的速度，如果2個隨機(jī)變量相互信息為0，表明它們之間沒有關(guān)聯(lián)。相互信息用來測量特征的好壞，通常用F=｛f1，f2，…fi…fn｝特征集合，看哪個子集相互信息最小，經(jīng)過特征子集比較，得到最大的信息量的子集。本研究應(yīng)用特征選擇減少特征的維數(shù)以此來降低數(shù)據(jù)之間的關(guān)聯(lián)，降低維數(shù)，計算互信息的值，fi代表特征子集。使用相互信息有一個決定變量獨(dú)立性的理論方法，其有效地分析了變量之間的關(guān)系并使得獲得的結(jié)果更清晰。將得到的特征子集排序，如果2個特征向量沒有什么關(guān)聯(lián)，那么他們互信息最小[12-16]。建立的模型如圖1所示。

圖1 提出的方法模型

給定數(shù)據(jù)集X=（x1，x2，…，xn），標(biāo)簽Y=（y1，y2，…，yn）。

步驟1 輸入數(shù)據(jù)矩陣D，標(biāo)簽Y，K值參數(shù)。

步驟2 對數(shù)據(jù)進(jìn)行預(yù)處理，選取子集（s1，s2，…sn）。

步驟3 用距離方法計算特征之間的互信息，特征F=｛f1，f2，…fi…fn｝如果fi＞fj，保留較小的特征。

F=｛f1，f2，…fi…fn+1｝

步驟4 驗(yàn)證子集的有效性。

步驟5 選擇一個相關(guān)的特征fi，每次把比較小的賦值給{C}計算Z中相互信息賦給{C}，Z逐漸減少。

步驟6 重復(fù)步驟2、3，4、5對于計算后的子集進(jìn)行排序r1＞r2＞,…ri，…，＞rn。

步驟7 選擇最小的特征子集C=｛c1，c2，…，cn｝。

步驟8 用F′表示最特征子集F′=｛f1，f2，…fi…fn｝。

步驟9 輸出已選擇的特征子集F′。

步驟10 采用KNN算法分類,顯示分類結(jié)果。

在數(shù)據(jù)處理的過程中，不同的分布對應(yīng)不同的互信息，互信息特征選擇帶來的信息值變化不同，互信息選擇是一種簡單計算特征方法。

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證互信息距離算法結(jié)合的有效性，分類性能被檢測使用以下方式，這里K值取3。

4.1 平臺

實(shí)驗(yàn)平臺Python3.7,Intel（R）core（TM）,I5-9400F,2.90 GHz,8G內(nèi)存，Windows10操作系統(tǒng)。

4.2 數(shù)據(jù)集

數(shù)據(jù)集來自網(wǎng)絡(luò)安全攻擊數(shù)據(jù)集，其中KDDtrain包含42個屬性，125 973條數(shù)據(jù)，分為正常數(shù)據(jù)和異常數(shù)據(jù)；KDDtest包含42個屬性，22 544條鏈接記錄，分為正常http連接記錄和異常http連接記錄，采用檢測精度、f-scores度量、召回率、誤報率（圖2-圖5）。

圖2 檢測精度

類1表示正常的類別，類2表示異常的類別。

在選擇了特征后，通過比較了2種不同的方法來改善入侵檢測的精確性，通過應(yīng)用標(biāo)準(zhǔn)數(shù)據(jù)集在提出的方法上進(jìn)行比較，結(jié)果如圖2顯示，同隨機(jī)梯度優(yōu)化和貝葉斯方法相比，本研究提出的方法在類1中精度分別提高了0.069與0.124；在類2中分別提高了0.048與0.061。檢測精度取得了比較好的結(jié)果，2類分別是0.998與0.996，高于隨機(jī)梯度優(yōu)化方法0.069與0.048，同時優(yōu)于貝葉斯分類估計0.874與0.935，誤報率與召回率明顯改善，在類1與類2，誤報率從貝葉斯方法的0.157與0.051降到了0.003。隨機(jī)梯度優(yōu)化誤報率也相對較小。實(shí)驗(yàn)充分證明，提出的互信息特征選擇方法優(yōu)于其他經(jīng)典方法。如圖2所示，入侵檢測的效果明顯得到改善。提出的特征選擇方法優(yōu)于貝葉斯與隨機(jī)梯度分類方法。

如圖3所示，f-scores也明顯改善。提出的方法相較于其他2種方法在入侵檢測方面具有顯著優(yōu)勢，雖然某些個別值會出現(xiàn)不太穩(wěn)定的情況，但應(yīng)當(dāng)注意到，提出的基于相互信息的特征選擇方法對于入侵檢測有積極的影響。此外，這種方法同隨機(jī)梯度優(yōu)化和貝葉斯方法相比能夠有效地處理高維數(shù)據(jù)集。

圖3 f-scores

如圖4、圖5所示，實(shí)驗(yàn)中出現(xiàn)的誤報率比較小。另外，在經(jīng)過相互信息特征選擇后，獲得了最大的特征打分。在實(shí)驗(yàn)中，部分算法能容易地達(dá)到所需要的標(biāo)準(zhǔn)，通過距離改變，確定K值能夠選擇更優(yōu)的標(biāo)準(zhǔn)。從圖中#以看出利用3種方法所得的打分情況對比明顯，相對于其他2種傳統(tǒng)算法，本研究所提方法分析檢測精度有所提高，召回率得到改進(jìn)，誤報率分別降低了0.04與0.086。

圖4 召回率

圖5 誤報率

為了選擇更有效的特征，添加了排序算法，在經(jīng)過子集選擇過后，經(jīng)過了排序打分與篩選，根據(jù)不同的排序，產(chǎn)生一個結(jié)果，與另外一個排序結(jié)果互相比較，把每一個特征合適值加入到集合的中，這樣依次循環(huán)，產(chǎn)生最優(yōu)的子集集合，使用這個集合去進(jìn)行實(shí)驗(yàn)驗(yàn)證。從上圖中#以看出與互信息結(jié)合選擇特征的能力有較大提高。

5 結(jié)論

在高速發(fā)展的信息時代，互信息特征選擇作為一種有效的處理信息方式，在入侵檢測實(shí)驗(yàn)中已經(jīng)被證明，選擇的特征直接影響到攻擊檢測的各種性能。在廣泛分析了對于入侵檢測近年來的研究后，了解到入侵檢測需要更高的檢測精度，以便于檢測更多的異常特征信息。在考慮特征的相互依賴的影響下，提出了基于變化距離估計的相互信息用于入侵檢測的方法，為了避免類不平衡，冗余數(shù)據(jù)稀疏等其他因素的影響，本研究首先分析了各種因素的特點(diǎn)，刪除冗余特征的不利影響，討論了數(shù)據(jù)點(diǎn)在二維層面上的分布；然后，結(jié)合距離變化來確定距離的值從而對相互信息進(jìn)行打分；最后，使用這個值優(yōu)化KNN算法，并利用KNN進(jìn)行分類。在實(shí)驗(yàn)中，將本研究所提出的方法與其他2種傳統(tǒng)的方法在入侵檢測數(shù)據(jù)上面進(jìn)行比較，得出結(jié)論：通過互信息的特征選擇方法選擇特征子集，對于入侵檢測數(shù)據(jù)特征選擇比較有效，能夠有效減少重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)，獲得更好的過濾效果。在將來，此方法仍需深入研究，使之應(yīng)用在更多的領(lǐng)域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡