王 紅 陳功平
(六安職業(yè)技術(shù)學(xué)院, 安徽 六安 237158)
計(jì)算機(jī)和互聯(lián)網(wǎng)作為當(dāng)下信息傳遞的主要工具,已經(jīng)被廣泛應(yīng)用于各行各業(yè)中。全球范圍內(nèi)的計(jì)算機(jī)和便攜式上網(wǎng)設(shè)備都通過互聯(lián)網(wǎng)進(jìn)行連接,這給我們帶來便捷的同時(shí),也帶來了許多安全隱患。網(wǎng)絡(luò)安全問題已逐漸成為人們重點(diǎn)關(guān)注的問題。網(wǎng)絡(luò)安全具有機(jī)密性、完整性等特征,應(yīng)對(duì)網(wǎng)絡(luò)攻擊行為進(jìn)行識(shí)別和檢測(cè)[1]。網(wǎng)絡(luò)入侵一般會(huì)留下痕跡,但具有一定的隱藏性,需要經(jīng)過信息處理才能被識(shí)別[2]。現(xiàn)有的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)需要對(duì)聚類數(shù)目和聚類中心進(jìn)行人工設(shè)定,容易造成誤差[3-4]。因此,本次研究利用最小生成樹對(duì)K-means聚類算法進(jìn)行改進(jìn),設(shè)計(jì)了一種新型網(wǎng)絡(luò)入侵檢測(cè)技術(shù)。
網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)一般混在正常數(shù)據(jù)中,若要挖掘出入侵?jǐn)?shù)據(jù),就需要使用聚類算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[5-6]。K-means是一種典型的聚類算法,其迭代基礎(chǔ)是聚類中心,需要提前確定聚類數(shù)量和聚類中心位置,得到的結(jié)果往往受人為因素的影響較大,因此本次研究利用最小生成樹改進(jìn) K-means聚類算法。
K-means聚類算法一般通過評(píng)價(jià)函數(shù)來判斷簇之間能否合并或聚類。評(píng)價(jià)函數(shù)如式(1)所示:
(1)
式中:I—— 評(píng)價(jià)函數(shù);
J—— 聚類解的常用目標(biāo)函數(shù);
n—— 簇的數(shù)量。
基于最小生成樹改進(jìn)的K-means聚類算法中,數(shù)據(jù)對(duì)象的簇?cái)?shù)量是提前給定的,利用經(jīng)典的Prim算法得到一棵最小生成樹,將其劃分為若干個(gè)部分,并把每個(gè)部分看成一個(gè)簇[7]。因此,根據(jù)經(jīng)驗(yàn)隨機(jī)給出的簇?cái)?shù)量會(huì)在很大程度上影響聚類結(jié)果。
在最小生成樹的改進(jìn)機(jī)理下,對(duì)操作數(shù)據(jù)組成的集合進(jìn)行處理,集合數(shù)量為m-1。通過距離計(jì)算,把樹分裂成m棵子樹,并將其看作獨(dú)立的簇,選擇包含較多元素的簇作為開始節(jié)點(diǎn)[8-9]。本次研究基于密度進(jìn)行聚類劃分,不同密度的聚類篩選過程如圖1所示。
圖1 不同密度的聚類篩選過程
圖1a中的圓形中心點(diǎn)表示4個(gè)高密度點(diǎn)的分布情況,其中空心點(diǎn)表示密度最小,可以將其作為第1個(gè)聚類中心;在篩選過程中,將距離中心點(diǎn)最遠(yuǎn)的高密度點(diǎn)作為第2個(gè)聚類中心,即圖1b中增加的空心點(diǎn);根據(jù)不同的篩選規(guī)則,得到第3個(gè)聚類中心,即圖1c中增加的空心點(diǎn)[10-12]?;谧钚∩蓸涓倪M(jìn)的K-means聚類算法中,不同高密度點(diǎn)之間的距離應(yīng)盡可能遠(yuǎn)。通過預(yù)處理得到的有效聚類數(shù)據(jù)集對(duì)入侵結(jié)果的影響很大,若要保證入侵檢測(cè)結(jié)果的準(zhǔn)確性,就要消除數(shù)據(jù)冗余。
通過上述聚類分析法劃分網(wǎng)絡(luò)行為數(shù)據(jù),并進(jìn)行數(shù)據(jù)挖掘,以實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測(cè)[13]。網(wǎng)絡(luò)入侵檢測(cè)模型示意圖如圖2所示。
圖2 網(wǎng)絡(luò)入侵檢測(cè)模型示意圖
在網(wǎng)絡(luò)入侵檢測(cè)模型中,對(duì)字符型特征數(shù)據(jù)進(jìn)行編碼,將其轉(zhuǎn)化為數(shù)值型數(shù)據(jù),以消除字符之間的差異性,如表1所示。
表1 字符型特征數(shù)值的轉(zhuǎn)換
為了保證網(wǎng)絡(luò)入侵檢測(cè)模型的穩(wěn)定性和可靠性,應(yīng)提升模型泛化能力,以抑制過度擬合現(xiàn)象,網(wǎng)絡(luò)入侵檢測(cè)流程如圖3所示。
圖3 網(wǎng)絡(luò)入侵檢測(cè)流程
實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng),選擇Python語言進(jìn)行代碼編寫。網(wǎng)絡(luò)數(shù)據(jù)一般為多維度數(shù)據(jù),應(yīng)在優(yōu)化過程中以距離為基礎(chǔ),使用數(shù)值型數(shù)據(jù)集。采用的數(shù)據(jù)集包括Iris數(shù)據(jù)集、Wine數(shù)據(jù)集和4k2_far數(shù)據(jù)集,共計(jì)612條數(shù)據(jù)。數(shù)據(jù)集特征說明如表2所示。
表2 數(shù)據(jù)集特征說明
將基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)與基于K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)進(jìn)行對(duì)比分析。選取聚類純度作為聚類有效性指標(biāo),聚類純度的計(jì)算如式(2)所示:
(2)
式中:Pc—— 聚類純度;
N—— 數(shù)據(jù)總量;
K—— 聚類數(shù)量;
Ck—— 任意一個(gè)聚類中的對(duì)象數(shù)量。
一般情況下,Pc的取值范圍為[0,1],Pc越大,聚類效果越好。實(shí)驗(yàn)參數(shù)說明如表3所示。
表3 實(shí)驗(yàn)參數(shù)說明
分別使用基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)和基于K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)進(jìn)行對(duì)比測(cè)試,聚類結(jié)果如圖4和圖5所示。
由圖4和圖5可知,相較于基于K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù),基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的數(shù)據(jù)分布更均勻,不同數(shù)據(jù)庫之間的分布差異更明顯,與實(shí)際情況相符。
圖4 基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的聚類結(jié)果
圖5 基于K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的聚類結(jié)果
采用檢測(cè)率和誤報(bào)率等指標(biāo)進(jìn)行性能評(píng)估,檢測(cè)率的計(jì)算如式(3)所示:
(3)
式中:DR—— 檢測(cè)率;
Nad—— 檢測(cè)到的異常數(shù)量;
Nta—— 實(shí)際異常數(shù)量。
誤報(bào)率的計(jì)算如式(4)所示:
(4)
式中:FR—— 誤報(bào)率;
NM—— 被誤判為異常的數(shù)量;
Nnr—— 實(shí)際正常數(shù)量。
檢測(cè)率越大,誤報(bào)率越小,說明技術(shù)性能越好。入侵檢測(cè)評(píng)估指標(biāo)結(jié)果如表4所示。
由表4可知,基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的檢測(cè)率為70%,誤報(bào)率為0.472%;基于K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的檢測(cè)率為44%,誤報(bào)率為0.615%。因此,基于最小生成樹改進(jìn)K-means聚類的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的性能更優(yōu),檢測(cè)效果更好。
表4 入侵檢測(cè)評(píng)估指標(biāo)結(jié)果
本次研究從網(wǎng)絡(luò)入侵檢測(cè)技術(shù)存在的問題入手,利用最小生成樹改進(jìn)K-means聚類算法,設(shè)計(jì)了一種新型網(wǎng)絡(luò)入侵檢測(cè)技術(shù)。利用最小生成樹改進(jìn)K-means聚類算法,對(duì)入侵檢測(cè)數(shù)據(jù)進(jìn)行預(yù)處理,設(shè)計(jì)不同密度的聚類篩選過程,去除冗余數(shù)據(jù)。構(gòu)建網(wǎng)絡(luò)入侵檢測(cè)模型,將字符型特征轉(zhuǎn)化為數(shù)值型數(shù)據(jù),優(yōu)化入侵檢測(cè)流程,以實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測(cè)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)網(wǎng)絡(luò)入侵檢測(cè)技術(shù)相比,本技術(shù)的性能更優(yōu),檢測(cè)效果更好。