探究大數(shù)據(jù)下的K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用

2017-04-17 01:27:13林慶新

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2017年3期

◆林慶新

◆林慶新

（福州大學(xué)至誠學(xué)院福建 350002）

隨著我國計算機(jī)應(yīng)用領(lǐng)域的不斷發(fā)展，網(wǎng)絡(luò)通信逐漸開始改變?nèi)藗兊膶W(xué)習(xí)與生活。因此，面對發(fā)展中的網(wǎng)絡(luò)技術(shù)，必須認(rèn)識到網(wǎng)絡(luò)安全檢測問題的重要性。同時，在網(wǎng)絡(luò)安全檢測作業(yè)中，突破傳統(tǒng)防火墻技術(shù)、數(shù)據(jù)加密技術(shù)等靜態(tài)安全防御技術(shù)的應(yīng)用，引入新型的安全保障技術(shù)。但在新型安全保障技術(shù)引入過程中，為了避免入侵攻擊危害系統(tǒng)、網(wǎng)絡(luò)安全，必須運(yùn)用改進(jìn)過后的K-means聚類算法，最終由此提高網(wǎng)絡(luò)安全檢測性能。

大數(shù)據(jù)；K-means聚類算法；網(wǎng)絡(luò)安全

0 引言

基于互聯(lián)網(wǎng)信息時代沖擊背景下，網(wǎng)絡(luò)信息獲取、交流溝通、商務(wù)交易等應(yīng)用領(lǐng)域的使用越發(fā)頻繁。同時，據(jù)CNNIC統(tǒng)計數(shù)據(jù)顯示，我國域名總數(shù)已經(jīng)達(dá)到了1470萬個左右。但為了更好地發(fā)揮互聯(lián)網(wǎng)信息獲取功能，必須在互聯(lián)網(wǎng)操控過程中做好網(wǎng)絡(luò)安全檢測工作。即在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中引入K-means聚類算法，繼而有效控制軟件漏洞增長和惡意程序泛濫等問題。以下就是對K-means聚類算法在網(wǎng)絡(luò)安全檢測中應(yīng)用難點(diǎn)等相關(guān)問題的詳細(xì)闡述。

1 大數(shù)據(jù)環(huán)境下的K-means聚類算法概述

聚類，即表示按照對象間的相似程度，將一組物理對象分為不定數(shù)目的組。其中，同一組數(shù)據(jù)對象間具備一定的相似性，而把相似程度較高的數(shù)據(jù)對象分為一組的行為就是聚類分析過程。就目前來看，聚類分析已經(jīng)被逐漸應(yīng)用于商業(yè)、生物學(xué)、萬維網(wǎng)、地理研究等領(lǐng)域中。但大數(shù)據(jù)環(huán)境中的K-means聚類算法，可更好地滿足數(shù)據(jù)龐大且數(shù)據(jù)結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)處理需求。同時，K-means聚類算法作為一種以群分析的數(shù)據(jù)挖掘算法，可將數(shù)據(jù)集按照一定的要求，劃分為若干個子集。其中，同一子集數(shù)據(jù)具備較高的相似性，而不同子集間屬性差異較為明顯。此外，從K-means聚類算法思想層面角度來看，K-means聚類算法也注重強(qiáng)調(diào)以層次的方式，對數(shù)據(jù)進(jìn)行分類，并保證每一類數(shù)據(jù)具備一定的相似性，最終獲取k個聚類[1]。另外，從K-means聚類算法工作過程角度來看，如若在網(wǎng)絡(luò)安全檢測工作中應(yīng)用K-means聚類算法。同時，網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)多且結(jié)構(gòu)復(fù)雜，那么應(yīng)在網(wǎng)絡(luò)大數(shù)據(jù)對象為n個的基礎(chǔ)上，隨機(jī)選擇k個對象作為初始聚類中心，待初始聚類中心確定后，依據(jù)各個對象屬性，進(jìn)行類別劃分。同時，以k個對象的距離為劃分標(biāo)準(zhǔn)，將k個對象分配至最為相似的聚類。其次，待k個對象聚類分析處理后，計算新聚類中所有對象均值，并反復(fù)多次重復(fù)此計算過程，直至標(biāo)準(zhǔn)測度函數(shù)開始出現(xiàn)收斂。即大數(shù)據(jù)環(huán)境下K-means聚類算法與傳統(tǒng)K-means算法相比，能更好的滿足網(wǎng)絡(luò)安全檢測需求。為此，應(yīng)提高對其的重視程度。

2 基于大數(shù)據(jù)下的K-means聚類算法改進(jìn)

在網(wǎng)絡(luò)安全檢測工作開展過程中，為了達(dá)到最佳的K-means聚類算法應(yīng)用效果，應(yīng)做好數(shù)據(jù)預(yù)處理、初始中心選取、K值確定等工作。即：

（1）數(shù)據(jù)預(yù)處理。即由于網(wǎng)絡(luò)數(shù)據(jù)共有2種：連續(xù)型、離散型。因而，為了更好的實(shí)現(xiàn)數(shù)據(jù)挖掘處理，需在數(shù)據(jù)預(yù)處理作業(yè)中，將離散型數(shù)據(jù)經(jīng)預(yù)處理后，轉(zhuǎn)換為數(shù)值型，由此達(dá)到最佳的數(shù)據(jù)預(yù)處理效果。但在離散型數(shù)據(jù)向數(shù)值型數(shù)據(jù)轉(zhuǎn)換期間，需定義，如下：

定義1，D，是報警數(shù)據(jù)庫，其擁有n個警告記錄集，而警告記錄集可用T={T1，T2，……，Tn}進(jìn)行表示，其中，n≥1。同時，X是警告記錄集的屬性集，由m個特征屬性構(gòu)成。而其具體的屬性集可用X={X1，X2，……，Xm}進(jìn)行表示。此外，以對象間距離來表示對象間相似程度[2]。

定義2，如若警告記錄中任意兩條用Ti和Tj表示，那么Ti與Tj間相似程度可用Sim（Ti，Tj）=Simc（Ti，Tj）+Simd（Ti，Tj）（i≠j）。

定義3，設(shè)定C={Ci}（i=1，2，……，K）用來表示聚類集。

定義4，假定，若所處理的聚類是Ci，那么聚類中心則是mi，而mi=mid+mic。

（2）確定初始聚類中心。即當(dāng)數(shù)據(jù)轉(zhuǎn)換完成后，可從龐大的數(shù)據(jù)中選擇符合類中心的樣本點(diǎn)密度較高的聚類。同時，在聚類確定過程中，綜合考慮密度、相似距離等因素對初始聚類中心的影響，而后，從D中隨機(jī)抽取q個子集，并設(shè)定所抽取的子集為D1，D2，……Dq，且各個子集中擁有n條記錄，繼而待各項(xiàng)內(nèi)容確定完畢后，由函數(shù)FindM處理子集，獲取3個初始聚類中心。即m1、m2、m3[3]。

（3）確定K值。即當(dāng)初始聚類中心確定后，應(yīng)采取多次重復(fù)的計算方法，計算各個類間相似度距離最大值與最小值，且在聚類分析過程中，通過動態(tài)化處理方式，不斷調(diào)整K值，最終達(dá)到歸類目的。

3 K-means聚類算法網(wǎng)絡(luò)安全檢測模型設(shè)計

在網(wǎng)絡(luò)安全檢測過程中，為了利用K-means聚類算法提高大數(shù)據(jù)環(huán)境中算法效率，應(yīng)設(shè)計K-means聚類算法網(wǎng)絡(luò)安全檢測模型。首先，在K-means聚類算法下網(wǎng)絡(luò)安全檢測模型設(shè)計過程中，應(yīng)將其分為訓(xùn)練階段和檢測階段。其中，訓(xùn)練階段包括網(wǎng)絡(luò)大數(shù)據(jù)、Hash函數(shù)、構(gòu)建樹形數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)訓(xùn)練等內(nèi)容。而檢測階段包括Hash函數(shù)、網(wǎng)絡(luò)數(shù)據(jù)基準(zhǔn)庫、待檢測網(wǎng)絡(luò)數(shù)據(jù)抓取、Hash函數(shù)處理網(wǎng)絡(luò)數(shù)據(jù)、找出K的臨近對象、直推式異常檢測等內(nèi)容。即訓(xùn)練階段負(fù)責(zé)對正常數(shù)據(jù)進(jìn)行提取，然后，將所采集的數(shù)據(jù)通過Hash函數(shù)處理方式，進(jìn)行數(shù)據(jù)預(yù)處理。同時，將特征數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)模型，以便于利用K-means聚類算法對數(shù)據(jù)進(jìn)行分類，且構(gòu)建樹形結(jié)構(gòu)。此外，檢測階段主要負(fù)責(zé)對待檢網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行Hash函數(shù)處理。然后，利用K-means聚類算法，對數(shù)據(jù)進(jìn)行分類。同時，探索樹形結(jié)構(gòu)中K臨近對象，最終經(jīng)直推式異常檢測，判斷數(shù)據(jù)是否存在異?，F(xiàn)象，就此達(dá)到網(wǎng)絡(luò)安全隱患檢測目的[4]。

4 網(wǎng)絡(luò)安全檢測模型應(yīng)用測試

為了更好的掌握到K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用效果，可在網(wǎng)絡(luò)安全檢測模型設(shè)計完成后，以KDD Cup99為模型數(shù)據(jù)采集參考，進(jìn)行網(wǎng)絡(luò)安全檢測模型應(yīng)用測試工作。而在實(shí)際應(yīng)用測試作業(yè)中，可將DoS、Probe、R2L、U2R作為攻擊類型[5]。同時，模型中所記錄的屬性值共有34個，字符屬性是7個。但在所有字符屬性中，正常數(shù)據(jù)占據(jù)總體的18.69%，異常數(shù)據(jù)占據(jù)總體的81.34%。而后，待數(shù)據(jù)確定后，進(jìn)行安全模型應(yīng)用測試。同時，在具體的性能評估工作開展期間，從這些數(shù)據(jù)中選擇3組，用于樣本分析。其中，這3組子集中每個子集都有1000記錄，而記錄中1.8%-2.0%是已知異常數(shù)據(jù)。即具體的樣本數(shù)據(jù)如下：

表 1 樣本

待樣本處理處理后發(fā)現(xiàn)，改進(jìn)后的K-means算法優(yōu)于傳統(tǒng)K-means算法。即試驗(yàn)結(jié)果如下：

表 2 檢測結(jié)果比對

從表2中即可看出，在傳統(tǒng)K-means聚類算法與改進(jìn)過后的K-means聚類算對比中即可看出，改進(jìn)過后的算法與傳統(tǒng)算法相比，檢測率提高約，而誤檢率約降低，檢測時間相對節(jié)省。因而，在大數(shù)據(jù)背景下，應(yīng)將改進(jìn)過的K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中。此外，從對不同攻擊類型檢測的效率角度來看，傳統(tǒng)K-means聚類算法與改進(jìn)過后的聚類算法檢測效率如下：

表 3 對不同攻擊類型檢測的效率

從表3中即可看出，在U2R、R2L、DoS、Probe等不同攻擊類型檢測中，改進(jìn)過后的K-means算法檢測效果更優(yōu)。因而，在大數(shù)據(jù)背景下，應(yīng)注重將K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中，就此打造一個良好的網(wǎng)絡(luò)通信環(huán)境。同時，符合商務(wù)交易、交流溝通等領(lǐng)域中互聯(lián)網(wǎng)應(yīng)用需求，且能避免因病毒侵襲等威脅網(wǎng)絡(luò)運(yùn)行安全的情況。

5 結(jié)論

綜上可知，在大數(shù)據(jù)環(huán)境的沖擊下，網(wǎng)絡(luò)安全檢測問題逐漸引起了人們關(guān)注。而由于傳統(tǒng)的防火墻技術(shù)等檢測方法已經(jīng)無法滿足用戶需求，為了保證網(wǎng)絡(luò)交易、交流溝通等的安全性，應(yīng)在網(wǎng)絡(luò)數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜的環(huán)境中，改進(jìn)網(wǎng)絡(luò)安全檢測方法。即運(yùn)用改進(jìn)過的K-means聚類算法，對冗余的數(shù)據(jù)進(jìn)行分類，之后，經(jīng)數(shù)據(jù)的預(yù)處理，提取關(guān)鍵數(shù)據(jù)進(jìn)行運(yùn)算，并在運(yùn)算過程中，提高網(wǎng)絡(luò)安全檢測效率，避免因數(shù)據(jù)冗余所造成的算法效率低等現(xiàn)象。

[1]鳳祥云.基于K-Means聚類算法入侵檢測系統(tǒng)研究[J].電腦知識與技術(shù)，2016.

[2]淡軍.基于并行二分K-means算法在異常檢測中的應(yīng)用[J].福建電腦，2016.

[3]王勝利.基于大數(shù)據(jù)聚類算法在網(wǎng)絡(luò)安全中的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2016.

[4]王茜，劉勝會.改進(jìn)K-means算法在入侵檢測中的應(yīng)用研究[J].計算機(jī)工程與應(yīng)用，2015.

[5]劉長騫.K均值算法改進(jìn)及在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J].計算機(jī)仿真，2011.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

探究大數(shù)據(jù)下的K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用

0 引言

1 大數(shù)據(jù)環(huán)境下的K-means聚類算法概述

2 基于大數(shù)據(jù)下的K-means聚類算法改進(jìn)

3 K-means聚類算法網(wǎng)絡(luò)安全檢測模型設(shè)計

4 網(wǎng)絡(luò)安全檢測模型應(yīng)用測試

5 結(jié)論