◆林慶新
?
探究大數(shù)據(jù)下的K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用
◆林慶新
(福州大學(xué)至誠學(xué)院 福建 350002)
隨著我國計算機(jī)應(yīng)用領(lǐng)域的不斷發(fā)展,網(wǎng)絡(luò)通信逐漸開始改變?nèi)藗兊膶W(xué)習(xí)與生活。因此,面對發(fā)展中的網(wǎng)絡(luò)技術(shù),必須認(rèn)識到網(wǎng)絡(luò)安全檢測問題的重要性。同時,在網(wǎng)絡(luò)安全檢測作業(yè)中,突破傳統(tǒng)防火墻技術(shù)、數(shù)據(jù)加密技術(shù)等靜態(tài)安全防御技術(shù)的應(yīng)用,引入新型的安全保障技術(shù)。但在新型安全保障技術(shù)引入過程中,為了避免入侵攻擊危害系統(tǒng)、網(wǎng)絡(luò)安全,必須運(yùn)用改進(jìn)過后的K-means聚類算法,最終由此提高網(wǎng)絡(luò)安全檢測性能。
大數(shù)據(jù);K-means聚類算法;網(wǎng)絡(luò)安全
基于互聯(lián)網(wǎng)信息時代沖擊背景下,網(wǎng)絡(luò)信息獲取、交流溝通、商務(wù)交易等應(yīng)用領(lǐng)域的使用越發(fā)頻繁。同時,據(jù)CNNIC統(tǒng)計數(shù)據(jù)顯示,我國域名總數(shù)已經(jīng)達(dá)到了1470萬個左右。但為了更好地發(fā)揮互聯(lián)網(wǎng)信息獲取功能,必須在互聯(lián)網(wǎng)操控過程中做好網(wǎng)絡(luò)安全檢測工作。即在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中引入K-means聚類算法,繼而有效控制軟件漏洞增長和惡意程序泛濫等問題。以下就是對K-means聚類算法在網(wǎng)絡(luò)安全檢測中應(yīng)用難點(diǎn)等相關(guān)問題的詳細(xì)闡述。
聚類,即表示按照對象間的相似程度,將一組物理對象分為不定數(shù)目的組。其中,同一組數(shù)據(jù)對象間具備一定的相似性,而把相似程度較高的數(shù)據(jù)對象分為一組的行為就是聚類分析過程。就目前來看,聚類分析已經(jīng)被逐漸應(yīng)用于商業(yè)、生物學(xué)、萬維網(wǎng)、地理研究等領(lǐng)域中。但大數(shù)據(jù)環(huán)境中的K-means聚類算法,可更好地滿足數(shù)據(jù)龐大且數(shù)據(jù)結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)處理需求。同時,K-means聚類算法作為一種以群分析的數(shù)據(jù)挖掘算法,可將數(shù)據(jù)集按照一定的要求,劃分為若干個子集。其中,同一子集數(shù)據(jù)具備較高的相似性,而不同子集間屬性差異較為明顯。此外,從K-means聚類算法思想層面角度來看,K-means聚類算法也注重強(qiáng)調(diào)以層次的方式,對數(shù)據(jù)進(jìn)行分類,并保證每一類數(shù)據(jù)具備一定的相似性,最終獲取k個聚類[1]。另外,從K-means聚類算法工作過程角度來看,如若在網(wǎng)絡(luò)安全檢測工作中應(yīng)用K-means聚類算法。同時,網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)多且結(jié)構(gòu)復(fù)雜,那么應(yīng)在網(wǎng)絡(luò)大數(shù)據(jù)對象為n個的基礎(chǔ)上,隨機(jī)選擇k個對象作為初始聚類中心,待初始聚類中心確定后,依據(jù)各個對象屬性,進(jìn)行類別劃分。同時,以k個對象的距離為劃分標(biāo)準(zhǔn),將k個對象分配至最為相似的聚類。其次,待k個對象聚類分析處理后,計算新聚類中所有對象均值,并反復(fù)多次重復(fù)此計算過程,直至標(biāo)準(zhǔn)測度函數(shù)開始出現(xiàn)收斂。即大數(shù)據(jù)環(huán)境下K-means聚類算法與傳統(tǒng)K-means算法相比,能更好的滿足網(wǎng)絡(luò)安全檢測需求。為此,應(yīng)提高對其的重視程度。
在網(wǎng)絡(luò)安全檢測工作開展過程中,為了達(dá)到最佳的K-means聚類算法應(yīng)用效果,應(yīng)做好數(shù)據(jù)預(yù)處理、初始中心選取、K值確定等工作。即:
(1)數(shù)據(jù)預(yù)處理。即由于網(wǎng)絡(luò)數(shù)據(jù)共有2種:連續(xù)型、離散型。因而,為了更好的實(shí)現(xiàn)數(shù)據(jù)挖掘處理,需在數(shù)據(jù)預(yù)處理作業(yè)中,將離散型數(shù)據(jù)經(jīng)預(yù)處理后,轉(zhuǎn)換為數(shù)值型,由此達(dá)到最佳的數(shù)據(jù)預(yù)處理效果。但在離散型數(shù)據(jù)向數(shù)值型數(shù)據(jù)轉(zhuǎn)換期間,需定義,如下:
定義1,D,是報警數(shù)據(jù)庫,其擁有n個警告記錄集,而警告記錄集可用T={T1,T2,……,Tn}進(jìn)行表示,其中,n≥1。同時,X是警告記錄集的屬性集,由m個特征屬性構(gòu)成。而其具體的屬性集可用X={X1,X2,……,Xm}進(jìn)行表示。此外,以對象間距離來表示對象間相似程度[2]。
定義2,如若警告記錄中任意兩條用Ti和Tj表示,那么Ti與Tj間相似程度可用Sim(Ti,Tj)=Simc(Ti,Tj)+Simd(Ti,Tj)(i≠j)。
定義3,設(shè)定C={Ci}(i=1,2,……,K)用來表示聚類集。
定義4,假定,若所處理的聚類是Ci,那么聚類中心則是mi,而mi=mid+mic。
(2)確定初始聚類中心。即當(dāng)數(shù)據(jù)轉(zhuǎn)換完成后,可從龐大的數(shù)據(jù)中選擇符合類中心的樣本點(diǎn)密度較高的聚類。同時,在聚類確定過程中,綜合考慮密度、相似距離等因素對初始聚類中心的影響,而后,從D中隨機(jī)抽取q個子集,并設(shè)定所抽取的子集為D1,D2,……Dq,且各個子集中擁有n條記錄,繼而待各項(xiàng)內(nèi)容確定完畢后,由函數(shù)FindM處理子集,獲取3個初始聚類中心。即m1、m2、m3[3]。
(3)確定K值。即當(dāng)初始聚類中心確定后,應(yīng)采取多次重復(fù)的計算方法,計算各個類間相似度距離最大值與最小值,且在聚類分析過程中,通過動態(tài)化處理方式,不斷調(diào)整K值,最終達(dá)到歸類目的。
在網(wǎng)絡(luò)安全檢測過程中,為了利用K-means聚類算法提高大數(shù)據(jù)環(huán)境中算法效率,應(yīng)設(shè)計K-means聚類算法網(wǎng)絡(luò)安全檢測模型。首先,在K-means聚類算法下網(wǎng)絡(luò)安全檢測模型設(shè)計過程中,應(yīng)將其分為訓(xùn)練階段和檢測階段。其中,訓(xùn)練階段包括網(wǎng)絡(luò)大數(shù)據(jù)、Hash函數(shù)、構(gòu)建樹形數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)訓(xùn)練等內(nèi)容。而檢測階段包括Hash函數(shù)、網(wǎng)絡(luò)數(shù)據(jù)基準(zhǔn)庫、待檢測網(wǎng)絡(luò)數(shù)據(jù)抓取、Hash函數(shù)處理網(wǎng)絡(luò)數(shù)據(jù)、找出K的臨近對象、直推式異常檢測等內(nèi)容。即訓(xùn)練階段負(fù)責(zé)對正常數(shù)據(jù)進(jìn)行提取,然后,將所采集的數(shù)據(jù)通過Hash函數(shù)處理方式,進(jìn)行數(shù)據(jù)預(yù)處理。同時,將特征數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)模型,以便于利用K-means聚類算法對數(shù)據(jù)進(jìn)行分類,且構(gòu)建樹形結(jié)構(gòu)。此外,檢測階段主要負(fù)責(zé)對待檢網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行Hash函數(shù)處理。然后,利用K-means聚類算法,對數(shù)據(jù)進(jìn)行分類。同時,探索樹形結(jié)構(gòu)中K臨近對象,最終經(jīng)直推式異常檢測,判斷數(shù)據(jù)是否存在異?,F(xiàn)象,就此達(dá)到網(wǎng)絡(luò)安全隱患檢測目的[4]。
為了更好的掌握到K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用效果,可在網(wǎng)絡(luò)安全檢測模型設(shè)計完成后,以KDD Cup99為模型數(shù)據(jù)采集參考,進(jìn)行網(wǎng)絡(luò)安全檢測模型應(yīng)用測試工作。而在實(shí)際應(yīng)用測試作業(yè)中,可將DoS、Probe、R2L、U2R作為攻擊類型[5]。同時,模型中所記錄的屬性值共有34個,字符屬性是7個。但在所有字符屬性中,正常數(shù)據(jù)占據(jù)總體的18.69%,異常數(shù)據(jù)占據(jù)總體的81.34%。而后,待數(shù)據(jù)確定后,進(jìn)行安全模型應(yīng)用測試。同時,在具體的性能評估工作開展期間,從這些數(shù)據(jù)中選擇3組,用于樣本分析。其中,這3組子集中每個子集都有1000記錄,而記錄中1.8%-2.0%是已知異常數(shù)據(jù)。即具體的樣本數(shù)據(jù)如下:
表 1 樣本
待樣本處理處理后發(fā)現(xiàn),改進(jìn)后的K-means算法優(yōu)于傳統(tǒng)K-means算法。即試驗(yàn)結(jié)果如下:
表 2 檢測結(jié)果比對
從表2中即可看出,在傳統(tǒng)K-means聚類算法與改進(jìn)過后的K-means聚類算對比中即可看出,改進(jìn)過后的算法與傳統(tǒng)算法相比,檢測率提高約,而誤檢率約降低,檢測時間相對節(jié)省。因而,在大數(shù)據(jù)背景下,應(yīng)將改進(jìn)過的K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中。此外,從對不同攻擊類型檢測的效率角度來看,傳統(tǒng)K-means聚類算法與改進(jìn)過后的聚類算法檢測效率如下:
表 3 對不同攻擊類型檢測的效率
從表3中即可看出,在U2R、R2L、DoS、Probe等不同攻擊類型檢測中,改進(jìn)過后的K-means算法檢測效果更優(yōu)。因而,在大數(shù)據(jù)背景下,應(yīng)注重將K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中,就此打造一個良好的網(wǎng)絡(luò)通信環(huán)境。同時,符合商務(wù)交易、交流溝通等領(lǐng)域中互聯(lián)網(wǎng)應(yīng)用需求,且能避免因病毒侵襲等威脅網(wǎng)絡(luò)運(yùn)行安全的情況。
綜上可知,在大數(shù)據(jù)環(huán)境的沖擊下,網(wǎng)絡(luò)安全檢測問題逐漸引起了人們關(guān)注。而由于傳統(tǒng)的防火墻技術(shù)等檢測方法已經(jīng)無法滿足用戶需求,為了保證網(wǎng)絡(luò)交易、交流溝通等的安全性,應(yīng)在網(wǎng)絡(luò)數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜的環(huán)境中,改進(jìn)網(wǎng)絡(luò)安全檢測方法。即運(yùn)用改進(jìn)過的K-means聚類算法,對冗余的數(shù)據(jù)進(jìn)行分類,之后,經(jīng)數(shù)據(jù)的預(yù)處理,提取關(guān)鍵數(shù)據(jù)進(jìn)行運(yùn)算,并在運(yùn)算過程中,提高網(wǎng)絡(luò)安全檢測效率,避免因數(shù)據(jù)冗余所造成的算法效率低等現(xiàn)象。
[1]鳳祥云.基于K-Means聚類算法入侵檢測系統(tǒng)研究[J].電腦知識與技術(shù),2016.
[2]淡軍.基于并行二分K-means算法在異常檢測中的應(yīng)用[J].福建電腦,2016.
[3]王勝利.基于大數(shù)據(jù)聚類算法在網(wǎng)絡(luò)安全中的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016.
[4]王茜,劉勝會.改進(jìn)K-means算法在入侵檢測中的應(yīng)用研究[J].計算機(jī)工程與應(yīng)用,2015.
[5]劉長騫.K均值算法改進(jìn)及在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J].計算機(jī)仿真,2011.