国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

探究大數(shù)據(jù)下的K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用

2017-04-17 01:27:13林慶新
關(guān)鍵詞:子集預(yù)處理聚類

◆林慶新

?

探究大數(shù)據(jù)下的K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用

◆林慶新

(福州大學(xué)至誠學(xué)院 福建 350002)

隨著我國計算機(jī)應(yīng)用領(lǐng)域的不斷發(fā)展,網(wǎng)絡(luò)通信逐漸開始改變?nèi)藗兊膶W(xué)習(xí)與生活。因此,面對發(fā)展中的網(wǎng)絡(luò)技術(shù),必須認(rèn)識到網(wǎng)絡(luò)安全檢測問題的重要性。同時,在網(wǎng)絡(luò)安全檢測作業(yè)中,突破傳統(tǒng)防火墻技術(shù)、數(shù)據(jù)加密技術(shù)等靜態(tài)安全防御技術(shù)的應(yīng)用,引入新型的安全保障技術(shù)。但在新型安全保障技術(shù)引入過程中,為了避免入侵攻擊危害系統(tǒng)、網(wǎng)絡(luò)安全,必須運(yùn)用改進(jìn)過后的K-means聚類算法,最終由此提高網(wǎng)絡(luò)安全檢測性能。

大數(shù)據(jù);K-means聚類算法;網(wǎng)絡(luò)安全

0 引言

基于互聯(lián)網(wǎng)信息時代沖擊背景下,網(wǎng)絡(luò)信息獲取、交流溝通、商務(wù)交易等應(yīng)用領(lǐng)域的使用越發(fā)頻繁。同時,據(jù)CNNIC統(tǒng)計數(shù)據(jù)顯示,我國域名總數(shù)已經(jīng)達(dá)到了1470萬個左右。但為了更好地發(fā)揮互聯(lián)網(wǎng)信息獲取功能,必須在互聯(lián)網(wǎng)操控過程中做好網(wǎng)絡(luò)安全檢測工作。即在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中引入K-means聚類算法,繼而有效控制軟件漏洞增長和惡意程序泛濫等問題。以下就是對K-means聚類算法在網(wǎng)絡(luò)安全檢測中應(yīng)用難點(diǎn)等相關(guān)問題的詳細(xì)闡述。

1 大數(shù)據(jù)環(huán)境下的K-means聚類算法概述

聚類,即表示按照對象間的相似程度,將一組物理對象分為不定數(shù)目的組。其中,同一組數(shù)據(jù)對象間具備一定的相似性,而把相似程度較高的數(shù)據(jù)對象分為一組的行為就是聚類分析過程。就目前來看,聚類分析已經(jīng)被逐漸應(yīng)用于商業(yè)、生物學(xué)、萬維網(wǎng)、地理研究等領(lǐng)域中。但大數(shù)據(jù)環(huán)境中的K-means聚類算法,可更好地滿足數(shù)據(jù)龐大且數(shù)據(jù)結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)處理需求。同時,K-means聚類算法作為一種以群分析的數(shù)據(jù)挖掘算法,可將數(shù)據(jù)集按照一定的要求,劃分為若干個子集。其中,同一子集數(shù)據(jù)具備較高的相似性,而不同子集間屬性差異較為明顯。此外,從K-means聚類算法思想層面角度來看,K-means聚類算法也注重強(qiáng)調(diào)以層次的方式,對數(shù)據(jù)進(jìn)行分類,并保證每一類數(shù)據(jù)具備一定的相似性,最終獲取k個聚類[1]。另外,從K-means聚類算法工作過程角度來看,如若在網(wǎng)絡(luò)安全檢測工作中應(yīng)用K-means聚類算法。同時,網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)多且結(jié)構(gòu)復(fù)雜,那么應(yīng)在網(wǎng)絡(luò)大數(shù)據(jù)對象為n個的基礎(chǔ)上,隨機(jī)選擇k個對象作為初始聚類中心,待初始聚類中心確定后,依據(jù)各個對象屬性,進(jìn)行類別劃分。同時,以k個對象的距離為劃分標(biāo)準(zhǔn),將k個對象分配至最為相似的聚類。其次,待k個對象聚類分析處理后,計算新聚類中所有對象均值,并反復(fù)多次重復(fù)此計算過程,直至標(biāo)準(zhǔn)測度函數(shù)開始出現(xiàn)收斂。即大數(shù)據(jù)環(huán)境下K-means聚類算法與傳統(tǒng)K-means算法相比,能更好的滿足網(wǎng)絡(luò)安全檢測需求。為此,應(yīng)提高對其的重視程度。

2 基于大數(shù)據(jù)下的K-means聚類算法改進(jìn)

在網(wǎng)絡(luò)安全檢測工作開展過程中,為了達(dá)到最佳的K-means聚類算法應(yīng)用效果,應(yīng)做好數(shù)據(jù)預(yù)處理、初始中心選取、K值確定等工作。即:

(1)數(shù)據(jù)預(yù)處理。即由于網(wǎng)絡(luò)數(shù)據(jù)共有2種:連續(xù)型、離散型。因而,為了更好的實(shí)現(xiàn)數(shù)據(jù)挖掘處理,需在數(shù)據(jù)預(yù)處理作業(yè)中,將離散型數(shù)據(jù)經(jīng)預(yù)處理后,轉(zhuǎn)換為數(shù)值型,由此達(dá)到最佳的數(shù)據(jù)預(yù)處理效果。但在離散型數(shù)據(jù)向數(shù)值型數(shù)據(jù)轉(zhuǎn)換期間,需定義,如下:

定義1,D,是報警數(shù)據(jù)庫,其擁有n個警告記錄集,而警告記錄集可用T={T1,T2,……,Tn}進(jìn)行表示,其中,n≥1。同時,X是警告記錄集的屬性集,由m個特征屬性構(gòu)成。而其具體的屬性集可用X={X1,X2,……,Xm}進(jìn)行表示。此外,以對象間距離來表示對象間相似程度[2]。

定義2,如若警告記錄中任意兩條用Ti和Tj表示,那么Ti與Tj間相似程度可用Sim(Ti,Tj)=Simc(Ti,Tj)+Simd(Ti,Tj)(i≠j)。

定義3,設(shè)定C={Ci}(i=1,2,……,K)用來表示聚類集。

定義4,假定,若所處理的聚類是Ci,那么聚類中心則是mi,而mi=mid+mic。

(2)確定初始聚類中心。即當(dāng)數(shù)據(jù)轉(zhuǎn)換完成后,可從龐大的數(shù)據(jù)中選擇符合類中心的樣本點(diǎn)密度較高的聚類。同時,在聚類確定過程中,綜合考慮密度、相似距離等因素對初始聚類中心的影響,而后,從D中隨機(jī)抽取q個子集,并設(shè)定所抽取的子集為D1,D2,……Dq,且各個子集中擁有n條記錄,繼而待各項(xiàng)內(nèi)容確定完畢后,由函數(shù)FindM處理子集,獲取3個初始聚類中心。即m1、m2、m3[3]。

(3)確定K值。即當(dāng)初始聚類中心確定后,應(yīng)采取多次重復(fù)的計算方法,計算各個類間相似度距離最大值與最小值,且在聚類分析過程中,通過動態(tài)化處理方式,不斷調(diào)整K值,最終達(dá)到歸類目的。

3 K-means聚類算法網(wǎng)絡(luò)安全檢測模型設(shè)計

在網(wǎng)絡(luò)安全檢測過程中,為了利用K-means聚類算法提高大數(shù)據(jù)環(huán)境中算法效率,應(yīng)設(shè)計K-means聚類算法網(wǎng)絡(luò)安全檢測模型。首先,在K-means聚類算法下網(wǎng)絡(luò)安全檢測模型設(shè)計過程中,應(yīng)將其分為訓(xùn)練階段和檢測階段。其中,訓(xùn)練階段包括網(wǎng)絡(luò)大數(shù)據(jù)、Hash函數(shù)、構(gòu)建樹形數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)訓(xùn)練等內(nèi)容。而檢測階段包括Hash函數(shù)、網(wǎng)絡(luò)數(shù)據(jù)基準(zhǔn)庫、待檢測網(wǎng)絡(luò)數(shù)據(jù)抓取、Hash函數(shù)處理網(wǎng)絡(luò)數(shù)據(jù)、找出K的臨近對象、直推式異常檢測等內(nèi)容。即訓(xùn)練階段負(fù)責(zé)對正常數(shù)據(jù)進(jìn)行提取,然后,將所采集的數(shù)據(jù)通過Hash函數(shù)處理方式,進(jìn)行數(shù)據(jù)預(yù)處理。同時,將特征數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)模型,以便于利用K-means聚類算法對數(shù)據(jù)進(jìn)行分類,且構(gòu)建樹形結(jié)構(gòu)。此外,檢測階段主要負(fù)責(zé)對待檢網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行Hash函數(shù)處理。然后,利用K-means聚類算法,對數(shù)據(jù)進(jìn)行分類。同時,探索樹形結(jié)構(gòu)中K臨近對象,最終經(jīng)直推式異常檢測,判斷數(shù)據(jù)是否存在異?,F(xiàn)象,就此達(dá)到網(wǎng)絡(luò)安全隱患檢測目的[4]。

4 網(wǎng)絡(luò)安全檢測模型應(yīng)用測試

為了更好的掌握到K-means聚類算法在網(wǎng)絡(luò)安全檢測中的應(yīng)用效果,可在網(wǎng)絡(luò)安全檢測模型設(shè)計完成后,以KDD Cup99為模型數(shù)據(jù)采集參考,進(jìn)行網(wǎng)絡(luò)安全檢測模型應(yīng)用測試工作。而在實(shí)際應(yīng)用測試作業(yè)中,可將DoS、Probe、R2L、U2R作為攻擊類型[5]。同時,模型中所記錄的屬性值共有34個,字符屬性是7個。但在所有字符屬性中,正常數(shù)據(jù)占據(jù)總體的18.69%,異常數(shù)據(jù)占據(jù)總體的81.34%。而后,待數(shù)據(jù)確定后,進(jìn)行安全模型應(yīng)用測試。同時,在具體的性能評估工作開展期間,從這些數(shù)據(jù)中選擇3組,用于樣本分析。其中,這3組子集中每個子集都有1000記錄,而記錄中1.8%-2.0%是已知異常數(shù)據(jù)。即具體的樣本數(shù)據(jù)如下:

表 1 樣本

待樣本處理處理后發(fā)現(xiàn),改進(jìn)后的K-means算法優(yōu)于傳統(tǒng)K-means算法。即試驗(yàn)結(jié)果如下:

表 2 檢測結(jié)果比對

從表2中即可看出,在傳統(tǒng)K-means聚類算法與改進(jìn)過后的K-means聚類算對比中即可看出,改進(jìn)過后的算法與傳統(tǒng)算法相比,檢測率提高約,而誤檢率約降低,檢測時間相對節(jié)省。因而,在大數(shù)據(jù)背景下,應(yīng)將改進(jìn)過的K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中。此外,從對不同攻擊類型檢測的效率角度來看,傳統(tǒng)K-means聚類算法與改進(jìn)過后的聚類算法檢測效率如下:

表 3 對不同攻擊類型檢測的效率

從表3中即可看出,在U2R、R2L、DoS、Probe等不同攻擊類型檢測中,改進(jìn)過后的K-means算法檢測效果更優(yōu)。因而,在大數(shù)據(jù)背景下,應(yīng)注重將K-means聚類算法應(yīng)用于網(wǎng)絡(luò)安全檢測作業(yè)中,就此打造一個良好的網(wǎng)絡(luò)通信環(huán)境。同時,符合商務(wù)交易、交流溝通等領(lǐng)域中互聯(lián)網(wǎng)應(yīng)用需求,且能避免因病毒侵襲等威脅網(wǎng)絡(luò)運(yùn)行安全的情況。

5 結(jié)論

綜上可知,在大數(shù)據(jù)環(huán)境的沖擊下,網(wǎng)絡(luò)安全檢測問題逐漸引起了人們關(guān)注。而由于傳統(tǒng)的防火墻技術(shù)等檢測方法已經(jīng)無法滿足用戶需求,為了保證網(wǎng)絡(luò)交易、交流溝通等的安全性,應(yīng)在網(wǎng)絡(luò)數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜的環(huán)境中,改進(jìn)網(wǎng)絡(luò)安全檢測方法。即運(yùn)用改進(jìn)過的K-means聚類算法,對冗余的數(shù)據(jù)進(jìn)行分類,之后,經(jīng)數(shù)據(jù)的預(yù)處理,提取關(guān)鍵數(shù)據(jù)進(jìn)行運(yùn)算,并在運(yùn)算過程中,提高網(wǎng)絡(luò)安全檢測效率,避免因數(shù)據(jù)冗余所造成的算法效率低等現(xiàn)象。

[1]鳳祥云.基于K-Means聚類算法入侵檢測系統(tǒng)研究[J].電腦知識與技術(shù),2016.

[2]淡軍.基于并行二分K-means算法在異常檢測中的應(yīng)用[J].福建電腦,2016.

[3]王勝利.基于大數(shù)據(jù)聚類算法在網(wǎng)絡(luò)安全中的應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016.

[4]王茜,劉勝會.改進(jìn)K-means算法在入侵檢測中的應(yīng)用研究[J].計算機(jī)工程與應(yīng)用,2015.

[5]劉長騫.K均值算法改進(jìn)及在網(wǎng)絡(luò)入侵檢測中的應(yīng)用[J].計算機(jī)仿真,2011.

猜你喜歡
子集預(yù)處理聚類
由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
基于改進(jìn)的遺傳算法的模糊聚類算法
絡(luò)合萃取法預(yù)處理H酸廢水
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
大庆市| 安仁县| 咸阳市| 罗源县| 天等县| 缙云县| 马尔康县| 沧州市| 景宁| 宁蒗| 平顶山市| 察雅县| 永济市| 蒙城县| 濮阳市| 湖北省| 大庆市| 搜索| 师宗县| 两当县| 连州市| 苍山县| 栾川县| 岐山县| 乐清市| 大竹县| 牡丹江市| 连南| 耒阳市| 唐山市| 平南县| 乌兰察布市| 卓尼县| 肇东市| 辉县市| 宜良县| 靖安县| 马龙县| 兴宁市| 卓资县| 罗源县|