劉慕嫻 陳文迪 劉桂華
摘 ? 要:網(wǎng)絡(luò)流量異常檢測(cè)作為一種有效的網(wǎng)絡(luò)防護(hù)手段,能夠檢測(cè)未知攻擊行為。為了更高效地檢測(cè)出流量異常,文章提出一種基于K-means算法的網(wǎng)絡(luò)流量異常檢測(cè)模型。該方法首先將網(wǎng)絡(luò)流量特征屬性量化為熵值進(jìn)行分類,然后將K-means聚類分析算法運(yùn)用在網(wǎng)絡(luò)流量異常檢測(cè)中,提高了檢測(cè)準(zhǔn)確率,從而實(shí)現(xiàn)安全監(jiān)測(cè)預(yù)警。該模型與傳統(tǒng)的一些網(wǎng)絡(luò)流量異常檢測(cè)模型相比,具有更高的準(zhǔn)確率。
關(guān)鍵詞:流量異常檢測(cè);K-means算法;流量特征
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)不斷擴(kuò)大,網(wǎng)絡(luò)威脅問題也越來越突出。各種異常事件與正常的業(yè)務(wù)流量混合在一起,特別是一些僵尸網(wǎng)絡(luò)、木馬病毒、拒絕服務(wù)、跨站腳本攻擊/跨站請(qǐng)求偽造(Cross Site Scripting/Cross-Site Request Forgery,XSS/CSRF)和其他攻擊[1]。為了有效識(shí)別和定位網(wǎng)絡(luò)流量異常情況,發(fā)現(xiàn)潛在的攻擊行為,保證網(wǎng)絡(luò)應(yīng)用的安全運(yùn)行,異常流量檢測(cè)技術(shù)正面臨嚴(yán)峻挑戰(zhàn)。
傳統(tǒng)的網(wǎng)絡(luò)流量分類方法主要分為4種類型:基于端口的方法[2-3]、基于深度報(bào)文檢測(cè)(Deep Packet Inspection,DPI)的方法[4]、基于統(tǒng)計(jì)的方法[5]和基于行為的方法[6-7]。其中,基于端口的方法準(zhǔn)確度比較低,基于DPI的方法不能處理加密的流量并且復(fù)雜度比較高,因此,目前研究較多的是基于統(tǒng)計(jì)和基于行為的方法,也有部分研究嘗試采用一些大數(shù)據(jù)分析方法[8-9]。隨著網(wǎng)絡(luò)應(yīng)用的逐漸增加,網(wǎng)絡(luò)流量特征的整體復(fù)雜性不斷增加,數(shù)據(jù)采集與數(shù)據(jù)分析之間的主觀判斷差異使得網(wǎng)絡(luò)異常流量檢測(cè)的準(zhǔn)確性仍有待提高。本文提出一種基于K-means算法的網(wǎng)絡(luò)流量異常檢測(cè)模型,它將網(wǎng)絡(luò)流量特征屬性量化為熵值進(jìn)行分類,然后將K-means聚類分析算法運(yùn)用在網(wǎng)絡(luò)流量異常檢測(cè),對(duì)異常流量進(jìn)行聚類,從而提升檢測(cè)準(zhǔn)確度。
1 ? ?基于K-means算法的網(wǎng)絡(luò)流量異常檢測(cè)模型
本模型按功能可分成數(shù)據(jù)預(yù)處理、訓(xùn)練與檢測(cè)3個(gè)模塊(見圖1)。數(shù)據(jù)預(yù)處理模塊首先獲取網(wǎng)絡(luò)數(shù)據(jù)包,然后分析協(xié)議和提取信息,得到原始網(wǎng)絡(luò)流量數(shù)據(jù)的基本特征信息。同時(shí),對(duì)原始網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行預(yù)處理,得到可輸入模型的訓(xùn)練數(shù)據(jù)和能夠進(jìn)行入侵檢測(cè)的實(shí)時(shí)數(shù)據(jù),其中,主要內(nèi)容是對(duì)流量信息熵的量化。訓(xùn)練模塊主要是使用K-means算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到可以進(jìn)行網(wǎng)絡(luò)流量異常檢測(cè)的模型。最后,在檢測(cè)模塊中,筆者用訓(xùn)練好的入侵檢測(cè)模型接收來自采集處理模塊的實(shí)時(shí)數(shù)據(jù)作為輸入,檢測(cè)出實(shí)時(shí)數(shù)據(jù)中的異常流量,與實(shí)際異常流量數(shù)據(jù)相比較是否正確。
1.1 ?流量信息熵量化
步驟7,檢查所有簇中是否含有僅包含新增簇中心點(diǎn)的孤立簇,如果有,則刪除該簇的中心點(diǎn)集和未標(biāo)記樣本,k=k﹣1,并重復(fù)步驟2—6;如果沒有,則使用步驟6將確定的新k值和k個(gè)初始聚類中心點(diǎn)用作初始輸入,并且連續(xù)地執(zhí)行再分配。更新組中對(duì)象的平均值以更新聚類中心,直到聚類中心收斂,并獲得整個(gè)樣本集的k個(gè)分區(qū)。
2 ? ?實(shí)驗(yàn)結(jié)果分析
為了評(píng)估網(wǎng)絡(luò)流量異常檢測(cè)模型,本文選擇使用3個(gè)常用的評(píng)估指標(biāo):檢測(cè)率、誤報(bào)率和未知攻擊檢測(cè)率,來對(duì)模型進(jìn)行評(píng)估。其中,檢測(cè)率是指網(wǎng)絡(luò)流量異常檢測(cè)模型對(duì)異常流量的識(shí)別能力,誤報(bào)率是指網(wǎng)絡(luò)流量異常檢測(cè)模型針對(duì)正常樣本的建模能力,未知攻擊檢測(cè)率體現(xiàn)出網(wǎng)絡(luò)流量異常檢測(cè)模型對(duì)于未知攻擊的檢測(cè)能力,這3個(gè)指標(biāo)的具體計(jì)算公式如下:
本文將采用KDD CUP 99數(shù)據(jù)集來對(duì)幾個(gè)網(wǎng)絡(luò)流量異常檢測(cè)模型去做相關(guān)訓(xùn)練和測(cè)試。該數(shù)據(jù)集中異常流量類型一般可以4類,分別為U2R,Probe,Dos與R2L。其中U2R指的是未授權(quán)的本地超級(jí)用戶特權(quán)訪問,Probe一般為平常所見的IP或端口掃描攻擊,拒絕服務(wù)攻擊(Denial of Service,DoS),R2L是遠(yuǎn)程主機(jī)的未授權(quán)訪問,所以能夠全面地體現(xiàn)檢測(cè)模型的效率。
本文將與兩個(gè)傳統(tǒng)的流量異常檢測(cè)模型進(jìn)行比較,一個(gè)是基于云模型,另一個(gè)是基于流量分析,前者主要是統(tǒng)計(jì)分析,后者主要是主成分分析,試驗(yàn)比較結(jié)果如表1所示。可以看出,本文模型在檢測(cè)率、誤報(bào)率和位置攻擊檢測(cè)率上都優(yōu)于傳統(tǒng)的流量異常檢測(cè)模型。
3 ? ?總結(jié)
本文提出的基于K-means算法的網(wǎng)絡(luò)流量異常檢測(cè)模型,首先將采集到的網(wǎng)絡(luò)流量特征屬性量化為熵值,方便后續(xù)的分類,然后再利用K-means算法對(duì)異常流量進(jìn)行聚類分析,訓(xùn)練出檢測(cè)模型,該模型在檢測(cè)率、誤報(bào)率和位置攻擊檢測(cè)率上都優(yōu)于傳統(tǒng)的流量異常檢測(cè)模型。
[參考文獻(xiàn)]
[1]張?jiān)旅?探究計(jì)算機(jī)網(wǎng)絡(luò)流量異常的檢測(cè)和預(yù)測(cè)[J].技術(shù)與市場(chǎng),2019(6):201.
[2]宋小芹.對(duì)等覆蓋網(wǎng)絡(luò)傳輸層異常流量模糊識(shí)別仿真[J].計(jì)算機(jī)仿真,2019(6):408-411.
[3]張嘉譽(yù),章堅(jiān)民,楊才明,等.基于信息物理融合的智能變電站過程層網(wǎng)絡(luò)異常流量檢測(cè)[J].電力系統(tǒng)自動(dòng)化,2019(14):173-184.
[4]王浩東,成實(shí),張銳,等.基于深度數(shù)據(jù)包檢測(cè)(DPI)及R平方值的數(shù)據(jù)承載網(wǎng)規(guī)劃方法的研究[J].信息通信,2019(5):182-184.
[5]費(fèi)金龍,王禹,王天鵬,等.基于云模型的網(wǎng)絡(luò)異常流量檢測(cè)[J].計(jì)算機(jī)工程,2017(1):178-182.
[6]單玉潔,殷旭東,張書啟.基于流量分析的網(wǎng)絡(luò)安全檢測(cè)研究[J].信息與電腦(理論版),2018(6):205-207.
[7]徐久強(qiáng),周洋洋,王進(jìn)法,等.基于流時(shí)間影響域的網(wǎng)絡(luò)流量異常檢測(cè)[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(1):26-31.
[8]李寧.基于大數(shù)據(jù)的互聯(lián)網(wǎng)異常流量檢測(cè)研究[J].成都工業(yè)學(xué)院學(xué)報(bào),2018(4):34-38.
[9]蒲曉川.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測(cè)研究[J].現(xiàn)代電子技術(shù),2018(3):84-87.