趙明 嚴(yán)宏舉 張明軍 安娜 韓進(jìn)喜
摘要:針對聚類算法普遍存在的數(shù)值震蕩和計算量大以及傳統(tǒng)異常檢測中存在的分析準(zhǔn)確率低和時效性差等問題,提出了一種改進(jìn)的近鄰傳播聚類算法———IMAP的異常數(shù)據(jù)檢測方法。通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段實現(xiàn)異常數(shù)據(jù)的識別和定位,引入動態(tài)阻尼系數(shù)的聚類分析方法對標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測,為構(gòu)造安全和穩(wěn)定網(wǎng)絡(luò)提供了參考。實驗結(jié)果表明,利用IMAP的異常檢測方法能有效地提高異常檢測的運行效率和算法的精確度,具有實際的應(yīng)用價值和意義。
關(guān)鍵詞:AP聚類;IMAP聚類;異常檢測;聚類算法
中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2020)10-68-4
0引言
近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,數(shù)據(jù)規(guī)模日益擴大,對網(wǎng)絡(luò)的管理與監(jiān)測越來越受到人們的重視。物理拓?fù)渖系木W(wǎng)絡(luò)動態(tài)級聯(lián)故障將導(dǎo)致失效節(jié)點對周圍節(jié)點產(chǎn)生級聯(lián)失效效應(yīng)[1-3]。虛擬化技術(shù)的出現(xiàn),虛擬節(jié)點與底層物理節(jié)點映射的動態(tài)性導(dǎo)致虛擬網(wǎng)絡(luò)和底層物理網(wǎng)絡(luò)的故障因果關(guān)系更加難以預(yù)測;網(wǎng)絡(luò)運行穩(wěn)定后,網(wǎng)絡(luò)故障發(fā)生的頻次低,導(dǎo)致異常數(shù)據(jù)收集少,進(jìn)而難以覆蓋異常的全部分布。而當(dāng)網(wǎng)絡(luò)和信息系統(tǒng)迭代建設(shè)更新后,可能出現(xiàn)新的異常事件,但異常事件典型樣本的缺乏將無法有效檢測未知異常。網(wǎng)絡(luò)異常檢測是指以網(wǎng)絡(luò)流數(shù)據(jù)為輸入,通過數(shù)據(jù)挖掘、統(tǒng)計分析和機器學(xué)習(xí)等方法,發(fā)現(xiàn)異常的網(wǎng)絡(luò)數(shù)據(jù)分組和異常網(wǎng)絡(luò)交互等信息[4-5],綜合分析并借鑒上述異常檢測方法的優(yōu)缺點,提出一種基于改進(jìn)的近鄰傳播(AP)聚類算法[6-10],用于進(jìn)行網(wǎng)絡(luò)異常數(shù)據(jù)檢測,該AP聚類方法可以有效解決聚類算法普遍存在的數(shù)值震蕩和計算量大等問題。使用改進(jìn)的AP聚類算法對網(wǎng)絡(luò)異常進(jìn)行檢測,能有效提高檢測效率,并能很好地適應(yīng)通信網(wǎng)多樣化的復(fù)雜數(shù)據(jù)。
1異常檢測相關(guān)算法
異常檢測也被稱為基于活動行為的入侵檢測,是指能檢測出區(qū)別于正常行為的所有的行為,如未知的攻擊行為。常用的異常檢測方法可分為基于統(tǒng)計的異常檢測、基于分類的異常檢測、基于近鄰的異常檢測和基于聚類的異常檢測[11-13]?;诰垲惖漠惓z測不需要監(jiān)督,適用于時空數(shù)據(jù)的異常檢測。一種基于淺層數(shù)據(jù)包檢查和并行K均值數(shù)據(jù)聚類的網(wǎng)絡(luò)流量異常檢測,能通過K均值聚類檢測網(wǎng)絡(luò)流量中的異常行為并為其提供通用的解決方案。但K均值聚類檢測方法存在明顯的局限性,必須事先為每個類別確定一個聚類中心,其結(jié)果好壞依賴于初始聚類中心的選擇,且對異常樣本點較為敏感。
基于此,提出了基于IMAP聚類算法的網(wǎng)絡(luò)異常檢測方法,將IMAP聚類算法應(yīng)用于網(wǎng)絡(luò)異常檢測中,使其具有較好的穩(wěn)定性和優(yōu)越的檢測性能。
2基于IMAP聚類算法的異常檢測
2.1異常數(shù)據(jù)檢測模型
提出了一種基于改進(jìn)的AP聚類算法的異常檢測[14-16]方法,結(jié)合網(wǎng)絡(luò)故障數(shù)據(jù)的層次性、傳播性、相關(guān)性和不確定性進(jìn)行模型改進(jìn),模型如圖1所示。異常數(shù)據(jù)檢測模型主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段。
①數(shù)據(jù)采集:基于流量探針、代理軟件,主動輪詢檢測和主動數(shù)據(jù)上報等方式,可以依據(jù)自己的數(shù)據(jù)需要,借助于網(wǎng)絡(luò)爬蟲技術(shù)獲取海量數(shù)據(jù),或者獲取公開的數(shù)據(jù)集作為實驗數(shù)據(jù)的來源。
②數(shù)據(jù)預(yù)處理:原始的數(shù)據(jù)噪聲較高,不適合直接進(jìn)行異常檢測,要對原始數(shù)據(jù)進(jìn)行預(yù)處理將其轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù),便于后面進(jìn)行數(shù)據(jù)挖掘。常用的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成及數(shù)據(jù)離散化分類等。
③聚類分析:將標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行分類,大數(shù)據(jù)量的分類被認(rèn)定為正常數(shù)據(jù)或普通數(shù)據(jù),數(shù)據(jù)量較小的分類和孤立節(jié)點作為異常檢測的基礎(chǔ)數(shù)據(jù)。
2.2基于IMAP的聚類算法
基于IMAP的聚類算法是一種基于消息傳遞的聚類方法,主要思想是將數(shù)據(jù)看作二維空間內(nèi)的節(jié)點,通過在數(shù)據(jù)節(jié)點直接傳遞信息,不斷循環(huán)迭代修改空間中聚類中心點的位置,最終得到一些高質(zhì)量的聚類中心點。首先構(gòu)建相似度矩陣來描述樣本數(shù)據(jù)點之間的相似性,然后借助相似度矩陣偏向參數(shù)實現(xiàn)一種包含響應(yīng)度信息R(Responsibility)和可用度信息A(Availability)的消息傳遞機制來對數(shù)據(jù)點進(jìn)行聚類。
基于IMAP的聚類算法以數(shù)據(jù)點之間的相似度矩陣和偏向參數(shù)作為輸入,利用這2種信息交替更新進(jìn)行迭代,最終得到并輸出聚類結(jié)果。其中,數(shù)據(jù)點和數(shù)據(jù)點之間的相似度定義如下:
3仿真試驗驗證
以實驗室小型網(wǎng)絡(luò)(10臺交換機和服務(wù)器)環(huán)境下所采集的近15 000條網(wǎng)絡(luò)運行狀態(tài)和日志數(shù)據(jù)為例進(jìn)行實例驗證,分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、標(biāo)準(zhǔn)數(shù)據(jù)集及聚類分析異常檢測等步驟。
①獲取數(shù)據(jù):通過模擬或?qū)嵉夭杉仁侄稳轿猾@取正常流量數(shù)據(jù)和異常流量數(shù)據(jù),并形成數(shù)據(jù)集對其進(jìn)行驗證。
②數(shù)據(jù)預(yù)處理:對獲取的流量數(shù)據(jù)集進(jìn)行預(yù)處理操作,剔除數(shù)據(jù)集中的“臟數(shù)據(jù)”,即與故障特性無關(guān)的數(shù)據(jù)、重復(fù)采集的數(shù)據(jù),或數(shù)據(jù)格式錯誤的數(shù)據(jù),在此基礎(chǔ)上利用主成分分析法對流量數(shù)據(jù)進(jìn)行降維處理,提取流量數(shù)據(jù)的主要特征,降低流量數(shù)據(jù)的復(fù)雜性。
③標(biāo)準(zhǔn)化數(shù)據(jù)集:對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理得到模型所需的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集共含有7 267條數(shù)據(jù)。將數(shù)據(jù)集歸一化后,對其進(jìn)行基于AP聚類的異常檢測分析。
在試驗中檢測驗證的結(jié)果如下:
①值:使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=79.6%,使用本文提出的IMAP聚類算法做流量異常檢測的=82.3%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在召回率上提高了2.7%。
②值:使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=72.4%,使用本文提出的IMAP聚類算法做流量異常檢測的=80.9%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在準(zhǔn)確率上提高了8.5%。
③1值:通過對2個算法1值的對比,可以發(fā)現(xiàn)使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的1=72.9%,使用本文提出的IMAP聚類算法做流量異常檢測的1=81.6%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在1值提高了8.7%。
由上述試驗結(jié)果對比分析可知,本文提出的基于IMAP聚類的異常檢測算法具有檢測速度快、檢測準(zhǔn)確率高的特點,具有實際的應(yīng)用價值和意義。
4結(jié)束語
本文提出的異常檢測模型分為數(shù)據(jù)采集階段、數(shù)據(jù)預(yù)處理階段和聚類分析階段3個部分,將采集的海量數(shù)據(jù)進(jìn)行清洗得到標(biāo)準(zhǔn)化數(shù)據(jù),然后通過聚類分析方法標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測,與以往的異常檢測精度相比,檢測效率提高了近45%。將改進(jìn)的IMAP聚類方法應(yīng)用到網(wǎng)絡(luò)異常檢測領(lǐng)域,有助于解決以往的異常檢測方法中存在數(shù)據(jù)震蕩問題,并能夠高效準(zhǔn)確地找到異常數(shù)據(jù),對網(wǎng)絡(luò)安全建設(shè)有深遠(yuǎn)的意義。
參考文獻(xiàn)
[1]戚玉娥,劉方愛.一種基于聚類的異常流量檢測算法[J].微計算機信息,2010,26(9):133-135.
[2]李洪成,吳曉平,姜洪海.基于改進(jìn)聚類分析的網(wǎng)絡(luò)流量異常檢測方法[J].網(wǎng)絡(luò)與信息安全學(xué)報,2015,1(1):66-71.
[3]柳兆峰,楊奇,霍永華,等.基于CURE聚類算法的科技情報異常數(shù)據(jù)檢測[J].無線電通信技術(shù),2018,44(06):605-609.
[4]王柯偉.基于聚類的網(wǎng)絡(luò)異常檢測研究與實現(xiàn)[D].北京:北京郵電大學(xué),2017.
[5] FREY B J, DUECK D.Clustering by Passing Messages between Data Points[J].Science,2007,315 (5814):972-976.
[6]章永來,周耀鑒.聚類算法綜述[J].計算機應(yīng)用,2019,39(7): 1869-1882.
[7] HASSANABADI B,SHEA C,ZHANG L,et al.Clustering in Vehicular Ad Hoc Networks using Affinity Propagation[J]. Ad Hoc Networks,2014,13:535-548.
[8]胡正平,張樂,尹艷華.時空深度特征AP聚類的稀疏表示視頻異常檢測算法[J].信號處理,2019,35(3):386-395.
[9]李登杰.基于異常檢測的專利技術(shù)機會識別[D].北京:北京工業(yè)大學(xué), 2016.
[10]田雪筠.網(wǎng)絡(luò)競爭情報主題采集技術(shù)研究[J].圖書與情報, 2014(5):132-137.
[11]劉愛琴,王友林,尚珊.基于爬蟲技術(shù)的關(guān)鍵詞關(guān)聯(lián)推薦算法優(yōu)化與實現(xiàn)[J].情報理論與實踐,2018,41(4):134-138.
[12]奉國和,鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報工作,2011,55(2):41-45.
[13]陳憶金,黃彥齊.網(wǎng)絡(luò)輿情動態(tài)分析研究[J].情報資料工作, 2016(6):35-40.
[14]劉紅光,馬雙剛,劉桂鋒.基于機器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報研究,2016,9(3):79-86.
[15]羅燕,趙書良,李曉超,等.基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J].計算機應(yīng)用,2016,36(3):718-725.
[16]張齊勛,劉宏志,劉詩祥,等.基于行業(yè)專有詞典的TF-IDF特征選擇算法改進(jìn)[J].計算機應(yīng)用與軟件,2017,34(7): 277-281.
[17]吳正,李少波,楊觀賜.基于向量空間的專利類比挖掘算法[J].科學(xué)技術(shù)與工程,2017,17(11):74-78.
[18]周亞建,徐晨,李繼國.基于改進(jìn)CURE聚類算法的無監(jiān)督異常檢測方法[J].通信學(xué)報,2010,31(7):18-23,32.
[19]黃琳.基于CURE聚類的KNN文本分類研究與實現(xiàn)[D].昆明:昆明理工大學(xué),2014.