一種基于聚類算法的網(wǎng)絡(luò)異常檢測方法研究

2020-07-29 12:11:31趙明嚴(yán)宏舉張明軍安娜韓進(jìn)喜

計算機與網(wǎng)絡(luò) 2020年10期

趙明嚴(yán)宏舉張明軍安娜韓進(jìn)喜

摘要：針對聚類算法普遍存在的數(shù)值震蕩和計算量大以及傳統(tǒng)異常檢測中存在的分析準(zhǔn)確率低和時效性差等問題，提出了一種改進(jìn)的近鄰傳播聚類算法———IMAP的異常數(shù)據(jù)檢測方法。通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段實現(xiàn)異常數(shù)據(jù)的識別和定位，引入動態(tài)阻尼系數(shù)的聚類分析方法對標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測，為構(gòu)造安全和穩(wěn)定網(wǎng)絡(luò)提供了參考。實驗結(jié)果表明，利用IMAP的異常檢測方法能有效地提高異常檢測的運行效率和算法的精確度，具有實際的應(yīng)用價值和意義。

關(guān)鍵詞：AP聚類；IMAP聚類；異常檢測；聚類算法

中圖分類號：TP393文獻(xiàn)標(biāo)志碼：A文章編號：1008-1739（2020）10-68-4

0引言

近年來，隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜，數(shù)據(jù)規(guī)模日益擴大，對網(wǎng)絡(luò)的管理與監(jiān)測越來越受到人們的重視。物理拓?fù)渖系木W(wǎng)絡(luò)動態(tài)級聯(lián)故障將導(dǎo)致失效節(jié)點對周圍節(jié)點產(chǎn)生級聯(lián)失效效應(yīng)[1-3]。虛擬化技術(shù)的出現(xiàn)，虛擬節(jié)點與底層物理節(jié)點映射的動態(tài)性導(dǎo)致虛擬網(wǎng)絡(luò)和底層物理網(wǎng)絡(luò)的故障因果關(guān)系更加難以預(yù)測；網(wǎng)絡(luò)運行穩(wěn)定后，網(wǎng)絡(luò)故障發(fā)生的頻次低，導(dǎo)致異常數(shù)據(jù)收集少，進(jìn)而難以覆蓋異常的全部分布。而當(dāng)網(wǎng)絡(luò)和信息系統(tǒng)迭代建設(shè)更新后，可能出現(xiàn)新的異常事件，但異常事件典型樣本的缺乏將無法有效檢測未知異常。網(wǎng)絡(luò)異常檢測是指以網(wǎng)絡(luò)流數(shù)據(jù)為輸入，通過數(shù)據(jù)挖掘、統(tǒng)計分析和機器學(xué)習(xí)等方法，發(fā)現(xiàn)異常的網(wǎng)絡(luò)數(shù)據(jù)分組和異常網(wǎng)絡(luò)交互等信息[4-5]，綜合分析并借鑒上述異常檢測方法的優(yōu)缺點，提出一種基于改進(jìn)的近鄰傳播（AP）聚類算法[6-10]，用于進(jìn)行網(wǎng)絡(luò)異常數(shù)據(jù)檢測，該AP聚類方法可以有效解決聚類算法普遍存在的數(shù)值震蕩和計算量大等問題。使用改進(jìn)的AP聚類算法對網(wǎng)絡(luò)異常進(jìn)行檢測，能有效提高檢測效率，并能很好地適應(yīng)通信網(wǎng)多樣化的復(fù)雜數(shù)據(jù)。

1異常檢測相關(guān)算法

異常檢測也被稱為基于活動行為的入侵檢測，是指能檢測出區(qū)別于正常行為的所有的行為，如未知的攻擊行為。常用的異常檢測方法可分為基于統(tǒng)計的異常檢測、基于分類的異常檢測、基于近鄰的異常檢測和基于聚類的異常檢測[11-13]?；诰垲惖漠惓z測不需要監(jiān)督，適用于時空數(shù)據(jù)的異常檢測。一種基于淺層數(shù)據(jù)包檢查和并行K均值數(shù)據(jù)聚類的網(wǎng)絡(luò)流量異常檢測，能通過K均值聚類檢測網(wǎng)絡(luò)流量中的異常行為并為其提供通用的解決方案。但K均值聚類檢測方法存在明顯的局限性，必須事先為每個類別確定一個聚類中心，其結(jié)果好壞依賴于初始聚類中心的選擇，且對異常樣本點較為敏感。

基于此，提出了基于IMAP聚類算法的網(wǎng)絡(luò)異常檢測方法，將IMAP聚類算法應(yīng)用于網(wǎng)絡(luò)異常檢測中，使其具有較好的穩(wěn)定性和優(yōu)越的檢測性能。

2基于IMAP聚類算法的異常檢測

2.1異常數(shù)據(jù)檢測模型

提出了一種基于改進(jìn)的AP聚類算法的異常檢測[14-16]方法，結(jié)合網(wǎng)絡(luò)故障數(shù)據(jù)的層次性、傳播性、相關(guān)性和不確定性進(jìn)行模型改進(jìn)，模型如圖1所示。異常數(shù)據(jù)檢測模型主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段。

①數(shù)據(jù)采集：基于流量探針、代理軟件，主動輪詢檢測和主動數(shù)據(jù)上報等方式，可以依據(jù)自己的數(shù)據(jù)需要，借助于網(wǎng)絡(luò)爬蟲技術(shù)獲取海量數(shù)據(jù)，或者獲取公開的數(shù)據(jù)集作為實驗數(shù)據(jù)的來源。

②數(shù)據(jù)預(yù)處理：原始的數(shù)據(jù)噪聲較高，不適合直接進(jìn)行異常檢測，要對原始數(shù)據(jù)進(jìn)行預(yù)處理將其轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù)，便于后面進(jìn)行數(shù)據(jù)挖掘。常用的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成及數(shù)據(jù)離散化分類等。

③聚類分析：將標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行分類，大數(shù)據(jù)量的分類被認(rèn)定為正常數(shù)據(jù)或普通數(shù)據(jù)，數(shù)據(jù)量較小的分類和孤立節(jié)點作為異常檢測的基礎(chǔ)數(shù)據(jù)。

2.2基于IMAP的聚類算法

基于IMAP的聚類算法是一種基于消息傳遞的聚類方法，主要思想是將數(shù)據(jù)看作二維空間內(nèi)的節(jié)點，通過在數(shù)據(jù)節(jié)點直接傳遞信息，不斷循環(huán)迭代修改空間中聚類中心點的位置，最終得到一些高質(zhì)量的聚類中心點。首先構(gòu)建相似度矩陣來描述樣本數(shù)據(jù)點之間的相似性，然后借助相似度矩陣偏向參數(shù)實現(xiàn)一種包含響應(yīng)度信息R（Responsibility）和可用度信息A（Availability）的消息傳遞機制來對數(shù)據(jù)點進(jìn)行聚類。

基于IMAP的聚類算法以數(shù)據(jù)點之間的相似度矩陣和偏向參數(shù)作為輸入，利用這2種信息交替更新進(jìn)行迭代，最終得到并輸出聚類結(jié)果。其中，數(shù)據(jù)點和數(shù)據(jù)點之間的相似度定義如下：

3仿真試驗驗證

以實驗室小型網(wǎng)絡(luò)（10臺交換機和服務(wù)器）環(huán)境下所采集的近15 000條網(wǎng)絡(luò)運行狀態(tài)和日志數(shù)據(jù)為例進(jìn)行實例驗證，分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、標(biāo)準(zhǔn)數(shù)據(jù)集及聚類分析異常檢測等步驟。

①獲取數(shù)據(jù)：通過模擬或?qū)嵉夭杉仁侄稳轿猾@取正常流量數(shù)據(jù)和異常流量數(shù)據(jù)，并形成數(shù)據(jù)集對其進(jìn)行驗證。

②數(shù)據(jù)預(yù)處理：對獲取的流量數(shù)據(jù)集進(jìn)行預(yù)處理操作，剔除數(shù)據(jù)集中的“臟數(shù)據(jù)”，即與故障特性無關(guān)的數(shù)據(jù)、重復(fù)采集的數(shù)據(jù)，或數(shù)據(jù)格式錯誤的數(shù)據(jù)，在此基礎(chǔ)上利用主成分分析法對流量數(shù)據(jù)進(jìn)行降維處理，提取流量數(shù)據(jù)的主要特征，降低流量數(shù)據(jù)的復(fù)雜性。

③標(biāo)準(zhǔn)化數(shù)據(jù)集：對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理得到模型所需的標(biāo)準(zhǔn)數(shù)據(jù)集，該數(shù)據(jù)集共含有7 267條數(shù)據(jù)。將數(shù)據(jù)集歸一化后，對其進(jìn)行基于AP聚類的異常檢測分析。

在試驗中檢測驗證的結(jié)果如下：

①值：使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=79.6%，使用本文提出的IMAP聚類算法做流量異常檢測的=82.3%。在流量數(shù)據(jù)集上，本文方法比AP聚類用于異常檢測的方法在召回率上提高了2.7%。

②值：使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=72.4%，使用本文提出的IMAP聚類算法做流量異常檢測的=80.9%。在流量數(shù)據(jù)集上，本文方法比AP聚類用于異常檢測的方法在準(zhǔn)確率上提高了8.5%。

③1值：通過對2個算法1值的對比，可以發(fā)現(xiàn)使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的1=72.9%，使用本文提出的IMAP聚類算法做流量異常檢測的1=81.6%。在流量數(shù)據(jù)集上，本文方法比AP聚類用于異常檢測的方法在1值提高了8.7%。

由上述試驗結(jié)果對比分析可知，本文提出的基于IMAP聚類的異常檢測算法具有檢測速度快、檢測準(zhǔn)確率高的特點，具有實際的應(yīng)用價值和意義。

4結(jié)束語

本文提出的異常檢測模型分為數(shù)據(jù)采集階段、數(shù)據(jù)預(yù)處理階段和聚類分析階段3個部分，將采集的海量數(shù)據(jù)進(jìn)行清洗得到標(biāo)準(zhǔn)化數(shù)據(jù)，然后通過聚類分析方法標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測，與以往的異常檢測精度相比，檢測效率提高了近45%。將改進(jìn)的IMAP聚類方法應(yīng)用到網(wǎng)絡(luò)異常檢測領(lǐng)域，有助于解決以往的異常檢測方法中存在數(shù)據(jù)震蕩問題，并能夠高效準(zhǔn)確地找到異常數(shù)據(jù)，對網(wǎng)絡(luò)安全建設(shè)有深遠(yuǎn)的意義。

參考文獻(xiàn)

[1]戚玉娥，劉方愛.一種基于聚類的異常流量檢測算法[J].微計算機信息，2010，26（9）：133-135.

[2]李洪成，吳曉平，姜洪海.基于改進(jìn)聚類分析的網(wǎng)絡(luò)流量異常檢測方法[J].網(wǎng)絡(luò)與信息安全學(xué)報，2015，1（1）：66-71.

[3]柳兆峰，楊奇，霍永華，等.基于CURE聚類算法的科技情報異常數(shù)據(jù)檢測[J].無線電通信技術(shù)，2018，44（06）：605-609.

[4]王柯偉.基于聚類的網(wǎng)絡(luò)異常檢測研究與實現(xiàn)[D].北京：北京郵電大學(xué)，2017.

[5] FREY B J， DUECK D.Clustering by Passing Messages between Data Points[J].Science，2007，315 （5814）：972-976.

[6]章永來，周耀鑒.聚類算法綜述[J].計算機應(yīng)用，2019，39（7）： 1869-1882.

[7] HASSANABADI B，SHEA C，ZHANG L，et al.Clustering in Vehicular Ad Hoc Networks using Affinity Propagation[J]. Ad Hoc Networks，2014，13：535-548.

[8]胡正平，張樂，尹艷華.時空深度特征AP聚類的稀疏表示視頻異常檢測算法[J].信號處理，2019，35（3）：386-395.

[9]李登杰.基于異常檢測的專利技術(shù)機會識別[D].北京：北京工業(yè)大學(xué)， 2016.

[10]田雪筠.網(wǎng)絡(luò)競爭情報主題采集技術(shù)研究[J].圖書與情報， 2014（5）：132-137.

[11]劉愛琴，王友林，尚珊.基于爬蟲技術(shù)的關(guān)鍵詞關(guān)聯(lián)推薦算法優(yōu)化與實現(xiàn)[J].情報理論與實踐，2018，41（4）：134-138.

[12]奉國和，鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報工作，2011，55（2）：41-45.

[13]陳憶金，黃彥齊.網(wǎng)絡(luò)輿情動態(tài)分析研究[J].情報資料工作， 2016（6）：35-40.

[14]劉紅光，馬雙剛，劉桂鋒.基于機器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報研究，2016，9（3）：79-86.

[15]羅燕，趙書良，李曉超，等.基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J].計算機應(yīng)用，2016，36（3）：718-725.

[16]張齊勛，劉宏志，劉詩祥，等.基于行業(yè)專有詞典的TF-IDF特征選擇算法改進(jìn)[J].計算機應(yīng)用與軟件，2017，34（7）： 277-281.

[17]吳正，李少波，楊觀賜.基于向量空間的專利類比挖掘算法[J].科學(xué)技術(shù)與工程，2017，17（11）：74-78.

[18]周亞建，徐晨，李繼國.基于改進(jìn)CURE聚類算法的無監(jiān)督異常檢測方法[J].通信學(xué)報，2010，31（7）：18-23，32.

[19]黃琳.基于CURE聚類的KNN文本分類研究與實現(xiàn)[D].昆明：昆明理工大學(xué)，2014.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于聚類算法的網(wǎng)絡(luò)異常檢測方法研究