国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于聚類算法的網(wǎng)絡(luò)異常檢測方法研究

2020-07-29 12:11:31趙明嚴(yán)宏舉張明軍安娜韓進(jìn)喜
計算機與網(wǎng)絡(luò) 2020年10期
關(guān)鍵詞:異常檢測聚類算法

趙明 嚴(yán)宏舉 張明軍 安娜 韓進(jìn)喜

摘要:針對聚類算法普遍存在的數(shù)值震蕩和計算量大以及傳統(tǒng)異常檢測中存在的分析準(zhǔn)確率低和時效性差等問題,提出了一種改進(jìn)的近鄰傳播聚類算法———IMAP的異常數(shù)據(jù)檢測方法。通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段實現(xiàn)異常數(shù)據(jù)的識別和定位,引入動態(tài)阻尼系數(shù)的聚類分析方法對標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測,為構(gòu)造安全和穩(wěn)定網(wǎng)絡(luò)提供了參考。實驗結(jié)果表明,利用IMAP的異常檢測方法能有效地提高異常檢測的運行效率和算法的精確度,具有實際的應(yīng)用價值和意義。

關(guān)鍵詞:AP聚類;IMAP聚類;異常檢測;聚類算法

中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2020)10-68-4

0引言

近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,數(shù)據(jù)規(guī)模日益擴大,對網(wǎng)絡(luò)的管理與監(jiān)測越來越受到人們的重視。物理拓?fù)渖系木W(wǎng)絡(luò)動態(tài)級聯(lián)故障將導(dǎo)致失效節(jié)點對周圍節(jié)點產(chǎn)生級聯(lián)失效效應(yīng)[1-3]。虛擬化技術(shù)的出現(xiàn),虛擬節(jié)點與底層物理節(jié)點映射的動態(tài)性導(dǎo)致虛擬網(wǎng)絡(luò)和底層物理網(wǎng)絡(luò)的故障因果關(guān)系更加難以預(yù)測;網(wǎng)絡(luò)運行穩(wěn)定后,網(wǎng)絡(luò)故障發(fā)生的頻次低,導(dǎo)致異常數(shù)據(jù)收集少,進(jìn)而難以覆蓋異常的全部分布。而當(dāng)網(wǎng)絡(luò)和信息系統(tǒng)迭代建設(shè)更新后,可能出現(xiàn)新的異常事件,但異常事件典型樣本的缺乏將無法有效檢測未知異常。網(wǎng)絡(luò)異常檢測是指以網(wǎng)絡(luò)流數(shù)據(jù)為輸入,通過數(shù)據(jù)挖掘、統(tǒng)計分析和機器學(xué)習(xí)等方法,發(fā)現(xiàn)異常的網(wǎng)絡(luò)數(shù)據(jù)分組和異常網(wǎng)絡(luò)交互等信息[4-5],綜合分析并借鑒上述異常檢測方法的優(yōu)缺點,提出一種基于改進(jìn)的近鄰傳播(AP)聚類算法[6-10],用于進(jìn)行網(wǎng)絡(luò)異常數(shù)據(jù)檢測,該AP聚類方法可以有效解決聚類算法普遍存在的數(shù)值震蕩和計算量大等問題。使用改進(jìn)的AP聚類算法對網(wǎng)絡(luò)異常進(jìn)行檢測,能有效提高檢測效率,并能很好地適應(yīng)通信網(wǎng)多樣化的復(fù)雜數(shù)據(jù)。

1異常檢測相關(guān)算法

異常檢測也被稱為基于活動行為的入侵檢測,是指能檢測出區(qū)別于正常行為的所有的行為,如未知的攻擊行為。常用的異常檢測方法可分為基于統(tǒng)計的異常檢測、基于分類的異常檢測、基于近鄰的異常檢測和基于聚類的異常檢測[11-13]?;诰垲惖漠惓z測不需要監(jiān)督,適用于時空數(shù)據(jù)的異常檢測。一種基于淺層數(shù)據(jù)包檢查和并行K均值數(shù)據(jù)聚類的網(wǎng)絡(luò)流量異常檢測,能通過K均值聚類檢測網(wǎng)絡(luò)流量中的異常行為并為其提供通用的解決方案。但K均值聚類檢測方法存在明顯的局限性,必須事先為每個類別確定一個聚類中心,其結(jié)果好壞依賴于初始聚類中心的選擇,且對異常樣本點較為敏感。

基于此,提出了基于IMAP聚類算法的網(wǎng)絡(luò)異常檢測方法,將IMAP聚類算法應(yīng)用于網(wǎng)絡(luò)異常檢測中,使其具有較好的穩(wěn)定性和優(yōu)越的檢測性能。

2基于IMAP聚類算法的異常檢測

2.1異常數(shù)據(jù)檢測模型

提出了一種基于改進(jìn)的AP聚類算法的異常檢測[14-16]方法,結(jié)合網(wǎng)絡(luò)故障數(shù)據(jù)的層次性、傳播性、相關(guān)性和不確定性進(jìn)行模型改進(jìn),模型如圖1所示。異常數(shù)據(jù)檢測模型主要分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和聚類分析3個階段。

①數(shù)據(jù)采集:基于流量探針、代理軟件,主動輪詢檢測和主動數(shù)據(jù)上報等方式,可以依據(jù)自己的數(shù)據(jù)需要,借助于網(wǎng)絡(luò)爬蟲技術(shù)獲取海量數(shù)據(jù),或者獲取公開的數(shù)據(jù)集作為實驗數(shù)據(jù)的來源。

②數(shù)據(jù)預(yù)處理:原始的數(shù)據(jù)噪聲較高,不適合直接進(jìn)行異常檢測,要對原始數(shù)據(jù)進(jìn)行預(yù)處理將其轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù),便于后面進(jìn)行數(shù)據(jù)挖掘。常用的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成及數(shù)據(jù)離散化分類等。

③聚類分析:將標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行分類,大數(shù)據(jù)量的分類被認(rèn)定為正常數(shù)據(jù)或普通數(shù)據(jù),數(shù)據(jù)量較小的分類和孤立節(jié)點作為異常檢測的基礎(chǔ)數(shù)據(jù)。

2.2基于IMAP的聚類算法

基于IMAP的聚類算法是一種基于消息傳遞的聚類方法,主要思想是將數(shù)據(jù)看作二維空間內(nèi)的節(jié)點,通過在數(shù)據(jù)節(jié)點直接傳遞信息,不斷循環(huán)迭代修改空間中聚類中心點的位置,最終得到一些高質(zhì)量的聚類中心點。首先構(gòu)建相似度矩陣來描述樣本數(shù)據(jù)點之間的相似性,然后借助相似度矩陣偏向參數(shù)實現(xiàn)一種包含響應(yīng)度信息R(Responsibility)和可用度信息A(Availability)的消息傳遞機制來對數(shù)據(jù)點進(jìn)行聚類。

基于IMAP的聚類算法以數(shù)據(jù)點之間的相似度矩陣和偏向參數(shù)作為輸入,利用這2種信息交替更新進(jìn)行迭代,最終得到并輸出聚類結(jié)果。其中,數(shù)據(jù)點和數(shù)據(jù)點之間的相似度定義如下:

3仿真試驗驗證

以實驗室小型網(wǎng)絡(luò)(10臺交換機和服務(wù)器)環(huán)境下所采集的近15 000條網(wǎng)絡(luò)運行狀態(tài)和日志數(shù)據(jù)為例進(jìn)行實例驗證,分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、標(biāo)準(zhǔn)數(shù)據(jù)集及聚類分析異常檢測等步驟。

①獲取數(shù)據(jù):通過模擬或?qū)嵉夭杉仁侄稳轿猾@取正常流量數(shù)據(jù)和異常流量數(shù)據(jù),并形成數(shù)據(jù)集對其進(jìn)行驗證。

②數(shù)據(jù)預(yù)處理:對獲取的流量數(shù)據(jù)集進(jìn)行預(yù)處理操作,剔除數(shù)據(jù)集中的“臟數(shù)據(jù)”,即與故障特性無關(guān)的數(shù)據(jù)、重復(fù)采集的數(shù)據(jù),或數(shù)據(jù)格式錯誤的數(shù)據(jù),在此基礎(chǔ)上利用主成分分析法對流量數(shù)據(jù)進(jìn)行降維處理,提取流量數(shù)據(jù)的主要特征,降低流量數(shù)據(jù)的復(fù)雜性。

③標(biāo)準(zhǔn)化數(shù)據(jù)集:對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理得到模型所需的標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集共含有7 267條數(shù)據(jù)。將數(shù)據(jù)集歸一化后,對其進(jìn)行基于AP聚類的異常檢測分析。

在試驗中檢測驗證的結(jié)果如下:

①值:使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=79.6%,使用本文提出的IMAP聚類算法做流量異常檢測的=82.3%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在召回率上提高了2.7%。

②值:使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的=72.4%,使用本文提出的IMAP聚類算法做流量異常檢測的=80.9%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在準(zhǔn)確率上提高了8.5%。

③1值:通過對2個算法1值的對比,可以發(fā)現(xiàn)使用AP聚類算法在流量數(shù)據(jù)集上做異常檢測的1=72.9%,使用本文提出的IMAP聚類算法做流量異常檢測的1=81.6%。在流量數(shù)據(jù)集上,本文方法比AP聚類用于異常檢測的方法在1值提高了8.7%。

由上述試驗結(jié)果對比分析可知,本文提出的基于IMAP聚類的異常檢測算法具有檢測速度快、檢測準(zhǔn)確率高的特點,具有實際的應(yīng)用價值和意義。

4結(jié)束語

本文提出的異常檢測模型分為數(shù)據(jù)采集階段、數(shù)據(jù)預(yù)處理階段和聚類分析階段3個部分,將采集的海量數(shù)據(jù)進(jìn)行清洗得到標(biāo)準(zhǔn)化數(shù)據(jù),然后通過聚類分析方法標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行異常檢測,與以往的異常檢測精度相比,檢測效率提高了近45%。將改進(jìn)的IMAP聚類方法應(yīng)用到網(wǎng)絡(luò)異常檢測領(lǐng)域,有助于解決以往的異常檢測方法中存在數(shù)據(jù)震蕩問題,并能夠高效準(zhǔn)確地找到異常數(shù)據(jù),對網(wǎng)絡(luò)安全建設(shè)有深遠(yuǎn)的意義。

參考文獻(xiàn)

[1]戚玉娥,劉方愛.一種基于聚類的異常流量檢測算法[J].微計算機信息,2010,26(9):133-135.

[2]李洪成,吳曉平,姜洪海.基于改進(jìn)聚類分析的網(wǎng)絡(luò)流量異常檢測方法[J].網(wǎng)絡(luò)與信息安全學(xué)報,2015,1(1):66-71.

[3]柳兆峰,楊奇,霍永華,等.基于CURE聚類算法的科技情報異常數(shù)據(jù)檢測[J].無線電通信技術(shù),2018,44(06):605-609.

[4]王柯偉.基于聚類的網(wǎng)絡(luò)異常檢測研究與實現(xiàn)[D].北京:北京郵電大學(xué),2017.

[5] FREY B J, DUECK D.Clustering by Passing Messages between Data Points[J].Science,2007,315 (5814):972-976.

[6]章永來,周耀鑒.聚類算法綜述[J].計算機應(yīng)用,2019,39(7): 1869-1882.

[7] HASSANABADI B,SHEA C,ZHANG L,et al.Clustering in Vehicular Ad Hoc Networks using Affinity Propagation[J]. Ad Hoc Networks,2014,13:535-548.

[8]胡正平,張樂,尹艷華.時空深度特征AP聚類的稀疏表示視頻異常檢測算法[J].信號處理,2019,35(3):386-395.

[9]李登杰.基于異常檢測的專利技術(shù)機會識別[D].北京:北京工業(yè)大學(xué), 2016.

[10]田雪筠.網(wǎng)絡(luò)競爭情報主題采集技術(shù)研究[J].圖書與情報, 2014(5):132-137.

[11]劉愛琴,王友林,尚珊.基于爬蟲技術(shù)的關(guān)鍵詞關(guān)聯(lián)推薦算法優(yōu)化與實現(xiàn)[J].情報理論與實踐,2018,41(4):134-138.

[12]奉國和,鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報工作,2011,55(2):41-45.

[13]陳憶金,黃彥齊.網(wǎng)絡(luò)輿情動態(tài)分析研究[J].情報資料工作, 2016(6):35-40.

[14]劉紅光,馬雙剛,劉桂鋒.基于機器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報研究,2016,9(3):79-86.

[15]羅燕,趙書良,李曉超,等.基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J].計算機應(yīng)用,2016,36(3):718-725.

[16]張齊勛,劉宏志,劉詩祥,等.基于行業(yè)專有詞典的TF-IDF特征選擇算法改進(jìn)[J].計算機應(yīng)用與軟件,2017,34(7): 277-281.

[17]吳正,李少波,楊觀賜.基于向量空間的專利類比挖掘算法[J].科學(xué)技術(shù)與工程,2017,17(11):74-78.

[18]周亞建,徐晨,李繼國.基于改進(jìn)CURE聚類算法的無監(jiān)督異常檢測方法[J].通信學(xué)報,2010,31(7):18-23,32.

[19]黃琳.基于CURE聚類的KNN文本分類研究與實現(xiàn)[D].昆明:昆明理工大學(xué),2014.

猜你喜歡
異常檢測聚類算法
基于LMD模糊熵的遙測振動信號異常檢測方法
數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
K—Means聚類算法在MapReduce框架下的實現(xiàn)
基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
基于度分布的流量異常在線檢測方法研究
無線Mesh網(wǎng)絡(luò)安全性研究
無線Mesh網(wǎng)絡(luò)基礎(chǔ)知識
淺談燃?xì)廨啓C排氣溫度異常檢測及診斷
基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
大規(guī)模風(fēng)電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
科技視界(2016年8期)2016-04-05 18:39:39
时尚| 五指山市| 赤水市| 新泰市| 双牌县| 县级市| 松桃| 拉孜县| 洞口县| 汾西县| 孝昌县| 鄂托克前旗| 固镇县| 迁安市| 鹤峰县| 大厂| 三明市| 威远县| 西乌珠穆沁旗| 攀枝花市| 萨迦县| 临西县| 铁岭县| 仙居县| 黄石市| 化州市| 宜良县| 茌平县| 肥西县| 九江市| 漳州市| 乌拉特中旗| 突泉县| 安康市| 嘉禾县| 宁强县| 商都县| 柞水县| 柳河县| 东阿县| 郧西县|