基于數(shù)據(jù)挖掘的異常檢測(cè)模型研究初探

2017-05-16 08:56:21馬俊宏

菏澤學(xué)院學(xué)報(bào) 2017年2期

關(guān)鍵詞：數(shù)據(jù)挖掘模塊算法

馬俊宏

(晉中學(xué)院，山西晉中 030600)

基于數(shù)據(jù)挖掘的異常檢測(cè)模型研究初探

馬俊宏

(晉中學(xué)院，山西晉中 030600)

研究了一種基于數(shù)據(jù)挖掘技術(shù)的異常檢測(cè)模型，根據(jù)這種模型所建構(gòu)的系統(tǒng)具有一定的準(zhǔn)確性、可擴(kuò)展性與自適應(yīng)性.此外對(duì)該模型中的一些關(guān)鍵技術(shù)進(jìn)行了研究.

數(shù)據(jù)挖掘；異常檢測(cè)；模型；網(wǎng)絡(luò)安全

引言

隨著網(wǎng)絡(luò)的普及，網(wǎng)絡(luò)環(huán)境也逐漸變得更加復(fù)雜，在網(wǎng)絡(luò)中存在海量的不安全因素，同時(shí)隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，傳統(tǒng)的數(shù)字證書(shū)、防火墻等都已經(jīng)逐漸不能起到較好的防御效果，例如，在安全后門(mén)問(wèn)題方面，傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)呈現(xiàn)出較為明顯的不足，同時(shí)傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)在防止網(wǎng)絡(luò)的內(nèi)部攻擊方面也存在著較大的問(wèn)題，無(wú)法為用戶提供實(shí)時(shí)的網(wǎng)絡(luò)監(jiān)測(cè).為了提高網(wǎng)絡(luò)的安全性，許多學(xué)者都進(jìn)行了大量的研究，希望能找到更加安全的策略與方案，而入侵檢測(cè)技術(shù)可以有效的提高網(wǎng)絡(luò)的安全性.入侵檢測(cè)技術(shù)可以有效的檢測(cè)到系統(tǒng)中的各種異常信息，并將這些信息及時(shí)的向用戶進(jìn)行傳遞，這種技術(shù)主要被用來(lái)檢測(cè)計(jì)算機(jī)系統(tǒng)中的違反了網(wǎng)絡(luò)安全策略的行為.其主要原理是在計(jì)算機(jī)系統(tǒng)中的關(guān)鍵節(jié)點(diǎn)設(shè)置信息搜集程序，對(duì)計(jì)算機(jī)是否受到攻擊進(jìn)行及時(shí)的監(jiān)測(cè)，這種技術(shù)可以識(shí)別出計(jì)算機(jī)系統(tǒng)中任何不被希望的行為，并及時(shí)的檢測(cè)到各種攻擊行為[1].在檢測(cè)出系統(tǒng)所存在入侵行為之后，計(jì)算機(jī)系統(tǒng)中的報(bào)警與防護(hù)系統(tǒng)會(huì)立即對(duì)攻擊行為進(jìn)行驅(qū)逐，同時(shí)在攻擊行為發(fā)生的過(guò)程中可以在最大程度上降低損失的發(fā)生.另一方面，在攻擊行為發(fā)生之后，系統(tǒng)會(huì)將相關(guān)的攻擊行為及時(shí)的存儲(chǔ)到數(shù)據(jù)庫(kù)中去作為系統(tǒng)知識(shí)，從而使得系統(tǒng)的防范能力可以得到明顯的增強(qiáng).此外，這種技術(shù)與防火墻結(jié)合在一起，還可以為計(jì)算機(jī)提供更強(qiáng)的防護(hù)能力[2].

1 異常檢測(cè)技術(shù)概述

當(dāng)前針對(duì)系統(tǒng)入侵的異常檢測(cè)技術(shù)主要分為兩種，一種是針對(duì)知識(shí)的異常入侵檢測(cè)，一種是基于行為的異常入侵檢測(cè).

基于行為的異常檢測(cè)技術(shù)簡(jiǎn)稱為異常檢測(cè)，其檢測(cè)的具體原理是來(lái)自于這樣的思想：人類(lèi)的行為具有較強(qiáng)的規(guī)律性，對(duì)這些日常行為進(jìn)行分析之后必然會(huì)得到對(duì)應(yīng)的規(guī)律，同時(shí)一般情況下正常的用戶行為與入侵行為之間存在著較大的差異，基于此種情況，計(jì)算機(jī)系統(tǒng)如果可以有效的檢測(cè)到這些差異行為就可以區(qū)分出究竟何種行為才是入侵行為.例如，某一計(jì)算機(jī)用戶往往是在上班時(shí)間使用該計(jì)算機(jī)，如果在非工作時(shí)間該計(jì)算機(jī)還是處于工作狀態(tài)，則就是明顯的異常行為，這就表明該計(jì)算機(jī)有可能受到了入侵[3].同樣的道理，濫用行為也可以被檢測(cè)出來(lái)，異常檢測(cè)的關(guān)鍵在于如何判定用戶正常使用計(jì)算機(jī)的模式以及確定對(duì)應(yīng)的判定算法，從而確定哪些行為屬于入侵行為.

基于知識(shí)的入侵也被稱為違規(guī)檢測(cè)，在這種檢測(cè)技術(shù)中，往往假設(shè)可以用一種模式來(lái)表示入侵者的活動(dòng)，系統(tǒng)會(huì)及時(shí)的將相關(guān)活動(dòng)與這一模式進(jìn)行對(duì)比，從而判定是否存在入侵行為，此外，系統(tǒng)還可以將現(xiàn)階段已經(jīng)存在的入侵行為都檢測(cè)出來(lái)，但是對(duì)于數(shù)據(jù)庫(kù)當(dāng)中沒(méi)有的入侵方法，系統(tǒng)依然無(wú)法有效地辨別出來(lái)，這種技術(shù)的難點(diǎn)在于如何將入侵的模式設(shè)計(jì)出來(lái)，同時(shí)將不正常的活動(dòng)排除在外.

在上述的兩種模型中，異常檢測(cè)是使用較為廣泛的一種檢測(cè)方法，主要是由于這種檢測(cè)方法具有較強(qiáng)的通用性，相對(duì)來(lái)說(shuō)與系統(tǒng)不存在多大的關(guān)聯(lián)，同時(shí)還可以檢測(cè)出數(shù)據(jù)庫(kù)中并不存在的攻擊行為.目前在異常檢測(cè)中較為常見(jiàn)的技術(shù)包括：統(tǒng)計(jì)方法、閾值檢測(cè)以及基于規(guī)則的方法，同時(shí)現(xiàn)階段的研究人員也在大力研究其他方法如神經(jīng)網(wǎng)絡(luò)與遺傳算法[4].

2 數(shù)據(jù)挖掘與異常檢測(cè)

現(xiàn)階段在入侵檢測(cè)方面的研究中最主流的研究方向就是異常檢測(cè)技術(shù)，該技術(shù)可以通過(guò)對(duì)行為的分析從而實(shí)現(xiàn)對(duì)系統(tǒng)行為的檢測(cè)，并發(fā)現(xiàn)一些數(shù)據(jù)庫(kù)當(dāng)中并不存在的攻擊行為.從根本上來(lái)說(shuō)所謂的異常檢測(cè)就是對(duì)各種用戶行為進(jìn)行審計(jì)與對(duì)比的技術(shù),一般情況下數(shù)據(jù)檢測(cè)技術(shù)不僅僅使用在計(jì)算機(jī)主機(jī)等硬件上,同時(shí)還針對(duì)各種網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測(cè)，其最根本的目的是為了建立用戶的正常使用模式，同時(shí)將已經(jīng)建立起來(lái)的用戶模式與各種用戶之間的行為進(jìn)行比對(duì)，如果用戶的行為與之正常的使用模式之間存在著一定的差異，則該行為為入侵行為，但是現(xiàn)階段的計(jì)算機(jī)系統(tǒng)發(fā)展較為迅速，同時(shí)網(wǎng)絡(luò)數(shù)量的不斷增加從而導(dǎo)致了安全審計(jì)的速度也不斷增加，在這海量的數(shù)據(jù)之中也包含著許多重要的信息，研究人員希望可以對(duì)這些數(shù)據(jù)進(jìn)行分析，從而可以充分的利用這些數(shù)據(jù)有效的解決某些問(wèn)題[5].另一方面，當(dāng)前的數(shù)據(jù)審計(jì)系統(tǒng)雖然在進(jìn)行數(shù)據(jù)審計(jì)的過(guò)程中具有較高的效率，但是對(duì)不同數(shù)據(jù)之間的關(guān)聯(lián)卻并不能進(jìn)行有效地判定，因此也就無(wú)法預(yù)測(cè)出數(shù)據(jù)在未來(lái)的發(fā)展.由于數(shù)據(jù)挖掘技術(shù)的缺乏從而最終導(dǎo)致了雖然數(shù)據(jù)較多，但是往往并沒(méi)有什么實(shí)際性的作用.因此，如何從海量般數(shù)據(jù)當(dāng)中將用戶的行為有效的提取出來(lái)，并進(jìn)行分析，同時(shí)將這些信息有效的運(yùn)用在數(shù)據(jù)的用戶判斷當(dāng)中是設(shè)計(jì)系統(tǒng)的核心問(wèn)題.為了提高數(shù)據(jù)審計(jì)的準(zhǔn)確性與效率，可以考慮采用數(shù)據(jù)挖掘技術(shù)對(duì)其進(jìn)行處理.所謂的數(shù)據(jù)挖掘是一種數(shù)據(jù)的數(shù)據(jù)分析技術(shù)，通過(guò)數(shù)據(jù)挖掘技術(shù)的運(yùn)用可以從大量的信息當(dāng)中提取出許多具有一定價(jià)值的安全信息，同時(shí)還可以從數(shù)據(jù)中抽象出一些特征模型，從而用于異常檢測(cè)中的行為描述，并建立相關(guān)行為模型，通過(guò)計(jì)算機(jī)算法可以判定這些模型的性質(zhì)[6].

3 基于數(shù)據(jù)挖掘的異常檢測(cè)模型

基于數(shù)據(jù)挖掘的異常檢測(cè)模型需要由多個(gè)模塊共同構(gòu)成，即有數(shù)據(jù)采集預(yù)處理模塊、數(shù)據(jù)挖掘模塊、模式更新模塊以及決策模塊等.在該系統(tǒng)中數(shù)據(jù)也具有多個(gè)來(lái)源，如計(jì)算機(jī)主機(jī)、網(wǎng)絡(luò)以及計(jì)算機(jī)應(yīng)用程序.在進(jìn)行本文的研究中，由于網(wǎng)絡(luò)數(shù)據(jù)是數(shù)據(jù)的主要來(lái)源，當(dāng)網(wǎng)絡(luò)數(shù)據(jù)在傳播時(shí)，采用特定的技術(shù)對(duì)數(shù)據(jù)進(jìn)行提取與處理，并存儲(chǔ)到數(shù)據(jù)庫(kù)當(dāng)中作為異常檢測(cè)分析過(guò)程當(dāng)中的數(shù)據(jù)源.其模型結(jié)構(gòu)如圖1所示：

圖1 基于數(shù)據(jù)挖掘的異常檢測(cè)模型圖

在該系統(tǒng)中，各模塊的功能如下：

1)數(shù)據(jù)采集及預(yù)處理模塊：該模塊需要完成一個(gè)非常重要的任務(wù)，即數(shù)據(jù)源的處理,在對(duì)數(shù)據(jù)源進(jìn)行有效的處理之后，程序就會(huì)自動(dòng)生成關(guān)聯(lián)規(guī)則，同時(shí)根據(jù)其契合度對(duì)事件進(jìn)行排序處理，在基于數(shù)據(jù)挖掘的異常檢測(cè)模型中該事件序列是最為重要的組成部分.在數(shù)據(jù)采集與預(yù)處理模塊中網(wǎng)絡(luò)數(shù)據(jù)集的重組以及過(guò)濾是采用Bro進(jìn)行的，Bro同時(shí)還可以實(shí)現(xiàn)數(shù)據(jù)流的過(guò)濾，還會(huì)產(chǎn)生特定的事件系列，Bro系統(tǒng)的結(jié)構(gòu)組成如圖2中所示:[7]

圖2 Bro的結(jié)構(gòu)組成

2)數(shù)據(jù)挖掘模塊：該模塊可以通過(guò)程序中所存儲(chǔ)的算法對(duì)事件庫(kù)進(jìn)行全面的挖掘與搜索.由于在事件庫(kù)當(dāng)中存在著大量的事件，同時(shí)事件之間的屬性也存在著較大的差異，如果利用一般的頻繁模式進(jìn)行數(shù)據(jù)挖掘必然會(huì)導(dǎo)致許多沒(méi)有實(shí)際價(jià)值的規(guī)則產(chǎn)生.因此，為了獲得更加有效地規(guī)則，必須改變算法，本文的研究中采用的是一種基于軸屬性的頻繁模式挖掘算法，即IREP算法，該算法可以對(duì)挖掘出來(lái)的不同模式進(jìn)行分類(lèi)處理，從而總結(jié)出究竟何種行為模式為正常，何種行為模式為異常，具體的算法如下所示：

Procedure IREP(Pos.Neg)

Begin

Ruleset:={ }

While Pos={ } do

/*split (Pos.Neg) into (Growpos, GrowNeg) And (PrunePos,PruneNeg)*/

Rule:=Grow Rule(Growpos,GrowNeg)

Rule:=Prune Rule(Growpos,GrowNeg)

if the error rate of Rule on

(PrunePos,PruneNeg) exceeds 50% then

Retrun Releset

else

add Rule to Releset

remove examples covered by Rule

from (Pos.Neg)

endif

endwhile

Retrun Releset

End

在進(jìn)行分類(lèi)算法的選擇過(guò)程當(dāng)中最重要的一個(gè)問(wèn)題就是特征屬性的選擇，在選擇特征屬性時(shí)可以根據(jù)已經(jīng)挖掘出來(lái)的規(guī)則與序列對(duì)數(shù)據(jù)當(dāng)中的屬性進(jìn)行選擇與分析.例如在本文的模型當(dāng)中可以采用以下幾種算法：①關(guān)聯(lián)分析.決定數(shù)據(jù)庫(kù)記錄中屬性間的關(guān)系.利用審計(jì)數(shù)據(jù)中系統(tǒng)屬性間的相關(guān)性作為構(gòu)建正常使用模式的基礎(chǔ).②分類(lèi).即可以將同一個(gè)數(shù)據(jù)集向不同的分類(lèi)映射，最終會(huì)以分類(lèi)器的結(jié)果進(jìn)行輸出，其最終的輸出形式為分類(lèi)樹(shù)或者規(guī)則集.這種算法在異常檢測(cè)當(dāng)中最重要的應(yīng)用就是對(duì)搜集的數(shù)據(jù)進(jìn)行分類(lèi).③序列分析.通過(guò)這類(lèi)算法可以將審計(jì)事件當(dāng)中頻繁發(fā)生的時(shí)間序列統(tǒng)計(jì)出來(lái)，這些頻繁事件模式為構(gòu)建入侵檢測(cè)模型時(shí)選擇統(tǒng)計(jì)特征提供了指導(dǎo)準(zhǔn)則[8].

3)模式更新模塊：該模塊的主要功能是用來(lái)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)以及用戶的正常模式或者規(guī)則進(jìn)行更新與修正.網(wǎng)絡(luò)中安全數(shù)據(jù)是處于一種動(dòng)態(tài)變化中的，用戶的行為在不同的時(shí)間段內(nèi)也具有不同的規(guī)律，因此當(dāng)前已經(jīng)發(fā)現(xiàn)的用戶規(guī)律也并不是完全適用的，必須要不斷的發(fā)現(xiàn)新的用戶行為模式.由此可見(jiàn)不僅需要采用數(shù)據(jù)挖掘的方法對(duì)用戶的行為數(shù)據(jù)進(jìn)行挖掘，同時(shí)還需要算法來(lái)更新用戶的行為.

4)決策模塊：該模塊的功能主要是將當(dāng)前存在的用戶行為與數(shù)據(jù)庫(kù)中所存儲(chǔ)的用戶行為進(jìn)行對(duì)比與分析，從而對(duì)用戶行為的異常性進(jìn)行判斷，根據(jù)數(shù)據(jù)挖掘模塊中的分類(lèi)結(jié)果用相似度檢測(cè)匹配程度，相似度的范圍為0～1之間，相似度值越高則說(shuō)明二者之間的吻合度越高，若對(duì)比的結(jié)果為0，則說(shuō)明二者之間是完全不同的.

4 結(jié)束語(yǔ)

隨著網(wǎng)絡(luò)環(huán)境的不斷惡化，網(wǎng)絡(luò)安全問(wèn)題逐漸引起了許多專(zhuān)家與學(xué)者的關(guān)注，人們紛紛對(duì)網(wǎng)絡(luò)安全的異常檢測(cè)技術(shù)進(jìn)行了研究.本文研究了一種基于數(shù)據(jù)挖掘技術(shù)的異常檢測(cè)模型，主要介紹了其主要的結(jié)構(gòu)構(gòu)成以及不同模塊的構(gòu)成與功能，希望能對(duì)現(xiàn)階段的異常檢測(cè)技術(shù)有所幫助.

[1]Li H. Research and Implementation of an Anomaly Detection Model Based on Clustering Analysis[C]// International Symposium on Intelligence Information Processing and Trusted Computing. IEEE Computer Society, 2010:1838-1842.

[2]Wang G H, Kuang Y L, Wang Z G. The Coal Production Anomaly Detection Based on Data Mining[J]. Applied Mechanics & Materials, 2012, 239-240:744-748.

[3]Wu C, Xia W, Liu F. The Research of Network Anomaly Detection Technology Based on Data Mining[C]// International Conference on Electrical, Computer Engineering and Electronics. 2015.

[4]曲萍. 一種新的基于數(shù)據(jù)挖掘技術(shù)的異常入侵檢測(cè)系統(tǒng)研究[J]. 電子技術(shù)應(yīng)用,2010,08:145-149.

[5]呂志軍,袁衛(wèi)忠,仲海駿,黃皓,曾慶凱,謝立. 基于數(shù)據(jù)挖掘的異常入侵檢測(cè)系統(tǒng)研究[J]. 計(jì)算機(jī)科學(xué),2004,10:61-65.

[6]凌昊,謝冬青. 基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)模型的研究[J]. 科學(xué)技術(shù)與工程,2007,19:5170-5172+5176.

[7]劉棣華,王小芬,余斌. 基于數(shù)據(jù)挖掘和模糊理論的入侵檢測(cè)模型研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2008,12:8-10.

[8]燕振剛. 一種基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)模型[J]. 工業(yè)控制計(jì)算機(jī),2012,06:91-96.

On Anomaly Detection Model Based on Data Mining

MA Jun-hong

(Jinzhong University, Jinzhong Shanxi 030600, China)

This paper studies an anomaly detection model based on data mining technology, based on which the system has certain accuracy, scalability and adaptability. In addition, some key technologies of this model are studied in this paper.

data mining; anomaly detection; model; network security

1673-2103(2017)02-0044-04

2017-03-16

馬俊宏(1979-)，男，山西運(yùn)城人，講師，研究方向：人工智能和數(shù)據(jù)挖掘.

TP393.08

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于數(shù)據(jù)挖掘的異常檢測(cè)模型研究初探

引言

1 異常檢測(cè)技術(shù)概述

2 數(shù)據(jù)挖掘與異常檢測(cè)

3 基于數(shù)據(jù)挖掘的異常檢測(cè)模型

4 結(jié)束語(yǔ)