付明柏
摘 要:針對(duì)傳統(tǒng)的入侵檢測(cè)技術(shù)在大容量網(wǎng)絡(luò)數(shù)據(jù)時(shí)存在檢測(cè)性能不足的缺點(diǎn),研究了一種基于聚類分析算法的新型入侵檢測(cè)模型,通過(guò)聚類分析算法對(duì)多維數(shù)據(jù)進(jìn)行分析,當(dāng)不滿足聚類要求時(shí),歸并鄰近數(shù)據(jù)再次聚類。最后,設(shè)計(jì)了與K-means算法的對(duì)比仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于聚類分析的模型能夠有效檢測(cè)出異常序列,能夠抵抗異常攻擊。
關(guān)鍵詞:入侵檢測(cè);聚類分析;網(wǎng)絡(luò)安全
中圖分類號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Since conventional intrusion detection systems can't meet high demands of the network security,a new intrusion detection method based on clustering algorithm for intrusion detection system is designed in order to cluster analysis high dimensional data,and merge data nearly if cluster condition is not qualified.After stimulate experiment compared with K-means algorithm,the result shows this detection model can detect abnormal attack effectively.
Keywords:intrusion detection;cluster analysis;network security
1 引言(Introduction)
隨著計(jì)算機(jī)與現(xiàn)代通信技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的部分,以及隨著3G、4G通信技術(shù)的發(fā)展,移動(dòng)互聯(lián)網(wǎng)在近幾年呈現(xiàn)爆炸式增長(zhǎng)。由于互聯(lián)網(wǎng)的快速性、便利性和及時(shí)性,各大企業(yè)以及政府單位也紛紛成立其官方網(wǎng)站,從事相關(guān)的電子政務(wù)、電子商務(wù)以及網(wǎng)上辦事系統(tǒng)等工作[1]。
然而,也正是由于互聯(lián)網(wǎng)的開放性導(dǎo)致了其非常容易受到攻擊,并造成重大損失。由于互聯(lián)網(wǎng)的開發(fā)性和及時(shí)性,一些敏感文件,尤其那些具有商業(yè)價(jià)值或和數(shù)據(jù)安全緊密相關(guān)的數(shù)據(jù),非常容易被誤操作泄露在網(wǎng)絡(luò)上,進(jìn)而造成大規(guī)模數(shù)據(jù)外泄。即便是沒(méi)有外泄,有價(jià)值的敏感數(shù)據(jù)也經(jīng)常被黑客團(tuán)體進(jìn)行入侵攻擊。近年來(lái),網(wǎng)絡(luò)黑客的入侵攻擊事件,呈現(xiàn)出急劇增加的趨勢(shì)。不僅企業(yè)和政府網(wǎng)站被攻擊次數(shù)增多,針對(duì)中小企業(yè)和個(gè)人的網(wǎng)絡(luò)攻擊也呈現(xiàn)出增加勢(shì)頭。根據(jù)世界著名計(jì)算機(jī)安全廠商邁克菲《安全悖論》報(bào)告分析,超過(guò)83%的企業(yè)表示擔(dān)心或非常擔(dān)心自己的企業(yè)成為惡意攻擊的目標(biāo)。實(shí)際上,51%的企業(yè)已經(jīng)遭受過(guò)各種攻擊,他們當(dāng)中的16%要耗費(fèi)超過(guò)一周的時(shí)間,相應(yīng)網(wǎng)絡(luò)系統(tǒng)才可以恢復(fù)正常運(yùn)營(yíng)。其中,數(shù)據(jù)的丟失是安全攻擊所造成的最嚴(yán)重后果[2]。目前,網(wǎng)絡(luò)安全已經(jīng)成為研究的熱點(diǎn)也是各界矚目的焦點(diǎn)。
一般情況下,企業(yè)采用防火墻作為其網(wǎng)絡(luò)安全的第一道防線,但是隨著網(wǎng)絡(luò)攻擊手段的逐漸成熟與多樣化,尤其近幾年發(fā)展尤為迅速,傳統(tǒng)的防火墻機(jī)制已經(jīng)無(wú)法保障大多數(shù)企業(yè)網(wǎng)絡(luò)環(huán)境的安全。因?yàn)榉阑饓ο到y(tǒng)是被動(dòng)的、靜態(tài)的網(wǎng)絡(luò)攻擊和防御體系,而移動(dòng)通信和互聯(lián)網(wǎng)技術(shù)發(fā)展日新月異,相應(yīng)的新的服務(wù)和協(xié)議也不斷地出現(xiàn),傳統(tǒng)防火墻已經(jīng)不能很好對(duì)其進(jìn)行很好的動(dòng)態(tài)擴(kuò)展,而且防火墻技術(shù)也無(wú)法檢查傳輸層以上的數(shù)據(jù)內(nèi)容,所以許多網(wǎng)絡(luò)攻擊程序可以輕易地越過(guò)企業(yè)或者單位設(shè)置的防火墻,實(shí)施攻擊行為。
2 入侵檢測(cè)模型(Intrusion detection system)
2.1 入侵檢測(cè)原理
入侵檢測(cè)技術(shù)是指從計(jì)算機(jī)網(wǎng)絡(luò)的不同環(huán)節(jié)中收集數(shù)據(jù)并對(duì)其分析和處理,找出其中是否存在惡意入侵的企圖或者違背安全策略的行為,這個(gè)安全策略可以是事先根據(jù)特定網(wǎng)絡(luò)環(huán)境設(shè)定好的。它可以針對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的運(yùn)行情況依照安全策略進(jìn)行監(jiān)控,確保網(wǎng)絡(luò)系統(tǒng)中的資源不被惡意攻擊。
入侵檢測(cè)系統(tǒng)的工作流程一般包括三大步驟[3]:(1)信息收集,從系統(tǒng)的不同網(wǎng)絡(luò)環(huán)節(jié)中收集數(shù)據(jù)、用戶連接的行為以及連接狀態(tài)等信息,為下一步做準(zhǔn)備。(2)信息分析,利用第一步收集到的信息,由設(shè)計(jì)好的算法進(jìn)行分析和提取出存在的入侵特征。(3)根據(jù)第二步的分析結(jié)果,判斷是否存在相應(yīng)的入侵行為,記錄日志并發(fā)出警告,網(wǎng)絡(luò)系統(tǒng)管理人員可以做出相應(yīng)的處理。
2.2 典型的檢測(cè)模型
入侵檢測(cè)系統(tǒng)有多種檢測(cè)模型,目前常用主要有以下幾種:統(tǒng)計(jì)方法、模式匹配、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、協(xié)議分析和免疫系統(tǒng)等[4,5]。
模式匹配的檢測(cè)方法是通過(guò)將入侵的行為轉(zhuǎn)化為計(jì)算機(jī)可以解析和識(shí)別的模式和特征向量,然后根據(jù)模式匹配搜索入侵特征數(shù)據(jù)庫(kù),如果遇到新的入侵特征,就將其加入特征數(shù)據(jù)庫(kù)中。
基于概率統(tǒng)計(jì)的入侵檢測(cè)系統(tǒng)通過(guò)對(duì)網(wǎng)絡(luò)系統(tǒng)日常行為不斷進(jìn)行自主學(xué)習(xí),構(gòu)建一個(gè)正常活動(dòng)集的集合,如出現(xiàn)偏離正?;顒?dòng)比較大的行為,就將其作為異?;顒?dòng)的內(nèi)容。
基于數(shù)據(jù)挖掘的入侵檢測(cè)方法,就是從存放大量數(shù)據(jù)信息的數(shù)據(jù)庫(kù)等信息庫(kù)中挖掘用戶的歷史行為特征,并根據(jù)歷史行為特征判定是否為異常活動(dòng)的過(guò)程。
2.3 現(xiàn)有模型的缺點(diǎn)
入侵檢測(cè)系統(tǒng)是網(wǎng)絡(luò)安全防護(hù)的重要手段,能夠有效地保護(hù)網(wǎng)絡(luò)安全。但是目前入侵檢測(cè)系統(tǒng)在以下方面也存在著很多問(wèn)題,尤其當(dāng)網(wǎng)絡(luò)數(shù)據(jù)流量較大時(shí)更加明顯,主要包括:誤報(bào)/漏報(bào)率較高,產(chǎn)品適應(yīng)能力差,檢測(cè)性能不足,同時(shí)檢測(cè)實(shí)時(shí)性較差,缺少主動(dòng)防御功能等等[6]。
3 聚類分析檢測(cè)模型研究(Research on detection model of cluster analysis)
3.1 聚類分析算法
由于現(xiàn)有的入侵檢測(cè)技術(shù)在大容量數(shù)據(jù)流量時(shí)存在著數(shù)據(jù)的檢測(cè)效率低以及檢測(cè)性能差等缺點(diǎn)。如何從大量的網(wǎng)絡(luò)數(shù)據(jù)中提取出有用的信息是如今研究的難點(diǎn)和熱點(diǎn)。
聚類算法是一種由若干模式組成的分類算法,通常,模式是指一個(gè)度量的向量。聚類分析是以相似性為基礎(chǔ)的,它在一個(gè)聚類中的模式之間的相似性比在不同聚類中的模式相似度之間要高,根據(jù)原始數(shù)據(jù)的分布特征進(jìn)行分析,將初始的子空間特征向量通過(guò)模糊函數(shù)映射到高維矩陣中,然后再對(duì)該高維數(shù)據(jù)矩陣處理進(jìn)行類別劃分工作。聚類算法通常情況下適用于大數(shù)據(jù)量的處理,而且由于采用了指數(shù)迭代的思想,該算法有效性很高。本文采用矩陣空間加權(quán)的聚類算法就可以很好地處理高維數(shù)據(jù),經(jīng)過(guò)多次聚類分析,數(shù)據(jù)的精度也會(huì)大幅提高,因而其在處理大數(shù)據(jù)量的時(shí)候優(yōu)勢(shì)尤為明顯,聚類算法的主要工作流程如圖1所示。
3.3 聚類分析檢測(cè)過(guò)程
本文設(shè)計(jì)的聚類算法的核心思想是:根據(jù)適當(dāng)?shù)拈撝蹬袛鄶?shù)據(jù)是否屬于頻繁數(shù)據(jù)來(lái)進(jìn)行聚類分析,如果滿足聚類條件則把頻繁數(shù)據(jù)加入到新的項(xiàng)集中,并對(duì)非頻繁的數(shù)據(jù)進(jìn)行聚類為新的數(shù)據(jù)集重新進(jìn)行判定。當(dāng)矩陣加權(quán)集為空時(shí)迭代結(jié)束。該算法的主要步驟如下:
a.掃描初始矩陣,檢索具有頻繁數(shù)據(jù)項(xiàng)目的記錄數(shù)、項(xiàng)目分類數(shù)以及矩陣樣本關(guān)聯(lián)總數(shù)。
b.根據(jù)關(guān)聯(lián)算法計(jì)算相應(yīng)詞項(xiàng)的相似度,并記錄下候選數(shù)據(jù)的記錄次數(shù)。
c.根據(jù)記錄的候選數(shù)據(jù)記錄的權(quán)值、次數(shù)和閾值計(jì)算進(jìn)行聚類分析。
d.若候選數(shù)據(jù)記錄不為空時(shí),回到第一步繼續(xù)執(zhí)行。否則,判定該候選數(shù)據(jù)為頻繁數(shù)據(jù),將其記錄到新矩陣空間中。
e.根據(jù)上述算法來(lái)計(jì)算詞項(xiàng)的關(guān)聯(lián)關(guān)系并將其輸出到新矩陣空間中。
對(duì)計(jì)算得到的空間矩陣進(jìn)行分析,并可以通過(guò)再次數(shù)據(jù)聚類的方式來(lái)提高聚類算法的精度。
4 仿真與驗(yàn)證(Simulation and verification)
為了衡量該設(shè)計(jì)的模型準(zhǔn)確性,本文設(shè)計(jì)了對(duì)比試驗(yàn),針對(duì)同樣的數(shù)據(jù),使用本文設(shè)計(jì)模型和經(jīng)典的K-means算法分別進(jìn)行對(duì)比試驗(yàn)。試驗(yàn)所用到的數(shù)據(jù)環(huán)境詳見表1。
對(duì)上表中的數(shù)據(jù)分別進(jìn)行本文設(shè)計(jì)的聚類算法模型分析以及傳統(tǒng)的K-means算法分析,其檢測(cè)成功率如圖2所示。
5 結(jié)論(Conclusion)
隨著互聯(lián)網(wǎng)的發(fā)展和數(shù)據(jù)量的快速增長(zhǎng),傳統(tǒng)的入侵檢測(cè)技術(shù)已經(jīng)不能滿足如今高速發(fā)展的網(wǎng)絡(luò)安全的需求,本文設(shè)計(jì)了一直基于聚類分析的入侵檢測(cè)模型,給出了模型的工作流程,設(shè)計(jì)思想,和實(shí)現(xiàn)過(guò)程,最后,設(shè)計(jì)了對(duì)比仿真實(shí)驗(yàn),結(jié)果表明本文設(shè)計(jì)的檢測(cè)模型能夠有效抵抗異常攻擊,具備一定的實(shí)用價(jià)值。
參考文獻(xiàn)(References)
[1] 張鵬,趙輝.關(guān)于入侵檢測(cè)模型的研究與分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2009(03):6-8.
[2] 喻莉,羅寧.基于機(jī)器學(xué)習(xí)的入侵檢測(cè)模型[J].信息安全與通信保密,2005(03):112-114.
[3] Richard Lippmann,et al.Robert Cunningham.Evaluating and Strengthening Enterprise Network Security Using AttackGraphs[R].MIT Lincoln Laboratory Report,2005.
[4] 高宜楠.基于機(jī)器學(xué)習(xí)與人工免疫的入侵檢測(cè)系統(tǒng)研究[D].西安電子科技大學(xué),2010.
[5] 陳海,丁邦旭,王煒立.基于神經(jīng)網(wǎng)絡(luò)LMBP算法的入侵檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2007(08):183-185;188.
[6] Wenke Lee,et al.A data mining framework for building intrusiondetection models[C].Proceedings of the 2007IEEE.