皮國(guó)強(qiáng) 劉韜
摘? 要: 針對(duì)傳統(tǒng)的防火墻技術(shù)和網(wǎng)絡(luò)檢測(cè)技術(shù)不再能準(zhǔn)確、及時(shí)地發(fā)現(xiàn)對(duì)服務(wù)器的攻擊行為提出了基于Web數(shù)據(jù)挖掘技術(shù)的一種服務(wù)器入侵檢測(cè)方法:首先由目前已經(jīng)掌握的對(duì)服務(wù)器攻擊行為特征作為樣本點(diǎn),采用k-均值聚類分析算法進(jìn)行無(wú)監(jiān)督學(xué)習(xí),生成K個(gè)聚類的特征攻擊庫(kù);其次采用鄰近分類算法,根據(jù)計(jì)算訪問(wèn)樣本點(diǎn)與特征攻擊庫(kù)中心的距離對(duì)樣本點(diǎn)進(jìn)行歸并;最后對(duì)特征攻擊庫(kù)中心點(diǎn)進(jìn)行重新調(diào)整,確保對(duì)新的樣本點(diǎn)行為分析更加準(zhǔn)確。
關(guān)鍵詞: Web挖掘; 樣本點(diǎn); k-均值聚類算法; 鄰近分類算法; 歐氏距離
中圖分類號(hào):TP393.08文獻(xiàn)標(biāo)識(shí)碼:A????????????文章編號(hào):1006-8228(2012)04-41-02
Server intrusion detect based on Web mining study
Pi Guoqiang, Liu Tao
(Computer Network Technology Center of Zunyi Medical College, Zunyi, Guizhou 563003, China)
Absrtact: Web server is a main physical carrier for information releasing, whose safety is one of hot topics now. With the rapid development of Internet and an exponential growth of information, attacks on the server are more and more frequent, diverse, and covert. The traditional firewall technology and network detection can no longer accurately and timely detect attacks. Web data mining is better to identify the attacks. It first regards the past attacks as sample points, and uses k-means clustering algorithm for unsupervised learning to generate K clusters of characteristics. Then it calculates the distance from a sample point to the characteristic attack center points of the sample library by the neighbor classification algorithm, and merge into the nearest library. Finally it re-adjusts the center of the feature library to ensure that the analysis of the new behavior of sample point is more accurate.
Key words: Web mining; sample point; K-means clustering algorithm; neighbor classification algorithm; Euclidean distance
0 引言
隨著Internet的飛速發(fā)展,Web成為世界上規(guī)模最大的公共數(shù)據(jù)資源,它不僅是一個(gè)品牌形象展示的工具,而且逐步成為電子商務(wù)的工具,協(xié)同辦公的工具。Web服務(wù)器也稱為WWW服務(wù)器,主要提供網(wǎng)上信息瀏覽服務(wù)。這些年來(lái)Web服務(wù)器的安全成為關(guān)注的熱點(diǎn),報(bào)道Web服務(wù)器受到攻擊的事件是屢見(jiàn)不鮮;針對(duì)服務(wù)器攻擊的手段日益多樣、專業(yè)、隱蔽,這導(dǎo)致限于單一的傳統(tǒng)Web安全手段解決Web安全遇到了難題。Web挖掘是從WWW相關(guān)資源上抽取信息和知識(shí)的過(guò)程,它將傳統(tǒng)的數(shù)據(jù)挖掘思想和方法用在Web上,從Web文檔和活動(dòng)中抽取感興趣的、潛在的、有用的模式或隱藏信息。Web所用記錄挖掘是Web挖掘的一種,所有網(wǎng)上行為的可記錄性和數(shù)據(jù)量的快速增長(zhǎng)為Web使用挖掘提供了寶貴資源。
本文將Web挖掘技術(shù)引入到Web服務(wù)器的安全檢測(cè)中,提出了基于k-均值聚類算法和鄰近分類算法相結(jié)合的檢測(cè)模型。仿真結(jié)果表明,模型能大大提高對(duì)Web入侵檢測(cè)的能力,能實(shí)時(shí)、準(zhǔn)確地發(fā)現(xiàn)入侵行為。
1 Web服務(wù)器入侵檢測(cè)模型結(jié)構(gòu)
Web服務(wù)器入侵是對(duì)Web服務(wù)器進(jìn)行潛在的、有預(yù)謀的、未經(jīng)授權(quán)的訪問(wèn)操作,以達(dá)到某種目的。Web服務(wù)器安全檢測(cè)也像其他網(wǎng)絡(luò)元素安全檢測(cè)一樣,其檢測(cè)系統(tǒng)一般包括網(wǎng)絡(luò)數(shù)據(jù)采集模塊、網(wǎng)絡(luò)入侵分析模塊、入侵響應(yīng)模塊及管理配置模塊[1]幾部分。Web服務(wù)器安全檢測(cè)模型結(jié)構(gòu)如圖1所示。
Web服務(wù)器入侵檢測(cè)主要是通過(guò)對(duì)Web使用記錄的挖掘,發(fā)現(xiàn)攻擊行為。Web使用記錄挖掘是指計(jì)算機(jī)系統(tǒng)自動(dòng)發(fā)現(xiàn)和分析用戶使用模式,這些模式來(lái)自于收集的點(diǎn)擊流和相關(guān)數(shù)據(jù)或用戶與一個(gè)或多個(gè)網(wǎng)站互動(dòng)的結(jié)果[2]。使用挖掘的目的是,改善Web站點(diǎn)的性能,改進(jìn)Web站點(diǎn)的設(shè)計(jì),根據(jù)用戶過(guò)去的訪問(wèn)模式,預(yù)測(cè)用戶將來(lái)的訪問(wèn),給用戶提供個(gè)性化的服務(wù)及開(kāi)展商業(yè)智能服務(wù)[3,4]。Web挖掘一般經(jīng)歷數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)和模式分析四個(gè)階段。由于挖掘的數(shù)據(jù)流—原始日志文件是簡(jiǎn)單的文本文件,包括一些不完整的、冗余的、錯(cuò)誤的數(shù)據(jù),同時(shí)原始的Web日志文件具有半結(jié)構(gòu)化的特點(diǎn),所以需要對(duì)其進(jìn)行預(yù)處理,否則將影響挖掘的效果。數(shù)據(jù)預(yù)處理包括四個(gè)階段:數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別和路徑補(bǔ)充、事務(wù)識(shí)別。
圖1Web服務(wù)器入侵檢測(cè)模型結(jié)構(gòu)
在入侵檢測(cè)系統(tǒng)中,數(shù)據(jù)規(guī)范化模塊是將用戶訪問(wèn)日志數(shù)據(jù)預(yù)處理成用戶事務(wù),將其表示為n維空間的向量t,t=(Wtp1, Wtp2,…, Wtpn),其中如果Pj在事務(wù)t中出現(xiàn),則Wtp1=W(pj) (j=1,2,3,…, n),否則Wtpj=0。入侵分析模塊是將規(guī)范化后的用戶事務(wù)t在特征攻擊庫(kù)中找到一個(gè)離聚類中心點(diǎn)最近的一個(gè)聚類,確定其與哪個(gè)聚類的特征相近。特征庫(kù)鑒于經(jīng)驗(yàn)學(xué)習(xí)已知了各聚類的安全評(píng)級(jí)(不排除人工對(duì)聚類的評(píng)級(jí)干預(yù)),根據(jù)聚類的安全評(píng)級(jí)判定用戶事務(wù)的攻擊行為(主要采用鄰近算法計(jì)算到聚類中心的距離)。入侵響應(yīng)模塊根據(jù)入侵分析的結(jié)果作出響應(yīng):進(jìn)行攻擊處理、用戶事務(wù)點(diǎn)歸類(移進(jìn))和重新計(jì)算中心點(diǎn)(主要用到了K-均值算法)。入侵檢測(cè)流程如圖2所示。
圖2Web服務(wù)器入侵檢測(cè)流程圖
2 鄰近算法和K-均值算法
2.1 算法描述
表1鄰近算法與K-均值算法
鄰近算法是在訓(xùn)練數(shù)據(jù)集D(D為特征庫(kù)聚類族中心點(diǎn)集合)中找出一個(gè)與測(cè)試樣本d最相似(或者距離最?。┑挠?xùn)練樣本t。K-均值算法就是把數(shù)據(jù)集D的所有樣本,根據(jù)樣本屬性的相似性,劃分成K個(gè)聚類,每個(gè)聚類中心點(diǎn)為均值,算法如表1所示。
2.2 算法評(píng)價(jià)
鄰近算法為K鄰近算法的特殊應(yīng)用。K鄰近算法很靈活,準(zhǔn)確性高,但是在分類時(shí)它對(duì)每個(gè)訓(xùn)練樣本點(diǎn)都要進(jìn)行比較,如果訓(xùn)練樣本較大的情況,K-鄰近算法需要很長(zhǎng)的時(shí)間[5]。在訓(xùn)練樣本很大的情況,將用戶事務(wù)樣本直接與特征庫(kù)的聚類簇中心進(jìn)行比較不僅分類精確,而且時(shí)間開(kāi)銷也較小。因?yàn)楫?dāng)聚類樣本點(diǎn)較多的情況,聚類中心點(diǎn)是族均值,較為精確,沒(méi)有必要將測(cè)試樣本點(diǎn)分別與每個(gè)聚類中的訓(xùn)練樣本進(jìn)行比較。K-均值算法是最著名的劃分聚類算法,算法簡(jiǎn)潔和高效率,已成為聚類算法中使用最廣泛算法。
3 入侵檢測(cè)仿真結(jié)果分析
為了檢驗(yàn)本文提出的安全檢測(cè)模型的性能,對(duì)某單位Web服務(wù)器的訪問(wèn)日志數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)評(píng)價(jià),集中對(duì)攻擊行為,包括SQL注入漏洞、ASP上傳漏洞、SA注入點(diǎn)、非授權(quán)得到超級(jí)用戶權(quán)限攻擊(U2R)作了檢測(cè)將結(jié)果與傳統(tǒng)檢測(cè)結(jié)果進(jìn)行比較,得到檢測(cè)率高、誤報(bào)率低于傳統(tǒng)的檢測(cè)方法。
4 結(jié)束語(yǔ)
本文針對(duì)傳統(tǒng)檢測(cè)Web服務(wù)器入侵行為的不足,提出了基于Web挖掘的檢測(cè)方法:對(duì)用戶事務(wù)進(jìn)行分類和聚類相結(jié)合的模式挖掘;在判定入侵訪問(wèn)過(guò)程中,用中心點(diǎn)代替聚類中的所有點(diǎn),在不失準(zhǔn)確性的同時(shí),以降低距離計(jì)算的次數(shù);同時(shí)將測(cè)試樣本點(diǎn)直接歸并在相似的聚類中后進(jìn)行中心調(diào)整,為下一次的判定提供條件。實(shí)驗(yàn)結(jié)果表明,本文提出的Web挖掘檢法測(cè)入侵的方法比傳統(tǒng)的檢測(cè)優(yōu)秀。但是怎樣合理地對(duì)訪問(wèn)日志進(jìn)行規(guī)范化和怎么科學(xué)合理地庫(kù)中的評(píng)級(jí)都是檢測(cè)方法中的難題,因?yàn)橐?guī)范過(guò)程中,樣本的維數(shù)(屬性個(gè)數(shù))和攻擊庫(kù)中的評(píng)級(jí)直接影響計(jì)算復(fù)雜度和結(jié)果的準(zhǔn)確度。這是我們下階段要研究的問(wèn)題。
參考文獻(xiàn):
[1] 皮國(guó)強(qiáng),劉韜.集成模型在網(wǎng)絡(luò)入侵檢測(cè)中的仿真研究[J].計(jì)算機(jī)仿真,2011.28(6):161~164
[2] B.Mobasher. Web Usage Mining. In John Wang(eds.),Encyclopedia of Data Warehousing and Mining ,Idea Group,2006.
[3] Liu Haibin ,KesV. Combined mining of web server logs andweb contents for classifying user navigation patterns and predicting users'future requests[J]. DataandKnowledge Engineering, 2006(7):307~309
[4] Spiliopoulou M,Mobasher B,Berendt B,et al.A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing,Special Issue on Mining Web Based Data for E- Business Application,2003.15(2):171~190
[5] Liu Bing.Web 數(shù)據(jù)挖掘[M].俞勇,薛貴榮,韓定一,譯.清華大學(xué)出版社,2009.
[6] 陽(yáng)小蘭,錢程等.Web日志分析系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011.21(9):211~214