羅維
摘 要:隨著科學(xué)技術(shù)的快速發(fā)展,各種網(wǎng)絡(luò)犯罪行為時(shí)有發(fā)生,為個(gè)人和國(guó)家?guī)?lái)了嚴(yán)重的損失,因此加強(qiáng)計(jì)算機(jī)網(wǎng)絡(luò)及服務(wù)器安全,確保信息的完整性和保密性至關(guān)重要。服務(wù)器在計(jì)算機(jī)操作系統(tǒng)中發(fā)揮著重要的作用,其安全涵蓋物理安全、病毒防護(hù)、網(wǎng)絡(luò)安全、數(shù)據(jù)庫(kù)安全、操作系統(tǒng)安全等,這就需要認(rèn)真研究服務(wù)器的安全保護(hù)措施,利用web日志來(lái)了解系統(tǒng)面臨的潛在威脅,以免系統(tǒng)數(shù)據(jù)受到破壞或修改。本文就對(duì)web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用進(jìn)行分析和探究。
關(guān)鍵詞:web日志數(shù)據(jù)挖掘 服務(wù)器安全 應(yīng)用
中圖分類號(hào):TP393.05 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)08(c)-0155-02
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,信息數(shù)據(jù)呈爆炸式增長(zhǎng),而這些信息數(shù)據(jù)具有非結(jié)構(gòu)化、動(dòng)態(tài)性、異質(zhì)性等特征,蘊(yùn)含著極其豐富的圖像圖形、本文、視音頻等信息資源,多存在于服務(wù)器上,尤其是用戶記錄信息以及鏈接結(jié)構(gòu)信息[1]。目前管理人員如何篩選和查找所需的有用信息數(shù)據(jù),已經(jīng)成為一大難題,這也在很大程度上推動(dòng)了單類型、單文本的數(shù)據(jù)挖掘朝著web日志數(shù)據(jù)挖掘的方向發(fā)展,為服務(wù)器的安全提供了強(qiáng)有力的技術(shù)保障。
1 web日志數(shù)據(jù)挖掘概述
對(duì)于web日志挖掘而言,其主要是在用戶存取模式的基礎(chǔ)上,對(duì)有用的價(jià)值加以獲取,深度挖掘web上的相關(guān)數(shù)據(jù)及日志數(shù)據(jù),這樣可以及時(shí)發(fā)現(xiàn)用戶訪問(wèn)web頁(yè)面。當(dāng)然web數(shù)據(jù)有其他的類型,基本都是網(wǎng)上的原始數(shù)據(jù),而we b日志挖掘并不是原始數(shù)據(jù),借助用戶和網(wǎng)絡(luò)之間的互動(dòng)來(lái)獲取第二手?jǐn)?shù)據(jù),包括用戶提問(wèn)式、瀏覽器訪問(wèn)記錄、代理服務(wù)器日志記錄、用戶個(gè)人簡(jiǎn)歷、網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、注冊(cè)信息等。分析這些數(shù)據(jù)的規(guī)律,詳細(xì)識(shí)別電子商務(wù)的潛在客戶,或者是在擴(kuò)展有向樹(shù)模型來(lái)識(shí)別用戶的瀏覽序列模式,以便web日志挖掘工作的順利實(shí)施。同時(shí)以用戶訪問(wèn)web記錄為依據(jù),挖掘用戶的興趣關(guān)聯(lián)規(guī)則后將其存放在相關(guān)的數(shù)據(jù)庫(kù)中,從而對(duì)用戶行為進(jìn)行合理預(yù)測(cè),以便用戶獲取相關(guān)的web頁(yè)面,促進(jìn)頁(yè)面獲取速度的加快[2]??傊?,web服務(wù)是互聯(lián)網(wǎng)提供最豐富、最多的服務(wù),因而Web服務(wù)器往往會(huì)遭受很多的攻擊,這就要求管理人員采取切實(shí)可行的措施來(lái)防止服務(wù)器遭受入侵和攻擊,其中最為常用且直接有效的方式就是及時(shí)查看web服務(wù)器的日志記錄。對(duì)于大型網(wǎng)絡(luò)而言,其訪問(wèn)數(shù)據(jù)以及日志記錄數(shù)目較大,只有采取切實(shí)可行的措施,合理運(yùn)用數(shù)據(jù)挖掘技術(shù),才能合理把握日志、準(zhǔn)確抓住重點(diǎn)或找到入侵線索。
2 web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用
黑客攻擊web站點(diǎn)時(shí),都會(huì)事先對(duì)web站點(diǎn)可進(jìn)行攻擊或存在的漏洞進(jìn)行了解,高效運(yùn)用漏洞掃描軟件,一旦發(fā)現(xiàn)漏洞則進(jìn)行攻擊;然而部分能在web日志中找到的漏洞,一旦出現(xiàn)下列的情況,則會(huì)出現(xiàn)一些攻擊行為:①大量訪問(wèn)被拒絕;②沒(méi)有找到多次出現(xiàn)的請(qǐng)求資源;③存在特定的資源請(qǐng)求字符串。一般情況下,管理人員對(duì)web日志進(jìn)行分析時(shí),如果發(fā)現(xiàn)“..%c1%”和“+.htr”等特定資源申請(qǐng)字符串,即認(rèn)定客戶正在發(fā)起攻擊。從web日志分析可知,了解黑客攻擊服務(wù)器的特點(diǎn)后,認(rèn)真分析web日志數(shù)據(jù),對(duì)系統(tǒng)可能存在的威脅進(jìn)行準(zhǔn)確把握,并采取切實(shí)可行的加固系統(tǒng)方式,以免系統(tǒng)數(shù)據(jù)被破壞。
web日志數(shù)據(jù)挖掘在服務(wù)器安全方面的應(yīng)用具體表現(xiàn)為如下幾方面:第一,模式識(shí)別和分析。針對(duì)模式識(shí)別,其主要是以各種算法為基礎(chǔ),對(duì)處理后的數(shù)據(jù)進(jìn)行深度挖掘,然后生成模式,具體表現(xiàn)為:①網(wǎng)頁(yè)編碼:在網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上編碼相關(guān)主題頁(yè)面,將特定的數(shù)字設(shè)置在每個(gè)頁(yè)面上,然后以網(wǎng)站現(xiàn)有的網(wǎng)頁(yè)數(shù)為依據(jù)進(jìn)行編號(hào)。②會(huì)話抽?。簩?duì)所有的會(huì)話進(jìn)行求取后,構(gòu)成用戶會(huì)話集。③頁(yè)面相似度分析:借助余弦相似度的方式,合理計(jì)算頁(yè)面間的相關(guān)性[3]。④用戶聚類:運(yùn)用等聚類方法,如RCPC、CARD等,對(duì)網(wǎng)站用戶會(huì)話進(jìn)行聚類處理訪問(wèn)。為了確認(rèn)模型的性能,應(yīng)該以訪問(wèn)量較大的網(wǎng)站為依托,模擬其網(wǎng)站服務(wù)器的日志。
第二,數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要是在日志文件轉(zhuǎn)換為數(shù)據(jù)庫(kù)文件后進(jìn)行,旨在轉(zhuǎn)化web日志,使其更好地進(jìn)行數(shù)據(jù)挖掘,確保數(shù)據(jù)的精準(zhǔn)性,而這一過(guò)程涉及識(shí)別用戶會(huì)話、識(shí)別用戶、數(shù)據(jù)清理、識(shí)別片段這四個(gè)階段。①識(shí)別用戶會(huì)話。對(duì)于用戶會(huì)話而言,其是指用戶對(duì)服務(wù)器的有效訪問(wèn),利用連續(xù)請(qǐng)求頁(yè)面的方式,在網(wǎng)站中獲得訪問(wèn)行為,以用戶會(huì)話為基礎(chǔ)掌握黑客入侵時(shí)的相關(guān)操作,保障web服務(wù)器數(shù)據(jù)的安全性。
②識(shí)別用戶。web日志記錄的用戶情況分為:同一時(shí)間內(nèi),同一用戶的IP對(duì)web服務(wù)器進(jìn)行訪問(wèn);或者是同一時(shí)間內(nèi),不同用戶利用相對(duì)簡(jiǎn)單的代理訪問(wèn)web服務(wù)器[4]。從服務(wù)器安全的層面而言,前一種情況時(shí)重點(diǎn)分析的對(duì)象,以日志中的IP為依據(jù)進(jìn)行分類,以時(shí)間順序?yàn)橐劳校瑢?duì)同一個(gè)IP的訪問(wèn)進(jìn)行排序,有效判斷一定時(shí)間內(nèi)各IP訪問(wèn)服務(wù)器的情況;若該IP在同一時(shí)間訪問(wèn)服務(wù)器,則判斷IP和系統(tǒng)中所保存的常用代理服務(wù)器,但其不是代理服務(wù)器時(shí),則要有效識(shí)別該IP的日志數(shù)據(jù)。
③數(shù)據(jù)清理。其主要指的是以需求為基礎(chǔ)對(duì)日志文件進(jìn)行處理,涉及合并一些記錄或刪除不必要的數(shù)據(jù)等。用戶對(duì)某個(gè)網(wǎng)頁(yè)進(jìn)行請(qǐng)求時(shí),可以自動(dòng)下載與該網(wǎng)頁(yè)相關(guān)的音頻、圖片等信息,然后記錄在日志文件中;由于數(shù)據(jù)挖掘是以用戶訪問(wèn)模式為目的,這些信息的可用性不高,所以刪除日志中的文件后綴,如jpeg、jpg、gif等的記錄,從而檢驗(yàn)是否有黑客入侵。黑客入侵在日志中多在HTTP狀態(tài)出錯(cuò),所以清理數(shù)據(jù)的過(guò)程中,對(duì)正常訪問(wèn)的數(shù)據(jù)加以去除;但有些黑客可能借助正常的訪問(wèn)加以入侵,這時(shí)需要保留正常的訪問(wèn)數(shù)據(jù)。
④格式化。數(shù)據(jù)集完成會(huì)話標(biāo)識(shí)后,需要格式化會(huì)話數(shù)據(jù),使其變成習(xí)相應(yīng)數(shù)據(jù)挖掘算法的數(shù)據(jù)模型,即數(shù)據(jù)轉(zhuǎn)化[5]。而日志記錄涉及HTTP狀態(tài)、請(qǐng)求資源、訪問(wèn)方式、客戶端IP、時(shí)間、日期等,但通過(guò)格式化這些日志記錄,系統(tǒng)可以產(chǎn)生全新的表,即“已經(jīng)清洗的web日志記錄”,并且該表包括代理、引用頁(yè)面、訪問(wèn)頁(yè)面、時(shí)間、IP地址、編號(hào)等。例如:“7、210.38.171.*、05/Nov/2003:09:46:398000、B.htn1、A4、htn1.Mozilla/4.0(Win+98)”。經(jīng)過(guò)上述的預(yù)處理,服務(wù)器日志變成與相關(guān)挖速?zèng)Q挖掘算法的數(shù)據(jù)模型相符。
3 結(jié)語(yǔ)
Web日志作為一個(gè)巨大的數(shù)據(jù)量,通過(guò)人工的方式進(jìn)行分析幾乎不可能,只有采用數(shù)據(jù)挖掘的技術(shù)手段,從安全性的角度分析web日志,才能確保web服務(wù)器的數(shù)據(jù)安全。當(dāng)前信息技術(shù)的研究重點(diǎn)就是web數(shù)據(jù)挖掘技術(shù),這也是現(xiàn)代科技相互融合的趨勢(shì),該技術(shù)在互聯(lián)網(wǎng)的快速發(fā)展下將會(huì)實(shí)現(xiàn)理論與技術(shù)的發(fā)展,如多媒體數(shù)據(jù)、圖像圖形數(shù)據(jù)、結(jié)構(gòu)和半結(jié)構(gòu)文本數(shù)據(jù)的高效挖掘算法;web知識(shí)庫(kù)的動(dòng)態(tài)更新及維護(hù)等等,進(jìn)一步推動(dòng)數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)庫(kù)技術(shù)的發(fā)展。
參考文獻(xiàn)
[1] 鄧詩(shī)琪,劉曉明,武旭東,等.Web服務(wù)器攻擊日志分析研究[J].信息網(wǎng)絡(luò)安全,2016(6):56-61.
[2] 應(yīng)毅,任凱,曹陽(yáng).基于改進(jìn)的MapReduce模型的Web挖掘[J].科學(xué)技術(shù)與工程,2013(5):1205-1209.
[3] 趙潔,溫潤(rùn),周峰,等.基于Web用戶日志的電子商務(wù)領(lǐng)域競(jìng)爭(zhēng)對(duì)手分析——以11家電子商務(wù)網(wǎng)站為例[J].信息資源管理學(xué)報(bào),2013(4):53-62,71.
[4] 周愛(ài)武,肖云,封軍.Web日志挖掘數(shù)據(jù)預(yù)處理優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(1):42-45.
[5] 李曉昕,謝維奇.基于Web日志挖掘的網(wǎng)上學(xué)習(xí)行為研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(12):73-76.endprint