羅曼珺,賈 晨
(武漢工程大學(xué),湖北武漢,430205)
基于數(shù)據(jù)挖掘的校園網(wǎng)網(wǎng)絡(luò)日志的探討
羅曼珺,賈 晨
(武漢工程大學(xué),湖北武漢,430205)
隨著數(shù)據(jù)庫技術(shù)的快速發(fā)展,管理系統(tǒng)得到廣泛應(yīng)用,人們生產(chǎn)生活中都離不開網(wǎng)絡(luò)技術(shù),所積累的數(shù)據(jù)也不斷增加。以往的數(shù)據(jù)庫系統(tǒng)能夠?qū)?shù)據(jù)內(nèi)容進(jìn)行錄入、查詢等功能,但是難以實(shí)現(xiàn)對(duì)數(shù)據(jù)未來趨勢的預(yù)測。校園網(wǎng)絡(luò)日志能夠通過對(duì)校園網(wǎng)絡(luò)中各種事件的記錄,將重要的信息提煉出來,及時(shí)發(fā)現(xiàn)異常行為,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改善。本文將對(duì)數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的校園網(wǎng)日志應(yīng)用以及挖掘系統(tǒng)的設(shè)計(jì)進(jìn)行分析。
數(shù)據(jù)挖掘;校園網(wǎng);網(wǎng)絡(luò)日志
在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展之下,網(wǎng)絡(luò)服務(wù)也變得逐漸多樣化,在開放的復(fù)雜系統(tǒng)中進(jìn)行的內(nèi)在管理也變得日益復(fù)雜。校園網(wǎng)絡(luò)日志能夠?qū)W(wǎng)絡(luò)文件進(jìn)行有效的統(tǒng)計(jì)分析,它能夠?qū)⒘髁啃畔?、攻擊、web訪問以及其他各種服務(wù)進(jìn)行記錄,獲得用戶的行為模式,為校園網(wǎng)絡(luò)管理者提供較大的便利,極大的提升了管理效率和質(zhì)量。
數(shù)據(jù)挖掘功能主要作用是能夠在數(shù)據(jù)中挖掘出想要尋找的類型,通常分為描述和預(yù)測兩個(gè)部分。其中描述性的挖掘任務(wù)是對(duì)數(shù)據(jù)庫中的數(shù)據(jù)一般性進(jìn)行刻畫,而挖掘性任務(wù)則是根據(jù)目前的數(shù)據(jù)特點(diǎn),對(duì)其進(jìn)行預(yù)測,其在校園網(wǎng)日志中的應(yīng)用主要體現(xiàn)在以下幾個(gè)方面。
1.1 統(tǒng)計(jì)化與可視化
根據(jù)調(diào)查統(tǒng)計(jì)能夠得出,只有用戶對(duì)挖掘數(shù)據(jù)的分布情況進(jìn)行良好的掌握,才能夠建立出一個(gè)良好的語言模型。數(shù)據(jù)挖掘技術(shù)在校園網(wǎng)日志的應(yīng)用中,應(yīng)對(duì)統(tǒng)計(jì)類別進(jìn)行定義和設(shè)置,例如web訪問統(tǒng)計(jì)、Email服務(wù)統(tǒng)計(jì)等等,在數(shù)據(jù)挖掘過后,這些統(tǒng)計(jì)結(jié)果將會(huì)實(shí)現(xiàn)可視化處理,能夠幫助用戶更加良好的掌握日志數(shù)據(jù)的大致分布位置。
1.2 關(guān)聯(lián)規(guī)則
通過關(guān)聯(lián)能夠掌握兩個(gè)或者兩個(gè)以上屬性之間的聯(lián)系。在校園網(wǎng)的日志挖掘過程中,可以通過關(guān)聯(lián)的方式對(duì)用戶以及訪問網(wǎng)站中存在的規(guī)則及時(shí)發(fā)現(xiàn)。例如,在某個(gè)特定的時(shí)間段內(nèi)用戶可能既訪問了website1,又訪問了website2。在關(guān)聯(lián)規(guī)則當(dāng)中,主要可以劃分為兩個(gè)步驟,第一步是對(duì)全部頻繁項(xiàng)目集進(jìn)行識(shí)別,并且要求此種項(xiàng)目集的支持程度要遠(yuǎn)遠(yuǎn)大于用戶所設(shè)定的最小值。第二步是從獲得的頻繁項(xiàng)目集中,對(duì)高于用戶設(shè)定最低值的強(qiáng)關(guān)聯(lián)進(jìn)行規(guī)則的制定[1]。
1.3 分類
通過分類的形式將其中數(shù)據(jù)類和概念的模型進(jìn)行描述和劃分,以此來利用模型預(yù)測的方式對(duì)未知類對(duì)象進(jìn)行標(biāo)記。在校園網(wǎng)的日志挖掘過程中,應(yīng)積極建立一種適宜用戶使用的網(wǎng)絡(luò)模式,并且能夠?qū)δP偷木_度予以保障。例如用戶與對(duì)象網(wǎng)站之間的預(yù)測使用協(xié)議等等。對(duì)于數(shù)據(jù)的分類方面,主要包括兩個(gè)步驟:第一步,建立相關(guān)模型,并且對(duì)預(yù)定的概念集或者數(shù)據(jù)類集進(jìn)行描述,通過分析能夠?qū)⑼ㄟ^屬性描述的方式對(duì)數(shù)據(jù)庫元祖進(jìn)行模型的構(gòu)造。第二步,利用模型進(jìn)行分類。首先,應(yīng)保障評(píng)估模型預(yù)測的準(zhǔn)確性,面對(duì)不具備測試樣本的問題,可以將已知類標(biāo)號(hào)與樣本學(xué)習(xí)模型進(jìn)行對(duì)比,如果模型的準(zhǔn)確率相符,則可以將其利用到對(duì)應(yīng)標(biāo)號(hào)的位置中。
2.1 系統(tǒng)的實(shí)現(xiàn)流程
對(duì)于數(shù)據(jù)的收集階段,可以通過校園網(wǎng)防火墻的記錄日志來保存。對(duì)于數(shù)據(jù)的預(yù)處理階段,其中主要包括數(shù)據(jù)的清理、分類以及預(yù)統(tǒng)計(jì)等內(nèi)容。在日志的解析階段,通過對(duì)收集到的日志文件分析,提升對(duì)基本的日志辨別能力。在數(shù)據(jù)清理的過程中,主要是對(duì)于與無效數(shù)據(jù)或者與挖掘無關(guān)的數(shù)據(jù)進(jìn)行清理。在用戶交互定義挖掘條件的過程中,用戶可以對(duì)挖掘的對(duì)象和使用方式在日志的頁面中進(jìn)行選擇,然后將設(shè)置內(nèi)容傳遞到服務(wù)器當(dāng)中,服務(wù)器再將最終的挖掘結(jié)果呈現(xiàn)到用戶的頁面當(dāng)中。例如對(duì)用戶所訪問、瀏覽過的網(wǎng)站以及網(wǎng)絡(luò)服務(wù)類型關(guān)系進(jìn)行挖掘、用戶在一定的時(shí)間段內(nèi)對(duì)網(wǎng)站的訪問間隔、網(wǎng)站的訪問順序關(guān)系等等。其中,挖掘規(guī)則的不同導(dǎo)致其關(guān)聯(lián)規(guī)則也不盡相同,主要分為單維挖掘與多維挖掘兩種類型,同時(shí)利用給予密度的聚類算法能對(duì)聚類模塊進(jìn)行使用。
2.2 系統(tǒng)軟件結(jié)構(gòu)
校園網(wǎng)日志挖掘系統(tǒng)軟件主要涵蓋三個(gè)層次,即表示層、數(shù)據(jù)層以及控制層。在表示層中,能夠?qū)崿F(xiàn)用戶與系統(tǒng)之間進(jìn)行接口和界面的相互切換,用戶可以對(duì)挖掘的對(duì)象和使用方式在日志的頁面中進(jìn)行選擇,然后將設(shè)置內(nèi)容傳遞到服務(wù)器當(dāng)中,服務(wù)器再將最終的挖掘結(jié)果呈現(xiàn)到用戶的頁面當(dāng)中。在數(shù)據(jù)層中,主要是對(duì)以往的原始數(shù)據(jù)以及經(jīng)過清理后的數(shù)據(jù)進(jìn)行整理,并且能夠?qū)⑷罩緮?shù)據(jù)提供給整個(gè)系統(tǒng),在其接口處利用JDBC的方式能夠?yàn)闉橛脩籼峁┮粋€(gè)特定的數(shù)據(jù)管理系統(tǒng)。由于JDBC屬于一個(gè)通用的程序編程接口,能夠支持SQL功能,因此它能夠在各種數(shù)據(jù)庫的功能模塊中呈現(xiàn)出統(tǒng)一的界面給用戶,為開發(fā)人員提供了較大的便利,使其對(duì)數(shù)據(jù)庫的操作變得更加方便簡單[2]。
在控制層當(dāng)中,主要是校園網(wǎng)系統(tǒng)的整體核心部分,它能夠?qū)τ脩糨斎氲耐诰驐l件進(jìn)行接收,然后根據(jù)條件從數(shù)據(jù)層中獲取數(shù)據(jù)進(jìn)行相應(yīng)的挖掘操作??刂茖幽軌?qū)崿F(xiàn)各個(gè)部件的協(xié)同合作,為整體挖掘功能的實(shí)現(xiàn)而服務(wù)。在數(shù)據(jù)收集部分,能夠通過特定的syslog對(duì)校園網(wǎng)中的日志進(jìn)行獲取,并且將其傳輸?shù)饺罩痉治銎鳟?dāng)中進(jìn)行分析。對(duì)于數(shù)據(jù)的預(yù)處理部分,可以對(duì)所有的日志文件進(jìn)行分析和處理,篩選出有價(jià)值的信息,將無效信息進(jìn)行消除。在統(tǒng)計(jì)部分,能夠?qū)θ罩局械南鄳?yīng)字段進(jìn)行簡單的統(tǒng)計(jì),可以以小時(shí)或者一天為單位,統(tǒng)計(jì)出每天訪問量最多的網(wǎng)站及用戶的訪問數(shù)量。在關(guān)聯(lián)規(guī)則的挖掘部分,主要是通過尋找日志字段之間存在的關(guān)系進(jìn)行分析。對(duì)于分類部分來說,可以利用樸素貝葉斯的分類算法對(duì)日志進(jìn)行分類整理。在數(shù)據(jù)庫部分,通常利用JDBC的方式對(duì)數(shù)據(jù)庫進(jìn)行訪問,然后提供一系列的建立、訪問以及斷開數(shù)據(jù)庫等功能,并且將最終的可視化結(jié)果以最直觀的方式為用戶展現(xiàn)。在系統(tǒng)的結(jié)構(gòu)框架方面,所采用的是web以及C/S架構(gòu),主要應(yīng)用的是Stryts程序框架,并且通過對(duì)控制器的應(yīng)用,使得系統(tǒng)的靈活性以及可維護(hù)性得到顯著的增強(qiáng)[3]。
通過將數(shù)據(jù)挖掘在校園網(wǎng)中的應(yīng)用,能夠?qū)τ脩魹g覽的信息內(nèi)容以及使用的站點(diǎn)進(jìn)行獲取,通過web server中的Log記錄能夠?qū)⑿畔⑼诰虺鰜恚绻休^多的用戶在不斷重復(fù)的對(duì)同一個(gè)頁面集進(jìn)行訪問,那么其能夠提供充分的證據(jù)證明該頁面集中的頁面具有較強(qiáng)的相關(guān)性。此外,web日志挖掘能夠通過用戶的點(diǎn)擊發(fā)現(xiàn)其中隱藏著的模型,對(duì)用戶興趣進(jìn)行提取,進(jìn)而構(gòu)建出一個(gè)具有個(gè)性化信息服務(wù)功能的web智能化站點(diǎn)。
[1]姚亞輝,侯德恒.web數(shù)據(jù)挖掘在校園網(wǎng)絡(luò)化考試中的應(yīng)用[N].安陽工學(xué)院學(xué)報(bào),2013,01:57-60.
[2]黃永平,王健.web數(shù)據(jù)挖掘在高校教務(wù)考試中的應(yīng)用[J].現(xiàn)代電子技術(shù),2012,3216:69-72.
[3]陳陽,崔英敏.基于web日志的數(shù)據(jù)挖掘在校園網(wǎng)應(yīng)用中的探索[N].廣東輕工職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015,01:20-22.
Research on campus network log based on Data Mining
Luo Manjun,Jia Chen
(Wuhan Institute of Technology,Wuhan Hubei,430205)
With the rapid development of database technology, the management system has been widely used in the production and life of people, all cannot do without the network technology, the data is also increasing. The database system can used for data entry, query and other functions, but it is difficult to forecast the future trend of the data. The campus network can log the various events in campus network records will extract important information, timely detection of abnormal behavior, to improve the network structure. This paper will analyze the design of mining technology based on the campus network and the application of data mining system log.
data mining; campus network; network log
武漢工程大學(xué)校長基金(項(xiàng)目編號(hào):2017036)。