摘要:嚴(yán)格遵循數(shù)據(jù)挖掘的步驟,采用時(shí)間序列挖掘算法,結(jié)合微軟的BI數(shù)據(jù)挖掘工具(SQL Server Business Intelligence Development Studio)對(duì)從數(shù)據(jù)堂[9]上采集的數(shù)據(jù)集進(jìn)行建模,從而挖掘出在特定時(shí)間段內(nèi)用戶的上網(wǎng)行為模式和潛在的上網(wǎng)規(guī)律,對(duì)校園網(wǎng)絡(luò)的科學(xué)管理提出了合理的建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;用戶上網(wǎng)行為分析;網(wǎng)絡(luò)用戶行為挖掘;網(wǎng)絡(luò)用戶行為模式;校園網(wǎng)用戶上網(wǎng)行為分析
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)31-7409-04
網(wǎng)絡(luò)用戶行為分析和建模的研究主要分為兩種方法,第一種是基于在一個(gè)標(biāo)準(zhǔn)化的情景中對(duì)用戶行為的社會(huì)認(rèn)知觀察。第二種方法注重于用戶行為記錄和產(chǎn)物的分析。作者[1]采用第二種方法,從時(shí)間演化的角度,通過(guò)對(duì)比分析Internet導(dǎo)航痕跡(URLs 相對(duì)于關(guān)鍵字),并將其特征化為個(gè)體用戶或組用戶行為,提出了一個(gè)將訪問(wèn)冗余度視為全局靜態(tài)參數(shù)的用戶上網(wǎng)行為分析模型。Tsuyoshi Murata 和 Kota Saito在文章 [2]中介紹了一個(gè)基于網(wǎng)站關(guān)鍵字圖表分析,用來(lái)闡明用戶興趣度的方法;該方法主要用于提取Web日志數(shù)據(jù)中體現(xiàn)用戶主要興趣的子圖。用戶會(huì)話的具體特征化研究體現(xiàn)在[3,4,5]中,同時(shí),還提供了不同方面的初步結(jié)果,包括每個(gè)會(huì)話的請(qǐng)求、每個(gè)會(huì)話請(qǐng)求的頁(yè)面數(shù)量、會(huì)話長(zhǎng)度及內(nèi)部會(huì)話時(shí)間。通過(guò)對(duì)熵混合模型和馬爾科夫混合模型的應(yīng)用研究,論文[6]探討了建立網(wǎng)絡(luò)用戶行為分析系統(tǒng)的需求、步驟和體系框架,以及設(shè)計(jì)和實(shí)現(xiàn)系統(tǒng)過(guò)程中所面臨的一些關(guān)鍵技術(shù);接著在上述基礎(chǔ)上提出幾種常用的網(wǎng)絡(luò)用戶行為分析系統(tǒng)模型或其思想,主要列舉了網(wǎng)絡(luò)用戶行為分析在Web點(diǎn)擊流分析、計(jì)算機(jī)與網(wǎng)絡(luò)安全方面以及Intranet網(wǎng)內(nèi)用戶結(jié)構(gòu)分析中的應(yīng)用。此外,還提出了一種基于SIODATA算法的路徑聚類(lèi)方法。論文[7]則主要研究了網(wǎng)絡(luò)用戶行為分類(lèi)體系和幾種常用的網(wǎng)絡(luò)用戶行為分析系統(tǒng)模型,結(jié)合西南科技大學(xué)校園網(wǎng)網(wǎng)絡(luò)實(shí)例為分析對(duì)象,通過(guò)數(shù)據(jù)分析,并在此基礎(chǔ)上結(jié)合網(wǎng)絡(luò)播存結(jié)構(gòu)理論,提出了現(xiàn)有網(wǎng)絡(luò)的改革建議。張靜在論文[8]中利用MATLAB 軟件的聚類(lèi)分析和判別分析功能對(duì)某高校某一段時(shí)期內(nèi)的用戶上網(wǎng)日志的分析,挖掘出在抽樣時(shí)間段內(nèi)用戶上網(wǎng)的行為模式,為科學(xué)的進(jìn)行網(wǎng)絡(luò)管理提供依據(jù)。
本文在前人研究的基礎(chǔ)上,利用微軟公司提供的BI(SQL Server Business Intelligence Development Studio)工具,對(duì)從數(shù)據(jù)堂[9]提取的波士頓大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院1994年11月到1995年5月份的http請(qǐng)求日志進(jìn)行了深入的挖掘分析,提取出用戶訪問(wèn)最多的一些網(wǎng)站及其內(nèi)容、從不同的時(shí)間粒度得出訪問(wèn)相對(duì)集中的時(shí)間段等相關(guān)信息,進(jìn)而為科學(xué)管理學(xué)校網(wǎng)絡(luò)資源、優(yōu)化網(wǎng)絡(luò)配置、引導(dǎo)學(xué)生更好的學(xué)習(xí)提供有力支持。
1 數(shù)據(jù)預(yù)處理
本文所采用的數(shù)據(jù)集有三個(gè)特點(diǎn):①日志文件并非常用的txt文件,而是由包含用戶名、機(jī)器名、日志產(chǎn)生的時(shí)間三個(gè)字段(這三個(gè)字段唯一確定一個(gè)日志文件)且由空格隔開(kāi)的文件。②數(shù)據(jù)集非常大: 9633個(gè)日志文件,共1,143,839條記錄。每一個(gè)日志記錄則由機(jī)器名、上網(wǎng)時(shí)間、用戶ID、訪問(wèn)網(wǎng)址、響應(yīng)時(shí)間及文件大小六個(gè)字段組成。其中,時(shí)間格式為Unix時(shí)間戳。③數(shù)據(jù)記錄不完整。在日志記錄中,部分?jǐn)?shù)據(jù)存在殘缺、格式不正確的問(wèn)題。因此,我們?cè)趯?duì)數(shù)據(jù)進(jìn)行分析前,還需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
1.1 數(shù)據(jù)變換
日志文件中所有的時(shí)間都是Unix時(shí)間戳的形式,為了便于觀察和處理,我們需要編寫(xiě)一個(gè)時(shí)間戳轉(zhuǎn)換函數(shù)先對(duì)其格式進(jìn)行相應(yīng)的處理,轉(zhuǎn)換為美國(guó)波士頓大學(xué)當(dāng)?shù)氐南到y(tǒng)時(shí)間。如Unix時(shí)間戳797704525采用時(shí)間戳轉(zhuǎn)換函數(shù)轉(zhuǎn)換后為:1995-04-13 00:35:25.000。
同時(shí),對(duì)于那些域名的后綴中存在缺失、后綴名不正確的情況,我們?cè)诖嫒霐?shù)據(jù)庫(kù)之前也需要采取數(shù)據(jù)變換的手段將其統(tǒng)一格式。如對(duì)于后綴缺失項(xiàng),我們將其填充為NULL。
1.2 數(shù)據(jù)清理