一種某高校網(wǎng)絡(luò)用戶上網(wǎng)形式的數(shù)據(jù)挖掘方法

2008-04-26 03:32康健

安徽理工大學(xué)學(xué)報·自然科學(xué)版 2008年3期

康　健

摘要：數(shù)據(jù)挖掘是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)某些模型和數(shù)據(jù)間關(guān)系的過程。如何根據(jù)用戶上網(wǎng)日志發(fā)現(xiàn)用戶感興趣的信息和資源,幫助網(wǎng)絡(luò)中心科學(xué)地管理和規(guī)范其網(wǎng)絡(luò) 用戶,已經(jīng)成為一個迫切的問題。本文通過問題陳述、數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和結(jié)論幾個步驟用SPSS軟件對某高校某一時段的網(wǎng)絡(luò)用戶上網(wǎng)日志進(jìn)行分析，為科學(xué)的網(wǎng)絡(luò)管理提供依據(jù)。

關(guān)鍵詞：數(shù)據(jù)挖掘; SPSS; 上網(wǎng)日志

中圖分類號：TP301 文獻(xiàn)標(biāo)識碼：A 文章編號：1672-1098(2008)03-0069-04

數(shù)據(jù)挖掘是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的過程，它已經(jīng)成為各行各業(yè)對數(shù)據(jù)進(jìn)行分析的不可或缺的手段。過去，各企業(yè)、政府部門、學(xué)校、科研機(jī)構(gòu)等往往投入大量資金去收集和存儲數(shù)據(jù)，并把很多精力都放在提高存儲效率上。事實(shí)上，在這些海量數(shù)據(jù)中，只有一部分是有用的。現(xiàn)在，越來越多的企業(yè)認(rèn)識到，從他們的客戶信息中挖掘出最有價值客戶，或者從這些信息中找出客戶消費(fèi)的某種規(guī)律，要比存儲大量的歷史數(shù)據(jù)更有價值。這就是數(shù)據(jù)挖掘(data mining)，即在“數(shù)據(jù)”的礦山中挖掘出“金塊”。數(shù)據(jù)挖掘可以在幫助企業(yè)減少不必要投資風(fēng)險的同時提高資金收益，它給企業(yè)帶來的回報幾乎是無止境的。

數(shù)據(jù)挖掘是一個利用各種分析工具在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程，這些模型和關(guān)系可以用來做出預(yù)測［1］83。其程序一般包括：陳述和闡明問題、數(shù)據(jù)搜集、數(shù) 據(jù)預(yù)處理、模型評估、解釋模型和得出結(jié)論。具體過程如圖1數(shù)據(jù)挖掘過程所示。本文也將根據(jù)這個流程，利用統(tǒng)計專業(yè)軟件SPSS對某高校網(wǎng)絡(luò)用戶上網(wǎng)行為模式進(jìn)行分析。

1 SPSS簡介

SPSS(Statistical Package for the Social Science，社會科學(xué)統(tǒng)計軟件包)。是為了強(qiáng)調(diào)它在社會科學(xué)應(yīng)用的一面(因?yàn)樯鐣?學(xué)研究中的許多現(xiàn)象都是隨機(jī)的，要使用統(tǒng)計學(xué)來進(jìn)行研究)，而實(shí)際上廣泛應(yīng)用于經(jīng)濟(jì)學(xué) 、社會學(xué)、生物學(xué)、教育學(xué)、心理學(xué)、醫(yī)學(xué)以及體育、工業(yè)、農(nóng)業(yè)、林業(yè)、商業(yè)和金融等各個領(lǐng)域［2］14。

SPSS集數(shù)據(jù)錄入、資料編輯、數(shù)據(jù)管理、統(tǒng)計分析、報表制作、圖形繪制為一體。SPS S統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類。SPSS也有專門的繪圖系統(tǒng)，可以根據(jù)數(shù)據(jù)繪制各種圖形［2］15。

目前為止，SPSS已具有適合于DOS、Windows、Unix、Macintosh、OS/2等多種操作系統(tǒng) 使用的產(chǎn)品，本文使用的是Windows版本。

2 問題陳述

自從某高校校園網(wǎng)開通以來，其網(wǎng)絡(luò)用戶都是通過計費(fèi)上網(wǎng)的。這就使該校網(wǎng)絡(luò)中心積累了大量的用戶上網(wǎng)日志，數(shù)據(jù)量不斷地迅速膨脹。這些數(shù)據(jù)猶如茫茫的信息海洋，能否從中了解這些表面毫無關(guān)聯(lián)的數(shù)據(jù)之間是否存在或多或少的關(guān)系?怎樣才能找到這些關(guān)系并運(yùn)用到網(wǎng)絡(luò)管理中呢?例如，能否有助于發(fā)現(xiàn)上網(wǎng)成癮而影響學(xué)習(xí)的同學(xué)，為輔導(dǎo)員做好學(xué) 生工作提供幫助；對上網(wǎng)時間過長的用戶加以適當(dāng)限制等。這就是數(shù)據(jù)挖掘要做的工作。

本文會利用用戶信息文件User.txt和用戶上網(wǎng)日志文件Log.txt對網(wǎng)絡(luò)用戶的上網(wǎng)行為模式進(jìn)行分析。

2.1 數(shù)據(jù)搜集

本文是對兩個數(shù)據(jù)文件進(jìn)行分析的，分別是用戶信息文件User.txt和用戶上網(wǎng)日志文件Log.txt。其中User.txt 為用戶信息文件，主要包括：用戶名和用戶所在的用戶組，其中 102代表研究生組，103代表本科生組，104代表教職工組，105代表辦公用戶組。Log.txt為用戶上網(wǎng)日志文件。

2.2 數(shù)據(jù)分析方法

要對數(shù)據(jù)進(jìn)行分析，首先要將這些數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。因?yàn)樽畛醌@得的數(shù)據(jù)是.txt形式的，所以要利用某種語言(如Java)編寫的代碼將其導(dǎo)入數(shù)據(jù)庫的表中，或者直接利用某個軟件直接將其導(dǎo)入庫中，如Microsoft SQL Server 2000 Enterprise Edition。本次分析采用SPSS 15.0 for Windows。

3 數(shù)據(jù)預(yù)處理

(1) Log.txt數(shù)據(jù)導(dǎo)入首先將Log.txt利用SPSS導(dǎo)入表中，可以發(fā)現(xiàn)總共有389 348條記錄，每條記錄的格式如圖2所示。其中的屬性分別為用戶IP、用戶名、訪問時間戳、端口、訪問方法、訪問內(nèi)容(即URL) 、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送方式。在導(dǎo)入時，此日志是以空格作為分隔符的。

(2) User.txt數(shù)據(jù)導(dǎo)入 User.txt導(dǎo)入后的格式如圖3所示，其中共有1 703條記錄，屬性分別為用戶名(userid)和用戶組名(groupid)。其中：102代表研究生組，103代表本科生組，1 04代表教職工組，105代表辦公用戶組。

4 數(shù)據(jù)挖掘

4.1 用戶上網(wǎng)日志文件的分析

[JP1]將Log.txt導(dǎo)入表中后，發(fā)現(xiàn)其中有一些屬性如端口、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送方式等在挖掘過程中是幾乎沒有用途的，所以可以將它們略去以節(jié)省資源。圖4所示為用戶上網(wǎng)頻數(shù)統(tǒng)計圖。

從圖4中可以發(fā)現(xiàn)user1601至user1728之間有一用戶上網(wǎng)頻數(shù)遙遙領(lǐng)先于其他用戶。再查頻數(shù)統(tǒng)計表可以發(fā)現(xiàn)此用戶為user1660，其上網(wǎng)頻數(shù)為11 959 ，占全部用戶總頻數(shù)的3.1%。從user表中可以查出此用戶屬于104組(教職工組)。

對user1 660的上網(wǎng)記錄進(jìn)行分析，可以發(fā)現(xiàn)其記錄是按照秒為單位進(jìn)行計時的。此用戶瀏覽的網(wǎng)址多以 .gif結(jié)尾，且包含一些政府部門的網(wǎng)站，可以推斷出：由于平時工作的繁忙，該教師于2006年11月10日(周六休息日)在家或辦公室瀏覽一些新聞及圖片，了解國內(nèi)外的時事政治；此用戶還訪問了一些論壇的網(wǎng)站，可以推斷該教師可能比較喜歡在論壇上和朋友們一起對某時事或觀點(diǎn)發(fā)表言論；網(wǎng)站中還包含有“taobao”，推斷該教師可能喜歡網(wǎng)上購物，所以會訪問諸如“淘寶”這類的大型網(wǎng)上購物網(wǎng)站。

4.2 用戶信息文件的分析

表1所示為用戶信息頻數(shù)統(tǒng)計表，從表中看出用戶組除了有103至1 05外，還包含有1、14、61、101、108和65 534，這些組共包含記錄15條。將這15條記錄當(dāng) 作錯誤信息處理。剩下的1 688條記錄中， 103(本科生組)的用戶最多，共731條，占總用戶的42 .9%；其次是104(教職工組)，共569條，占總用戶的33.4%；102(研究生組)共299條，占17.6 %；105(辦公用戶組)共89條，占5.2%。

從這個表中可以發(fā)現(xiàn)本科生的上網(wǎng)用戶數(shù)最多，可以分析是由兩個原因造成的：一是本科生在全校的人數(shù)最多，所占比例較大；二是2006年11月10日當(dāng)天為周六休息日，學(xué)生不用上課，所以網(wǎng)絡(luò)用戶較多。其次是教職工組用戶，由于周六不是工作時間，所以這組用戶所占比重居第二。辦公用戶組所占比重最小，因?yàn)橹芰皇寝k公時間，大多數(shù)工作人員都休息。

表2是用CHAID方法分析的決策樹模型信息摘要表。因?yàn)橛涗浱?多，所以只能抽樣對其進(jìn)行分析。從抽取的樣本中可以看出，大多數(shù)用戶上網(wǎng)時間較短?？?能因?yàn)楫?dāng)時是10/Nov/2006(周六)，大多數(shù)用戶都會選擇周末給自己放個假，放松一星期上班或上學(xué)疲憊的身心。預(yù)測隨著時間漸晚直到周日，上網(wǎng)用戶數(shù)會增長，用戶上網(wǎng)時間也會增加。

5 結(jié)論

數(shù)據(jù)挖掘是在大量數(shù)據(jù)中由未知去發(fā)現(xiàn)知識，屬于挖掘型分析的范疇。挖掘型分析又分為描述性分析和預(yù)測型分析。描述性分析用于了解系統(tǒng)實(shí)際數(shù)據(jù)存在的特性，其目的是為預(yù)測做準(zhǔn)備。預(yù)測型分析是在描述性分析得到結(jié)論的基礎(chǔ)上對系統(tǒng)的發(fā)展進(jìn)行估計，通過預(yù) 測型分析得到最終需要的結(jié)果，能夠?yàn)闆Q策者提供直接的依據(jù)［1］85。

描述性分析包含了關(guān)聯(lián)分析、序列分析、聚類分析和濾除分析等方法。預(yù)測型分析包含分類型預(yù)測和統(tǒng)計回歸型預(yù)測。分類型預(yù)測是對某個事物可能歸屬于某個類別的概率進(jìn)行度量。回歸型預(yù)測是指預(yù)測一個變量值的變化。預(yù)測型分析常用的數(shù)學(xué)模型包括：決策樹模型、規(guī)則推理模型和神經(jīng)元網(wǎng)絡(luò)模型［1］86。本文采用的是決策樹模型中的CHAID方法。

參考文獻(xiàn)：

［1］林宇等.數(shù)據(jù)倉庫原理與實(shí)踐［M］.北京：人民郵電出版社,2003：83-86 .

［2］米紅,張文璋.實(shí)用現(xiàn)代統(tǒng)計分析方法與SPSS應(yīng)用［M］.北京：當(dāng)代中國出版社,2000：14-15.

［3］高祥寶,董寒青.數(shù)據(jù)分析與SPSS應(yīng)用［M］.北京：清華大學(xué)出版社,2007.

［4］陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘［M］.北京：人民郵電出版社,2004.

［5］陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)［M］.北京.電子工業(yè)出版社,2002.

(責(zé)任編輯：李麗)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種某高校網(wǎng)絡(luò)用戶上網(wǎng)形式的數(shù)據(jù)挖掘方法