国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種某高校網(wǎng)絡(luò)用戶上網(wǎng)形式的數(shù)據(jù)挖掘方法

2008-04-26 03:32
關(guān)鍵詞:數(shù)據(jù)挖掘

康 健

摘 要: 數(shù)據(jù)挖掘是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)某些模型和數(shù)據(jù)間關(guān)系的過程。如 何根據(jù)用戶上網(wǎng)日志發(fā)現(xiàn)用戶感興趣的信息和資源,幫助網(wǎng)絡(luò)中心科學(xué)地管理和規(guī)范其網(wǎng)絡(luò) 用戶,已經(jīng)成為一個迫切的問題。本文通過問題陳述、數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和 結(jié)論幾個步驟用SPSS軟件對某高校某一時段的網(wǎng)絡(luò)用戶上網(wǎng)日志進(jìn)行分析,為科學(xué)的網(wǎng)絡(luò)管 理提供依據(jù)。

關(guān)鍵詞:數(shù)據(jù)挖掘; SPSS; 上網(wǎng)日志

中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-1098(2008)03-0069-04

數(shù)據(jù)挖掘是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的過程 ,它已經(jīng)成為各行各業(yè)對數(shù)據(jù)進(jìn)行分析的不可或缺的手段。過去,各企業(yè)、政府部門、學(xué)校 、科研機(jī)構(gòu)等往往投入大量資金去收集和存儲數(shù)據(jù),并把很多精力都放在提高存儲效率上。 事實(shí)上,在這些海量數(shù)據(jù)中,只有一部分是有用的。現(xiàn)在,越來越多的企業(yè)認(rèn)識到,從他們 的客戶信息中挖掘出最有價值客戶,或者從這些信息中找出客戶消費(fèi)的某種規(guī)律,要比存儲 大量的歷史數(shù)據(jù)更有價值。 這就是數(shù)據(jù)挖掘(data mining), 即在“數(shù)據(jù)”的礦山中挖掘 出“金塊”。 數(shù)據(jù)挖掘可以在幫助企業(yè)減少不必要投資風(fēng)險的同時提高資金收益, 它給企 業(yè)帶來的回報幾乎是無止境的。

數(shù)據(jù)挖掘是一個利用各種分析工具在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和 關(guān)系可以用來做出預(yù)測[1]83。其程序一般包括:陳述和闡明問題、數(shù)據(jù)搜集、數(shù) 據(jù)預(yù)處理、模型評估、解釋模型和得出結(jié)論。具體過程如圖1數(shù)據(jù)挖掘過程所示。本文也將 根據(jù)這個流程,利用統(tǒng)計專業(yè)軟件SPSS對某高校網(wǎng)絡(luò)用戶上網(wǎng)行為模式進(jìn)行分析。

1 SPSS簡介

SPSS(Statistical Package for the Social Science,社會科學(xué)統(tǒng)計軟件包)。 是為了強(qiáng)調(diào)它在社會科學(xué)應(yīng)用的一面(因?yàn)樯鐣?學(xué)研究中的許多現(xiàn)象都是隨機(jī)的,要使用統(tǒng)計學(xué)來進(jìn)行研究),而實(shí)際上廣泛應(yīng)用于經(jīng)濟(jì)學(xué) 、社會學(xué)、生物學(xué)、教育學(xué)、心理學(xué)、醫(yī)學(xué)以及體育、工業(yè)、農(nóng)業(yè)、林業(yè)、商業(yè)和金融等各 個領(lǐng)域[2]14。

SPSS集數(shù)據(jù)錄入、資料編輯、數(shù)據(jù)管理、統(tǒng)計分析、報表制作、圖形繪制為一體。SPS S統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線 性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類。SPSS也有專 門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形[2]15。

目前為止,SPSS已具有適合于DOS、Windows、Unix、Macintosh、OS/2等多種操作系統(tǒng) 使用的產(chǎn)品,本文使用的是Windows版本。

2 問題陳述

自從某高校校園網(wǎng)開通以來,其網(wǎng)絡(luò)用戶都是通過計費(fèi)上網(wǎng)的。這就使該校網(wǎng)絡(luò)中心 積累了大量的用戶上網(wǎng)日志,數(shù)據(jù)量不斷地迅速膨脹。 這些數(shù)據(jù)猶如茫茫的信息海洋,能 否 從中了解這些表面毫無關(guān)聯(lián)的數(shù)據(jù)之間是否存在或多或少的關(guān)系?怎樣才能找到這些關(guān)系并 運(yùn)用到網(wǎng)絡(luò)管理中呢?例如,能否有助于發(fā)現(xiàn)上網(wǎng)成癮而影響學(xué)習(xí)的同學(xué),為輔導(dǎo)員做好學(xué) 生工作提供幫助;對上網(wǎng)時間過長的用戶加以適當(dāng)限制等。這就是數(shù)據(jù)挖掘要做的工作。

本文會利用用戶信息文件User.txt和用戶上網(wǎng)日志文件Log.txt對網(wǎng)絡(luò)用戶的上網(wǎng)行為 模式進(jìn)行分析。

2.1 數(shù)據(jù)搜集

本文是對兩個數(shù)據(jù)文件進(jìn)行分析的,分別是用戶信息文件User.txt和用戶上網(wǎng)日志文 件Log.txt。其中User.txt 為用戶信息文件,主要包括:用戶名和用戶所在的用戶組,其中 102代表研究生組,103代表本科生組,104代表教職工組,105代表辦公用戶組。Log.txt為 用戶上網(wǎng)日志文件。

2.2 數(shù)據(jù)分析方法

要對數(shù)據(jù)進(jìn)行分析,首先要將這些數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中。因?yàn)樽畛醌@得的數(shù)據(jù)是.txt形 式的,所以要利用某種語言(如Java)編寫的代碼將其導(dǎo)入數(shù)據(jù)庫的表中,或者直接利用某個 軟件直接將其導(dǎo)入庫中,如Microsoft SQL Server 2000 Enterprise Edition。本次分析 采用SPSS 15.0 for Windows。

3 數(shù)據(jù)預(yù)處理

(1) Log.txt數(shù)據(jù)導(dǎo)入 首先將Log.txt利用SPSS導(dǎo)入表中,可以發(fā)現(xiàn)總共有389 348條記 錄,每條記錄的格式如圖2所示。其中的屬性分別為用戶IP、用戶名、訪問時間戳、端口、 訪問方法、訪問內(nèi)容(即URL) 、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送方式。在導(dǎo)入時,此日 志是以空格作為分隔符的。

(2) User.txt數(shù)據(jù)導(dǎo)入 User.txt導(dǎo)入后的格式如圖3所示,其中共有1 703條記錄,屬性分 別為用戶名(userid)和用戶組名(groupid)。其中:102代表研究生組,103代表本科生組,1 04代表教職工組,105代表辦公用戶組。

4 數(shù)據(jù)挖掘

4.1 用戶上網(wǎng)日志文件的分析

[JP1]將Log.txt導(dǎo)入表中后,發(fā)現(xiàn)其中有一些屬性如端口、版本、提交和發(fā)送的數(shù)據(jù)包以及傳送 方式等在挖掘過程中是幾乎沒有用途的,所以可以將它們略去以節(jié)省資源。圖4所示為用戶 上網(wǎng)頻數(shù)統(tǒng)計圖。

從圖4中可以發(fā)現(xiàn)user1601至user1728之間有一用戶上網(wǎng)頻 數(shù)遙遙領(lǐng)先于其他用戶。再查頻數(shù)統(tǒng)計表可以發(fā)現(xiàn)此用戶為user1660,其上網(wǎng)頻數(shù)為11 959 ,占全部用戶總頻數(shù)的3.1%。從user表中可以查出此用戶屬于104組(教職工組)。

對user1 660的上網(wǎng)記錄進(jìn)行分析,可以發(fā)現(xiàn)其記錄是按照秒為單位進(jìn)行計時的。此用戶瀏覽 的網(wǎng)址多以 .gif結(jié)尾,且包含一些政府部門的網(wǎng)站,可以推斷出:由于平時工作的繁 忙,該教師于2006年11月10日(周六休息日)在家或辦公室瀏覽一些新聞及圖片,了解國內(nèi)外的時事政治;此用戶還訪問了一些論壇的網(wǎng)站,可以推斷該教師可能比較喜歡在論壇 上和朋友們一起對某時事或觀點(diǎn)發(fā)表言論;網(wǎng)站中還包含有“taobao”,推斷該教師可能喜 歡網(wǎng)上購物,所以會訪問諸如“淘寶”這類的大型網(wǎng)上購物網(wǎng)站。

4.2 用戶信息文件的分析

表1所示為用戶信息頻數(shù)統(tǒng)計表,從表中看出用戶組除了有103至1 05外,還包含有1、14、61、101、108和65 534,這些組共包含記錄15條。將這15條記錄當(dāng) 作 錯誤信息處理。 剩下的1 688條記錄中, 103(本科生組)的用戶最多, 共731條, 占總用 戶的42 .9%;其次是104(教職工組),共569條,占總用戶的33.4%;102(研究生組)共299條,占17.6 %;105(辦公用戶組)共89條,占5.2%。

從這個表中可以發(fā)現(xiàn)本科生的上網(wǎng)用戶數(shù)最多,可以分析是由兩個原因造成的:一是 本科生在全校的人數(shù)最多,所占比例較大;二是2006年11月10日當(dāng)天為周六休息日,學(xué)生不 用上課,所以網(wǎng)絡(luò)用戶較多。其次是教職工組用戶,由于周六不是工作時間,所以這組用戶 所占比重居第二。辦公用戶組所占比重最小,因?yàn)橹芰皇寝k公時間,大多數(shù)工作人員都休 息。

表2是用CHAID方法分析的決策樹模型信息摘要表。因?yàn)橛涗浱?多,所以只能抽樣對其進(jìn)行分析。從抽取的樣本中可以看出,大多數(shù)用戶上網(wǎng)時間較短???能因?yàn)楫?dāng)時是10/Nov/2006(周六),大多數(shù)用戶都會選擇周末給自己放個假,放松一星期上 班或上學(xué)疲憊的身心。預(yù)測隨著時間漸晚直到周日,上網(wǎng)用戶數(shù)會增長,用戶上網(wǎng)時間也會 增加。

5 結(jié)論

數(shù)據(jù)挖掘是在大量數(shù)據(jù)中由未知去發(fā)現(xiàn)知識,屬于挖掘型分析的范疇。挖掘型分析又 分為描述性分析和預(yù)測型分析。描述性分析用于了解系統(tǒng)實(shí)際數(shù)據(jù)存在的特性,其目的是為 預(yù)測做準(zhǔn)備。預(yù)測型分析是在描述性分析得到結(jié)論的基礎(chǔ)上對系統(tǒng)的發(fā)展進(jìn)行估計,通過預(yù) 測型分析得到最終需要的結(jié)果,能夠?yàn)闆Q策者提供直接的依據(jù)[1]85。

描述性分析包含了關(guān)聯(lián)分析、序列分析、聚類分析和濾除分析等方法。預(yù)測型分析包 含分類型預(yù)測和統(tǒng)計回歸型預(yù)測。分類型預(yù)測是對某個事物可能歸屬于某個類別的概率進(jìn)行 度量。回歸型預(yù)測是指預(yù)測一個變量值的變化。預(yù)測型分析常用的數(shù)學(xué)模型包括:決策樹模 型、規(guī)則推理模型和神經(jīng)元網(wǎng)絡(luò)模型[1]86。本文采用的是決策樹模型中的CHAID方 法。

參考文獻(xiàn):

[1] 林宇等.數(shù)據(jù)倉庫原理與實(shí)踐[M].北京:人民郵電出版社,2003:83-86 .

[2] 米紅,張文璋.實(shí)用現(xiàn)代統(tǒng)計分析方法與SPSS應(yīng)用[M].北京:當(dāng)代中國出 版社,2000:14-15.

[3] 高祥寶,董寒青.數(shù)據(jù)分析與SPSS應(yīng)用[M].北京:清華大學(xué)出版社,2007.

[4] 陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004.

[5] 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京.電子工業(yè)出版社,2002.

(責(zé)任編輯:李 麗)

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
元朗区| 谷城县| 绩溪县| 林西县| 蓬溪县| 华安县| 安国市| 湛江市| 察哈| 全南县| 清涧县| 肥乡县| 福州市| 肇庆市| 道孚县| 拉孜县| 长兴县| 杨浦区| 东至县| 新余市| 句容市| 四平市| 唐山市| 叶城县| 始兴县| 黑山县| 出国| 淅川县| 疏附县| 秭归县| 固安县| 南靖县| 册亨县| 巍山| 苏州市| 永城市| 中江县| 乐都县| 河北省| 报价| 南投县|