米熱古麗·克比爾
摘要:校園網是一種開放的網絡環(huán)境,用戶群體的行為十分活躍,多樣化的用戶行為使校園網的管理非常復雜。數(shù)據(jù)挖掘技術可以從海量數(shù)據(jù)中抽取相關知識,并對用戶行為進行分類。本文將數(shù)據(jù)挖掘技術用于校園網用戶行為分析,得到用戶使用校園網絡的行為模式,可以為校園網的建設、流量分析以及相關決策提供依據(jù)。
關鍵詞:數(shù)據(jù)挖掘;用戶行為分析;K-means算法
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)22-0145-02
1 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),目的是從網絡上的海量數(shù)據(jù)中快速提取有用的信息;一般而言,數(shù)據(jù)挖掘技術有如下特點[1]:(1)海量數(shù)據(jù)。數(shù)據(jù)挖掘面向的數(shù)據(jù)量很大,所以如何高效地存取數(shù)據(jù),并從大量數(shù)據(jù)中找到存在于這些數(shù)據(jù)中的關系,是首先要考慮的問題。(2)不確定性。應用于數(shù)據(jù)挖掘的數(shù)據(jù)多數(shù)是為特定目的而收集的數(shù)據(jù),但是收集數(shù)據(jù)時可能會遺漏重要的變量,而遺漏的變量可能在做數(shù)據(jù)挖掘時時至關重要的,因此未知性以及不確定性可能會存在于數(shù)據(jù)挖掘的全過程。(3)先驗知識的失真性。從事數(shù)據(jù)挖掘的人員可能不希望“假設檢驗”的存在,即不太愿意將其先驗知識預先內置于數(shù)據(jù)挖掘算法中。
要得到良好的數(shù)據(jù)挖掘效果,就必須對海量數(shù)據(jù)進行采集、預處理和優(yōu)化,優(yōu)化過程可能需要經常重復一些步驟。原始數(shù)據(jù)的采集是數(shù)據(jù)挖掘的第一步,此過程中產生的費用會占整個數(shù)據(jù)挖掘系統(tǒng)相當大的比重;為確保得到良好的數(shù)據(jù)挖掘效果,就不得不采集足夠多的原始數(shù)據(jù)。采集后的數(shù)據(jù)要進行抽樣和清理:抽樣過程會從大量的元素數(shù)據(jù)中,提取出有代表性的數(shù)據(jù)作為樣本數(shù)據(jù);并不是所有的數(shù)據(jù)對數(shù)據(jù)挖掘都是有用的,異常數(shù)據(jù)、沖突數(shù)據(jù)等都會對數(shù)據(jù)挖掘產生不良影響,清理過程的目的就是去掉噪聲數(shù)據(jù)、矛盾數(shù)據(jù)等不適合訓練和學習的數(shù)據(jù)。數(shù)據(jù)經過預處理和優(yōu)化后,隨之形成數(shù)據(jù)倉庫,此時即可應用各種數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘的算法多種多樣,具體哪種算法合適要根據(jù)實際情況而定;同一種數(shù)據(jù)挖掘算法可能只適合特定的應用環(huán)境。根據(jù)數(shù)據(jù)挖掘過程中是否需要指導,可以將數(shù)據(jù)挖掘算法分為有指導的學習和無指導的學習兩類。無監(jiān)督的學習過程又被稱為聚類分析,聚類過程中不會標記樣本,而是需要通過聚類算法自動確定;樣本數(shù)據(jù)不會經過訓練即可被劃分為若干類。分類算法利用判別函數(shù)將樣本數(shù)據(jù)劃分為若干簇,此算法的本質目的是通過訓練方法得到判別函數(shù)。
經典的數(shù)據(jù)挖掘算法包括[2]:(1)決策樹算法。作為一種典型的分類方法,決策樹算法先借助歸納算法生成決策樹(可讀的規(guī)則),然后再使用決策樹分析新數(shù)據(jù);它是從機器學習領域發(fā)展成的一種分類函數(shù)逼近方法,其核心是構造精度高、規(guī)模小的決策樹。構造決策樹分為生成決策樹和決策樹的剪枝兩步。(2)神經網絡算法。用于模擬人的邏輯思維并根據(jù)邏輯規(guī)則進行推理。神經網絡算法先把數(shù)據(jù)信息化為可以用符號表示的概念,接下來根據(jù)符號運算進行邏輯推理。推理過程可以寫成串行的指令交由程序執(zhí)行。(3)統(tǒng)計分析方法。在使用其他的數(shù)據(jù)挖掘方法之前,可以先嘗試使用統(tǒng)計分析方法來解決問題。通過對某些指標的分析,可以反映數(shù)據(jù)存在的差異和變化;常用的統(tǒng)計分析方法有假設檢驗,回歸分析以及方差分析等。(4)樸素貝葉斯分類。樸素貝葉斯方法源于古典數(shù)學理論,只需要很少的參數(shù)即可對數(shù)據(jù)進行分類,并且對缺失數(shù)據(jù)也不太敏感。貝葉斯公式常用于表示不確定性,所以樸素貝葉斯方法是一種研究不確定性的方法。(5)K-means聚類方法。這是一種基于距離的聚類算法,認為相似度大的兩個數(shù)據(jù)間的距離也越近。K-means算法首先選取任意k個數(shù)據(jù)作為初始聚類的中心,然后在此基礎上進行分類;這k個聚類中心點的選取對聚類結果的影響很大。
2 校園網用戶行為的分析
用戶網絡行為指的是大量用戶在使用多種多樣的網絡資源過程中,所表現(xiàn)出來的規(guī)律性行為。目前我國網絡用戶已高達1.2億,其中校園網用戶占很大一部分,而尚在校園中的學生的世界觀、人生觀等很容易受到網絡不良環(huán)境的影響,因此有必要掌握和了解校園網用戶的行為。另外,掌握校園網用戶行為對改進校園網絡設計、增強校園網用戶的體驗有重要的現(xiàn)實意義。
用戶的網絡行為可以分為溝通交流類、信息獲取類以及電子服務類等。溝通交流類的用戶行為指的是校園網用戶間借助即時通訊軟件、電子郵件等進行交流;另外,校園網是一個重要的信息獲取平臺,校園網用戶可以獲取教學資源、課表信息、課表、成績學分信息等;除此之外,還可以通過校園網實現(xiàn)獎學金申請及發(fā)放、選修課程、借閱圖書等服務。校園網用戶的行為是如此多種多樣,以至于用傳統(tǒng)的技術很難以得到校園網用戶的行為模型。
目前國內對校園網用戶行為的分析還處于起步階段,一般是對服務器中的數(shù)據(jù)進行分析,并解析用戶的行為特征。用戶網絡行為的分析方法無非如下幾種[3]:(1)記憶web日志的方法。校園網服務器中會記錄用戶的網絡行為日志,通過分析客戶端的請求頁面等信息,可以利用已有的行為數(shù)據(jù)預測未來的校園網絡行為。(2)基于IP地址和點擊率的方法。網絡層的源IP、目的IP的不同組合對分析用戶網絡行為會有所幫助;而基于點擊率的方法可以用于分析校園網的哪些鏈接經常被點擊,影響點擊的因素有哪些等?;赪eb日志的方法可以把握整個校園網絡的流量、使用情況等,但由于這些數(shù)據(jù)來源對客戶端的IP、訪問時間等有很大的依賴,加之數(shù)據(jù)比較單一,所以無法實現(xiàn)對訪問過程中造成的流量關系等比較細節(jié)的數(shù)據(jù)信息?;贗P地址和點擊率的方法中縮短訪問時間、優(yōu)化頁面等方面有所成效,但無法確切地把握整體的網絡性能。數(shù)據(jù)挖掘技術能夠良好的解決上述問題,合理的數(shù)據(jù)挖掘模型可以在宏觀上指導整體的網絡性能分析。
為了數(shù)據(jù)挖掘技術進行聚類工作,需要對校園網用戶進行整體的分類,然后再依據(jù)不同用戶在使用校園網過程中的時長、流量以及偏好等進行大量分析和實驗,最終得到用戶行為模型。按照校園網用戶角色的不同,可以將校園網用戶分為學生和教職工兩類,學生用戶又分為辦公區(qū)及宿舍區(qū),教職工用戶又分為辦公區(qū)及家屬區(qū)用戶,不同地區(qū)的用戶可能有不同的使用偏好[4]。作為校園網用戶的主要組成部分,學生用戶又可以按照不同分類標準劃分為不同的群體;例如,可以按照年級和學歷進行劃分。學生的學號中含有進入學校的年度,可以據(jù)此進行年級的劃分;研究生以及本科生的學號也有所不同,因此可以根據(jù)學號對校園網用戶進行多角度分析。
要全面的分析校園網用戶的使用行為,可以根據(jù)不同時間段、在線時長、網絡流量以及訪問鏈接等進行全面分析。分析不同時間段的校園網用戶在線情況,能夠從宏觀上了解整個校園網的使用情況。在沒有將數(shù)據(jù)挖掘技術應用到校園用戶行為分析中時,校園網絡管理人員需要提取某一時間段內的用戶數(shù)據(jù),然后人工進行分析。
3 數(shù)據(jù)挖掘在用戶行為分析中的應用
校園網絡的管理人員在進行決策時,一個重要的依據(jù)是反映校園網絡行為的歷史數(shù)據(jù);但將海量的數(shù)據(jù)都提供給網絡人員并不現(xiàn)實,傳統(tǒng)的行為分析方式單純依靠人工對大量數(shù)據(jù)進行分析,這無疑低效而且不可靠。數(shù)據(jù)挖掘技術解決了傳統(tǒng)的數(shù)據(jù)庫技術難以從海量數(shù)據(jù)中獲得有價值信息的難題,在將數(shù)據(jù)挖掘技術應用于校園網用戶行為分析時,可以遵循如下的通用模型[5]:
校園網用戶行為分析的對象是具有正常行為的“活躍人群”,在用戶模式未知的情況下,統(tǒng)計方法不再可用,因此只能使用聚類方法。用戶行為的不同參數(shù)間可能有一定的關聯(lián),比如一個用戶的在線時間、網絡流量等都是有聯(lián)系的,而其中的聯(lián)系會受到用戶習慣的影響,所以使用數(shù)據(jù)挖掘方法進行聚類分析時不能忽視這些內在聯(lián)系。實際挖掘過程中,需要在大量數(shù)據(jù)的基礎上進行聚類,從中得到用戶模式,然后使用統(tǒng)計分析方法分析用戶模式中已知的項,最終結合統(tǒng)計分析的結果得到最終的聚類結果。
在用數(shù)據(jù)挖掘對校園網個體及群體用戶的行為特征進行分析時,可以從以下方面入手:網絡使用時間、不同地區(qū)的使用情況、相同時間內使用各協(xié)議的用戶數(shù)等。分析校園網用戶行為的基礎是獲取可靠的分析數(shù)據(jù)源,數(shù)據(jù)流可能在短時間內大量到達,而且具有隨時間動態(tài)變化的趨勢,所以在獲取分析數(shù)據(jù)源時,需要結合不同情況采取不同方法[6]:(1)流量統(tǒng)計法。路由器等網絡設備都具備流量統(tǒng)計功能,所以可以記錄所有校園網流量的地址信息、數(shù)據(jù)包流量信息,然后定期讀取并分析。雖然這種統(tǒng)計方法的結果比較準確,但由于流量統(tǒng)計會占用大量路由器內存,所以可能對網絡性能有一定的負面影響。(2)實時數(shù)據(jù)采集。端口鏡像技術解決了流量統(tǒng)計方法對網絡的延時問題,可以實時獲取網絡上的數(shù)據(jù)。
本文在實際應該過程中,為了合理分配校園網的帶寬資源并進行流量控制,采購并安裝使用了網絡層的流量管理設備——Netmizer。利用Netmizer采集到的校園網絡數(shù)據(jù)是由數(shù)據(jù)包組成的,對這些數(shù)據(jù)包進行解析后判斷它們的協(xié)議類型及格式。數(shù)據(jù)包的內容包括:數(shù)據(jù)包的協(xié)議類型(TCP、ARP以及IP等)、源IP地址和目的IP地址、源端口以及目的端口等。當把數(shù)據(jù)包解析到應用層的時候,就可以根據(jù)應用層協(xié)議的特征庫進行協(xié)議識別,從而找到要分析的原始數(shù)據(jù)。
得到用戶行為分析的原始數(shù)據(jù)后,需要去掉其中的噪聲數(shù)據(jù),中消除重復記錄的基礎上進行數(shù)據(jù)類型轉換。用戶在訪問校園網時,基于同樣的目的可能存在大量重復數(shù)據(jù),為得到確切的挖掘效果,可以合并這些重復記錄。校園網一般都采用網關登錄方式,這樣可以保證用戶及其對應的IP是一對一的,可以將一個IP訪問相同地址的重復數(shù)據(jù)合并為一條記錄。另外,數(shù)據(jù)挖掘算法對數(shù)據(jù)類型有一定的要求,而且不同的算法可能要求不同;本文在對用戶網絡行為進行分析時,將協(xié)議數(shù)據(jù)轉換為易于分析的數(shù)據(jù)類型,避免了后續(xù)的噪聲數(shù)據(jù)問題。
校園網的流量按照功能上可以分為上課學習、管理科研等目的,按照數(shù)據(jù)流向可以分為校園內部訪問、校內訪問校外以及校外訪問校內。本文使用VLAN劃分不同的校園網用戶群。不論哪種用戶群,對數(shù)據(jù)的分析工作都可以按照不同的時間段展開:小時、天、工作日及休息日等。以小時為單位可以分析當天的網絡使用特征,得到當天各個時間段內使用網絡的校園網用戶在線人數(shù)及變化趨勢,知曉當天學生的工作學習情況等。一天為單位進行分析可以得到校園網在比較長的一段時間內的網絡使用情況。與此同時,比對工作日和休息日的使用時間,可以分析休息日和工作日的用戶群在使用校園網上的人數(shù)差異。最后,可以在對上述三個方面進行縱向分析的基礎上,做橫向的比對。
4 總結
數(shù)據(jù)挖掘技術在很多領域得到廣泛應用,校園網用戶行為分析是一個典型的方面。本文首先介紹了數(shù)據(jù)挖掘技術,包括數(shù)據(jù)挖掘技術的特點、典型的數(shù)據(jù)挖掘算法等;然后分析了校園網用戶行為及傳統(tǒng)的用戶行為分析方法;最后在此基礎上將數(shù)據(jù)挖掘技術應用于校園網用戶行為分析,得到校園網用戶行為模型。相信本文對掌握校園網用戶行為、改進校園網絡設計以及增強校園網用戶的體驗有重要的現(xiàn)實意義。
參考文獻:
[1] 牛凱.Web數(shù)據(jù)挖掘在校園網搜索引擎系統(tǒng)中的應用研究[J].電腦開發(fā)與應用,2014-01-25.
[2] 姜亞南.數(shù)據(jù)挖掘在校園網用戶網絡行為分析的應用研究[D].河南理工大學,2013-10-01.
[3] 周清清,郭鑫.基于Web的數(shù)據(jù)挖掘在校園網教學資源共享系統(tǒng)的研究與應用[J].電腦知識與技術,2014-07-05
[4] 付永貴.基于數(shù)據(jù)挖掘技術的校園網電子交易平臺分析[J].山西科技,2013-11-20.
[5] 王家鑫.基于數(shù)據(jù)挖掘的校園網用戶網絡行為分析[J].數(shù)字技術與應用,2014-11-15.
[6] 申淑平.數(shù)據(jù)挖掘技術在校園網入侵檢測中的應用研究[J].信息與電腦(理論版),2015-10-15.