薛黎明 欒維新
摘 要: 高校網(wǎng)絡(luò)管理部門在運(yùn)行管理過(guò)程中積累了大量用戶上網(wǎng)行為數(shù)據(jù),對(duì)用戶上網(wǎng)行為進(jìn)行整理分析將能掌握用戶上網(wǎng)習(xí)慣、規(guī)律,科學(xué)有效地制定上網(wǎng)管理策略。以一具體高校為例,通過(guò)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行預(yù)處理,抽取相應(yīng)字段構(gòu)建分析數(shù)據(jù)集,通過(guò)圖表形式對(duì)上網(wǎng)登錄時(shí)間進(jìn)行統(tǒng)計(jì)展示。以上網(wǎng)時(shí)長(zhǎng)為指標(biāo)值,分別使用K-均值聚類與Kohonen神經(jīng)網(wǎng)絡(luò)聚類方法對(duì)上網(wǎng)記錄進(jìn)行聚類分析,得到聚類結(jié)果。結(jié)合用戶信息,以用戶與上網(wǎng)記錄的對(duì)應(yīng)準(zhǔn)則作為判斷聚類效果的準(zhǔn)則,對(duì)兩種聚類方式得到的結(jié)果進(jìn)行比較,選擇合適的結(jié)果。結(jié)合計(jì)算結(jié)果對(duì)實(shí)驗(yàn)單位的上網(wǎng)情況進(jìn)行分析,對(duì)上網(wǎng)管理策略提出建議。
關(guān)鍵詞: Kohonen神經(jīng)網(wǎng)絡(luò); 高校網(wǎng)絡(luò)管理; 上網(wǎng)行為; 上網(wǎng)管理策略
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)07?0029?04
Abstract: The network management departments in universities have accumulated users′ mass online behavior data in ope?ration management process, which can master users′ online habit and regular pattern by reorganizing and analyzing the users′ online behavior, and formulate the online management strategy scientifically and effectively. A specific college is taken as the example, the users′ online data is preprocessed, and corresponding field is extracted to built the analysis dataset. The online login time is showed in graphic form after statistics. By taking online time as the index value, the clustering analysis for the online record is conducted with K?means clustering and Kohonen neural network clustering methods to obtain the clustering results. In combination with the user information, the results obtained from the two clustering methods are compared by taking corresponding criterion of user and online record as the criterion to judge the clustering effect, and the suitable result is selected. The online condition of the experimental unit is analyzed with the computed results to propose some suggestions for online management strategy.
Keywords: Kohonen neural network; university network management; online behavior; online management strategy
0 引 言
信息技術(shù)的高速發(fā)展,不但對(duì)人們的生產(chǎn)生活產(chǎn)生了巨大的影響,同時(shí)也給傳統(tǒng)的學(xué)校教育帶來(lái)了很大的沖擊[1]。隨著互聯(lián)網(wǎng)應(yīng)用的普及,網(wǎng)絡(luò)用戶數(shù)量快速增加。對(duì)國(guó)內(nèi)高校而言,互聯(lián)網(wǎng)已成為學(xué)校師生學(xué)習(xí)、工作、生活的基本需求,網(wǎng)絡(luò)用戶幾乎覆蓋了學(xué)校100%的人員。高校用戶具有知識(shí)性強(qiáng),使用互聯(lián)網(wǎng)積極性高,信息交互量大等特點(diǎn),對(duì)聯(lián)網(wǎng)速率、網(wǎng)絡(luò)穩(wěn)定性都提出了較高要求。而由于我國(guó)高校網(wǎng)絡(luò)用戶連接互聯(lián)網(wǎng)大多通過(guò)學(xué)校統(tǒng)一網(wǎng)絡(luò)管理部門出口連接互聯(lián)網(wǎng),對(duì)高校而言,互聯(lián)網(wǎng)出口帶寬是有限的,網(wǎng)絡(luò)管理部門在響應(yīng)用戶的上網(wǎng)需求時(shí),有較大壓力。為解決相關(guān)問(wèn)題,各高校網(wǎng)絡(luò)管理部門也采取了一定措施。一方面,通過(guò)技術(shù)手段優(yōu)化學(xué)校網(wǎng)絡(luò)結(jié)構(gòu),升級(jí)網(wǎng)絡(luò)設(shè)備,提高網(wǎng)絡(luò)可用性;另一方面,通過(guò)出臺(tái)相應(yīng)的管理措施利用經(jīng)濟(jì)與行政手段對(duì)用戶上網(wǎng)行為進(jìn)行相應(yīng)引導(dǎo),平衡用戶的聯(lián)網(wǎng)需求。
目前國(guó)內(nèi)的很多高校在校園網(wǎng)的運(yùn)營(yíng)管理上都會(huì)使用一些應(yīng)用服務(wù)器,主要用于認(rèn)證計(jì)費(fèi)、入侵檢測(cè)、流量監(jiān)控等方面。在提供服務(wù)的同時(shí),也產(chǎn)生了大量的日志數(shù)據(jù)存儲(chǔ)于后臺(tái)數(shù)據(jù)庫(kù)中。這些數(shù)據(jù)包含著整個(gè)校園網(wǎng)內(nèi)部用戶的使用狀況。如果能對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)有效的分析,并對(duì)分析結(jié)果加以合理利用,將會(huì)對(duì)整個(gè)網(wǎng)絡(luò)管理起到很大的推進(jìn)作用[2],為網(wǎng)絡(luò)管理進(jìn)行有效支撐,為決策科學(xué)化、管理精細(xì)化提供幫助。本文以一具體高校為案例,對(duì)用戶上網(wǎng)行為進(jìn)行分析,找到相應(yīng)規(guī)律,根據(jù)相應(yīng)指標(biāo)對(duì)用戶進(jìn)行分類,為用戶分組,制定用戶管理決策提供幫助。
1 數(shù)據(jù)抽取與分析
D校在進(jìn)行用戶鏈接互聯(lián)網(wǎng)管理過(guò)程中,用戶通過(guò)專用客戶端軟件登錄的方式登錄互聯(lián)網(wǎng),網(wǎng)絡(luò)管理部門對(duì)用戶的登錄上線時(shí)間、退出下線時(shí)間,登錄總時(shí)長(zhǎng)等都有專門數(shù)據(jù)庫(kù)進(jìn)行記錄。每一次登錄在后臺(tái)都會(huì)出現(xiàn)一條記錄。由于運(yùn)行數(shù)據(jù)庫(kù)相對(duì)龐大,表之間關(guān)系較為復(fù)雜,數(shù)據(jù)結(jié)構(gòu)多樣,為方便分析,從運(yùn)行的上網(wǎng)數(shù)據(jù)庫(kù)中提取與教工用戶上網(wǎng)時(shí)間相關(guān)的字段,構(gòu)造上網(wǎng)時(shí)間分析表進(jìn)行分析,如表1所示。
從圖1可以看出,每天大約6點(diǎn)鐘后開(kāi)始有少量教工登錄互聯(lián)網(wǎng),在早8:00—9:00間達(dá)到高峰。在中午下班前11:00—12:00間登錄人次降低。中午休息及下午上班前(12:00—14:00)登錄人次較中午休息前增加,臨近下班登錄人次降低,下班后登錄互聯(lián)網(wǎng)人次相對(duì)穩(wěn)定但低于上班期間數(shù)量。
2 上網(wǎng)時(shí)長(zhǎng)聚類
聚類(Clustering)是數(shù)據(jù)挖掘中一種重要的挖掘方法,它是將物理或抽象對(duì)象進(jìn)行分組并將相似對(duì)象歸為一類的過(guò)程[3]。
對(duì)于數(shù)據(jù)庫(kù)中的記錄,上網(wǎng)時(shí)長(zhǎng)字段(TIME_LONG)是指從登陸網(wǎng)絡(luò)到退出網(wǎng)絡(luò)的時(shí)間,上網(wǎng)時(shí)長(zhǎng)指標(biāo)有一定規(guī)律性,為掌握用戶上網(wǎng)行為,科學(xué)制定用戶上網(wǎng)管理策略,下面對(duì)用戶每次登陸的上網(wǎng)時(shí)長(zhǎng)進(jìn)行分析。
K?均值算法是一種基于劃分的聚類算法,它通過(guò)不斷的迭代來(lái)進(jìn)行聚類,當(dāng)算法收斂到一個(gè)結(jié)束條件時(shí)就終止迭代過(guò)程,輸出聚類結(jié)果。由于其算法思想簡(jiǎn)便,因此K?均值算法己成為一種最常用的聚類算法之一。
使用K?均值聚類算法對(duì)一學(xué)院教工上網(wǎng)時(shí)長(zhǎng)記錄進(jìn)行聚類,根據(jù)樣本數(shù)量,設(shè)置聚類個(gè)數(shù)為4個(gè),經(jīng)過(guò)聚類,四個(gè)類的聚類中心分別為:聚類1,中心為3.51;聚類2,中心1.19;聚類3,中心44.25;聚類4,中心72.86。
為每條記錄增加一個(gè)字段,表示該條記錄所屬的類別。按上網(wǎng)時(shí)長(zhǎng)排序的聚類結(jié)果如表2所示。
Kohonen網(wǎng)絡(luò)是自組織競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的一種,它能夠識(shí)別環(huán)境特征并自動(dòng)聚類[4],該網(wǎng)絡(luò)為無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),能夠識(shí)別環(huán)境特征并自動(dòng)聚類。該方法用迭代算法優(yōu)化目標(biāo)函數(shù)來(lái)獲取對(duì)數(shù)據(jù)集的分類。
聚類結(jié)果如表3所示。
3 聚類結(jié)果比較與策略分析
對(duì)照原始數(shù)據(jù)發(fā)現(xiàn),一個(gè)用戶每天可以頻繁多次登陸退出網(wǎng)絡(luò),在有聯(lián)網(wǎng)需要的時(shí)候上網(wǎng),不需要上網(wǎng)的時(shí)候及時(shí)退出,待有需要的時(shí)候再次聯(lián)網(wǎng),在這種情況下,對(duì)于同一個(gè)用戶,在數(shù)據(jù)庫(kù)里一天可以有多條記錄。同樣,也存在這樣的情況,有的用戶每天只登陸網(wǎng)絡(luò)一次,待關(guān)機(jī)時(shí)自動(dòng)退出網(wǎng)絡(luò),對(duì)于這樣的用戶,一天只有一條登錄記錄。
對(duì)于絕大多數(shù)用戶,個(gè)人的上網(wǎng)行為是有一定規(guī)律的,而在上述對(duì)上網(wǎng)時(shí)長(zhǎng)進(jìn)行聚類的過(guò)程中并沒(méi)有考慮用戶的因素,這就出現(xiàn)了同一用戶的不同上網(wǎng)記錄被劃分到不同類別的情況,如果上網(wǎng)時(shí)長(zhǎng)相差較大,被分在不同類別是可以理解的,而如果同一個(gè)用戶每次上網(wǎng)時(shí)長(zhǎng)比較接近,且恰巧在聚類邊界點(diǎn)附近,但被劃分在不同類別,那么聚類結(jié)果則不能被很好的理解。
基于這種現(xiàn)象,對(duì)上述兩種聚類方法的聚類效果進(jìn)行評(píng)價(jià)。
評(píng)價(jià)偏好假設(shè):相比于類間距、類內(nèi)距離而言,將同一個(gè)用戶主體距離較近而類別不同的記錄記為一類更有意義。對(duì)不同聚類算法而言,聚類邊界點(diǎn)附近的屬于同一個(gè)用戶但被劃分為不同類別的記錄越少越好。邊界點(diǎn)附近的記錄對(duì)比結(jié)果如表4所示。
在[K?]均值聚類結(jié)果中,200720x2,199610x0,200420x0,200910x9四個(gè)用戶具有在邊界點(diǎn)附近且被劃分為不同類別的記錄,而在Kohonen聚類的邊界點(diǎn)附近卻沒(méi)有類似的數(shù)據(jù)。因此,根據(jù)評(píng)價(jià)偏好,在本例中采用Kohonen聚類方法聚類效果更好,對(duì)實(shí)際數(shù)據(jù)的解釋效果更好。
策略分析:通過(guò)對(duì)用戶上網(wǎng)時(shí)長(zhǎng)進(jìn)行聚類,分析聚類結(jié)果,約70%的上網(wǎng)記錄為第一類,上網(wǎng)時(shí)長(zhǎng)集中在1 h之內(nèi),說(shuō)明對(duì)大部分用戶,都能根據(jù)上網(wǎng)需求,調(diào)整上線時(shí)間,在沒(méi)有上網(wǎng)需求時(shí),主動(dòng)退出互聯(lián)網(wǎng),這也與大部分用戶選擇的按時(shí)上網(wǎng)收費(fèi)策略是相關(guān)的,說(shuō)明相應(yīng)的策略能夠影響用戶的上網(wǎng)行為。
第四類上網(wǎng)記錄數(shù)量不多,但上網(wǎng)時(shí)長(zhǎng)較長(zhǎng)超過(guò)6 h,對(duì)比上網(wǎng)記錄的用戶信息,發(fā)現(xiàn)主要集中在個(gè)別用戶,結(jié)合實(shí)際工作與走訪調(diào)查,發(fā)現(xiàn)上述用戶普遍存在對(duì)上網(wǎng)工具使用不熟悉,不會(huì)主動(dòng)退出網(wǎng)絡(luò),只在關(guān)機(jī)時(shí)自動(dòng)退出網(wǎng)絡(luò)的現(xiàn)象。針對(duì)這種情況,對(duì)此類用戶進(jìn)行有針對(duì)性的上網(wǎng)工具培訓(xùn),同時(shí)在上網(wǎng)管理策略中增加規(guī)則,對(duì)上網(wǎng)時(shí)長(zhǎng)超過(guò)6 h的記錄,通過(guò)消息推送對(duì)用戶進(jìn)行提示,有效引導(dǎo)用戶使用行為。
4 結(jié) 語(yǔ)
本文結(jié)合具體實(shí)例,對(duì)一特定單位網(wǎng)絡(luò)用戶上網(wǎng)時(shí)間數(shù)據(jù)進(jìn)行分析,根據(jù)將同一個(gè)用戶主體距離相近而類別不同的記錄記為一類更有意義的前提假設(shè),對(duì)傳統(tǒng)[K?]均值聚類算法進(jìn)行改進(jìn)。在具體實(shí)例中,結(jié)合記錄中的用戶信息,通過(guò)將同一用戶在邊界點(diǎn)附近且屬于不同類別的記錄調(diào)整為一類,對(duì)聚類邊界點(diǎn)進(jìn)行調(diào)整,改進(jìn)后的聚類結(jié)果對(duì)樣本數(shù)據(jù)有更好的解釋效果。
參考文獻(xiàn)
[1] 仇心榮.淺談高校校園網(wǎng)管理[J].硅谷,2009(13):133?134.
[2] 丁青,周留根,朱愛(ài)兵,等.基于K?Means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計(jì)算機(jī)應(yīng)用,2010,31(6):74?80.
[3] 葉良艷.基于改進(jìn)后的K?Means聚類算法的網(wǎng)吧用戶行為聚類[J].安徽科技學(xué)院學(xué)報(bào),2009,23(4):27?30.
[4] 劉純平.基于Kohonen神經(jīng)網(wǎng)絡(luò)聚類方法在遙感分類中的比較[J].計(jì)算機(jī)仿真,2006,26(7):1744?1746.
[5] 李翔,顧捷.運(yùn)用聚類算法預(yù)測(cè)地區(qū)電網(wǎng)典型日負(fù)荷曲線[J].電力與能源,2013,34(1):47?50.
[6] 馬小惠,陽(yáng)育德,龔利武.基于Kohonen聚類和SVM組合算法的電網(wǎng)日最大負(fù)荷預(yù)測(cè)[J].電網(wǎng)與清潔能源,2014,30(2):7?11.