趙 文 霍旭輪
(三亞航空旅游職業(yè)學(xué)院,海南 三亞 572000)
隨著信息技術(shù)的發(fā)展,在高校信息管理中將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校網(wǎng)絡(luò)維護(hù)管理、教學(xué)資源管理和教務(wù)管理等方面已經(jīng)成為一種重要的手段。其中,在高校網(wǎng)絡(luò)維護(hù)管理方面,應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)于網(wǎng)絡(luò)故障進(jìn)行診斷,找出導(dǎo)致故障發(fā)生的原因,提高網(wǎng)絡(luò)運(yùn)維的效率,對(duì)于高校網(wǎng)絡(luò)健康發(fā)展具有非常重要的現(xiàn)實(shí)意義。
高校網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)是保障高校校園網(wǎng)絡(luò)服務(wù)質(zhì)量的主要系統(tǒng)之一,其能夠準(zhǔn)確并及時(shí)地應(yīng)對(duì)各類(lèi)網(wǎng)絡(luò)故障,保證高校網(wǎng)絡(luò)的服務(wù)水平。高校網(wǎng)絡(luò)具有典型的用戶特征、數(shù)據(jù)交換特點(diǎn)和網(wǎng)絡(luò)應(yīng)用需求,因此高校網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)主要是對(duì)用戶運(yùn)維管理、網(wǎng)絡(luò)資源運(yùn)行管理和網(wǎng)絡(luò)資源監(jiān)控管理。其中,用戶運(yùn)維管理是用戶可以自助開(kāi)通和變更服務(wù)內(nèi)容和狀態(tài);網(wǎng)絡(luò)資源運(yùn)行管理是對(duì)校內(nèi)的IP地址資源、網(wǎng)絡(luò)設(shè)備資源、設(shè)備設(shè)置信息、應(yīng)用服務(wù)資源進(jìn)行管理;網(wǎng)絡(luò)資源監(jiān)控管理是對(duì)網(wǎng)絡(luò)路由拓?fù)錉顟B(tài)、入網(wǎng)設(shè)備位置追蹤、網(wǎng)絡(luò)設(shè)備監(jiān)控系統(tǒng)和應(yīng)用服務(wù)監(jiān)控系統(tǒng)管理。
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉(cāng)庫(kù)提取具有潛在價(jià)值的信息,經(jīng)過(guò)加工計(jì)算發(fā)現(xiàn)規(guī)律,進(jìn)而為決策做出可靠性判斷。數(shù)據(jù)挖掘的前提要保證被挖掘的數(shù)據(jù)具有一定的規(guī)模、挖掘模型具有復(fù)雜性、數(shù)據(jù)變量具有離散性和挖掘算法評(píng)價(jià)的有效性。數(shù)據(jù)挖掘的對(duì)象可以是關(guān)系數(shù)據(jù)庫(kù)中結(jié)構(gòu)化的數(shù)據(jù),也可以是時(shí)間序列、多媒體、互聯(lián)網(wǎng)數(shù)據(jù)等半結(jié)構(gòu)化或者異構(gòu)型數(shù)據(jù)。數(shù)據(jù)挖掘的過(guò)程經(jīng)歷了數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的挖掘和數(shù)據(jù)結(jié)果應(yīng)用三個(gè)階段,首先對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行篩選,得到目標(biāo)數(shù)據(jù),再經(jīng)過(guò)預(yù)處理和變換得到規(guī)范數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,最后對(duì)數(shù)據(jù)做出解釋或評(píng)價(jià)得到所需要的知識(shí)。
數(shù)據(jù)挖掘是一門(mén)交叉性的技術(shù),針對(duì)不同的對(duì)象挖掘的方法可形式不同,因此數(shù)據(jù)挖掘算法種類(lèi)非常多,常見(jiàn)的算法主要包括:遺傳算法、關(guān)聯(lián)規(guī)則算法、決策樹(shù)算法、時(shí)序算法、BP神經(jīng)網(wǎng)絡(luò)算法等。本文所研究的數(shù)據(jù)挖掘技術(shù)在高校網(wǎng)絡(luò)運(yùn)維管理中的應(yīng)用主要采用了決策樹(shù)、關(guān)聯(lián)規(guī)則、時(shí)間序列三種算法。
決策樹(shù)算法是根據(jù)事件發(fā)生的數(shù)據(jù)進(jìn)行歸納學(xué)習(xí),進(jìn)而進(jìn)行預(yù)測(cè)建模的算法。決策樹(shù)算法的挖掘過(guò)程經(jīng)歷了數(shù)據(jù)的預(yù)處理、構(gòu)建決策樹(shù)模型、樣本集驗(yàn)證和預(yù)測(cè)分析四個(gè)過(guò)程。數(shù)據(jù)的預(yù)處理是對(duì)數(shù)據(jù)集進(jìn)行整合、清洗、規(guī)范化和離散;構(gòu)建決策樹(shù)模型是創(chuàng)建決策樹(shù),并對(duì)決策樹(shù)訓(xùn)練樣本數(shù)據(jù)集;樣本集驗(yàn)證是對(duì)決策樹(shù)模型輸入樣本集,通過(guò)歸納或者分類(lèi)判斷決策樹(shù)的可靠性;預(yù)測(cè)分析利用決策樹(shù)模型得到預(yù)測(cè)的結(jié)果,并對(duì)結(jié)果進(jìn)行分析。
關(guān)聯(lián)規(guī)則算法是描述事件之間的關(guān)聯(lián)性的一種算法,其表 現(xiàn) 形 式 為。 如 果 設(shè)是項(xiàng)的集合,與任務(wù)相關(guān)的數(shù)據(jù)集為D,集合T是數(shù)據(jù)集中的每個(gè)事務(wù)T?I,規(guī)則A?B的支持度為,置 信 度 為,支持度和置信度的值越大則關(guān)聯(lián)性越高。
時(shí)序算法是通過(guò)時(shí)間序列分析作出未知的預(yù)測(cè),假設(shè)已知時(shí)間序列{X}在{1到m-1}的歷史時(shí)刻觀測(cè)值為{X1,X2,…,Xm-1},那么對(duì)未來(lái)時(shí)刻m+l(≥1)的值Xm+1進(jìn)行預(yù)測(cè),l=1則進(jìn)行單步預(yù)測(cè),l>1則進(jìn)行多步預(yù)測(cè)。在時(shí)序算法中,本文運(yùn)用了回歸滑動(dòng)平均算法,該算法是預(yù)測(cè)時(shí)間序列常用的算法之一,該算法原理是利用數(shù)據(jù)間的自相關(guān)性通過(guò)歷史騷動(dòng)和歷史值對(duì)影響系統(tǒng)預(yù)測(cè)值的因素進(jìn)行分析,原理公式表達(dá)為:
其中p和q為模型階數(shù),xm+l和是m+l時(shí)刻的真實(shí)值與預(yù)測(cè)值,{εt}為白噪聲序列,φi和θj為模型的待估參數(shù)。
基于數(shù)據(jù)挖掘技術(shù)的高校網(wǎng)絡(luò)運(yùn)維管理模型要求能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)錯(cuò)誤或者缺失的數(shù)據(jù)進(jìn)行清理,并采用決策樹(shù)、關(guān)聯(lián)規(guī)則和時(shí)序算法進(jìn)行多層次的挖掘,實(shí)現(xiàn)網(wǎng)絡(luò)故障信息的挖掘和對(duì)數(shù)據(jù)挖掘結(jié)果的查詢(xún)與展示。
數(shù)據(jù)倉(cāng)庫(kù)是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ),根據(jù)高校網(wǎng)絡(luò)運(yùn)維管理特點(diǎn)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)包括數(shù)據(jù)源層、數(shù)據(jù)獲取層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)分析層。數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)數(shù)據(jù)包括用戶信息、網(wǎng)絡(luò)故障處理信息、基于時(shí)序的網(wǎng)絡(luò)故障統(tǒng)計(jì)信息和網(wǎng)絡(luò)故障類(lèi)型信息與診斷信息。這些數(shù)據(jù)信息中一部分存在數(shù)據(jù)不一致、數(shù)據(jù)不完整、數(shù)據(jù)重復(fù)等問(wèn)題,為此要對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和加載操作,也就是ETL(Extract-Transform-Load)處理。數(shù)據(jù)處理完成后構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),根據(jù)高校網(wǎng)絡(luò)運(yùn)維管理特征建立故障分析事實(shí)表、學(xué)生信息維表、網(wǎng)絡(luò)故障信息維表、網(wǎng)絡(luò)故障統(tǒng)計(jì)信息維表。故障分析事實(shí)表如表1所示:
表1 故障分析事實(shí)表
學(xué)生信息維表如表2所示:
表2 學(xué)生信息維表
網(wǎng)絡(luò)故障信息維表如表3所示:
表3 網(wǎng)絡(luò)故障信息維表
網(wǎng)絡(luò)故障統(tǒng)計(jì)信息維表如表4所示:
表4 網(wǎng)絡(luò)故障統(tǒng)計(jì)信息維表
決策樹(shù)挖掘是利用決策樹(shù)算法對(duì)網(wǎng)絡(luò)故障信息的關(guān)系和規(guī)律進(jìn)行分析,找出導(dǎo)致網(wǎng)絡(luò)故障發(fā)生的因素。其挖掘過(guò)程主要包括四個(gè)步驟:一是創(chuàng)建項(xiàng)目及選擇數(shù)據(jù)源;二是選擇屬性;三是創(chuàng)建挖掘結(jié)構(gòu);四是挖掘處理并建立挖掘模型。
創(chuàng)建項(xiàng)目及選擇數(shù)據(jù)源可以采用SQLServer Data Tools for Visual Studio工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的特定數(shù)據(jù)表建立數(shù)據(jù)源視圖;選擇被預(yù)處理過(guò)的網(wǎng)絡(luò)故障信息表中的故障編號(hào)、網(wǎng)絡(luò)故障類(lèi)型、故障診斷結(jié)果等屬性進(jìn)行處理;運(yùn)用決策樹(shù)算法進(jìn)行挖掘,將網(wǎng)絡(luò)故障類(lèi)型作為輸入變量,故障診斷結(jié)果作為預(yù)測(cè)變量,建立挖掘模型,得到?jīng)Q策樹(shù)依賴(lài)關(guān)系網(wǎng)絡(luò)。
關(guān)聯(lián)規(guī)則挖掘是利用關(guān)聯(lián)規(guī)則算法對(duì)網(wǎng)絡(luò)故障因素之間的關(guān)聯(lián)性進(jìn)行挖掘,發(fā)現(xiàn)潛在的故障危機(jī),從而降低網(wǎng)絡(luò)故障的發(fā)生率。其挖掘過(guò)程包括創(chuàng)建挖掘結(jié)構(gòu)和建立挖掘模型。創(chuàng)建挖掘結(jié)構(gòu)是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的預(yù)處理網(wǎng)絡(luò)故障信息表中的報(bào)修人、故障診斷結(jié)果、學(xué)生信息表中的學(xué)號(hào)等屬性進(jìn)行關(guān)聯(lián)規(guī)則算法計(jì)算,分別設(shè)置支持度參數(shù)和置信度參數(shù),支持度參數(shù)可以控制算法生成的項(xiàng)集數(shù),置信度參數(shù)可以限制模型生成的規(guī)則數(shù)目,進(jìn)行處理后查看挖掘結(jié)果。
時(shí)序挖掘是依據(jù)歷史記錄進(jìn)行預(yù)測(cè),采用連續(xù)的時(shí)間段統(tǒng)計(jì)的故障類(lèi)型作為數(shù)據(jù)基礎(chǔ),預(yù)測(cè)未來(lái)網(wǎng)絡(luò)故障發(fā)生的概率和原因。其挖掘過(guò)程包括創(chuàng)建挖掘結(jié)構(gòu)和建立挖掘模型。創(chuàng)建挖掘結(jié)構(gòu)選擇數(shù)據(jù)倉(cāng)庫(kù)預(yù)處理過(guò)的網(wǎng)絡(luò)故障統(tǒng)計(jì)信息表中故障發(fā)生的數(shù)量、故障發(fā)生的日期、故障發(fā)生的區(qū)域和類(lèi)型等屬性進(jìn)行處理,運(yùn)用時(shí)序算法選擇時(shí)間范圍,將網(wǎng)絡(luò)故障發(fā)生數(shù)量設(shè)置為輸入變量和預(yù)測(cè)變量,將故障統(tǒng)計(jì)時(shí)間、區(qū)域和類(lèi)型聯(lián)合設(shè)置為鍵列,設(shè)置時(shí)間序列重復(fù)疊加時(shí)間間隔參數(shù)、時(shí)間軸參數(shù)等通過(guò)挖掘模型查看其挖掘結(jié)果。
本文以某高校網(wǎng)絡(luò)運(yùn)維管理為例,該校2008年建立網(wǎng)絡(luò)運(yùn)維管理系統(tǒng),系統(tǒng)為了保證高校網(wǎng)絡(luò)服務(wù)質(zhì)量,主要功能包括網(wǎng)絡(luò)設(shè)備的監(jiān)控、網(wǎng)絡(luò)故障的報(bào)修和網(wǎng)絡(luò)故障的處理等。經(jīng)過(guò)十年的故障信息數(shù)據(jù)積累,已經(jīng)形成了龐大的、有價(jià)值的數(shù)據(jù)庫(kù),可以作為基于數(shù)據(jù)挖掘技術(shù)的高校網(wǎng)絡(luò)運(yùn)維管理分析源數(shù)據(jù)。采用ASP.NET平臺(tái)進(jìn)行開(kāi)發(fā),ADOMD.NET分析服務(wù)數(shù)據(jù)訪問(wèn)接口和開(kāi)放XMLA協(xié)議與分析服務(wù)器通信,調(diào)用本文的預(yù)測(cè)模型使用DMX質(zhì)量查詢(xún)數(shù)據(jù)挖掘結(jié)果。
采用決策樹(shù)算法對(duì)數(shù)據(jù)進(jìn)行分類(lèi),獲得的缺失事例數(shù)為0,由此可以判定決策樹(shù)挖掘的數(shù)據(jù)具有完整性,ETL數(shù)據(jù)處理的結(jié)果符合數(shù)據(jù)質(zhì)量要求,決策樹(shù)挖掘結(jié)果如圖1所示。
圖1 決策樹(shù)挖掘結(jié)果
由圖1可知,導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定的主要因素“接入層交換機(jī)因素”的概率最高,事例達(dá)到2413件,進(jìn)而縮小了網(wǎng)絡(luò)故障診斷的范圍,提高了故障排除的效率。
關(guān)聯(lián)規(guī)則挖掘是通過(guò)數(shù)據(jù)層面的挖掘表現(xiàn)事務(wù)之間的關(guān)聯(lián)關(guān)系。例如:在高校網(wǎng)絡(luò)運(yùn)維管理中,因感染病毒而導(dǎo)致的網(wǎng)絡(luò)異常非常常見(jiàn),但是要準(zhǔn)確判斷病毒導(dǎo)致網(wǎng)絡(luò)故障的具體原因則非常困難,如果采用全盤(pán)查殺非常耗時(shí),所以通過(guò)大數(shù)據(jù)挖掘來(lái)判定病毒入侵的方式和感染的位置對(duì)于快速處理網(wǎng)絡(luò)故障具有非常好的效果。本文針對(duì)決策樹(shù)挖掘結(jié)果“接入層交換機(jī)因素”的關(guān)聯(lián)關(guān)系進(jìn)行雙向預(yù)測(cè),接入層交換機(jī)工作不穩(wěn)定所關(guān)聯(lián)的關(guān)系主要有計(jì)算機(jī)系統(tǒng)問(wèn)題、網(wǎng)卡故障、室內(nèi)網(wǎng)絡(luò)模塊損壞、認(rèn)證客戶端故障、網(wǎng)絡(luò)病毒攻擊、網(wǎng)卡工作不穩(wěn)定、認(rèn)證客戶端版本問(wèn)題和網(wǎng)絡(luò)連接會(huì)話數(shù)超過(guò)限制閾值等,將所有關(guān)聯(lián)關(guān)系連接按照強(qiáng)弱篩選,結(jié)果如圖2所示,“接入層交換機(jī)因素”與“網(wǎng)絡(luò)連接會(huì)話數(shù)超過(guò)限值閾值”雙向關(guān)聯(lián),并且關(guān)聯(lián)強(qiáng)度最大,所以得到的挖掘結(jié)果是可以提供控制網(wǎng)絡(luò)連接會(huì)話數(shù)量和合理設(shè)置網(wǎng)絡(luò)連接會(huì)話數(shù)閾值的方式預(yù)防接入層交換機(jī)工作不穩(wěn)定問(wèn)題的發(fā)生。關(guān)聯(lián)規(guī)則挖掘是通過(guò)對(duì)網(wǎng)絡(luò)問(wèn)題關(guān)聯(lián)關(guān)系的分析找到關(guān)聯(lián)強(qiáng)度最大的因素,分析出潛在的風(fēng)險(xiǎn),進(jìn)而能夠提前做出預(yù)防措施降低故障發(fā)生的概率。
圖2 關(guān)聯(lián)規(guī)則挖掘結(jié)果
將高校網(wǎng)絡(luò)運(yùn)維管理的數(shù)據(jù)按照時(shí)間區(qū)分,選擇2008年10月28日至2018年4月28日的連續(xù)時(shí)間數(shù)據(jù)進(jìn)行挖掘,得到的挖掘結(jié)果如圖3所示,該數(shù)據(jù)存在連續(xù)的時(shí)間軸維度,在以往的數(shù)據(jù)中9月是網(wǎng)絡(luò)故障集中的高發(fā)期,這是與學(xué)生結(jié)束假期回校學(xué)習(xí)的時(shí)間規(guī)律相吻合。
圖3 時(shí)序挖掘結(jié)果
本文通過(guò)構(gòu)建高校網(wǎng)絡(luò)故障信息數(shù)據(jù)倉(cāng)庫(kù),利用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)故障信息進(jìn)行挖掘,介紹了三種在高校網(wǎng)絡(luò)運(yùn)維管理中應(yīng)用廣泛的數(shù)據(jù)挖掘方式,包括網(wǎng)絡(luò)故障決策樹(shù)挖掘、網(wǎng)絡(luò)故障關(guān)聯(lián)規(guī)則挖掘和網(wǎng)絡(luò)故障時(shí)序挖掘,三種數(shù)據(jù)挖掘方式對(duì)于高校網(wǎng)絡(luò)運(yùn)維管理具有非常重要的應(yīng)用價(jià)值,能夠準(zhǔn)確判斷故障發(fā)生的原因,并找到導(dǎo)致故障發(fā)生的因素,進(jìn)而能夠提前做出預(yù)防措施降低故障發(fā)生的概率。同時(shí),又能夠判斷出高校網(wǎng)絡(luò)故障高發(fā)的時(shí)間,便于維護(hù)人員提前做好運(yùn)維準(zhǔn)備工作。在高校網(wǎng)絡(luò)運(yùn)維管理中,數(shù)據(jù)挖掘技術(shù)具有很好的應(yīng)用效果。今后還需要對(duì)算法進(jìn)行不斷的優(yōu)化,以提高數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。