唐生枝
【摘 要】數(shù)據(jù)挖掘和數(shù)據(jù)融合是兩種分析處理海量數(shù)據(jù)、提取有用知識的技術(shù)。兩者的目標和原理各不相同,但功能上相互補充,可進行深層次的結(jié)合滲透,有效地完成復(fù)雜的數(shù)據(jù)分析工作。文章以網(wǎng)絡(luò)安全應(yīng)用中的網(wǎng)絡(luò)故障管理實例,分析了兩者集成運用的優(yōu)勢。
【關(guān)鍵詞】數(shù)據(jù)融合,數(shù)據(jù)挖掘,知識發(fā)現(xiàn)
【中圖分類號】 C37【文獻標識碼】A【文章編號】1672-5158(2013)07-0172-01
在信息時代,信息量的爆炸式增長使得信息的獲取、傳輸、存儲、轉(zhuǎn)換等信息處理技術(shù)得到了長足進步。數(shù)據(jù)融合與數(shù)據(jù)挖掘作為信息處理技術(shù)兩大分支在這一過程中萌生,并得到了人們的重視和研究。
數(shù)據(jù)融合源于傳感器技術(shù)的發(fā)展,是幫助人們處理復(fù)雜多變的外部環(huán)境產(chǎn)生的信息,評估環(huán)境狀態(tài)和目標信息,對戰(zhàn)局和威脅的提供全面和及時的信息處理技術(shù)。數(shù)據(jù)挖掘用以幫助人們從積累的“過量信息”中,擷取事先未知的潛在有用的信息和知識的信息處理技術(shù)。
一、網(wǎng)絡(luò)故障管理系統(tǒng)中應(yīng)用
隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)的數(shù)量得到了蓬勃發(fā)展。為了更好的對網(wǎng)絡(luò)進行有效的管理,及時排除網(wǎng)絡(luò)故障,讓網(wǎng)絡(luò)持續(xù)穩(wěn)定地運行將數(shù)據(jù)融合作為,網(wǎng)絡(luò)故障的管理也就有著突出的重要性。
將數(shù)據(jù)融合作為數(shù)據(jù)挖掘的數(shù)據(jù)準備階段,在網(wǎng)絡(luò)故障管理方面,二者合理的結(jié)合使用,利用數(shù)據(jù)融合技術(shù)分析網(wǎng)絡(luò)運行中產(chǎn)生的狀態(tài)數(shù)據(jù),處理結(jié)果形成數(shù)據(jù)集,在這個數(shù)據(jù)集的基礎(chǔ)上利用數(shù)據(jù)挖掘技術(shù),獲得安全規(guī)則,發(fā)現(xiàn)異常,判斷網(wǎng)絡(luò)故障。系統(tǒng)結(jié)構(gòu)如圖所示。
① 數(shù)據(jù)融合模塊
網(wǎng)絡(luò)故障管理系統(tǒng)中數(shù)據(jù)融合模塊是對網(wǎng)絡(luò)中多處來源的數(shù)據(jù)進行處理和組合,從而產(chǎn)生新的有意義的信息。這里的多處來源的數(shù)據(jù)是指網(wǎng)絡(luò)運行中產(chǎn)生的描述網(wǎng)絡(luò)運行的狀態(tài)信息。
網(wǎng)絡(luò)管理中的數(shù)據(jù)具有多源性、分布性、異構(gòu)性的特點,它們主要來自網(wǎng)絡(luò)的數(shù)據(jù)、系統(tǒng)日志、網(wǎng)絡(luò)管理查詢信息等。而另一方面,目前數(shù)據(jù)挖
掘一般對象是靜態(tài)的數(shù)據(jù)集,解決這些矛盾的方法是數(shù)據(jù)挖掘和數(shù)據(jù)融合技術(shù)集成。
網(wǎng)絡(luò)故障信息中的告警數(shù)據(jù)是含噪聲的、并且大量都是重復(fù)的。主要包括告警丟失、錯亂、延遲以及重復(fù)告警、誤告警等方面。利用數(shù)據(jù)融合的關(guān)聯(lián)技術(shù),根據(jù)數(shù)據(jù)之間的相似性,將來源數(shù)據(jù)進行處理,以減少重復(fù)數(shù)據(jù)的數(shù)量。
② 數(shù)據(jù)挖掘模塊
在網(wǎng)絡(luò)管理的數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則和序列模式是最常見的挖掘知識,二者挖掘知識的角度不同。關(guān)聯(lián)規(guī)則是從網(wǎng)絡(luò)告警信息中發(fā)現(xiàn)告警與告警之間、告警與故障之間、告警與業(yè)務(wù)之間的相關(guān)性,即在一個告警信息發(fā)生之后,另一個告警、故障、業(yè)務(wù)發(fā)生的可能性。而序列模式把告警信息序列看作以時間為主線的有序序列,在一定的時間間隔內(nèi)挖掘知識,注重告警信息的時間性。
在數(shù)據(jù)挖掘階段,網(wǎng)絡(luò)的管理者必須對系統(tǒng)設(shè)置相應(yīng)的參數(shù),這些參數(shù)用于描述網(wǎng)絡(luò)的運行狀態(tài)。例如當(dāng)某項低于或者高于某一值時,認為網(wǎng)絡(luò)該方面產(chǎn)生故障。并且根據(jù)值的大小,采取不同的措施,發(fā)出告警信息或者僅寫入日志。有時還要根據(jù)參數(shù)值的時間變化,分析故障產(chǎn)生的概率。對于不同的參數(shù),挖掘算法得出的結(jié)果和提示都不盡相同,因此系統(tǒng)的性能對人工干預(yù)的程度有著依賴性。
二、應(yīng)用分析
在網(wǎng)絡(luò)管理系統(tǒng)應(yīng)用中,數(shù)據(jù)融合模塊與數(shù)據(jù)挖掘模塊處于串聯(lián)處理關(guān)系,兩者位置不能夠顛倒,首先由數(shù)據(jù)融合模塊對來源數(shù)據(jù)進行數(shù)據(jù)處理,形成相應(yīng)的數(shù)據(jù)集,提供給數(shù)據(jù)挖掘模塊使用、分析。
參考文獻
[1] 習(xí)慧丹.數(shù)據(jù)挖掘研究綜述.電腦與信息技術(shù),2012(1)
[2] 王惠中,彭安群.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢.工礦自動化,2011(2)
[3] 孟珍偉,杜友福,秦建超.現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展.中國科技信息,2007(2)