石可+孟令旸
【摘要】 通信企業(yè)客戶數(shù)量多、數(shù)據(jù)存儲量大、響應(yīng)及時(shí)性要求高,其數(shù)據(jù)倉庫對基于大數(shù)據(jù)的挖掘需求強(qiáng)烈。基于上述需求,提出數(shù)據(jù)挖掘在應(yīng)用的方法,用以提高其運(yùn)營效率。
【關(guān)鍵詞】 數(shù)據(jù)挖掘 大數(shù)據(jù) 通信企業(yè) 應(yīng)用
通信企業(yè)具有客戶數(shù)量多、數(shù)據(jù)規(guī)模大、數(shù)據(jù)及時(shí)性需求高等特點(diǎn)。應(yīng)用數(shù)據(jù)挖掘技術(shù)對通信企業(yè)收集到的數(shù)據(jù)進(jìn)行建??梢詭椭髽I(yè)對現(xiàn)有的運(yùn)維、計(jì)費(fèi)、市場中的運(yùn)營進(jìn)行深度研究,得到系統(tǒng)存在的問題、用戶支付情況等信息,為企業(yè)改善自身系統(tǒng)提供新的支撐。具體來講,通信企業(yè)可以通過數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)系統(tǒng)故障管理、系統(tǒng)計(jì)費(fèi)管理和用戶管理。
一、數(shù)據(jù)挖掘在故障管理系統(tǒng)中的應(yīng)用
1.1 網(wǎng)絡(luò)故障管理系統(tǒng)概述
故障管理是通信企業(yè)網(wǎng)絡(luò)管理的重要組成部分,故障管理是否有效直接關(guān)系到整個(gè)網(wǎng)絡(luò)的可靠性,其目的是迅速發(fā)現(xiàn)和糾正整個(gè)網(wǎng)絡(luò)的告警故障,維護(hù)網(wǎng)絡(luò)的可用性。通常需要對故障時(shí)間點(diǎn)附近所有告警進(jìn)行分析才能夠發(fā)現(xiàn)故障的根本原因,數(shù)據(jù)呈現(xiàn)告警數(shù)據(jù)庫巨大、數(shù)據(jù)具有關(guān)聯(lián)性和告警數(shù)據(jù)的關(guān)聯(lián)性只能反映系統(tǒng)當(dāng)前狀態(tài)等特點(diǎn)。故障管理系統(tǒng)的特點(diǎn)決定了使用關(guān)聯(lián)模型不僅可發(fā)現(xiàn)告警數(shù)據(jù)的關(guān)聯(lián)性還能夠高效地更新和維護(hù)已經(jīng)出現(xiàn)的數(shù)據(jù)和數(shù)據(jù)間的聯(lián)系規(guī)則。
1.2數(shù)據(jù)挖掘方法的應(yīng)用
1.2.1 重復(fù)項(xiàng)增量挖掘
重復(fù)項(xiàng)增量挖掘是關(guān)聯(lián)模型應(yīng)用中的一個(gè)基本問題。由于并非每條告警都表示某故障的根本原因,需要對告警數(shù)據(jù)進(jìn)行規(guī)則處理,將多個(gè)告警合并成一個(gè)包含更多信息量的告警,以便確定反應(yīng)故障根本原因的告警,從而對故障進(jìn)行定位。然而對所有數(shù)據(jù)進(jìn)行分析處理數(shù)據(jù)量過大,導(dǎo)致系統(tǒng)效率低下,因此需要通過設(shè)置反映需要監(jiān)測的告警數(shù)據(jù)頻繁程度的支持門限實(shí)現(xiàn)重復(fù)項(xiàng)增量挖掘。支持門限增大算法效率會提高,但會減少處理的告警項(xiàng)目;支持門限減少算法執(zhí)行效率會下降,但可以處理更多的告警項(xiàng)目。因此需要針對用戶需要不斷調(diào)整支持門限,并采用不同算法來對數(shù)據(jù)進(jìn)行處理。當(dāng)需處理的數(shù)據(jù)為日常事件、常規(guī)數(shù)據(jù)時(shí),可采用CHARM算法,使用混合搜索策略跳過樹的多層進(jìn)行重復(fù)項(xiàng)搜索,提高搜索效率;若處理故障性數(shù)據(jù)時(shí),通常采用BODHI算法,通過數(shù)據(jù)間的關(guān)聯(lián)和削減,確定關(guān)鍵數(shù)據(jù),然后判斷系統(tǒng)故障節(jié)點(diǎn)[1]。
1.2.2 告警增加時(shí)增量挖掘
隨著告警數(shù)據(jù)增加,已有挖掘結(jié)果也會受影響,此前所用模型可能不再適用。為保證規(guī)則有效性需要及時(shí)應(yīng)對數(shù)據(jù)更新帶來的變化,但若每次都不利用現(xiàn)有結(jié)果而重新發(fā)現(xiàn)所有數(shù)據(jù),將會造成巨大浪費(fèi)。
本文發(fā)現(xiàn),若每次增加相同數(shù)據(jù)集,則支持門限越小,性能提高越顯著;若支持門限相同,則數(shù)據(jù)集增加量減少,性能提高越顯著。此時(shí)可采用PADMAN算法[2],該算法復(fù)雜度取決于支持門限以確定的重復(fù)項(xiàng)個(gè)數(shù),而跟數(shù)據(jù)量大小關(guān)系不大,在支持低門限條件下,算法對稠密數(shù)據(jù)庫性能改善更為顯著。從重復(fù)數(shù)據(jù)項(xiàng)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的經(jīng)典算法是APRIORI規(guī)則產(chǎn)生算法[3],其可從重復(fù)數(shù)據(jù)中發(fā)現(xiàn)所有滿足支持門限和置信門限的強(qiáng)關(guān)聯(lián)規(guī)則。
二、數(shù)據(jù)挖掘在計(jì)費(fèi)管理系統(tǒng)中的應(yīng)用
2.1網(wǎng)絡(luò)計(jì)費(fèi)管理系統(tǒng)概述
計(jì)費(fèi)管理也是通信企業(yè)網(wǎng)絡(luò)管理的重要組成部分,計(jì)費(fèi)管理的有效性直接關(guān)系到通信企業(yè)計(jì)費(fèi)結(jié)算業(yè)務(wù)是否能夠平穩(wěn)開展。計(jì)費(fèi)管理主要提供賬單查詢等各種收費(fèi)報(bào)表的查詢統(tǒng)計(jì),為企業(yè)各種服務(wù)決策提供數(shù)據(jù)支持。隨著計(jì)費(fèi)管理越來越多的業(yè)務(wù)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行全方位的提取和分析,進(jìn)而進(jìn)一步分析用戶行為,并定期總結(jié)用戶流量信息。
2.2 計(jì)費(fèi)管理系統(tǒng)中的數(shù)據(jù)挖掘方法
2.2.1 關(guān)聯(lián)挖掘
應(yīng)用關(guān)聯(lián)模型發(fā)現(xiàn)諸如IP端口使用頻率,IP端口和數(shù)據(jù)包之間等網(wǎng)絡(luò)IP流量之間的關(guān)系。正常行為下,IP-端口的對應(yīng)關(guān)系是多種多樣的,數(shù)據(jù)包的大小也不固定;若應(yīng)用關(guān)聯(lián)挖掘模型測出某IP-端口使用率非常高而數(shù)據(jù)包卻不大,則有可能是網(wǎng)絡(luò)攻擊等異常行為。此外,關(guān)聯(lián)挖掘可根據(jù)IP-端口對應(yīng)和數(shù)據(jù)包的使用頻率更變網(wǎng)絡(luò)策略。如“10k-100k,d-80”說明80端口使用率較高,大量用戶在瀏覽網(wǎng)頁,可據(jù)此調(diào)整網(wǎng)絡(luò)策略[4]。
2.2.2 序列挖掘
通過建立時(shí)序模型,連接挖掘項(xiàng)目和時(shí)間,對在線人數(shù)、在線記錄、發(fā)送幀數(shù)、發(fā)送字節(jié)數(shù)、接收幀數(shù)、接收字節(jié)數(shù)等時(shí)間相關(guān)聯(lián)數(shù)據(jù)進(jìn)行處理。時(shí)序模型通過自身的時(shí)間和度量值構(gòu)成二維曲線反映網(wǎng)絡(luò)情況。正常行為下,曲線都是平穩(wěn)有規(guī)律性的;曲線出現(xiàn)抖動、暴增、驟降等,都可以看為不正常行為,可據(jù)此判斷有網(wǎng)絡(luò)故障或存在入侵行為[5]。
2.2.3 分類挖掘
分類挖掘可以幫助網(wǎng)管人員根據(jù)用戶購買的不同業(yè)務(wù)屬性判定用戶喜好。分類模型可組合二維及以上的篩選瀏覽,并可進(jìn)行細(xì)化和匯總,進(jìn)行多重統(tǒng)計(jì)工作[6]。
三、數(shù)據(jù)挖掘在用戶管理系統(tǒng)中的應(yīng)用
3.1用戶管理系統(tǒng)概述
通信領(lǐng)域競爭日趨激烈,企業(yè)除需面對同行之間的競爭,還要面對OTT企業(yè)的進(jìn)入。企業(yè)亟需應(yīng)用數(shù)據(jù)挖掘分析客戶數(shù)據(jù),按照客戶價(jià)值、離網(wǎng)傾向、產(chǎn)品需求和服務(wù)需求等多個(gè)維度分析客戶信息,建立一個(gè)良性的交互平臺系統(tǒng),進(jìn)而有效改善運(yùn)營商服務(wù)水平、改進(jìn)客戶關(guān)系、提升企業(yè)競爭力。
3.2用戶管理系統(tǒng)中的數(shù)據(jù)挖掘方法
3.2.1 用戶細(xì)分
用戶細(xì)分通過分析用戶、潛在用戶的特征,根據(jù)用戶個(gè)體特點(diǎn)、消費(fèi)特性及用戶價(jià)值的不同將現(xiàn)有用戶及存量用戶分解,確定不同的用戶等級并描述。該過程把消費(fèi)群體分成多個(gè)細(xì)分群體,同一細(xì)分群體內(nèi)的用戶具有相似性。通過用戶群體分析,可對用戶行為做出預(yù)測。RFM分析法[7]是管理用戶分析的基本方法,可用于用戶特征細(xì)分。細(xì)分用戶主要基于用戶的消費(fèi)行為,有近量、頻度和消費(fèi)和三個(gè)變量。通過用戶細(xì)分進(jìn)行用戶消費(fèi)解析,運(yùn)用累計(jì)的信息分析用戶價(jià)值,對用戶流失、用戶滿意度、貢獻(xiàn)值、響應(yīng)度、客戶附加需求等做出預(yù)測,提升用戶監(jiān)管水平,提高用戶滿意率,指導(dǎo)企業(yè)研發(fā)銷售。
3.2.2 精準(zhǔn)營銷
通過用戶細(xì)分了解用戶需求,把產(chǎn)品和用戶需求正確連接起來,再通過適合的營銷方式銷售給客戶。應(yīng)用數(shù)據(jù)挖掘?qū)嵤┚珳?zhǔn)營銷的流程[8]主要包括用戶數(shù)據(jù)庫搭建、主表設(shè)計(jì)、用戶分析、特征刻畫、用戶開發(fā)、銷售策劃、目標(biāo)用戶選定、營銷活動準(zhǔn)備、營銷活動和評估改進(jìn)等環(huán)節(jié)。
四、結(jié)束語
綜上所述,本文針對當(dāng)前通信企業(yè)所面臨的機(jī)遇和挑戰(zhàn),結(jié)合客戶規(guī)模大、數(shù)據(jù)量大、數(shù)據(jù)及時(shí)性需求高,競爭日趨激烈的特點(diǎn),提出應(yīng)用數(shù)據(jù)挖掘方法提高企業(yè)運(yùn)運(yùn)營效率。提出數(shù)據(jù)挖掘算法在故障管理系統(tǒng)、計(jì)費(fèi)管理系統(tǒng)和用戶管理系統(tǒng)這三類系統(tǒng)中的應(yīng)用,能夠?yàn)殡娦牌髽I(yè)解決現(xiàn)存問題提供支撐。
參 考 文 獻(xiàn)
[1]. 馮玉才, 馮劍琳, 關(guān)聯(lián)規(guī)則的增量式更新算法 [J].軟件學(xué)報(bào),1998,9(4).
[2]. 劉康平, 李增智. 網(wǎng)絡(luò)告警序列中的頻繁情景規(guī)則挖掘算法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2003,24(5).
[3]. 徐麗霞, 網(wǎng)絡(luò)故障管理告警關(guān)聯(lián)技術(shù)分析 [J].電腦知識與技術(shù),2008,4(28).
[4]. Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques. 高等教育出版社,2007,5.
[5]. 何健. 基于時(shí)間序列的網(wǎng)絡(luò)流量分析與預(yù)測. 中國科技信息,2005,22.
[6]. 蔣川, 田盛豐. 利用數(shù)據(jù)挖掘技術(shù)提取用戶行為特征. 鐵路計(jì)算機(jī)應(yīng)用. 2001, 10.
[7]. Padmannabha B, Tuzhilih A, On the use of optimization for data mining: theoretical interactions and eCRM opportunities. Management Science, 2003,10.
[8]. Robert M, Elliott. Data Mining Cookbook Modeling Data for Marketing, Risk and customer Relationship Management, John Wiley&Sons, 2003.