陳儒 宮曉強(qiáng)
摘 要:數(shù)據(jù)挖掘作為一門新興的學(xué)科,隨著大數(shù)據(jù)時(shí)代來(lái)臨,越來(lái)越受到各行各業(yè)的青睞。通過(guò)業(yè)界強(qiáng)大的數(shù)據(jù)挖掘工具SPSS Modeler進(jìn)行建模,結(jié)合實(shí)例展示其數(shù)據(jù)分析處理的獨(dú)特功能,探討了其在無(wú)線網(wǎng)絡(luò)規(guī)劃中的應(yīng)用,為更好地在中國(guó)移動(dòng)四網(wǎng)協(xié)同背景下進(jìn)行無(wú)線網(wǎng)絡(luò)規(guī)劃提供了一種新的思路。
關(guān)鍵詞:數(shù)據(jù)挖掘;SPSS Modeler;無(wú)線網(wǎng)絡(luò)規(guī)劃
1 概述
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)挖掘作為一個(gè)交叉學(xué)科,成為新興的研究領(lǐng)域。數(shù)據(jù)挖掘把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。業(yè)界通用的數(shù)據(jù)挖掘工具主要有:SAS Enterprise Miner、IBM SPSS、IBM SPSS Modeler(原名Clementine)、SGI MineSet等軟件。SPSS Modeler以其卓越的分析能力、可視化的操作方式、高度可擴(kuò)展性受到全世界數(shù)據(jù)挖掘人員和企業(yè)用戶的青睞。
隨著中國(guó)移動(dòng)4G網(wǎng)絡(luò)的建設(shè),中國(guó)移動(dòng)真正進(jìn)入了“四網(wǎng)協(xié)同”時(shí)代。無(wú)線網(wǎng)絡(luò)規(guī)劃的復(fù)雜程度越來(lái)越高,不僅進(jìn)行大量的統(tǒng)計(jì)分析,同時(shí)需要不同的網(wǎng)絡(luò)間的關(guān)聯(lián)分析,并對(duì)未來(lái)的業(yè)務(wù)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),本文將基于數(shù)據(jù)挖掘工具SPSS Modeler在無(wú)線網(wǎng)絡(luò)規(guī)劃中建模及應(yīng)用探討,通過(guò)建立標(biāo)準(zhǔn)化的數(shù)據(jù)模型并應(yīng)用于無(wú)線網(wǎng)絡(luò)規(guī)劃中,為中國(guó)移動(dòng)在大數(shù)據(jù)時(shí)代下更好地落實(shí)四網(wǎng)協(xié)同戰(zhàn)略提供新的思路。
2 SPSS Modeler簡(jiǎn)介
IBM公司出品的SPSS Modeler原名Clementine,SPSS Modeler采用圖形化的界面,主界面分為:建模區(qū)、節(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū)共四個(gè)區(qū)域。通過(guò)選擇節(jié)點(diǎn),在建模區(qū)可快速構(gòu)成數(shù)據(jù)流并建立模型。SPSS Modeler主要的節(jié)點(diǎn)為源節(jié)點(diǎn)、記錄選項(xiàng)、字段選項(xiàng)、圖形、建模、輸出、導(dǎo)出等。
3 SPSS Modeler建模及優(yōu)化
本節(jié)基于SPSS Modeler軟件對(duì)某地區(qū)本地網(wǎng)TD/GSM分流比進(jìn)行建模,通過(guò)流程化的模型快速達(dá)到數(shù)據(jù)分析的目的。
分析TD/GSM分流比,通用的做法是根據(jù)TD-SCDMA和GSM話務(wù)網(wǎng)管報(bào)表,通過(guò)小區(qū)ID間的關(guān)聯(lián)關(guān)系進(jìn)行匹配,找到TD-SCDMA和GSM共址的小區(qū),從而得到計(jì)算分流比,進(jìn)而得到分覆蓋區(qū)域分流比的均值、分布情況等。針對(duì)不同的數(shù)據(jù)源,所有的分析過(guò)程都必須重復(fù)進(jìn)行。
而基于SPSS Modeler軟件,我們可以對(duì)整個(gè)分析過(guò)程進(jìn)行數(shù)據(jù)流模型建立并加以固化,每次只需要更新數(shù)據(jù)源即可得到想要的結(jié)果。
下面我們通過(guò)案例來(lái)闡述下如何基于SPSS Modeler進(jìn)行建模:
3.1 數(shù)據(jù)準(zhǔn)備
從話務(wù)網(wǎng)管報(bào)表中提取GSM和TD-SCDMA話務(wù)報(bào)表,報(bào)表中含有所屬地市、小區(qū)ID、數(shù)據(jù)流量等字段。
3.2 建立數(shù)據(jù)流模型
根據(jù)TD/GSM分流比的分析流程,建立一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)流模型。
⑴建立2個(gè)源節(jié)點(diǎn),用于區(qū)分兩個(gè)數(shù)據(jù)源: GSM和TD-SCDMA話務(wù)報(bào)表;
⑵由于報(bào)表中含有大量的數(shù)據(jù),同時(shí)GSM報(bào)表中數(shù)據(jù)流量是分GPRS和EDGE,因此需要對(duì)2張報(bào)表進(jìn)行過(guò)濾、匯總;
⑶對(duì)處理完的報(bào)表數(shù)據(jù),根據(jù)小區(qū)ID進(jìn)行合并;
⑷對(duì)共站址的小區(qū)進(jìn)行分流比的計(jì)算,最終可以輸出共站址列表、計(jì)算平均TD/GSM分流比、輸出分覆蓋區(qū)域的TD/GSM分流比直方圖等。
3.3 模型優(yōu)化和運(yùn)行輸出結(jié)果
對(duì)模型的每一個(gè)節(jié)點(diǎn)進(jìn)行檢驗(yàn),如有問(wèn)題可以針對(duì)模型進(jìn)行一些優(yōu)化,最終完善模型。點(diǎn)擊“運(yùn)行流”按鈕,即可輸出統(tǒng)計(jì)分析結(jié)果(如圖1)。
根據(jù)統(tǒng)計(jì)分析結(jié)果,可以通過(guò)圖形界面來(lái)展現(xiàn),如分區(qū)域的TD/GSM分流比直方圖等。
通過(guò)SPSS Modeler軟件建立了TD/GSM分流比分析模型后,就可以用來(lái)分析同一類型不同數(shù)據(jù)源下的TD/GSM分流比指標(biāo)。當(dāng)然,TD/GSM分流比的分析,只是無(wú)線網(wǎng)絡(luò)規(guī)劃中一個(gè)簡(jiǎn)單地應(yīng)用,不過(guò)也足以展現(xiàn)SPSS Modeler軟件強(qiáng)大的數(shù)據(jù)挖掘能力、良好的可操作性和可擴(kuò)展性。對(duì)于無(wú)線網(wǎng)絡(luò)規(guī)劃的分析,只需要建立一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)流模型,達(dá)到快速規(guī)劃的目的。
4 SPSS Modeler在無(wú)線網(wǎng)絡(luò)規(guī)劃中的應(yīng)用探討
無(wú)線網(wǎng)絡(luò)規(guī)劃是指根據(jù)網(wǎng)絡(luò)建設(shè)的整體需求,設(shè)計(jì)無(wú)線網(wǎng)絡(luò)的目標(biāo),以及為實(shí)現(xiàn)該目標(biāo)確定網(wǎng)絡(luò)的配置。數(shù)據(jù)挖掘工具SPSS Modeler在無(wú)線網(wǎng)絡(luò)規(guī)劃中的應(yīng)用主要表現(xiàn)在網(wǎng)絡(luò)統(tǒng)計(jì)分析、網(wǎng)絡(luò)關(guān)聯(lián)分析和網(wǎng)絡(luò)預(yù)測(cè)分析等幾個(gè)方面。
4.1 網(wǎng)絡(luò)統(tǒng)計(jì)分析
中國(guó)移動(dòng)GSM/TD-SCDMA/TD-LTE/WLAN四網(wǎng)共同組網(wǎng),無(wú)線話務(wù)網(wǎng)管數(shù)據(jù)越來(lái)越海量化,使用Excel等簡(jiǎn)單的數(shù)據(jù)處理工具來(lái)進(jìn)行無(wú)線網(wǎng)絡(luò)規(guī)劃中海量數(shù)據(jù)的統(tǒng)計(jì)分析顯得越來(lái)越力不從心,同時(shí)也會(huì)掩蓋多業(yè)務(wù)類型下大量的有用信息。通過(guò)數(shù)據(jù)挖掘工具,可以找出因?yàn)榉治鍪侄文芰Σ蛔愣缓雎缘母邇r(jià)值信息,從而可以幫助運(yùn)營(yíng)商進(jìn)行科學(xué)的決策。
4.2 網(wǎng)絡(luò)關(guān)聯(lián)分析
四網(wǎng)融合背景下,各制式網(wǎng)絡(luò)之間存在的一些潛在的關(guān)聯(lián)性,比如GSM/TD-SCDMA/TD-LTE/WLAN分流特性、無(wú)線網(wǎng)利用率等。通過(guò)數(shù)據(jù)挖掘進(jìn)行關(guān)聯(lián)分析,可以找到四網(wǎng)協(xié)同發(fā)展的關(guān)鍵信息,從而指導(dǎo)市場(chǎng)、業(yè)務(wù)和網(wǎng)絡(luò)建設(shè)部門的協(xié)同工作,發(fā)揮最大效益,達(dá)到四網(wǎng)的定位目標(biāo)。
4.3 網(wǎng)絡(luò)預(yù)測(cè)分析
無(wú)線網(wǎng)絡(luò)規(guī)劃中常常需要進(jìn)行業(yè)務(wù)量的趨勢(shì)預(yù)測(cè),而這也是數(shù)據(jù)挖掘工具的強(qiáng)項(xiàng)。
業(yè)務(wù)預(yù)測(cè)分析一般以時(shí)間為單位,通過(guò)對(duì)以往某一時(shí)間系統(tǒng)數(shù)據(jù)的分析,來(lái)預(yù)測(cè)未來(lái)某一時(shí)間點(diǎn)可能的結(jié)果,從而指導(dǎo)網(wǎng)絡(luò)擴(kuò)容和市場(chǎng)發(fā)展。
5 小結(jié)
各運(yùn)營(yíng)商多網(wǎng)協(xié)同大環(huán)境下,網(wǎng)絡(luò)之間的關(guān)聯(lián)性使得無(wú)線網(wǎng)絡(luò)規(guī)劃中變得越來(lái)越復(fù)雜,加上數(shù)據(jù)信息量的持續(xù)增加通過(guò)對(duì)數(shù)據(jù)挖掘工具SPSS Modeler的介紹,結(jié)合TD/GSM分流比分析展現(xiàn)了如何基于SPSS Modeler工具進(jìn)行無(wú)線網(wǎng)絡(luò)規(guī)劃的建模。最后,探討了SPSS Modeler工具在無(wú)線網(wǎng)絡(luò)規(guī)劃中的多種應(yīng)用,為更好地在中國(guó)移動(dòng)四網(wǎng)協(xié)同背景下進(jìn)行無(wú)線網(wǎng)絡(luò)規(guī)劃提供了一種新的思路。
[參考文獻(xiàn)]
[1]朱東照,等.TD-SCDMA無(wú)線網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)與優(yōu)化(第2版).2008年7月.
[2]IBM.SPSS Modeler 14.2簡(jiǎn)體中文教程.