路 瑋,李軼群,李佳俊,王蘊實(中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京 100048)
隨著移動互聯(lián)網(wǎng)終端不斷增加,移動互聯(lián)網(wǎng)業(yè)務(wù)需求呈爆炸式增長,運營商轉(zhuǎn)型之路必將圍繞海量數(shù)據(jù)所帶來的商機做深度挖掘分析。本文利用深度學習算法,同時結(jié)合LTE 網(wǎng)絡(luò)大數(shù)據(jù)的分析挖掘,發(fā)現(xiàn)隱藏在龐大數(shù)據(jù)背后的業(yè)務(wù)規(guī)律,通過大數(shù)據(jù)分析挖掘找出數(shù)據(jù)存在的關(guān)聯(lián)關(guān)系,分析現(xiàn)網(wǎng)用戶換機情況預(yù)測用戶未來需求,通過數(shù)據(jù)間的規(guī)律,預(yù)測業(yè)務(wù)新需求,并將其轉(zhuǎn)化為新業(yè)務(wù)和新產(chǎn)品。
隨著4G移動技術(shù)不斷走向成熟,移動終端用戶數(shù)量急劇增加,運營商運用大數(shù)據(jù)挖掘技術(shù)對現(xiàn)網(wǎng)終端出賬數(shù)據(jù)進行深度挖掘,探索用戶換機潛在因素。數(shù)據(jù)挖掘是以人工智能為基礎(chǔ)的業(yè)務(wù)信息處理技術(shù),通過對數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,發(fā)現(xiàn)大量數(shù)據(jù)中的潛在信息,獲取有利于業(yè)務(wù)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、模型評估等6個環(huán)節(jié)。如圖1所示,這6個環(huán)節(jié)之間是可以相互交互的,例如在數(shù)據(jù)理解階段如果發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)無法解決業(yè)務(wù)理解階段提出的問題,則需要重新調(diào)整定義業(yè)務(wù)問題或者采集更豐富的原始數(shù)據(jù)去論證問題;如果在建模階段發(fā)現(xiàn)數(shù)據(jù)無法滿足建模需求,則需要重新處理數(shù)據(jù)直至滿足建模要求;如果在模型評估階段發(fā)現(xiàn)模型預(yù)期結(jié)果不理想,則重新回到業(yè)務(wù)理解階段審視問題合理性并進行調(diào)整。
圖1 數(shù)據(jù)挖掘框架
本文采用IBM SPSS Modeler 工具進行數(shù)據(jù)挖掘操作,終端數(shù)據(jù)處理過程主要有以下幾個關(guān)鍵步驟。
a)首先在業(yè)務(wù)理解階段需要從海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息從而明確業(yè)務(wù)目標和數(shù)據(jù)挖掘目標,制定詳細的項目計劃。移動終端換機技術(shù)研究依托現(xiàn)網(wǎng)每月出賬數(shù)據(jù),對現(xiàn)在市場中終端2G/3G/4G網(wǎng)絡(luò)制式換機情況,以及2G/3G/4G換機終端的型號、品牌、功能支持情況、3G/4G 終端駐留網(wǎng)絡(luò)等內(nèi)容進行挖掘分析。在充分理解終端業(yè)務(wù)后,對不同客戶群體進行挖掘,并了解現(xiàn)網(wǎng)用戶終端使用情況。
b)明確業(yè)務(wù)目標后需要對各個數(shù)據(jù)源的數(shù)據(jù)進行整理,在數(shù)據(jù)理解階段主要完成對數(shù)據(jù)資源的初步認識和清理,收集原始數(shù)據(jù),并對數(shù)據(jù)進行梳理和描述,對數(shù)據(jù)進行探索性分析形成數(shù)據(jù)質(zhì)量報告。終端數(shù)據(jù)是來自各個省份的原始數(shù)據(jù)、市場部數(shù)據(jù)以及網(wǎng)絡(luò)平臺數(shù)據(jù)。收集各個數(shù)據(jù)源的終端數(shù)據(jù),統(tǒng)一各種數(shù)據(jù)類型的格式,并對各種信息進行篩選、過濾、剔除等處理。在處理數(shù)據(jù)之前,需要明確數(shù)據(jù)來源。通過數(shù)據(jù)審核節(jié)點的統(tǒng)計數(shù)據(jù)可以發(fā)現(xiàn)數(shù)據(jù)的異常和極端數(shù)據(jù)。
c)數(shù)據(jù)預(yù)處理準備階段是將同數(shù)據(jù)源或不同數(shù)據(jù)庫中的數(shù)據(jù)表進行整合,生成可以建立數(shù)據(jù)挖掘模型的數(shù)據(jù)集。在數(shù)據(jù)準備過程中需要對數(shù)據(jù)進行清理,確定需要的有效數(shù)據(jù),調(diào)整或剔除不符合實際情況的數(shù)據(jù),然后對相關(guān)數(shù)據(jù)進行合并處理或重構(gòu)成新的字段或數(shù)據(jù)。數(shù)據(jù)預(yù)處理過程主要包括數(shù)據(jù)清洗、數(shù)據(jù)匯總、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)篩選。例如各個省份的原始終端數(shù)據(jù)格式不統(tǒng)一,有的省份提供TAC 信息,有的省份提供的IMSI 信息,為了統(tǒng)一處理,需要將TAC信息和IMSI 信息進行轉(zhuǎn)化。有的省份提供的數(shù)據(jù)包含很多無效數(shù)據(jù),例如空白數(shù)據(jù)、無效字符等,需要篩選和刪除這些數(shù)據(jù),并去除重復(fù)數(shù)據(jù)才能得到有效數(shù)據(jù)。根據(jù)業(yè)務(wù)需求和數(shù)據(jù)變量間的相關(guān)性,將原始數(shù)據(jù)派生成新的變量,例如派生成換機標識用于判決用戶終端是否換機。
d)模型建立是數(shù)據(jù)挖掘的核心階段,首先需要選擇建模模型,通過對模型的假定和要求來對模型技術(shù)進行評估,并對模型效果進行檢驗。初步建立模型后可根據(jù)實際情況調(diào)整模型的各個參數(shù),并對模型使用進行評價。不同的數(shù)據(jù)挖掘模型有不同的挖掘算法,不同的技術(shù)方案產(chǎn)生的模型差異也很大。數(shù)據(jù)模型有分類、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等模型,其中決策樹方法和神經(jīng)網(wǎng)絡(luò)模型最為常用。本文采用決策樹模型,通過輸入終端2G/3G/4G 網(wǎng)絡(luò)制式支持情況、終端品牌、價格、終端3G/4G 網(wǎng)絡(luò)附著使用情況等,對終端換機情況進行分類預(yù)測,判斷影響終端用戶流失的關(guān)鍵因素。
e)模型評估可以從技術(shù)角度對模型效果進行評價,也可從業(yè)務(wù)角度對模型在現(xiàn)實業(yè)務(wù)環(huán)境中的適用性進行評估,從而篩選出被認可的數(shù)據(jù)挖掘模型。評估模型是否達到預(yù)期效果的指標有很多種,其中結(jié)果準確率是一個重要指標。通過模型評估,可以將數(shù)據(jù)挖掘的結(jié)果運用到實際業(yè)務(wù)中。
f)在方案部署階段對預(yù)測結(jié)果方案進行部署,同時形成最終的報告。通過預(yù)測換機變量的重要性,可以對換機的用戶終端采取不同的營銷方案,對不同用戶換機需求采取不同的優(yōu)化部署。
IBM SPSS Modeler 具有豐富的數(shù)據(jù)挖掘算法,如圖2所示,通過數(shù)據(jù)庫之間的數(shù)據(jù)和模型的交互,使數(shù)據(jù)在各個節(jié)點間的流動,形成1條或多條數(shù)據(jù)流,然后通過執(zhí)行數(shù)據(jù)流完成數(shù)據(jù)分析任務(wù)。在數(shù)據(jù)分析過程中可以對數(shù)據(jù)節(jié)點進行調(diào)整和修改,通過數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模型建立、模型評估等環(huán)節(jié),將不同省份的原始數(shù)據(jù)或其他源數(shù)據(jù)進行分析處理以滿足不同業(yè)務(wù)需求。
圖2 數(shù)據(jù)挖掘處理思路
本文利用Moderler 工具進行導(dǎo)入、統(tǒng)計、分析、預(yù)測等操作。采集數(shù)據(jù)來源于省份提取的每月全網(wǎng)出賬用戶終端數(shù)據(jù),包含終端的歸屬地(市)、終端移動設(shè)備國際識別碼(IMEI——International Mobile Equipment Identity)、用戶編號、國際移動用戶標識(IMSI——International Mobile Subscriber Identity)、4G 網(wǎng)絡(luò)附著標識、3G 網(wǎng)絡(luò)使用標識等基本字段信息。終端TAC 庫體現(xiàn)終端基本屬性信息,包含TAC 號、終端品牌(Marketing Name)、終端廠商(Manufacturer)、支持的頻段(Bands)、2G標識、3G標識、4G標識、雙卡、設(shè)備類型等基本字段信息。終端價格表信息體現(xiàn)不同終端價格檔位基本信息,包括終端ID、終端型號、廠家編碼、廠家名稱以及終端價格檔位等字段信息。通過Modeler 導(dǎo)入省份終端數(shù)據(jù),瀏覽數(shù)據(jù)內(nèi)容,對數(shù)據(jù)進行過濾保留有用字段;確認字段存儲類型,例如將IMSI號和IMEI號存儲類型從字符串變更為整數(shù);變更變量類型,例如將2G/3G/4G標識變更為連續(xù)類型。通過數(shù)據(jù)審核節(jié)點統(tǒng)計數(shù)據(jù)可以篩選出異常、極端數(shù)據(jù)。
對于異常數(shù)據(jù)需要在數(shù)據(jù)預(yù)處理階段進行修改或刪除。為了提取有效數(shù)據(jù),在數(shù)據(jù)預(yù)處理環(huán)節(jié)需要對數(shù)據(jù)進行清洗、轉(zhuǎn)化、加載等一系列處理,將省份提供的話單數(shù)據(jù)轉(zhuǎn)化為標準格式,將一些不完整的數(shù)據(jù)信息或錯誤數(shù)據(jù)進行刪除,以便后期分析加工和處理。首先需要將原始數(shù)據(jù)中缺失值進行替換或刪除。缺失值是指空白數(shù)據(jù)或不合理數(shù)據(jù)。采用函數(shù)@BLANK(@FIELD),在@ FIELD 字段中填寫IMEI、Manufacturer、2G 標識、3G 標識、4G 標識等需要檢查的字段,并將字段中的空值改為0;采用函數(shù)@NULL(@FIELD)將系統(tǒng)中缺失值$null$替換為0。對數(shù)據(jù)記錄缺失值的處理可以減少分析結(jié)果偏差。然后利用函數(shù)intof('IMEI 號'/1000000)將IMEI 值轉(zhuǎn)化為TAC值,并與TAC庫對比可獲得終端基本信息。對IMEI進行去重,保證用戶終端的唯一性。終端IMEI是終端設(shè)備唯一標識,它與每臺手機終端是一一對應(yīng)關(guān)系。換機是對比同一用戶IMSI 號下不同IMEI 號的終端信息,IMEI_pre 表示換機前終端的IMEI 信息,IMEI_cur表示為換機后終端的IMEI 信息,如果IMEI_pre=IMEI_cur,則表示沒有換機,換機標識為0;如果IMEI_pre≠IMEI_cur,則表示用戶換機,換機標識為1。在建模前需要將換機標識為1 的用戶終端篩選出來,通過對這些換機用戶的行為特征進行分析得出影響用戶換機的重要因素。利用選擇節(jié)點篩選換機標識=1 的終端數(shù)據(jù)。通過一系列數(shù)據(jù)流處理過程,將省份上個月和當月的終端換機業(yè)務(wù)數(shù)據(jù)統(tǒng)計出來匯總在一張數(shù)據(jù)表中。
根據(jù)數(shù)據(jù)分析結(jié)果得出A 省有300 多萬用戶更換了手機,本文運用決策樹CHAID 模型預(yù)測出換機變量的重要性排序。決策樹是通過數(shù)據(jù)學習,依據(jù)輸入的數(shù)據(jù)變量推測輸出變量的分類取值,對數(shù)據(jù)對象進行分類預(yù)測,清晰顯示每個字段的重要性。CHAID 模型優(yōu)點是可產(chǎn)生多個分支,從統(tǒng)計角度可以確定分支變量和分割值從而優(yōu)化分支過程。用戶換機可能考慮的因素有終端價格檔位、用戶對終端品牌和型號的愛好、終端網(wǎng)絡(luò)制式的變更(如2G/3G終端用戶變更使用4G 終端)、終端屬性(如是否是雙卡終端)等。結(jié)合以上用戶換機因素,用換機業(yè)務(wù)模型對A 省連續(xù)2 個月的63萬條終端出賬數(shù)據(jù)進行分析,選取終端換機的變量參數(shù)有以下3類。
a)現(xiàn)網(wǎng)出賬用戶基本信息數(shù)據(jù):終端的IMSI、IMEI、60天內(nèi)登錄過4G網(wǎng)絡(luò)標識、3G網(wǎng)絡(luò)使用標識等(60 天內(nèi)登錄過4G 網(wǎng)絡(luò)標識為1 的表示終端未換機,標識為0 表示終端已經(jīng)換機;3G 網(wǎng)絡(luò)使用標識為1 表示終端未換機,如果標識為0表示終端已換機)。
b)終端基本屬性信息數(shù)據(jù):終端廠商、終端品牌、支持2G/3G/4G網(wǎng)絡(luò)標識等。
c)終端價格基本信息數(shù)據(jù):終端價格檔位等。
通過用戶行為分析篩選出10個重要建模變量,其中將換機情況作為目標預(yù)測結(jié)果,其他參數(shù)變量設(shè)為輸入變量,如圖3所示。
為了提升分析模型準確度,加入“分區(qū)”節(jié)點,將數(shù)據(jù)分為50%訓練數(shù)據(jù)和50%的測試數(shù)據(jù)。訓練模型通過50%的換機數(shù)據(jù)進行模型預(yù)測,評估模型參數(shù)來以確定最合適的預(yù)測模型。
圖3 字段類型定義
基于訓練樣本集的模型參數(shù)對測試樣本集數(shù)據(jù)進行數(shù)據(jù)分析可得出如圖4所示的結(jié)論。
圖4 預(yù)測變量重要性
從模型分析結(jié)果來看,2G/3G/4G 標識、終端品牌、終端價格、60天內(nèi)登錄過4G網(wǎng)絡(luò)的標識、3G網(wǎng)絡(luò)使用標識、雙卡等參數(shù)變量對模型構(gòu)建起關(guān)鍵作用。其中用戶換機時對網(wǎng)絡(luò)制式變更的需求最大,其次是終端品牌。
對數(shù)據(jù)模型進行評估,分析數(shù)據(jù)節(jié)點的準確率,通過對模型測試集的準確率分析可以判斷模型的準確性。通過對換機情況測試集的分析結(jié)果進行統(tǒng)計,發(fā)現(xiàn)其預(yù)測正確率為90.67%,表明結(jié)果非常理想。
終端換機預(yù)測只是數(shù)據(jù)挖掘應(yīng)用的一部分,通過此模型還可以挖掘出終端在市場營銷、客戶服務(wù)等多方面的應(yīng)用。
利用數(shù)據(jù)挖掘技術(shù)對終端換機行為的深入研究發(fā)現(xiàn),終端換機因素既與用戶使用愛好習慣有關(guān),又與用戶消費情況有關(guān),每個指標對用戶換機的影響程度不盡相同。通過預(yù)測換機變量重要性,可以提高運營商和終端廠商的營銷精準度,有利于開拓市場,提升營銷業(yè)績;同時為運營商和終端廠家提供用戶喜好規(guī)律,為終端銷售制定生產(chǎn)計劃提供依據(jù)。