李權
引言:本文對3G時代用戶的細分方法和3G目標市場的定位作了初步的研究,提出了3G時代客戶識別數據挖掘模型,并采用BP神經網絡和決策樹對該模型進行驗證,最后研究了3G目標市場定位考慮的要素和初步的建議。
一、3G用戶細分體系架構
用戶細分是3G業(yè)務開發(fā)及市場營銷的基礎,用戶細分能夠使差異化成為可能,使運營商提供的3G產品和服務能夠更有針對性。3G用戶細分方法的選擇直接決定了相關用戶細分結果的準確性及實用性。對于3G用戶細分的體系搭建的思路是: 采用3 個緯度進行用戶的細分,首先按照用戶價值緯度進行用戶細分,然后再結合消費行為緯度和消費心理緯度細分用戶群。在3G用戶細分的體系架構中,3個緯度的用戶細分依據、方法及應用價值如表1 所示。
二、客戶識別分類模型
(一)數據抽取
本案例數據來源于某電信運營公司,該數據總量為26000條。每一條對應一個客戶近六個月的統(tǒng)計信息。其中已知分類(2G、3G)的為18000條,未知分類8000 條。其中包括客戶年齡,月平均消費額,月平均通話時長等屬性250 個(包括客戶類型)。本例利用26000條已知分類的數據進行分類模型的建立,隨機抽取訓練數據10000條,測試數據8000條。
(二)數據預處理
上述采集的數據有數據多、數據取值范圍廣和數據取值類型多樣的特點,因此必須在建模前對數據進行預處理,如采集的樣本數據存在一些屬性值缺省或空值,如果不做處理,將直接影響后續(xù)算法的挖掘效果,嚴重時甚至得到錯誤的結果。數據預處理包含數據清洗、屬性篩選、數據平衡、數據歸一化和離散化五個步驟。數據清洗分為類型轉換和缺失數據填補兩部分;屬性篩選分為人工篩選和通過相關系數分析實現屬性選擇兩部分;由于作為訓練的18000條數據只有少數是3G用戶,這樣會導致模型輸出結果偏向判別為2G 客戶,因此必須通過數據平衡實現2、3G用戶數量達到1:1;為了提高BP 神經網絡的性能,需要對數據進行歸一化;對于決策樹算法,需要對數據進行離散化,否則生產的決策樹將會過于茂盛,以至于無法分析。
三、客戶數據分類識別過程
本文分別采用BP 神經網絡和決策樹進行建模,實現對3G 客戶的分類識別。本案例運用TipDM 數據挖掘在線建模平臺中的性分析進行數據探索,再運用BP 神經網絡和C4.5 決策樹進行客戶識別。(一)模型輸入。本案例中,模型數據涉及客戶年齡、月平均通話時長和月平均消費額等240多個屬性(包含客戶類型),模型輸入需將客戶識別樣本屬性表導入建模平臺中即可。(二)仿真識別過程。建模仿真過程說明如下:1.登錄TipDM 平臺,在方案管理頁面中,新建方案或者打開一個已建方案;2.切換到數據管理頁面,上傳經預處理后的專家樣本數據文件;3.選擇相關性分析功能,導入樣本數據進行相關性分析;4.分別選擇BP 神經網絡算法和C4.5 決策樹算法,進行模型構建;5.對比BP 神經網絡和C4.5 決策樹的建模結果,并選擇最優(yōu)算法;6.用最優(yōu)法對測試樣本進行3G 客戶識別。(三)仿真結果分析。1.基于BP 神經網絡的模型構建。由于神經網絡算法輸出結果受到訓練次數影響,并伴隨一定的隨機性,多次實驗得到的分類正確率如下表所示。
四、總結與建議
決策樹與BP神經網絡對于3G客戶的識別正確率都接近80%,說明本用例建立的分類模型對3G客戶的敏感度比較高,基本能識別出3G用戶,能達到預期目標。但是只看3G客戶的識別正確率是不科學的,還要看2G 客戶的識別正確率和總體識別正確率。從總體正確率看,BP 神經網絡的正確率仍然比決策樹高近10%,BP神經網絡無論是總體性能還是對局部分類的敏感度都表現不錯,而決策樹分類模型性能還有待提高。
雖然本例的客戶識別未能達到百分百地準確,但從另外一個角度看,一味追求正確率并沒有太多意義。因為本來運營商對各個用戶的類別就已經作了登記,反而,我們或許能從客戶的誤識別中獲得更多信息。
本來是2G客戶,但被識別為3G客戶的用戶很有可能就是因為它的各項屬性與3G客戶的相似,如月均網絡游戲游流量比較大,月均消費額較高,說明這部分人客戶是有機會被發(fā)展成3G客戶,電信運營商應對這批客戶大力推銷3G應用;而部分3G客戶被識別為2G客戶,很有可能是因為對目前的3G資費或3G服務不滿意的客戶,他們對3G應用并不感興趣,因此和3G用戶的特征不相符,這部分客戶很有可能在未來幾個月內會流失,所以,電信運營商應更加關注這批客戶的情況,爭取減少客戶的離網率。
(作者單位:山西移動通信有限公司朔州分公司)