李智勇,冷 夔
(中國移動(dòng)通信集團(tuán)四川有限公司,四川成都 610072)
隨著電信企業(yè)重組,市場(chǎng)競(jìng)爭進(jìn)一步加劇,客戶流失已經(jīng)成為各運(yùn)營商關(guān)注的重點(diǎn).據(jù)2011年數(shù)據(jù),某通信運(yùn)營商4月離網(wǎng)率高達(dá)5%,預(yù)測(cè)全年離網(wǎng)率達(dá)40%,此對(duì)其市場(chǎng)競(jìng)爭力和盈利能力產(chǎn)生了較大的負(fù)面影響.因此,利用系統(tǒng)中的客戶數(shù)據(jù),采用數(shù)據(jù)挖掘工具對(duì)客戶離網(wǎng)行為進(jìn)行挖掘分析,力爭以高效率、低成本進(jìn)行存量客戶的保有,已成為通信運(yùn)營商亟待解決的問題.本文以CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn))以及決策樹分析方法為工具,從商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估和結(jié)果部署6個(gè)階段,構(gòu)建起預(yù)離網(wǎng)客戶識(shí)別模型.該模型經(jīng)系統(tǒng)固化,定期識(shí)別出目標(biāo)客戶明細(xì),通過有針對(duì)性進(jìn)行保有工作,取得了良好的成效.
預(yù)離網(wǎng)客戶識(shí)別商業(yè)理解,是指從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和一個(gè)旨在實(shí)現(xiàn)目標(biāo)的初步計(jì)劃[1].
通常,客戶在從正常到離網(wǎng)的整個(gè)過程中,其狀態(tài)一般會(huì)依次經(jīng)歷正常、沉默、預(yù)拆、離網(wǎng)等狀態(tài).處于各狀態(tài)的客戶,其接觸的難度也依次加大,由易于接觸、可接觸、難以接觸到不可接觸.經(jīng)過數(shù)據(jù)探索發(fā)現(xiàn),95%的正??蛻粼陔x網(wǎng)前會(huì)沉默,90%的沉默客戶會(huì)離網(wǎng).為確保預(yù)離網(wǎng)客戶的可接觸性,保證客戶保有的實(shí)際效果,需將預(yù)離網(wǎng)客戶的目標(biāo)狀態(tài)適當(dāng)前移,即以沉默客戶為主進(jìn)行實(shí)際保有工作.
客戶離網(wǎng)原因包括:因所在地點(diǎn)變動(dòng)而產(chǎn)生的自然流失,因選擇了不合適的資費(fèi)或者不滿通信運(yùn)營商的服務(wù)而產(chǎn)生的主動(dòng)離網(wǎng),因競(jìng)爭對(duì)手采取了營銷手段而產(chǎn)生的策反流失等,具體分析如表1所示.
表1 客戶離網(wǎng)原因
數(shù)據(jù)挖掘目標(biāo)為:預(yù)離網(wǎng)客戶查準(zhǔn)率≥85%;查全率≥80%.
數(shù)據(jù)理解與準(zhǔn)備包括:原始數(shù)據(jù)的收集,熟悉數(shù)據(jù),標(biāo)明數(shù)據(jù)質(zhì)量問題,探索對(duì)數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對(duì)隱藏信息的假設(shè)[1].
數(shù)據(jù)準(zhǔn)備包括:提取客戶自然屬性、身份屬性、品牌屬性、資費(fèi)屬性、消費(fèi)屬性、行為屬性、業(yè)務(wù)屬性和其他屬性8大類140余個(gè)字段,作為數(shù)據(jù)建模的基礎(chǔ)數(shù)據(jù).
選取11萬已離網(wǎng)的客戶,以及110萬在網(wǎng)客戶,對(duì)其歷史自然屬性、身份屬性、品牌屬性、資費(fèi)屬性、消費(fèi)屬性、行為屬性、業(yè)務(wù)屬性和其他屬性進(jìn)行比對(duì),利用SPSS的Clementine軟件對(duì)建模字段進(jìn)行數(shù)據(jù)審核和探索,清洗掉對(duì)客戶離網(wǎng)影響概率很小的字段,留下66個(gè)影響字段.
本文采用決策樹算法[2]建立預(yù)離網(wǎng)客戶識(shí)別模型,具體步驟為:首先,選擇預(yù)離網(wǎng)客戶最有代表性的變量——話費(fèi)余額作為決策樹的根節(jié)點(diǎn),對(duì)引起話費(fèi)余額變動(dòng)的各項(xiàng)因素進(jìn)行判斷;其次,根據(jù)離網(wǎng)客戶的特征并和在網(wǎng)客戶特征進(jìn)行對(duì)比,判斷出各項(xiàng)因素所反應(yīng)出的客戶離網(wǎng)的概率;最后,建立起預(yù)離網(wǎng)客戶識(shí)別模型決策樹.圖1為預(yù)離網(wǎng)客戶識(shí)別模型決策樹,由于變量眾多,適用于預(yù)離網(wǎng)客戶的規(guī)則就達(dá)658個(gè),圖1僅展示前4層節(jié)點(diǎn).
圖1 預(yù)離網(wǎng)客戶識(shí)別模型決策樹模型
模型建立的具體步驟如下:
(1)數(shù)據(jù)平衡.為了對(duì)比離網(wǎng)客戶的特征,提煉客戶離網(wǎng)前的行為特征、消費(fèi)特征、業(yè)務(wù)特征等信息,將提取的11萬離網(wǎng)客戶和110萬在網(wǎng)客戶近3個(gè)月的屬性數(shù)據(jù),經(jīng)過清洗和平衡,使離網(wǎng)客戶與在網(wǎng)客戶在數(shù)量上達(dá)到1∶4的比例.
(2)數(shù)據(jù)分區(qū).將經(jīng)過平衡以后的數(shù)據(jù),經(jīng)過隨即抽取,其中,80%的數(shù)據(jù)作為模型訓(xùn)練區(qū),20%的數(shù)據(jù)作為驗(yàn)證測(cè)試區(qū).
(3)決策樹模型構(gòu)建.將模型訓(xùn)練區(qū)的數(shù)據(jù)通過SPSS的二元分類器對(duì)客戶屬性數(shù)據(jù)進(jìn)行評(píng)估,利用Logistic回歸模型得出客戶離網(wǎng)在每個(gè)屬性字段上的概率.圖2展示了前4層結(jié)果,其中:0為離網(wǎng)客戶,1為在網(wǎng)客戶.
圖2 預(yù)離網(wǎng)客戶識(shí)別模型
(4)修剪分支.在決策樹中,我們發(fā)現(xiàn)主資費(fèi)、入網(wǎng)渠道、投訴次數(shù)、農(nóng)村客戶屬性、家庭客戶屬性和集團(tuán)客戶屬性6個(gè)要素對(duì)于客戶離網(wǎng)影響概率極低,可將其作為無關(guān)分支進(jìn)行修剪.
(5)建立預(yù)離網(wǎng)客戶模型.經(jīng)過修剪分支后,根據(jù)決策樹節(jié)點(diǎn)模型所計(jì)算出的單個(gè)字段概率,對(duì)單字段進(jìn)行組合計(jì)算,構(gòu)建預(yù)離網(wǎng)客戶識(shí)別模型規(guī)則,其結(jié)果如表2所示.
表2 預(yù)離網(wǎng)客戶識(shí)別模型及篩選規(guī)則
(6)模型輸出.沉默客戶模型主要輸出3個(gè)字段:沉默標(biāo)識(shí)、沉默概率、沉默原因.
沉默標(biāo)識(shí)可以用來識(shí)別客戶是否疑似沉默客戶(0為否,1為是);沉默概率可以用來作為客戶是否疑似沉默客戶的概率(介于0到1之間),如一個(gè)客戶的目標(biāo)標(biāo)識(shí)為1,目標(biāo)可能性為0.9的要比0.7的更可能成為沉默客戶.部分結(jié)果如表3所示.
模型評(píng)估的關(guān)鍵目的是,決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮.關(guān)于數(shù)據(jù)挖掘結(jié)果的使用決定應(yīng)該在此階段結(jié)束時(shí)確定下來.通常,通信運(yùn)營商利用模型增益和測(cè)試集查全及查準(zhǔn)率進(jìn)行模型評(píng)估工作[1].
增益圖是不同閥值下命中率(PV+,正確預(yù)測(cè)到的正例數(shù)占預(yù)測(cè)正例總數(shù)的比例)與預(yù)測(cè)成正例的比例(Depth)的軌跡.隨著閾值的減小,更多的客戶就會(huì)被歸為正例,也就是Depth變大,這樣PV+就相應(yīng)減小.一個(gè)好的模型,在閾值變大時(shí),相應(yīng)的PV+就要變大,曲線足夠陡峭.
表3 預(yù)離網(wǎng)客戶識(shí)別模型結(jié)果輸出
如圖3所示,在閥值設(shè)定為20%的時(shí)候,曲線足夠陡峭,表明本模型效果較好,通過實(shí)際的使用,我們發(fā)現(xiàn)使用模型之后效果提升了約4.2倍.
圖3 增益評(píng)估圖
查全查準(zhǔn)評(píng)估通常采用查全率與查準(zhǔn)率來評(píng)價(jià).
在模型建立初期,由歷史上已離網(wǎng)客戶與在網(wǎng)客戶數(shù)據(jù)按1∶4比例進(jìn)行了數(shù)據(jù)平衡,并且從中隨機(jī)抽取了80%的數(shù)據(jù)作為模型訓(xùn)練區(qū),20%的數(shù)據(jù)作為驗(yàn)證測(cè)試區(qū).經(jīng)過模型對(duì)訓(xùn)練區(qū)數(shù)據(jù)進(jìn)行識(shí)別,并與驗(yàn)證測(cè)試區(qū)數(shù)據(jù)進(jìn)行對(duì)比,得出預(yù)離網(wǎng)客戶識(shí)別模型的查全率和查準(zhǔn)率為,
查全率=70987/(70987+17013)=80.67%,
查準(zhǔn)率=70987/(70987+12081)=85.46%.
根據(jù)2011年4月某通信運(yùn)營商數(shù)據(jù),本預(yù)離網(wǎng)客戶識(shí)別模型識(shí)別出106 012戶具有離網(wǎng)傾向的客戶,參與營銷活動(dòng)的客戶有16 432戶,營銷效率為15.5%.通過跟蹤分析發(fā)現(xiàn)參與活動(dòng)的客戶,5月份狀態(tài)正常的客戶超過90%,而未參加活動(dòng)的客戶狀態(tài)正常的僅達(dá)40%左右;參加活動(dòng)的客戶人均MOU值提升了29.41%,人均ARPU值提升了23.67%.僅計(jì)算成功挽留的客戶就為公司節(jié)約新客戶拓展費(fèi)用約500萬元.
根據(jù)CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn))方法所建立的預(yù)離網(wǎng)客戶識(shí)別模型經(jīng)市場(chǎng)實(shí)踐,證明其是準(zhǔn)確而有效的.但是該模型仍然存在以下兩個(gè)方面的問題需要完善:一是季節(jié)性缺陷.根據(jù)市場(chǎng)規(guī)律,每年3~4月是市場(chǎng)淡季,客戶離網(wǎng)率急劇上升,而模型根據(jù)前3個(gè)月離網(wǎng)客戶的數(shù)據(jù)進(jìn)行分析,在市場(chǎng)淡季時(shí),參數(shù)可能會(huì)出現(xiàn)偏差,影響模型的準(zhǔn)確性.二是時(shí)效性缺陷.由于計(jì)費(fèi)系統(tǒng)設(shè)計(jì),客戶消費(fèi)的出賬時(shí)間間隔為一個(gè)月,因此對(duì)于預(yù)離網(wǎng)識(shí)別模型中相當(dāng)重要的指標(biāo)如ARPU值、MOU值等每個(gè)月才能獲取一次數(shù)據(jù),造成預(yù)離網(wǎng)客戶識(shí)別每個(gè)月才能提取一次客戶數(shù)據(jù).而在實(shí)際市場(chǎng)環(huán)境下,客戶離網(wǎng)是隨時(shí)發(fā)生的,因此預(yù)離網(wǎng)客戶識(shí)別模型難以在第一時(shí)間就識(shí)別出預(yù)離網(wǎng)客戶,影響了營銷效率的提高.
[1]CRISP-DM協(xié)會(huì).CRISP-DM 1.0數(shù)據(jù)挖掘方法論指南[EB/ OL].[2002-04-15].http://2011down.com/detail/gFiuTih.
[2]王桂芹,黃道.決策樹算法研究及應(yīng)用[J].電腦應(yīng)用技術(shù),2008,20(1):1-5.
[3]張獻(xiàn)華,田亮,葉幸春.基于決策樹的數(shù)據(jù)挖掘技術(shù)在電信用戶流失預(yù)測(cè)的應(yīng)用與研究[J].中國新通信,2007,9 (14):79-82.
[4]管東升.移動(dòng)通信客戶流失行為預(yù)測(cè)技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2005,21(10):57-59.
[5]王姝華,鐘云飛.數(shù)據(jù)挖掘在移動(dòng)通信業(yè)大客戶離網(wǎng)預(yù)測(cè)中的應(yīng)用[J].江蘇通信技術(shù),2004,20(3):1-4.