国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹技術(shù)的預(yù)離網(wǎng)客戶識(shí)別模型

2011-01-10 03:37:24李智勇
關(guān)鍵詞:查準(zhǔn)率決策樹數(shù)據(jù)挖掘

李智勇,冷 夔

(中國移動(dòng)通信集團(tuán)四川有限公司,四川成都 610072)

0 引 言

隨著電信企業(yè)重組,市場(chǎng)競(jìng)爭進(jìn)一步加劇,客戶流失已經(jīng)成為各運(yùn)營商關(guān)注的重點(diǎn).據(jù)2011年數(shù)據(jù),某通信運(yùn)營商4月離網(wǎng)率高達(dá)5%,預(yù)測(cè)全年離網(wǎng)率達(dá)40%,此對(duì)其市場(chǎng)競(jìng)爭力和盈利能力產(chǎn)生了較大的負(fù)面影響.因此,利用系統(tǒng)中的客戶數(shù)據(jù),采用數(shù)據(jù)挖掘工具對(duì)客戶離網(wǎng)行為進(jìn)行挖掘分析,力爭以高效率、低成本進(jìn)行存量客戶的保有,已成為通信運(yùn)營商亟待解決的問題.本文以CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn))以及決策樹分析方法為工具,從商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估和結(jié)果部署6個(gè)階段,構(gòu)建起預(yù)離網(wǎng)客戶識(shí)別模型.該模型經(jīng)系統(tǒng)固化,定期識(shí)別出目標(biāo)客戶明細(xì),通過有針對(duì)性進(jìn)行保有工作,取得了良好的成效.

1 預(yù)離網(wǎng)客戶識(shí)別商業(yè)理解

預(yù)離網(wǎng)客戶識(shí)別商業(yè)理解,是指從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義和一個(gè)旨在實(shí)現(xiàn)目標(biāo)的初步計(jì)劃[1].

1.1 確定商業(yè)目標(biāo)

通常,客戶在從正常到離網(wǎng)的整個(gè)過程中,其狀態(tài)一般會(huì)依次經(jīng)歷正常、沉默、預(yù)拆、離網(wǎng)等狀態(tài).處于各狀態(tài)的客戶,其接觸的難度也依次加大,由易于接觸、可接觸、難以接觸到不可接觸.經(jīng)過數(shù)據(jù)探索發(fā)現(xiàn),95%的正??蛻粼陔x網(wǎng)前會(huì)沉默,90%的沉默客戶會(huì)離網(wǎng).為確保預(yù)離網(wǎng)客戶的可接觸性,保證客戶保有的實(shí)際效果,需將預(yù)離網(wǎng)客戶的目標(biāo)狀態(tài)適當(dāng)前移,即以沉默客戶為主進(jìn)行實(shí)際保有工作.

1.2 形勢(shì)評(píng)估

客戶離網(wǎng)原因包括:因所在地點(diǎn)變動(dòng)而產(chǎn)生的自然流失,因選擇了不合適的資費(fèi)或者不滿通信運(yùn)營商的服務(wù)而產(chǎn)生的主動(dòng)離網(wǎng),因競(jìng)爭對(duì)手采取了營銷手段而產(chǎn)生的策反流失等,具體分析如表1所示.

表1 客戶離網(wǎng)原因

1.3 數(shù)據(jù)挖掘目標(biāo)

數(shù)據(jù)挖掘目標(biāo)為:預(yù)離網(wǎng)客戶查準(zhǔn)率≥85%;查全率≥80%.

2 數(shù)據(jù)理解與準(zhǔn)備

數(shù)據(jù)理解與準(zhǔn)備包括:原始數(shù)據(jù)的收集,熟悉數(shù)據(jù),標(biāo)明數(shù)據(jù)質(zhì)量問題,探索對(duì)數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對(duì)隱藏信息的假設(shè)[1].

2.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備包括:提取客戶自然屬性、身份屬性、品牌屬性、資費(fèi)屬性、消費(fèi)屬性、行為屬性、業(yè)務(wù)屬性和其他屬性8大類140余個(gè)字段,作為數(shù)據(jù)建模的基礎(chǔ)數(shù)據(jù).

2.2 數(shù)據(jù)清洗與變量選取

選取11萬已離網(wǎng)的客戶,以及110萬在網(wǎng)客戶,對(duì)其歷史自然屬性、身份屬性、品牌屬性、資費(fèi)屬性、消費(fèi)屬性、行為屬性、業(yè)務(wù)屬性和其他屬性進(jìn)行比對(duì),利用SPSS的Clementine軟件對(duì)建模字段進(jìn)行數(shù)據(jù)審核和探索,清洗掉對(duì)客戶離網(wǎng)影響概率很小的字段,留下66個(gè)影響字段.

3 模型建立

3.1 建模技術(shù)

本文采用決策樹算法[2]建立預(yù)離網(wǎng)客戶識(shí)別模型,具體步驟為:首先,選擇預(yù)離網(wǎng)客戶最有代表性的變量——話費(fèi)余額作為決策樹的根節(jié)點(diǎn),對(duì)引起話費(fèi)余額變動(dòng)的各項(xiàng)因素進(jìn)行判斷;其次,根據(jù)離網(wǎng)客戶的特征并和在網(wǎng)客戶特征進(jìn)行對(duì)比,判斷出各項(xiàng)因素所反應(yīng)出的客戶離網(wǎng)的概率;最后,建立起預(yù)離網(wǎng)客戶識(shí)別模型決策樹.圖1為預(yù)離網(wǎng)客戶識(shí)別模型決策樹,由于變量眾多,適用于預(yù)離網(wǎng)客戶的規(guī)則就達(dá)658個(gè),圖1僅展示前4層節(jié)點(diǎn).

圖1 預(yù)離網(wǎng)客戶識(shí)別模型決策樹模型

3.2 模型建立

模型建立的具體步驟如下:

(1)數(shù)據(jù)平衡.為了對(duì)比離網(wǎng)客戶的特征,提煉客戶離網(wǎng)前的行為特征、消費(fèi)特征、業(yè)務(wù)特征等信息,將提取的11萬離網(wǎng)客戶和110萬在網(wǎng)客戶近3個(gè)月的屬性數(shù)據(jù),經(jīng)過清洗和平衡,使離網(wǎng)客戶與在網(wǎng)客戶在數(shù)量上達(dá)到1∶4的比例.

(2)數(shù)據(jù)分區(qū).將經(jīng)過平衡以后的數(shù)據(jù),經(jīng)過隨即抽取,其中,80%的數(shù)據(jù)作為模型訓(xùn)練區(qū),20%的數(shù)據(jù)作為驗(yàn)證測(cè)試區(qū).

(3)決策樹模型構(gòu)建.將模型訓(xùn)練區(qū)的數(shù)據(jù)通過SPSS的二元分類器對(duì)客戶屬性數(shù)據(jù)進(jìn)行評(píng)估,利用Logistic回歸模型得出客戶離網(wǎng)在每個(gè)屬性字段上的概率.圖2展示了前4層結(jié)果,其中:0為離網(wǎng)客戶,1為在網(wǎng)客戶.

圖2 預(yù)離網(wǎng)客戶識(shí)別模型

(4)修剪分支.在決策樹中,我們發(fā)現(xiàn)主資費(fèi)、入網(wǎng)渠道、投訴次數(shù)、農(nóng)村客戶屬性、家庭客戶屬性和集團(tuán)客戶屬性6個(gè)要素對(duì)于客戶離網(wǎng)影響概率極低,可將其作為無關(guān)分支進(jìn)行修剪.

(5)建立預(yù)離網(wǎng)客戶模型.經(jīng)過修剪分支后,根據(jù)決策樹節(jié)點(diǎn)模型所計(jì)算出的單個(gè)字段概率,對(duì)單字段進(jìn)行組合計(jì)算,構(gòu)建預(yù)離網(wǎng)客戶識(shí)別模型規(guī)則,其結(jié)果如表2所示.

表2 預(yù)離網(wǎng)客戶識(shí)別模型及篩選規(guī)則

(6)模型輸出.沉默客戶模型主要輸出3個(gè)字段:沉默標(biāo)識(shí)、沉默概率、沉默原因.

沉默標(biāo)識(shí)可以用來識(shí)別客戶是否疑似沉默客戶(0為否,1為是);沉默概率可以用來作為客戶是否疑似沉默客戶的概率(介于0到1之間),如一個(gè)客戶的目標(biāo)標(biāo)識(shí)為1,目標(biāo)可能性為0.9的要比0.7的更可能成為沉默客戶.部分結(jié)果如表3所示.

4 模型評(píng)估

模型評(píng)估的關(guān)鍵目的是,決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮.關(guān)于數(shù)據(jù)挖掘結(jié)果的使用決定應(yīng)該在此階段結(jié)束時(shí)確定下來.通常,通信運(yùn)營商利用模型增益和測(cè)試集查全及查準(zhǔn)率進(jìn)行模型評(píng)估工作[1].

4.1 增益評(píng)估

增益圖是不同閥值下命中率(PV+,正確預(yù)測(cè)到的正例數(shù)占預(yù)測(cè)正例總數(shù)的比例)與預(yù)測(cè)成正例的比例(Depth)的軌跡.隨著閾值的減小,更多的客戶就會(huì)被歸為正例,也就是Depth變大,這樣PV+就相應(yīng)減小.一個(gè)好的模型,在閾值變大時(shí),相應(yīng)的PV+就要變大,曲線足夠陡峭.

表3 預(yù)離網(wǎng)客戶識(shí)別模型結(jié)果輸出

如圖3所示,在閥值設(shè)定為20%的時(shí)候,曲線足夠陡峭,表明本模型效果較好,通過實(shí)際的使用,我們發(fā)現(xiàn)使用模型之后效果提升了約4.2倍.

圖3 增益評(píng)估圖

4.2 查全查準(zhǔn)評(píng)估

查全查準(zhǔn)評(píng)估通常采用查全率與查準(zhǔn)率來評(píng)價(jià).

在模型建立初期,由歷史上已離網(wǎng)客戶與在網(wǎng)客戶數(shù)據(jù)按1∶4比例進(jìn)行了數(shù)據(jù)平衡,并且從中隨機(jī)抽取了80%的數(shù)據(jù)作為模型訓(xùn)練區(qū),20%的數(shù)據(jù)作為驗(yàn)證測(cè)試區(qū).經(jīng)過模型對(duì)訓(xùn)練區(qū)數(shù)據(jù)進(jìn)行識(shí)別,并與驗(yàn)證測(cè)試區(qū)數(shù)據(jù)進(jìn)行對(duì)比,得出預(yù)離網(wǎng)客戶識(shí)別模型的查全率和查準(zhǔn)率為,

查全率=70987/(70987+17013)=80.67%,

查準(zhǔn)率=70987/(70987+12081)=85.46%.

5 模型識(shí)別效果與結(jié)論

5.1 模型識(shí)別效果

根據(jù)2011年4月某通信運(yùn)營商數(shù)據(jù),本預(yù)離網(wǎng)客戶識(shí)別模型識(shí)別出106 012戶具有離網(wǎng)傾向的客戶,參與營銷活動(dòng)的客戶有16 432戶,營銷效率為15.5%.通過跟蹤分析發(fā)現(xiàn)參與活動(dòng)的客戶,5月份狀態(tài)正常的客戶超過90%,而未參加活動(dòng)的客戶狀態(tài)正常的僅達(dá)40%左右;參加活動(dòng)的客戶人均MOU值提升了29.41%,人均ARPU值提升了23.67%.僅計(jì)算成功挽留的客戶就為公司節(jié)約新客戶拓展費(fèi)用約500萬元.

5.2 結(jié) 論

根據(jù)CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn))方法所建立的預(yù)離網(wǎng)客戶識(shí)別模型經(jīng)市場(chǎng)實(shí)踐,證明其是準(zhǔn)確而有效的.但是該模型仍然存在以下兩個(gè)方面的問題需要完善:一是季節(jié)性缺陷.根據(jù)市場(chǎng)規(guī)律,每年3~4月是市場(chǎng)淡季,客戶離網(wǎng)率急劇上升,而模型根據(jù)前3個(gè)月離網(wǎng)客戶的數(shù)據(jù)進(jìn)行分析,在市場(chǎng)淡季時(shí),參數(shù)可能會(huì)出現(xiàn)偏差,影響模型的準(zhǔn)確性.二是時(shí)效性缺陷.由于計(jì)費(fèi)系統(tǒng)設(shè)計(jì),客戶消費(fèi)的出賬時(shí)間間隔為一個(gè)月,因此對(duì)于預(yù)離網(wǎng)識(shí)別模型中相當(dāng)重要的指標(biāo)如ARPU值、MOU值等每個(gè)月才能獲取一次數(shù)據(jù),造成預(yù)離網(wǎng)客戶識(shí)別每個(gè)月才能提取一次客戶數(shù)據(jù).而在實(shí)際市場(chǎng)環(huán)境下,客戶離網(wǎng)是隨時(shí)發(fā)生的,因此預(yù)離網(wǎng)客戶識(shí)別模型難以在第一時(shí)間就識(shí)別出預(yù)離網(wǎng)客戶,影響了營銷效率的提高.

[1]CRISP-DM協(xié)會(huì).CRISP-DM 1.0數(shù)據(jù)挖掘方法論指南[EB/ OL].[2002-04-15].http://2011down.com/detail/gFiuTih.

[2]王桂芹,黃道.決策樹算法研究及應(yīng)用[J].電腦應(yīng)用技術(shù),2008,20(1):1-5.

[3]張獻(xiàn)華,田亮,葉幸春.基于決策樹的數(shù)據(jù)挖掘技術(shù)在電信用戶流失預(yù)測(cè)的應(yīng)用與研究[J].中國新通信,2007,9 (14):79-82.

[4]管東升.移動(dòng)通信客戶流失行為預(yù)測(cè)技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2005,21(10):57-59.

[5]王姝華,鐘云飛.數(shù)據(jù)挖掘在移動(dòng)通信業(yè)大客戶離網(wǎng)預(yù)測(cè)中的應(yīng)用[J].江蘇通信技術(shù),2004,20(3):1-4.

猜你喜歡
查準(zhǔn)率決策樹數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于深度特征分析的雙線性圖像相似度匹配算法
基于決策樹的出租車乘客出行目的識(shí)別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
营口市| 张家川| 霍林郭勒市| 丹棱县| 扶沟县| 专栏| 会泽县| 衡阳县| 板桥市| 巴东县| 元江| 长丰县| 吴桥县| 武义县| 遂昌县| 巴东县| 苍溪县| 周至县| 牟定县| 陆河县| 周口市| 开封市| 顺昌县| 涟水县| 怀安县| 古蔺县| 漳平市| 鄯善县| 禄丰县| 保康县| 新平| 监利县| 新河县| 开封县| 湄潭县| 明水县| 大悟县| 重庆市| 贡嘎县| 卫辉市| 邓州市|