張線媚(西安思源學(xué)院 工學(xué)院,陜西 西安 710038)
數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測中的應(yīng)用
張線媚
(西安思源學(xué)院 工學(xué)院,陜西 西安 710038)
客戶流失是電信行業(yè)發(fā)展過程中所面臨的一個嚴(yán)重問題,直接影響到運營商的企業(yè)效益。本文主要介紹了對電信行業(yè)客戶流失情況進(jìn)行數(shù)據(jù)挖掘的過程,改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點,根據(jù)運營商的歷史數(shù)據(jù)資料,利用SAS/EM模塊對客戶的固有特征和行為特征進(jìn)行挖掘分析,采用決策樹分類算法的CART算法建立了聚類分析模型和包括評估模塊在內(nèi)的一套完整的流失預(yù)測模型,能夠直觀地顯示出流失客戶的基本特征,并且可以對任意的數(shù)據(jù)集進(jìn)行分析,有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。
客戶流失;數(shù)據(jù)挖掘;決策樹;CART算法;聚類分析;SAS/EM模塊;客戶流失預(yù)測模型
在電信這個服務(wù)型行業(yè)中,客戶關(guān)系管理工作直接關(guān)系著企業(yè)的經(jīng)濟(jì)效益、聲譽和信譽,而在客戶關(guān)系管理工作中,開發(fā)一個新客戶的成本比挽留一個老客戶的成本要高出很多倍[1]。
傳統(tǒng)上國內(nèi)外移動運營商認(rèn)為新客戶在最初兩個月內(nèi)流失的概率最大,大約為10%左右,所以運營商會建立一個呼叫中心,在客戶使用移動電話一個月左右后,主動和客戶聯(lián)系[2],但這樣的方法不切實際。因此,近年來好多電信運營商都開始建立客戶流失預(yù)測模型。
目前主要的做法有采用 SPSS公司的 Clementine工具,使用節(jié)點連接的方式,分別用分類回歸樹(CART)算法和 C5.0算法建立流失預(yù)測模型[3]。還有一種采用Weka工具的決策樹分類器,應(yīng)用一趟聚類算法進(jìn)行聚類分析,將分析后的簇群號作為新的特征增加到原數(shù)據(jù)集中,對新的數(shù)據(jù)建立決策樹分類模型[4]。該模型準(zhǔn)確率較高,但是模型考慮的變量因素比較少、數(shù)據(jù)量比較小,缺乏普遍性,對于客戶流失的原因分析具有一定的局限性。
本文采用 SAS軟件,在對大規(guī)模、高維度的歷史數(shù)據(jù)引入屬性選擇、特征提取和特征選擇的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行處理,然后利用新的數(shù)據(jù)源建立包括模型評估在內(nèi)的完整的流失預(yù)測模型。模型中添加了評估模塊,可以對流失預(yù)測的結(jié)果進(jìn)行檢測優(yōu)化,提高流失預(yù)測的準(zhǔn)確率;克服了單一評價標(biāo)準(zhǔn)的缺陷,結(jié)合了是否流失和流失概率兩個基本的評價標(biāo)準(zhǔn);而且對于最終的預(yù)測結(jié)果有詳細(xì)的報告存儲路徑,以便查看和應(yīng)用于日后的市場運營策略的改進(jìn)工作中,從而有效地采取挽留措施,減少客戶的流失量,做好客戶關(guān)系管理工作,提高企業(yè)的經(jīng)營效益,獲得企業(yè)持續(xù)經(jīng)營的成功。
要建立靈活、普遍性高的客戶流失預(yù)測模型,必須采集大量的客戶信息資源數(shù)據(jù),同時需要對其進(jìn)行數(shù)據(jù)的預(yù)處理,得到構(gòu)建模型所需的數(shù)據(jù)形式。因此,在這個階段需要對模型所需的原始數(shù)據(jù) (訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù))進(jìn)行分析處理,以便能充分挖掘出客戶的關(guān)鍵性行為特征[5]。
1.1樣本選擇和數(shù)據(jù)描述
以某地區(qū)聯(lián)通運營商的客戶業(yè)務(wù)數(shù)據(jù)作為實驗數(shù)據(jù)(包括訓(xùn)練樣本集和測試樣本集),該樣本數(shù)據(jù)集中總共包含了 695 689條(包含正常客戶和流失客戶)記錄,每條記錄由33項客戶基本信息和48項客戶行為特征(12種業(yè)務(wù),4個月,共48項)以及1項客戶類別特征組成。
(1)客戶基本信息:主要是客戶資料數(shù)據(jù)??蛻艋拘畔?shù)據(jù)是客戶的靜態(tài)數(shù)據(jù)(如表1所示),相對來說比較穩(wěn)定,但是由于這些數(shù)據(jù)在客戶入網(wǎng)填寫時會包含大量的缺失值,甚至是假的錯誤的信息,所以需要進(jìn)行大量的數(shù)據(jù)清洗和轉(zhuǎn)換工作。
表1 客戶基本特征表
(2)客戶消費行為特征:主要是客戶在過去4個月的消費行為數(shù)據(jù)??蛻粝M行為特征的每條記錄包含了客戶在過去4個月的消費情況,包括12個基本消費行為,所以該樣本總共包含了 48(12×4=48)項數(shù)據(jù)記錄,如表2所示。
(3)客戶類別特征:主要用來標(biāo)注客戶的狀態(tài)。實驗樣本數(shù)據(jù)集中包含了一個可以判定類別信息的類別特征(如表3所示),根據(jù)類別信息可以知道每個客戶的基本狀態(tài)。
表2 客戶消費行為特征表(一個月份)
表3 客戶類別特征
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的效果會直接影響到模型的性能和流失預(yù)測的結(jié)果,一方面,通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡單、準(zhǔn)確,而且便于理解;另一方面,可以根據(jù)整理好的數(shù)據(jù)的特點以及不同算法的要求,選擇合適的執(zhí)行算法,從而降低算法的時間和空間復(fù)雜度。為了克服已有模型存在的缺乏靈活性缺陷,此處的數(shù)據(jù)預(yù)處理是根據(jù)數(shù)據(jù)的屬性特點分開進(jìn)行,主要包括數(shù)據(jù)清洗、特征構(gòu)造和特征選擇等過程[6]。
(1)數(shù)據(jù)清洗
主要是補全缺失的數(shù)據(jù)、處理不一致的數(shù)值、除去錯誤的數(shù)據(jù)。例如:如果某條記錄中存在大量的缺失值,而且這些數(shù)據(jù)很難用正常的方法來補全,則可以考慮刪除整條記錄數(shù)據(jù);又或者記錄數(shù)據(jù)的某項缺失,在不影響整體樣本數(shù)據(jù)集的情況下,可以考慮用均值來補全缺失值。
(2)數(shù)據(jù)轉(zhuǎn)換
主要包括構(gòu)造新的衍生特征信息和對連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化。在采集的數(shù)據(jù)信息中,消費行為特征只有過去4個月的消費記錄,這幾個特征不能充分體現(xiàn)客戶在這4個月以及將來的消費情況。所以,在對數(shù)據(jù)集進(jìn)行處理時,對于12項月消費行為的記錄采用了構(gòu)造衍生特征的措施,構(gòu)造了24項月均消費信息和月均消費趨勢的信息。例如:
月均消費行為:為過去4個月的費用的平均值,表示為mb_fee,即:
月消費趨勢:為過去4個月的消費記錄中后2個月的總消費與前2個月的總消費的比值,表示為trend_fee,即:
(3)特征選擇
這個步驟將會直接影響到分類預(yù)測模型的性能。通過選擇相關(guān)性強的特征,從原始數(shù)據(jù)集中刪除不相關(guān)或者相關(guān)性很小的特征項,保留與目標(biāo)特征相關(guān)性大的特征項,可以減少樣本的維度,從而大大減少計算量,降低時間和空間的復(fù)雜度,簡化學(xué)習(xí)模型。
經(jīng)過對數(shù)據(jù)進(jìn)行預(yù)處理,最終整理了高維度、大規(guī)模的、用于實驗數(shù)據(jù)集的樣本,總共包含了 631 590條記錄,每條記錄包含33項客戶基本信息和114項客戶消費行為特征 (構(gòu)造的24項月均消費行為特征、24項月均消費趨勢特征和17項通話行為特征、21項不同時段通話頻率行為特征、20項服務(wù)消費行為特征以及8項手機(jī)上網(wǎng)行為特征)以及1項類別特征,總共148項。
因為本案例主要應(yīng)用兩種模型來進(jìn)行數(shù)據(jù)挖掘,所以在建立模型時需要考慮可實施性來建立合理的模型。在這里采用SAS/EM模塊來搭建整個模型,將聚類分析模型和流失預(yù)測模型布置在同一個工作區(qū)中,兩個模型各自執(zhí)行不同的功能,最終完成對數(shù)據(jù)的挖掘工作。所建立的模型如圖1所示。
圖1 客戶聚類分析和流失預(yù)測模型
2.1聚類分析模型
聚類分析模型通過對客戶的合理劃分來反映客戶的整體特征,根據(jù)劃分后的類別簇群來判斷不同客戶的固有信息及消費特點。
從聚類分析模型的顯示結(jié)果(如圖2所示)可以看出,所有的客戶被分為10個簇群,從各個簇群的類別分布情況來看,有6個簇(簇1、簇2、簇4、簇5、簇8、簇9)的客戶基本是由正??蛻艚M成,其他4個簇的客戶基本是由流失客戶組成,而且通過與每個特征分布的均值對比,可以發(fā)現(xiàn)10號簇群的差異性最大[7-8]。
2.2流失預(yù)測模型
對數(shù)據(jù)進(jìn)行聚類分析是流失預(yù)測的基礎(chǔ),目的是將客戶劃分為不同的類別,這樣可以在不同的客戶群體上進(jìn)行預(yù)測分析,從而根據(jù)各記錄的類別編號判定流失客戶的所屬類別。所以在進(jìn)行流失預(yù)測分析之前,將每條記錄所在的類別編號作為一項特征添加到實驗數(shù)據(jù)表中,用于流失預(yù)測建立模型的數(shù)據(jù)集中總共包含了150項特征(148項基本特征+1項聚類編號+1項目標(biāo)特征)和631 590條數(shù)據(jù)記錄。選取其中2/3的數(shù)據(jù)作為訓(xùn)練集,剩余1/3的數(shù)據(jù)作為測試集,這樣分開預(yù)測主要是后面便于檢測預(yù)測模型的準(zhǔn)確度。
本案例使用SAS/EM的決策樹分類節(jié)點作為客戶流失預(yù)測的基本工具,選用決策樹分類算法中的分類與回歸樹(Classification and Regression Tree,CART)算法構(gòu)建聚類分析模型,該算法采用Gini系數(shù)來度量對某個屬性變量測試輸出的兩組取值的差異性,采用“最佳評估值”方法來進(jìn)行樹剪枝。
在 SAS/EM模塊流失預(yù)測模型的分析結(jié)果中,圖 3為混淆矩陣,直觀顯示訓(xùn)練集和測試集的預(yù)測數(shù)據(jù)結(jié)果,圖 4為 Gini系數(shù)均方誤差曲線圖,通過訓(xùn)練集和測試集Gini系數(shù)的均方誤差曲線對比來反映模型的誤分率情況。
圖3 混淆矩陣圖
圖4 Gini系數(shù)均方誤差曲線圖
如圖5所示為流失預(yù)測的樹狀圖,顯示決策樹深度為3,從頂部開始,直到獲得了最佳分類結(jié)果時才停止分支,當(dāng)其達(dá)到最佳結(jié)果并且獲得了按同一規(guī)則分類的客戶時,便會在底部出現(xiàn)葉子節(jié)點。每個葉子節(jié)點的產(chǎn)生所依據(jù)的最重要的變量依次為[9]:客戶平均每個月的總消費(MB_TOTAL_FEE)、月均本地通話次數(shù)(CS_LOCAL_COUNT)和月均新業(yè)務(wù)費(MB_NEW_FEE)等。
下面根據(jù)圖5所顯示的規(guī)則,結(jié)合聚類分析模型的應(yīng)用來說明被分類為流失客戶的一個分支節(jié)點,流失客戶基本上具備以下特點:
(1)平均每個月的總消費小于 0.015元,流失概率為94.5%;
(2)平均每個月本地通話次數(shù)小于 0.125,流失概率為95.2%;
(3)平均每個月的新業(yè)務(wù)費小于 6.25元,流失概率為96.0%。
圖5 流失預(yù)測模型的樹狀結(jié)構(gòu)圖
從預(yù)測模型的目標(biāo)分類來看,目標(biāo)客戶主要分為2類(正常客戶和流失客戶),應(yīng)用CART算法來進(jìn)行流失預(yù)測分析,那么Gini系數(shù)的最大值為0.5。理想的分類應(yīng)該盡量使樣本輸出變量取值的差異性總和達(dá)到最小,即“純度”最大,也就是使得輸出變量的取值差異性下降最快,“純度”增加最快。從圖4所示的Gini系數(shù)均方誤差曲線圖來看,曲線的下降速度很快,而且Gini系數(shù)的均方誤差取值很小,也就是說,建立的流失預(yù)測模型性能很好,接近理想的分類。
對已知客戶狀態(tài)的數(shù)據(jù)利用模型來進(jìn)行預(yù)測分析,將得到的預(yù)測結(jié)果和實際客戶的狀態(tài)進(jìn)行對比,可以計算出預(yù)測的準(zhǔn)確度。流失預(yù)測模型的評估結(jié)果如圖6所示,計算出準(zhǔn)確度為 96.8%,從整個模型的預(yù)測結(jié)果和評估結(jié)果來看,建立的客戶流失預(yù)測模型比較接近理想模型,具有一定的實踐意義。
本文應(yīng)用數(shù)據(jù)挖掘技術(shù),采用聚類分析和決策樹分類算法對電信行業(yè)中的客戶流失情況進(jìn)行了分析。利用SAS/EM模塊,在建立了分類模型后,應(yīng)用 CART算法建立了客戶流失預(yù)測模型,結(jié)合2種模型的預(yù)測結(jié)果,對流失客戶所具備的基本特征做了總結(jié),并且對建立的流失預(yù)測模型進(jìn)行了評估測試和優(yōu)化。建立的這套完整的模型改進(jìn)了現(xiàn)有流失預(yù)測模型缺乏靈活性、難以處理大規(guī)模高維度數(shù)據(jù)的缺陷,有效地提高了模型的準(zhǔn)確性(準(zhǔn)確性高達(dá) 96.8%)和普遍應(yīng)用性。
圖6 流失預(yù)測模型的評估結(jié)果
[1]劉飛.我國通信企業(yè)客戶流失預(yù)測研究綜述[J].企業(yè)科技與發(fā)展,2011(7):273-275.
[2]夏國恩.客戶流失預(yù)測的現(xiàn)狀與發(fā)展研究[J].計算機(jī)應(yīng)用研究,2010,27(2):151-153.
[3]師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測分析[J].山西電子技術(shù),2009(1):48-50.
[4]蔣盛益,王連喜.面向電信的客戶流失預(yù)測模型研究[J].山東大學(xué)學(xué)報(理學(xué)版),2011,46(5):77-81.
[5]李陽,劉勝輝,趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶流失管理中的研究與應(yīng)用[J].電腦知識與技術(shù),2010,6(3):518-521.
[6]吳志勇,戴曰章,鞠傳香.數(shù)據(jù)挖掘在電信客戶流失中的應(yīng)用[J].山東理工大學(xué)學(xué)報(自然科學(xué)報),2007,21 (5):28-31.
[7]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實現(xiàn)[M].北京:電子工業(yè)出版社,2011.
[8]楊池然,仲文明,周志勇.SAS9.2從入門到精通[M].北京:電子工業(yè)出版社,2011.
[9]MACLENNAN J,Tang Zhaohui,CRIVAT B.Data mining with Microsoft SQL Server 2008(2nd edition)[M].北京:清華大學(xué)出版社,2010.
The application of data mining to client churning prediction in telecom
Zhang Xianmei
(School of Industry,Xi′an Siyuan University,Xi′an 710038,China)
Client churning is a serious problem in the development of telecommunication industry,and it has immediate influence to the profit of a company.This paper mainly introduces the whole procession of data mining in client churning of telecommunication.According to the data in the provider′s database,by analyzing and mining the natural attribution and action attribution among the clients,we set up a clustering model and an integrated prediction model,including assessment module,which is based on CART algorithm of decision tree in SAS EM module for client churning.The new model improves the disadvantages of the existed models,such as lack of flexibility,unable to process data with high dimensionality,even shows the essential features of customers lost visually.Using this model can analyse arbitrary datasets effectively and it enhances the generational applicability and the prediction accuracy rate.
client churn;data mining;decision tree;CART algorithm;cluster analysis;SAS/EM module;direction model for client churn
TP393
A
1674-7720(2015)15-0099-04
張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99-102.
2015-04-08)
張線媚(1987-),女,碩士,助教,主要研究方向:無線傳感器網(wǎng)路及計算機(jī)應(yīng)用、數(shù)據(jù)挖掘。