国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹的客戶流失預(yù)測模型

2022-08-02 12:24張靜怡胡俊英李衛(wèi)斌
關(guān)鍵詞:決策樹次數(shù)交易

張靜怡,胡俊英,李衛(wèi)斌

(1.廈門大學(xué)經(jīng)濟(jì)管理學(xué)院,福建 廈門 361005;2.西北大學(xué)數(shù)學(xué)學(xué)院,陜西 西安 710127;3.西安電子科技大學(xué)北斗時(shí)空智能研究中心,陜西 西安 710126)

1 引言

隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展,吸引了越來越多的社會(huì)資金進(jìn)入證券市場,然而,由于證券企業(yè)管理能力的差異,又導(dǎo)致了證券交易客戶的頻繁流動(dòng).對一個(gè)證券企業(yè)而言,客戶的流失與企業(yè)的利潤息息相關(guān),有研究表明,對于電信業(yè),銀行業(yè)等,客戶流失率下降5%,就可以為該行業(yè)帶來25%-85%的利潤[1-4].由此可以看出,設(shè)計(jì)準(zhǔn)確的潛在流失客戶的預(yù)測方法,對這些潛在流失的客戶提前采取有效的有針對性的挽留方法,對降低客戶流失率至關(guān)重要.

近年來,國內(nèi)外學(xué)者對此也進(jìn)行了很多研究,針對不同行業(yè)客戶數(shù)據(jù)的流失預(yù)測模型逐漸出現(xiàn).文獻(xiàn)[5-9]利用單調(diào)分類法,支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)等方法分別研究了電信用戶,網(wǎng)絡(luò)用戶和銀行用戶的流失影響因素,進(jìn)而給出了流失預(yù)警.文獻(xiàn)[10]利用K-means聚類和Logistic回歸分析了各種因素對客戶流失的影響程度.文獻(xiàn)[11]利用隨機(jī)森林法對數(shù)據(jù)類噪聲濾波基礎(chǔ)上提高了分類器的性能,進(jìn)而對公司客戶流失進(jìn)行預(yù)警.文獻(xiàn)[12]使用神經(jīng)網(wǎng)絡(luò)的自適應(yīng)算法,將代表離網(wǎng)用戶行為特征的45個(gè)指標(biāo)進(jìn)行樣本訓(xùn)練,最終得客戶流失行為傾向的判斷模型.文獻(xiàn)[13]在對XgBoost算法進(jìn)行改進(jìn)的基礎(chǔ)上建立數(shù)學(xué)模型預(yù)測了電信用戶的流失問題.

上述研究主要通過算法的改進(jìn),提高模型預(yù)測的準(zhǔn)確性,幾乎所有的方法都是直接對原始數(shù)據(jù)進(jìn)行分析處理,缺乏對數(shù)據(jù)本身蘊(yùn)含信息的提取和利用,而且所建立的數(shù)學(xué)模型也是針對具體行業(yè)客戶數(shù)據(jù),導(dǎo)致模型難以推廣應(yīng)用.本文主要通過挖掘證券客戶交易數(shù)據(jù)的深層信息,并利用CART算法[14-15]構(gòu)建預(yù)測模型,以提高潛在流失客戶的預(yù)測精度.具體地,首先定義合適的時(shí)間窗,基于交易數(shù)據(jù)序列建立信息熵,趨勢值和波動(dòng)值等特征指標(biāo)體系,再利用CART算法構(gòu)建決策樹模型,用于預(yù)測潛在流失客戶.在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文提出的方法可以準(zhǔn)確預(yù)測潛在流失客戶.

2 相關(guān)算法

2.1 CART算法概述

決策樹是一種經(jīng)典有效的回歸與分類方法,其中CART算法[8]是應(yīng)用最廣泛的一種決策樹學(xué)習(xí)方法,本文使用決策樹中的CART算法來訓(xùn)練一棵二叉樹作為預(yù)測模型.CART算法由特征選擇、樹的生成及剪枝三部分共同構(gòu)成,該算法首先假設(shè)決策樹是二叉樹,遞歸地二分每一個(gè)特征,將特征空間分割成有限個(gè)單元,并在這些單元上確定所要預(yù)測的概率分布.本文將遵循基尼指數(shù)最小化準(zhǔn)則,進(jìn)行特征選取,生成最優(yōu)決策樹.

2.2 基尼指數(shù)

分類問題中,假設(shè)有K類,樣本點(diǎn)所在區(qū)域?qū)儆诘趉類的概率值為pk,則概率分布的基尼指數(shù)可以被定義為

對于二分類問題,若樣本點(diǎn)所在區(qū)域?qū)儆诘?類的概率值是p,則概率分布的基尼指數(shù)為

對于給定的樣本集合D,其基尼指數(shù)為

其中,Ck表示D中屬于第k類的樣本子集,K表示類的總個(gè)數(shù).

如果根據(jù)特征A是否等于某一可能值a,將樣本集合D分割成D1和D2兩部分,即D1={(x,y)∈D|A(x)=a},D2=D-D1,則在特征A的條件下,按照下式定義集合D的基尼指數(shù)

基尼指數(shù)Gini(D)表示集合D的不確定性,基尼指數(shù)Gini(D,A)表示經(jīng)A=a分割后集合D的不確定性.基尼指數(shù)越大,樣本集合的不確定性也就越大.

2.3 生成算法

輸入:訓(xùn)練數(shù)據(jù)集D,停止計(jì)算的條件;

輸出:CART決策樹.

根據(jù)訓(xùn)練數(shù)據(jù)集,從根結(jié)點(diǎn)開始,依次對每一個(gè)結(jié)點(diǎn)進(jìn)行以下處理去構(gòu)建二叉決策樹:

(1)設(shè)結(jié)點(diǎn)的訓(xùn)練數(shù)據(jù)集為D,計(jì)算已有特征關(guān)于該數(shù)據(jù)集的Gini指數(shù).在這種情形下,對每一特征A,對其可能取到的每一個(gè)值a,按照樣本點(diǎn)是否滿足A=a這一試驗(yàn)條件,分割為D1和D2兩部分,再利用(4)式計(jì)算A=a時(shí)的Gini指數(shù)Gini(D,a);

(2)在所有可能的特征A以及他們所有可能的切分點(diǎn)a中,選擇Gini指數(shù)最小的特征和與其相應(yīng)的切分點(diǎn)作為最優(yōu)特征與最優(yōu)切分點(diǎn).依最優(yōu)特征與最優(yōu)切分點(diǎn),從現(xiàn)結(jié)點(diǎn)生成兩個(gè)子結(jié)點(diǎn),將訓(xùn)練數(shù)據(jù)集依特征分配到兩個(gè)子結(jié)點(diǎn)中去;

(3)對兩個(gè)子結(jié)點(diǎn)遞歸地調(diào)用(1)式-(2)式,直至滿足停止條件(節(jié)點(diǎn)中樣本個(gè)數(shù)小于預(yù)定閾值,樣本集的Gini指數(shù)小于閾值,或者沒有更多的特征).

(4)生成CART決策樹.

2.4 剪枝算法

輸入:CART算法生成的決策樹T0;

輸出:最優(yōu)決策樹Tα.

(1)設(shè)k=0,T=T0;

(2)設(shè)α=∞;

(3)自下而上地對各內(nèi)部節(jié)點(diǎn)t,計(jì)算C(Tt),|Tt|以及

(4)對g(t)=α的內(nèi)部節(jié)點(diǎn)t進(jìn)行剪枝,并對葉節(jié)點(diǎn)t以多數(shù)表決法決定其類,得到樹T;

(5)設(shè)k=k+1,αk=α,Tk=T;

(6)如果Tk不是由根結(jié)點(diǎn)及兩個(gè)葉節(jié)點(diǎn)構(gòu)成的樹,則回到步驟(2);否則令Tk=Tn;

(7)采用Cross-validation在子樹序列T0,T1,···,Tn中選取最優(yōu)子樹Tα.

3 基于決策樹模型的實(shí)證分析

3.1 數(shù)據(jù)獲取

本文數(shù)據(jù)來源于某證券有限公司.數(shù)據(jù)包含了從2011年7月到2012年10月的16 074個(gè)客戶交易記錄,其中正常客戶記錄10 000條,銷戶客戶記錄6 074條.具體數(shù)據(jù)由10張信息表組成,包括:

·銷戶客戶和正??蛻艋拘畔⒈砀饕粡?包括客戶ID,開戶日期,銷戶日期,年齡,性別,客戶狀態(tài),有無客戶經(jīng)理)

·銷戶客戶和正常客戶持倉比例表各一張

·銷戶客戶和正??蛻艚灰仔畔⒈砀饕粡?包括交易次數(shù),交易額,傭金)

·銷戶客戶和正??蛻糍I入信息表各一張(包括買入次數(shù),買入額,傭金)

·銷戶客戶和正常客戶賣出信息表各一張(包括賣出次數(shù),賣出額,傭金)

·銷戶客戶和正??蛻羧站Y產(chǎn)表各一張

·銷戶客戶和正??蛻粼履┵Y產(chǎn)和證券市值表各一張

·銷戶客戶和正常客戶轉(zhuǎn)賬信息表各一張(包括轉(zhuǎn)賬次數(shù),轉(zhuǎn)賬金額)

·銷戶客戶和正??蛻艮D(zhuǎn)入信息表各一張(包括轉(zhuǎn)入次數(shù),轉(zhuǎn)入金額)

·銷戶客戶和正常客戶轉(zhuǎn)出信息表各一張(包括轉(zhuǎn)出次數(shù),轉(zhuǎn)出金額)

3.2 構(gòu)造數(shù)據(jù)集

3.2.1 數(shù)據(jù)預(yù)處理

由于原始數(shù)據(jù)從數(shù)據(jù)庫中導(dǎo)出時(shí)會(huì)有一些分類錯(cuò)誤和數(shù)據(jù)信息錯(cuò)誤的情況,所以需要對原始數(shù)據(jù)做處理,以便避免錯(cuò)誤數(shù)據(jù)對后續(xù)建模的影響.數(shù)據(jù)預(yù)處理包含以下幾個(gè)步驟:

(1)根據(jù)客戶狀態(tài)將銷戶客戶和正??蛻粽_分類.因?yàn)榇嬖趶臄?shù)據(jù)庫導(dǎo)出數(shù)據(jù)的過程中,部分銷戶和正??蛻舴诸愬e(cuò)誤的現(xiàn)象.

(2)刪除錯(cuò)誤客戶的信息記錄.例如:在本數(shù)據(jù)中,出現(xiàn)了持倉比例大于1的兩位客戶記錄,這顯然是錯(cuò)誤數(shù)據(jù),故將此類客戶的所有信息記錄剔除.

經(jīng)過上述兩步處理,現(xiàn)有總客戶記錄16 072條,其中正??蛻粲涗?0 355條,銷戶5 717條.

3.2.2 時(shí)間窗口

需要定義預(yù)測的輸入變量(自變量)和預(yù)測變量(因變量)的時(shí)間窗口.在自變量時(shí)間窗口方面,如果取的時(shí)間段太短,不確定因素較多,客戶行為有很大的隨機(jī)性,不具有代表性;取的時(shí)間段太長,數(shù)據(jù)過于陳舊,不能準(zhǔn)確反映客戶的最新行為趨勢.另外,考慮到銷戶時(shí)間在2011年7月到2011年12月底之間的流失客戶記錄僅為73條,若自變量窗口多屬于這6個(gè)銷戶月內(nèi),那么在解析問題的時(shí)候會(huì)由于銷戶客戶的數(shù)據(jù)量不足,不具有說服力.綜上考慮,將自變量窗口時(shí)間寬度取為6個(gè)月,時(shí)間跨度為2012年1月至2012年6月.

對因變量(客戶是否流失)的數(shù)據(jù)窗口來說,為了使得到的預(yù)測結(jié)果不僅起到預(yù)判的作用,又能為營業(yè)部提供充足的時(shí)間制定策略對客戶進(jìn)行挽留,本文考慮將因變量的時(shí)間窗口起點(diǎn)定在自變量時(shí)間窗口的一個(gè)月之后.定義因變量的時(shí)間窗口寬度為3個(gè)月.

圖1 時(shí)間窗口表

3.2.3 流失定義

方便起見,本文用0代表正常客戶,1代表銷戶客戶.從客戶狀態(tài)來看,這個(gè)原始分類僅就銷戶時(shí)間而定.實(shí)際上,經(jīng)分析有些客戶雖是未銷戶的狀態(tài)0,但表現(xiàn)出的行為特征,比如日均資產(chǎn)減少,交易頻率低,賬戶活躍度低等皆與流失客戶的表現(xiàn)一致.雖然從客觀上來看,銷戶日期是鑒定客戶是否流失的唯一標(biāo)準(zhǔn),但若僅僅以銷戶日期作為客戶是否流失的標(biāo)準(zhǔn)必然會(huì)對后續(xù)模型的建立產(chǎn)生不良影響.鑒于這個(gè)考慮,本文結(jié)合實(shí)際情況,將滿足如下兩個(gè)因素中任意一條即視為銷戶:

(1)交易記錄中有明確的銷戶日期;

(2)一定時(shí)期內(nèi)無交易記錄,且日均資產(chǎn)偏低.

為確定條件(2)中日均資產(chǎn)的臨界值,本文利用SPSS對正??蛻艉弯N戶客戶的日均資產(chǎn)從2012年1月到2012年6月的總和做頻率分析,結(jié)果如表1:

表1 日均資產(chǎn)統(tǒng)計(jì)表

由表1可以看出銷戶客戶的日均資產(chǎn)50%的分位點(diǎn)為8 044.974 073,而正??蛻羧站Y產(chǎn)25%分位點(diǎn)就已經(jīng)是13 068.182 57.為了選取一個(gè)日均資產(chǎn)的銷戶臨界值,本文希望盡量地多包含銷戶客戶,而將正??蛻舻陌士刂圃?5%以內(nèi),同時(shí)為了方便篩選數(shù)據(jù),對正??蛻羧站Y產(chǎn)15%分位點(diǎn)6 394.565 170向下取整,即得到銷戶定義所需的日均資產(chǎn)臨界值6 395.

在此數(shù)據(jù)集條件下,第二條銷戶定義為六個(gè)月交易次數(shù)和為0且六個(gè)月日均資產(chǎn)平均值小于6 395時(shí)為流失客戶.

此時(shí),在剔除了銷戶時(shí)間在2012年以前的數(shù)據(jù)記錄后,利用EXCEL對原始客戶狀態(tài)進(jìn)行更改,原來的10 355條正常客戶中有1 553條更新為銷戶狀態(tài).并將新的客戶狀態(tài)命名為new client state.

經(jīng)過客戶狀態(tài)更新,現(xiàn)共有15 999錄,其中正??蛻粲涗洖? 902條,銷戶客戶記錄為7 197條.

3.2.4 指標(biāo)體系建立

原始交易記錄數(shù)據(jù)雖然能夠在一定程度上反映正常客戶和銷戶客戶之間的區(qū)別,但是具體的區(qū)別卻很難直接觀察得到,因而需要根據(jù)實(shí)際問題的需要,從實(shí)際交易數(shù)據(jù)中抽取能夠反映兩類客戶真正區(qū)別的指標(biāo).本文考慮選擇客戶基本信息,交易次數(shù),交易金額,轉(zhuǎn)賬次數(shù),日均資產(chǎn),持倉比例和證券市值這7個(gè)指標(biāo)作為基礎(chǔ)數(shù)據(jù),利用這些基礎(chǔ)數(shù)據(jù)構(gòu)建新的特征指標(biāo),具體包括:

(1)趨勢類指標(biāo)

對時(shí)間序列而言,趨勢變化是一個(gè)非常重要的方面.對于證券交易客戶,交易次數(shù)、持倉比例、日均資產(chǎn)的變化趨勢應(yīng)該能夠在一定程度上反映該客戶是否可能流失,如果一個(gè)客戶的交易次數(shù),持倉比例,日均資產(chǎn)的趨勢有降低的傾向,那么這個(gè)客戶流失的可能性將會(huì)變大.為能夠準(zhǔn)確反映某一項(xiàng)統(tǒng)計(jì)數(shù)據(jù)的變化趨勢,本文采用以時(shí)間為自變量,以一項(xiàng)統(tǒng)計(jì)數(shù)據(jù)為因變量建立回歸模型,以回歸系數(shù)作為該統(tǒng)計(jì)數(shù)據(jù)對應(yīng)的趨勢類衍生指標(biāo),具體公式為

其中,x表示月份,y表示相應(yīng)指標(biāo)值,n表示月份數(shù).

(2)波動(dòng)類指標(biāo)

趨勢可以反映時(shí)間序列變化的大致方向,但無法反映變化過程的波動(dòng),因此針對統(tǒng)計(jì)數(shù)據(jù),定義其波動(dòng)指標(biāo)為

(3)信息熵

將客戶的交易數(shù)額看作一個(gè)隨機(jī)過程,從而可以用隨機(jī)變量的信息熵來表示交易過程的不確定性,公式為

其中p(x)表示統(tǒng)計(jì)數(shù)據(jù)取值為x的概率,具體計(jì)算參考集合的特征函數(shù)[9]與樸素貝葉斯法參數(shù)估計(jì)[10]的思想,按照如下方法進(jìn)行:

Step1:提取每個(gè)客戶、每個(gè)指標(biāo)在自變量窗口時(shí)間下的最大值max;

Step2:將[0,max]等分為五個(gè)區(qū)間:Ai,i=1,2,···,5;

Step3:按照每個(gè)月的指標(biāo)值xj是否屬于區(qū)間Ai計(jì)算概率

本文按下述步驟進(jìn)行衍生指標(biāo)計(jì)算,具體結(jié)果見表2:

表2 相關(guān)字段及定義

(1)將客戶六個(gè)月的交易次數(shù),交易金額,轉(zhuǎn)賬次數(shù),日均資產(chǎn),持倉比例和證券市值做了匯總平均;

(2)生成交易次數(shù),日均資產(chǎn),持倉比例的趨勢指標(biāo);

(3)生成證券市值,轉(zhuǎn)賬次數(shù)的波動(dòng)指標(biāo);

(4)利用交易金額和日均資產(chǎn)這兩個(gè)單變量生成資金周轉(zhuǎn)率指標(biāo),具體計(jì)算公式:資金周轉(zhuǎn)率=交易金額/日均資產(chǎn),并對資金周轉(zhuǎn)率進(jìn)行六個(gè)月的匯總平均.同時(shí),計(jì)算資金周轉(zhuǎn)率的趨勢指標(biāo);

(5)生成交易次數(shù),交易金額,轉(zhuǎn)賬次數(shù),日均資產(chǎn),持倉比例和證券市值的熵指標(biāo);

(6)歸一化處理.

為了加快學(xué)習(xí)算法的收斂速度且使不同量綱的特征處于同一數(shù)值的量級,進(jìn)行min-max歸一化,公式如下:

其中,min,max分別為該指標(biāo)的最小值和最大值.

3.3 數(shù)值實(shí)驗(yàn)結(jié)果

以7:3的比例將原有數(shù)據(jù)進(jìn)行隨機(jī)拆分,分為訓(xùn)練集和測試集兩個(gè)客戶群體.使用CART算法建立決策樹模型并在訓(xùn)練集中進(jìn)行模型訓(xùn)練,基于Gini指數(shù)進(jìn)行分類,在測試集上進(jìn)行預(yù)測,結(jié)果在表3中展示,最終構(gòu)建的部分決策樹詳情見圖2:

表3 預(yù)測結(jié)果

圖2 部分決策樹

可得出建立的預(yù)測模型的精確率為89.23%.實(shí)驗(yàn)結(jié)果表明基于提取的數(shù)據(jù)的深層特征(信息熵、趨勢值和波動(dòng)值)所構(gòu)建的預(yù)測模型,獲得了較高的預(yù)測準(zhǔn)確度,證明了所用方法的有效性.

4 結(jié)論

本文通過提取數(shù)據(jù)的深層特征,基于這些特征CART算法訓(xùn)練的決策樹模型可以較準(zhǔn)確地預(yù)測到有流失風(fēng)險(xiǎn)的客戶,預(yù)測成功率達(dá)到0.89,模型效果較好,對證券公司客戶流失預(yù)測的實(shí)際應(yīng)用具有較大的參考價(jià)值.通過決策樹也可看出,日均資產(chǎn)和持倉比例是衡量顧客是否流失的重要指標(biāo),因此,證券公司可據(jù)此提供針對性服務(wù),挽留客戶.

猜你喜歡
決策樹次數(shù)交易
基于決策樹和神經(jīng)網(wǎng)絡(luò)的高血壓病危險(xiǎn)因素研究
2020年,我國汽車召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長3.9%
俄羅斯是全球閱兵次數(shù)最多的國家嗎?
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
決策樹多元分類模型預(yù)測森林植被覆蓋
大宗交易榜中榜
大宗交易榜中榜
探索性作戰(zhàn)仿真實(shí)驗(yàn)重復(fù)次數(shù)控制研究
基于決策樹的出租車乘客出行目的識(shí)別
大宗交易