国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹的銀行目標(biāo)客戶預(yù)測算法

2022-09-21 07:55夏安林杜董生盛遠(yuǎn)杰劉貝
電腦知識與技術(shù) 2022年24期
關(guān)鍵詞:基尼剪枝決策樹

夏安林,杜董生,盛遠(yuǎn)杰,劉貝

(淮陰工學(xué)院,江蘇淮安 223003)

1 引言

互聯(lián)網(wǎng)金融的興起,使人們在日常消費(fèi)中的支付更加便捷,為人們的儲蓄和借貸服務(wù)帶來了極大的方便和高效。在互聯(lián)網(wǎng)金融的沖擊與推動下,傳統(tǒng)銀行既要面對困難,也要面對機(jī)會。為了在日趨激烈的競爭中取得有利地位,傳統(tǒng)銀行應(yīng)從根本上適應(yīng)時(shí)代發(fā)展的潮流和需要[1]。由于網(wǎng)絡(luò)金融產(chǎn)品在利率、費(fèi)用、時(shí)間等方面相對于傳統(tǒng)銀行理財(cái)產(chǎn)品具有明顯的優(yōu)越性,因此,人們更愿意選擇將存款資金投資到網(wǎng)絡(luò)理財(cái)產(chǎn)品中,從而導(dǎo)致了銀行客戶資源的大量流失。而銀行是傳統(tǒng)的金融業(yè),雖然有著龐大的用戶基數(shù),卻不能完全利用這些數(shù)據(jù),因此,大量的數(shù)據(jù)并沒有給銀行提供更多的信息,更沒有發(fā)現(xiàn)海量的有用資料。

大數(shù)據(jù)時(shí)代,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的信息技術(shù)與各行各業(yè)的結(jié)合越來越緊密,隨著大數(shù)據(jù)對傳統(tǒng)金融行業(yè)的革新,我國傳統(tǒng)銀行面臨著新的機(jī)遇和挑戰(zhàn)[2]。傳統(tǒng)銀行系統(tǒng)具有豐富的數(shù)據(jù)量,但是獲得的信息卻很匱乏,銀行許多重要決策依舊是通過經(jīng)驗(yàn)做出的,而不是根據(jù)通過分析數(shù)據(jù)的結(jié)果科學(xué)決策,因此利用機(jī)器學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行分析,做出科學(xué)的決策才能使銀行巨大的數(shù)據(jù)庫發(fā)揮真正的作用[3]。

決策樹是一種廣泛應(yīng)用于數(shù)據(jù)挖掘的分類技術(shù),通過對顧客進(jìn)行歸類、對顧客進(jìn)行顧客關(guān)系的處理,并采用不同的市場策略,理解顧客的需要,降低顧客的損失,并提升企業(yè)的使用效率,降低費(fèi)用,增加效益。

2 決策樹相關(guān)理論

決策樹是一種實(shí)現(xiàn)分治策略的層次數(shù)據(jù)結(jié)構(gòu)[4]。該算法是一種能夠進(jìn)行分類與回歸的高效非參數(shù)學(xué)習(xí)算法。該算法可以從一組具有特點(diǎn)和標(biāo)記的資料中歸納出一套判別準(zhǔn)則,并利用樹型的形式將其表示出來,從而求解出一種歸類與回歸問題,決策樹算法的本質(zhì)是一種圖結(jié)構(gòu)。

決策樹的產(chǎn)生是一個(gè)遞推的過程,在三種情況下都會產(chǎn)生回歸。一是目前結(jié)點(diǎn)所含的所有樣品都是一個(gè)類,不需要進(jìn)行分類;二是當(dāng)前的屬性集合為空白,或者在全部的數(shù)據(jù)中都具有同樣的屬性值,則將目前的數(shù)據(jù)作為一個(gè)葉子的節(jié)點(diǎn),并且設(shè)置它為數(shù)據(jù)樣本最大的一個(gè)分類;三是目前節(jié)點(diǎn)所含的樣本集為空白,無法進(jìn)行分割,因此,將目前節(jié)點(diǎn)作為“葉節(jié)點(diǎn)”,設(shè)置該節(jié)點(diǎn)的類型為其父結(jié)點(diǎn)中數(shù)據(jù)樣本最大的一個(gè)類。

2.1 CART決策樹

CART 決策樹的生成包含分裂,剪枝和樹選擇三個(gè)步驟。分裂:分裂過程是一個(gè)二叉樹劃分過程,其特征可以是連續(xù)型或離散型的,CART沒有停止準(zhǔn)則,會一直生長下去;剪枝:利用成本復(fù)雜性進(jìn)行修剪,首先從最大的一棵樹中選取子樹,然后對其修剪,直至僅有一棵根結(jié)點(diǎn)為止,最終生成一棵最優(yōu)的決策樹;樹選擇:每個(gè)剪樹枝的預(yù)測效果分別采用一組試驗(yàn)集合進(jìn)行評價(jià)(也可以用交叉驗(yàn)證)。

CART 決策樹使用“基尼指數(shù)”(Gini index) 來選擇劃分屬性[5]??梢酝ㄟ^基尼值來衡量數(shù)據(jù)集X的純度。假定當(dāng)前樣本集合X中第k類樣本所占的比例為pk(k=1,2,3,…,y),則基尼值為公式1所示。

Gini(X) 表明了在兩個(gè)不同類型標(biāo)簽之間的不一致性的隨機(jī)抽樣的可能性?;岵患兌仁侵冈摌悠繁贿x擇的概率乘上錯(cuò)誤的概率。Gini(X)越小,則數(shù)據(jù)集X的純度越高。當(dāng)一個(gè)結(jié)點(diǎn)中所有的樣本都是一個(gè)類時(shí),基尼不純度為0。

屬性a的基尼指數(shù)定義為

基尼指數(shù)Gini(X,A)表示經(jīng)過A=a分割后集合X的不確定性?;嶂笖?shù)越大,樣本的不確定性就越大。在候選集合A中,選取劃分后基尼指數(shù)最小的特征作為最佳分割屬性,即:

2.2 剪枝

在決策樹學(xué)習(xí)中,剪枝是處理“過擬合”問題的重要方法,為使訓(xùn)練樣本得到最準(zhǔn)確的歸類,需要反復(fù)進(jìn)行分割,導(dǎo)致決策樹中出現(xiàn)大量的分支;在這種情況下,由于學(xué)習(xí)的樣本學(xué)習(xí)太好,以至于將某些特征視為所有的資料都具有的普遍特性,從而造成了過度擬合。決策樹剪枝的基本策略有“前剪枝”和“后剪枝”[6]。

前修剪算法是將決策樹的結(jié)構(gòu)預(yù)先終止而進(jìn)行修剪,因?yàn)樗荒茴A(yù)先得到停止的臨界點(diǎn),因此不經(jīng)常采用。后修剪技術(shù)是在決策樹發(fā)育成熟后,將一些結(jié)點(diǎn)上的分叉修剪,從而實(shí)現(xiàn)了對大型決策樹的裁剪。最有代表性的后修剪方法是成本復(fù)雜度修剪。其基本思想是:對每個(gè)內(nèi)部的結(jié)點(diǎn)進(jìn)行運(yùn)算,假設(shè)結(jié)點(diǎn)的子樹經(jīng)過修剪后,可以得到預(yù)期的錯(cuò)誤率。在修剪后,如果期望錯(cuò)誤率增加,就會保持這個(gè)子樹,否則就修剪這個(gè)子樹。該算法生成了一套修剪過的樹,然后利用一套單獨(dú)的試驗(yàn)系統(tǒng)對樹進(jìn)行評價(jià),最后正確率最高的樹被保留為結(jié)果。

3 基于決策樹算法的銀行客戶預(yù)測

通過對數(shù)據(jù)集的預(yù)處理,采用決策樹模型對數(shù)據(jù)進(jìn)行歸類,并對其進(jìn)行評估、分析,并將其與原始模型進(jìn)行對比,然后利用該模型對數(shù)據(jù)進(jìn)行了預(yù)測。測試流程包括:數(shù)據(jù)預(yù)處理,決策樹分類訓(xùn)練集,用訓(xùn)練后決策樹模型進(jìn)行預(yù)測,并將其輸出。

3.1 數(shù)據(jù)預(yù)處理

該文以銀行機(jī)構(gòu)直接營銷的海量真實(shí)數(shù)據(jù),分析各類屬性預(yù)測客戶是(1類)否(0類)會購買定期存款(y),所有決策屬性中還有客服人員與客戶聯(lián)系的信息以及其他屬性。

本數(shù)據(jù)集共有25317行,18列。前幾行示例如表1所示。

表1 數(shù)據(jù)集示例

數(shù)據(jù)說明如表2所示。

表2 數(shù)據(jù)說明

其中,客戶唯一標(biāo)識(ID)和預(yù)測客戶是否會訂購定期存款業(yè)務(wù)(y)不作為分類屬性,則選擇的分類屬性共有16種,選擇預(yù)測屬性一種(y)。在選定了這些屬性之后,每個(gè)屬性都會被檢查規(guī)范性和合理性,并且篩選出合格的屬性。

首先區(qū)分出連續(xù)型和離散型屬性,其中連續(xù)型屬性有{age,balance,day,duration,campaign,pdays,previous},離散型屬性有{job,marital,education,default,housing,loan,contact,month,poutcome}。

對每個(gè)連續(xù)屬性繪制箱線圖查看離群點(diǎn)的分布。可以提供數(shù)值型變量的最小值、最大值、四分位數(shù)、中位數(shù)和的值。將n 個(gè)數(shù)從小到大排序,四分位數(shù)是四分位置對應(yīng)的數(shù),以此類推:

下四分位:Q1=(n+1)/4

中分位:Q2=(n+1)/2

上四分位:Q3=3(n+1)/4

四分位距:IQR=Q3-Q1

上界:Q3+1.5IQR

下界:Q1-1.5IQR

通過圖1所示的箱線圖檢查連續(xù)型屬性是否存在離群點(diǎn)。

圖1 決策樹生成流程圖

圖1 連續(xù)型屬性箱線圖

由箱線圖可知:

1)age屬性刪除大于70的記錄。

2)balance刪除大于3763和小于-1965的記錄。

3)duration屬性刪除交流時(shí)長大于639秒的記錄。

4)campaign刪除聯(lián)系數(shù)量大于6的記錄。

5)day屬性沒有離群點(diǎn)不做刪除。

6)pdays屬性為客戶最近一次與之前活動聯(lián)系后經(jīng)過的天數(shù),pdays屬性中有20000 條左右值為-1,剩余越5000 條是不為-1,處于1~854 之間的一些值。這列數(shù)據(jù)的中位數(shù),上四分位數(shù),下四分位數(shù)均為-1,如果刪除離群點(diǎn),這個(gè)屬性全為相同值,就沒有意義了,所以不做刪除。

7)previous此活動開始前與客戶的聯(lián)系數(shù)量,previous屬性中有20000 條左右值為0,剩余約5000 條是不為0,處于1~275之間的值,此列屬性的上四分位數(shù),下四分位數(shù)和中位數(shù)都是0,所以也不做刪除。

對于離散型的變量,存在一些值為unknown的值,首先是進(jìn)行頻率的統(tǒng)計(jì),將少量的數(shù)據(jù)進(jìn)行剔除,大量的刪除會對分類的結(jié)果造成一定的干擾。

離散型的變量中存在值為unknown的有以下屬性:

1)job工作類型,unknown值較少,進(jìn)行刪除。

2)education教育水平,unknown值較少,進(jìn)行刪除。

3)contact聯(lián)系人通信類型,unknown值有7000 多條,為了避免影響結(jié)果,所以不做刪除。

4)poutcome以前的營銷活動的結(jié)果,unknown值有20000多條,為了避免影響結(jié)果,所以不做刪除

不存在unknown值的離散型變量有以下屬性:

1)marital婚姻狀況,三個(gè)取值,無異常值。

2)default,二元變量,無異常值。

3)housing是否有住房貸款,二元變量,無異常值。

4)loan是否有個(gè)人貸款,二元變量,無異常值。

5)month每年的最后一個(gè)聯(lián)系月份,十二個(gè)月份,無異常值。

3.2 建模過程

決策樹分類方法適合銀行數(shù)據(jù)量大、數(shù)據(jù)屬性多等特性[7]。以3/4 的數(shù)據(jù)集為訓(xùn)練集合,1/4 的數(shù)據(jù)集作為測試集合,利用混淆矩陣中的各個(gè)度量指標(biāo)和ROC 曲線來觀測模型的錯(cuò)誤率,并對測試集合進(jìn)行預(yù)測。

該文采用CART決策樹,剪枝后決策樹可視化如圖2所示。除了葉節(jié)點(diǎn)之外的所有節(jié)點(diǎn)都由五個(gè)部分組成?;谝粋€(gè)特征的值的有關(guān)數(shù)據(jù)的問題。每個(gè)問題的答案要么是True,要么就是False,根據(jù)問題答案數(shù)據(jù)點(diǎn)會在該決策樹中移動;gini:基尼不純度;samples:節(jié)點(diǎn)中的數(shù)量;value:每一類別中的數(shù)量;class:節(jié)點(diǎn)中大多數(shù)點(diǎn)的類別。

圖2 決策樹可視化圖

通常使用混淆矩陣來描述決策樹的性能,建模結(jié)果如表3所示。

表3 混淆矩陣

根據(jù)上表混淆矩陣可得以下指標(biāo):

表4 模型準(zhǔn)確率

其中,精確率為分類正確的數(shù)目與分類器判定為該類的數(shù)目所構(gòu)成的比率,召回率為分類正確的數(shù)目與該類實(shí)際樣品數(shù)量的比率,F(xiàn)1-score是精確率與召回率的協(xié)調(diào)平均。

結(jié)果表明:該模型具有92%的準(zhǔn)確率,但1類樣品中只有30.1%的數(shù)據(jù)被正確分類,從圖3的ROC曲線可以得出ACU 為0.89。因此,所建立的模型不夠完善,需要對其進(jìn)行優(yōu)化,以克服數(shù)據(jù)不平衡的問題[8]。

圖3 ROC曲線

3.3 模型優(yōu)化

采用決策樹對不平衡的數(shù)據(jù)進(jìn)行分類預(yù)測,總體準(zhǔn)確率雖然高,但1 類預(yù)測準(zhǔn)確率偏低;就銀行來說,對1 類數(shù)據(jù)錯(cuò)誤的判斷會產(chǎn)生很大的影響,在這個(gè)案例中,1 類顧客很有可能會訂購銀行的定期存款,但是,模型認(rèn)為顧客不太可能訂購。這種數(shù)據(jù)不均衡的情況下,通??梢杂貌蓸蛹夹g(shù)解決。

首先,對數(shù)據(jù)進(jìn)行過采樣、欠采樣、人工合成法進(jìn)行數(shù)據(jù)處理,得到的數(shù)據(jù)如表5所示。

表5 采樣數(shù)據(jù)分布

從表中可以看出,在采樣技術(shù)的作用下,兩種類型的數(shù)據(jù)均得到了平衡,建立決策樹模型,結(jié)果如表6所示。

表6 采樣后模型1類準(zhǔn)確率

由表6可知,模型的總體準(zhǔn)確率相比之前有所降低,但1類樣本召回率有了極大的上升,1類樣本的預(yù)測正確率大幅提高,為了在最小的代價(jià)下獲得最優(yōu)的準(zhǔn)確度,一方面考慮1類正確率帶來的客戶效益,另一方面考慮0類正確率帶來的成本效益,因此采用人工合成法處理得到的數(shù)據(jù)集訓(xùn)練模型,由圖4優(yōu)化后ROC曲線可得ACU值提高到0.98,模型測試結(jié)果較為滿意。

圖4 優(yōu)化后ROC曲線

最終得到的決策樹如圖5所示。

圖5 優(yōu)化后決策樹可視化圖

4 結(jié)束語

互聯(lián)網(wǎng)金融的產(chǎn)生與發(fā)展對于銀行業(yè)存款業(yè)務(wù)產(chǎn)生了巨大的沖擊,如何有效地控制成本的同時(shí)增加其自身競爭力尤為重要[9]。銀行具有巨大的數(shù)據(jù)庫,對客戶信息挖掘有著極大的優(yōu)勢,對于客戶信息的提取與挖掘?qū)τ阢y行制定差異化策略具有很大的參考意義,在對客戶存款營銷時(shí),如何能夠在成本最小化,利潤最大化的情況下拉到更多存款對于銀行來說有著重要意義。

該文介紹了CART決策樹算法,同時(shí)提出了在數(shù)據(jù)預(yù)處理過程中對數(shù)據(jù)缺失值、不一致值、噪聲數(shù)據(jù)的處理及對于不均衡數(shù)據(jù)的處理方法。首先將數(shù)據(jù)進(jìn)行預(yù)處理,剔除了噪聲數(shù)據(jù)以及不一致數(shù)據(jù),同時(shí)運(yùn)用采樣方法解決了不均衡問題,最后運(yùn)用的是CART 算法建立決策樹并最終得到了預(yù)測結(jié)果較好的模型。

猜你喜歡
基尼剪枝決策樹
人到晚年宜“剪枝”
Wimbledon Tennis
基于YOLOv4-Tiny模型剪枝算法
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
卷入選戰(zhàn)的布基尼
剪枝
強(qiáng)制“脫衫”
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
禹城市| 涟源市| 高台县| 武陟县| 霍邱县| 金湖县| 铜川市| 长宁区| 隆化县| 惠州市| 元氏县| 焦作市| 大邑县| 买车| 民权县| 孟村| 商丘市| 武威市| 高邑县| 屯留县| 威海市| 太和县| 洞头县| 锡林浩特市| 佛坪县| 黄平县| 海南省| 邹平县| 二手房| 康定县| 龙游县| 沧州市| 金乡县| 稷山县| 岑巩县| 进贤县| 广平县| 仙居县| 龙口市| 揭阳市| 宁陵县|