陶超,李超,李杰,趙騫
(1.安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030;2.安徽財(cái)經(jīng)大學(xué) 財(cái)政與公共管理學(xué)院,安徽 蚌埠 233030)
?
數(shù)據(jù)挖掘在個(gè)人信用評(píng)估中的研究
陶超1,李超1,李杰1,趙騫2
(1.安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030;2.安徽財(cái)經(jīng)大學(xué) 財(cái)政與公共管理學(xué)院,安徽 蚌埠 233030)
個(gè)人信用評(píng)估是現(xiàn)代商業(yè)銀行個(gè)人信用管理的核心.本文將數(shù)據(jù)挖掘中的隨機(jī)森林算法(Random Forests,RF)運(yùn)用到現(xiàn)代個(gè)人信用評(píng)估模型中,實(shí)現(xiàn)了逐步優(yōu)化和評(píng)估.實(shí)證分析的結(jié)果證明,隨機(jī)森林模型具有較高的精確性和泛化能力,能夠克服噪聲數(shù)據(jù)的影響.通過對(duì)各特征變量的重要性評(píng)分,得到貸款期限和總額等對(duì)風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確率具有顯著作用.
隨機(jī)森林;特征變量;個(gè)人信用評(píng)估;R軟件
金融危機(jī)過后,隨著經(jīng)濟(jì)的逐漸復(fù)蘇,個(gè)人消費(fèi)貸款不斷升溫,消費(fèi)貸款已成為了全球各商業(yè)銀行一個(gè)重要的利潤(rùn)增長(zhǎng)點(diǎn).個(gè)人消費(fèi)信貸迅速發(fā)展的同時(shí)也增加了商業(yè)銀行的信用風(fēng)險(xiǎn),個(gè)人信用風(fēng)險(xiǎn)指?jìng)€(gè)人在信貸發(fā)生后,借款人由于各種原因無法按時(shí)還款的風(fēng)險(xiǎn),此時(shí)銀行會(huì)面臨利潤(rùn)的損失.但個(gè)人信用評(píng)估涉及的指標(biāo)繁雜,數(shù)據(jù)往往存在缺失和分布復(fù)雜等缺點(diǎn),給目前個(gè)人信用評(píng)估中的單分類器模型帶來了很強(qiáng)的噪聲干擾,降低了模型的預(yù)測(cè)精度和穩(wěn)健性等.因此本文運(yùn)用單個(gè)分類器的組合算法—隨機(jī)森林模型對(duì)樣本數(shù)據(jù)進(jìn)行仿真,并對(duì)特征變量評(píng)估.
1.1 數(shù)據(jù)來源
本文的實(shí)驗(yàn)數(shù)據(jù)來源于歐洲Stat log數(shù)據(jù)庫中德國(guó)教授Han.Hofmann收集的消費(fèi)貸款數(shù)據(jù):German Credit Dataset[1].貸款者的詳細(xì)資料和最終的信用分類指標(biāo)如表1所示:
表1 用戶歷史數(shù)據(jù)指標(biāo)及代碼
該數(shù)據(jù)集一共有20個(gè)指標(biāo)變量,包括13個(gè)分類變量和7個(gè)數(shù)值變量,共有1000個(gè)樣本數(shù)據(jù),其中最終未發(fā)生違約的客戶為700個(gè)(下文用良好表示),發(fā)生違約的客戶為300個(gè)(下文用不良表示).
1.2 數(shù)據(jù)歸一化處理
為了提高模型分類的準(zhǔn)確性,本文首先對(duì)樣本集中的定性指標(biāo)賦予相應(yīng)的數(shù)值,由于個(gè)人信用的各指標(biāo)變量是以不同尺度測(cè)量的.因此需要通過最小—最大規(guī)范化法對(duì)原始數(shù)據(jù)中的定性指標(biāo)進(jìn)行線性轉(zhuǎn)換,使之落在區(qū)間[0,1]內(nèi)[2],即:
本文指標(biāo)中借貸者的年齡、貸款時(shí)間、貸款金額三個(gè)屬性值都近似服從正態(tài)分布,因此可以利用正態(tài)分布函數(shù)對(duì)這些指標(biāo)的屬性值進(jìn)行轉(zhuǎn)換,使其規(guī)范在(0,10)區(qū)間內(nèi),正態(tài)分布的概率密度函數(shù)為:
將其進(jìn)行標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)正態(tài)分布函數(shù)為:
運(yùn)用R軟件構(gòu)建標(biāo)準(zhǔn)正態(tài)函數(shù)即可得到變換后的新屬性值,組成本文的實(shí)驗(yàn)數(shù)據(jù)樣本.
1.3 確定訓(xùn)練樣本和測(cè)試樣本
本文將所有樣本分為訓(xùn)練樣本和測(cè)試樣本兩部分,并按0.8∶0.2的比例設(shè)置隨機(jī)數(shù)種子,以有放回抽樣的方式得到訓(xùn)練樣本的樣本數(shù)為822個(gè),測(cè)試樣本的樣本數(shù)為178個(gè).
2.1 隨機(jī)森林算法
本文采用的隨機(jī)森林模型(Random Forest)是一種基于的決策樹(CART)分類器和Bootstrap抽樣的組合算法.由于信用貸款樣本數(shù)據(jù)集中的指標(biāo)變量都是獨(dú)立同分布的,故采用Gini系數(shù)作為決策樹停止生長(zhǎng)的指標(biāo)[3]:
Gini=1-∑(P(i)*P(i))
P(i)為當(dāng)前節(jié)點(diǎn)上樣本中第i類樣本的比例.類別分布越平均,Gini值越大,類分布越不均勻,Gini值就越小.
應(yīng)用Bootstrap Sampling自助法在訓(xùn)練樣本中有放回地隨機(jī)抽取k個(gè)樣本,組成k棵決策樹,因此每個(gè)樣本未被抽到的概率為:
p=(1-1/n)n
此時(shí)約有37% 的樣本不會(huì)出現(xiàn)在訓(xùn)練樣本中,這些未被抽取的樣本就被稱為袋外數(shù)據(jù)(Out-Of-Bag,OOB),主要用于計(jì)算單棵決策樹的預(yù)測(cè)誤差;
隨機(jī)森林采用簡(jiǎn)單多數(shù)投票原則作為其組合規(guī)則最終的分類結(jié)果:
式中I(·)表示示性函數(shù),mg(x,y)函數(shù)衡量分類器集將樣本x分到正確類別的平均票數(shù)u1與將x分到其他錯(cuò)誤類別的平均票數(shù)u2之間的差.一般來說,mg(x,y)的值越大,隨機(jī)森林模型預(yù)測(cè)效果就越準(zhǔn)確.
2.2 隨機(jī)森林模型參數(shù)的確定
本文的隨機(jī)森林模型在R環(huán)境中運(yùn)行,因此需要對(duì)模型參數(shù)進(jìn)行調(diào)整,使誤差率達(dá)到最小.ntree (隨機(jī)森林中樹的數(shù)目)、mtry (節(jié)點(diǎn)處供選擇特征的數(shù)目)是眾多參數(shù)中對(duì)模型影響最大的參數(shù)[4].一般來說,ntree的值越大,模型的誤差就越小,在達(dá)到某一固定值后誤差不再變化.因此本文先對(duì)mtry值進(jìn)行調(diào)整,先設(shè)定ntree=1000,接著再對(duì)ntree的值進(jìn)行調(diào)整,求得最優(yōu)解,以減少模型的迭代次數(shù),提高泛化能力.
(1)mtry值的確定
隨機(jī)森林的分類模型中參數(shù)mtry指決策樹的變量個(gè)數(shù),一般默認(rèn)取樣本數(shù)據(jù)中變量個(gè)數(shù)的二分之一次方,由于本文的指標(biāo)變量共20個(gè),故以客戶信用分類屬性值為因變量迭代20次,并計(jì)算每次迭代的平均誤差率,最后得到不同mtry值下的平均誤差趨勢(shì)圖1.
從圖1中可以看出,模型平均誤差率隨著mtry的值增大而減少,最終當(dāng)mtry=12時(shí)平均誤差達(dá)到最低點(diǎn),故取mtry=12為最優(yōu)的單棵決策樹變量個(gè)數(shù).
(2)ntree值的確定
參數(shù)ntree是指隨機(jī)森林模型中決策樹的數(shù)目,根據(jù)上文的論述,ntree的值越大越好,故先設(shè)定ntree的初始值為1000,mtry值為12進(jìn)行迭代,得到隨機(jī)模型的誤差率與ntree值的關(guān)系,如圖2所示:
圖1 模型誤差率與mtry值趨勢(shì)
圖2 模型誤差率與ntree值趨勢(shì)
圖2顯示當(dāng)mtry=12時(shí),隨機(jī)森林模型的誤差率隨著ntree的增大而減小,當(dāng)ntree值為400,誤差穩(wěn)定在10%左右.故ntree=400,mtry=12為該隨機(jī)森林模型的最優(yōu)參數(shù)解.
2.3 隨機(jī)森林模型的優(yōu)化
將隨機(jī)森林模型的最優(yōu)解代入模型后運(yùn)用訓(xùn)練樣本對(duì)模型進(jìn)行優(yōu)化.其中錯(cuò)判率定義為模型將i類樣本錯(cuò)判給j類的個(gè)數(shù)占該類樣本總數(shù)的比率.得到訓(xùn)練樣本的錯(cuò)判矩陣如表1.
表2 訓(xùn)練樣本下模型錯(cuò)判矩陣
表1中客戶的貸款分類良好和不良兩種.從表2中可以看出,在訓(xùn)練樣本中,屬于良好類的樣本有576個(gè),不良類樣本有256個(gè).其中,在良好類的樣本中錯(cuò)判率為11.28%,不良類樣本的錯(cuò)判率為52.85%,模型總的分類準(zhǔn)確率為76.28%
2.4 隨機(jī)森林模型的評(píng)估
利用測(cè)試樣本對(duì)訓(xùn)練后的隨機(jī)森林模型進(jìn)行評(píng)估,并與測(cè)試樣本中客戶貸款狀態(tài)已分類的結(jié)果進(jìn)行對(duì)比,計(jì)算模型的預(yù)測(cè)準(zhǔn)確率,如表2所示:
表3 測(cè)試樣本下模型錯(cuò)判矩陣
表2中良好類貸款的錯(cuò)判率為18.38%,不良類的錯(cuò)判率為30.95%,得到最終模型的準(zhǔn)確率為78.65%.對(duì)比測(cè)試樣本,模型對(duì)不良客戶貸款的分類準(zhǔn)確率有了顯著增加.同時(shí)隨機(jī)森林模型的預(yù)測(cè)準(zhǔn)確率有所增加,表明模型具有較強(qiáng)的泛化能力.
2.5 各指標(biāo)(特征)變量重要性度量
特征變量重要性測(cè)度定義為OOB數(shù)據(jù)中某個(gè)特征變量值發(fā)生輕微擾動(dòng)后的模型分類正確率與擾動(dòng)前分類正確率的平均減少量.本文采用平均精度下降(Mean Decrease Accuracy)方法給各指標(biāo)變量的重要性進(jìn)行評(píng)分[5]:
(1)對(duì)于每棵決策樹,利用OOB數(shù)據(jù)進(jìn)行驗(yàn)證,將OOB數(shù)據(jù)的預(yù)測(cè)誤差記錄下來,每棵樹的誤差為:
err1,err2,err3,…errn
(2)隨機(jī)變換OOB數(shù)據(jù)中的每個(gè)特征變量(即人工加入噪聲干擾),從而形成新的袋外數(shù)據(jù),再利用袋外數(shù)據(jù)進(jìn)行驗(yàn)證,則每個(gè)變量的OOB準(zhǔn)確率為:
圖3 特征變量重要性評(píng)分降序
從圖3中可以看出,借貸者的貸款總額,年齡,目前的賬戶的狀態(tài),貸款期限對(duì)客戶貸款的分類精確率有顯著影響.同時(shí)借貸者是否有電話注冊(cè),需要撫養(yǎng)的人數(shù)和是否為國(guó)外工作人員則對(duì)分類準(zhǔn)確率的影響較小,可以忽略不計(jì).
隨機(jī)森林模型是一種基于單棵分類樹的組合算法.該算法對(duì)變量的多元共線性不敏感以及對(duì)缺失數(shù)據(jù)比較穩(wěn)定,可以很好地應(yīng)用到具有幾千個(gè)解釋變量的數(shù)據(jù)集合中.模型隨機(jī)選擇特征對(duì)分支進(jìn)行屬性分裂,使模型不僅具有良好的分類效果,而且能夠?qū)?shù)據(jù)中存在的噪聲問題有較好的容忍能力.本文的隨機(jī)森林模型對(duì)德國(guó)個(gè)人信貸數(shù)據(jù)進(jìn)行的實(shí)證研究,得到了較高的預(yù)測(cè)準(zhǔn)確率和泛化性能.同時(shí)對(duì)特征變量評(píng)分得到的結(jié)論具有一定的參考價(jià)值.
[1]http://archive.ics.uci.edu/ml/machine-leaming_databases/statlog/german/[EB/OL].
[2]張建.商業(yè)銀行個(gè)人信用評(píng)估模型研究[D].廣西大學(xué),2012.
[3]基于Logistic和神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估組合模型研究[D].電子科技大學(xué),2012.
[4]蕭超武,蔡文學(xué),黃曉宇,等.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].2014(06):111-113.
[5]林成德,彭國(guó)蘭.隨機(jī)森林在企業(yè)信用評(píng)估指標(biāo)體系確定中的應(yīng)用[J].2007(2):200-203.
[責(zé)任編輯:王軍]
The research of data mining in personal credit evaluation
TAO Chao1,LI Chao1,LI Jie1,ZHAO Qian2
(1.Institute of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu 233030,China;2.Institute of Finance and Public Management,Anhui University of Finance and Economics,Bengbu 233030,China)
Personal credit assessment is the core of modern commercial bank personal credit management.In this paper,the Random Forest algorithm in data mining (the Random Forest,RF) apply to the modern personal credit evaluation model,realized step by step optimization and evaluation.Empirical analysis proves that the result of the random forest model has high accuracy and generalization ability,and can overcome the influence of the noise data.Through to the importance of each feature variables score,loan time limit and the total accuracy of risk prediction has a significant effect.
random forests; characteristics of the variable; personal credit assessment; R software
2016-03-11
國(guó)家社會(huì)科學(xué)基金“代際轉(zhuǎn)移視角下縮小我國(guó)收入差距的路徑與仿真模擬研究” (11CTJ006)資助項(xiàng)目
李超(1980-),男,安徽合肥人,安徽財(cái)經(jīng)大學(xué)副教授,博士,碩士生導(dǎo)師,主要從事宏觀經(jīng)濟(jì)統(tǒng)計(jì)分析、綜合評(píng)價(jià)方法與應(yīng)用的研究.
F832.332
A
1672-3600(2016)12-0012-04