国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析

2017-03-25 22:21李卯
時(shí)代金融 2017年6期
關(guān)鍵詞:隨機(jī)森林

李卯

【摘要】為了有效控制和防范信貸風(fēng)險(xiǎn),商業(yè)銀行必須對(duì)借款人做出準(zhǔn)確的信用評(píng)估。本文通過(guò)利用傳統(tǒng)的Logistic回歸與隨機(jī)森林模型,分別建立信用評(píng)分模型,并比較兩個(gè)模型的優(yōu)缺點(diǎn)以達(dá)到最佳的預(yù)測(cè)效果,從而有效的降低商業(yè)銀行的個(gè)人信用評(píng)估風(fēng)險(xiǎn),更好地實(shí)現(xiàn)銀行利潤(rùn)最大化。

【關(guān)鍵詞】信用評(píng)分 Logistic回歸 隨機(jī)森林

一、引言

常用的信用評(píng)分技術(shù)一般分統(tǒng)計(jì)學(xué)方法和非統(tǒng)計(jì)學(xué)方法。統(tǒng)計(jì)學(xué)方法包括線性回歸、判別分析、Logistic回歸,決策樹(shù)等,非統(tǒng)計(jì)學(xué)方法包括線性規(guī)劃、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。但是對(duì)于這些開(kāi)發(fā)信用模型的技術(shù),哪種方法最好,還沒(méi)有一致的結(jié)論。

Logistic回歸方法以其強(qiáng)大的穩(wěn)健性和泛化能力被較多地應(yīng)用到評(píng)估方法中;神經(jīng)網(wǎng)絡(luò)對(duì)不完全信息具有很強(qiáng)的處理能力,能夠解決現(xiàn)實(shí)生活中的非線性問(wèn)題,而且分類精度非常高,也是優(yōu)先選擇的信用評(píng)估方法;支持向量機(jī)能處理小樣本、高維度的數(shù)據(jù),并且獲得較高的分類精度,對(duì)處于發(fā)展階段的信用評(píng)估系統(tǒng)也是一個(gè)不錯(cuò)的選擇。

總的來(lái)說(shuō)評(píng)價(jià)指標(biāo)體系被分為兩大類:體現(xiàn)還款能力的指標(biāo)和體現(xiàn)還款意愿的指標(biāo)。這些指標(biāo)相對(duì)較容易獲得,并且能在一定程度上反映個(gè)人的真實(shí)還款能力和還款意愿,但是這些指標(biāo)比較片面,容易出現(xiàn)誤判,而且門檻非常高。

本文以真實(shí)的信貸數(shù)據(jù)為分析對(duì)象,使用常見(jiàn)的Logistic回歸、隨機(jī)森林來(lái)進(jìn)行研究。利用它們分別建立模型,對(duì)客戶進(jìn)行分類,并比較模型預(yù)測(cè)結(jié)果。對(duì)比發(fā)現(xiàn),兩個(gè)模型都有一定的預(yù)測(cè)能力,能將好壞客戶適度地區(qū)分開(kāi)來(lái)。

二、樣本數(shù)據(jù)

本文建模時(shí)所采用的數(shù)據(jù)集Credit是一家數(shù)據(jù)挖掘網(wǎng)站上提供的真實(shí)數(shù)據(jù),客戶資料為一家德國(guó)信貸銀行的信貸審批數(shù)據(jù)(German Credit data)。該數(shù)據(jù)包含了個(gè)人客戶在向銀行提出貸款申請(qǐng)時(shí)所提供的個(gè)人信息(如:性別、年齡、資產(chǎn)情況等)。其中該數(shù)據(jù)包括1000條記錄,定義了兩類信用卡客戶,第一類為700個(gè)“好客戶”,第二類為300個(gè)“壞客戶”。該數(shù)據(jù)集中有21個(gè)變量,其中20個(gè)是特征變量(自變量),而good-bad是響應(yīng)變量(因變量)。

三、實(shí)證研究

(一)Logistic回歸分析

在建立Logistic回歸模型時(shí),隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測(cè)試集,以0.5為概率界限,對(duì)訓(xùn)練集樣本和測(cè)試集樣本中的客戶進(jìn)行預(yù)測(cè)分類。

本文利用軟件選用逐步變量選擇法,從模型的輸出結(jié)果中,可以計(jì)算出一個(gè)客戶是一個(gè)好客戶的概率:首先,使用樣本中為“好客戶”的比率作為閾值。對(duì)整個(gè)數(shù)據(jù)集進(jìn)行預(yù)測(cè),雖然總的精度達(dá)到0.74,但是對(duì)于“壞客戶”的預(yù)測(cè)錯(cuò)誤率為74/(12+74)=0.86,沒(méi)有達(dá)到理想中的效果。當(dāng)閾值為0.5時(shí)預(yù)測(cè)效果沒(méi)有達(dá)到理想狀況,因此嘗試采用曲線來(lái)選擇最佳的診斷界限值,使用軟件得出回歸分析的曲線如圖3-1所示。

通過(guò)曲線確定的閾值,并由此進(jìn)行預(yù)測(cè),其分類混合矩陣如下所示。

由預(yù)測(cè)結(jié)果可知,測(cè)試集樣本預(yù)測(cè)結(jié)果精度高達(dá)0.76,而且“壞客戶”預(yù)測(cè)為“好客戶”的錯(cuò)誤率下降到26/(39+26)=0.4。采用ROC曲線來(lái)確定閾值,對(duì)訓(xùn)練集來(lái)說(shuō),這種預(yù)測(cè)方式不僅總的預(yù)測(cè)精度得到提升,更重要的事對(duì)“壞客戶”的預(yù)測(cè)精度得到提升,因?yàn)轭A(yù)測(cè)成功可能產(chǎn)生違約風(fēng)險(xiǎn)的“壞客戶”對(duì)于銀行來(lái)說(shuō)才是最重要的。

(二)隨機(jī)森林分析

本文選取500顆樹(shù)在訓(xùn)練集上建立隨機(jī)森林模型,與Logistic回歸一樣,隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測(cè)試集,在測(cè)試集上進(jìn)行預(yù)測(cè)。通過(guò)基于OOB數(shù)據(jù)的模型誤判率均值確定隨機(jī)森林模型當(dāng)mtry數(shù)值為10時(shí)誤差最小。

由結(jié)果可以看到,訓(xùn)練樣本誤差率為0,測(cè)試樣本誤差率為(56+17)/300=0.24。從結(jié)果看,隨機(jī)森林預(yù)測(cè)結(jié)果的誤差率是比較小的。

四、總結(jié)

在將信用好的客戶判定為信用不好的客戶從而拒絕其貸款申請(qǐng)的方面,無(wú)論是訓(xùn)練樣本還是測(cè)試樣本,其預(yù)測(cè)正確精度是:隨機(jī)森林大于Logistic回歸模型;在第二類誤判,即將信用不好的客戶判定為信用好的客戶從而接受其貸款申請(qǐng)方面,無(wú)論是訓(xùn)練樣本還是測(cè)試樣本,其預(yù)測(cè)正確精度是:隨機(jī)森林大于Logistic回歸模型(一般而言,在銀行和其他金融機(jī)構(gòu)的實(shí)際操作中,第二類誤判給銀行造成的損失更大)。從整體分類精度來(lái)看,隨機(jī)森林的整體預(yù)測(cè)精度能達(dá)到75%以上,而傳統(tǒng)的Logistic回歸模型整體分類精度只能達(dá)到70%左右。

從以上分析可以得出,兩種方法都可用于信用評(píng)分模型,其中Logistic回歸目前在信用評(píng)價(jià)領(lǐng)域應(yīng)用最為廣泛,而隨機(jī)森林算法是數(shù)據(jù)挖掘領(lǐng)域較為成功的算法。從預(yù)測(cè)結(jié)果也可以看出,模型的穩(wěn)健性是Logistic回歸的優(yōu)點(diǎn),而缺點(diǎn)在于其預(yù)測(cè)精度不如隨機(jī)森林等數(shù)據(jù)挖掘算法;對(duì)于隨機(jī)森林算法,其模型的訓(xùn)練效果和預(yù)測(cè)精度都很好。綜上所述,本文認(rèn)為利用隨機(jī)森林算法建立信用評(píng)分模型比較合適的方法。

傳統(tǒng)的分析方法與新型的機(jī)器學(xué)習(xí)方法各有利弊,在選擇和運(yùn)用時(shí)要注意具體情況。在此也可以做出如此猜想,將傳統(tǒng)的分析方法與機(jī)器學(xué)習(xí)相結(jié)合使用。例如,可嘗試采用參數(shù)方法與非參數(shù)方法相結(jié)合的方式建立混合模型,即用決策樹(shù)或隨機(jī)森林提取特征變量交互作用項(xiàng),引入到回歸方程中,從而完善Logistic回歸,起到變量選擇,考慮交互作用項(xiàng)的作用。

在國(guó)際金融危機(jī)背景下,利用先進(jìn)的計(jì)量分析技術(shù)構(gòu)建有效的消費(fèi)者信用評(píng)估體系成為平衡控制風(fēng)險(xiǎn)與追求增長(zhǎng)的關(guān)鍵。消費(fèi)者信用評(píng)估是通過(guò)建立信用評(píng)分模型,對(duì)信貸申請(qǐng)客戶的后續(xù)信用行為進(jìn)行預(yù)測(cè),并基于客戶的特征變量將其劃分為“好客戶”和“壞客戶”,其分類精度直接關(guān)系信貸的風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1]任瀟,姜明輝,車凱,王尚.個(gè)人信用評(píng)估組合模型選擇方案研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2016(5),67-71.

[2]朱曉明,劉治國(guó).信用評(píng)分模型綜述[J].統(tǒng)計(jì)與決策,2007(2):103-105.

[3]蕭超武,蔡文學(xué),黃曉字,陳康.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理科學(xué),2014(6):111-113.

[4]王帥.個(gè)人信用評(píng)分混合模型研究[D].華東師范大學(xué)碩士學(xué)位論文,2010.

[5]張麗娜,趙敏.我國(guó)商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J].市場(chǎng)周刊(理論研究),2007(8):115-117.

猜你喜歡
隨機(jī)森林
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)