蘭軍 嚴廣樂
摘要信用評估是商業(yè)銀行控制和防范信貸風險的關鍵途徑.決策樹模型較好的直觀解釋性使其成為當前個人信用評估中的常用模型,但決策樹模型存在容易導致過擬合且預測精度有限的問題.通過在決策樹模型算法中引入類隨機森林隨機有放回的抽樣模式,運用機器自動循環(huán)迭代尋求最優(yōu)樹的建模思想,建立了自適應最優(yōu)C5.0決策樹個人信用評估模型.該模型具有快速收斂特征變量、較好的泛化能力和高預測精度的特點,在實證分析中對商業(yè)銀行個人信用評估模型質量提升帶來比較明顯的改進效果.
關鍵詞數(shù)量經濟學;個人信用評估;決策樹;隨機森林;迭代
中圖分類號N945文獻標識碼A
Research and Empirical Analysis on Personal
Credit Evaluation Model Based on Iterative Adaptive
Random Decision Tree Algorithm
Jun Lan,Guangle Yan
(Management School University of Shanghai for Science and Technology, Shanghai200093 China)
AbstractCredit evaluation is a crucial approach to control and reduce credit risk. The direct expression feature of decision tree model has made it a commonly used model in individual credit evaluation. However, this model has the disadvantages of over fitting and limited accuracy. By utilizing random forest sampling with replacement in decision tree model, with autoiteration for optimal result, an autofitting optimal C50 decision tree for individual credit evaluation model is established. The model has features such as rapidly converging character variables, good generalization ability and high predicting accuracy, and is shown to have phenomenal improvement on quality of individual credit evaluation in real practical analysis.
Key wordsmathematical economics; personal credit assessment; decision tree; random forest; iteration
1引言
近年來,隨著中國經濟的飛速發(fā)展,個人的信用狀況越來越受到重視,貸款購房、貸款購車、申領信用卡等各種個人消費貸款都需要了解個人的信用信息.個人信用制度是國家信用體系的一部分,科學合理有效的個人信用評估體系是個人信用體系的核心問題之一.對個人信用狀況進行科學評估,是發(fā)展個人消費信貸的基礎,也是中國市場經濟發(fā)展的有益補充和完善.中國已經加入世界貿易組織(WTO)多年,逐步開放的信用市場,對建立個人信用評估體系提出了嚴峻挑戰(zhàn).當前中國個人信用制度不完善,個人信用信息欠完備,個人信用難以評估,已經比較嚴重地影響了經濟增長.如何建立一個統(tǒng)一、科學的個人信用評估體系已經成為一個亟待解決的重要課題.目前,中國個人信用評估體系尚不夠健全和完善,評估的指標和權重帶有較大的主觀性,需要引入科學方法來確定評估指標,采用科學的評估方法來評估個人信用.
個人信用評級是預測貸款申請人或現(xiàn)有借款人違約可能性的一種定量分析方法,這種方法量化分析現(xiàn)有的客戶資料,找出客戶信用行為的影響因子,以現(xiàn)有的客戶資料為樣本建立數(shù)學模型,然后再使用該模型預測新客戶進行違約風險.國外的經驗表明,個人信用具有快速處理客戶貸款申請、處理客戶申請的成本較低、對客戶申請的處理標準具有一致性和客觀性以及能夠定量地評估客戶的信用風險等優(yōu)點.自從上世紀80年代起,在美國等社會信用體系較為發(fā)達的國家已經將信用方法引入到消費信貸管理領域.Makowski(1985) [1]第一次把分類樹方法應用于個人信用評估.美聯(lián)儲曾在《平等貸款機會法案》中稱這種方法是在信用系統(tǒng)中經過實證檢驗并且在統(tǒng)計意義上完美的辦法,Coffman對分類樹和線性判別分析在個人信用評估方面的應用進行了比較,并認為當指標之間存在相互作用時前者優(yōu)于后者,而當指標之間相互聯(lián)系時后者優(yōu)于前者.經過數(shù)十年的發(fā)展,個人信用評估方法已經取得了長足的發(fā)展,不僅被廣泛地應用于信用卡等消費信貸、住房按揭貸款等領域,也被成功地應用于中小企業(yè)貸款申請評估、信用卡欺詐預防、基于風險的利率定價、相應評分及資產證券化等領域.
與國外商業(yè)銀行廣泛將信用作為有效的信用風險管理技術相比,符合中國國情的個人信用評分模型在中國金融實業(yè)界使用剛剛開始起步.學術界對于個人信用評分模型的研究主要集中在個人信用評分模型數(shù)據(jù)挖掘技術的探討、基于各種技術建立個人信用評分模型的實證比較以及個人信用評分模型的應用領域探討等幾個方面.姜明輝、王歡、王雅林(2003) [2]在闡述分類樹基本原理的基礎上,結合國內外學者的研究成果將分類樹與其他方法進行比較研究,分析了其對個人信用評估的適用性.通過建立符合中國實際情況的指標體系,選取樣本數(shù)據(jù)進行應用分析,證實了分類樹在變量選擇和分類準確度上明顯優(yōu)于其他方法.徐少鋒、王延臣(2003) [3]利用美國花旗銀行某分支機構部分客戶的貸款數(shù)據(jù),用回歸模型進行實證分析,指出通過對以信貸申請書為基礎的風險程度進行定量分析,使信貸決策合理化,從而降低個人信用風險.詹原瑞、田宏偉(2003)[4]就中國商業(yè)銀行在個人消費信貸中如何使用分類樹設計個人信用評分模型作了介紹,設計出了個人信用評分模型并作了實證檢驗.樓際通,樓文高,余秀榮(2013) [5]年在商業(yè)銀行個人信用風險評價的投影尋蹤建模及其實證研究中運用于商業(yè)銀行個人信用分類問題,可以提升風險識別正確率,還有利于銀行降低采集數(shù)據(jù)的成本和節(jié)約時間.王穎,聶廣禮,石勇(2012) [6]在基于信用評分模型的中國商業(yè)銀行客戶違約概率研究中通過對歷史數(shù)據(jù)構建模型測算客戶的違約概率,發(fā)現(xiàn)債務人或交易對手無力履行合同所規(guī)定的義務或信用質量發(fā)生變化,影響金融產品價值,從而給債權人或金融產品持有人造成經濟損失.龔尚花(2013)[7]年在互聯(lián)網環(huán)境下消費信貸行為研究中運用從而建立了消費信貸行為影響因素的概念模型.
2個人信用評估模型
提升模型對用戶信用風險的識別和預測準確率,目前正式投入使用的主要建模算法為邏輯回歸和決策樹兩大類.邏輯回歸建模方法通過分析消費者還款能力與意愿與違約概率之間的作用路徑關系.相比較邏輯回歸,決策樹因為較好的直觀解釋能力和預測精度,被廣泛地應用于銀行信用風險領域中.決策樹模型,通過對訓練樣本的學習,建立并依據(jù)分類規(guī)則,實現(xiàn)對新樣本的分類,屬于有監(jiān)督式的機器學習,有兩類變量:目標變量(輸出變量)和特征變量(輸入變量).C5.0是經典的決策樹模型算法之一,JRQuinlan(1979) [8]年提出了ID3算法,主要針對離散型屬性數(shù)據(jù),其后又不斷的改進,形成C4.5,它在ID3基礎上增加了對連續(xù)屬性的離散化,采用增益率來加以改進方法,選取有最大增益率的分割變量作為準則,避免ID3算法過度適配的問題.C5.0是C4.5應用于大數(shù)據(jù)集上的分類算法,采用最大信息增益來計算屬性差異,同時采用Boosting方式提高模型準確率,在軟件上計算速度比較快,占用的內存資源較少,在執(zhí)行效率和內存使用方面都得到了提升.
C5.0決策樹屬于單一分類器,容易導致過擬合且預測精度有限的問題.通過對C5.0算法進行優(yōu)化改進,改善C5.0在信用評估模型建立過程中存在的過度擬合的缺點,提高模型的有效性和泛化能力,具體表現(xiàn)為在保持訓練集預測精度不大幅降低的情況下提高測試集的預測精度,同時保證模型的直觀解釋性.
2.1基于自適應隨機決策樹的個人信用評估模型
對于單一分類器C5.0決策樹存在的缺點,Yangchang(2013) [9]提出了組合分類器的改進方式,隨機森林就是利用多棵樹對樣本進行訓練并預測的一種分類器.簡單來說,隨機森林就是由多棵CART(Classification And Regression Tree)構成的.對于每棵樹,它們使用的訓練集是從總的訓練集中有放回采樣出來的,這意味著,總的訓練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓練集中,也可能從未出現(xiàn)在一棵樹的訓練集中.在訓練每棵樹的節(jié)點時,使用的屬性是從所有屬性中按照一定比例隨機地無放回的抽取的,最終形成一組CART.Jafa (2013) [10]對于分類問題,發(fā)現(xiàn)預測結果為所有樹中預測概率總和最大的那一個分類.隨機森林雖然提高了預測的精度,但是與決策樹不同,需要費工夫才能使得模型符合數(shù)據(jù),而且該模型不容易理解,無法生成可解釋性的模型,在個人信用評估模型應用中,風險模型更多是決策的參考,風險專家根據(jù)業(yè)務特點和發(fā)展人為的調整模型以適應于信用評估,模型的可解釋性非常重要.
在模型訓練中,導致模型存在過度擬合和有偏的問題,往往是由于關鍵變量沒有進入模型或者引入了噪音變量(即非重要變量),能否在給定數(shù)據(jù)樣本中提取出關鍵變量是提高模型預測精度的關鍵.考慮到C5.0決策樹在根據(jù)大量水平的屬性進行劃分時往往是有偏的和存在過度擬合的問題,以及隨機森林預測結果的不可解釋性,嘗試提出了一種基于機器迭代自適應隨機決策樹改進算法的個人信用評估模型,通過借鑒隨機森林訓練子樹的方式,對樣本集和特征集進行有條件的隨機抽樣,同時引入變量淘汰機制,通過機器自動循環(huán)迭代不斷生成多顆C5.0決策樹,比較每顆決策樹預測精度,選擇出性能最優(yōu)的C5.0決策樹,這樣模型既防止了在訓練集上過度擬合的情況,又可以提高在測試集上的預測精度,并保證模型樹形結構良好的可解釋性.
基于機器迭代自適應隨機決策樹算法充分利用計算機計算資源,先剔除噪音變量,優(yōu)先剔除噪音變量對模型產生的副作用影響,防止有偏的問題,能夠在大范圍的屬性變量中快速收斂得到特征變量,利用機器自動化循環(huán)迭代能力建立模型,不斷自動重復抽取建模的樣本和入模屬性,生成決策樹,每次抽樣建模完畢,得到本次基于測試集T的預測精度,迭代模型在迭代次數(shù)足夠多的情況下,能找到最優(yōu)的模型,在訓練集和測試集上表現(xiàn)都好,從而達到高的泛化能力,解決模型的過度擬合問題.自動化迭代建模結束后,比較所有循環(huán)建模中預測精度最優(yōu)的C5.0決策樹提供給因為最終模型結果.因為模型結果依然為層次狀樹形結構,可解釋性強,通俗易懂,能夠較好幫助風險管理人員作為信用評估決策參考.
3算法步驟
通過上述描述,基于機器迭代自適應隨機決策樹模型的具體建模過程如圖1所示.模型算法流程圖如圖2所示.
1)給定訓練集S和測試集T,屬性維數(shù)F.在訓練集上首先對全部屬性做一次C5.0決策樹建模,得到模型C,同時在測試集T上預測得到預測精度A,根據(jù)建模結果,剔除重要性5%以下的屬性維數(shù),得到屬性維數(shù)M;
設定迭代次數(shù)t,對于i=1-t:
2)對訓練集S隨機抽取n個樣本(n 3)不斷重復2),直到達到迭代次數(shù)t或者其他預設條件(如執(zhí)行時間或預測精度等); 4)輸出最后的模型Ci; 4案例分析 4.1數(shù)據(jù)說明和處理 利用基于機器迭代自適應隨機決策樹算法,在某商業(yè)銀行個人信用評估模型建立過程中進行實證研究.數(shù)據(jù)采用某商業(yè)銀行個人貸款違約數(shù)據(jù)樣本進行建模比對,抽取了2013至2017年的已結束的業(yè)務數(shù)據(jù),共計41518條樣本數(shù),經過前期的數(shù)據(jù)處理(缺失值替換、變量刪除和變量衍生),選擇22個屬性變量進行建模,數(shù)據(jù)和建模均采用R進行處理.數(shù)據(jù)包含了41518個觀察值和22個屬性(變量),22個屬性中包含1個因子屬性、1個整數(shù)數(shù)據(jù)類型屬性和2個數(shù)值類型屬性;數(shù)據(jù)主要包含了個人的基本信息和貸款的信息,從個人和業(yè)務的角度出發(fā)去評估該客戶的信用,其中breachIndex變量為本次建模的目標變量,取值yes表示客戶違約,no值則相反,其他變量含義如表1所示.
圖4展示了各個屬性變量與目標變量的相關圖,由于屬性存在離散和連續(xù)兩類變量,而目標變量本身為離散變量,故圖中表現(xiàn)出兩類圖,箱圖為目標變量與連續(xù)變量的關系圖,塊圖表現(xiàn)為目標變量與離散變量之間的關系圖.
從業(yè)務類型可以看出,違約中個人類業(yè)務占比要超過小微企業(yè)類業(yè)務;而非行員的違約情況要大大超過行員;違約的人群,合同平均金額較高;還有違約客戶群中,擔保方式大都為保證類型,而非違約客戶國有公司擔保占大部分;而客戶群中,平均年齡為40;男性違約占比略高于女性,等等.
由于目標變量“是否違約”為二分變量,現(xiàn)計算所有特征變量與目標變量的IV值,能得到各特征變量對于目標變量的信息量,有助于進一步的模型構建,結果如圖5所示.
根據(jù)Yue He(2016) [11]的對信用模型入模變量選擇的研究,一般選擇IV值大于0.02的變量進入模型,通過IV值可篩選有效變量,剔除噪音變量.從圖5可以看出,合同業(yè)務品種、合同擔保方式、合同金額和貸款期限IV較高,對目標變量影響較大(后面的實證研究也證實了這幾個變量屬于模型的重要變量,影響決策樹的決策分支).
將數(shù)據(jù)按照7:3的比例隨機拆分訓練集和測試集,分別為trainData和testData,訓練集和測試集分別包含29062和12456個觀察值和22個屬性(變量).以下模型均基于訓練集做建模,評估標準均采用在同一測試集上的預測精度和在各自訓練集上的表現(xiàn).
4.2模型結果
設置自適應的隨機決策樹的迭代次數(shù)為5000次,屬性重要度為5%以上,抽取樣本比例為70%,抽取特征集個數(shù)為2Sqrt(屬性總個數(shù)平方根的兩倍),并返回最優(yōu)的模型,結果如圖6所示.
決策樹的節(jié)點數(shù)為32.經計算,個人信用評估模型在訓練集和測試集上的預測精度分別為91.201%和91.3392%,在訓練精度降低了0.46%之后,測試精度同步上升了0.43%,模型用到的特征變量進一步確定,最終鎖定到了contractBusinessType、contractAmount、contractGuaranteeType、position、career、marital、businessType和contractTerm這8個變量,最后決策樹經過翻譯和整合,得到如圖7所示的個人信用評估模型.
基于最優(yōu)決策樹的個人信用評估模型的AUC值達到0.87,KS值為0.59,模型ROC曲線和KS曲線如圖8所示.
4.3模型對比結果
分別運用單一C5.0決策樹、隨機森林、迭代自適應隨機決策樹三種算法,在同一訓練集上建模,并計算基于同一測試集的預測精度,比較模型的有效性和泛化能力.模型對比結果如表2所示.
第一,單一C5.0決策樹在全屬性建模下訓練集精度較高,但可能存在過度擬合的問題,而通過迭代自適應隨機決策樹算法,雖然訓練集精度比單一C5.0決策樹低,但在測試集精度卻更高,說明通過抽樣屬性的方式有效的解決了過度擬合的問題,同時也提高了模型的泛化能力.
第二,由于組合分類器,隨機森林在三種算法中訓練集的精度最高,測試集精度也高于單一C5.0,但稍低于迭代自適應隨機決策樹算法,穩(wěn)定度也略低.
第三,迭代自適應隨機決策樹算法選擇的最優(yōu)C5.0決策樹,不但提高了測試集的精度,同時模型的K值也得到提升,說明既提高了泛化能力,同時也提高了模型的穩(wěn)定性.
5結論
商業(yè)銀行在個人信用風險管理領域越來越多地運用數(shù)據(jù)和模型技術,以提升自身風險管理能力和水平.提出了一種可應用在商業(yè)銀行個人信用評估實證分析中的基于機器迭代自適應隨機決策樹算法,與單一C5.0決策樹和隨機森林模型進行對比分析,結果顯示基于機器迭代的自適應隨機決策樹模型,能夠實現(xiàn)特征變量在大規(guī)模屬性變量中的快速收斂,自動迭代生成的最優(yōu)樹具有更好的泛化能力和穩(wěn)定性,以直觀的層次狀樹形結構解釋在個人信用評估模型中,貸款業(yè)務品種、合同金額、合同擔保方式、職務、職業(yè)、婚姻狀況、業(yè)務類型和貸款期限對信用風險預測準確率有顯著的影響.為風險管理人員的科學決策提供有力的數(shù)據(jù)支持.
從實證改進的效果來看,機器迭代自適應決策樹算法的預測精度的提升幅度沒有泛化能力的提升明顯,后續(xù)研究可以考慮將以有方向的方式抽取樣本和特征集,保證精度按梯度提升作為進一步優(yōu)化的方向.
參考文獻
[1]張美靈,歐志偉 信用評估理論與實務[M].上海:復旦大學出版社,2004.
[2]姜明輝,姜磊,王雅林,線性判別式分析在個人信用評估中的應用[J].管理科學, 2003,16(8):78-87.
[3]徐少鋒,土延臣,個人信用評估中的模型[J].天津輕業(yè)學院學報, 2003,18(9):78-87.
[4]詹原瑞,宏偉,信用評分模型的設計與決策分析[J].中國管理科學, 2003,6(4):78-87.
[5]樓際通,樓文高,余秀榮.商業(yè)銀行個人信用風險評價的投影尋蹤建模及其實證研究[J]. 經濟數(shù)學.2013, 30(4):27-33.
[6]王穎,聶廣禮,石勇.基于信用評分模型的我國商業(yè)銀行客戶違約概率研究[J].管理評論,2012,12(2):78-87.
[7]龔尚花 互聯(lián)網環(huán)境下消費信貸行為研究[J]. 經濟數(shù)學2013, 30(4):71-78.
[8]SATHYADEVAN S, REMYA R. Nair.Comparative analysis of decision tree algorithms: ID3, C4.5 and Random Forest[J].Springer,2014,12(3):549-562.
[9]ZHAO Y.Decision trees and random forest[J].Elsevier,2013(10):27-40.
[10]TANHA J. Semisupervised selftraining for decision tree classifiers[J].International Journal of Machine Learning and Cybernetics, 2017,8(1):355-370.
[11]HE Y. An approach to group decision making with hesitant information and its application in credit risk evaluation of enterprises[J].Elsevier B.V.,2016,6(2):02-10.