張佳倩,李 偉,阮素梅
(安徽財經(jīng)大學(xué)金融學(xué)院,安徽蚌埠,233030)
隨著經(jīng)濟的發(fā)展,公眾對貸款的需求越來越大。央行數(shù)據(jù)顯示,截止2020年2月,全國總貸款量為1 630 709.2億元,其中大型商業(yè)銀行貸款總量為749 435.34億元;全國小型商業(yè)銀行的貸款總量為748 799.3億元,占全國總貸款量的91.8%。同比往期數(shù)據(jù),居民和企業(yè)的貸款需求呈大幅增長、穩(wěn)步上升的趨勢。大量的貸款需求使得除了銀行、信用社等傳統(tǒng)的放貸機構(gòu),一些網(wǎng)絡(luò)借貸平臺也應(yīng)運而生,如P2P,這種直接融資模式的誕生拓寬了傳統(tǒng)貸款渠道,彌補了新時代下傳統(tǒng)金融機構(gòu)的不足。
在這樣的背景下,仍有一部分公眾因為沒有信用記錄、記錄不全、資料有誤無法核實等而難以獲得貸款,從而被不可靠的放貸人利用。商業(yè)銀行是我國金融市場的主要放貸主體,貸款業(yè)務(wù)是其主要贏利手段和高風險項目之一。不良貸款率增加會導(dǎo)致銀行信用風險提高,每一筆貸款的風險控制情況最終會影響銀行營運、償付能力。因此,銀行必須建立一種有效機制提高對借款人按時還貸的預(yù)測能力,在有效降低不良貸款率和信用風險的基礎(chǔ)上為無信用記錄或記錄不足的人群提供貸款。
過去銀行等傳統(tǒng)金融業(yè)對貸款業(yè)務(wù)的評估主要依靠5C分類法和經(jīng)驗判斷法,效率較低,且過于依賴審核人員的主觀判斷。因此,傳統(tǒng)的資信審查和風控模式逐漸無法滿足日益增長的龐大貸款需求。機器學(xué)習(xí)能夠在短時間內(nèi)對大量數(shù)據(jù)多次模擬訓(xùn)練達到理想效果。銀行等貸款機構(gòu)利用機器學(xué)習(xí)算法,結(jié)合借款人提交的信息和各種替代數(shù)據(jù)來預(yù)測客戶的還款能力,既可以為銀行構(gòu)建智能風控模型,又可以為因征信信息不足等原因無法獲得貸款但實際具有還款能力的公眾提供便利。故本文選取Kaggle大賽中的Home Credit Default Risk中的樣本數(shù)據(jù)進行研究,采用機器學(xué)習(xí)的方法,建立隨機森林、邏輯回歸、XGBoost和樸素貝葉斯等模型,分析樸素貝葉斯方法對貸款違約風險的預(yù)測準確率是否更高,并進一步分析幾種模型的優(yōu)劣。
貸款違約預(yù)測是業(yè)界長期關(guān)注的重要問題,已有眾多學(xué)者對此進行研究,并將取得的理論模型應(yīng)用于銀行實踐。最初主要用傳統(tǒng)的統(tǒng)計類方法結(jié)合專家的個人經(jīng)驗進行預(yù)測,20世紀80年代學(xué)者們對模型應(yīng)用的擴展到新興的機器學(xué)習(xí)領(lǐng)域。
Malekipirbazari(2015)等將隨機森林模型運用于信用風險評估領(lǐng)域,結(jié)果表明該模型能夠有效識別違約貸款。[1]Guo等(2016)為了與已有的評級模型進行比較,基于Logistic模型和核回歸模型建立貸款風險評級模型,結(jié)果表明改進的模型能更準確地評估出貸款風險。[2]劉開元(2016)選用商業(yè)銀行汽車信貸數(shù)據(jù),建立隨機森林、邏輯回歸、決策樹和BP神經(jīng)網(wǎng)絡(luò)進行貸款違約預(yù)測,實驗結(jié)果顯示邏輯回歸模型表現(xiàn)最優(yōu)。[3]郭曉云(2017)為幫助P2P平臺辨別貸款風險得到最優(yōu)貸款組合,建立支持向量機模型對貸款樣本進行分類。[4]阮素梅(2017)運用P2P網(wǎng)貸數(shù)據(jù)建立支持向量機與決策樹模型,實驗結(jié)果表明決策樹能獲得更高預(yù)測準確率。[5]陳耀飛等(2017)通過對比Logistic回歸和GBDT等算法,發(fā)現(xiàn)XGBoost模型表現(xiàn)最優(yōu),不僅預(yù)測效果最好且訓(xùn)練速度最快。[6]舒揚等(2017)選用Logistic模型和Probit模型在汽車貸款領(lǐng)域進行違約預(yù)測,結(jié)果顯示Logistic模型更適用于貸款違約預(yù)測。[7]涂艷等(2018)發(fā)現(xiàn)隨機森林、神經(jīng)網(wǎng)絡(luò)和決策樹算法用于P2P網(wǎng)絡(luò)借貸違約風險預(yù)警能有效識別高風險借款人。[8]Ma Xiaojun(2018)等分別建立LightGBM模型對貸款違約原因進行分析,并建立貸款信用評級模型,發(fā)現(xiàn)LightGBM模型均有較好的表現(xiàn)[9-10]。Sing等人(2018)發(fā)現(xiàn)深度學(xué)習(xí)模型比傳統(tǒng)模型在風險評估方面更具優(yōu)勢。[11]李天陽等(2020)在傳統(tǒng)的二分類Logistic模型上進行改進,發(fā)現(xiàn)基于加權(quán)懲罰Logistic模型對于貸款違約預(yù)測起到重要作用。[12]張春杰(2020)選取Lending Club中97個特征變量構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的貸款違約預(yù)測模型,結(jié)果顯示卷積神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)模型評估更準確。[13]陶艷麗(2020)引進改進的隨機森林模型,解決決策樹分類效果差的問題,結(jié)果顯示改進的隨機森林模型更適應(yīng)于個人信用評估。[14]
文獻研究發(fā)現(xiàn),機器學(xué)習(xí)模型在違約預(yù)測和風險評估方面,比傳統(tǒng)模型表現(xiàn)出更高的預(yù)測精度和穩(wěn)定性。但其中選用XGBoost、隨機森林、SVM和神經(jīng)網(wǎng)絡(luò)的較多,少有嘗試用貝葉斯模型來進行違約預(yù)測或風險評估分類。因此,本研究建立隨機森林、邏輯回歸、XGBoost和樸素貝葉斯模型,比較不同算法在貸款違約預(yù)測領(lǐng)域的預(yù)測準確率,探索樸素貝葉斯模型是否更優(yōu),并分析影響違約概率的因素。
1.數(shù)據(jù)來源
使用Home Credit提供的數(shù)據(jù)進行實驗,共有307 511個樣本??紤]到變量的重要性、相關(guān)性以及維數(shù)爆炸等因素,選擇70個變量,其中包括借款人貸款類型、性別、子女人數(shù)、收入狀況、貸款申請額、貸款年金、消費貸款的商品實際價格、借款人收入類型、受教育情況、職務(wù)、年齡、聯(lián)系方式、婚姻狀況、居住狀況、居住地人口密集度、Home Credit對申請人居住區(qū)域的評分等級、借款人工作所屬組織類型、外部數(shù)據(jù)源(1、2、3)的標準化評分、借款人居住環(huán)境各項指標的標準化評分等。其中借款人還款風險包括還款風險高和還款風險低兩類,這里將1視為未按時償還貸款,0視為按時償還貸款。樣本中部分主要變量分布情況如表1所示。
表1 描述性統(tǒng)計
2.數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要是對缺失值和異常值的處理使其能夠滿足建模要求。首先是缺失值,變量的缺失值占比超過60%,則對預(yù)測結(jié)果的精確度產(chǎn)生較大影響,考慮將這些變量刪除;占比低于60%的變量,如 EXT_SOURCE_2、EXT_SOURCE_3和 AMT_GOODS_PRICE等數(shù)值型變量,采用中位數(shù)對空缺值進行補充,如OCCUPATION_TYPE、NAME_TYPE_SUITE屬于類別變量,則將缺失值定義為一個新的類別。由于現(xiàn)階段特征尚未構(gòu)建完畢,因此缺失值部分暫時只對變量維度的缺失情況進行考察。異常值問題是針對數(shù)值型數(shù)據(jù)的合理性,主要檢測數(shù)據(jù)是否存在邏輯錯誤或特殊情況。觀察發(fā)現(xiàn)數(shù)值型變量DAYS_EMPLOYED出現(xiàn)異常,最大值為1 000年。嘗試對DAYS_EMPLOYED的異常值與非異常值總體違約情況進行分析,發(fā)現(xiàn)異常和非異常值的違約率之比為1∶1.6,異常值對違約率沒有明顯影響。所以將異常值作為缺失值處理,采用中位數(shù)進行填充,并定義新的一列告訴模型這些數(shù)據(jù)最初是異常的。
經(jīng)過以上處理,初步構(gòu)建了一個適合模型訓(xùn)練的數(shù)據(jù)集,但是由于各變量與目標變量之間的相關(guān)性不同,變量預(yù)測能力參差不齊,采用相關(guān)性分析法對變量之間的關(guān)系進行分析。在所選取的變量中,DAYS_BIRTH與目標變量之間表現(xiàn)出最強的正相關(guān)性為0.078 2。為了方便觀察,DAYS_BIRTH除以365天換成Age表示(如圖1),發(fā)現(xiàn)隨著貸款申請人年齡的增長,其表現(xiàn)出的違約風險越低,年齡最小的三組的違約率高于1%,DAYS_BIRTH最大的組違約率低于0.5%,表明年輕借款人的違約傾向比年長借款人高。
圖1 隨年齡增加貸款違約情況
根據(jù)相關(guān)性分析,與目標的負相關(guān)性最強的三個 變 量 是 EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3。DAYS_BIRTH與EXT_SOURCE_1的相關(guān)系數(shù)為0.6,表現(xiàn)出較強的正相關(guān)性,說明借款人年齡可能是該評分中的一個主要因素。為了嘗試提高模型的訓(xùn)練效果,采用特征組合方法,將EXT_SOURCE_1、EXT_SOURCE_2、EXT_SOURCE_3和DAYS_BIRTH四個變量進行組合形成交互項,采用3階為最高階數(shù)形成了35個新變量,發(fā)現(xiàn)與原始變量相比,形成的新組合變量表現(xiàn)出更強的相關(guān)性,相關(guān)系數(shù)為-0.193 9。在構(gòu)建模型時,本文將嘗試使用和不使用這些新變量,以確定它們是否有助于模型學(xué)習(xí)。
為了使得到的模型訓(xùn)練效果方便進行比較分析,本文選用AUC、準確率和召回率來量化模型性能。
AUC是二分類模型使用的主要評測指標之一,由接受者工作特征曲線(ROC)下的面積計算,可用于評估模型的整體能力。值通常在0.5到1之間,越大則分類器正確率越高。
準確率(accuracy)是二分類問題中的另一常用指標,是分類正確、錯誤的樣本之和與總樣本數(shù)之比(混淆矩陣見表2),準確率越高則模型預(yù)測越準確,準確率的公式見式(1):
表2 違約預(yù)測模型的混淆矩陣
召回率(recall)同樣經(jīng)常用于二分類問題。召回率表現(xiàn)為分類器能預(yù)測準確的正例數(shù)占實際正例數(shù)的多少,可理解為查全率。召回率越高則模型表現(xiàn)出更好的訓(xùn)練性能,其公式見式(2):
1.隨機森林模型(Random Forest)
隨機森林模型以決策樹為基學(xué)習(xí)器構(gòu)建Bag?ging集成,在訓(xùn)練過程中引入隨機屬性選擇。隨機森林模型中基學(xué)習(xí)器具有的多樣性來自樣本擾動和屬性擾動,最終集成的泛化性能通過不同個體學(xué)習(xí)器之間差異的增加而提升,從而有效防止過擬合。其能夠處理很高維數(shù)據(jù)且訓(xùn)練速度很快,即使遺失大部分特征,仍可以維持較高的準確率。
2.邏輯回歸模型(Logistic Regression)
邏輯回歸模型是最經(jīng)典的二分類模型,在線性分類問題中應(yīng)用廣泛,對變量要求較低,具有廣泛的適應(yīng)性。邏輯回歸是一個條件概率模型,見下式:
其中x∈Rn是輸入,Y∈{0,1}是輸出,w∈Rn,w稱為權(quán)值向量。邏輯回歸根據(jù)式(3)和式(4)求出的結(jié)果,將樣本分到概率較大的類別。
3.XGBoost模型
XGBoost是Boosting算法的一個提升,以CART樹中的回歸樹作為基分類器,給定訓(xùn)練數(shù)據(jù)后其單個樹的結(jié)構(gòu)基本可以確定。XGBoost也是CART樹的一種加法模型,將t-1棵樹組合模型產(chǎn)生的誤差作為參考建立第t棵樹,每加入一棵樹其損失函數(shù)不斷降低,可以通過特征的列采集防止過擬合。它的預(yù)測模型為:
損失函數(shù)為:
其中K為樹的總個數(shù),fk表示第k棵樹,i表示樣本xi的預(yù)測結(jié)果,為樣本xi的訓(xùn)練誤差,Ω(fk)表示第k棵樹的正則項。Obj又稱結(jié)構(gòu)分數(shù),是一個類似基尼系數(shù)的對樹結(jié)構(gòu)進行打分的函數(shù),分數(shù)越小代表樹的結(jié)構(gòu)越好。
4.高斯樸素貝葉斯(GaussianNB)
樸素貝葉斯模型是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法,特點是結(jié)合先驗概率和后驗概率,避免只使用先驗概率的主觀偏見,也避免單獨使用樣本信息的過擬合現(xiàn)象,在樣本量較大的情況下與其他分類方法相比具有最小的誤差率。樸素貝葉斯的判定準則為:
其中d為屬性數(shù)目,xi為x在第i個屬性上的取值,y={c1,c2,…,cN}表示N種可能的類別標記。P(c)是先驗概率,P(x|c)是類別c的條件概率。本文在這里選取高斯樸素貝葉斯分類器作為模型進行訓(xùn)練,即P(xi,c)服從這樣的高斯分布,所以P(xi,c)的概率密度函數(shù)為:
其中μc,i和分別是第c類樣本在第i個屬性上取值的均值和方差。
在機器學(xué)習(xí)所有的分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法不同。大多數(shù)的分類算法比如決策樹、邏輯回歸、支持向量機等都屬于判別方法,即直接學(xué)習(xí)出特征,輸出Y和特征X之間的關(guān)系,要么是決策函數(shù)Y=f(X),要么是條件分布P(Y|X)。但樸素貝葉斯是生成類方法,即直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出結(jié)果。故選用樸素貝葉斯建模,探索分析生成類算法是否比判別類算法表現(xiàn)更優(yōu)。樸素貝葉斯模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不敏感,不僅算法簡單,對小規(guī)模的數(shù)據(jù)表現(xiàn)較好,且能很好地處理分類任務(wù)。本文數(shù)據(jù)來源于Kaggle大賽,為不平衡數(shù)據(jù),為了減少其帶來的影響,選用貝葉斯中的高斯貝葉斯模型。高斯貝葉斯是用各個類別的樣本去極大似然估計出高斯分布的均值和方差,使模型訓(xùn)練準確率受樣本影響較小。
學(xué)者曾將違約預(yù)測進行研究探索時所用的方法分為兩大類:一類是普通的統(tǒng)計分類模型,如線性判別分析、Probit回歸、因子分析等;另一類是機器學(xué)習(xí)算法,如決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)等。為了探索生成類模型樸素貝葉斯是否更適用于貸款違約預(yù)測,選取隨機森林模型、邏輯回歸模型、XG?Boost模型與高斯樸素貝葉斯模型進行對比分析。
首先嘗試在隨機森林模型的訓(xùn)練集中加入35個交互項,根據(jù)模型的實證結(jié)果,發(fā)現(xiàn)隨機森林模型訓(xùn)練的AUC評分為0.678,而未加入交互項的隨機森林模型的訓(xùn)練結(jié)果的AUC評分為0.676,見表3。AUC的值越大,表明模型的擬合效果越好,根據(jù)實驗結(jié)果發(fā)現(xiàn),加入新變量未使模型的預(yù)測能力明顯提高?;谏衔姆治隹芍珽XT_SOURCE_1和DAYS_BIRTH存在較強的正相關(guān)性,使得它們組成的交互項沒能給模型提供有意義的參考。
表3 新變量加入前后模型AUC評分
本文構(gòu)建了多個模型進行對比,用AUC、準確率和召回率作為評估標準對模型進行評估。根據(jù)上文所述,新變量對模型的擬合能力沒有明顯的改善,為了減少維數(shù)提高模型的擬合能力,以后的訓(xùn)練中不再加入新變量。根據(jù)實驗結(jié)果,邏輯回歸模型訓(xùn)練的AUC評分為0.597,準確率和召回率分別為0.623和0.109。與未加入新變量的隨機森林模型對比,邏輯回歸模型的AUC評分、準確率和召回率都比隨機森林要低,其中準確率表現(xiàn)出的差距最大,兩者相差0.276,說明隨機森林模型比邏輯回歸模型表現(xiàn)出更優(yōu)的性能。
圖2 隨機森林模型的ROC曲線
圖3 邏輯回歸模型的ROC曲線
作為一個基于決策樹的梯度提升算法,XGBoost可以自動補全缺失值并獲取特征重要性,從而有效地進行特征的篩選,提高模型的擬合能力。通過實證結(jié)果(如圖4):EXT_SOURCE_2、EXT_SOURCE_3、EDUCATION_TYPE(受教育程度)、GENDER、IN?COME_TYPE(收入類型)、ORGANIZATION_TYPE(工作群體)、CONTRACT_TYPE(貸款類型)、EXT_SOURCE_1、FAMILY_STATUS(家庭情況)、FLAG_OWN(抵押品)等特征在預(yù)測借款人是否會產(chǎn)生違約行為中是最重要的,與日常生活經(jīng)驗相符。由上文EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3是根據(jù)借款人的資料打出的標準化評分,評分越高,借款人越傾向于還貸。INCOME_TYPE、ORGANI?ZATION_TYPE和OCCUPATION_TYPE在一定程度上能反映借款人的財富積累情況,代表著其對貸款償還能力的大小。最終得到XGBoost模型的AUC評分為0.738,準確率和召回率分別為0.668和0.154。
圖4 特征重要性排序
由前文的分析,已知借款人是否違約主要由INCOME、EXT_SOURCE_2、EXT_SOURCE_3、OC?CUPATION_TYPE等11個特征決定,其他特征也能產(chǎn)生一定影響,而組合成的35個交互項特征對模型預(yù)測優(yōu)化影響甚微。所以本文用高斯樸素貝葉斯分類器進行模型訓(xùn)練時,從數(shù)據(jù)源中剔除35個組合變量。根據(jù)實證結(jié)果,高斯樸素貝葉斯分類器擬合訓(xùn)練的AUC評分為0.605,準確率和召回率分別為0.899和0.082。
圖5 XGBoost模型的ROC曲線
圖6 高斯樸素貝葉斯模型的ROC曲線
由表4可知,根據(jù)AUC評分來看,XGBoost模型表現(xiàn)最優(yōu),比評分最低的邏輯回歸模型高0.141。準確率最高的模型是高斯樸素貝葉斯為0.899,最低的是邏輯回歸模型為0.623,樸素貝葉斯模型的準確率提高了44.3%。XGBoost模型的召回率最高為0.154,高斯樸素貝葉斯模型的召回率最低為0.082。綜合四個模型的三個評估指標結(jié)果,不難發(fā)現(xiàn)XGBoost模型在三個指標評分中綜合表現(xiàn)最好,而高斯樸素貝葉斯模型雖然準確率較高,但AUC和召回率相對較低。綜上,可以認為高斯貝葉斯模型在貸款違約預(yù)測問題上表現(xiàn)不是特別好。
表4 四種算法的訓(xùn)練結(jié)果對比
本文采用隨機森林模型、邏輯回歸模型、XG?Boost模型和高斯樸素貝葉斯模型,選用Home Credit提供的客戶數(shù)據(jù)進行貸款違約預(yù)測,并根據(jù)XG?Boost特征重要性排序結(jié)果,嘗試對違約原因進行分析,發(fā)現(xiàn)除了EXT_SOURCE_2和EXT_SOURCE_3,對貸款違約影響最大的因素是借款人的性別、年齡、工作、家庭、受教育程度、收入狀況等。總結(jié)如下:
第一,研究結(jié)論對貸款違約預(yù)測的模型、特征的選擇有重要啟示。相比判別類模型,生成類模型高斯樸素貝葉斯沒有表現(xiàn)出更優(yōu)的預(yù)測能力。而作為樹模型的隨機森林和XGBoost相比表現(xiàn)更好。加入35個交互項未能使模型預(yù)測能力得到很大提升,在以后的實驗中,可以不考慮這些變量,并采用樹模型對貸款違約預(yù)測做進一步嘗試。
第二,研究結(jié)論對貸款業(yè)務(wù)發(fā)展有重要啟示。年長、女性群體通常比年輕、男性群體更偏向于按時還貸,現(xiàn)實中年長、女性群體更偏好風險規(guī)避,避免自身陷入財務(wù)危機。近年,女性群體的消費能力逐漸提升,貸款機構(gòu)可根據(jù)女性消費、風險特征推出專項消費信貸。年輕群體雖更傾向于逾期還貸,但貸款機構(gòu)應(yīng)為其提供更多指導(dǎo)或財務(wù)計劃提示來幫助年輕客戶按時還貸,而不是拒絕放貸。
第三,研究結(jié)論對貸款審查項目有重要啟示。受教程度高、高薪職業(yè)群體誠信意識更強,高就業(yè)率、較強的專業(yè)技能和工作能力、高水平收入使其未來的收入更樂觀,為按時還貸提供了有力的資金支持。貸款機構(gòu)在進行貸款資格審查時增強學(xué)歷學(xué)位影響因子占比,核驗借款人真實學(xué)歷水平,能更有效地對借款人的違約概率進行評估。
第四,研究結(jié)論對提高貸款違約預(yù)測準確率有重要啟示。已婚、有子女貸款群體傾向于按時還貸,他們通常比未婚借款人更具穩(wěn)定性,有較為固定的居住、工作場所。且夫妻雙方均有收入,另一方無形充當了擔保人角色。貸款機構(gòu)在對借款人進行資格審查時,可調(diào)研已婚借款人夫妻雙方的收入水平,從而更精準地判斷借款人違約可能性。
長春理工大學(xué)學(xué)報(社會科學(xué)版)2021年4期