張利斌,吳宗文
(中南民族大學(xué) 經(jīng)濟(jì)學(xué)院,武漢 430074)
在金融風(fēng)控領(lǐng)域,如何根據(jù)貸款客戶的基本信息和行為數(shù)據(jù)等,利用一定的分類模型,將貸款客戶區(qū)分為違約客戶和非違約客戶,從而減少貸款機(jī)構(gòu)的信用風(fēng)險(xiǎn),是金融貸款機(jī)構(gòu)孜孜不倦的追求.當(dāng)前有兩種主流分類模型——統(tǒng)計(jì)學(xué)模型和機(jī)器學(xué)習(xí)模型.邏輯回歸模型是最常用的統(tǒng)計(jì)學(xué)模型,其優(yōu)點(diǎn)主要體現(xiàn)在:第一,理論基礎(chǔ)成熟,適合二分類問題[1];第二,可解釋性較強(qiáng),易于理解[2];第三,模型訓(xùn)練時間短[3].缺點(diǎn)主要體現(xiàn)在:第一,容易產(chǎn)生過擬合,泛化能力弱[4];第二,特征空間很大時,分類性能不好[5].近年來,XGBoost 機(jī)器學(xué)習(xí)模型在分類問題中表現(xiàn)優(yōu)秀,受到越來越多風(fēng)控人員的青睞,其優(yōu)點(diǎn)主要體現(xiàn)在:第一,計(jì)算復(fù)雜度低,運(yùn)行速度快,準(zhǔn)確度高[6];第二,可處理數(shù)據(jù)量大[7].缺點(diǎn)主要體現(xiàn)在:第一,建模過程不透明,模型較難解釋[8];第二,理論基礎(chǔ)不夠成熟,布置上線較困難[9].
在分類模型的評價(jià)方面,當(dāng)前學(xué)者主要使用AUC、KS、F1 和Accuracy 值等來評價(jià)邏輯回歸模型和XGBoost 機(jī)器學(xué)習(xí)模型的效果,并指出XGBoost機(jī)器學(xué)習(xí)模型比邏輯回歸模型在AUC、KS、F1 和Accuracy 值上表現(xiàn)更加優(yōu)秀,但是并未解釋更加優(yōu)秀的原因.本文擬從維度信息的損失程度、缺失值的處理方式以及模型的算法原理三方面來解釋其中的原因.
邏輯回歸模型[10]是線性回歸模型的改進(jìn),是一種“廣義的線性回歸模型”,該模型是分類問題中最常用的統(tǒng)計(jì)學(xué)模型.邏輯回歸模型的一般形式見式(1)所示,如下:
其中,β0~βn為模型的估計(jì)參數(shù),x1~xn為模型的變量.
在金融風(fēng)控領(lǐng)域,以貸款客戶的違約與否作為邏輯回歸模型的因變量,一般稱為“非違約客戶”和“違約客戶”,用0 或1 來表示,即f(x) <0.5 為0;f(x) >0.5為1.
XGBoost 機(jī)器學(xué)習(xí)模型[11]比傳統(tǒng)的GBDT(Gradient Boosting Decision Tree,以下簡稱GBDT)更加進(jìn)步的原因在于:傳統(tǒng)的GBDT 只利用了一階的導(dǎo)數(shù)信息,而XGBoost 機(jī)器學(xué)習(xí)模型對損失函數(shù)進(jìn)行了二階的泰勒展開,求得模型最優(yōu)解的效率更高.具體如下:
將XGBoost機(jī)器學(xué)習(xí)模型進(jìn)行t次迭代之后,此時的目標(biāo)函數(shù)為:
將目標(biāo)函數(shù)進(jìn)行泰勒二階展開可得:
邏輯回歸模型和XGBoost 機(jī)器學(xué)習(xí)模型的優(yōu)缺點(diǎn)如表1 所示.相較于XGBoost 機(jī)器學(xué)習(xí)模型,邏輯回歸模型更加方便實(shí)現(xiàn),并且可解釋強(qiáng);XGBoost 機(jī)器學(xué)習(xí)模型在處理大數(shù)據(jù)時精度更高,并且可以有效防止過擬合.
表1 邏輯回歸模型和XGBoost機(jī)器學(xué)習(xí)模型的優(yōu)缺點(diǎn)Tab.1 Advantages and disadvantages of logistic regression model and XGboost machine learning model
本文的實(shí)證分析思路如下:首先,分別運(yùn)用邏輯回歸模型和XGBoost 機(jī)器學(xué)習(xí)模型來構(gòu)建信用評分卡,并運(yùn)用AUC、KS、F1和Accuracy這四個指標(biāo)評估模型的效果.其次,從維度信息的損失程度、缺失值的處理方式以及模型的算法原理三個方面對比兩個模型,分析XGBoost 機(jī)器學(xué)習(xí)模型比邏輯回歸模型更加優(yōu)秀的原因.
2.1.1 數(shù)據(jù)介紹
實(shí)驗(yàn)數(shù)據(jù)來自于kaggle 官網(wǎng)(https://www.kaggle.com/c/home-credit-default-risk/overview)的 住房貸款違約風(fēng)險(xiǎn)預(yù)測的競賽數(shù)據(jù).本文的實(shí)驗(yàn)數(shù)據(jù)集包括20000 個訓(xùn)練數(shù)據(jù)和5000 個測試數(shù)據(jù),其中實(shí)驗(yàn)數(shù)據(jù)集共有121列,包括個人基本信息、所在地區(qū)情況、借貸信息狀況以及公司相關(guān)狀況等.本文為更好地解釋實(shí)證部分,將實(shí)驗(yàn)數(shù)據(jù)集的英文變量翻譯為中文變量,如表2所示.
表2 變量解釋表Tab.2 Variable interpretation
2.1.2 數(shù)據(jù)預(yù)處理
(1)無效值處理
原始數(shù)據(jù)表中的SK_ID_CURR 變量在實(shí)際建模中的用處不大,且包含用戶的隱私信息,故需直接刪除.
(2)缺失值處理
根據(jù)jupyter 分析軟件可得,121 個變量中共有65 個有缺失值.其中,共有57 個變量的缺失比例大于10%,將其直接刪除,對剩余的缺失變量做相應(yīng)的填充處理,具體處理方式如表3所示.
表3 缺失變量處理表Tab.3 Missing variable processing table
2.1.3 入模變量篩選
對邏輯回歸模型來說,入模變量的選擇至關(guān)重要.本文選擇WOE 分箱、IV 值篩選法以及相關(guān)性檢測相結(jié)合的方法篩選入模變量,具體思路如下:首先,根據(jù)變量的閾值以及業(yè)務(wù)趨勢進(jìn)行WOE 分箱;其次,根據(jù)WOE分箱計(jì)算變量的IV值,篩選IV值大于0.3 的變量(IV 值大于0.3 有較高的預(yù)測能力);最后,對IV 值大于0.3變量進(jìn)行相關(guān)性檢測,剔除相關(guān)性大于0.5中IV值較小的那個變量.
一般來說,建立邏輯回歸模型只需選擇10~12個變量[12].本文選擇IV 值排名靠前且通過相關(guān)性檢測的11個變量作為入模變量,具體如表4所示.
表4 入模變量表Table.4 Molding variables
2.1.4 邏輯回歸模型的建立
根據(jù)SPSS 軟件,確定x1~x11各變量的估計(jì)參數(shù),從而建立邏輯回歸模型,具體表達(dá)式如(4)式所示:
其中xi(i=1…11)為11 個入模變量;f(x)為預(yù)測結(jié)果.
2.1.5 信用評分卡的建立
根據(jù)傳統(tǒng)的信用評分機(jī)制,可以制作信用評分卡,標(biāo)準(zhǔn)的信用評分卡如表5所示.
表5 標(biāo)準(zhǔn)評分卡Table.5 Standard score card
表中,A、B 為假設(shè)的基礎(chǔ)分值,本文設(shè)為500 和50,θ0~θn為x1~xn的估計(jì)參數(shù),ω11~ωnkn為x1~xn各分量的WOE值.
根據(jù)評分轉(zhuǎn)換原理,計(jì)算出11個入模變量的各分量得分值,具體結(jié)果如表6所示.
表6 基于邏輯回歸模型的信用評分卡Tab.6 Credit scoring card based on logistic regression model
利用表6 的信用評分卡對5000 個測試集樣本進(jìn)行評分轉(zhuǎn)換,得測試集樣本的最終得分情況見表7.
表7 測試集樣本得分情況統(tǒng)計(jì)Tab.7 Statistics of sample scores of test set
從表7 的得分情況可以看出,隨著用戶得分的上升,高分段的壞樣本占比呈現(xiàn)出不斷下降的趨勢,這也說明了信用評分卡可以較好地識別信用風(fēng)險(xiǎn).
2.1.6 模型的效果評價(jià)
對于分類模型而言,可以從分類能力和預(yù)測的準(zhǔn)確程度來評價(jià)模型的效果.一般來說,使用AUC和KS 來評估模型的分類能力以及F1 和Accuracy 來評估模型的預(yù)測準(zhǔn)確程度[13].通過對訓(xùn)練集和測試集的樣本測試,得到相關(guān)的評價(jià)指標(biāo)如表8所示.
表8 模型結(jié)果評估Tab.8 Evaluation of model results
從表8 可以看出該模型在測試集上擁有0.7294的AUC 和0.5378 的KS,這表示模型具有較好的分類能力.同時該模型在測試集上擁有0.8218的F1和0.8325 的Accuracy,這表示模型具有較高的預(yù)測準(zhǔn)確程度.
2.2.1 樸素的XGBoost機(jī)器學(xué)習(xí)模型
首先,用訓(xùn)練數(shù)據(jù)來建立默認(rèn)參數(shù)下的XGBoost 機(jī)器學(xué)習(xí)模型;其次,對所構(gòu)建的XGBoost機(jī)器學(xué)習(xí)模型進(jìn)行效果評價(jià).具體結(jié)果如表9所示.
表9 樸素的XGBoost機(jī)器學(xué)習(xí)模型結(jié)果Tab.9 Results of simple XGBoost machine learning model
由表9 可知,在沒有超參數(shù)約束的情況下,XGBoost 機(jī)器學(xué)習(xí)模型在訓(xùn)練集上完全擬合,而在測試集上的表現(xiàn)相對一般,這表明該模型的泛化能力較弱.造成這種現(xiàn)象的原因是XGBoost 機(jī)器學(xué)習(xí)模型是基于決策樹的集成模型,如果不限制其增長,它可以學(xué)習(xí)到適應(yīng)所有訓(xùn)練樣本的規(guī)則.但是如何提高該模型在測試集上的表現(xiàn),才是我們真正所關(guān)心的,因此需要對模型進(jìn)行調(diào)參優(yōu)化.
2.2.2 調(diào)優(yōu)的XGBoost機(jī)器學(xué)習(xí)模型
XGBoost 的超參數(shù)可以歸為三個核心部分:通用參數(shù),Booster 參數(shù)和任務(wù)參數(shù)[14].本文在通用參數(shù)、Booster 參數(shù)以及學(xué)習(xí)目標(biāo)參數(shù)這三類參數(shù)的具體選擇如表10所示.
表10 XGBoost的調(diào)參參數(shù)Tab.10 Adjusted parameters of XGBoost
本文使用網(wǎng)格搜索交叉驗(yàn)證得到的最優(yōu)超參數(shù)為:eta 為0.02,min_child_weight 為2,gamma=0.2,max_depth 為5,num_boost_round 為110.使用該參數(shù)組合的XGBoost機(jī)器學(xué)習(xí)模型對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行效果評價(jià),具體結(jié)果如表11所示.
表11 調(diào)優(yōu)的XGBoost機(jī)器學(xué)習(xí)模型結(jié)果Tab.11 Results of optimized XGboost machine learning model
從表11 可以看出,該模型在測試集上擁有0.8746的AUC和0.6318的KS,這表示模型具有很好的分類能力.同時該模型在測試集上擁有0.9487 的F1 和0.9318 的Accuracy,這表示模型具有很高的預(yù)測準(zhǔn)確程度.
將該模型與樸素的XGBoost 機(jī)器學(xué)習(xí)模型在測試集上的表現(xiàn)進(jìn)行對比,得到的結(jié)果如表12所示.
表12 樸素的XGBoost與調(diào)優(yōu)的XGBoost機(jī)器學(xué)習(xí)模型對比結(jié)果Tab.12 Comparison results of simple XGboost and optimized XGboost machine learning models
從表12 可知,調(diào)優(yōu)的XGBoost 機(jī)器學(xué)習(xí)模型相比于樸素的XGBoost 機(jī)器學(xué)習(xí)模型,AUC、KS、F1 和Accuracy 都有所提升,這說明調(diào)優(yōu)后的XGBoost 機(jī)器學(xué)習(xí)模型更加優(yōu)秀.
2.2.3 信用評分卡的構(gòu)建
為了更加具體地觀察調(diào)優(yōu)的XGBoost 機(jī)器學(xué)習(xí)模型輸出結(jié)果,本文考慮引入傳統(tǒng)的信用評分機(jī)制,進(jìn)而將機(jī)器學(xué)習(xí)模型輸出的概率值轉(zhuǎn)換為常見的信用評分值.通過對測試集樣本的信用評分統(tǒng)計(jì),具體的信用評分卡如表13所示.
表13 基于XGBoost機(jī)器學(xué)習(xí)模型的信用評分卡Tab.13 Credit scoring card based on XGBoost machine learning model
從表13 可以看出,XGBoost 機(jī)器學(xué)習(xí)模型輸出的概率值可以通過信用評分機(jī)制轉(zhuǎn)換為信用評分值.隨著得分的提高,好樣本的占比逐漸提升,壞樣本的占比逐漸降低,這說明所建立的信用評分卡能夠較好地識別信用風(fēng)險(xiǎn).
根據(jù)上文的實(shí)驗(yàn)結(jié)果,將邏輯回歸模型和調(diào)優(yōu)的XGBoost 機(jī)器學(xué)習(xí)模型在測試集上的AUC、KS、F1和Accuracy進(jìn)行比較,如表14所示.
表14 邏輯回歸模型與調(diào)優(yōu)的XGBoost機(jī)器學(xué)習(xí)模型對比結(jié)果Tab.14 Comparison results between logistic regression model and optimized XGboost machine learning model
從表14 可以看出,XGBoost 機(jī)器學(xué)習(xí)模型在測試集上的AUC、KS、F1 和Accuracy 均高于邏輯回歸模型.通過對兩種建模方式的比較,XGBoost 機(jī)器學(xué)習(xí)模型更加優(yōu)秀的原因主要有以下三點(diǎn):
(1)維度信息損失程度更低
在建立邏輯回歸模型,運(yùn)用WOE 分箱、IV 值篩選法以及相關(guān)性檢測相結(jié)合的方法從121個原始變量中挑選出11個變量來建立邏輯回歸模型,該方法損失了較多的維度信息,僅列出Ⅳ最高的11個變量.然而,在建立XGBoost 機(jī)器學(xué)習(xí)模型時,將121 個變量經(jīng)過數(shù)據(jù)處理后全部輸入到模型中,幾乎沒有原始數(shù)據(jù)的信息損失.單從數(shù)據(jù)維度來看,XGBoost 機(jī)器學(xué)習(xí)模型納入更多的維度信息是機(jī)器學(xué)習(xí)模型相對于邏輯回歸模型更加優(yōu)秀的原因之一.
(2)缺失值的處理方式更加科學(xué)
在建立邏輯回歸模型時,一般刪除缺失比例超過10%的缺失值,同時用眾數(shù)填充類別型缺失變量和中位數(shù)填充連續(xù)型缺失變量,該方法有一定的人工干預(yù),處理缺失值方式不夠嚴(yán)謹(jǐn).然而,XGBoost機(jī)器學(xué)習(xí)模型采用內(nèi)置算法處理數(shù)據(jù)的缺失值,該方法處理缺失值更加科學(xué).單從缺失值的處理方式來看,XGBoost 機(jī)器學(xué)習(xí)模型科學(xué)地處理缺失值是該模型相對于邏輯回歸模型更加優(yōu)秀的原因之一.
(3)模型的算法原理考慮了正則化項(xiàng)
在建立邏輯回歸模型時,沒有考慮正則化項(xiàng),導(dǎo)致該模型復(fù)雜度較高,有過擬合的風(fēng)險(xiǎn),評估效果一般.然而,在建立XGBoost 機(jī)器學(xué)習(xí)模型時,考慮了正則化項(xiàng),降低了過擬合風(fēng)險(xiǎn),評估效果得到了有效提升.單從模型的算法原理來看,XGBoost 機(jī)器學(xué)習(xí)模型考慮了正則化項(xiàng)是該模型相對于邏輯回歸模型更加優(yōu)秀的原因之一.
本文比較了邏輯回歸模型和XGBoost 機(jī)器學(xué)習(xí)模型在信用評分卡構(gòu)建中的具體表現(xiàn),通過對比兩個模型的AUC、KS、F1 和Accuracy 值,得出了以下結(jié)論:
(1)邏輯回歸模型在測試集上的分類效果以及預(yù)測準(zhǔn)確程度不如XGBoost 機(jī)器學(xué)習(xí)模型.邏輯回歸模型的AUC、KS、F1 和Accuracy 均低于XGBoost機(jī)器學(xué)習(xí)模型,這表明XGBoost 機(jī)器學(xué)習(xí)模型在分類效果以及預(yù)測準(zhǔn)確程度上均表現(xiàn)更優(yōu).
(2)邏輯回歸模型建模過程較XGBoost 機(jī)器學(xué)習(xí)模型更易于理解.在建立邏輯回歸模型時,通過特征篩選從121 個變量中篩選出11 個變量建立邏輯回歸模型,該方法建模過程透明,易于理解.然而,XGBoost 機(jī)器學(xué)習(xí)模型以編程和調(diào)整參數(shù)的形式來建立模型,具有一定的不透明性,不易于理解.
(3)維度信息損失程度更低、缺失值的處理方式更加科學(xué)以及模型的算法原理更加科學(xué)(考慮了正則化項(xiàng))是XGBoost 機(jī)器學(xué)習(xí)模型相較于邏輯回歸模型在分類效果以及預(yù)測準(zhǔn)確程度上更加優(yōu)秀的原因.
如何融合邏輯回歸模型和XGBoost 機(jī)器學(xué)習(xí)模型,使其兩者在風(fēng)控領(lǐng)域可以優(yōu)勢互補(bǔ),在提高模型效果的同時又增強(qiáng)解釋能力?是值得我們下一步深入研究的問題.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年6期