司筱涵, 魏建國(guó), 魏英杰
摘要: 首先分析了互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)的特征,運(yùn)用信息經(jīng)濟(jì)學(xué)研究互聯(lián)網(wǎng)消費(fèi)金融借款人違約風(fēng)險(xiǎn)的形成機(jī)制,構(gòu)建了借款人信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系。然后構(gòu)建集XGBoost、LightGBM和CatBoost的二分類加權(quán)硬投票融合模型,用于預(yù)測(cè)借款人違約風(fēng)險(xiǎn)。通過實(shí)證檢驗(yàn)比較不同分類器訓(xùn)練下的預(yù)測(cè)結(jié)果發(fā)現(xiàn):融合模型的預(yù)測(cè)精準(zhǔn)度優(yōu)于單一模型XGBoost、LightGBM和CatBoost;基于特征重要性排序結(jié)果,發(fā)現(xiàn)影響貸款者違約的關(guān)鍵因素主要包括貸款利率、年收入、公共事業(yè)差評(píng)數(shù)記錄、循環(huán)信貸余額等。最后提出了加強(qiáng)借款人違約風(fēng)險(xiǎn)管理的建議。
關(guān)鍵詞: 互聯(lián)網(wǎng)消費(fèi)金融; 二分類加權(quán)硬投票; 違約風(fēng)險(xiǎn)
中圖分類號(hào): F832.39文獻(xiàn)標(biāo)識(shí)碼: ADOI: 10.3963/j.issn.1671-6477.2022.03.003
近年來,我國(guó)互聯(lián)網(wǎng)消費(fèi)金融快速發(fā)展,市場(chǎng)規(guī)模不斷擴(kuò)大。Wind數(shù)據(jù)顯示,2019年互聯(lián)網(wǎng)消費(fèi)金融市場(chǎng)交易規(guī)模達(dá)22800億元,互聯(lián)網(wǎng)消費(fèi)金融從2013年的60億元增長(zhǎng)到2019年的22800億元,年平均增長(zhǎng)率達(dá)169.13%。盡管2020年受新冠疫情影響,互聯(lián)網(wǎng)消費(fèi)金融增長(zhǎng)速度有所減緩,但后疫情時(shí)代還將迎來快速增長(zhǎng)。然而,由于我國(guó)互聯(lián)網(wǎng)消費(fèi)金融發(fā)展尚處于探索階段,主要服務(wù)對(duì)象是低收入弱信用的長(zhǎng)尾人群,加上我國(guó)征信體系尚不完善、平臺(tái)內(nèi)部風(fēng)險(xiǎn)控制機(jī)制還不健全等,借款人違約現(xiàn)象頻發(fā)。中國(guó)銀監(jiān)會(huì)和保監(jiān)會(huì)的數(shù)據(jù)顯示,消費(fèi)金融行業(yè)不良率逐年攀升,由2012年的0.56%上升至2018年的8%,7年間增長(zhǎng)了1328.57%。
本文構(gòu)建了消費(fèi)金融借款人違約風(fēng)險(xiǎn)評(píng)估的二分類加權(quán)硬投票融合模型,對(duì)借款人違約率和違約因素作出預(yù)測(cè),并采用Kaggle網(wǎng)站發(fā)布的某互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)交易數(shù)據(jù)作實(shí)證分析,以檢驗(yàn)該模型的預(yù)測(cè)精度,以期為我國(guó)互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)管理提供新方法。
一、 相關(guān)文獻(xiàn)綜述
目前學(xué)界在對(duì)借款人違約特征及影響因素的研究上,主要集中在內(nèi)源性因素與外源性因素兩個(gè)方面。林慰曾等指出,互聯(lián)網(wǎng)消費(fèi)金融發(fā)展失范的根源在于信用錯(cuò)配,特別是平臺(tái)次級(jí)客戶高額授信會(huì)誘發(fā)違約行為[1]。岳森認(rèn)為互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)無法準(zhǔn)確審核借款人信息真實(shí)性,導(dǎo)致授信準(zhǔn)確度難以保障,會(huì)增加違約風(fēng)險(xiǎn)[2]。張茂軍等認(rèn)為,金融科技的發(fā)展增強(qiáng)了信息獲取能力,卻在信息處理能力上存在局限性,使之在決策時(shí)存在偏差,加劇了平臺(tái)的違約風(fēng)險(xiǎn)[3]。Chiang SL認(rèn)為借款人抵押貸款的凸性對(duì)違約概率變化影響最大[4]。Lee等的實(shí)證研究表明,借款人樣本語(yǔ)音數(shù)據(jù)提取的參數(shù)可作為違約風(fēng)險(xiǎn)評(píng)級(jí)水平的決定因素[5]。Sangwan S提出借款人的家庭社會(huì)經(jīng)濟(jì)地位特征將顯著影響違約行為發(fā)生的可能性[6]。
在對(duì)借款人違約的評(píng)價(jià)指標(biāo)體系的研究方面,周永圣等選取借款人的基礎(chǔ)信息、行為和心理等三個(gè)方面因素構(gòu)建了互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)指標(biāo)體系[7],王正位等提出了個(gè)人特征、信用變量、歷史表現(xiàn)、借款信息等四項(xiàng)一級(jí)指標(biāo),對(duì)網(wǎng)貸平臺(tái)違約風(fēng)險(xiǎn)進(jìn)行評(píng)估[8],Carlos Eduardo Canfield等從信用評(píng)分和借貸者特征兩方面構(gòu)建網(wǎng)貸平臺(tái)違約風(fēng)險(xiǎn)指標(biāo)體系[9],Oded Netzer等分別從借款人的人種、性別、外貌等特征方面構(gòu)建互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)指標(biāo)體系,實(shí)證結(jié)果表明,黑人的借款成本更高[10],F(xiàn)rydman H等在評(píng)價(jià)違約風(fēng)險(xiǎn)時(shí),更注重借款人基本信息、借貸信息、還款能力三個(gè)層面[11]。
在對(duì)借款人違約的預(yù)測(cè)方法的研究方面,李汛等運(yùn)用多個(gè)機(jī)器學(xué)習(xí)模型預(yù)測(cè)借款人的違約概率,其研究表明,機(jī)器學(xué)習(xí)預(yù)測(cè)借款人違約行為的準(zhǔn)確率普遍高于傳統(tǒng)回歸模型[12],馬曉君等采用CatBoost算法構(gòu)建P2P違約預(yù)測(cè)模型,并與LightGBM,XGBoost進(jìn)行對(duì)比,發(fā)現(xiàn)CatBoost的性能總體上優(yōu)于LightGBM,XGBoost[13],杜梅慧等采用兩步子抽樣方法抽取樣本,建立logistic回歸模型,提高了違約率預(yù)測(cè)精度[14],Cowden C等基于支持向量機(jī)算法建立違約風(fēng)險(xiǎn)預(yù)測(cè)模型,其模型具有良好的特征穩(wěn)定性與分類準(zhǔn)確性[15],KHAN等使用Fama-French五因子模型考察了新興市場(chǎng)背景下違約風(fēng)險(xiǎn)因子的有效性,與其他模型相比,可以提高選取特征變量的準(zhǔn)確率[16]。
綜上可知,國(guó)內(nèi)外學(xué)者對(duì)借款人違約的相關(guān)研究主要集中在對(duì)風(fēng)險(xiǎn)評(píng)估的指標(biāo)選擇與算法測(cè)定上,對(duì)一般性消費(fèi)金融違約風(fēng)險(xiǎn)的研究較多,且多是將傳統(tǒng)金融機(jī)構(gòu)管理客戶違約風(fēng)險(xiǎn)的算法和模型應(yīng)用到消費(fèi)金融之中,對(duì)互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)及其預(yù)測(cè)方法的研究不夠。本文通過確定借款人違約風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo)體系,構(gòu)建改進(jìn)的XGBoost-Light、GBM-CatBoost三階段融合模型,以用于預(yù)測(cè)借款人違約風(fēng)險(xiǎn),為互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)的風(fēng)險(xiǎn)管理提供依據(jù)。
二、 理論分析與研究設(shè)計(jì)
(一) 互聯(lián)網(wǎng)消費(fèi)金融違約風(fēng)險(xiǎn)及其特征
互聯(lián)網(wǎng)消費(fèi)金融的違約風(fēng)險(xiǎn),是指借款人不能履行借款合約的還款義務(wù),使貸款平臺(tái)遭受損失的情況。其一方面表現(xiàn)為借款人收入不穩(wěn)定時(shí)產(chǎn)生的被動(dòng)違約行為,強(qiáng)調(diào)其非預(yù)謀性[17];其另一方面表現(xiàn)為借款人事先有違約動(dòng)機(jī),在有支付能力的前提下,不按期還款而產(chǎn)生的主動(dòng)違約行為,強(qiáng)調(diào)其預(yù)謀性。
互聯(lián)網(wǎng)消費(fèi)金融的違約風(fēng)險(xiǎn)有如下特征:一是客戶的特殊性?;ヂ?lián)網(wǎng)消費(fèi)金融的客戶群體大多是被傳統(tǒng)金融排斥的長(zhǎng)尾客戶,他們往往是低收入或無穩(wěn)定收入、無資產(chǎn)抵押、無財(cái)務(wù)記錄、征信數(shù)據(jù)缺乏,部分借款人還存在非理性消費(fèi)行為。二是消費(fèi)行為的多樣性。目前消費(fèi)貸場(chǎng)景主要集中在購(gòu)物、租房、裝修、旅游等方面。一些電商平臺(tái)基于數(shù)據(jù)挖掘技術(shù)精確分析客戶行為特征,給客戶大量推送金融營(yíng)銷廣告和具有吸引力的商品,在支付環(huán)節(jié)提供各種“分期、免息、免費(fèi)”的金融產(chǎn)品,對(duì)消費(fèi)者形成了極大的誘惑,導(dǎo)致一部分消費(fèi)者出現(xiàn)“超前消費(fèi)”“過度消費(fèi)”的情況,并因此而背負(fù)沉重的債務(wù)包袱。三是貸款產(chǎn)品的特殊性。消費(fèi)金融產(chǎn)品貸款額度小、期限短、放款快,為了彌補(bǔ)較高的違約風(fēng)險(xiǎn),借款利率往往高于銀行一般性商業(yè)貸款。四是平臺(tái)管理不規(guī)范。一些游離在金融監(jiān)管之外的中介機(jī)構(gòu)通過互聯(lián)網(wǎng)渠道,以“低息、低費(fèi)、快速、無抵押、無擔(dān)保、無須審查征信”等廣告宣傳誘導(dǎo)消費(fèi)者貸款,使部分消費(fèi)者陷入“貸款陷阱”。
(二) 互聯(lián)網(wǎng)消費(fèi)金融形成違約風(fēng)險(xiǎn)的理論分析
互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)主要服務(wù)于低收入的弱信用群體,因而面臨比傳統(tǒng)金融風(fēng)險(xiǎn)更高的信用風(fēng)險(xiǎn)。由于借款人客群分散、線上融資,互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)難以全面獲知和辨別借款人的真實(shí)準(zhǔn)確的信用信息。信用等級(jí)低的借款人會(huì)掩飾個(gè)人收入狀況,甚至提供虛假信息,以提高信用等級(jí)而獲得貸款,于是就會(huì)出現(xiàn)逆向選擇問題,從而增加違約風(fēng)險(xiǎn)。
借款人在獲得貸款后,可能違背貸款協(xié)議,出現(xiàn)了到期不能按時(shí)還款的現(xiàn)象,即發(fā)生了道德風(fēng)險(xiǎn)。出現(xiàn)道德風(fēng)險(xiǎn)的原因在于:首先,由于信息不對(duì)稱和借款人高度分散的特征,貸款平臺(tái)出于成本考慮,難以對(duì)借款人進(jìn)行事后監(jiān)督,借款人在獲得貸款后,可能會(huì)違反借、貸雙方對(duì)貸款用途的約定,將貸款用于高風(fēng)險(xiǎn)的投機(jī)活動(dòng),一旦投機(jī)活動(dòng)受挫,違約風(fēng)險(xiǎn)就不可避免。其次,即使借款人將貸款用于約定的消費(fèi)用途,借款人也可能由于意外事件出現(xiàn)而導(dǎo)致收入困難乃至難以還款,從而發(fā)生違約風(fēng)險(xiǎn)。
(三) 借款人違約風(fēng)險(xiǎn)指標(biāo)體系的構(gòu)建
根據(jù)互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)和借款人特征,參考國(guó)內(nèi)外相關(guān)文獻(xiàn)所選取的指標(biāo),考慮到指標(biāo)數(shù)據(jù)的可獲得性和量化性,基于定性和定量指標(biāo)相結(jié)合的原則,本文構(gòu)建借款人違約風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo)體系,以借款人解釋變量作為自變量,將所搜集到的借款人信息進(jìn)行分類,其內(nèi)容包含借款人基本信息、借貸信息、信用狀況、還款能力四個(gè)一級(jí)指標(biāo),以及19個(gè)二級(jí)指標(biāo),同時(shí)將借款人違約與否作為因變量,具體分組見表1。
1.借款人基本信息,包括年齡、性別、受教育程度等,它們?cè)谝欢ǔ潭壬戏从沉私杩钊说氖杖肭闆r,特別是借款人的房產(chǎn)情況直接反映出其資產(chǎn)水平,是判斷借款人還款能力的重要指標(biāo)。此外,借款人的婚姻狀況、工作職稱等指標(biāo)與借款人發(fā)生逾期后所需承擔(dān)的違約成本相關(guān)。
2.借款人借貸信息,包括借款金額、借款周期、借款目的等,能夠幫助審核人員了解當(dāng)前借款人的資金使用情況,從而有助于分析借款人正常還款的可能性,也便于了解貸款的內(nèi)在風(fēng)險(xiǎn)。同時(shí),審核人員可通過借款人貸款狀態(tài)判斷其信用品質(zhì),是影響貸款回收金額的重要因素。
3.借款人信用狀況,包括信用等級(jí)、未結(jié)信用額度、公共事業(yè)差評(píng)數(shù)等。借款人的信用歷史可以很直觀地體現(xiàn)出其償還借款的意愿。能主動(dòng)且及時(shí)履約的借款人,一般都具有良好的信用,而曾經(jīng)發(fā)生過借款逾期甚至經(jīng)常發(fā)生逾期的借款人,則屬于高危借款人群。
4.借款人還款能力,包括未平倉(cāng)交易數(shù)、負(fù)債率、賬戶余額等。這些指標(biāo)反應(yīng)借款人的資金流向和資產(chǎn)狀況,方便審核人員對(duì)借款人的資金進(jìn)行監(jiān)管,有助于判斷借款人能否按時(shí)足額還本付息,以防范違約行為的產(chǎn)生。
(四) 模型構(gòu)建
GBDT模型是由多個(gè)決策樹共同構(gòu)建的一種加性回歸模型①。與傳統(tǒng)的統(tǒng)計(jì)學(xué)模型相比,GBDT模型可以有效量化捕捉不同單位或數(shù)量級(jí)的自變量對(duì)因變量的影響程度,并通過對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)來調(diào)整自變量權(quán)重,進(jìn)而提高模型的估計(jì)精度,因此,利用GBDT對(duì)互聯(lián)網(wǎng)消費(fèi)金融違約行為進(jìn)行建模是可行的。在研究互聯(lián)網(wǎng)消費(fèi)金融的違約問題中,假設(shè)x和y分別表示借款人的解釋變量與借款人違約狀態(tài),可將其算法列為T={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Nm,yi∈(-1,1)。目前,GBDT有許多不同的改進(jìn)模型,其中最具代表性的分別為XGBoost、LightGBM、CatBoost。
1.XGBoost模型。XGBoost與GBDT模型最大的區(qū)別在于對(duì)借款人解釋變量數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)所需的損失函數(shù)不同,XGBoost所運(yùn)用的算法機(jī)制更易實(shí)現(xiàn)。GBDT的均方差損失函數(shù)如公式(1)所示:L(y,G(x))=[y-G(x)]2 (1)XGBoost相較于GBDT的改進(jìn)在于對(duì)損失函數(shù)可運(yùn)用二階泰勒公式求近似值,通過加入正則項(xiàng)Ω(gi)來控制模型的復(fù)雜程度,表達(dá)式如公式(2)所示:Ω(gi)=rD+12λ∑Jj=1ω2j(2)2.LightGBM模型。LightGBM分別從借款人解釋變量的維度與特征兩個(gè)方面對(duì)GBDT加以改進(jìn),其核心技術(shù)是實(shí)現(xiàn)精度與效率的平衡。GBDT通過使用葉子節(jié)點(diǎn)后的方差來衡量信息收益,可用公式(3)表示:VL/Q(e)=1nQ∑{xi∈Q,xiL≤d}ginLI/Q(e)2+∑{xi∈Q,xiL>d}ginLr/Q(e)2? (3)LightGBM則通過GOSS算法來減少梯度較小的樣本比例,僅采用梯度較大的樣本估計(jì)信息增益L(e),如公式(4)所示:L(e)=1n∑{xi∈A,xiL≤d}gi+1-ab∑{xi∈A,xiL≤d}gi2nLI(e)
+∑{xi∈A,xiL>d}gi+1-ab∑{xi∈A,xiL>d}gi2nLr(e)(4)3.CatBoost模型。CatBoost的基本原理是解決原始GBDT中所存在的各種數(shù)據(jù)偏移問題,能夠更好地處理類別特征。GBDT算法在處理借款人類別型變量,如性別、婚姻狀況等,常用其對(duì)應(yīng)的數(shù)據(jù)集平均值來代替,并把它作為決策樹中節(jié)點(diǎn)分裂的標(biāo)準(zhǔn)。這種方法被稱為Greedy TBS,具體公式如下:im=∑nj=1[xj,m=xi,m]Gi∑nj=1[xj,m=xi,m] (5) Greedy TBS使得處理后的借款人二級(jí)指標(biāo)中對(duì)比實(shí)際數(shù)據(jù)集包含更多信息,所以用實(shí)際數(shù)據(jù)集的平均值來替代解釋變量,在訓(xùn)練集和測(cè)試集數(shù)據(jù)分布與結(jié)構(gòu)不同的情況下容易出現(xiàn)條件偏移。
針對(duì)這種情況,CatBoost通過添加先驗(yàn)分布項(xiàng)的方式改進(jìn)Greedy TBS,減少了噪聲和低頻數(shù)據(jù)對(duì)于數(shù)據(jù)分布的影響,具體公式如下:im=∑K-1j=1[xσj,m=xσj,m]Gσj+ak∑K-1j=1[xσj,m=xσj,m]+a (6)4.XGBoost-LightGBM-CatBoost融合模型。本文所設(shè)計(jì)的XGBoost-LightGBM-CatBoost融合模型如圖1所示。在訓(xùn)練階段采用5折交叉驗(yàn)證方式尋找到模型的最優(yōu)參數(shù);在測(cè)試階段將特征變量作為XGBoost、LightGBM和CatBoost的輸入,并對(duì)三個(gè)分類器輸出的類別進(jìn)行二分類加權(quán)硬投票法得出預(yù)測(cè)結(jié)果。
圖2所示的二分類加權(quán)硬投票,就是指根據(jù)XGBoost、LightGBM和CatBoost預(yù)測(cè)的準(zhǔn)確率計(jì)算出其加權(quán)準(zhǔn)確率,觀察三個(gè)分類器的預(yù)測(cè)結(jié)果并比照準(zhǔn)確率高的分類器來確定最終的預(yù)測(cè)值。例如,XGBoost、LightGBM、CatBoost三個(gè)分類器預(yù)測(cè)的準(zhǔn)確率分別為0.65、0.68、0.96;計(jì)算其加權(quán)的準(zhǔn)確率為0.28、0.3、0.42。通過觀察發(fā)現(xiàn),任意兩個(gè)分類器其加權(quán)準(zhǔn)確率相加的值大于0.5。使用Sigmoid函數(shù)對(duì)其進(jìn)行分類,當(dāng)任意兩個(gè)分類器預(yù)測(cè)結(jié)果相同時(shí),樣本標(biāo)簽0或1將與結(jié)果保持一致。
三、 實(shí)證分析
(一) 數(shù)據(jù)來源與處理
1.描述性統(tǒng)計(jì)
本文數(shù)據(jù)來源于Kaggle網(wǎng)站上某消費(fèi)金融平臺(tái)的交易數(shù)據(jù),采集了個(gè)人信貸申請(qǐng)記錄252970條,特征數(shù)量61個(gè)。這里將每一筆數(shù)據(jù)中的目標(biāo)變量“Target”取值為0與1,分別代表借款人正常還款與違約。其中,正常還款數(shù)據(jù)為207722條,違約數(shù)據(jù)為45248條,可得其違約率為17.9%。
貸款周期方面,分別為36個(gè)月與60個(gè)月,占比70.05%、29.95%,分別對(duì)應(yīng)15.88%、20.93%的違約率,由此可見,貸款周期越長(zhǎng),違約發(fā)生的可能性就越大。工作年限方面,其數(shù)據(jù)主要集中在1到10年,各個(gè)工作年限的逾期率差異不大,5~7年相對(duì)較高,均在7%以上。
如圖3所示,平臺(tái)客戶的貸款利率在5%到37%之間;在10%到20%這一區(qū)間,各個(gè)利率對(duì)應(yīng)的概率密度分布比較均勻,其他區(qū)間概率密度較低。從圖3中可看出,違約客戶分布更右偏,其對(duì)應(yīng)的貸款利率水平相對(duì)更高。
如圖4所示,借款人的負(fù)債率在-3%到40.5%之間;對(duì)于違約客戶而言,-3%到20%對(duì)應(yīng)的區(qū)間面積要略大于20%到40.5%,說明借款人負(fù)債率在-3%到20%之間產(chǎn)生違約行為的概率更高。對(duì)于正??蛻?,則情況正好相反,13%到40.5%的區(qū)間面積大于-2%到13%,說明當(dāng)負(fù)債比高于13%時(shí),其履約行為隨著負(fù)債比的增加而下降。
表2所示為貸款申請(qǐng)人的信用評(píng)級(jí)信息。其中信用評(píng)級(jí)A到G的占比分別為16.71%、30.07%、25.82%、16.02%、7.58%、3.03%、0.77%,對(duì)應(yīng)的違約率分別為6.19%、12.51%、19.35%、25.89%、32.62%、38.30%、40.87%。這表明平臺(tái)的主要服務(wù)對(duì)象為信用評(píng)級(jí)在A-D區(qū)間內(nèi)的人群,而且信用評(píng)級(jí)越高,貸款違約率越低。
資產(chǎn)狀況反映了借款人的償債能力,與違約率呈負(fù)相關(guān)關(guān)系。在申請(qǐng)貸款的客戶中,無房產(chǎn)客戶與其他客戶人數(shù)占樣本量萬分之三左右,但其違約率占比高達(dá)27%;擁有房產(chǎn)(包括抵押與自用)的借款人占比60%,其對(duì)應(yīng)的違約率最低,僅占總?cè)藬?shù)13%,說明無固定資產(chǎn)的借款人違約率較高。在年收入方面,正??蛻裟晔杖刖禐?4161元,違約客戶為65085元,違約客戶年收入整體偏低。在所有賬戶活期余額方面,正常客戶與違約客戶均值分別為143791元與114454元,說明違約客戶擁有更少的流動(dòng)資金。
2.數(shù)據(jù)預(yù)處理
由于平臺(tái)給予的數(shù)據(jù)信息不完整,通常含有缺失值或格式不統(tǒng)一等問題,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。具體分為缺失值處理、獨(dú)熱編碼以及類別平衡等。
(1)缺失值處理。由于XGBoost、LightGBM和CatBoost本身具有自動(dòng)處理缺失值的能力,所以在數(shù)據(jù)預(yù)處理階段對(duì)數(shù)值型變量和連續(xù)型變量不處理缺失值;而對(duì)于類別型變量的缺失值使用“null”填充,同時(shí)對(duì)缺失值比例大于50%的變量予以刪除;數(shù)據(jù)集中異常值存量非常少,可以忽略不計(jì),不做異常值處理。
(2)獨(dú)熱編碼(OneHotEncoder)獨(dú)熱編碼是將字符型的特征轉(zhuǎn)化為二進(jìn)制向量,主要用于處理類別型變量(如收入來源是否核實(shí)),特征取值之間不存在任何關(guān)聯(lián)關(guān)系。使用獨(dú)熱編碼將類別型變量轉(zhuǎn)化為數(shù)值,如將“收入來源是否核實(shí)”中的“已核實(shí)”“未核實(shí)”分別轉(zhuǎn)換成“1”“2”。如表3所示,將整數(shù)值表示為二進(jìn)制向量,除該整數(shù)被表示為“1”外,其余均為“0”。
(3)類別平衡?;ヂ?lián)網(wǎng)消費(fèi)金融的信貸業(yè)務(wù)常常面臨類別不平衡問題。將樣本按7∶3的比例劃分訓(xùn)練集和測(cè)試集,其正負(fù)樣本比約為4.6∶1,此時(shí)正樣本與負(fù)樣本差別過大,即使將所有負(fù)樣本的錯(cuò)誤預(yù)判都?xì)w類于正樣本,模型預(yù)測(cè)準(zhǔn)確率也能達(dá)到93%,此時(shí)的模型不具有實(shí)際意義。本文采用代價(jià)敏感學(xué)習(xí)法②,通過設(shè)置權(quán)重來處理類別不平衡的問題。
3.特征選擇
(1)基于相關(guān)系數(shù)的特征選擇。相關(guān)系數(shù)屬于包裹式③特征選擇方法。本文采用相關(guān)系數(shù)法對(duì)特征進(jìn)行篩選,剔除解釋變量系數(shù)小于0.001的特征,總共剔除4個(gè)特征(如表4所示),保留特征數(shù)57個(gè)。
(2)基于Catboost的特征篩選。Catboost是一種嵌入式④特征選擇方法。經(jīng)過相關(guān)系數(shù)法篩選特征,剩余特征數(shù)57個(gè),數(shù)量較多,易發(fā)生維數(shù)災(zāi)難或產(chǎn)生過擬合現(xiàn)象。本文根據(jù)Catboost可返回抽樣學(xué)習(xí)的特點(diǎn),對(duì)57個(gè)特征作進(jìn)一步選擇,設(shè)定閾值為3%,最終保留46個(gè)特征。
(二) 分類效果的評(píng)價(jià)
為了辨別基于二分類加權(quán)硬投票的互聯(lián)網(wǎng)消費(fèi)金融違約預(yù)測(cè)模型的分類效果是否比其他分類器更優(yōu),本文采用四種評(píng)價(jià)指標(biāo)進(jìn)行說明,分別是ROC曲線、AUC值、KS值與準(zhǔn)確率,其評(píng)價(jià)指標(biāo)均可通過混淆矩陣(如表5所示)計(jì)算得出。
ROC曲線稱為受試者工作特征曲線,通過模型得到不同閾值下的分類結(jié)果,其橫縱坐標(biāo)分別用真正率TPR(True Positive)和假正率FPR(False Positive)表示。當(dāng)TPR越高,F(xiàn)PR越低時(shí),ROC曲線向左上角移動(dòng),模型的預(yù)測(cè)能力越強(qiáng)。AUC表示ROC曲線下方面積,AUC值越大意味著樣本預(yù)測(cè)排序質(zhì)量越好。TPR=TP/(TR+FN)? (7)
FPR=FP/(FP+TN) (8)KS值表示TPR曲線與FPR曲線的最大間隔距離,反映了模型區(qū)分正負(fù)樣本的能力。KS在0到1的范圍內(nèi)取值。一般而言,當(dāng)KS值小于0.8時(shí),值越大意味著模型區(qū)分正負(fù)樣本的能力越強(qiáng)。
準(zhǔn)確率(Accuracy)表示被正確預(yù)測(cè)的正常還款借款人與違約借款人的樣本個(gè)數(shù)占總樣本的比率,其數(shù)值越高代表模型的預(yù)測(cè)效果越好。Accuracy=(TP+TN)/(TP+FP+TN+FN)(9)(三) 模型預(yù)測(cè)結(jié)果的對(duì)比分析
經(jīng)過對(duì)樣本的數(shù)據(jù)預(yù)處理,特征篩選和基于貝葉斯調(diào)參的XGBoost-LightGBM-CatBoost模型訓(xùn)練后,采用訓(xùn)練好的最優(yōu)參數(shù)XGBoost-LightGBM-CatBoost對(duì)測(cè)試集進(jìn)行分類。同時(shí),本文比較了單模型XGBoost、LightGBM、CatBoost在測(cè)試集上的分類效果,以上單模型均經(jīng)過貝葉斯調(diào)參達(dá)到最優(yōu)。為保證各單模型分類效果的穩(wěn)定,所有數(shù)據(jù)均通過五折交叉驗(yàn)證并取其平均值。數(shù)據(jù)實(shí)驗(yàn)的操作環(huán)境為Python 3.7,依賴包為pandas、numpy、sklearn、seaborn、datetime、scipy、XGBoost、lightGBM、CatBoost。具體計(jì)算結(jié)果如表6所示。
圖5為處于最優(yōu)參數(shù)時(shí),測(cè)試集與訓(xùn)練集上XGBoost-LightGBM-CatBoost模型的ROC曲線。
由表6可知,XGBoost-LightGBM-CatBoost融合模型在測(cè)試集上的準(zhǔn)確率為0.826,AUC值為7.18,KS值為0.320,其指標(biāo)值均優(yōu)于其他三個(gè)單分類器,說明融合模型具有更好的預(yù)測(cè)性能。同時(shí),由圖5可知,XGBoost-LightGBM-CatBoost模型其測(cè)試集的ROC曲線被訓(xùn)練集包裹,測(cè)試集中AUC的值為0.72,訓(xùn)練集中AUC的值為0.75,這表明XGBoost-LightGBM-CatBoost模型在貸款申請(qǐng)人的樣本數(shù)據(jù)中存在輕微過擬合學(xué)習(xí)問題,可忽略不計(jì)。
(四) 結(jié)果分析
本文從借款人的基本信息、信貸信息、歷史信用狀況、銀行賬戶信息四個(gè)維度出發(fā),分析其所包含的二級(jí)指標(biāo)來判斷違約的影響因素。同時(shí),由表6可知Catboost模型對(duì)于大規(guī)模、多維度的數(shù)據(jù)處理比其他兩個(gè)分類器更具優(yōu)勢(shì),因此本文通過Catboost模型對(duì)借款人特征進(jìn)行重要性排序,具體情況如表7所示。
表7列出了各解釋變量對(duì)模型的貢獻(xiàn)情況,將位于前十的各解釋變量貢獻(xiàn)度由高到低進(jìn)行排列,分別為貸款利率、年收入、負(fù)債比、公共事業(yè)差評(píng)紀(jì)錄、信貸循環(huán)余額、賬戶余額、信用額度、未平倉(cāng)交易數(shù)、循環(huán)信用額度占比、貸款金額。貸款利率的貢獻(xiàn)度最大,高達(dá)20.3%;年收入與負(fù)債比分別貢獻(xiàn)了14%、9%;其中前十個(gè)特征貢獻(xiàn)度高達(dá)70.7%。
在前十個(gè)特征中并未完全體現(xiàn)一級(jí)指標(biāo)的重要性,不能對(duì)所歸類的四個(gè)維度進(jìn)行很好的解釋,因此本文通過將一級(jí)指標(biāo)項(xiàng)下的特征所得分進(jìn)行加總求其算數(shù)平均值,獲得一級(jí)指標(biāo)的重要性排序,具體情況如表8所示。
在本文歸類的四個(gè)一級(jí)指標(biāo)中,借款人信貸信息占比最高,說明借款人的信貸信息對(duì)借款人違約與否影響最大;借款人的基本信息對(duì)借款人違約情況的影響最小。由表8可知,四個(gè)維度的影響程度由高到低排序?yàn)椋航栀J信息、信用狀況、還款能力、基本信息。
從影響違約因素的解釋變量中可以發(fā)現(xiàn):(1)貸款利率的貢獻(xiàn)度高達(dá)20.3%,貸款金額重要性排序占比為3.5%,兩個(gè)指標(biāo)都反映了借款人的信貸信息,其中貸款利率與貸款金額所對(duì)應(yīng)的數(shù)值越高,意味著借款人每月需要償還的金額越多,財(cái)務(wù)壓力的增大將增加違約產(chǎn)生的可能性;(2)年收入、負(fù)債率、賬戶活期余額與未平倉(cāng)交易數(shù)累計(jì)貢獻(xiàn)率為26.8%,這四類指標(biāo)在一定程度上反映了借款人的財(cái)務(wù)狀況,通過對(duì)其進(jìn)行監(jiān)測(cè)來判斷借款人貸款到期時(shí)能否按時(shí)足額還本付息;(3)公共事業(yè)差評(píng)記錄、信貸循環(huán)余額、信用額度、循環(huán)信用額度占比累計(jì)貢獻(xiàn)率為20.1%,以上指標(biāo)反映了第三方機(jī)構(gòu)對(duì)借款人的信用評(píng)價(jià),在一定程度上體現(xiàn)了借款人的履約意愿。除圖6中出現(xiàn)的十類指標(biāo)外,其余指標(biāo)貢獻(xiàn)度均低于3%,因此在對(duì)本文建立的借款人違約行為指標(biāo)進(jìn)行分析時(shí),貸款利率與貸款金額應(yīng)作為借款人借貸信息的主要參考指標(biāo);年收入、負(fù)債率、賬戶活期余額與未平倉(cāng)交易數(shù)應(yīng)作為借款人還款能力的主要參考指標(biāo);公共事業(yè)差評(píng)記錄、信貸循環(huán)余額、信用額度、循環(huán)信用額度應(yīng)作為借款人信用狀況的主要參考指標(biāo)。
四、 研究結(jié)論與建議
通過上述研究,本文得出如下結(jié)論:
其一,互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)與借款人之間存在高度的信息不對(duì)稱,容易出現(xiàn)借款人違約行為;對(duì)這個(gè)弱信用群體的違約率的預(yù)測(cè)不能采用傳統(tǒng)方法,要結(jié)合互聯(lián)網(wǎng)消費(fèi)金融的特性開發(fā)新的違約風(fēng)險(xiǎn)預(yù)測(cè)方法。
其二,根據(jù)互聯(lián)網(wǎng)消費(fèi)金融的運(yùn)行特征和客戶特性,建立了客戶違約風(fēng)險(xiǎn)指標(biāo)體系,包括借款人基本信息、借貸信息、信用狀況、還款能力四個(gè)一級(jí)指標(biāo),以及19個(gè)二級(jí)指標(biāo)。
其三,XGBoost-LightGBM-CatBoost融合模型對(duì)于互聯(lián)網(wǎng)消費(fèi)金融借款人的違約風(fēng)險(xiǎn)預(yù)測(cè)效果較單模型更好,其精確度更高。
其四,XGBoost-LightGBM-CatBoost融合模型的預(yù)測(cè)準(zhǔn)確率為82.6%,即預(yù)測(cè)平臺(tái)違約率為17.4%,而根據(jù)Kaggle網(wǎng)站數(shù)據(jù)計(jì)算得出的實(shí)際違約率為17.9%,說明運(yùn)用XGBoost-LightGBM-CatBoost融合模型構(gòu)建互聯(lián)網(wǎng)消費(fèi)金融借款人違約預(yù)測(cè)模型在分類精度、分類準(zhǔn)確度上具有一定優(yōu)勢(shì),對(duì)實(shí)際結(jié)果的擬合效果較好。
其五,本文采用Kaggle數(shù)據(jù),歸納了違約風(fēng)險(xiǎn)預(yù)測(cè)中需要關(guān)注的四類特征,通過Catboost模型進(jìn)行特征篩選,選出權(quán)重值高的三類特征中貢獻(xiàn)度排名前十的二級(jí)指標(biāo),供平臺(tái)篩選貸款申請(qǐng)人時(shí)參考。
根據(jù)以上研究結(jié)論,本文就互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)加強(qiáng)違約風(fēng)險(xiǎn)管理提出以下建議:
第一,應(yīng)加強(qiáng)借款人信用信息采集,提高信用評(píng)價(jià)效率。為避免客戶惡意違約行為,互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)可以設(shè)置客戶群體畫像,首先依據(jù)客戶基本信息進(jìn)行初步分層與評(píng)級(jí),對(duì)老人、未成年人、低學(xué)歷者普及消費(fèi)金融及相關(guān)產(chǎn)品知識(shí),說明其優(yōu)點(diǎn)與潛在的風(fēng)險(xiǎn);對(duì)風(fēng)險(xiǎn)偏好型客戶進(jìn)行重點(diǎn)跟蹤監(jiān)測(cè),提示客戶該行為潛在的風(fēng)險(xiǎn)和負(fù)擔(dān)的后果;利用人工智能模型搜集客戶的消費(fèi)習(xí)慣和社交區(qū)域,將客戶的借款意愿與還款意愿進(jìn)行量化并及時(shí)反饋,平臺(tái)根據(jù)分析結(jié)果對(duì)信用數(shù)據(jù)良好的客戶給予消費(fèi)優(yōu)惠,對(duì)信用狀況差的客戶進(jìn)行消費(fèi)限制。
第二,應(yīng)通過與消費(fèi)場(chǎng)景第三方的結(jié)合,獲得更多的客戶信息。消費(fèi)金融公司可以基于個(gè)人消費(fèi)者的客戶信息作為聚合的消費(fèi)場(chǎng)景,根據(jù)各類消費(fèi)場(chǎng)景進(jìn)行差異化定價(jià),并對(duì)消費(fèi)場(chǎng)景進(jìn)行細(xì)分,深化消費(fèi)場(chǎng)景建設(shè),然后從中找到合適的消費(fèi)場(chǎng)景切入消費(fèi)金融業(yè)務(wù)中。同時(shí),在已有的服務(wù)場(chǎng)景中,通過深度挖掘推出更多的子場(chǎng)景或延伸場(chǎng)景。
第三,應(yīng)加強(qiáng)互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)風(fēng)險(xiǎn)控制能力建設(shè)。充分運(yùn)用以大數(shù)據(jù)、云計(jì)算、人工智能和區(qū)塊鏈等為代表的金融科技手段,建立互聯(lián)網(wǎng)消費(fèi)信貸貸前識(shí)別與反欺詐、貸中追蹤與預(yù)警、貸后智能催收的全信貸周期智能風(fēng)控系統(tǒng),以提升互聯(lián)網(wǎng)消費(fèi)金融平臺(tái)的信用風(fēng)險(xiǎn)精細(xì)化管理水平。以數(shù)據(jù)共享為風(fēng)控導(dǎo)向,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)為驅(qū)動(dòng),創(chuàng)新互聯(lián)網(wǎng)消費(fèi)金融業(yè)務(wù)和風(fēng)控模式,設(shè)計(jì)高度適配的信用風(fēng)險(xiǎn)評(píng)估模型,增強(qiáng)對(duì)平臺(tái)信用風(fēng)險(xiǎn)的預(yù)見性,有效緩解平臺(tái)的逆向選擇和道德風(fēng)險(xiǎn)。
注釋:
①加性回歸模型是指通過采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過程產(chǎn)生的殘差來達(dá)到將數(shù)據(jù)分類或者回歸的算法。
②代入敏感學(xué)習(xí)法是機(jī)器學(xué)習(xí)領(lǐng)域中的一種新方法,它主要考慮了在分類中,當(dāng)不同的分類錯(cuò)誤會(huì)導(dǎo)致不同的懲罰力度時(shí)如何訓(xùn)練分類器。
③包裹式特征選擇方法是從原始特征集中不斷選擇特征子集、訓(xùn)練模型,并通過學(xué)習(xí)器對(duì)特征子集進(jìn)行評(píng)價(jià),選出最終訓(xùn)練子集。
④嵌入式特征選擇將特征選擇融合在模型訓(xùn)練的過程中,依據(jù)模型表現(xiàn)分析特征重要性,在訓(xùn)練過程中自動(dòng)完成特征選擇。
[參考文獻(xiàn)]
[1] 林慰曾,施心德.互聯(lián)網(wǎng)消費(fèi)金融:信用錯(cuò)配、修復(fù)與完善[J].南方金融,2018(6):73-81.
[2]岳森.我國(guó)互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)監(jiān)管及治理體系建設(shè)研究[J].技術(shù)經(jīng)濟(jì)與管理研究,2019(8):91-95.
[3]張茂軍,王儉,張尹,張鄴丹.金融科技、監(jiān)管政策與P2P平臺(tái)風(fēng)險(xiǎn):基于信用風(fēng)險(xiǎn)和流動(dòng)性風(fēng)險(xiǎn)視角[J].金融與經(jīng)濟(jì),2021(8):38-45.
[4]Chiang SL,Tsai MS,Jiang S.The Influences of Foreclosure Factors on the Value,Yield,Duration and Convexity of a Mortgage[J].Real Estate Economics,2021,2(49):361-394.
[5]Lee,Sang Min.Determining Personal Credit Rating through Voice Analysis:Case of P2P loan borrowers[J].KSII Transactions on Internet and Information Systems,2021,15(10):3627-3641.
[6]Sangwan S,Nayak NC,Harshita,Sangwan V.Borrowers credit Risk Factors,Perception Towards Repayment Interventions and Moral Hazard in Loan Delinquency:An Investigation of Indian Microfinance Institutions[J].Applied Economics,2021,53(56):6554-6569.
[7]周永圣,孫苗苗,王晶.互聯(lián)網(wǎng)消費(fèi)金融債權(quán)信用研究:基于螞蟻花唄業(yè)務(wù)模式的分析[J].價(jià)格理論與實(shí)踐,2019(3):126-129.
[8]王正位,周從意,廖理,張偉強(qiáng).消費(fèi)行為在個(gè)人信用風(fēng)險(xiǎn)識(shí)別中的信息含量研究[J].經(jīng)濟(jì)研究,2020 (1):149-163.
[9]Carlos Eduardo Canfield.Determinants of Default in P2P Lending:the Mexican Case[J].Independent Journal of Management & Production,2018,9(1):1-24.
[10]Oded Netzer,Alain Lemaire,Michal Herzenstein.When Words Sweat:Identifying Signals for Loan Default in the Text of Loan Applications[J].Journal of Marketing Research,2019, 56(6):960-980.
[11]Frydman H,Matuszyk A,Li C,Zhu WC.A New Framework for Examining Credit worthiness of Borrowers:the Mover-Star Model with Covariate and Macroeconomic Effects[J].Quantitative Finance,2021,21(9):1491-1499.
[12]李汛,龍真,付懷宇,劉品璐.基于機(jī)器學(xué)習(xí)的P2P違約預(yù)測(cè)算法比較:以“人人貸”為例[J].統(tǒng)計(jì)與管理,2019(6):104-109.
[13]馬曉君,宋嫣琦,常百舒,袁銘憶,蘇衡.基于CatBoost算法的P2P違約預(yù)測(cè)模型應(yīng)用研究[J].統(tǒng)計(jì)與信息論壇,2020 (7):9-17.
[14]杜梅慧,李莉莉,張璇.基于兩步子抽樣算法的P2P信用風(fēng)險(xiǎn)預(yù)測(cè)研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2021 (2):566-576.
[15]Cowden C,F(xiàn)abozzi FJ,Nazemi A.Default Prediction of Commercial Real Estate Properties Using Machine Learning Techniques[J].Journal of Portfolio Management,2019,45(7):55-67.
[16]KHAN Usama Ehsan,IQBAL Javed.The Relationship between Default Risk and Asset Pricing:Empirical Evidence from Pakistan[J].The Journal of Asian Finance,2021,8(3):717-729.
[17]封思賢,那晉領(lǐng).P2P借款人的定價(jià)偏差與被動(dòng)違約風(fēng)險(xiǎn):基于“人人貸”數(shù)據(jù)的分析[J].金融研究,2020(03):134-151.
(責(zé)任編輯文格)
Default Risk Prediction of Internet Consumer Finance Based
on Weighted Hard Voting Fusion Model
SI Xiao-han, WEI Jian-guo, WEI Ying-jie
(School of Economics,Wuhan University of Technology,Wuhan 430070,Hubei,China)
Abstract:This paper first analyzes the characteristics ofInternet consumer finance default risk,studies the formation mechanism of Internet consumer finance borrower default risk by using information economics,and constructs the Borrower Credit Risk Evaluation Index System and two-class weighted hard voting fusion model.This model is composed of Xgboost,LightGBM and CatBoost to predict the default risk of borrowers.It is found that the fusion model is superior to the single model XGBoost,LightGBM and CatBoost in prediction accuracy,and that the key factors affecting the borrowers default mainly include loan interest rate,annual income,bad rating record of public utilities,revolving credit balance and so on.Finally,the paper puts forward some suggestions on how to strengthen default risk management of internet consumer finance platform.
Key words:Internet consumer finance; binary weighted hard voting; the risk of default
武漢理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2022年3期