楊 蓮 ,石寶峰 ,董軼哲
(1.西北農(nóng)林科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,陜西 楊凌 712100;2.西北農(nóng)林科技大學(xué) 信用大數(shù)據(jù)應(yīng)用研究中心,陜西 楊凌 712100;3.愛丁堡大學(xué)商學(xué)院,英國 愛丁堡EH8 9JS)
信用評(píng)價(jià)是金融機(jī)構(gòu)劃分客戶信用等級(jí)、貸款決策和風(fēng)險(xiǎn)管理的重要依據(jù)。對(duì)貸款客戶信用風(fēng)險(xiǎn)的準(zhǔn)確度量,不僅可以最大限度降低金融機(jī)構(gòu)的違約風(fēng)險(xiǎn)和貸款損失,還可有效緩解客戶“貸款難”的現(xiàn)狀[1-3]。評(píng)價(jià)模型作為風(fēng)險(xiǎn)測度的一種有效工具,對(duì)金融機(jī)構(gòu)識(shí)別信用風(fēng)險(xiǎn),避免因信息不對(duì)稱導(dǎo)致的信用風(fēng)險(xiǎn)誤判、信貸資金錯(cuò)貸意義重大[4]。為此,已有學(xué)者利用數(shù)理統(tǒng)計(jì)[5-8]、機(jī)器學(xué)習(xí)模型[9-11]對(duì)客戶信用風(fēng)險(xiǎn)識(shí)別問題展開研究。但在實(shí)踐中,由于信貸數(shù)據(jù)大部分非違約、少部分違約的不均衡分布特性,致使傳統(tǒng)以分類準(zhǔn)確率為優(yōu)化目標(biāo)的信用評(píng)價(jià)模型,存在對(duì)“多類”非違約樣本識(shí)別過度、“少類”違約樣本識(shí)別不足的現(xiàn)狀。
為緩解這一問題,學(xué)者們?cè)噲D從非均衡數(shù)據(jù)采樣和非均衡分類算法兩方面進(jìn)行優(yōu)化處理。在數(shù)據(jù)采樣方面,現(xiàn)有文獻(xiàn)主要通過欠采樣[12-13]和過采樣[14-15]兩種方法實(shí)現(xiàn)。金旭等[16]將有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合,提出了一種基于質(zhì)心的ICIKMDS欠采樣方法,用于解決數(shù)據(jù)不均衡問題,實(shí)證表明,ICIKMDS 有效提升了分類器在測試集中的分類準(zhǔn)確率。肖連杰等[13]利用模糊C-均值算法對(duì)多類樣本進(jìn)行聚類欠采樣,將所有聚類中心樣本與少類樣本結(jié)合、形成均衡數(shù)據(jù)集,然后利用集成學(xué)習(xí)算法對(duì)均衡數(shù)據(jù)集進(jìn)行分類,取得了較好的分類效果。欠采樣通過去除一些“多類”非違約樣本,使剩余的“多類”非違約和“少類”違約樣本數(shù)目達(dá)到均衡,但容易丟失原始樣本中的有價(jià)值信息[16]。為彌補(bǔ)這一缺陷,有學(xué)者提出利用過采樣方法來解決這一問題。衣柏衡等[17]通過對(duì)傳統(tǒng)的SMOTE 算法進(jìn)行改進(jìn),使SMOTE 聚焦于被評(píng)價(jià)模型錯(cuò)分的樣本、利用錯(cuò)分樣本合成新違約樣本,實(shí)證結(jié)果表明,與傳統(tǒng)SMOTE 算法相比,改進(jìn)的SMOTE 算法降低了樣本不均衡對(duì)評(píng)價(jià)模型分類性能的影響。張忠良等[18]采用基于高斯過程的SMOTE 過采樣技術(shù)來增加訓(xùn)練樣本的多樣性,提高分類器的分類性能。上述基于數(shù)據(jù)采樣的樣本均衡方法雖然提高了數(shù)據(jù)集的均衡性,但在一定程度上改變了原始數(shù)據(jù)的分布特征[19]。因此,一些學(xué)者試圖在不改變?cè)紨?shù)據(jù)分布特征的前提下,采用非均衡分類算法來解決信用評(píng)價(jià)中的數(shù)據(jù)不均衡問題。
在非均衡分類算法方面,現(xiàn)有文獻(xiàn)主要通過成本敏感學(xué)習(xí)[20-22]和集成學(xué)習(xí)[23-25]兩類方法實(shí)現(xiàn)。張衛(wèi)國等[26]將雙邊誤差測量方法引入模糊近似支持向量機(jī),通過對(duì)正負(fù)兩類樣本的訓(xùn)練誤差賦予不同權(quán)重,以此減緩因數(shù)據(jù)不均衡造成的分類誤差,實(shí)證表明了所提出的模型比Logit回歸、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)有更好的分類效果,能有效提高違約樣本分類的準(zhǔn)確率。Zhang等[27]將變量離散化和成本敏感Logit模型相結(jié)合,以降低評(píng)價(jià)模型在不均衡數(shù)據(jù)集中的偏差,實(shí)證結(jié)果表明,相比傳統(tǒng)Logit模型,成本敏感Logit模型在提升信用評(píng)價(jià)準(zhǔn)確度、降低第二類錯(cuò)誤方面都有所改善。與單一分類模型相比,多個(gè)分類模型的組合可以產(chǎn)生更好的分類效果,因此,有學(xué)者通過集成模型來解決非均衡數(shù)據(jù)中的樣本分類問題[28]。夏利宇等[29]利用迭代欠采樣方法提升模型對(duì)違約客戶的關(guān)注度,并采用集成方法將弱分類模型轉(zhuǎn)變?yōu)閺?qiáng)分類模型,以降低樣本不均衡對(duì)評(píng)價(jià)結(jié)果的影響。此外,也有學(xué)者將成本敏感學(xué)習(xí)與集成學(xué)習(xí)相結(jié)合,以提升對(duì)非均衡數(shù)據(jù)的預(yù)測精度。Xiao等[30]通過將集成學(xué)習(xí)與成本敏感學(xué)習(xí)進(jìn)行結(jié)合,提出了一種非均衡數(shù)據(jù)的動(dòng)態(tài)分類器集成方法(DCEID)。對(duì)于每個(gè)測試客戶,DCEID 可以自適應(yīng)地從動(dòng)態(tài)分類選擇方法(DCS)和動(dòng)態(tài)集成選擇方法(DES)中選擇更合適的方法,實(shí)證結(jié)果表明,DCEID 的分類性能不僅優(yōu)于加權(quán)隨機(jī)森林和改進(jìn)的平衡隨機(jī)森林等靜態(tài)集成方法,而且優(yōu)于現(xiàn)有的DCS和DES策略。上述基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類模型,通常由冗余指標(biāo)剔除、顯著性指標(biāo)篩選、分類模型建立等多個(gè)模塊組成,每個(gè)模塊都是一個(gè)獨(dú)立的任務(wù),其結(jié)果的好壞會(huì)直接影響下一模塊,進(jìn)而影響整個(gè)分類模型的預(yù)測效果。與傳統(tǒng)機(jī)器學(xué)習(xí)不同,深度學(xué)習(xí)模型通過將冗余指標(biāo)剔除、顯著性指標(biāo)篩選、分類模型建立等模塊進(jìn)行統(tǒng)一,構(gòu)建端到端的學(xué)習(xí)算法,有效緩解了傳統(tǒng)機(jī)器學(xué)習(xí)模型因模塊之間相互獨(dú)立而對(duì)最終分類結(jié)果造成的不利影響[31]。因此,基于深度學(xué)習(xí)模型的上述優(yōu)勢(shì),一些學(xué)者將深度學(xué)習(xí)用于信用評(píng)價(jià)模型的構(gòu)建。趙雪峰等[32]通過將自然語言處理技術(shù)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合,構(gòu)建了個(gè)人貸款信用評(píng)價(jià)WVCNN 深度學(xué)習(xí)模型,實(shí)證結(jié)果表明,相比較傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和SVM,WV-CNN 的預(yù)測精度更高、魯棒性更好。
上述解決信用評(píng)價(jià)樣本非均衡問題方法的不足主要體現(xiàn)在兩個(gè)方面:一方面,現(xiàn)實(shí)中由于違約(或非違約)樣本之間的內(nèi)在相似性,使得評(píng)價(jià)模型從這些樣本中學(xué)到的信息重復(fù),而重復(fù)學(xué)習(xí)對(duì)評(píng)價(jià)模型違約預(yù)測性能的提升有限。由于不均衡數(shù)據(jù)中“多類”非違約樣本在數(shù)量上的絕對(duì)優(yōu)勢(shì),樣本相似問題在非違約樣本中發(fā)生的概率更大,因而提升模型對(duì)不均衡樣本預(yù)測性能的關(guān)鍵是利用違約、非違約樣本中的有效樣本對(duì)模型進(jìn)行訓(xùn)練[33]。然而,現(xiàn)有基于深度學(xué)習(xí)的信用評(píng)價(jià)模型并未充分考慮到這一點(diǎn)。另一方面,現(xiàn)有深度學(xué)習(xí)信用評(píng)價(jià)模型的目標(biāo)函數(shù)通常為交叉熵,而交叉熵沒有將違約、非違約樣本對(duì)目標(biāo)損失的貢獻(xiàn)度進(jìn)行區(qū)分。在實(shí)踐中,由于非違約客戶在樣本總數(shù)上占有絕對(duì)優(yōu)勢(shì),如果不對(duì)兩類樣本損失的貢獻(xiàn)度進(jìn)行區(qū)分,會(huì)導(dǎo)致非違約樣本造成的損失在目標(biāo)損失中占比過高、主導(dǎo)模型優(yōu)化方向,從而不利于違約樣本有效識(shí)別的問題出現(xiàn)。
針對(duì)上述問題,本文將圖像識(shí)別領(lǐng)域中的類平衡損失Class Balanced Loss函數(shù)引入信用風(fēng)險(xiǎn)評(píng)價(jià),通過測算違約、非違約樣本的有效樣本數(shù),進(jìn)而在交叉熵函數(shù)中引入與有效樣本數(shù)成反比的權(quán)重項(xiàng)來調(diào)整違約、非違約樣本損失對(duì)目標(biāo)損失的貢獻(xiàn)度,構(gòu)建Class Balanced Loss修正交叉熵的非均衡樣本信用風(fēng)險(xiǎn)評(píng)價(jià)模型。利用中國某微型金融機(jī)構(gòu)1 534個(gè)農(nóng)戶小額貸款數(shù)據(jù)和UCI公開的1 000個(gè)德國信貸數(shù)據(jù)進(jìn)行實(shí)證,結(jié)果表明,本文所建模型具有良好的違約預(yù)測性能。
全樣本空間。設(shè)X違約={xi|yi=1,i=1,2,…,n}(或X非違約={xi|yi=0,i=1,2,…,m})表示由貸款數(shù)據(jù)中所有違約(或非違約)客戶構(gòu)成的集合,則稱X違約(或X非違約)為違約(或非違約)樣本的全樣本空間。
本文假定任意違約(或非違約)樣本都與其全樣本空間中某個(gè)鄰域相關(guān)聯(lián),而不是以點(diǎn)的形式孤立存在于全樣本空間中;每個(gè)違約(或非違約)樣本是其全樣本空間的一個(gè)子集,每個(gè)違約(或非違約)樣本體積為1,并且可能與其他違約(或非違約)樣本重疊。需要說明的是,本文關(guān)注的是同類樣本的重疊,未考慮違約樣本和非違約樣本之間的重疊。
違約客戶有效樣本數(shù)量。由于違約客戶之間的內(nèi)在相似性,任何一個(gè)違約樣本都有可能與其他違約樣本重疊,故對(duì)所有違約樣本進(jìn)行不放回采樣,以對(duì)違約樣本的全樣本空間X違約實(shí)現(xiàn)無重疊覆蓋,采樣結(jié)果記為S違約,則S違約中樣本的期望體積即為違約客戶的有效樣本數(shù)量。
非違約客戶有效樣本數(shù)量。由于非違約客戶之間的內(nèi)在相似性,任何一個(gè)非違約樣本都有可能與其他非違約樣本重疊,故對(duì)所有非違約樣本進(jìn)行不放回采樣,以對(duì)非違約樣本的全樣本空間X非違約實(shí)現(xiàn)無重疊覆蓋,采樣結(jié)果記為S非違約,則S非違約中樣本的期望體積即為非違約客戶的有效樣本數(shù)量。
難點(diǎn)1貸款數(shù)據(jù)中違約樣本遠(yuǎn)少于非違約樣本,致使非違約樣本主導(dǎo)模型優(yōu)化方向、評(píng)價(jià)模型難以識(shí)別違約樣本,然而,對(duì)違約樣本的準(zhǔn)確判別才是商業(yè)銀行風(fēng)險(xiǎn)管控的焦點(diǎn)。如何在不改變樣本原有數(shù)據(jù)結(jié)構(gòu)的情形下,降低不均衡樣本對(duì)評(píng)價(jià)模型性能的影響,提升模型對(duì)違約樣本的識(shí)別力是本文需要解決的第1個(gè)難點(diǎn)。
難點(diǎn)2貸款數(shù)據(jù)違約、非違約樣本中的有效樣本對(duì)評(píng)價(jià)模型構(gòu)建及模型預(yù)測性能起著關(guān)鍵作用,如何測度違約、非違約樣本的有效樣本數(shù),并在此基礎(chǔ)上構(gòu)建信用評(píng)價(jià)模型,提升評(píng)價(jià)模型對(duì)違約樣本的學(xué)習(xí)能力,是本文面臨的第2個(gè)難點(diǎn)。
(1)通過在交叉熵函數(shù)中引入平衡因子ω,對(duì)違約、非違約樣本造成的損失進(jìn)行重新加權(quán),增大違約樣本損失在目標(biāo)損失中的權(quán)重、減小非違約樣本損失在目標(biāo)損失中的權(quán)重,使評(píng)價(jià)模型側(cè)重于對(duì)違約樣本的學(xué)習(xí),提升模型對(duì)違約樣本的識(shí)別能力,緩解評(píng)價(jià)模型因非違約樣本在數(shù)量上的占比優(yōu)勢(shì)而主導(dǎo)模型優(yōu)化方向、不利于違約樣本識(shí)別的問題。解決難點(diǎn)1。
(2)受隨機(jī)覆蓋思想[34]啟發(fā),對(duì)所有違約(或非違約)樣本進(jìn)行不放回采樣,利用采樣樣本對(duì)違約(或非違約)樣本的全樣本空間X違約(或X非違約)進(jìn)行無重疊覆蓋,則采樣結(jié)果中樣本的期望體積即為違約(或非違約)貸款客戶的有效樣本數(shù)。解決難點(diǎn)2。下面以違約客戶為例,說明其有效樣本的測算過程。
設(shè)貸款數(shù)據(jù)中違約樣本集為A,先前采樣的違約樣本集為PA。為簡化問題,假設(shè)新采樣的違約樣本xi以兩種方式與PA進(jìn)行交互:一是出現(xiàn)在PA中,二是出現(xiàn)在PA外部,不考慮部分重疊的情況。
首先,任取集合A中未經(jīng)采樣的違約樣本xi。其次,判斷xi是否與先前采樣的違約樣本集PA中已有樣本重疊。若未重疊,則將xi添加到樣本集PA中,并更新PA的期望體積為:E(PA)=E(PA)+1;若重疊,則PA與E(PA)保持不變。最后,對(duì)違約樣本集A中其余未經(jīng)采樣的樣本重復(fù)上述步驟。此時(shí),更新后的樣本集PA的期望體積E(PA),即為貸款數(shù)據(jù)違約樣本集A的有效樣本數(shù)。違約客戶有效樣本測算原理如圖1所示。
由于不同類型信用評(píng)價(jià)指標(biāo)單位量綱的差異,為避免人為打分的主觀誤差影響,需要對(duì)原始指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理[35]。常見的定量指標(biāo)有正向指標(biāo)、負(fù)向指標(biāo)和區(qū)間指標(biāo)3類。
(1)正向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化。正向指標(biāo)數(shù)值越大,表明樣本的信用狀況越好,如“總資產(chǎn)、月可支配收入”等指標(biāo)。設(shè)為第i個(gè)客戶第j個(gè)指標(biāo)標(biāo)準(zhǔn)化后的值是第i個(gè)客戶第j個(gè)指標(biāo)的原始數(shù)據(jù),則
(2)負(fù)向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化。負(fù)向指標(biāo)數(shù)值越小,表明樣本的信用狀況越好,如“總負(fù)債、資產(chǎn)負(fù)債率”等指標(biāo),則
(3)區(qū)間指標(biāo)標(biāo)準(zhǔn)化。區(qū)間指標(biāo)是取值在某一個(gè)特定區(qū)間內(nèi),信用情況是最佳的指標(biāo)。例如,客戶信用風(fēng)險(xiǎn)評(píng)價(jià)“年齡”的最佳區(qū)間為[31,45],它表示年齡位于該區(qū)間的借貸客戶還款能力和還款意愿最強(qiáng)。設(shè)q1為最佳區(qū)間的左端點(diǎn),q2為最佳區(qū)間的右端點(diǎn),則
式(3)中其余字母含義同式(1)。
與傳統(tǒng)機(jī)器學(xué)習(xí)算法不同,深度學(xué)習(xí)是一種將冗余指標(biāo)剔除、顯著性指標(biāo)篩選和分類預(yù)測等模塊進(jìn)行統(tǒng)一的端到端的學(xué)習(xí)算法,因此具有更優(yōu)異的指標(biāo)提取能力[31]。深度學(xué)習(xí)采用的模型主要是神經(jīng)網(wǎng)絡(luò),該方法通過使用誤差反向傳播算法,較好地解決了評(píng)價(jià)指標(biāo)的貢獻(xiàn)度分配問題,在復(fù)雜系統(tǒng)評(píng)價(jià)和金融風(fēng)險(xiǎn)預(yù)測中得到了廣泛應(yīng)用[36-38]。本文將反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)應(yīng)用于信用風(fēng)險(xiǎn)評(píng)價(jià),通過在BPNN 交叉熵函數(shù)中引入平衡因子ω,利用平衡因子ω客觀調(diào)節(jié)正負(fù)樣本損失在目標(biāo)損失中的權(quán)重,實(shí)現(xiàn)BPNN 模型對(duì)不均衡樣本中違約樣本的深度學(xué)習(xí),提升模型對(duì)違約樣本的預(yù)測能力,緩解傳統(tǒng)評(píng)價(jià)模型對(duì)不均衡樣本適用性不強(qiáng)的缺陷。
基于BPNN 的信用風(fēng)險(xiǎn)評(píng)價(jià)模型構(gòu)建可以分為兩個(gè)階段,第1階段為信用風(fēng)險(xiǎn)評(píng)價(jià)信息的正向傳播,貸款數(shù)據(jù)由輸入層進(jìn)入到BPNN,經(jīng)隱藏層激活函數(shù)逐層處理之后,再由輸出層對(duì)貸款客戶的違約狀態(tài)進(jìn)行預(yù)測。第2階段為違約判別誤差信息的反向傳播,通過計(jì)算違約狀態(tài)預(yù)測值與真實(shí)值之間的差距,判斷該差距是否在模型的預(yù)設(shè)精度以內(nèi)。若不在,則將誤差反向逐層向前傳遞,利用梯度下降法調(diào)整各網(wǎng)絡(luò)層權(quán)重與偏置以減小誤差,直至模型輸出的違約預(yù)測誤差滿足模型的精度要求。BPNN信用風(fēng)險(xiǎn)評(píng)價(jià)示意如圖2所示。
2.2.1 信用風(fēng)險(xiǎn)評(píng)價(jià)信息的正向傳播 以圖2中3層BPNN 為例,說明信用風(fēng)險(xiǎn)評(píng)價(jià)信息正向傳播過程。設(shè)S1為第1層隱藏層的輸出,S2為第2層隱藏層的輸出,f1為第1層隱藏層的激活函數(shù),f2為第2層隱藏層的激活函數(shù),W1為輸入層至第1層隱藏層的權(quán)重矩陣,W2為第1層至第2層隱藏層的權(quán)重矩陣,xi=為客戶i評(píng)價(jià)指標(biāo)向量,θ1為輸入層至第1層隱藏層的偏置,θ2為第1層至第2層隱藏層的偏置,W1xi+θ1為第1層隱藏層的輸入,W2S1+θ2為第2層隱藏層的輸入,則第i個(gè)貸款客戶的信用評(píng)價(jià)信息正向傳播過程可由第1、2層隱藏層神經(jīng)元的輸入輸出關(guān)系表示:
設(shè)為客戶i的違約狀態(tài)預(yù)測值∈[0,1],h為輸出層違約狀態(tài)判別函數(shù),W3為第2層隱藏層至輸出層的權(quán)重矩陣,θ3為第2層隱藏層至輸出層的偏置,則違約狀態(tài)預(yù)測值為
式(6)的經(jīng)濟(jì)學(xué)含義:式(6)刻畫了3層BPNN對(duì)貸款客戶i的違約預(yù)測結(jié)果。預(yù)測值表示評(píng)價(jià)模型預(yù)測客戶i屬于違約樣本的概率,取違約判別閾值為0.5[38],若違約狀態(tài)預(yù)測值<0.5,則將客戶i判別為非違約客戶;反之,則判別為違約客戶。
2.2.2 違約預(yù)測誤差反向傳播測算 利用式(6)求得的客戶違約狀態(tài)預(yù)測值與違約狀態(tài)真實(shí)值yi,求解模型預(yù)測誤差值G(yi)。若G(yi)>模型預(yù)設(shè)精度,則進(jìn)入反向傳播過程。誤差反向傳播的核心是對(duì)各層網(wǎng)絡(luò)權(quán)重和偏置進(jìn)行不斷修正,若修正后的權(quán)重和偏置可以使模型的違約預(yù)測誤差值G(yi,)≤模型預(yù)設(shè)精度,則修正完成。不失一般性,本文以第l層隱藏層為例,說明誤差反向傳播修正權(quán)重和偏置的過程。
設(shè)dl=Wl Sl-1+θl為第l層隱藏層的輸入,(dl)為第l層隱藏層輸入對(duì)該層輸出的影響程度,Wl為第l-1層至第l層隱藏層的權(quán)重矩陣,則G(yi,)對(duì)第l層隱藏層權(quán)重Wl與偏置θl的偏導(dǎo)數(shù)為:
式中,tl=(dl)·((Wl+1)Ttl+1)為第l層隱藏層輸入dl對(duì)誤差值G(yi,)的影響程度,也反映了G(yi,)對(duì)第l層隱藏層輸入dl的敏感程度。
式(7)~(8)的統(tǒng)計(jì)學(xué)含義:兩式分別為預(yù)測誤差G(yi,)對(duì)網(wǎng)絡(luò)權(quán)重Wl和偏置θl的一階偏導(dǎo),用于表示權(quán)重矩陣Wl和偏置θl對(duì)誤差值G(yi,)的影響程度,也反映了G(yi,)對(duì)權(quán)重矩陣Wl和偏置θl變化的敏感性。?G(yi,)/?Wl越大,說明G(yi,)對(duì)Wl的變化越敏感,Wl的微小變動(dòng)即可引起誤差值G(yi,)的較大波動(dòng),此時(shí)的Wl不利于客戶i違約狀態(tài)判別;反之,則Wl有利于客戶i違約狀態(tài)判別。因此,可以通過調(diào)整Wl來降低Wl對(duì)G(yi,)影響,從而使得評(píng)價(jià)模型的違約預(yù)測誤差G(yi,)滿足預(yù)設(shè)精度要求。式(8)同理,不再贅述。
式(7)~(8)的經(jīng)濟(jì)學(xué)意義:利用梯度下降調(diào)節(jié)隱藏層神經(jīng)元的網(wǎng)絡(luò)權(quán)重Wl和偏置θl,降低貸款客戶i的違約預(yù)測誤差G(yi,),實(shí)現(xiàn)對(duì)BPNN 信用評(píng)級(jí)信息正向傳播違約預(yù)測性能的反向調(diào)優(yōu)。
2.2.3 Class Balanced Loss修正交叉熵的非均衡樣本信用風(fēng)險(xiǎn)評(píng)價(jià)模型構(gòu)建 由于實(shí)際中的信貸數(shù)據(jù)存在大部分非違約、少部分違約的數(shù)據(jù)不均衡現(xiàn)象,致使傳統(tǒng)以交叉熵為目標(biāo)損失函數(shù)G(yi,)的BPNN 模型在面對(duì)不均衡樣本時(shí),極易出現(xiàn)對(duì)“多類”非違約樣本識(shí)別過度、對(duì)“少類”違約樣本識(shí)別不足的問題。為此,本文將交叉熵替換為引入平衡因子ω的類平衡交叉熵(Class Balanced Cross Entropy,CBCE)函數(shù),以提升BPNN 模型對(duì)不均衡樣本中違約樣本的識(shí)別力、改善BPNN 模型對(duì)不均衡樣本的適用性。
(1)交叉熵函數(shù)。設(shè)yi為真實(shí)違約狀態(tài)為其預(yù)測值,交叉熵函數(shù)為[39]
式(9)的經(jīng)濟(jì)學(xué)意義:該式表示評(píng)價(jià)模型對(duì)貸款客戶i違約預(yù)測的損失值(也稱為誤差值)。評(píng)價(jià)模型會(huì)根據(jù)樣本的預(yù)測損失值進(jìn)行參數(shù)反向調(diào)優(yōu),以提升模型違約預(yù)測性能。以一個(gè)違約客戶和一個(gè)非違約客戶為例:①當(dāng)客戶為違約客戶(yi=1)時(shí),不妨取0.2。由于預(yù)測值0.2小于閾值0.5,模型將違約客戶判別為非違約客戶、判別錯(cuò)誤,此時(shí)Cross Entropy=-log0.2=0.699,即評(píng)價(jià)模型對(duì)違約客戶i進(jìn)行預(yù)測產(chǎn)生的損失為0.699。②當(dāng)客戶為非違約客戶(yi=0)時(shí),不妨取0.8。由于0.8大于閾值0.5,模型將非違約客戶i誤判為違約客戶、判別錯(cuò)誤,此時(shí)Cross Entropy=-log(1-0.8)=0.699,即評(píng)價(jià)模型對(duì)非違約客戶i進(jìn)行預(yù)測產(chǎn)生的損失為0.699。進(jìn)一步,可求得上述兩個(gè)樣本(1個(gè)違約樣本、1個(gè)非違約樣本)的交叉熵權(quán)重(違約樣本權(quán)重=×100=50%,非違約樣本權(quán)重=×100=50%),如表1第2、3行最后1列所示。
表1 交叉熵(CE)與Class Balanced交叉熵(CBCE)對(duì)違約客戶識(shí)別對(duì)比
需要說明的是:①對(duì)評(píng)價(jià)模型優(yōu)化起主導(dǎo)作用的是預(yù)測錯(cuò)誤的樣本,故本文主要以誤判樣本為例解釋公式的經(jīng)濟(jì)學(xué)意義。②對(duì)于預(yù)測錯(cuò)誤的違約、非違約樣本,評(píng)價(jià)模型會(huì)重點(diǎn)學(xué)習(xí)在目標(biāo)損失中占比較大的一類樣本,為此,本文通過計(jì)算樣本損失權(quán)重來反映這一點(diǎn)。
不難發(fā)現(xiàn),利用式(9)計(jì)算出的2個(gè)樣本的損失占總目標(biāo)損失的比例是一致的(50%=50%),即式(9)所示的交叉熵函數(shù)并沒有將違約、非違約樣本對(duì)目標(biāo)損失交叉熵函數(shù)的貢獻(xiàn)度進(jìn)行區(qū)分。實(shí)踐中由于非違約客戶在樣本總數(shù)上占有絕對(duì)優(yōu)勢(shì),如果不對(duì)兩類樣本損失的貢獻(xiàn)度進(jìn)行區(qū)分,會(huì)導(dǎo)致非違約樣本造成的損失在目標(biāo)損失中占比過高,從而主導(dǎo)BPNN 模型優(yōu)化方向、不利于違約樣本有效判別的問題出現(xiàn)。為此,下文將探討如何修正交叉熵函數(shù),提升模型對(duì)違約樣本的識(shí)別力。
(2)引入平衡因子ω的CBCE函數(shù)。為了彌補(bǔ)上述不足,本文引入含有平衡因子項(xiàng)ω的CBCE 函數(shù)。與交叉熵相比,CBCE函數(shù)通過測算違約、非違約樣本有效樣本數(shù)En和Em,構(gòu)造平衡因子項(xiàng)ωn和ωm,進(jìn)而利用ωn和ωm對(duì)違約、非違約樣本損失進(jìn)行重新加權(quán),增大違約樣本損失在目標(biāo)損失中的權(quán)重、減少非違約樣本損失在目標(biāo)損失中的權(quán)重,使評(píng)價(jià)模型側(cè)重于對(duì)違約樣本的學(xué)習(xí)。改善BPNN 模型因樣本不均衡導(dǎo)致的對(duì)非違約樣本學(xué)習(xí)過度、對(duì)違約樣本學(xué)習(xí)不足的現(xiàn)狀。為方便理解,首先介紹違約、非違約客戶有效樣本數(shù)En和Em的測算原理,然后介紹違約、非違約客戶平衡因子ωn和ωm的構(gòu)造過程,最后給出CBCE的實(shí)現(xiàn)原理。
①測算違約、非違約客戶有效樣本數(shù)En和Em。以違約客戶為例,通過命題形式給出違約客戶有效樣本數(shù)En的測算及證明過程。
命題1設(shè)n為貸款數(shù)據(jù)中違約客戶總數(shù),En為n個(gè)違約客戶對(duì)應(yīng)的有效樣本的期望體積,N為違約樣本全樣本空間X違約的期望體積(N為En的上限),β=(N-1)/N∈[0,1)為超參數(shù),用于刻畫樣本的重疊程度(β越趨向于0,表示樣本之間重疊程度越大,其中,β=0表示所有樣本全部重疊;反之,β越趨向于1,表示樣本之間重疊程度越小),則n個(gè)違約客戶的有效樣本數(shù)為
證明通過數(shù)學(xué)歸納法對(duì)命題1進(jìn)行證明。
(i)當(dāng)n=1時(shí),表示貸款數(shù)據(jù)中只有一個(gè)違約樣本,此時(shí)1個(gè)客戶的有效樣本數(shù)為1,故E1=(1-β1)/(1-β)=1成立。
(ii)假設(shè)當(dāng)n=n-1時(shí),
成立。式(11)表示已經(jīng)采樣了n-1個(gè)違約樣本,且n-1個(gè)樣本的有效樣本數(shù)為
(iii)當(dāng)n=n時(shí),求解n個(gè)違約客戶的有效樣本數(shù)En。對(duì)第n個(gè)違約樣本xn進(jìn)行采樣,為簡化問題,假設(shè)新采樣的數(shù)據(jù)xn以兩種方式與前n-1個(gè)樣本進(jìn)行交互:一是以概率p出現(xiàn)在前n-1個(gè)樣本中,此時(shí)n個(gè)違約樣本的期望體積En=En-1;二是以概率1-p出現(xiàn)在前n-1個(gè)樣本外部,此時(shí)n個(gè)違約樣本的期望體積En=En-1+1,不考慮部分重疊的情況[33]。由假設(shè)條件N為En的上限可知p=En-1/N,因此,n個(gè)違約客戶的有效樣本數(shù)為
進(jìn)一步,將式(11)代入式(12),可得
由命題1不難看出,可以通過調(diào)整參數(shù)β的取值來調(diào)整違約(或非違約)貸款客戶之間的重疊程度,進(jìn)而實(shí)現(xiàn)對(duì)不同重疊程度下貸款客戶有效樣本數(shù)的測算。具體地:(a)違約客戶有效樣本數(shù)En隨著β的增大而增大,即β越大、違約樣本之間重疊程度越小、有效樣本數(shù)En越大。例如,當(dāng)β=0.99,0.999[33],n=40時(shí),由式(10)計(jì)算可得:
比較可知E40(β=0.999)-E40(β=0.99)=5.9>0,故En隨著參數(shù)β的增大而增大。(b)隨著違約客戶數(shù)量n的增加,β越大、有效樣本數(shù)En增長越快。例如,當(dāng)n=40,50,β=0.999時(shí),
當(dāng)n=40,50,β=0.99時(shí),
比較可知
從而β越大,隨著違約客戶數(shù)量n的增加,En增長越快。
需要說明的是:(a)實(shí)踐中,貸款數(shù)據(jù)通常呈現(xiàn)高維特性,致使無法事先確定其重疊程度。本文利用參數(shù)β對(duì)現(xiàn)實(shí)中貸款客戶之間的重疊程度進(jìn)行刻畫,通過改變參數(shù)β的取值來調(diào)整樣本的重疊程度、找到適合貸款數(shù)據(jù)的最佳β,進(jìn)而實(shí)現(xiàn)在最佳參數(shù)β下有效樣本數(shù)的測算。(b)本文與Cui等[33]的區(qū)別在于,Cui等的研究對(duì)象為圖像數(shù)據(jù),而本文的研究對(duì)象為客戶貸款數(shù)據(jù)。雖然Cui等較好地解決了圖像識(shí)別中的樣本不均衡問題,但是貸款數(shù)據(jù)與圖像數(shù)據(jù)具有本質(zhì)上的區(qū)別(例如,圖像數(shù)據(jù)是三維而貸款數(shù)據(jù)是二維),無法直接將其應(yīng)用于不均衡貸款客戶的信用風(fēng)險(xiǎn)預(yù)測中。從而研究如何將適用于非均衡圖像數(shù)據(jù)分類模型的使用邊界進(jìn)行拓展,可為解決不均衡信用風(fēng)險(xiǎn)評(píng)價(jià)客戶分類提供新的思路。
②構(gòu)造違約、非違約客戶平衡因子ωn、ωm。利用①中測算出的違約、非違約客戶有效樣本數(shù)En和Em,構(gòu)造違約、非違約樣本平衡因子分別為:
式(14)~(15)的統(tǒng)計(jì)學(xué)含義:式(14)中平衡因子ωn用于調(diào)整違約樣本造成的損失對(duì)目標(biāo)損失的貢獻(xiàn)度。由于β∈[0,1),式(14)中ωn與違約客戶數(shù)n成反比,即違約客戶數(shù)n越少、違約樣本平衡因子ωn越大,從而違約樣本對(duì)目標(biāo)損失的貢獻(xiàn)度越大。式(15)同理,不再贅述。
式(14)~(15)的經(jīng)濟(jì)學(xué)含義:違約樣本數(shù)n遠(yuǎn)小于非違約樣本數(shù)m,因此,違約樣本平衡因子ωn要遠(yuǎn)大于非違約樣本平衡因子ωm,從而可以分別通過ωn、ωm來增大違約樣本損失占目標(biāo)損失的權(quán)重、減小非違約樣本損失占目標(biāo)損失的權(quán)重,以提升評(píng)價(jià)模型對(duì)違約樣本的學(xué)習(xí)力度與識(shí)別能力。
③CBCE函數(shù)。利用②中得到的違約、非違約客戶平衡因子ωn和ωm,構(gòu)造CBCE函數(shù):
式(16)的經(jīng)濟(jì)學(xué)意義:該式表示評(píng)價(jià)模型對(duì)貸款客戶i違約預(yù)測的損失值,利用平衡因子ωn和ωm修正后的CBCE 可以提升評(píng)價(jià)模型對(duì)違約樣本學(xué)習(xí)力度與識(shí)別能力。以一個(gè)違約客戶和一個(gè)非違約客戶為例:(i)對(duì)于違約客戶i(yi=1),不妨取違約客戶數(shù)n=30,β=0.99=0.2。由于0.2小于閾值0.5,模型將客戶i誤判為非違約客戶,此時(shí),
即將違約客戶i誤判所造成的損失為0.027。(ii)對(duì)于非違約客戶i(yi=0),不妨取非違約客戶數(shù)m=300,β=0.99=0.8。由于0.8大于閾值0.5,模型將非違約客戶i誤判為違約客戶,此時(shí),
即將非違約客戶i誤判所造成的損失為0.007。進(jìn)一步,可得上述兩個(gè)樣本的CBCE 權(quán)重(違約樣本權(quán)重=×100=80%,非違約樣本權(quán)重=×100=20%),見表1第5、6行最后1列所示。
不難發(fā)現(xiàn),對(duì)于示例兩個(gè)樣本中的非違約樣本,而對(duì)于違約樣本,
由此可見,引入平衡因子后的CBCE 函數(shù),可以通過增大違約樣本損失占目標(biāo)損失的權(quán)重(80%>50%)來提升模型對(duì)違約樣本的關(guān)注度、學(xué)習(xí)力度與識(shí)別能力。
2.3.1 建模步驟
步驟1原始數(shù)據(jù)預(yù)處理。
依據(jù)2.1節(jié)指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化處理方法對(duì)原始數(shù)據(jù)進(jìn)行指標(biāo)標(biāo)準(zhǔn)化處理,以避免不同指標(biāo)的量綱差異對(duì)評(píng)價(jià)模型違約判別性能造成影響。
步驟2標(biāo)準(zhǔn)化數(shù)據(jù)訓(xùn)練集和測試集的劃分。
將標(biāo)準(zhǔn)化數(shù)據(jù)按9∶1比例分為訓(xùn)練集和測試集,訓(xùn)練集用于評(píng)價(jià)模型的構(gòu)建,測試集用于評(píng)價(jià)模型違約預(yù)測性能的檢驗(yàn)。
步驟3模型參數(shù)預(yù)設(shè)。
參考相關(guān)文獻(xiàn)[33,40-41],結(jié)合商業(yè)銀行信用風(fēng)險(xiǎn)實(shí)務(wù)專家建議,從增強(qiáng)模型學(xué)習(xí)能力、避免過擬合等方面,選取模型的預(yù)設(shè)參數(shù)。參數(shù)定義、作用及取值范圍如表2所示。
表2 預(yù)設(shè)參數(shù)設(shè)置
步驟4構(gòu)建評(píng)價(jià)模型。
利用訓(xùn)練樣本對(duì)BPNN-CBCE模型的網(wǎng)絡(luò)參數(shù)進(jìn)行學(xué)習(xí),得到使模型結(jié)構(gòu)化風(fēng)險(xiǎn)最小的網(wǎng)絡(luò)參數(shù),在此基礎(chǔ)上構(gòu)建BPNN-CBCE信用風(fēng)險(xiǎn)評(píng)價(jià)模型。
步驟5計(jì)算評(píng)價(jià)指標(biāo)。
將測試樣本代入步驟4 構(gòu)建的BPNN-CBCE信用風(fēng)險(xiǎn)評(píng)價(jià)模型,可得測試集客戶的違約狀態(tài)預(yù)測結(jié)果。將違約狀態(tài)預(yù)測結(jié)果同客戶真實(shí)違約狀態(tài)進(jìn)行對(duì)比,得到模型的預(yù)測精度。BPNN-CBCE 信用風(fēng)險(xiǎn)評(píng)價(jià)建模流程如圖3所示。
2.3.2 模型評(píng)價(jià)標(biāo)準(zhǔn) 對(duì)模型判別精度的評(píng)價(jià)是為了檢驗(yàn)?zāi)P偷挠行?基于貸款數(shù)據(jù)的非均衡特點(diǎn),使用準(zhǔn)確率Accuracy、AUC 和違約召回率Default recall等3個(gè)標(biāo)準(zhǔn)進(jìn)行綜合判定。
設(shè)TP為客戶的真實(shí)狀態(tài)為非違約,且被判別為非違約;FN為客戶的真實(shí)狀態(tài)為非違約,且被判別為違約;TN為客戶的真實(shí)狀態(tài)為違約,且被判別為違約;FP為客戶的真實(shí)狀態(tài)為違約,且被判別為非違約。則
當(dāng)樣本不均衡時(shí),評(píng)價(jià)模型通過將大多數(shù)樣本劃分為非違約樣本,提升模型判別的準(zhǔn)確率,但這會(huì)導(dǎo)致模型無法有效識(shí)別違約客戶。因此,當(dāng)樣本不均衡時(shí),準(zhǔn)確率對(duì)模型預(yù)測性能的判別可能失效[1]。與準(zhǔn)確率不同的是,AUC 同時(shí)考慮了模型對(duì)于違約客戶和非違約客戶的判別能力,避免了樣本不均衡帶來的模型評(píng)價(jià)準(zhǔn)則失效的問題。AUC被定義為ROC 曲線下的面積,因此,可以通過制作模型的ROC曲線圖得到AUC值。首先,計(jì)算模型的TPR(True Positive Rate)和FPR(False Positive Rate),分別為:
其次,以TPR為橫坐標(biāo)、FPR為縱坐標(biāo),繪制模型的ROC曲線圖,AUC就是曲線下的面積。AUC值越大,模型違約判別能力越強(qiáng)[42],即
式(20)的經(jīng)濟(jì)學(xué)含義:式(20)可用于衡量評(píng)價(jià)模型對(duì)違約樣本的識(shí)別力。等式右邊分子TN表示違約客戶被正確判別為違約的個(gè)數(shù),分母TN+FP表示樣本中包含的違約客戶總數(shù)。因此,違約召回率Default recall是指將違約客戶正確判別為違約的比例,該值越大,說明模型對(duì)違約客戶的判別精度越高。
以農(nóng)戶小額貸款信用風(fēng)險(xiǎn)評(píng)價(jià)為例,說明海選指標(biāo)集的構(gòu)建過程。通過參考標(biāo)普、穆迪、惠譽(yù)、中國農(nóng)業(yè)銀行[43]、中國郵政儲(chǔ)蓄銀行[44]、中和農(nóng)信[45]等國內(nèi)外典型機(jī)構(gòu)信用評(píng)價(jià)指標(biāo)體系,結(jié)合國內(nèi)外經(jīng)典文獻(xiàn),以及通過調(diào)研訪談等方式,建立了貸款人基本情況、貸款人家庭特征、貸款人財(cái)務(wù)信息和外部宏觀條件4個(gè)農(nóng)戶信用評(píng)價(jià)準(zhǔn)則層,如表3第(b)列所示。海選出教育程度、貸款目的、勞動(dòng)力占比和人均地區(qū)生產(chǎn)總值等33個(gè)農(nóng)戶信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo),如表3第(c)列所示。
本文研究數(shù)據(jù)源自中國某微型金融機(jī)構(gòu)農(nóng)戶小額貸款數(shù)據(jù)[44],該金融機(jī)構(gòu)是一家專注服務(wù)農(nóng)村小微客戶的助農(nóng)機(jī)構(gòu),致力于打通普惠金融最后100 m、將服務(wù)送達(dá)末端用戶。截至到2020 年底,該金融機(jī)構(gòu)已在全國設(shè)立了370 余家分支機(jī)構(gòu),覆蓋了10萬多個(gè)村莊。選取農(nóng)戶貸款數(shù)據(jù)進(jìn)行實(shí)證分析的原因是:農(nóng)戶貸款具有業(yè)務(wù)量大、額度小、風(fēng)險(xiǎn)分散、財(cái)務(wù)數(shù)據(jù)不健全以及樣本非均衡等特點(diǎn)與難點(diǎn),使得商業(yè)銀行等金融機(jī)構(gòu)對(duì)農(nóng)戶的信用風(fēng)險(xiǎn)評(píng)估更具難度與挑戰(zhàn)性。合理評(píng)價(jià)農(nóng)戶的信用風(fēng)險(xiǎn),不僅有利于改善農(nóng)戶融資難、貸款難的現(xiàn)狀,還可以促進(jìn)農(nóng)村金融發(fā)展和增加就業(yè)。因此,選取農(nóng)戶貸款數(shù)據(jù)進(jìn)行實(shí)證研究具有較強(qiáng)實(shí)際意義。
數(shù)據(jù)集包含1 416個(gè)非違約農(nóng)戶和118個(gè)違約農(nóng)戶,樣本不均衡比為12∶1。指標(biāo)原始數(shù)據(jù)如表3第(1)~(1 534)列前33行所示,農(nóng)戶違約狀態(tài)標(biāo)識(shí)如表3第34行所示,其中0表示非違約,1表示違約。表4第(1)~(1 534)列前33行是指標(biāo)的標(biāo)準(zhǔn)化數(shù)據(jù),標(biāo)準(zhǔn)化過程見3.3節(jié)。
表3 農(nóng)戶信用評(píng)價(jià)指標(biāo)及原始數(shù)據(jù)
表4 農(nóng)戶信用評(píng)價(jià)標(biāo)準(zhǔn)化數(shù)據(jù)
3.3.1 定量指標(biāo)標(biāo)準(zhǔn)化
(1)正向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化。根據(jù)2.1節(jié)正向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化原理,計(jì)算表3正向指標(biāo)每一行原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù)、最大值及最小值代入式(1),得到正向指標(biāo)的標(biāo)準(zhǔn)化值,結(jié)果列入表4第(1)~(1 534)列對(duì)應(yīng)行。
(2)負(fù)向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化。根據(jù)2.1節(jié)負(fù)向指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化原理,計(jì)算表3負(fù)向指標(biāo)每一行原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù)、最大值及最小值代入式(2),得到負(fù)向指標(biāo)的標(biāo)準(zhǔn)化值,結(jié)果列入表4第(1)~(1 534)列對(duì)應(yīng)行。
(3)區(qū)間指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化。本文共涉及“客戶貸款時(shí)年齡”和“居民消費(fèi)價(jià)格指數(shù)”兩個(gè)區(qū)間指標(biāo)?!翱蛻糍J款時(shí)年齡”的最佳區(qū)間為[31,45],“居民消費(fèi)價(jià)格指數(shù)”的最佳區(qū)間為[101,105][46]。根據(jù)2.1節(jié)區(qū)間指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化原理,計(jì)算“客戶貸款時(shí)年齡”指標(biāo)原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù),q1=31,q2=45,最大值及最小值代入式(3),得到“客戶貸款時(shí)年齡”指標(biāo)的標(biāo)準(zhǔn)化值,結(jié)果列入表4第(1)~(1 534)列對(duì)應(yīng)行。
同理,計(jì)算“居民消費(fèi)價(jià)格指數(shù)”指標(biāo)原始數(shù)據(jù)的最大值、最小值,并將原始數(shù)據(jù),q1=101,q2=105,最大值及最小值代入式(3),得到“居民消費(fèi)價(jià)格指數(shù)”指標(biāo)的標(biāo)準(zhǔn)化值,結(jié)果列入表4第(1)~(1 534)列對(duì)應(yīng)行。
3.3.2 定性指標(biāo)標(biāo)準(zhǔn)化 通過對(duì)中國某全國性大型商業(yè)銀行信貸業(yè)務(wù)的總行副行長、風(fēng)險(xiǎn)管理部總經(jīng)理、授信審批部總經(jīng)理、信貸部總經(jīng)理等銀行實(shí)務(wù)專家以及業(yè)務(wù)骨干進(jìn)行訪談?wù){(diào)研,結(jié)合大連理工大學(xué)、西北農(nóng)林科技大學(xué)、西南財(cái)經(jīng)大學(xué)以及東北財(cái)經(jīng)大學(xué)11名專家學(xué)者,并參考某商業(yè)銀行農(nóng)戶非財(cái)務(wù)數(shù)據(jù)信貸字典,制定出適合農(nóng)戶信用評(píng)價(jià)的定性指標(biāo)打分標(biāo)準(zhǔn),如表5所示。根據(jù)表3第(d)列,找到定性指標(biāo)所在行的農(nóng)戶數(shù)據(jù),按照表5打分標(biāo)準(zhǔn)對(duì)這些定性指標(biāo)進(jìn)行打分,結(jié)果列入表4 第(1)~(1 534)列對(duì)應(yīng)行。
表5 農(nóng)戶定性指標(biāo)打分標(biāo)準(zhǔn)
通過實(shí)驗(yàn)調(diào)參,選出BPNN-CBCE 的參數(shù)設(shè)置結(jié)果,如表6所示。其中,神經(jīng)網(wǎng)絡(luò)層數(shù)L=5,第l層隱藏層神經(jīng)元個(gè)數(shù)Ml=256,隱藏層激活函數(shù)為relu,輸出層分類函數(shù)為softmax,第l層隱藏層dropoutl為0.2,迭代次數(shù)epoch=500,CBCE參數(shù)β=0.999。將訓(xùn)練集農(nóng)戶標(biāo)準(zhǔn)化數(shù)據(jù)、違約狀態(tài)yi以及表6所示參數(shù)代入2.2節(jié)BPNN-CBCE模型構(gòu)建過程,對(duì)神經(jīng)網(wǎng)絡(luò)各層權(quán)重Wl和偏置θl進(jìn)行估計(jì),可得到基于BPNN-CBCE 的信用評(píng)價(jià)模型。為驗(yàn)證模型的有效性,需要用測試集樣本進(jìn)行檢驗(yàn)。將測試集農(nóng)戶標(biāo)準(zhǔn)化數(shù)據(jù)、違約狀態(tài)yi代入構(gòu)建好的BPNN-CBCE 模型,得到測試集樣本的違約概率。以概率值0.5為臨界點(diǎn),當(dāng)概率值大于0.5時(shí),判定為違約;否則,判定為非違約,如此可以得到測試集樣本的違約狀態(tài)預(yù)測值。根據(jù)違約狀態(tài)預(yù)測值和違約狀態(tài)真實(shí)值,最終可以得到測試集樣本的Accuracy、AUC 和違約召回率Default recall,結(jié)果分別列入表7第1行第(4)~(6)列。實(shí)驗(yàn)在Windows 10下進(jìn)行,采用Python 3.7.0進(jìn)行編程,利用Pytorch 1.5.1深度學(xué)習(xí)框架搭建模型,使用Intel(R)Core(TM)i5-5200U CPU 運(yùn)行模型。
表6 BPNN-CBCE模型參數(shù)設(shè)置結(jié)果
表7 BPNN-CBCE與BPNN-CE、SVM、DT、RF、KNN 方法預(yù)測性能對(duì)比
為評(píng)價(jià)信用風(fēng)險(xiǎn)測度模型BPNN-CBCE 的判別性能,從如下3個(gè)方面進(jìn)行分析:①利用表4中不均衡比為12∶1的1 534個(gè)農(nóng)戶貸款數(shù)據(jù),將所建模型與交叉熵神經(jīng)網(wǎng)絡(luò)(BPNN-Cross Entropy,BPNN-CE)、支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、隨機(jī)森林(Random Forest,RF)和K最近鄰(K-Nearest Neighbor,KNN)5種分類模型進(jìn)行對(duì)比,測算模型的判別性能;②利用簡單隨機(jī)抽樣法,從農(nóng)戶數(shù)據(jù)隨機(jī)抽取一定數(shù)量的非違約客戶,分別與118個(gè)違約客戶組成不均衡比例為10∶1和8∶1的農(nóng)戶數(shù)據(jù)集,驗(yàn)證BPNN-CBCE對(duì)不同不均衡比例數(shù)據(jù)集的適用性;③將農(nóng)戶數(shù)據(jù)替換為UCI公開的德國信貸數(shù)據(jù)集,比較上述6種方法在公開數(shù)據(jù)集中的分類表現(xiàn),進(jìn)一步驗(yàn)證模型的穩(wěn)健性。德國信貸數(shù)據(jù)集來自美國加州大學(xué)歐文分校(University of California Irvine)提出的用于機(jī)器學(xué)習(xí)的UCI數(shù)據(jù)庫,該數(shù)據(jù)庫所提供的數(shù)據(jù)均可免費(fèi)下載與使用。近年來,該數(shù)據(jù)集被廣泛應(yīng)用于信用風(fēng)險(xiǎn)領(lǐng)域中評(píng)價(jià)模型的穩(wěn)健性檢驗(yàn)[1,47-48]。選取德國信貸數(shù)據(jù)集進(jìn)行穩(wěn)健性檢驗(yàn),既可方便與現(xiàn)有文獻(xiàn)進(jìn)行對(duì)比,同時(shí)也可驗(yàn)證本文構(gòu)建模型對(duì)其他非均衡樣本的適用性。另外,本文還給出了當(dāng)CBCE 核心參數(shù)β取集合{0.99,0.999,0.999 9}中不同值時(shí),上述數(shù)據(jù)集對(duì)應(yīng)的BPNN-CBCE 分類結(jié)果。用于比較不同β取值對(duì)評(píng)價(jià)模型分類性能的影響,從而找出適合每個(gè)數(shù)據(jù)集的參數(shù)β最佳取值。
(1)基于6種方法的1 534個(gè)農(nóng)戶貸款數(shù)據(jù)信用風(fēng)險(xiǎn)評(píng)價(jià)結(jié)果對(duì)比。利用訓(xùn)練集農(nóng)戶標(biāo)準(zhǔn)化數(shù)據(jù)、違約狀態(tài)yi分別對(duì)BPNN-CE、SVM、DT、RF和KNN 等5種分類模型進(jìn)行訓(xùn)練,并將測試集和yi代入訓(xùn)練好的5種模型,從而得到5種分類模型的Accuracy、AUC 與Default recall,結(jié)果列入表7第(2)~(6)行、第(4)~(6)列。
①BPNN-CBCE 模型對(duì)農(nóng)戶不均衡數(shù)據(jù)具有更好的判別能力。由表7第(1)~(6)行及第(4)列可見,BPNN-CE、SVM、DT、RF 和KNN 這5種模型的準(zhǔn)確率Accuracy 均高于BPNN-CBCE 模型,進(jìn)一步分析發(fā)現(xiàn),5種模型通過將大多數(shù)樣本劃分為非違約樣本,提升了模型判別的準(zhǔn)確率Accuracy;但這5 類模型無法有效識(shí)別違約客戶。因此,當(dāng)樣本不均衡時(shí),準(zhǔn)確率Accuracy對(duì)模型的判別失效。與準(zhǔn)確率不同的是,AUC同時(shí)考慮了模型對(duì)于違約客戶和非違約客戶的判別能力,避免了樣本不均衡帶來的模型評(píng)價(jià)準(zhǔn)則失效的問題。由表7第(1)~(6)行及第(5)列可見,本文所建立的BPNN-CBCE模型的AUC 值0.656位居6種模型第1,并且相比較其余5種模型中AUC最高的提升了15.6個(gè)百分點(diǎn)。因此,BPNN-CBCE對(duì)農(nóng)戶數(shù)據(jù)具有更好的判別能力。
②BPNN-CBCE 模型對(duì)農(nóng)戶不均衡數(shù)據(jù)中違約樣本具有更好的識(shí)別能力。由式(20)違約召回率Default recall定義可知,分子TN為違約客戶被正確判別為違約的個(gè)數(shù),分母TN +FP為樣本中包含的違約客戶總數(shù),違約召回率Default recall是將違約客戶正確判別為違約的比例。因此,Default recall值越大,說明模型對(duì)違約客戶的判別精度越高。由表7第(1)~(6)行及第(6)列Default recall結(jié)果可見,BPNN-CBCE 的Default recall 0.413 為6種模型中最高,并且相較于其他5種模型提升了41.3%,從而BPNN-CBCE對(duì)農(nóng)戶不均衡數(shù)據(jù)中違約樣本識(shí)別更有效。進(jìn)一步,以BPNN-CE 為例說明其余模型違約召回率Default recall值為0的原因。BPNN-CE評(píng)價(jià)模型主要是通過對(duì)模型參數(shù)進(jìn)行不斷修正以減小模型預(yù)測誤差來達(dá)到對(duì)模型進(jìn)行優(yōu)化的目的,因此,評(píng)價(jià)模型為了快速達(dá)到優(yōu)化目標(biāo),往往會(huì)優(yōu)先對(duì)造成誤差較大的樣本進(jìn)行學(xué)習(xí)。由于非違約樣本數(shù)量在總樣本中占有絕對(duì)優(yōu)勢(shì),會(huì)使非違約樣本的誤差占據(jù)總誤差中大部分,從而評(píng)價(jià)模型會(huì)優(yōu)先對(duì)非違約樣本進(jìn)行學(xué)習(xí)。而對(duì)數(shù)量較多的非違約樣本的充分學(xué)習(xí)會(huì)使評(píng)價(jià)模型的準(zhǔn)確率得到快速提升,提前實(shí)現(xiàn)優(yōu)化目標(biāo)。這會(huì)導(dǎo)致評(píng)價(jià)模型幾乎沒有從違約樣本中學(xué)到有價(jià)值的信息。由于學(xué)到的有用信息少,也就不難解釋評(píng)價(jià)模型違約召回率Default recall值為0的原因。
需要說明的是,針對(duì)傳統(tǒng)信用風(fēng)險(xiǎn)預(yù)測模型存在對(duì)非違約樣本識(shí)別過度、對(duì)違約樣本識(shí)別不足的問題,CBCE函數(shù)通過對(duì)違約、非違約樣本損失對(duì)總損失貢獻(xiàn)度進(jìn)行調(diào)整,提升了對(duì)違約樣本的召回率Default recall。但同時(shí)也會(huì)因非違約樣本損失占總損失權(quán)重的降低而使評(píng)價(jià)模型從非違約樣本中學(xué)到的信息沒有原來那么多,從而對(duì)非違約樣本的識(shí)別造成一定的影響。然而,對(duì)于金融機(jī)構(gòu)而言,將違約樣本誤判為非違約樣本要遠(yuǎn)比將非違約樣本誤判為違約樣本造成的損失大,所以金融機(jī)構(gòu)更加關(guān)注對(duì)違約樣本的準(zhǔn)確識(shí)別[49]。因此,相對(duì)于BPNNCBCE 在非違約樣本識(shí)別力的輕微降低,其對(duì)違約樣本的識(shí)別力的提升對(duì)于金融機(jī)構(gòu)而言更有價(jià)值。
(2)基于不同不均衡比例數(shù)據(jù)(10∶1,8∶1)的模型穩(wěn)健性檢驗(yàn)。表8展示了10∶1,8∶1農(nóng)戶數(shù)據(jù)集的基本信息,其中10∶1數(shù)據(jù)集1 298個(gè)貸款農(nóng)戶中包含1 180個(gè)非違約客戶、118個(gè)違約客戶;8∶1數(shù)據(jù)集1 062個(gè)貸款農(nóng)戶中包含944個(gè)非違約客戶、118個(gè)違約客戶。分別將1 298和1 062個(gè)農(nóng)戶標(biāo)準(zhǔn)化數(shù)據(jù)按9∶1比例分為訓(xùn)練集和測試集,并參考3.4、3.5 節(jié)(1)部分得到兩個(gè)數(shù)據(jù)集對(duì)應(yīng)的BPNNCBCE、BPNN-CE、SVM、DT、RF和KNN 等6種分類模型的Accuracy、AUC 與Default recall,結(jié)果列入表7第(7)~(18)行以及第(4)~(6)列。
對(duì)于10∶1農(nóng)戶數(shù)據(jù)集:①BPNN-CBCE模型的AUC值為0.648,均高于BPNN-CE、SVM、DT、RF和KNN 模型對(duì)應(yīng)的AUC 值;②BPNN-CBCE 的違約召回率Default recall為0.530,均高于其余5種模型,并且相較于其他5種模型中違約召回率最高的DT 提升了20%。對(duì)于8∶1農(nóng)戶數(shù)據(jù)集:①BPNN-CBCE 模型的AUC 值為0.767,相比較其余5 種模型中AUC 最高的DT 提升了21%;②BPNN-CBCE的Default recall為0.780,相比較其他5 種模型中違約召回率最高的DT 提升了53%。綜上所述,對(duì)于不同不均衡比例農(nóng)戶數(shù)據(jù)集,BPNN-CBCE模型的違約判別性能均優(yōu)于其余5種對(duì)比模型。
(3)基于UCI德國公開數(shù)據(jù)的模型穩(wěn)健性檢驗(yàn)。表8最后一行為UCI德國數(shù)據(jù)集的基本信息,1 000個(gè)貸款客戶包含700個(gè)非違約、300個(gè)違約客戶,樣本不均衡比為2.3∶1。將德國信貸數(shù)據(jù)按9∶1比例分為訓(xùn)練集和測試集,利用訓(xùn)練集分別對(duì)BPNN-CBCE、BPNN-CE、SVM、DT、RF 和KNN等6種分類模型進(jìn)行訓(xùn)練,并將測試集代入訓(xùn)練好的6種模型,從而得到6種模型的Accuracy、AUC與Default recall,結(jié)果列入表7第(19)~(24)行以及第(4)~(6)列。不難看出,BPNN-CBCE 模型的AUC 值(0.817)和違約召回率Default recall(0.810)均優(yōu)于其余5 種方法。為進(jìn)一步驗(yàn)證BPNN-CBCE模型的穩(wěn)健性,將表7德國數(shù)據(jù)集對(duì)應(yīng)的BPNN-CBCE 實(shí)證結(jié)果同現(xiàn)有文獻(xiàn)進(jìn)行了比較,發(fā)現(xiàn):①與Kuppili等[47]德國數(shù)據(jù)集的評(píng)價(jià)結(jié)果相比,本文所提出的模型在Accuracy(0.820>0.759)上得到了提升;②與Sen等[48]德國數(shù)據(jù)集的評(píng)價(jià)結(jié)果相比,本文所提出的模型在Accuracy(0.820>0.807)方面得到了改進(jìn)。
表8 數(shù)據(jù)基本信息
(4)參數(shù)β不同取值下的模型分類結(jié)果分析。為驗(yàn)證參數(shù)β的不同取值對(duì)BPNN-CBCE評(píng)價(jià)模型性能的影響,從而選取每個(gè)數(shù)據(jù)集適用的參數(shù)β取值,將表6 中的參數(shù)β替換為集合{0.99,0.999,0.999 9}中的值,分別進(jìn)行實(shí)證分析。參考3.4、3.5節(jié)(1)部分,得到不同參數(shù)β取值下4個(gè)數(shù)據(jù)集對(duì)應(yīng)的6 種分類模型的Accuracy、AUC 與Default recall,結(jié)果列入表9 第(1)~(12)行以及第(4)~(6)列。
表9 參數(shù)β 不同取值下BPNN-CBCE模型的敏感性分析
由表9可以看出:不同數(shù)據(jù)集對(duì)應(yīng)的最優(yōu)參數(shù)β取值不同。對(duì)于12∶1農(nóng)戶數(shù)據(jù),當(dāng)β=0.999時(shí),BPNN-CBCE 對(duì)應(yīng)的AUC、違約召回率Default recall(0.656、0.413)分別為3種β取值對(duì)應(yīng)結(jié)果中最高;對(duì)于10∶1農(nóng)戶數(shù)據(jù),當(dāng)β=0.999 9時(shí),模型判別效果最佳;對(duì)于8∶1農(nóng)戶數(shù)據(jù),當(dāng)β=0.999時(shí),判別效果最優(yōu);對(duì)于德國數(shù)據(jù)集,當(dāng)β=0.99 時(shí),BPNN-CBCE 對(duì)應(yīng)的 Accuracy、AUC (0.843、0.825)分別為3種β取值下最高。因此,數(shù)據(jù)集不同,參數(shù)β的最佳取值也不同。實(shí)證中需根據(jù)不同數(shù)據(jù)集特點(diǎn),選取適用的參數(shù)取值。
由于將違約客戶誤判為非違約客戶給金融機(jī)構(gòu)造成的損失要遠(yuǎn)大于將非違約客戶誤判為違約客戶造成的損失,故對(duì)違約客戶的準(zhǔn)確識(shí)別一直是金融機(jī)構(gòu)風(fēng)險(xiǎn)管控的焦點(diǎn)。然而,在實(shí)踐中,由于信用評(píng)價(jià)違約客戶少、非違約客戶多的非均衡樣本特征,使得金融機(jī)構(gòu)信用評(píng)估中極易出現(xiàn)對(duì)非違約客戶識(shí)別過度、對(duì)違約客戶識(shí)別不足的情況。通過測算信貸數(shù)據(jù)中違約、非違約客戶的有效樣本數(shù)En和Em,構(gòu)造能調(diào)節(jié)違約、非違約樣本損失在目標(biāo)損失中權(quán)重的平衡因子ωn和ωm,構(gòu)建BPNN-CBCE 信用風(fēng)險(xiǎn)評(píng)價(jià)模型。利用中國某金融機(jī)構(gòu)1 534筆農(nóng)戶小額貸款數(shù)據(jù)和UCI公開的德國信貸數(shù)據(jù),實(shí)證表明:
(1)BPNN-CBCE對(duì)不均衡數(shù)據(jù)中違約樣本具有更好的識(shí)別力。對(duì)于農(nóng)戶數(shù)據(jù),BPNN-CBCE 模型在AUC、違約召回率Default recall方面普遍優(yōu)于BPNN-CE、SVM、DT、RF 和KNN 等5 種對(duì)比模型,其中BPNN-CBCE的Default recall相比較其余5種模型提升了41.3個(gè)百分點(diǎn)、AUC 相比較其余5種對(duì)比模型提升了15.6個(gè)百分點(diǎn)。因此,引入平衡因子ω后的BPNN-CBCE 通過增大違約樣本在目標(biāo)損失中的權(quán)重、降低非違約樣本在目標(biāo)損失中的權(quán)重,實(shí)現(xiàn)了對(duì)違約樣本的充分學(xué)習(xí)、提升了對(duì)違約樣本的識(shí)別能力,從而降低了金融機(jī)構(gòu)將違約客戶誤判造成的損失。
(2)BPNN-CBCE評(píng)價(jià)模型表現(xiàn)出較好的穩(wěn)健性。對(duì)于不同不均衡比例的農(nóng)戶數(shù)據(jù)(10∶1、8∶1),BPNN-CBCE評(píng)價(jià)模型的AUC 值(0.648,0.767)、違約召回率Default recall(0.530,0.780)均高于其余5 種對(duì)比模型;對(duì)于UCI公開的德國數(shù)據(jù)集,BPNN-CBCE模型的AUC 值(0.817)、違約召回率Default recall(0.810)也均優(yōu)于其余5種對(duì)比模型。因此,對(duì)于不同不均衡比例的信貸數(shù)據(jù),BPNNCBCE 模型均表現(xiàn)出了較好的穩(wěn)健性,可在金融機(jī)構(gòu)信用風(fēng)險(xiǎn)測評(píng)中實(shí)踐應(yīng)用。
本文主要?jiǎng)?chuàng)新與特色:①利用平衡因子ω,增大違約樣本在目標(biāo)損失中的權(quán)重、降低非違約樣本在目標(biāo)損失中的權(quán)重,客觀調(diào)節(jié)違約、非違約樣本損失在目標(biāo)損失中權(quán)重,克服了由樣本不均衡帶來的評(píng)價(jià)模型對(duì)非違約樣本識(shí)別過度、對(duì)違約樣本的識(shí)別不足,彌補(bǔ)了現(xiàn)有評(píng)價(jià)模型在挖掘貸款客戶尤其是違約貸款客戶信用評(píng)價(jià)指標(biāo)與違約狀態(tài)之間規(guī)律性聯(lián)系方面的不足,完善了現(xiàn)有信用評(píng)價(jià)理論體系。②通過考慮數(shù)據(jù)重疊,利用隨機(jī)覆蓋方法,分別對(duì)貸款數(shù)據(jù)中違約、非違約樣本進(jìn)行不放回采樣,以對(duì)全樣本空間X違約、X非違約進(jìn)行不重疊覆蓋,計(jì)算兩類貸款客戶的有效樣本數(shù)量。既反映了由于真實(shí)數(shù)據(jù)之間的內(nèi)在相似性,隨著樣本數(shù)量的增加,新添加的樣本很可能是現(xiàn)有樣本近似重復(fù)的客觀事實(shí),也保證了基于有效樣本對(duì)兩類樣本損失進(jìn)行重新加權(quán)的客觀性。③將圖像識(shí)別領(lǐng)域中的Class Balanced Loss函數(shù)引入信用評(píng)價(jià)領(lǐng)域,既拓展了Class Balanced Loss的使用邊界,也為解決不均衡樣本的信用風(fēng)險(xiǎn)評(píng)價(jià)提供了新的研究思路。