(廣東電網(wǎng)有限責(zé)任公司, 廣州 510160)
由于近年來(lái)國(guó)內(nèi)金融行業(yè)的迅猛發(fā)展,伴隨著我國(guó)經(jīng)濟(jì)的急速飛騰,銀行業(yè)務(wù)蓬勃發(fā)展。信貸業(yè)務(wù)是銀行的主流業(yè)務(wù)之一,但是如何評(píng)價(jià)借款人的信用風(fēng)險(xiǎn)已經(jīng)成為當(dāng)今互聯(lián)網(wǎng)金融行業(yè)的熱門(mén)課題之一,日益受到當(dāng)代人的注意。
銀行客戶信用風(fēng)險(xiǎn)評(píng)估問(wèn)題其本質(zhì)為一個(gè)分類(lèi)為題,也就是將現(xiàn)有的銀行用戶劃分為信譽(yù)用戶與非信譽(yù)用戶的過(guò)程。從其發(fā)展歷程來(lái)看,大致可以分為3個(gè)階段,樸素分析階段、概率分析階段、人工智能階段[1]。樸素分析階段主要為概率學(xué)應(yīng)用于經(jīng)濟(jì)領(lǐng)域之前的所有銀行借貸階段;
概率階段是指概率學(xué)運(yùn)用到銀行金融領(lǐng)域開(kāi)始直到人工智能在金融領(lǐng)域應(yīng)用而結(jié)束[2],此階段在我國(guó)主要是指上個(gè)世紀(jì)五十年代本世紀(jì)初。
第三階段也就是現(xiàn)階段,主要是指人工智能在信用評(píng)估中的應(yīng)用,此階段從本世紀(jì)初開(kāi)始直到現(xiàn)在[3]。
從國(guó)際角度講,消費(fèi)者的信用評(píng)分美國(guó)的理論以及實(shí)際最為具有參考價(jià)值,其中例如Equifax公司[4],該公司每天可以提供數(shù)百萬(wàn)份的消費(fèi)者信用分析報(bào)告。
同時(shí)從信貸領(lǐng)域?qū)ⅲ绹?guó)信貸業(yè)務(wù)發(fā)展較為成熟,以上個(gè)世紀(jì)七十年代為例,美國(guó)信用卡發(fā)展達(dá)到了極致,甚至有的銀行為了搶占市場(chǎng),直接將信用卡寄到相應(yīng)的用戶家中。
另一方面,從風(fēng)險(xiǎn)控制角度講,風(fēng)險(xiǎn)控制可以分為主動(dòng)風(fēng)險(xiǎn)控制以及被動(dòng)風(fēng)險(xiǎn)控制兩種,被動(dòng)風(fēng)險(xiǎn)控制一般是指,信貸客戶違約后進(jìn)行的催收行為;主動(dòng)風(fēng)險(xiǎn)控制則是通過(guò)事先的機(jī)制確立客戶是否有償還能力以及償還意愿[5]。
在我國(guó),由于征信體系與2013年才開(kāi)始正式推動(dòng)以及建立,因此,在此領(lǐng)域?qū)儆谄鸩捷^晚的國(guó)家之一,對(duì)于現(xiàn)代交易環(huán)境而言,信用體系是一種建立在客戶穩(wěn)定償還能力上的不用立即支付即可享有相應(yīng)服務(wù)的行為。故風(fēng)險(xiǎn)預(yù)測(cè)是銀行發(fā)放貸款的重要參考之一[6]。
文獻(xiàn)法:本文利用圖書(shū)館、網(wǎng)絡(luò)以及數(shù)字圖書(shū)館等資源,搜集關(guān)于金融以及機(jī)器學(xué)習(xí)的相關(guān)資料相關(guān)資料,調(diào)查機(jī)器學(xué)習(xí)在金融領(lǐng)域應(yīng)用的的相關(guān)理論,為本文寫(xiě)作提供理論基礎(chǔ)。
實(shí)例分析法:根據(jù)模型,對(duì)于實(shí)際情況進(jìn)行模擬以及分析,通過(guò)對(duì)于實(shí)際情況的模擬,說(shuō)明論文的合理性。為該機(jī)器學(xué)習(xí)算法提供現(xiàn)實(shí)基礎(chǔ)。
論證法:對(duì)于本文用到的相關(guān)算法以及部分公式給出推到過(guò)程,為本文研究提供數(shù)據(jù)支撐。
將判斷客戶是否有潛在違約風(fēng)險(xiǎn)的數(shù)據(jù)分為兩個(gè)類(lèi)型,一個(gè)為靜態(tài)數(shù)據(jù)類(lèi)型,其主要包含用戶基本情況以及用戶檢測(cè)量表;另一類(lèi)為動(dòng)態(tài)數(shù)據(jù),其主要包含客戶的銀行信息記錄(如流水信息,基本信用信息),第三方支付記錄等。其中動(dòng)態(tài)信息隨著客戶的時(shí)時(shí)狀態(tài)而發(fā)生改變,其具體情況如表1所示。
表1 相關(guān)數(shù)據(jù)資料表
用戶向相關(guān)金融機(jī)構(gòu)申請(qǐng)貸款時(shí),需提交自己相關(guān)信息,相關(guān)平臺(tái)利用用戶提供的信息進(jìn)行建模。如果相關(guān)信息缺失,則通過(guò)清洗或者變換的形式將所有信息補(bǔ)充完整。此過(guò)程預(yù)計(jì)占用整個(gè)工作流程的80%以上的時(shí)間,因?yàn)檎麄€(gè)數(shù)學(xué)模型的基礎(chǔ)建立在正確的數(shù)據(jù)處理上,如果相關(guān)數(shù)據(jù)失真,那么整個(gè)機(jī)器學(xué)習(xí)進(jìn)行的最終判定也將會(huì)失真。
1)回歸算法
自從高斯提出最小二乘法以來(lái),回歸分析的應(yīng)用也越來(lái)越為廣泛,在我們?nèi)粘5纳铑I(lǐng)域,基本上很難找不用它的領(lǐng)域。自從1969年設(shè)立諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)以來(lái),大部分的獲獎(jiǎng)?wù)叨际墙y(tǒng)計(jì)學(xué)家、數(shù)學(xué)家或者計(jì)量學(xué)家,獲獎(jiǎng)成果也大多與回歸分析相關(guān)。
從理論角度看,回歸分析大致可以分為三個(gè)階段即理論模型構(gòu)建、數(shù)據(jù)采集階段、參數(shù)估計(jì)與模型校驗(yàn)階段以及模型應(yīng)用階段。
本次研究,根據(jù)數(shù)據(jù)特點(diǎn),可以選用比較成熟的的回歸算法:帶虛擬變量的回歸模型最為本次模型構(gòu)建。為式(1)。
Y=α1+α2D2i+α3D3i+…+αnDni+βXi+εi
(1)
其中D為虛擬變量,可以表示性別學(xué)歷等相關(guān)信息,例如D2可以表示性別,當(dāng)D2=1時(shí),定義為女性;當(dāng)D2=0時(shí)定義為男性。
2)GBDT算法
本次設(shè)計(jì)采用機(jī)器學(xué)習(xí)算法中比較常見(jiàn)的GBDT算法,其基礎(chǔ)原理為迭代法。具體實(shí)施為在迭代過(guò)程中,通過(guò)改變樣本的權(quán)重,學(xué)習(xí)多個(gè)分類(lèi)其,并且將其進(jìn)行線性組合,從而提升算法的準(zhǔn)確率。
GBDT算法是集成學(xué)習(xí)算法Boosting下的一個(gè)分支學(xué)習(xí)算法,與傳統(tǒng)學(xué)習(xí)算法(如Adaboost算法)不同的是,GBDT算法使用向前分布算法,并且使用CATR回歸樹(shù)模型進(jìn)行相關(guān)的學(xué)習(xí)[7]。
其基礎(chǔ)原理為,假設(shè)f(x)表示學(xué)習(xí)器的相關(guān)函數(shù),則ft-1(x)表示前一輪得到的強(qiáng)學(xué)習(xí)器,則損失函數(shù)以L(y,ft-1(x))表示,那么最終該算法的目標(biāo)為,找到弱學(xué)習(xí)器ht(x)使得損失函數(shù)L(y,ft-1(x))=L(y,ft-1(x)+ht(x))最小。
舉例來(lái)說(shuō),假設(shè)銀行有100個(gè)實(shí)際違約客戶,首先用80個(gè)去擬合,發(fā)現(xiàn)漏掉20個(gè),這時(shí)用12個(gè)去擬合剩下的人員,發(fā)現(xiàn)還差8個(gè),隨后繼續(xù)用8個(gè)擬合,知道差距越來(lái)越小,每次擬合過(guò)程中,都會(huì)逐步逼近真實(shí)數(shù)據(jù),誤差逐漸減小[9]。
3)算法比較
比較帶虛擬變量的回歸算法與GBDT兩種算法,可以看出回歸算法的優(yōu)勢(shì)在于模型建立簡(jiǎn)單方便,同時(shí)根據(jù)銀行所搜集到的數(shù)據(jù)可以更為方便的增加或者減少相關(guān)參數(shù)(即D值),另一方面,從理論角度講,只要參數(shù)選擇合理,數(shù)據(jù)充足回歸算法可以精確的預(yù)測(cè)出客戶的信用等級(jí),對(duì)原始數(shù)據(jù)要求較高。
相比于回歸算法,GBDT算法相對(duì)復(fù)雜,但是對(duì)于原始數(shù)據(jù)的要求較低。在科學(xué)研究時(shí),一般能夠用簡(jiǎn)單方法解決問(wèn)題時(shí),盡量不用復(fù)雜方法但是在實(shí)際應(yīng)用中,銀行因?yàn)楝F(xiàn)實(shí)因素,搜集到的客戶信息往往并非十分確切,所以最終根據(jù)銀行提供的數(shù)據(jù)情況來(lái)看,選擇后者GBDT算法建立本次模型。
本文采用的基本機(jī)器學(xué)習(xí)的具體算法為:設(shè)集體樣本為最大迭代次數(shù)N,損失函數(shù)L。最終輸出的學(xué)習(xí)器為,f(x)。
則初始學(xué)習(xí)器表示為式(2)。
迭代后(N=1,2,3,4,…,N)有:
1)對(duì)于樣本i=1,2,3,…,m的負(fù)梯度計(jì)算為式(3)。
(3)
2)利用CART回歸樹(shù),得到第N顆回歸樹(shù)且對(duì)應(yīng)的子節(jié)點(diǎn)區(qū)域?yàn)椋琂表示對(duì)應(yīng)回歸樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù)。
3)對(duì)于葉子區(qū)域計(jì)算最佳擬合值。
4)升級(jí)版學(xué)習(xí)器為式(4)。
(4)
故可以得到最終的學(xué)習(xí)器f(x)表達(dá)式為式(5)。
(5)
用戶分類(lèi),根據(jù)客戶信息以及相關(guān)算法信息,可以將客戶劃分為4個(gè)類(lèi)別:
1)本身是信譽(yù)客戶,模型判斷也為信譽(yù)客戶,記作TN
2)本身是信譽(yù)客戶,模型判斷為非信譽(yù)客戶,記作FP;
3)本文為非信譽(yù)客戶,但是模型判斷為信譽(yù)客戶記作作FN
4)本身是非信譽(yù)客戶,模型判斷也為非信譽(yù)客戶記作TP。
其具體劃分如下表2所示。
表2 用戶類(lèi)型分類(lèi)表
故據(jù)此可以計(jì)算該模型的準(zhǔn)確率TPR:
模型錯(cuò)誤率FPR:
故現(xiàn)有基本特征如下的銀行客戶樣本:
1)如果用戶信用記錄有超過(guò)60天逾期行為,則記作Y=1;否則記作Y=0;如某銀行內(nèi)有50 000名客戶,而逾期的用戶為3 000名,且3 000名非信譽(yù)用戶符合隨機(jī)分布原則。
2) 用戶信息:特征時(shí)間主要包含用戶所有的動(dòng)態(tài)信息,其中包含前文提及的銀行流水記錄以及金融信息記錄。同時(shí)也包含用戶檢測(cè)3個(gè)量表的相關(guān)結(jié)果均已經(jīng)處理齊全。
方案A,將所有貸款申請(qǐng)用戶平均分為10組,每組5 000人,且每組包含300個(gè)非信譽(yù)客戶;
方案B,根據(jù)模型可以計(jì)算的用戶違約概率,將每個(gè)用戶違約的概率記作P,則根據(jù)P值,將客戶從大到小順序,然后分成十個(gè)組,每組5 000人。顯然十組中,靠后的分組里,信譽(yù)用戶明顯占優(yōu)更多比例,而非信譽(yù)客戶則在第一種最多。故此時(shí)只要尋找到,P值的分界點(diǎn),即可確立最終的放款條件。其具體數(shù)據(jù)如表3所示。
表3 隨機(jī)風(fēng)控模型對(duì)比表
將A、B兩組每一組的非信譽(yù)客戶的所占比重繪制成提升圖,如圖1所示。
圖1 提升圖
從圖中可以看出,方案B中,每組的非信譽(yù)客戶人數(shù)在逐步遞減,則該模型具有一定的現(xiàn)實(shí)意義,模型有效。
此時(shí)再根據(jù)前文提到的模型準(zhǔn)確率(FPR)以及模型錯(cuò)誤率(TPR)相關(guān)概念,由于模型計(jì)算結(jié)果以及真實(shí)結(jié)果均為已知,故可以輕松算得FPR,TPR兩個(gè)參數(shù)。故以FPR為橫軸,TPR為縱軸繪制ROC曲線。如圖2、圖3所示。
根據(jù)洛倫茲曲線的判定公式,此時(shí)選用ROC曲線常用衡量性能指標(biāo)AUC來(lái)表示,AUC曲線通過(guò)計(jì)算ROC曲線下面積而求得,一般來(lái)說(shuō),AUC的值在0~1之間,本文中顯然方案A的AUC值為,0.5;而方案B的AUC通過(guò)計(jì)算可以得知,其值為0.74.一般來(lái)說(shuō),一個(gè)模型AUC值要大于0.5才會(huì)具有實(shí)際效果,AUC值在0.7~0.9之間則被認(rèn)為是一個(gè)優(yōu)秀模型;AUC高于0.9,則認(rèn)為該模型有異常變量進(jìn)入,導(dǎo)致AUC過(guò)高。
圖2 方案A ROC曲線
圖3 方案B ROC曲線
而本次模型的最終AUC值為0.74,故符合相關(guān)要求,屬于優(yōu)秀模型范疇。
本文針對(duì)互聯(lián)網(wǎng)金融行業(yè)的信用風(fēng)險(xiǎn)問(wèn)題,利用機(jī)器學(xué)習(xí)算法構(gòu)建了一個(gè)信用風(fēng)險(xiǎn)預(yù)測(cè)模型,該模型的創(chuàng)新點(diǎn)在于首先數(shù)據(jù)處理方面,除了應(yīng)用傳統(tǒng)的用戶基本信息、銀行流水記錄、金融信息記錄外,還引入了用戶用戶檢測(cè)量表的相關(guān)數(shù)據(jù),次量表評(píng)定標(biāo)準(zhǔn)以及在模型中所占比重只有系統(tǒng)以及銀行系統(tǒng)以及高層管理人員掌握,從一定程度上避免了人為因素對(duì)于放款的影響。由于此部分不是本文重點(diǎn),故不做詳細(xì)說(shuō)明。
機(jī)器學(xué)習(xí)方面,本文選用傳統(tǒng)的GBDT算法,對(duì)于用戶的違約概率進(jìn)行預(yù)測(cè),最后通過(guò)相關(guān)實(shí)例進(jìn)行說(shuō)明。
但是由于筆者能力有限,文章亦有一定的局限性,例如論文實(shí)例部分假設(shè)過(guò)于理想化,所有數(shù)據(jù)均已處理完善,但是實(shí)際情況可能會(huì)出現(xiàn)相應(yīng)的數(shù)據(jù)不足,需要進(jìn)行缺失數(shù)據(jù)的處理,由于篇幅有限并未給出相關(guān)算法。