西南財(cái)經(jīng)大學(xué)法學(xué)院 鄧春生
自2007年拍拍貸在上海成立以來(lái),P2P網(wǎng)絡(luò)借貸在我國(guó)取得了迅猛發(fā)展。與此同時(shí),P2P平臺(tái)在信用風(fēng)險(xiǎn)、技術(shù)風(fēng)險(xiǎn)、政策風(fēng)險(xiǎn)等因素的作用下,給P2P行業(yè)乃至整個(gè)金融行業(yè)的健康穩(wěn)定發(fā)展帶來(lái)了巨大的壓力。為此,政府部門(mén)密集出臺(tái)了一系列P2P行業(yè)相關(guān)的監(jiān)管制度,意圖讓P2P行業(yè)的發(fā)展回歸理性和健康。密集的監(jiān)管制度出臺(tái)必然會(huì)給行業(yè)發(fā)展帶來(lái)一些波動(dòng),例如2018年全年我國(guó)P2P網(wǎng)貸行業(yè)的成交量達(dá)到17948.01億元,相比2017年下降36.01%。
目前,國(guó)內(nèi)外眾多學(xué)者對(duì)P2P網(wǎng)絡(luò)借貸借款人的信用風(fēng)險(xiǎn)度量進(jìn)行了廣泛且深入的研究。針對(duì)P2P網(wǎng)絡(luò)借貸借款人信用風(fēng)險(xiǎn)度量模型,主要分為以下兩種:(1)統(tǒng)計(jì)回歸模型。Lin &Li et al(2016)應(yīng)用二元邏輯斯回歸方法建立了一個(gè)綜合的信用風(fēng)險(xiǎn)評(píng)估模型,以便量化每筆貸款的違約風(fēng)險(xiǎn)。Serrano-Cinca &Gutiérrez-Nieto(2016)以預(yù)期盈利能力為著眼點(diǎn),使用多元回歸建立利潤(rùn)評(píng)分系統(tǒng),進(jìn)而選擇最優(yōu)的借款人。Lee &Lee(2012)首先分析了影響信用風(fēng)險(xiǎn)的相關(guān)變量,然后利用多項(xiàng)式邏輯市場(chǎng)份額模型對(duì)信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。(2)機(jī)器學(xué)習(xí)模型。涂艷等(2018)基于拍拍貸的交易數(shù)據(jù),基于機(jī)器學(xué)習(xí)建立的借款人信用風(fēng)險(xiǎn)度量模型,其準(zhǔn)確率要高于傳統(tǒng)回歸模型。Xia,Liu &Liu(2017)通過(guò)結(jié)合成本敏感學(xué)習(xí)和極端梯度增強(qiáng)方法,提出了一種新的成本敏感提升樹(shù)模型,用以提高區(qū)分潛在違約借款人的能力。Ma&Sha et al(2018)針對(duì)Lending Club的數(shù)據(jù),應(yīng)用現(xiàn)代機(jī)器學(xué)習(xí)算法LightGBM和XGboost進(jìn)行了信用風(fēng)險(xiǎn)度量風(fēng)險(xiǎn)。Ma,Zhao &Zhou(2018)針對(duì)信息不對(duì)稱(chēng)前提下的P2P平臺(tái)貸款決策問(wèn)題,通過(guò)借款人的手機(jī)/電話(huà)通訊數(shù)據(jù),利用自適應(yīng)增強(qiáng)算法(AdaBoost)建立了違約風(fēng)險(xiǎn)預(yù)測(cè)模型。Kim &Cho(2019)針對(duì)Lending Club中的無(wú)標(biāo)簽數(shù)據(jù),結(jié)合Dempster-Shafer理論和轉(zhuǎn)導(dǎo)支持向量機(jī)(TSVM)方法對(duì)違約風(fēng)險(xiǎn)進(jìn)行了準(zhǔn)確預(yù)測(cè)。Wang &Jiang et al(2017) 針對(duì)發(fā)生率分量,應(yīng)用隨機(jī)森林來(lái)預(yù)測(cè)是否違約;針對(duì)延時(shí)風(fēng)量,應(yīng)用隨機(jī)生存林來(lái)預(yù)測(cè)何時(shí)違約。Malekipirbazari &Aksakalli(2015)針對(duì)Lending Club數(shù)據(jù),提出了一種基于隨機(jī)森林的分類(lèi)方法用于預(yù)測(cè)借款人的信用風(fēng)險(xiǎn)狀 態(tài)。
眾多的學(xué)者已經(jīng)利用各式各樣的方法對(duì)P2P網(wǎng)絡(luò)借貸的風(fēng)險(xiǎn)進(jìn)行了度量分析。但是,沒(méi)有免費(fèi)的午餐定理指出,不存在某一個(gè)方法或模型在所有性能上都是最優(yōu)的。在眾多的信用評(píng)分模型中,不可能存在某一個(gè)模型在所有信用風(fēng)險(xiǎn)相關(guān)數(shù)據(jù)集上都適用,那么對(duì)決策者來(lái)說(shuō)就存在最優(yōu)決策問(wèn)題。因此,如何選穩(wěn)健的評(píng)價(jià)和選擇魯棒的分類(lèi)方法就是一個(gè)非常重要的問(wèn)題。為此,本文針對(duì)Prosper和拍拍貸兩個(gè)數(shù)據(jù)集,應(yīng)用了11種分類(lèi)算法進(jìn)行對(duì)比研究,以期得到對(duì)P2P網(wǎng)絡(luò)借貸信用風(fēng)險(xiǎn)度量問(wèn)題最合適的方法類(lèi)型,也為以后開(kāi)發(fā)綜合性能更優(yōu)以及對(duì)P2P網(wǎng)貸行業(yè)符合度更高的度量方法奠定研究基礎(chǔ)。
信用風(fēng)險(xiǎn)的評(píng)分模式主要是一些分類(lèi)方法。分類(lèi),是有監(jiān)督學(xué)習(xí)中的一種,以待分析的目標(biāo)問(wèn)題為背景,采用一部分樣本數(shù)據(jù)建立一個(gè)關(guān)于類(lèi)別屬性劃分的分類(lèi)方法,并利用該方法對(duì)同類(lèi)問(wèn)題中類(lèi)別標(biāo)記未知的樣本進(jìn)行學(xué)習(xí)和判斷的過(guò)程?,F(xiàn)在,讓我們對(duì)一些主流的分類(lèi)算法進(jìn)行簡(jiǎn)單介紹。
決策樹(shù)類(lèi)算法是一種逼近離散函數(shù)值的典型分類(lèi)方法。決策樹(shù)算法通過(guò)構(gòu)造決策樹(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類(lèi)規(guī)則。(1)C4.5算法:由于C4.5算法生成的決策樹(shù)能夠被用于分類(lèi),所以C4.5模型通常被用于統(tǒng)計(jì)分類(lèi)。2011年,Witten &Frank (2011)將C4.5模型描述為“一個(gè)具有里程碑意義的決策樹(shù)算法,可能是迄今為止在實(shí)踐中最廣泛使用的機(jī)器學(xué)習(xí)方法”。(2)CART算法:CART(Classif cation and regression trees)算法是一種十分有效的非參數(shù)分類(lèi)和回歸方法。CART選擇具有最小GINI系數(shù)值的屬性作為分裂屬性,并按照節(jié)點(diǎn)的分裂屬性,采用二元遞歸分割的方式把每個(gè)內(nèi)部節(jié)點(diǎn)分割成兩個(gè)子節(jié)點(diǎn),遞歸形成一棵結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。
(1)RBF(徑向基)神經(jīng)網(wǎng)絡(luò)模型:RBF神經(jīng)網(wǎng)絡(luò)是使用徑向基函數(shù)作為激活函數(shù)的人工神經(jīng)網(wǎng)絡(luò),其中徑向基函數(shù)表示其取值僅僅依賴(lài)于離原點(diǎn)距離,即滿(mǎn)足特性的函數(shù)。RBF神經(jīng)網(wǎng)絡(luò)通常由三層組成:第一,輸入層;第二,具有非線(xiàn)性RBF激活函數(shù)的隱藏層;第三,線(xiàn)性輸出層。(2)MLP(多層感知)神經(jīng)絡(luò)模型:MLP是一類(lèi)的前饋人工神經(jīng)網(wǎng)絡(luò),可用于通過(guò)回歸分析創(chuàng)建數(shù)學(xué)模型。由于分類(lèi)是響應(yīng)變量是分類(lèi)時(shí)回歸的特定情況,因此MLP也是良好的分類(lèi)器算法。(3)SVM(支持向量機(jī))算法:SVM(support vector machines)是一種二分類(lèi)模型,它的目的是尋找一個(gè)超平面來(lái)對(duì)樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題來(lái)求解。
(1)NBC(樸素貝葉斯分類(lèi))算法:NBC(Native Bayes Classif er)是一種簡(jiǎn)單但是非常強(qiáng)大的線(xiàn)性分類(lèi)器,而且它所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,方法也比較簡(jiǎn)單。(2)BN(貝葉斯網(wǎng)絡(luò))算法:BN(Bayesian Network)也叫貝葉斯信念網(wǎng)絡(luò),借助有向環(huán)圖來(lái)刻畫(huà)屬性之間的依賴(lài)關(guān)系,并使用條件概率表來(lái)描述屬性的聯(lián)合概率分布。(3) NBT(樸素貝葉斯決策樹(shù))算法:該算法主要有兩個(gè)優(yōu)點(diǎn):第一,算法過(guò)程非常清晰、直觀、可理解性很強(qiáng);第二,在計(jì)算復(fù)雜度不高的前提下能保持較高的分類(lèi)正確率,有利于在大型數(shù)據(jù)集中的利用。
K鄰近分類(lèi)算法的基本思想是:輸入沒(méi)有標(biāo)簽(標(biāo)注數(shù)據(jù)的類(lèi)別),即沒(méi)有經(jīng)過(guò)分類(lèi)的新數(shù)據(jù);首先,提取新數(shù)據(jù)的特征并與測(cè)試集中的每一個(gè)數(shù)據(jù)特征進(jìn)行比較;其次,從測(cè)試集中提取K個(gè)最鄰近(最相似)的數(shù)據(jù)特征標(biāo)簽,統(tǒng)計(jì)這K個(gè)最鄰近數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類(lèi),將其作為新的數(shù)據(jù)類(lèi)別;類(lèi)似于生活中的“物以類(lèi)聚,人以群分”。
(1)CBA(基于關(guān)聯(lián)規(guī)則的分類(lèi))算法:CBA(Classification base of A ssociation)算法,即基于關(guān)聯(lián)規(guī)則進(jìn)行分類(lèi)的算法,利用了Apriori挖掘出的關(guān)聯(lián)規(guī)則,然后做分類(lèi)判斷。在某種程度上說(shuō),CBA算法也可以說(shuō)是一種集成挖掘算法。(2)CPAR(基于預(yù)測(cè)關(guān)聯(lián)規(guī)則的分類(lèi))算法:CPAR(Classification Based on Predictive Association Rules)模型整合了關(guān)聯(lián)規(guī)則分類(lèi)算法和傳統(tǒng)的基于規(guī)則分類(lèi)算法的優(yōu)點(diǎn)。CPAR算法為避免過(guò)度擬合,采用貪心算法生成規(guī)則,這一策略比產(chǎn)生所有候選項(xiàng)集的效率要高。
信用風(fēng)險(xiǎn)度量模型的評(píng)價(jià)實(shí)質(zhì)上就是對(duì)分類(lèi)模型的評(píng)價(jià)。為方便說(shuō)明,引入如下混淆矩陣(confusion matrix),如表1所示。
考慮到對(duì)分類(lèi)方法評(píng)估的科學(xué)性、全面性和客觀性,我們選用了八個(gè)經(jīng)典的評(píng)價(jià)指標(biāo),定義如下。
(1)正確率(ACC):正確率是指測(cè)試集中被正確分類(lèi)的百分率,是最廣泛使用的分類(lèi)評(píng)估指標(biāo)之一,即:
通常來(lái)說(shuō),ACC越高,分類(lèi)器越好。
(2)真正率(TPR):指被正確劃分的預(yù)測(cè)正樣本數(shù)的百分率,即:
TPR也稱(chēng)為靈敏度指標(biāo),用于衡量分類(lèi)器對(duì)正樣本的識(shí)別能力。
(3)真負(fù)率(TNR):指被正確劃分的預(yù)測(cè)負(fù)樣本數(shù)的百分率,即:
表1 混淆矩陣示意圖
表2 針對(duì)Prosper數(shù)據(jù)集的信用風(fēng)險(xiǎn)度量模型的評(píng)價(jià)結(jié)果
TNR也稱(chēng)為特異性指標(biāo),用于衡量分類(lèi)器對(duì)負(fù)樣本的識(shí)別能力。
(4)精度(Presision):指預(yù)測(cè)正樣本中實(shí)際為正樣本的百分率,是精確性的度量,即:
(5)F 1-measure(MFM,平均F測(cè)量)值:一個(gè)綜合評(píng)價(jià)指標(biāo),指當(dāng)精度與真正率矛盾時(shí),對(duì)精度與真正率的綜合考慮,即:
(6)AUC(Area under curve):是機(jī)器學(xué)習(xí)常用的二分類(lèi)評(píng)測(cè)手段,直接含義是ROC曲線(xiàn)下的面積。曲線(xiàn)下面積越大,分類(lèi)器就越好。
(7)平均絕對(duì)誤差(MAE):指分類(lèi)器的預(yù)測(cè)值和實(shí)際值之間的偏離程度,即:
式中,ture(i)和predicted(i)分別表示第i個(gè)樣本的真實(shí)值和預(yù)測(cè)值。
(8)Kappa 統(tǒng)計(jì)指標(biāo)(KapS):一種用于衡量分類(lèi)精度的統(tǒng)計(jì)指標(biāo),其計(jì)算基于混淆矩陣,即:
針對(duì)Prosp er數(shù)據(jù)集和拍拍貸數(shù)據(jù)集的11個(gè)信用評(píng)分模型在8個(gè)評(píng)價(jià)指標(biāo)下的評(píng)價(jià)結(jié)果分別列在表2和3中。注意,粗體數(shù)字表示在某一指標(biāo)下最優(yōu)的評(píng)價(jià)值。
觀察表2和表3,我們有如下結(jié)論:(1)在不同的評(píng)價(jià)指標(biāo)下,不同的信用評(píng)分模型有不同的評(píng)價(jià)值,且沒(méi)有一種信用評(píng)分模型在所有的評(píng)價(jià)指標(biāo)下都是最優(yōu)的。主要原因是:不同的評(píng)價(jià)指標(biāo),其評(píng)價(jià)側(cè)重點(diǎn)也不一樣。另外,信用風(fēng)險(xiǎn)的度量主要是一個(gè)典型的分類(lèi)學(xué)習(xí)問(wèn)題,那么不同的分類(lèi)模型其學(xué)習(xí)的側(cè)重點(diǎn)也不一樣,所以不可能存在某一分類(lèi)模型在所有評(píng)價(jià)指標(biāo)上都是最優(yōu)的。
(2)針對(duì)Prosper數(shù)據(jù)集,以SVM方法構(gòu)建的信用風(fēng)險(xiǎn)度量模型在ACC、MFM、MAE和KapS這四個(gè)指標(biāo)下是最優(yōu)的。針對(duì)拍拍貸數(shù)據(jù)集,SVM方法在ACC、Precision、MFM、MAE和KapS這5個(gè)指標(biāo)下表現(xiàn)最優(yōu)。由此可見(jiàn),SVM方法具有很強(qiáng)的穩(wěn)健性。
為了全面、綜合的評(píng)價(jià)這位11個(gè)信用風(fēng)險(xiǎn)度量模型,我們引入排序均值的概念,并以排序均值的大小來(lái)對(duì)這11個(gè)模型綜合排序。表4展示了Prosper數(shù)據(jù)集和拍拍貸數(shù)據(jù)集上的排序均值和綜合排序。
從表4中可以得出:(1)性能優(yōu)越的信用風(fēng)險(xiǎn)度量模型主要是SVM方法、CBA方法和CPAR方法。(2)信用風(fēng)險(xiǎn)度量模型性能次優(yōu)的模型主要是CART方法、MLP方法、NBT方法和KNN方法。(3)信用評(píng)分性能出現(xiàn)較大差異的方法是RBF網(wǎng)絡(luò),該方法的波動(dòng)較大;在Prosper數(shù)據(jù)集中,RBF網(wǎng)絡(luò)在指標(biāo)TPR下表現(xiàn)為最優(yōu),但是其綜合排序卻是第10名。
表3 針對(duì)拍拍貸數(shù)據(jù)集的信用評(píng)分模型的評(píng)價(jià)結(jié)果
(1)不同的信用度量模型在同一個(gè)數(shù)據(jù)集中有不同的表現(xiàn),同一個(gè)信用度量模型在不同的數(shù)據(jù)集中性能表現(xiàn)也不盡相同。為了讓同一個(gè)信用度量模型對(duì)不同的數(shù)據(jù)集都能有一致的評(píng)級(jí)性能,需要讓數(shù)據(jù)集足夠的大,讓信用度量模型有充足的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)出最優(yōu)的參數(shù)。為此,我們應(yīng)建立P2P網(wǎng)絡(luò)借貸行業(yè)統(tǒng)一的個(gè)人/企業(yè)信用信息共享系統(tǒng),以便建立P2P網(wǎng)絡(luò)借貸行業(yè)統(tǒng)一的信用信息數(shù)據(jù)集,為建立客觀有效的信用度量模型奠定數(shù)據(jù)基礎(chǔ),克服單一平臺(tái)進(jìn)行信用評(píng)級(jí)存在的數(shù)據(jù)不全、評(píng)價(jià)不準(zhǔn)等問(wèn)題。
表4 信用風(fēng)險(xiǎn)度量模型綜合評(píng)價(jià)
(2)根據(jù)我們的綜合評(píng)估來(lái)說(shuō),針對(duì)所選擇的數(shù)據(jù)集,在穩(wěn)健性和魯棒性上表現(xiàn)最優(yōu)的三個(gè)信用度量模型分別是SVM方法、CBA方法和CPAR方法。另外,依據(jù)CART方法、MLP方法、NBT方法和KNN方法構(gòu)建的信用評(píng)分模型也有不俗的表現(xiàn)。最后,出現(xiàn)波動(dòng)比較大的方法是RBF網(wǎng)絡(luò)方法。針對(duì)該結(jié)論,我們應(yīng)建立P2P網(wǎng)絡(luò)借貸行業(yè)統(tǒng)一的個(gè)人/企業(yè)信用評(píng)級(jí)系統(tǒng),克服不同的平臺(tái)使用不同的度量模型,對(duì)同一個(gè)借款人得出不同信用等級(jí)的問(wèn)題。