(內(nèi)蒙古財經(jīng)大學(xué)經(jīng)濟學(xué)院,呼和浩特 010070)
P2P 網(wǎng)絡(luò)借貸(peer to peer lending,個人對個人借貸)系指資金出借方與借入方不是通過銀行而是依托互聯(lián)網(wǎng)平臺建立借貸關(guān)系的無抵押貸款[1]。
網(wǎng)絡(luò)借貸作為一種極具活力的新型互聯(lián)網(wǎng)金融模式,具有無需中介、交易便利與覆蓋面廣等優(yōu)點,備受借貸雙方青睞,近年來獲得了蓬勃發(fā)展。根據(jù)網(wǎng)貸之家發(fā)布的《2018 年中國網(wǎng)絡(luò)借貸行業(yè)年報》顯示,截至2018 年中國網(wǎng)絡(luò)借貸行業(yè)累計平臺達6430 家,全年累計交易規(guī)模為17948 億元,行業(yè)參與人數(shù)突破千萬。
網(wǎng)絡(luò)借貸突破了時間與地點的局限,提升了金融資源的使用效率,緩解了小企業(yè)融資難的困局。然而,由于貸款門檻較低、缺乏專業(yè)信貸人員與借貸雙方缺乏現(xiàn)實接觸等因素,使得相比于傳統(tǒng)信貸,網(wǎng)絡(luò)借貸的信息不對稱情況更嚴重,導(dǎo)致平臺違約事件頻發(fā)、信用風(fēng)險日益加劇。信用風(fēng)險過大已成為網(wǎng)絡(luò)借貸發(fā)展的瓶頸。
科學(xué)評估網(wǎng)絡(luò)借貸的信用風(fēng)險,從而對網(wǎng)絡(luò)借貸這一新經(jīng)濟業(yè)態(tài)的潛在風(fēng)險隱患及時甄別與預(yù)防,對于互聯(lián)網(wǎng)金融健康持續(xù)發(fā)展意義重大。網(wǎng)絡(luò)借貸信用風(fēng)險評估已成為備受關(guān)注的前沿領(lǐng)域[2]。
評價指標體系建立是網(wǎng)絡(luò)借貸信用評價的基礎(chǔ)環(huán)節(jié),若是構(gòu)建的評價指標體系包含大量重復(fù)或是不重要的指標,則運用何種評價模型均無法得到科學(xué)的評價結(jié)果。
目前網(wǎng)絡(luò)借貸的信用評價主要側(cè)重兩類。
Francesco 等[3]通過相關(guān)分析篩選指標,建立了包括盈利能力、償付能力、流動性狀況和信貸質(zhì)量共4 個準則的網(wǎng)絡(luò)借貸信用評級指標體系。譚中明等[4]通過網(wǎng)絡(luò)問卷調(diào)查方式與隸屬度分析結(jié)合,利用因子分析方法,從流動性、透明度、品牌等方面構(gòu)建網(wǎng)貸風(fēng)險評價指標體系。蔣翠清等[5]運用信息增益、信息增益率及卡方檢驗對軟、硬信息指標的重要性進行排序,通過封裝篩選確定最優(yōu)的網(wǎng)絡(luò)信貸指標體系。張成虎與武博華[6]在網(wǎng)絡(luò)調(diào)研與因子分析篩選基礎(chǔ)上,構(gòu)建了包含軟信息的P2P 網(wǎng)絡(luò)借貸信用風(fēng)險評價指標體系。劉傳哲等[7]以對稱不確定性為基礎(chǔ)測算指標間的相關(guān)系數(shù),刪除冗余指標,并利用異質(zhì)集成模型對網(wǎng)貸信用評分問題進行研究。
現(xiàn)有信用評價指標體系的共同不足:一是現(xiàn)有信用評價指標篩選方法基本采用相關(guān)分析、因子分析剔除反映信息冗余的指標,上述方法僅僅揭示了變量間的線性關(guān)聯(lián)程度,但P2P 網(wǎng)絡(luò)借貸作為一種互聯(lián)網(wǎng)金融創(chuàng)新模式,其海量、復(fù)雜的借貸數(shù)據(jù)往往具備非線性特征。因此,采用現(xiàn)有相關(guān)分析、因子分析無法揭示網(wǎng)貸信用評價指標間的非線性聯(lián)系,從而導(dǎo)致信用評價指標篩選的結(jié)果不可靠;二是現(xiàn)有信用評價指標不能保證對客戶違約與否進行有效甄別,這與信用風(fēng)險評價這一根本目的相悖。信用評價目的是甄別違約企業(yè)與非違約企業(yè)。
Puro 等[8]通過美國網(wǎng)絡(luò)借貸平臺prosper 數(shù)據(jù)實證發(fā)現(xiàn),網(wǎng)絡(luò)借貸成功率與借貸利率及借貸額正相關(guān)。Lin 等[9]發(fā)現(xiàn)借款者的朋友關(guān)系可以降低借款者承擔(dān)的利率并降低違約風(fēng)險。廖理等[10]發(fā)現(xiàn)雖然借貸利率越高,借款者才容易獲得貸款,但此類貸款的違約風(fēng)險也更高。Emekter 等[11]認為信用評分、借款期限、負債收入比等對于借款違約概率有重要影響。Malekipirbazari 和Aksakalli[12]認為借款者的債務(wù)收人比也是影響借貸行為的一個關(guān)鍵因素。Lin 和Viswanathan[13]發(fā)現(xiàn)文化與地理位置是影響借貸重要因素,貸款者更傾向于借貸給地域接近、文化相近的借款者。何光輝等[14]運用Logistic 與Probit 模型對中國網(wǎng)絡(luò)借貸風(fēng)險決定因素進行分析。李杰和劉露[15]根據(jù)Logistic 模型發(fā)現(xiàn)借款者總收入、總支出是網(wǎng)貸違約與否關(guān)鍵因素。李延喜等[16]運用Logistic 與Cox 模型發(fā)現(xiàn),借貸成功并不完全取決于貸款利率,借款者的年齡、學(xué)歷及婚姻狀況均有重要影響。
現(xiàn)有研究方法的不足之處:現(xiàn)有網(wǎng)絡(luò)借貸影響因素中不僅涉及諸多不能顯著甄別客戶違約狀態(tài)的指標,還涵蓋不少信息重復(fù)的指標。
上述問題,本文在網(wǎng)絡(luò)借貸信用評價海選指標體系,采用K-S檢驗選取可以顯著甄別借款人違約狀態(tài)的指標,進而通過距離相關(guān)分析剔除掉反映信息重復(fù)的指標,最終構(gòu)建網(wǎng)絡(luò)借貸的信用評價指標體系。并通過全球最大的P2P 網(wǎng)絡(luò)借貸平臺LendingClub 的實際交易數(shù)據(jù)進行實證研究。
(1)借款者和投資者之間不存在真實的接觸,信息更加不透明,導(dǎo)致投資者對借款者的信用風(fēng)險進行評價更加困難。
(2)現(xiàn)有關(guān)于銀行各類貸款表現(xiàn)的研究[17-18]表明,消費者信用貸款在很大程度上會受到國內(nèi)生產(chǎn)總值、失業(yè)率和利率等宏觀因素的影響,因此如何控制這些宏觀因素對于P2P 網(wǎng)絡(luò)借貸信用風(fēng)險的影響,將是一個重要的問題。
(3)P2P 網(wǎng)絡(luò)借貸作為依托云計算、社交網(wǎng)絡(luò)等新興技術(shù)平臺涌現(xiàn)出來的互聯(lián)網(wǎng)金融創(chuàng)新模式,海量、復(fù)雜的網(wǎng)絡(luò)借貸數(shù)據(jù)往往具備非線性、高維的大數(shù)據(jù)特征。
問題1:怎樣從眾多繁雜指標中遴選得到可以對網(wǎng)絡(luò)借貸者違約狀態(tài)顯著分辨的重要指標。
問題2:如何克服現(xiàn)有指標篩選方法僅僅反映指標間線性關(guān)聯(lián)程度的弊端。現(xiàn)有信用評價指標篩選方法基本采用相關(guān)分析、因子分析剔除反映信息冗余的指標,上述方法僅揭示了變量間線性關(guān)聯(lián)程度,但P2P網(wǎng)絡(luò)借貸依托于云計算、社交網(wǎng)絡(luò)等新興技術(shù)平臺,其數(shù)據(jù)量極大,往往具備非線性特征。
問題1 的解決思路:將企業(yè)數(shù)據(jù)分為違約和非違約兩類樣本,通過K-S檢驗比較違約樣本與非違約樣本的分布函數(shù)是否有顯著差異,按照K-S檢驗統(tǒng)計值越大、違約樣本分布函數(shù)和非違約樣本的分布函數(shù)的偏離愈大,指標越能顯著甄別客戶的違約狀態(tài),選取可以顯著區(qū)分違約狀態(tài)與否的指標。
問題2 的解決思路:距離相關(guān)分析是近年來高維數(shù)據(jù)非線性相關(guān)分析的流行度量方法,其從特征函數(shù)的距離角度定義了兩個隨機變量間的非線性相關(guān)系數(shù)。本文采用距離相關(guān)系數(shù)反映指標間的線性與非線性的綜合關(guān)聯(lián)程度,在關(guān)聯(lián)程度強的一對指標中,剔除K-S檢驗較小、對違約狀態(tài)影響較小的指標,刪除了反映信息冗余指標。
通過K-S檢驗統(tǒng)計值的大小反映指標對違約狀態(tài)分辨能力上的差異,按照K-S檢驗統(tǒng)計值越大、違約樣本與非違約樣本的分布函數(shù)的偏離越大,指標分辨客戶違約與否的能力就越強。進而根據(jù)距離相關(guān)分析在兩個關(guān)聯(lián)程度高的指標中篩選出鑒別分辨違約狀態(tài)能力強的指標??朔F(xiàn)有相關(guān)分析、因子分析等指標篩選方法僅揭示了指標間的線性關(guān)聯(lián)程度和無法反映指標間的非線性關(guān)聯(lián)程度的弊端,彌補現(xiàn)有研究不以能否區(qū)分違約狀態(tài)為標準遴選評價指標的不足。
網(wǎng)絡(luò)借貸信用評價指標體系構(gòu)建原理如圖1 所示。
圖1 網(wǎng)絡(luò)借貸信用評價指標體系構(gòu)建原理
1.網(wǎng)絡(luò)借貸信用風(fēng)險的內(nèi)涵
網(wǎng)絡(luò)借貸信用風(fēng)險指網(wǎng)絡(luò)借貸中貸款者未能按照合同約定及時足額還本付息而給資金出借方帶來的風(fēng)險損失[13-15]。
資金出借方通過考量貸款人的還款能力及還款意愿這兩方面來評估其發(fā)生違約的可能性。貸款人的還款能力可以通過貸款者年收入等財務(wù)特征與貸款者職業(yè)等個人特征來反映;而貸款人的還款意愿可由貸款者違約次數(shù)等個人信用特征來體現(xiàn)。
同時,現(xiàn)有研究[8-16]表明:貸款金額、貸款利率等借款特征也對網(wǎng)絡(luò)貸款的信用風(fēng)險影響顯著。此外,現(xiàn)有關(guān)于銀行各類貸款表現(xiàn)的研究[17-18]表明,消費信用貸款在很大程度上會受到國內(nèi)生產(chǎn)總值、失業(yè)率和利率等宏觀因素的影響,因此將外部宏觀經(jīng)濟特征納入網(wǎng)絡(luò)借貸信用評價指標體系中。
2.準則層設(shè)置
3.海選指標體系的構(gòu)建
以網(wǎng)絡(luò)借貸信用風(fēng)險內(nèi)涵為基礎(chǔ),根據(jù)國內(nèi)外網(wǎng)絡(luò)借貸信用評價文獻的流行高頻指標[3-16],建立了包括借款金額、年齡等指標構(gòu)成的涉及借款標的特征、借款者個人特征、借款者財務(wù)特征、借款者信用特征及宏觀經(jīng)濟特征5 個準則層的網(wǎng)絡(luò)借貸信用評價的海選指標體系,見表1。
1.指標數(shù)據(jù)的歸一化
指標數(shù)據(jù)歸一化是把指標原始數(shù)據(jù)轉(zhuǎn)化為[0,1]間的數(shù),剔除單位及量綱對評價結(jié)果的影響。
信用評價指標可分成定量指標與定性指標。定量指標分為成本類型指標、效益類型指標及區(qū)間型指標。
成本型指標系指網(wǎng)絡(luò)借款者的信用狀況與指標的數(shù)值負相關(guān),即指標數(shù)值愈大,則說明借款者的信用狀況愈差。效益型系指標系指網(wǎng)絡(luò)借款者的信用狀況與指標的數(shù)值正相關(guān),即指標數(shù)值愈大,則說明借款者的信用狀況愈好。
臨床生化檢驗屬于醫(yī)院重要工作內(nèi)容,生化檢測結(jié)果的準確性對診斷和治療疾病產(chǎn)生直接影響[1]。血液樣本溶血是指血液樣本在臨床檢驗過程中由各種因素影響導(dǎo)致紅細胞被破壞,而細胞內(nèi)物質(zhì)進入血清,使得血清呈現(xiàn)出紅色,進而影響生化檢驗結(jié)果準確性的醫(yī)學(xué)現(xiàn)象。在當(dāng)下臨床檢驗實踐過程中,若因血液標本溶血導(dǎo)致結(jié)果不準確而引發(fā)的醫(yī)療糾紛,醫(yī)院往往處于被動地位,并可能需要承擔(dān)全部責(zé)任,所以臨床上如何避免或預(yù)防血液溶血對生化檢測結(jié)果帶來的影響依然是臨床檢驗科室面對的焦點問題[1]。此外臨床對糾正溶血所產(chǎn)生影響的措施缺少關(guān)注。本研究對溶血對生化檢驗準確性影響進行分析并總結(jié)相關(guān)應(yīng)對措施,現(xiàn)將相關(guān)內(nèi)容總結(jié)如下:
表1 網(wǎng)絡(luò)借貸信用評價海選指標體系
成本類、效益類指標歸一化公式[12]如下所示。
其中:xij為第i個指標第j個借款的歸一化值;pij為第i個指標第j筆借款原始數(shù)據(jù);n為借款個數(shù)。
區(qū)間型指標是指當(dāng)指標的數(shù)據(jù)值落在某一個特定區(qū)間內(nèi)都是合理的指標。例如:居民消費價格指數(shù)、年齡等兩指標。指標“居民消費價格指數(shù)”理想?yún)^(qū)間是[100.6,104.7][17-18]?!熬用裣M價格指數(shù)”數(shù)值處于該區(qū)間中既不通貨膨脹又不通貨緊縮。根據(jù)對網(wǎng)絡(luò)借貸平臺發(fā)放調(diào)查問卷,發(fā)現(xiàn)將指標“年齡”合理區(qū)間范圍設(shè)置為[30,48],即年齡處于該區(qū)間的借款者還款意愿、清償能力都是最強的。
設(shè)q1為指標最佳區(qū)間左端點,q2為指標最佳區(qū)間右端點,根據(jù)區(qū)間指標的歸一化打分公式[12]如下:
定性指標的標準化得分是在對網(wǎng)貸信用評價專家進行實地訪談?wù){(diào)研基礎(chǔ)上,按照定性指標的不同程度確定量化打分標準。見表2。
表2 定性指標打分標準
2.指標的正態(tài)分布檢驗
通過Jarque-Bera 正態(tài)檢驗,可判斷指標是否服從正態(tài)分布。Jarque-Bera 正態(tài)檢驗步驟[19]如下。
(1)建立假設(shè)檢驗。
原假設(shè):第i個指標Xi服從正態(tài)分布(H0)。
備擇假設(shè):第i個指標Xi不服從正態(tài)分布(H1)。
(2)構(gòu)造JB統(tǒng)計量(即Jarque-Bera 檢驗統(tǒng)計量)。設(shè)為第i個指標標準化得分的平均值,n為樣本借款總數(shù),xij為第i個指標第j個借款的標準化得分,j=1,2,…,n,則
設(shè)Si為第i個指標偏度系數(shù),由文獻[19]可知
式(6)中其他字母含義與式(4)、式(5)相同。
設(shè)Ki-第i個指標的峰度系數(shù),由文獻[19]可知
設(shè)JBi為第i個指標Jarque-Bera 檢驗統(tǒng)計量,則
式(8)中其他字母含義與式(6)、式(7)相同。
(3)檢驗標準[19]。原假設(shè)H0 成立時,Jarque-Bera 檢驗統(tǒng)計量JBi服從自由度為2 的χ2分布[19],給定顯著性水平α,查表可得χ2分布的臨界值J0。若統(tǒng)計量JBi大于臨界值J0,則拒絕原假設(shè)H0,即第i個指標Xi不服從正態(tài)分布;反之,則接受原假設(shè)H0,即第i個指標Xi服從正態(tài)分布。
3.違約顯著區(qū)分的指標篩選方法
通過該方法可刪除對違約狀態(tài)區(qū)分不顯著的指標。
按照某個指標數(shù)據(jù),把借款數(shù)據(jù)分為違約和非違約兩類,若該指標K-S檢驗值愈大,即違約的經(jīng)驗分布與非違約的經(jīng)驗分布的偏離愈大,說明評價指標甄別借款人是否違約的能力越強,指標對信用評價結(jié)果影響顯著,應(yīng)保留;反之,說明該指標無法有效區(qū)分違約借款人與非違約借款人,指標對信用評價結(jié)果影響不大,須刪除。
K-S檢驗篩選指標的計算步驟如下。
(1)建立假設(shè)檢驗。
原假設(shè):第i個指標的違約樣本的分布與非違約樣本的分布沒有顯著差異(H0)。
備擇假設(shè):第i個指標的違約樣本分布與非違約樣本分布有顯著差異(H1)。
(2)構(gòu)造K-S檢驗的D統(tǒng)計量。
步驟1:兩類樣本經(jīng)驗分布函數(shù)的確定。
以違約樣本的經(jīng)驗分布為例。設(shè)違約借款個數(shù)為n1,非違約借款個數(shù)為n2,借款總數(shù)為n,n=n1+n2。
令xi1,xi2,…,xi,n1為第i個指標n1個違約借款的標準化值。將這n1個數(shù)從小到大排序,重新編號得到這n1個標準化值的次序統(tǒng)計量。同理得到n2個非違約借款的標準化值的次序統(tǒng)計量。
同理得第i個指標的非違約經(jīng)驗分布。
其中:v表示在第i個指標n2個非違約借款的標準化值中,小于等于x的標準化值的個數(shù)。
步驟2:K-S檢驗D統(tǒng)計量的確定。
設(shè)Di為第i個指標K-S檢驗的D統(tǒng)計量,I為由第i個指標n個借款的標準化值構(gòu)成的實數(shù)集合,即I={xi1,xi2,…,xi,n},為第i個指標的違約經(jīng)驗分布,為第i個指標的非違約經(jīng)驗分布,由文獻[19]可知
其中:第i個指標K-S檢驗統(tǒng)計量Di等于第i個指標違約經(jīng)驗分布與第i個指標非違約經(jīng)驗分布之差的絕對值的最大值。
K-S檢驗統(tǒng)計量Di反映了第i個指標區(qū)分違約狀態(tài)的能力強弱。第i個指標的D統(tǒng)計量越大,第i個指標在違約樣本與非違約樣本中的差異越大,表明第i個指標區(qū)分違約狀態(tài)能力越強;反之亦然。
式(11)采用K-S檢驗篩選指標的好處:一是按照違約樣本與非違約樣本的分布函數(shù)的差異越大,這個指標越能顯著區(qū)分違約與否狀態(tài)的思路,構(gòu)造指標的K-S檢驗值,遴選能顯著區(qū)分違約狀態(tài)的指標,彌補現(xiàn)有研究不以能否區(qū)分違約狀態(tài)為標準遴選評價指標的不足;二是采用K-S檢驗這一對評價指標的總體分布無任何要求、適用于分布未知的非參數(shù)統(tǒng)計方法篩選指標,克服現(xiàn)有方法要求指標服從正態(tài)分布的這一嚴格假設(shè)弊端。
(3)篩選標準。在原假設(shè)H0 成立時,第i個指標K-S檢驗的統(tǒng)計量Di服從Kolmogorov 分布[17]。給定顯著性水平α,通過查表可得Kolmogorov 分布的臨界值D0。
①若統(tǒng)計量Di大于等于臨界值D0,則拒絕原假設(shè)H0,即第i個指標的違約樣本分布與非違約樣本分布有顯著差異,說明違約樣本與非違約樣本能被第i個指標明顯區(qū)分,則保留第i個指標。
②若統(tǒng)計量Di小于臨界值D0,則接受原假設(shè)H0,即第i個指標的違約樣本分布與非違約樣本分布沒有顯著差異,說明違約樣本與非違約樣本不能被第i個指標明顯區(qū)分,則刪除第i個指標。
4.冗余信息剔除的指標篩選方法
該方法可在關(guān)聯(lián)程度高的一對指標中篩選出違約甄別能力強的指標,確保得到信息不重復(fù)的指標。
距離相關(guān)系數(shù)是一種新型相關(guān)系數(shù),其基本思想是根據(jù)兩個隨機變量的聯(lián)合分布函數(shù)F(x,y)與各自的邊緣分布函數(shù)FX(x)、FY(y)間的距離測度隨機變量X與Y之間的相關(guān)性[20-21]。與傳統(tǒng)皮爾遜相關(guān)系數(shù)、秩相關(guān)系數(shù)等線性相關(guān)系數(shù)相比,距離相關(guān)系數(shù)無論變量間是線性關(guān)系或是非線性關(guān)系均可度量,無需任何假設(shè)與分布條件,具有很強的普適性。因此,本文采用距離相關(guān)系數(shù)度量同一準則層下兩指標間的相關(guān)性,進而進行冗余指標的刪除。
距離相關(guān)系數(shù)篩選指標的步驟如下。
(1)距離相關(guān)系數(shù)的計算。設(shè)有m個指標,n個借據(jù)。令Xi為第i個指標歸一化值的向量,即Xi=(xi1,xi2,…,xin)。則向量Xi與向量Xj的距離相關(guān)系數(shù)drij[20]為
其中:dcov(Xi,Xj)為向量Xi、Xj的距離協(xié)方差,由下式(13)計算得到。
其中:Akl、Bkl由式(14)與式(15)確定。
設(shè)xik為第i個指標第k筆借款的歸一化值,則式(14)的4 個參數(shù)分別由式(16)~式(19)確定。
(2)臨界值確定。設(shè)定臨界值M∈[0,1],若距離相關(guān)系數(shù)絕對值 |rik|≥M,則刪除兩個指標中反映違約鑒別能力弱的指標。兩個指標距離相關(guān)系數(shù)大于0.8 時屬高度相關(guān)[20]。因此,選取臨界值M=0.8。
(3)指標篩選標準。若第i個指標與第k個指標的距離相關(guān)系數(shù)絕對值 |rik|≥0.8 時,則第i個指標與第k個指標反映信息重復(fù),應(yīng)刪除其中K-S檢驗值較小的;反之,說明指標反映信息不重復(fù),同時保留兩指標。
本研究篩選信息冗余指標方法的好處:通過距離相關(guān)系數(shù)刪除反映信息重復(fù)的指標,保留K-S檢驗值大的,即對違約區(qū)分能力強的指標,避免對違約狀態(tài)區(qū)分能力強的指標被誤刪,無論指標間是線性關(guān)系或是非線性關(guān)系均可適用,無須指標數(shù)據(jù)滿足正態(tài)分布,適用于指標分布未知的情形。
信用評價指標體系合理與否是看基于指標體系構(gòu)建信用評價模型的違約預(yù)測力是否顯著。即檢驗利用指標體系構(gòu)建的信用評價模型違約預(yù)測能力越顯著,信用評價指標體系就越合理。
先利用上述指標篩選方法構(gòu)建網(wǎng)絡(luò)借貸的信用評價指標體系。再根據(jù)該指標體系及Logistic 模型可以計算得到每個借款者的違約概率(PDi)。將PDi與違約臨界值比較,可對借款者是否違約進行預(yù)測。繼而采用ROC 曲線(受試者工作特征曲線)AUC 值(ROC 曲線所覆蓋的區(qū)域面積)對網(wǎng)貸信用評價指標體系的違約預(yù)測效果進行檢驗。
將實際違約借款被模型判定為違約借款數(shù)量記為DD;實際違約借款被模型判定為非違約的借款數(shù)量記為DN;實際非違約借款被模型判定為違約的數(shù)量記為ND;實際非違約借款被模型判定為非違約的數(shù)量記為NN,見表3。
表3 實際違約狀態(tài)與模型判別結(jié)果劃分
ROC 曲線涉及兩個變量,靈敏度(Sensitivity)和特異度(Specificity),如式(20)和式(21)[22]所示:
靈敏度(Sensitivity)等于實際違約借款中被模型判定為違約的個數(shù)DD與實際違約借款總數(shù)(DD+DN)的比率,即借款違約狀態(tài)的判對率。
特異度(Specificity)等于實際非違約的借款中被模型判定為非違約的個數(shù)ND與實際非違約借款總數(shù)(ND+NN)的比率,即借款非違約狀態(tài)判對率。
ROC 曲線的縱軸為Sensitivity,橫軸即1-Specificity,也就是1-借款非違約狀態(tài)判對率。
ROC 曲線下方圍成面積為AUC 值。當(dāng)橫軸不變時,縱軸越向上,即實際違約借款判對率越高,模型判別準確率也越高,ROC 曲線也越向上,曲線下圍成的面積AUC 值也越大。因此,AUC 值越大,信用評價模型對違約狀態(tài)判別準確性越高,信用評價指標體系也就越合理。
本文的指標實證樣本來自美國P2P 借貸平臺LendingClub 提供的借款標的數(shù)據(jù)[23],樣本數(shù)據(jù)區(qū)間為2009—2014。Lending Club 成立于2007 年,是目前世界上最大的在線P2P 網(wǎng)絡(luò)借貸平臺,平臺提供企業(yè)及個人信貸、房貸及消費貸款等借貸品種。在樣本區(qū)間內(nèi),選取已完結(jié)的網(wǎng)絡(luò)借款,并去掉數(shù)據(jù)缺失較多的指標,最終得到31000 條借款信息,對應(yīng)31000 個借款人。非違約樣本為27000 個,違約樣本為4000 個。違約系指貸款到期后90 天內(nèi)未能足額償還貸款的本金與利息。P2P 網(wǎng)絡(luò)借貸的指標原始數(shù)據(jù)見表4 第31000 列所示。表4 第33 行為貸款借款的違約狀態(tài)標識,違約、非違約分別用“1”和“0”標識。
1.指標的歸一化
(1)定量指標歸一化。根據(jù)表4 的指標類型,分別將表4 第1~31000 列的正向指標、負向指標、區(qū)間型指標數(shù)據(jù)pij代入式(1)~式(3),得到指標的標準化得分xij,列入表4 后31000 列各定量指標對應(yīng)行。
(2)定性指標標準化。根據(jù)表4 的指標類型及表2 定性指標的打分標準,為表4 中的各個定性指標進行歸一化打分。結(jié)果列入表4 各定性指標的對應(yīng)行。
2.指標的正態(tài)分布檢驗
(1)Jarque-Bera 正態(tài)檢驗統(tǒng)計值的確定。以第1 個指標X1“借款金額”的Jarque-Bera 正態(tài)檢驗統(tǒng)計量的確定過程為例。把表4 第1 行指標X1的歸一化得分x1j、借款總數(shù)n=31000 依次代入式(4)~式(7),得到指標X1的偏度系數(shù)S1=-0.531、峰度系數(shù)K1=-0.949。把偏度系數(shù)S1=-0.531、峰度系數(shù)K1=-0.949 代入式(8),得到指標X1的正態(tài)檢驗統(tǒng)計值JB1=126.412。將結(jié)果列入表5 第1 行第3 列。同理得其余指標的統(tǒng)計量JBi,結(jié)果列入表5 第3 列其余行。
(2)正態(tài)檢驗結(jié)果。原假設(shè)H0 成立時,第i個指標的檢驗統(tǒng)計量JBi服從自由度為2 的χ2分布[18],給定顯著性水平α=0.05,查表得χ2分布的臨界值J0=5.991。由于表5 第3 列的81 個指標的JBi均大于J0=5.991,由正態(tài)檢驗標準,則32 個指標Xi均不服從正態(tài)分布。在表5 第4 列用“否”標注。
由于所有32 個指標Xi均不服從正態(tài)分布,故本文采用K-S檢驗、距離相關(guān)分析的非參數(shù)統(tǒng)計方法篩選信用評價指標。
3.違約顯著區(qū)分的指標第1 次篩選
(1)K-S檢驗值的確定。以指標“X1借款金額”為例。
步驟1:違約樣本經(jīng)驗分布函數(shù)的確定。把表4 第1 行指標X1的4000 個違約借款的歸一化值x1j按照從小到大次序排列,得到指標X1對應(yīng)次序統(tǒng)計值。把得到的指標X1標準化值對應(yīng)的次序統(tǒng)計值,n1=4000 代入式(9),得到違約樣本經(jīng)驗分布。仿照上述過程,可得非違約樣本經(jīng)驗分布。
步驟2:K-S檢驗值的確定。把指標X1第1 個借款的歸一化值x11依次代入函數(shù),得到x11的違約樣本經(jīng)驗分布值、非違約樣本經(jīng)驗分布值,得到|F1(1)(x11)-F1(2)(x11)|。同理,可得其余歸一化值的違約樣本與非違約樣本經(jīng)驗分布值之差的絕對值。
表4 P2P 網(wǎng)絡(luò)借貸指標篩選原始數(shù)據(jù)
表5 Jarque-Bera 正態(tài)檢驗結(jié)果
綜上,總共得到指標X1的31000 個、違約樣本與非違約樣本的經(jīng)驗分布函數(shù)值之差的絕對值。求解這31000 個絕對值中的最大值即得到指標X1的K-S檢驗統(tǒng)計值D1,即。其中,I為由表4 第1 行指標X1的歸一化值組成的實數(shù)集合。結(jié)果列入表6 第1 行第3 列。重復(fù)上述步驟1~步驟2,可得其余31 個指標的K-S檢驗統(tǒng)計值Di,結(jié)果列入表6 第3 列其余行。
(2)K-S檢驗篩選指標的結(jié)果。K-S檢驗統(tǒng)計量Di服從Kolmogorov 分布[19]。給定顯著性水平α=0.05,通過查表可得Kolmogorov 分布的臨界值D0≥1.358。
通過表6 第3 列可知,在32 個指標中,“X3還款月數(shù)”等13 個指標的K-S檢驗值全都低于1.358,檢驗不通過,說明這些指標的違約借款與非違約借款的經(jīng)驗分布函數(shù)并不存在明顯區(qū)別,指標無法顯著甄別借款者是否違約,應(yīng)刪除。通過表6 第3 列可知,32 個指標中,“X1借款金額”等19 個指標的K-S檢驗值全都大于1.358,表明這些指標的違約借款與非違約借款的經(jīng)驗分布函數(shù)存在明顯區(qū)別,指標可以顯著甄別借款者是否違約,應(yīng)保留。
表6 K-S 檢驗指標篩選結(jié)果
4.冗余信息刪除的指標第2 次篩選
(1)距離相關(guān)系數(shù)的確定。經(jīng)過第四節(jié)第(二)節(jié)第3 小節(jié)的第一次篩選,刪除了13 個指標,剩余19 個指標。將表6 第1~2 列的K-S檢驗保留的19 個指標按準則層合并,合并后的19 個指標進行距離相關(guān)分析的第二次指標遴選。用于距離相關(guān)分析的第二次指標遴選的19 個指標標準化數(shù)據(jù)見表7。利用表7 的標準化數(shù)據(jù)以及式(12)~式(19),可得到同一準則層下兩個指標的距離相關(guān)系數(shù)。
以指標X1的和X2的距離相關(guān)系數(shù)計算為例。利用指標X1歸一化得分x1j、指標X2歸一化得分x2j及式(12)~式(19),得到指標X1和X2的距離相關(guān)系數(shù)r12=0.353。其他指標的距離相關(guān)系數(shù)類推可得。將所有指標中絕對值大于0.8 的距離相關(guān)系數(shù) 值rik列入表8 第5 列。表8 第2、4 列的Di來源于表6 第3 列的相應(yīng)行。
(2)距離相關(guān)分析篩選結(jié)果。選取0.8 作為距離相關(guān)系數(shù)臨界值。由表8 第5 列可知,共有7對指標的距離相關(guān)系數(shù)大于0.8,故此7 對指標屬于反映信息冗余,在這7 對指標中保留K-S檢驗統(tǒng)計值Di較大的指標。由表6 第3 列的Di可知,max{D11、D12}={2.311、1.842}=2.311,指 標X11“年收入”的K-S檢驗統(tǒng)計值D11最大,故保留指標X11,刪除指標X12,刪除的指標列于表8 第2 行第6列。同理,其他的刪除指標列于表8 第6 列的其他行。
綜上,通過距離相關(guān)分析將K-S檢驗篩選后留下的19 個指標進行第二次篩選,去除反映信息冗余的7 個指標,最終保留了12 個指標。刪除的7 個在表1 用“冗余信息刪除”標出;最終保留的12 個指標在表1 用“保留”標出。
5.網(wǎng)絡(luò)借貸信用評價指標體系的建立
在32 個指標中,根據(jù)K-S檢驗去掉區(qū)分違約不顯著的13 個指標,利用距離相關(guān)分析刪除7 個信息冗余的指標,最后建立了包含12 個指標的小企業(yè)信用評價指標體系,見表9 第a~d列。同時,最終保留12 個指標在表1 中用“保留”標出。
表7 進行距離相關(guān)分析的19 個海選指標的標準化數(shù)據(jù)
表8 經(jīng)距離相關(guān)分析刪除的評價指標
表9 網(wǎng)絡(luò)借貸信用評價指標體系
根據(jù)表9 的網(wǎng)絡(luò)借貸信用評價指標體系及Logistic模型計算得到實證31000 個借款者的違約概率PDi(i=1,2,…,31000)。當(dāng)取違約臨界值為0.5 時,即當(dāng)違約概率PD低于0.5,判定貸款者為違約;不低于0.5 判定貸款者為非違約。
表10 實際違約狀態(tài)與模型判別結(jié)果
在31000 個借款者中,有4000 個違約借款者與27000 個非違約借款者。將4000 個違約借款者的違約概率PDi逐個與臨界值0.5 比較,可得實際違約借款人被判定為違約的個數(shù)DD、實際違約借款人被判定為非違約的個數(shù)DN。同理可得到實際非違約借款人被判定為違約個數(shù)ND、實際非違約借款人被判定為非違約個數(shù)NN。計算結(jié)果列入表10 的數(shù)字矩陣。
表10 的數(shù)據(jù)代入式(20),得到靈敏度為0.897;代入式(21),得到特異度為0.902,也就得到橫坐標1-特異度為0.098,這樣就可以確定ROC 曲線上的一個點(0.098,0.897)。ROC 曲線中,每取一個臨界值,就得到一組靈敏度和特異度,每個(1-特異度,靈敏度)可確定一個點坐標,取不同臨界值50、60…,會得到多個點,可畫出ROC 曲線,如圖2 所示。
圖2 檢驗指標體系的ROC 曲線
經(jīng)計算,本文構(gòu)建的網(wǎng)絡(luò)借貸信用評價指標體系對違約與非違約借款者違約狀態(tài)判別精度的AUC=0.913。一般認為違約判別精度AUC 超過0.8[19]時,評價指標體系的違約判別能力就較強。因此,由于本文構(gòu)建的網(wǎng)絡(luò)借貸信用評價指標體系的AUC=0.913>0.8,故認為構(gòu)建的評價指標體系具有較強違約鑒別力,則評價指標體系構(gòu)建合理。
本文根據(jù)K-S檢驗與距離相關(guān)分析相結(jié)合,篩選對借款客戶違約狀態(tài)甄別能力強的指標,建立了網(wǎng)絡(luò)借貸信用評價指標體系,并通過全球最大的P2P 網(wǎng)絡(luò)借貸平臺Lending Club 的實際交易數(shù)據(jù)進行實證研究。結(jié)果表明:本研究評價指標體系中的借款金額、借款者職業(yè)、失業(yè)率等12 個指標均對區(qū)分違約狀態(tài)有顯著影響。
(1)按照K-S檢驗統(tǒng)計值愈大、其對應(yīng)違約樣本分布函數(shù)與非違約樣本分布函數(shù)的偏離愈大,表明評價指標甄別借款客戶違約狀態(tài)的能力愈強,遴選能顯著區(qū)分違約狀態(tài)與否的評價指標,彌補現(xiàn)有研究不以能否區(qū)分違約狀態(tài)為標準遴選評價指標的不足。
(2)通過距離相關(guān)系數(shù)反映同一準則層下兩個指標間的線性與非線性關(guān)聯(lián)程度,在關(guān)聯(lián)程度強的一對指標中,剔除K-S檢驗較小、對違約狀態(tài)影響較小的指標,刪除了反映信息冗余指標,克服現(xiàn)有相關(guān)分析、因子分析等指標篩選方法僅揭示了指標間的線性關(guān)聯(lián)程度,無法反映指標間非線性關(guān)聯(lián)程度的弊端,拓展信用評價指標篩選方法適用范圍。
本文采用K-S檢驗與距離相關(guān)分析構(gòu)建的網(wǎng)絡(luò)借貸信用評價指標體系,實證表明:借款金額、借款者職業(yè)、失業(yè)率等12 個指標均對區(qū)分違約狀態(tài)有顯著影響。上述研究有助于理解網(wǎng)絡(luò)借貸違約行為及其變化規(guī)律,預(yù)測借貸違約的發(fā)生,進而在發(fā)放貸款時制定或調(diào)整相應(yīng)的借貸標準,控制借貸違約的發(fā)生。
P2P 網(wǎng)絡(luò)借貸作為新型經(jīng)濟業(yè)態(tài),已成為拉動國民經(jīng)濟的重要增長點,但由于網(wǎng)絡(luò)借貸的違約風(fēng)險較難甄別,導(dǎo)致當(dāng)前P2P 平臺的相關(guān)監(jiān)管存在一定程度的缺失或滯后?;谏鲜鲅芯拷Y(jié)果,本文提出如下政策建議:
(1)建議監(jiān)管部門構(gòu)建網(wǎng)絡(luò)借貸違約風(fēng)險評估模型,對P2P 平臺進行風(fēng)險監(jiān)測。相關(guān)監(jiān)管機構(gòu)可以借鑒本文評價指標篩選方法,充分利用大數(shù)據(jù)技術(shù),識別網(wǎng)絡(luò)借貸的違約風(fēng)險,從而對P2P 平臺潛在的風(fēng)險進行及時預(yù)判與控制。
(2)建立金融機構(gòu)與P2P 平臺的信息共享機制,融合多源數(shù)據(jù)。由于商業(yè)銀行對借款者歷史違約信息了解更多,監(jiān)管部門應(yīng)倡導(dǎo)銀行等機構(gòu)與P2P 平臺加強信息共享,融合多維度信息,為準確地評估借款人違約風(fēng)險提供充分的數(shù)據(jù)資源。
本文主要屬于應(yīng)用性研究,在指標篩選方法的改進上創(chuàng)新有限,這也是本文的不足所在。在之后研究中,擬在信用評價指標賦權(quán)方面,按照對借款者違約狀態(tài)區(qū)分能力愈強、指標賦權(quán)越大的思路,測算評價指標的權(quán)重。由于該項研究與本文的科學(xué)問題聚焦不同,因而本文未做進一步拓展,后續(xù)我們將另文專述。