王文怡,程平
(重慶理工大學(xué),重慶400054)
隨著中國近年經(jīng)濟(jì)形勢(shì)的下滑,民間小微企業(yè)的資金借貸難問題更是雪上加霜,嚴(yán)重影響了企業(yè)的正常發(fā)展;同時(shí),個(gè)人貸款業(yè)務(wù)也一直是銀行等金融機(jī)構(gòu)的雞肋業(yè)務(wù),個(gè)人消費(fèi)融資問題亟待解決。正是迎著這樣的需求痛點(diǎn),一種由借款人和出款人通過互聯(lián)網(wǎng)平臺(tái)實(shí)現(xiàn)高效便捷的自由競(jìng)價(jià)、無抵押資金借貸新模式,中國P2P網(wǎng)絡(luò)借貸(Peer-to-Peer Lending)行業(yè)在近些年迅速發(fā)展,各大金融機(jī)構(gòu)、傳統(tǒng)企業(yè)、互聯(lián)網(wǎng)創(chuàng)新平臺(tái)紛紛加入。截至2016年,國內(nèi)P2P平臺(tái)數(shù)目多達(dá)近4800家,月平均復(fù)合增長率超過8% ,同時(shí)其資金交易規(guī)模更是達(dá)到了近2500億~3000億元。然而,我國P2P網(wǎng)絡(luò)借貸行業(yè)在此期間內(nèi)一直存在著“無從業(yè)門檻、無行業(yè)標(biāo)準(zhǔn)、無監(jiān)管機(jī)構(gòu)”等問題,這使得整個(gè)P2P行業(yè)面臨著較大的信用風(fēng)險(xiǎn)。據(jù)零壹數(shù)據(jù)統(tǒng)計(jì),截至2016年,因惡意詐騙、經(jīng)營不善等問題而倒閉、跑路的問題平臺(tái)已累計(jì)達(dá)到3000多家,這在一定程度上影響了借貸雙方的信心。實(shí)際上,P2P網(wǎng)絡(luò)借貸平臺(tái)的信用風(fēng)險(xiǎn)管理水平直接關(guān)系到投資人對(duì)于平臺(tái)的選擇行為。
既有關(guān)于P2P網(wǎng)絡(luò)借貸的研究較多基于歐美發(fā)達(dá)的資本市場(chǎng),主要集中在 P2P 網(wǎng)絡(luò)借貸行為的影響因素 (Herzenstein 等,2008;Iyer等,2010)[1][2]、貸款人在借貸中的行為 (Lee 和 Lee,2012)[3]以及 P2P 平臺(tái)的監(jiān)管(Slattery,2013)[4]三大方面。我國作為新興資本市場(chǎng),由于起步較晚,相應(yīng)的研究目前主要集中于對(duì)我國P2P網(wǎng)絡(luò)借貸的主要運(yùn)營模式、制度設(shè)計(jì)、監(jiān)管手段所存在的問題及對(duì)策建議的探討(王紫薇等,2012;莫易嫻和譚振輝,2017)[5][6],而這些研究大多以定性的理論和描述性分析為主,基于真實(shí)平臺(tái)借貸數(shù)據(jù)的定量研究仍較為匱乏。此外,不同于西方發(fā)達(dá)國家已普遍建立起了高度透明的全國個(gè)人信用體系,我國的P2P借貸平臺(tái)由于無法納入央行的征信系統(tǒng),在個(gè)人信用記錄上存在著嚴(yán)重的數(shù)據(jù)缺失,對(duì)個(gè)人信用水平的相關(guān)分析需要完全依靠P2P平臺(tái)自身的信用認(rèn)證機(jī)制來完成,因此結(jié)合我國P2P平臺(tái)的實(shí)際情況對(duì)風(fēng)險(xiǎn)管理進(jìn)行更細(xì)致的討論有著重要意義。
HLCT是HLCT電子商務(wù)股份有限公司旗下的互聯(lián)網(wǎng)金融服務(wù)平臺(tái),于2009年3月正式上線運(yùn)營,截至2016年,該網(wǎng)站累計(jì)投資金額已達(dá)1165.45億元。HLCT是“線上+線下”審核結(jié)合模式的代表,即首先對(duì)平臺(tái)上發(fā)起借款申請(qǐng)的借款用戶進(jìn)行初步審核,通過之后再對(duì)借款人信息進(jìn)行現(xiàn)場(chǎng)審核,風(fēng)險(xiǎn)控制整體上處于中上水平。雖然HLCT對(duì)借款人的個(gè)人信用信息有嚴(yán)格的多重審核機(jī)制,但仍然難以遏止部分借款人通過提交、偽造虛假信息以逃避還款違約后續(xù)責(zé)任的現(xiàn)象產(chǎn)生,并且即使在所提供的個(gè)人信息為真實(shí)準(zhǔn)確的情況下,平臺(tái)還是會(huì)經(jīng)常出現(xiàn)借款人逾期償還借款的行為。因此,在對(duì)借款人及其借款信息進(jìn)行審核的過程中,探究何種因素對(duì)借款人違約風(fēng)險(xiǎn)的影響程度較大、如何構(gòu)建相應(yīng)風(fēng)險(xiǎn)量化指標(biāo)成為了風(fēng)控焦點(diǎn)。為此,本文以最基本也是最核心的信用風(fēng)險(xiǎn)作為切入點(diǎn),利用基于網(wǎng)絡(luò)爬蟲代碼所采集的HLCT平臺(tái)真實(shí)數(shù)據(jù)進(jìn)行分析,選取信用變量、借款信息、歷史表現(xiàn)三方面指標(biāo)進(jìn)行分類處理,旨在探索影響平臺(tái)穩(wěn)健運(yùn)作的關(guān)鍵要素,通過對(duì)平臺(tái)借款人的違約率展開有效的評(píng)估與預(yù)測(cè),以期提高平臺(tái)對(duì)借款人信用風(fēng)險(xiǎn)的控制能力。
信息不對(duì)稱理論(Asymmetric Information Theory)認(rèn)為,在市場(chǎng)經(jīng)濟(jì)活動(dòng)中,各類參與主體對(duì)有關(guān)信息的掌握程度是存在顯著差異的,對(duì)信息掌握程度較為充足的人往往能夠在市場(chǎng)活動(dòng)中處于優(yōu)勢(shì)地位,而所擁有的信息較為匱乏的人則會(huì)處于不利的地位(L?fgren 等,2010)[7]。 就網(wǎng)絡(luò)借貸活動(dòng)而言,出借人通常無法完全獲得借款人信用的詳細(xì)信息,這便會(huì)導(dǎo)致兩方之間信息不對(duì)稱現(xiàn)象的產(chǎn)生,而在這種現(xiàn)象的作用下就可能引起逆向選擇(Adverse Selection)和道德風(fēng)險(xiǎn) (Moral Hazard)兩類行為傾向 (Jensen和Meckling,1976)[8]。其中,逆向選擇主要源于事前的信息不對(duì)稱,指的是網(wǎng)絡(luò)借貸交易中的借款人一方為了獲得借款,利用多于另一方出借人的信息使自身受益而使得出借人受損,表現(xiàn)為借款人傾向于隱瞞對(duì)自身獲得借款不利的信息甚至提供虛假的個(gè)人信用信息,以此導(dǎo)致出借人作出面向信用風(fēng)險(xiǎn)較大的借款人的錯(cuò)誤投標(biāo)決策。道德風(fēng)險(xiǎn)則是指在借款人取得借款后,由于出借人難以有效實(shí)施監(jiān)督行為或監(jiān)督成本過高,使得其未能遵守借款條約中合理利用資金的內(nèi)容準(zhǔn)則,而是投入到所需承擔(dān)風(fēng)險(xiǎn)較大的活動(dòng)之中,從而導(dǎo)致借款未能按約償還。逆向選擇和道德風(fēng)險(xiǎn)這兩種行為都會(huì)使P2P交易失去供求平衡的關(guān)系,進(jìn)而引起整個(gè)借貸市場(chǎng)效率的降低。在上述情況下,平臺(tái)的信用認(rèn)證機(jī)制則能夠在一定程度上緩解因信息不對(duì)稱所產(chǎn)生的逆向選擇和道德風(fēng)險(xiǎn)問題,因?yàn)樾庞谜J(rèn)證機(jī)制通過搜集借款人的信息并對(duì)信息整理加工分析后作出信用評(píng)判(王會(huì)娟和廖理,2014)[9]。信用評(píng)判能夠較為綜合地涵蓋借款人過去一段時(shí)間內(nèi)的信用信息,揭示其信用風(fēng)險(xiǎn)水平,出借人可據(jù)此針對(duì)不同借款人作出是否進(jìn)行貸款投放的合理判斷,從而盡可能降低逆向選擇所帶來的負(fù)面決策影響。此外,信用認(rèn)證機(jī)制還能夠通過“獎(jiǎng)勵(lì)”與“懲罰”手段的綜合運(yùn)用,促使P2P平臺(tái)實(shí)時(shí)依據(jù)借款人的還款行為對(duì)其信用風(fēng)險(xiǎn)進(jìn)行動(dòng)態(tài)調(diào)整,當(dāng)借款人出現(xiàn)違約行為時(shí)調(diào)高其信用風(fēng)險(xiǎn),這會(huì)對(duì)借款人日后進(jìn)一步融資帶來不利影響;相反,當(dāng)其如期還款時(shí),則調(diào)低信用風(fēng)險(xiǎn),有利于其以后獲得融資。通過該方式,信用認(rèn)證機(jī)制可有效防范道德風(fēng)險(xiǎn)行為的發(fā)生。由此,可認(rèn)為P2P平臺(tái)的信用認(rèn)證機(jī)制能夠有效解決借貸雙方信息不對(duì)稱的問題。
通過信用認(rèn)證機(jī)制所作出的信用評(píng)判是由網(wǎng)絡(luò)借貸平臺(tái)基于相關(guān)數(shù)據(jù)信息,結(jié)合定性和定量的方法來對(duì)借款人償還借款的意愿和能力作出的綜合評(píng)價(jià)。根據(jù)信息不對(duì)稱理論,信用等級(jí)能夠體現(xiàn)借款人的信用表現(xiàn)情況,出借方可依據(jù)借款人的信用等級(jí)較為直觀地觀察到其信用水平的高低,降低雙方之間信息不對(duì)稱的程度,進(jìn)而根據(jù)信用等級(jí)作出合理的放貸決策。諸多學(xué)者均認(rèn)為信用等級(jí)是產(chǎn)生違約的決定性影響因素之一 (Klafft,2008;Emekter等,2015)[10][11]。在我國,由于個(gè)人征信系統(tǒng)的不完善而導(dǎo)致信用記錄缺失,因此對(duì)于每一位借款人,都需要由HLCT審查員綜合分析其可被證實(shí)的信息后對(duì)信用等級(jí)作出評(píng)判,并根據(jù)信用等級(jí)決定是否發(fā)放貸款及貸款規(guī)模。可見信用等級(jí)指標(biāo)與借款的違約率直接相關(guān),且借款人信用評(píng)級(jí)越高,借款違約率越低。同時(shí),借款人在平臺(tái)上的歷史借款記錄也是P2P平臺(tái)信用認(rèn)證機(jī)制的重要組成部分,借款人的歷史行為特征能夠在一定程度上反映其還款意愿(顧慧瑩和姚錚,2015)[12]。 Kumar(2007)發(fā)現(xiàn)借款人的歷史拖欠率與借款風(fēng)險(xiǎn)溢價(jià)存在正向關(guān)系,歷史借款記錄與借款人信譽(yù)度相關(guān),所以良好的歷史借款表現(xiàn)能夠降低違約率,而歷史違約記錄對(duì)違約率有正向影響[13]。另外,由于HLCT平臺(tái)為借款人設(shè)置了可自行選擇不同的借款期限及相應(yīng)還款方式,借款月利率也會(huì)隨著借款人的選擇而不同,這些借款信息往往也會(huì)影響違約的概率?;谏鲜隼碚摲治?,本文提出如下假設(shè):
H1:借款人的信用評(píng)級(jí)與借款違約率顯著負(fù)相關(guān)。
H2:借款人良好的歷史借款表現(xiàn)與違約率顯著負(fù)相關(guān)。
H3:借款人的具體借款信息能夠?qū)`約率產(chǎn)生顯著的不同影響。
本文所使用的實(shí)證數(shù)據(jù)來源于HLCT網(wǎng)絡(luò)借貸平臺(tái)的真實(shí)借款數(shù)據(jù)。通過長期測(cè)試發(fā)現(xiàn),一天中的17~23時(shí)是該平臺(tái)借貸雙方頻繁操作的時(shí)間段,故為保證所收集數(shù)據(jù)的有效性,我們?cè)?017年10月至2017年12月每天定時(shí)不定量的隨機(jī)選取樣本,通過Python軟件建立Scrapy爬蟲程序來對(duì)這段時(shí)間內(nèi)在HLCT網(wǎng)站平臺(tái)上進(jìn)行借款的相關(guān)用戶信息進(jìn)行挖掘,經(jīng)過隨后的數(shù)據(jù)清洗工作,剔除信息不全、重復(fù)借款者的樣本和部分冗余信息后,最終得到有效觀測(cè)數(shù)據(jù)11548條。爬取的數(shù)據(jù)共包括排序ID、評(píng)級(jí)得分、貸款額度、借款額度、借款金額、借款月利率、借款期限、還款方式、還款狀態(tài)、提前還款筆數(shù)、按時(shí)還款筆數(shù)以及是否逾期12個(gè)屬性。
1.被解釋變量
為了準(zhǔn)確度量HLCT網(wǎng)絡(luò)借貸平臺(tái)的信用風(fēng)險(xiǎn),本文選取借款人是否具有違約即逾期還款行為來表示P2P網(wǎng)絡(luò)借貸交易中的借款人信用風(fēng)險(xiǎn)。將其設(shè)定為二元虛擬變量,當(dāng)借款人違約時(shí),賦值為1;當(dāng)借款人未發(fā)生違約行為時(shí),則賦值為0。
2.解釋變量
為保證分析的科學(xué)性與合理性,結(jié)合爬取的數(shù)據(jù),本文的被解釋變量主要包括以下三個(gè)方面:信用評(píng)級(jí)、借款信息以及歷史表現(xiàn)。在信用評(píng)級(jí)方面,共選取了評(píng)級(jí)得分、貸款額度和借款額度三個(gè)指標(biāo)。其中,評(píng)級(jí)得分是平臺(tái)通過用戶的資料與表現(xiàn)等綜合信息得到;貸款額度表示用戶作為貸款人的角色所能貸款給其他人的金額,能夠反映出用戶償債能力的強(qiáng)弱;借款額度是平臺(tái)考察借款人的還款能力與資產(chǎn)狀況等信息之后,授予其能借款的最大金額。借款信息方面選取了借款金額、借款利率、借款期限以及還款方式共四個(gè)指標(biāo)。其中,借款金額是指用戶當(dāng)前所借款項(xiàng)金額的額度大?。唤杩罾蕿檫@筆款項(xiàng)對(duì)應(yīng)折算后的月利率大?。唤杩钇谙逓楹贤屑s定的借款使用月數(shù);借款人的還款方式則可分為按季分期、按月到期、按月分期以及一次性還款四種情況。歷史表現(xiàn)方面選取還款狀態(tài)、提前還款筆數(shù)和準(zhǔn)時(shí)還款筆數(shù)三個(gè)指標(biāo)來衡量。借款人的還款狀態(tài)分為已還完和正在還款中;提前還款筆數(shù)和準(zhǔn)時(shí)還款筆數(shù)兩個(gè)指標(biāo)表示借款人從入駐平臺(tái)以來的累計(jì)數(shù)據(jù),表示總筆數(shù)。具體變量的詳細(xì)定義說明及描述性統(tǒng)計(jì)情況如表1所示。
表1 變量定義及描述統(tǒng)計(jì)
表2為相關(guān)性分析,列示了各變量之間的Pearson相關(guān)系數(shù)。此處我們重點(diǎn)觀察各自變量與因變量之間的相關(guān)性。從表2中可以看出,評(píng)級(jí)得分、借款額度、貸款額度、還款狀態(tài)和按時(shí)還款筆數(shù)與信用風(fēng)險(xiǎn)之間均呈現(xiàn)顯著負(fù)相關(guān),而借款利率則與信用風(fēng)險(xiǎn)呈現(xiàn)顯著正相關(guān),其余變量則并未表現(xiàn)出明顯的相關(guān)性質(zhì)。
表2 Pearson相關(guān)性分析
在對(duì)各類違規(guī)事件的識(shí)別中,常用的經(jīng)驗(yàn)性的判別模型有多元判別分析、Probit判別以及Logistic判別,這些模型通常能夠直觀地反映出各變量的影響方向及概率大小。然而由于它們均為基于參數(shù)的估計(jì)模型,要么不能滿足殘差項(xiàng)的正態(tài)性、同方差性,要么不能很好地解決多重共線性問題,導(dǎo)致判別模型在參數(shù)估計(jì)中往往會(huì)存在偏差。因此,本文從機(jī)器學(xué)習(xí)算法的角度出發(fā),在對(duì)Logistic、決策樹模型作比較分析的基礎(chǔ)上,重點(diǎn)用決策樹模型進(jìn)行擬合并對(duì)模型的實(shí)際判別效果作檢驗(yàn)分析。
1.Logistic模型
本文研究涉及的因變量為用戶是否違約逾期還款,是一個(gè)定性的離散性二分變量。由于二元離散選擇模型的被解釋變量為非線性,所以需將其轉(zhuǎn)化為效用模型進(jìn)行評(píng)估,其中使用最廣泛的是Logistic模型,其一定程度上克服了線性假設(shè)的缺點(diǎn),并且不要求變量服從正態(tài)分布,因此常被運(yùn)用到違規(guī)事件的識(shí)別中。通過Logistic變化后的具體判別模型可表示為:
其中,Y為是否違約的二分類值,出現(xiàn)違約用1表示,否則為0;P(·)表示事件發(fā)生的概率;X1,X2,…,Xi為一系列的影響因素;α、β為待估計(jì)的參數(shù)向量,可采用極大似然估計(jì)法(Maximum Likelihood Estimate,MLE)得到其估計(jì)量大小。
2.決策樹模型
決策樹是一種利用先驗(yàn)信息處理數(shù)據(jù)間非同質(zhì)關(guān)系的樹型分類法。該模型不需要分布的假定,它的求解采用非參數(shù)技術(shù);決策樹算法的關(guān)鍵是選擇節(jié)點(diǎn)的分裂屬性,常將熵(Entropy)、卡方(χ2)以及基尼系數(shù)(Gini Index)作為計(jì)算信息增益的算法。對(duì)于如同本文被解釋變量為二元分類的決策樹模型,其會(huì)根據(jù)不同的算法,首先選擇信息值最大的變量作為該層最有判別力的分類變量,把數(shù)據(jù)分成兩個(gè)子集;然后每個(gè)子集又選擇最有判別力的因素進(jìn)行劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止,即該級(jí)的信息值再也無法區(qū)分不同的類別。這種通過遞歸選擇最優(yōu)特征的方式不僅能夠在模型擬合過程中盡可能地規(guī)避線性回歸中的一系列強(qiáng)假設(shè),并且還能幫助判別出自變量之間的相對(duì)重要性。本文將采用基于熵的信息增量作為分離準(zhǔn)則,該類型決策樹模型又被稱為ID3。熵是表示隨機(jī)變量不確定性的度量,將pi定義為分類變量U取值為i時(shí)的發(fā)生概率,若事件類型共有s類,則隨機(jī)變量的熵定義為:
在本文中,s 取值為 2;又假設(shè)自變量為 X1,X2,…,Xs,則自變量 i對(duì)應(yīng)的因子水平k記為Xik;將信息增益定義為:
因此,對(duì)于自變量 X1、X2、…、Xs,計(jì)算其對(duì)應(yīng)的 I(U,Xi),I(U,Xi)取值越大,則表示自變量Xi對(duì)于決策樹分類具有更多的信息,則優(yōu)先將Xi作為識(shí)別變量對(duì)決策樹進(jìn)行分割,然后再用相同方法對(duì)其他自變量進(jìn)行選擇。
為了保障模型對(duì)信用風(fēng)險(xiǎn)要素挖掘的準(zhǔn)確性,本文運(yùn)用簡(jiǎn)單隨機(jī)取樣法將數(shù)據(jù)隨機(jī)分為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)兩部分①,比例分別為67%和33%。首先,運(yùn)用SPSS軟件基于訓(xùn)練組數(shù)據(jù)對(duì)式(1)的Logistic模型進(jìn)行MLE估計(jì),最終輸出的參數(shù)估計(jì)值如表3所示??梢钥吹皆诨貧w結(jié)果中,貸款額度、借款金額、借款期限、還款模式以及提前還款筆數(shù)等要素對(duì)信用風(fēng)險(xiǎn)的影響并不顯著,其余變量則至少呈現(xiàn)出5%的顯著性程度,假設(shè)H1、H2和H3均只得到部分驗(yàn)證。具體來看,信用評(píng)級(jí)類別中的信用評(píng)分以及借款額度大小與信用風(fēng)險(xiǎn)顯著負(fù)相關(guān),表明HLCT平臺(tái)對(duì)借款人總體信用的評(píng)級(jí)認(rèn)證較為精準(zhǔn),較低的評(píng)級(jí)會(huì)明顯增大借款用戶的違約概率,而較高的評(píng)級(jí)則會(huì)明顯降低這一概率。借款信息類別中,僅借款月利率會(huì)對(duì)信用風(fēng)險(xiǎn)的產(chǎn)生存在顯著的正向影響,需承擔(dān)高利率的借款人發(fā)生違約的可能性會(huì)比低利率者高出近5倍,可能的原因在于較高的利率水平使得每月所需還款的金額較大,給借款用戶如期還款付息造成了一定的壓力,從而增大了信用風(fēng)險(xiǎn)。在歷史表現(xiàn)方面,處于已完成的還款狀態(tài)和按時(shí)還款筆數(shù)均會(huì)明顯降低信用風(fēng)險(xiǎn),由此可見,歷史還款記錄也是研究平臺(tái)借款人違約風(fēng)險(xiǎn)的重要因素,借款人的歷史行為特征確實(shí)在一定程度上能反映出其還款能力以及意愿,從而有一定的參考價(jià)值。
表3 Logistic模型回歸結(jié)果
通過上述分析可以看到,Logistic模型雖然能綜合表明各要素與信用風(fēng)險(xiǎn)的方向關(guān)系與顯著性程度,與理論假設(shè)也大致吻合,但可以看到仍然存在部分變量如貸款額度等在解釋上的困難,模型不夠清晰,并且由于各相同類別內(nèi)變量高度多重共線性問題的存在,也會(huì)使得估計(jì)結(jié)果可能存在一定的偏差。因此,本文進(jìn)一步采用基于非參數(shù)求解技術(shù)的ID3決策樹模型來進(jìn)行更為直觀地分類分析。
我們采用SAS軟件進(jìn)行決策樹的建模。經(jīng)過測(cè)試,二叉樹效果并不明顯,則選擇可以向三個(gè)方向分裂的樹;同時(shí),為防止過度擬合導(dǎo)致模型噪聲的存在,經(jīng)過誤分率的判斷將樹的深度設(shè)置為3,剪枝后的最佳分枝數(shù)為36。根據(jù)隨后運(yùn)行結(jié)果可以發(fā)現(xiàn),影響信用風(fēng)險(xiǎn)最關(guān)鍵的要素按重要性排序分別為:借款額度、評(píng)級(jí)得分、貸款額度以及按時(shí)還款筆數(shù)四個(gè)變量,這與前文Logistic回歸的結(jié)果略顯不同。圖1至圖4顯示了ID3決策樹模型的最終輸出圖。從含義來看,決策樹中最上方的樹根框(見圖1)為樣本數(shù)據(jù)的總體性描述,其中左列表示黑色樣本以及白色樣本的1、0標(biāo)記和數(shù)量合計(jì);中間列為訓(xùn)練樣本的描述,此處我們的訓(xùn)練集共有7737個(gè)樣本,其中黑色樣本數(shù)為589,白色樣本數(shù)為7148,分別占比7.6%和92.4%;而右邊列為驗(yàn)證集,共有316個(gè)黑色樣本②。之后的每個(gè)框均由上述三部分構(gòu)成。接下來,按照對(duì)分類貢獻(xiàn)率最大的借款額度進(jìn)行三叉樹分枝,以最左邊的框?yàn)槔M(jìn)行說明,它表示在借款額度小于89292.5時(shí),訓(xùn)練集7737個(gè)樣本中,有6240個(gè)被識(shí)別為白色樣本,其準(zhǔn)確率為94.8%;真實(shí)情況是這6240個(gè)樣本中有327個(gè)為黑色樣本,然而在閾值為0.5的情況下會(huì)被全部認(rèn)作為白色樣本。而框內(nèi)右邊的驗(yàn)證樣本則用來說明基于訓(xùn)練集所建立的模型在驗(yàn)證集中的效果,可以發(fā)現(xiàn),3811個(gè)驗(yàn)證樣本中有3045個(gè)被判別為白色樣本,盡管其中有171個(gè)事實(shí)上為黑色樣本。其他樹枝框的解釋同理。
圖1 決策樹分析結(jié)果第一裂分圖
圖2 決策樹分析結(jié)果第一分枝圖
圖3 決策樹分析結(jié)果第二分枝圖
圖4 決策樹分析結(jié)果第三分枝圖
綜上,我們可以得到逾期還款概率較高的分類結(jié)果匯總,如表4所示。以第一種分類為例進(jìn)行說明:在借款人的借款額度<89292.5、18≤評(píng)級(jí)得分≤19、貸款額度>84496.5條件下,訓(xùn)練集中出現(xiàn)違約的概率為96.2%,驗(yàn)證集中的概率為93.9%。其余組合同理。通過表4不難發(fā)現(xiàn),決策樹模型通過不同識(shí)別變量的組合閾值設(shè)定,將借款人的違約概率進(jìn)行了有效區(qū)分,在訓(xùn)練集的訓(xùn)練結(jié)果與最終驗(yàn)證集上的擬合結(jié)果大體相似。
從上述分析結(jié)果可以看到,盡管決策樹模型相比Logistic而言能夠更好地展現(xiàn)變量的分類結(jié)果,但在關(guān)鍵變量的識(shí)別上兩者仍然存在略微差別,且模型結(jié)果的簡(jiǎn)單與否并非判斷其優(yōu)劣的唯一標(biāo)志,更重要的是在于其預(yù)測(cè)準(zhǔn)確率的高低。通常情況下,準(zhǔn)確率的比較有提升圖(Lift Chart)和混淆矩陣(Confusion Matrix)等方式。為了更為直觀地論述,本文使用混淆矩陣來進(jìn)行判別,具體做法即為在設(shè)定閾值(Threshold)的情況下統(tǒng)計(jì)模型的兩類誤判率③。
表5報(bào)告了兩個(gè)模型在0.5閾值下的預(yù)測(cè)準(zhǔn)確率比較結(jié)果。根據(jù)本文的分組比例,驗(yàn)證組共有3811個(gè)黑白樣本,其中黑色樣本316個(gè),白色樣本3495個(gè)。首先觀察Logistic模型的預(yù)測(cè)效果,可以看到在黑色樣本的判別中,本文所預(yù)測(cè)的161個(gè)借款人違約逾期還款的行為里,有112個(gè)最終被確認(rèn)為黑色樣本,準(zhǔn)確率為69.57%。而在決策樹模型中,預(yù)測(cè)的逾期還款樣本中有140個(gè)確實(shí)出現(xiàn)了違約行為,對(duì)應(yīng)黑色樣本的判別準(zhǔn)確率達(dá)到了86.96%,要顯著高于Logistic模型;同時(shí),在白色樣本的判別上,決策樹模型的準(zhǔn)確率(95.18%)也略高于Logistic模型(94.41%)。因此不難看出,ID3決策樹在預(yù)測(cè)能力上整體上要明顯優(yōu)于Logistic回歸的判別。
表5 Logistic/決策樹模型判別效果的混淆矩陣
本文通過使用Python網(wǎng)絡(luò)爬蟲采集的HLCT網(wǎng)絡(luò)借貸平臺(tái)的真實(shí)交易數(shù)據(jù),從信用評(píng)級(jí)、借款信息以及歷史表現(xiàn)三方面出發(fā),綜合運(yùn)用Logistic回歸模型和決策樹模型對(duì)借款人的信息與其違約信用風(fēng)險(xiǎn)的關(guān)系進(jìn)行實(shí)證探究。研究發(fā)現(xiàn),在Logistic回歸模型中,信用評(píng)分、借款額度、借款利率、還款狀態(tài)以及按時(shí)還款筆數(shù)能夠顯著影響借款人的違約概率,而在ID3決策樹中,借款額度、貸款額度、評(píng)級(jí)得分以及按時(shí)還款筆數(shù)四個(gè)變量是影響借款人是否逾期還款的關(guān)鍵指標(biāo),且均存在顯著的負(fù)相關(guān)關(guān)系。進(jìn)一步的混淆矩陣檢驗(yàn)結(jié)果表明,決策樹模型整體上要明顯優(yōu)于Logistic回歸模型的判別,其中對(duì)違約樣本的識(shí)別準(zhǔn)確率可以達(dá)到約87%。
現(xiàn)階段,我國P2P網(wǎng)絡(luò)平臺(tái)中因借款人而造成的違約風(fēng)險(xiǎn)很大程度上都是因?yàn)樾刨J平臺(tái)自身監(jiān)管不嚴(yán)造成的,所以加強(qiáng)平臺(tái)自身的風(fēng)險(xiǎn)防范,完善對(duì)借款人的審核制度便成為了防范風(fēng)險(xiǎn)最好的手段。網(wǎng)貸平臺(tái)可結(jié)合自身風(fēng)險(xiǎn)閾值采取如下一些防范措施。
對(duì)于借款人而言,無法申請(qǐng)到銀行等傳統(tǒng)金融服務(wù)業(yè)的貸款是其轉(zhuǎn)向選擇P2P平臺(tái)的重要因素,且平臺(tái)的高利率可能也會(huì)吸引一些人進(jìn)行非法牟利,所以P2P平臺(tái)作為借貸的中介機(jī)構(gòu),為了維護(hù)借款雙方的權(quán)益和保證平臺(tái)的正常經(jīng)營,應(yīng)當(dāng)加強(qiáng)貸款前的信息審核。P2P平臺(tái)應(yīng)要求借款人提供詳細(xì)的個(gè)人和家庭信息,并提供證據(jù)來證明自己合理的借款用途。此外,應(yīng)對(duì)借款人之前的信用記錄進(jìn)行調(diào)查,確定借款人是否具有還款能力。對(duì)放款人的審核主要是要求貸款人提供合理的資金來源,避免其通過平臺(tái)來處理非法收入。
《中國人民銀行關(guān)于取締地下錢莊及打擊高利貸行為的通知》中明確規(guī)定,民間借貸的利率不得超過中國人民銀行公布的金融同期、同類貸款利率(不含浮動(dòng))的四倍。我國相關(guān)法律也對(duì)“超出國家公布利率的四倍”持否定態(tài)度。所以雖然高利率能夠吸引來更多的投資者,但是其承擔(dān)的風(fēng)險(xiǎn)也是巨大的。一旦借款人發(fā)生違約行為,平臺(tái)和投資者的合法權(quán)利將不會(huì)受到法律保護(hù),從而會(huì)造成財(cái)產(chǎn)損失。所以為了維護(hù)投資者的合法權(quán)利并保障平臺(tái)的正常運(yùn)行,應(yīng)降低平臺(tái)的借款利率,使其維持在國家法律承認(rèn)的正常范圍內(nèi)。
由于網(wǎng)絡(luò)平臺(tái)的貸款人信息認(rèn)證通常是在線上進(jìn)行,并且P2P網(wǎng)貸是一個(gè)新興行業(yè),有關(guān)的監(jiān)督管理機(jī)制還不夠完善,所以網(wǎng)上騙貸案件時(shí)有發(fā)生。所以,為了識(shí)別騙貸行為,平臺(tái)應(yīng)對(duì)自身系統(tǒng)進(jìn)行優(yōu)化,如在注冊(cè)登記時(shí)進(jìn)行指紋認(rèn)證,既能保護(hù)借款人的賬號(hào)信息安全,又能達(dá)到防范欺詐風(fēng)險(xiǎn)的目的。此外平臺(tái)還可以設(shè)立風(fēng)險(xiǎn)決策系統(tǒng),精準(zhǔn)識(shí)別和預(yù)測(cè)欺詐風(fēng)險(xiǎn),保證企業(yè)金融業(yè)務(wù)的安全性。不同的信貸平臺(tái)還可以進(jìn)行合作,建立反作弊黑名單和手機(jī)黑名單信息庫,全面防范“羊毛黨”和“黃牛黨”,保障企業(yè)的業(yè)務(wù)安全。
P2P網(wǎng)絡(luò)借貸平臺(tái)可以參考銀行的存款準(zhǔn)備金制度,從收益中提取20%充當(dāng)風(fēng)險(xiǎn)準(zhǔn)備金,用于應(yīng)對(duì)平臺(tái)的一些突發(fā)事件,比如當(dāng)平臺(tái)發(fā)生壞賬或借款人發(fā)生違約行為時(shí),平臺(tái)可以向投資者代為支付存款利息和本金,并繼承對(duì)借款人的追索權(quán)。從而避免當(dāng)借款人發(fā)生違約行為時(shí),平臺(tái)因資金緊張無法及時(shí)向投資者支付利息和本金而影響平臺(tái)信譽(yù)。
注釋:
① 本文的目的不僅是要建立一個(gè)判別模型,用來描述用戶信用風(fēng)險(xiǎn)要素變量組取何值時(shí)為違約的樣本,更重要的是對(duì)Logistic回歸、決策樹的識(shí)別效果進(jìn)行檢驗(yàn)。在判斷模型的識(shí)別效率方面,許多文獻(xiàn)首先用原始樣本建立模型后再用相同的原始樣本來檢驗(yàn)?zāi)P偷男Я?,這樣容易存在“過度擬合”的問題。因此本文引入機(jī)器學(xué)習(xí)中樣本分組的思想,將11548條數(shù)據(jù)隨機(jī)分為訓(xùn)練組(Training Data Set)和驗(yàn)證組(Validation Data Set)兩組,先通過訓(xùn)練組學(xué)習(xí)算法,隨后利用驗(yàn)證組來對(duì)模型的效果進(jìn)行檢驗(yàn)。
② 為便于說明,后文我們將借款人發(fā)生違約逾期還款的樣本稱之為“黑色樣本”;未發(fā)生這種違約行為的樣本稱之為“白色樣本”。
③ 通常情況下,因判別目標(biāo)的不同,兩類錯(cuò)誤的重要性也會(huì)隨之不同。本文的目的是盡可能找出那些有違約信用風(fēng)險(xiǎn)的黑色樣本,故此處誤判率重點(diǎn)指預(yù)測(cè)黑色樣本為真的而實(shí)際上非真、預(yù)測(cè)黑色樣本非真的而實(shí)際為真的比率。
[1]Herzenstein M, Andrews R L, Dholakia U M, et al.The Democratization of Personal Consumer Loans?Determinants of Success in Online Peer-to-Peer Lending Communities[J].Boston University School of Management Research Paper, 2008,14(6).
[2]Iyer R, Khwaja A I, Luttmer E F P, et al.Screening in New Credit Markets: Can Individual Lenders Infer Borrower Creditworthiness in Peer-to-Peer Lending?[R].Havard University,John F.Kennedy School of Government, 2009.
[3]Lee E, Lee B.Herding Behavior in Online P2P Lending: An Empirical Investigation[J].Electronic Commerce Research and Applications, 2012,11(5):495-503.
[4]Slattery P.Square Pegs in a Round Hole: SEC Regulation of Online Peer-to-Peer Lending and the CFPB Alternative[J].Yale Journal on Regulation, 2013,30(1):233-275.
[5]王紫薇,袁中華,鐘鑫.中國P2P網(wǎng)絡(luò)小額信貸運(yùn)營模式研究——基于“拍拍貸”、“宜農(nóng)貸”的案例分析[J].新金融,2012(2):42-45.
[6]莫易嫻,譚振輝.P2P網(wǎng)貸平臺(tái)評(píng)級(jí)制度設(shè)計(jì)缺陷分析[J].上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào),2017(5):50-62.
[7]L?fgren K G, Persson T, WeibullJW.Marketswith AsymmetricInformation: The Contributions of George Akerlof, Michael Spence and Joseph Stiglitz[J].Scandinavian Journal of Economics, 2010,104(2):195-211.
[8]Jensen M C, Mackling W H.Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure[J].Journal of Financial Economics, 1976,3(4):305-360.
[9]王會(huì)娟,廖理.中國P2P網(wǎng)絡(luò)借貸平臺(tái)信用認(rèn)證機(jī)制研究——來自“人人貸”的經(jīng)驗(yàn)證據(jù)[J].中國工業(yè)經(jīng)濟(jì),2014(4):136-147.
[10]Klafft M.Peer to Peer Lending: Auctioning Microcredits over the Internet[R].Proceedings of the 2008 International Conference on Information Systems, Technology and Management(ICISTM 08), 2008.
[11]Emekter R, Tu Y, Jirasakuldech B, et al.Evaluating Credit Risk and Loan Performance in Online Peer-to-Peer (P2P) Lending[J].Applied Economics, 2015,47(1):54-70.
[12]顧慧瑩,姚錚.P2P網(wǎng)絡(luò)借貸平臺(tái)中借款人違約風(fēng)險(xiǎn)影響因素研究——以WDW為例[J].上海經(jīng)濟(jì)研究,2015(11):37-46.
[13]Kumar S.Bank of One: Empirical Analysis of Peer-to-Peer Financial Marketplaces[J].Reaching New Heights Americas Confevence of Information Systems, 2007(2):305.
上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào)2018年3期