国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下網(wǎng)絡(luò)借貸的信用風(fēng)險評估
——以人人貸為例

2016-06-02 10:17柳向東
統(tǒng)計與信息論壇 2016年5期
關(guān)鍵詞:P2P網(wǎng)絡(luò)借貸隨機森林數(shù)據(jù)挖掘

柳向東,李 鳳

(暨南大學(xué) 經(jīng)濟學(xué)院,廣東 廣州 510632)

?

大數(shù)據(jù)背景下網(wǎng)絡(luò)借貸的信用風(fēng)險評估
——以人人貸為例

柳向東,李鳳

(暨南大學(xué) 經(jīng)濟學(xué)院,廣東 廣州 510632)

摘要:在大數(shù)據(jù)時代,網(wǎng)貸平臺每天流動著海量交易數(shù)據(jù)。為充分利用這些數(shù)據(jù)控制信用風(fēng)險,運用數(shù)據(jù)挖掘算法建立了信用風(fēng)險評估模型。由于網(wǎng)貸數(shù)據(jù)多為非平衡數(shù)據(jù),所以通過多次嘗試使用SMOTE算法進行處理,提高了模型評估性能。研究發(fā)現(xiàn):隨機森林模型更適合用于信用風(fēng)險評估,其次是CART、ANN、C4.5。用戶的婚姻、房/車產(chǎn)(貸)等信息重要程度較低,而公司規(guī)模、工作時間等信息,歷史借款、信用評分等信用檔案信息在信用風(fēng)險評估中尤為重要。

關(guān)鍵詞:P2P網(wǎng)絡(luò)借貸;非平衡數(shù)據(jù);SMOTE算法;數(shù)據(jù)挖掘;隨機森林

一、引 言

隨著互聯(lián)網(wǎng)的發(fā)展和民間借貸的興起,P2P網(wǎng)絡(luò)借貸作為一種依托于互聯(lián)網(wǎng)的新型金融模式開始興起并迅速發(fā)展壯大?;ヂ?lián)網(wǎng)金融平臺利用搜索引擎、社交平臺、云計算等,搜集和記錄數(shù)據(jù),基于這些數(shù)據(jù),運用數(shù)據(jù)挖掘技術(shù)可以提高金融風(fēng)險監(jiān)控能力。用戶信息、歷史交易數(shù)據(jù)等的收集和記錄,促進了資金供求雙方的信息交流,在一定程度上降低了由于信息不對稱等帶來的金融風(fēng)險。然而,由于中國P2P網(wǎng)絡(luò)借貸起步較晚,信用體系不完善,相關(guān)法律法規(guī)缺失,平臺跑路和借款人不按時還款甚至攜款潛逃等問題仍時有發(fā)生,暴露出了較為嚴(yán)重的資金安全問題。另一方面,步入大數(shù)據(jù)時代,P2P網(wǎng)絡(luò)借貸平臺每日產(chǎn)生的交易數(shù)據(jù)數(shù)量大,包含的借貸信息多樣,更新速度快,如何及時、合理、有效地利用這些數(shù)據(jù)獲取有用信息,提高平臺的風(fēng)險監(jiān)控能力至關(guān)重要。由此,利用平臺的海量交易數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),建立信用風(fēng)險評估模型,為P2P網(wǎng)絡(luò)借貸平臺監(jiān)管、投資者選擇投標(biāo)項目提供依據(jù),具有重要的現(xiàn)實意義。

目前,國外在P2P網(wǎng)絡(luò)借貸方面的研究較為系統(tǒng)深入,在P2P網(wǎng)絡(luò)借貸的基本理論、風(fēng)險問題、借款成功率等方面研究較多。在借款成功率方面,學(xué)者們研究了個人信息如性別、相貌等對借款決策和借款成功率的影響,并運用統(tǒng)計分析方法為借款人提供借款策略選擇的量化分析工具[1-3]。在信用風(fēng)險方面,學(xué)者們運用國外P2P網(wǎng)絡(luò)借貸平臺Prosper、Lending Club等提供的交易數(shù)據(jù)建立模型,進行了深入的研究,Emekter等探索了P2P網(wǎng)絡(luò)借貸違約的影響因素,發(fā)現(xiàn)信用等級、收入債務(wù)比、FICO分值與周轉(zhuǎn)利用率對違約行為有顯著影響[2]。Malekipirbazari等建立了以隨機森林為基礎(chǔ)的分類方法進行信用風(fēng)險評估,證明該方法在識別高信譽借款人上優(yōu)于FICO信用評分和LC信用等級劃分[3]。另外,近年研究發(fā)現(xiàn),社交網(wǎng)絡(luò)在網(wǎng)絡(luò)借貸中具有一定的作用,Lin等發(fā)現(xiàn)借款人的社會資源越豐富,就越容易以較低成本獲得貸款,且違約率更低[4]。Freedman等認(rèn)為社交網(wǎng)絡(luò)能夠傳遞關(guān)于借款人信用風(fēng)險的軟信息,潛在地彌補了Prosper上硬信息的缺失[5]。

國內(nèi)相關(guān)方面的研究起步較晚,對P2P網(wǎng)絡(luò)借貸的研究仍處于較為初級的階段,主要集中于發(fā)展現(xiàn)狀與前景、運營模式、法律制度建設(shè)和監(jiān)管分析、投資決策影響因素[6]。P2P網(wǎng)絡(luò)借貸為個人提供了融資便利,但也存在個人信用體系不健全、逆向選擇和道德風(fēng)險問題。在風(fēng)險研究方面,以信用風(fēng)險的研究為主,包括違約特征分析、平臺信譽等級預(yù)測、信用風(fēng)險評估等。廖理等指出,非完全市場化的利率對借款人的違約概率有一定的預(yù)測作用,但仍有較高比例的違約風(fēng)險反映在個人其他公開信息上[7]。王會娟等研究發(fā)現(xiàn)人人貸的信用認(rèn)證機制能揭示信用風(fēng)險,但評價指標(biāo)單一,決定了揭示作用的局限性[8]。

總的來說,國內(nèi)對于P2P網(wǎng)絡(luò)借貸的研究有待繼續(xù)深入,與國外相比,中國P2P網(wǎng)絡(luò)借貸起步較晚,迅速發(fā)展也是在2012年以后,對外公布數(shù)據(jù)較少,實證研究方面的文獻極少且大多運用的是美國Prosper、Lending Club公布的數(shù)據(jù),方法和結(jié)論不一定適用于國內(nèi)P2P網(wǎng)絡(luò)借貸研究。本文使用R語言和Python編寫網(wǎng)絡(luò)爬蟲程序抓取了國內(nèi)P2P網(wǎng)絡(luò)借貸平臺的交易數(shù)據(jù),不同于傳統(tǒng)的方法,使用平衡效果更佳的SMOTE算法對非平衡數(shù)據(jù)進行處理,再運用6種數(shù)據(jù)挖掘算法建立信用風(fēng)險評估模型,更貼近國內(nèi)網(wǎng)絡(luò)借貸的實際情況,也是針對大數(shù)據(jù)背景下的網(wǎng)絡(luò)借貸信用風(fēng)險問題研究的一種新的嘗試。

二、模型描述

(一)常用數(shù)據(jù)挖掘分類模型

1.決策樹。決策樹是經(jīng)典的分類技術(shù)之一,它以一棵有向無環(huán)樹將分類過程展現(xiàn)出來,簡單直觀,在實踐中應(yīng)用廣泛。在進行數(shù)據(jù)分類的過程中,從根節(jié)點到葉節(jié)點,采用貪心算法選擇節(jié)點劃分變量,使用局部最優(yōu)決策構(gòu)造決策樹。根據(jù)劃分方法的不同分為:基于信息論的方法如ID3、C4.5,基于Gini指標(biāo)的方法如CART、SLIQ和SPRINT,根據(jù)χ2檢驗選擇劃分點的CHAID等,其中ID3只能用于離散型變量。本文選取最常用的CART、C4.5算法。

2.AdaBoost算法。AdaBoost算法是一種提升算法,可以自適應(yīng)地改變訓(xùn)練樣本的分布,使得基分類器側(cè)重于那些難以分類的樣本上。AdaBoost對每一個分類器Cj的預(yù)測值,根據(jù)訓(xùn)練樣本權(quán)值更新參數(shù)αi=0.5ln((1-εi)/εi)(其中εi為錯誤率)進行加權(quán):

3.支持向量機。國內(nèi)學(xué)者傅彥銘等曾運用支持向量機評估網(wǎng)絡(luò)借貸信用風(fēng)險,預(yù)測準(zhǔn)確率為85.6%。支持向量機(support vector machine,SVM)是統(tǒng)計學(xué)習(xí)理論的一種實現(xiàn)方法,其基本思想是基于Mercer定理運用非線性映射把特征空間映射到Hilbert空間,在Hilbert空間使用線性的決策邊界來劃分樣本。SVM可以用于分類和非線性回歸問題以及高維數(shù)據(jù)分析。

4.人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是由大量的節(jié)點相互聯(lián)結(jié)構(gòu)成,是對生物神經(jīng)網(wǎng)絡(luò)的組織結(jié)構(gòu)和活動規(guī)律的模仿。在前向反饋神經(jīng)網(wǎng)絡(luò)中上一層節(jié)點僅和下一層節(jié)點相連,在迭代過程中首先使用前一次迭代所得到的權(quán)值計算網(wǎng)絡(luò)中每個節(jié)點,先計算第k層的輸出再計算第k+1層的輸出,然后根據(jù)誤差大小從相反方向進行權(quán)值更新,重復(fù)上述過程,直到誤差達到允許范圍之內(nèi)。它可以解決大量互相相關(guān)變量的回歸和分類問題,但對噪聲較為敏感,并且權(quán)值更新使用的是梯度下降方法,容易陷入局部極小值。

(二)隨機森林

隨機森林(random forests, RF)是Breiman首次提出的一種基于決策樹的組合分類器算法,采用 CART算法建立的決策樹作為元分類器,使用bagging方法生成不同的訓(xùn)練集,在單棵樹的構(gòu)造過程中,隨機地選擇特征(變量)進行節(jié)點分裂[9]。因此,該算法對噪聲更加魯棒,對多重共線性不敏感,對非平衡數(shù)據(jù)處理得到的結(jié)果比較穩(wěn)健。

第一,生成訓(xùn)練樣本集。采用自助法重采樣技術(shù),從含有N個樣本的原訓(xùn)練集中有放回地隨機抽取k個新的自助樣本集,建立k棵決策樹,每次未被抽到的樣本形成k個袋外數(shù)據(jù)(OOB)。

第二,決策樹節(jié)點分裂。假設(shè)共有M個特征(變量),給定m

第三,組合決策樹。根據(jù)生成的多棵決策樹,采用多數(shù)表決平均所有決策樹的輸出結(jié)果得到最終結(jié)果。

2. 泛化誤差。泛化誤差是指一個分類器對訓(xùn)練集以外數(shù)據(jù)的錯誤分類概率,Breiman通過定義隨機森林的間隔函數(shù),結(jié)合大數(shù)定律(契比雪夫不等式),從理論上證明了當(dāng)樹的數(shù)目足夠大時隨機森林的泛化誤差上界收斂[10]178-179。隨機森林對給定樣本(x,y)的間隔函數(shù)為:

(h(x,θk)=j)

于是,分類器集合{h(x,θ)}的強度為:

s=EX,Ymr(x,y)

間隔函數(shù)值越大,強度越大,分類器正確預(yù)測給定樣本的可能性越大。那么泛化誤差:

3. OOB估計及特征重要值。第一,OOB估計。使用bagging方法進行自助抽樣時,沒有被抽中的數(shù)據(jù)被用來預(yù)測模型分類的正確率,進而得到錯誤率的OOB估計,作為評估模型分類性能的指標(biāo)。每一棵決策樹都可得到一個OOB估計,將所有決策樹的OOB估計取平均值,得到隨機森林的泛化誤差估計。第二,特征重要值。隨機森林可以計算單個特征的重要程度,對已生成的隨機森林模型中的每棵樹,用袋外數(shù)據(jù)測試其性能,得到一個OOB準(zhǔn)確率;隨機地改變袋外數(shù)據(jù)中某個特征v的值即人為加入噪聲干擾,用新的數(shù)據(jù)測試該決策樹的性能,得到一個新的OOB準(zhǔn)確率。原OOB準(zhǔn)確率與新OOB準(zhǔn)確率的差值即為特征v在該決策樹上的重要值。將特征v在隨機森林中所有決策樹上的重要值進行平均,得到特征v的重要值。當(dāng)原始數(shù)據(jù)中特征數(shù)目較多時,根據(jù)重要值排序選擇部分重要特征輸入模型可得最佳模型。

三、數(shù)據(jù)收集及處理

(一)數(shù)據(jù)來源

P2P網(wǎng)絡(luò)借貸的借貸過程通過第三方平臺實現(xiàn),目前國內(nèi)P2P網(wǎng)絡(luò)借貸平臺已達1 700多家,人人貸是國內(nèi)最大、成立最早的P2P網(wǎng)絡(luò)借貸平臺之一。本文使用R語言和Python編寫網(wǎng)絡(luò)爬蟲程序獲取了人人貸公布的投資列表數(shù)據(jù)(http://www.renrendai.com/lend/loanList.action),包括每一個借款項目的借款詳情,收集數(shù)據(jù)共1 022條,包含ID、金額、利率等近50個變量。

(二)數(shù)據(jù)預(yù)處理

1.剔除部分變量。取值均相同的變量,如還款方式(均為按月還款/等額本息)、嚴(yán)重逾期、逾期金額、超出金額(均為0)等;含義重復(fù)的變量,如項目ID(與信用等級對應(yīng))、信用額度(等于借款總額)等;與研究目的無關(guān)的變量,如昵稱、允許訪問等;數(shù)據(jù)嚴(yán)重不完整的變量,如加入人次、滿標(biāo)用時等。

2.缺失值處理。部分借款項目中缺失公司行業(yè)、公司規(guī)模、崗位/職稱三個變量的值,經(jīng)分析發(fā)現(xiàn),這些項目的借款人均為網(wǎng)商,于是將公司行業(yè)記為電子商務(wù),公司規(guī)模記為0,崗位/職稱記為個人店主。

3.數(shù)據(jù)規(guī)范化處理。將逾期次數(shù)為0的標(biāo)記為1,大于0的標(biāo)記為0,作為輸出變量;將性別、房(車)產(chǎn)、房(車)貸等二值型變量值以0和1表示;標(biāo)的類型、借款標(biāo)題、學(xué)歷等變量以整數(shù)(1,2,3,…,n)標(biāo)記;工作時間為時間段形式,取中位數(shù)作為變量值;將借款金額和借款總額轉(zhuǎn)換成0~10之間的值:x′=(X-min(X))/(max(X)-min(X))×10。預(yù)處理后數(shù)據(jù)的基本情況見表1。

四、基于數(shù)據(jù)挖掘算法的信用風(fēng)險評估模型

(一)非平衡數(shù)據(jù)處理

本文收集的數(shù)據(jù)中違約項目為30個(2.935%),非違約項目為992個(97.065%),屬于非平衡數(shù)據(jù)集。由于類的分布是不平衡的,傳統(tǒng)數(shù)據(jù)挖掘算法在處理這類數(shù)據(jù)時容易傾向于多數(shù)類,對少數(shù)類的關(guān)注較少,得到的模型分類性能降低。

表1 數(shù)據(jù)基本情況

注:表中數(shù)據(jù)經(jīng)過了處理,其中第15行中工作時間是按中位數(shù)值處理。

1.SMOTE算法。國內(nèi)外學(xué)者對非平衡類數(shù)據(jù)問題進行了深入的研究,提出了多種不同的處理方法:一類是使用數(shù)據(jù)采樣方法來平衡數(shù)據(jù)集,比如向上采樣(人為地增加少數(shù)類的樣本)、向下采樣(人為地減少多數(shù)類的樣本)等;另一類是對數(shù)據(jù)挖掘算法進行改進,比如代價敏感學(xué)習(xí)等。向下采樣容易導(dǎo)致一些重要樣本信息的丟失,因此在實踐中使用較多的是向上采樣。最簡單的向上采樣方法是通過隨機復(fù)制少數(shù)類樣本來平衡數(shù)據(jù),但容易導(dǎo)致過擬合[11]111-117。

合成少數(shù)類過取樣算法(簡稱SMOTE)利用少數(shù)樣本生成人工樣本來平衡數(shù)據(jù),在一定程度上解決了過擬合問題,該算法是由Chawla等提出的,通過在特征空間中相鄰近樣本之間插入人工樣本來增加少數(shù)類樣本的數(shù)目[12]。對少數(shù)類Smin中的每一個樣本Xi∈Smin,搜素k個最近鄰點,近鄰可以根據(jù)距離(歐氏距離等)或相似系數(shù)(相關(guān)系數(shù)等)選擇。從k個最近鄰點中隨機地選擇一個樣本點Yj。計算Xi與Yj對應(yīng)特征向量的差值,并產(chǎn)生一個0~1之間的隨機數(shù)δ,最后合成一個少數(shù)類的人工樣本Xnew為:

Xnew=Xi+(Xi-Yj)×δ

若向上采樣倍率為n,那么在k個最近鄰點中隨機地選擇n個樣本點,即j=1,2,…,n。重復(fù)上述步驟,直到所有少數(shù)類樣本都被處理完成為止。

在實踐中,Chawla等(2012)將向下取樣與SMOTE算法結(jié)合進行取樣,取得了良好效果。SMOTE算法可通過R語言的DMwR包中的SMOTE函數(shù)實現(xiàn),SMOTE (formula, data, perc.over=n1,k=5, perc.under=m1)假設(shè)原數(shù)據(jù)中少數(shù)類和多數(shù)類的樣本數(shù)分別為N、M,向上采樣倍率n=n1%,向下采樣倍率m=m1%,最后得到的數(shù)據(jù)集中少數(shù)類樣本數(shù)為N+nN、多數(shù)類樣本數(shù)為nNm。

2. P2P網(wǎng)絡(luò)借貸數(shù)據(jù)平衡性處理。首先,運用簡單隨機抽樣方法將原始數(shù)據(jù)分為訓(xùn)練集和測試集。然后,采用SMOTE算法平衡訓(xùn)練集數(shù)據(jù),少數(shù)類N=15、多數(shù)類M=496,取n=500%、m=200%、k=5,平衡后的訓(xùn)練集中少數(shù)類與多數(shù)類的比例為3∶5,運用于后續(xù)模型建立效果最好。

表2 數(shù)據(jù)構(gòu)成情況

注:0,1表示還款情況類別。0:逾其次數(shù)>0違約,1:逾期次數(shù)=0(非違約)。

(二)模型實證分析

本文以還款情況作為分類變量,使用R語言編程,根據(jù)準(zhǔn)確率和AUC的變化進行各個模型的參數(shù)選擇,獲得各個數(shù)據(jù)挖掘模型的分析結(jié)果。

1.模型參數(shù)選擇與模型結(jié)果。這里主要介紹隨機森林的參數(shù)選擇,根據(jù)準(zhǔn)確率和AUC的變化選擇生成樹的棵數(shù)(ntree)和節(jié)點分支所選變量個數(shù)(mtry)。在基于新訓(xùn)練集建模的過程中,當(dāng)生成樹的棵數(shù)小于40時,錯誤率均在0~0.05之間不規(guī)則變動,當(dāng)其大于40時預(yù)測錯誤率等于0;節(jié)點所選變量個數(shù)在3~12之間時,準(zhǔn)確率和AUC均達最大且處于平穩(wěn)狀態(tài)。因此,選取ntree=800、mtry=3建立模型,訓(xùn)練集中所有類別均預(yù)測正確,錯誤率的OOB估計值為0。具體見圖1。

表3列出了各個模型的參數(shù)選擇結(jié)果和重要變量,綜合來看,變量Paid、Succeed、Application、Score、Field、Size、Grade、Emplength等較為重要,而AdaBoost和隨機森林的運行結(jié)果顯示House、Marriage、Autoloan、Mortgage、Car、LoanType、PrepaymentRate等變量重要值較小甚至為零,說明信用檔案中的歷史借款信息(成功借款、還清筆數(shù)、申請借款)以及信用等級和信用評分、個人信息中的工作情況(公司規(guī)模、工作時間)等在信用風(fēng)險評估

中起著重要作用,而個人信息(婚姻狀況、房/車產(chǎn)(貸)等)重要程度較低。信用等級和評分是人人貸根據(jù)借款人提交的材料按照信用評級機制(加減分規(guī)則)進行加工處理之后呈現(xiàn)給投資者的,在一定程度上綜合反映了借款人的信用情況。歷史借款信息之所以也是重要變量,是因為成功借款次數(shù)為1,還清借款次數(shù)為0的借款人為新用戶,不存在逾期記錄;借款人的工作時間、公司規(guī)模等情況,反映了借款人工作狀況的穩(wěn)定性,說明了其按時還款的能力。平臺應(yīng)加強重要信息的收集和儲存,以提高審核階段對劣質(zhì)借款的篩選準(zhǔn)確率,使投資者能夠在保證資金安全的前提下獲得收益。

圖1 隨機森林參數(shù)選擇

表3 各個模型參數(shù)選擇及重要變量

2. 數(shù)據(jù)平衡性處理前后模型性能比較。在實踐中,一般采用準(zhǔn)確率來評價分類器的性能,但在非平衡數(shù)據(jù)分類問題中,通常少數(shù)類的正確分類更有價值,而準(zhǔn)確率將各個類同等對待,如果僅采用準(zhǔn)確率來評價模型是不合適的,因此也考慮其他度量如靈敏度(真正率)和特指度(真負(fù)率)、ROC曲線與AUC(ROC曲線下方的面積)等??偟膩碚f,使用SMOTE算法對訓(xùn)練集進行處理后建立的模型優(yōu)于使用原訓(xùn)練集建立的模型。

表4 各個模型分類結(jié)果匯總

第一,準(zhǔn)確率。使用新訓(xùn)練集建立的模型準(zhǔn)確率在0.963~0.982之間,排名前三是ANN、RF、C4.5,雖然CART、AdaBoost、SVM、RF的準(zhǔn)確率略有下降,但是6個模型對少數(shù)類(違約項目)的預(yù)測準(zhǔn)確率即真正率均有明顯提高,其中C4.5和ANN模型無論是對多數(shù)類還是少數(shù)類的預(yù)測準(zhǔn)確率都高于使用原訓(xùn)練集建立的C4.5和ANN模型。

第二,ROC曲線和AUC。圖2為兩組模型的ROC曲線,ROC曲線越靠近左上角說明模型的分類性能越好,使用新訓(xùn)練集建立的模型ROC曲線更集中于左上角。使用SMOTE算法進行平衡性處理后建立的一組模型的AUC有明顯提高且均達0.85以上,排名前三的為RF、CART、C4.5,其中隨機森林(RF)的AUC達0.987接近于1,明顯優(yōu)于其他模型。

在信用風(fēng)險問題研究中,一般來說,準(zhǔn)確預(yù)測少數(shù)類樣本,對投資者確定投資項目、平臺篩選借款項目,保證資金安全,更有價值。因此,本文引入SMOTE算法對原訓(xùn)練集數(shù)據(jù)進行處理,提高了信用風(fēng)險評估模型的性能。

圖2各模型的ROC曲線

3. 各個模型性能比較分析。由表4可知使用新訓(xùn)練集建立的模型中,隨機森林模型的真正率為1,AUC為0.987,準(zhǔn)確率亦較高,并且它正確識別了所有的違約樣本,可以初步判定隨機森林模型的性能最佳。

本部分引入3折交叉驗證,進行最佳模型的最終判定。原始數(shù)據(jù)中因變量有非違約和違約兩個類別,為了平衡,將兩個類別中的每一類都隨機地分為3份,最后得到包含兩類別的3份數(shù)據(jù)集。每次運行,選擇一份作為測試集,剩下兩份作為訓(xùn)練集,運用SMOTE算法對訓(xùn)練集數(shù)據(jù)進行處理,再用于模型建立,并用測試集檢驗?zāi)P偷姆诸愋阅堋?/p>

由表5可知,真正率的均值跨度較大即差異較大,排名靠前的是RF、CART、ANN,均達0.85以上,說明這3個模型對少數(shù)類的識別能力較強;而真負(fù)率(0.949~0.978)和準(zhǔn)確率(0.946~0.976)的差異較小,真負(fù)率排名前3的是RF、AdaBoost、C4.5,準(zhǔn)確率排名前3的是RF、C4.5、AdaBoost,由于準(zhǔn)確率將少數(shù)類和多數(shù)類樣本同等對待,因而只能作為判定的一個參考,不作為考慮的主要因素。除SVM和AdaBoost外,AUC均大于0.9,AUC排名靠前的是RF、CART、ANN。因此,隨機森林模型的性能最好,可以用于P2P網(wǎng)絡(luò)借貸的信用風(fēng)險評估。

表5 3折交叉驗證結(jié)果

注:少數(shù)類記為正類,多數(shù)類記為負(fù)類,TP為被正確預(yù)測的正類樣本數(shù),F(xiàn)P為被錯誤預(yù)測的負(fù)類樣本數(shù),F(xiàn)N為被錯誤預(yù)測的正類樣本數(shù), TN為被正確預(yù)測的負(fù)類樣本數(shù)。

五、結(jié)論與展望

本文針對P2P網(wǎng)絡(luò)借貸中的信用風(fēng)險問題進行深入研究,并建立數(shù)據(jù)挖掘模型評估借款人的信用風(fēng)險,為平臺做好信用風(fēng)險評估模型的建立和應(yīng)用提供一定的參考。研究結(jié)果顯示:

第一,針對非平衡數(shù)據(jù),采用SMOTE算法對原訓(xùn)練集進行處理,再用于建模,模型整體預(yù)測的準(zhǔn)確率變化較小,ROC曲線更靠近左上角且AUC有明顯提高,模型對存在違約風(fēng)險項目的識別能力顯著提高。因此,SMOTE算法能夠提高各個信用風(fēng)險評估模型的性能。第二,使用3折交叉驗證評估模型性能。無論是真正率、真負(fù)率和準(zhǔn)確率,還是ROC曲線和AUC,隨機森林模型都優(yōu)于其他幾個模型,其次是CART算法、人工神經(jīng)網(wǎng)絡(luò)、C4.5算法。第三,變量重要性。借款人的個人信息中公司規(guī)模、工作時間較為重要,而婚姻狀況、房/車產(chǎn)(貸)等信息重要程度較低,信用檔案信息包括歷史借款信息如申請借款、成功借款、還清借款,信用評估信息如信用分?jǐn)?shù)、信用等級等也尤為重要。因此,平臺應(yīng)加強上述重要信息的收集和審核。

隨機森林模型對違約項目的識別能力最好,且整體評估性能最佳,可以用于P2P網(wǎng)絡(luò)借貸中借款人的信用風(fēng)險評估。此外,信用風(fēng)險評估模型的建立和應(yīng)用有助于平臺有效地對海量借款信息數(shù)據(jù)進行分析,推動以大數(shù)據(jù)為基礎(chǔ)的新型信用評分體系的建立和完善,也將對平臺的風(fēng)險控制起到良好的推進作用。未來研究將致力于以下幾個方面:引入用戶行為分析相關(guān)理論對借款人進行用戶行為分析,并探索實時用戶信用風(fēng)險評估系統(tǒng)的建立。

參考文獻:

[1]Puro L, Teich J E, Wallenius H, et al. Borrower Decision Aid for People-to-people Lending[J]. Decision Support Systems, 2010, 49(1).

[2]Emekter R, Tu Y, Jirasakuldech B. Evaluating Credit Risk and Loan Performance in Online Peer-to-Peer (P2P) Lending[J]. Applied Economics, 2015, 47(1).

[3]Malekipirbazari M, Aksakalli V. Risk Assessment in Social Lending Via Random Forests[J]. Expert Systems with Applications, 2015, 42(10).

[4]Lin M. Peer-to-peer Lending: An Empirical Study[R]. AMCIS 2009 Doctoral Consortium, San Francisco, California,2009.

[5]Freedman S, Jin G Z. Do Social Networks Solve Information Problems for Peer-to-peer Lending? Evidence from Prosper[J]. Ssrn Electronic Journal, 2008(8).

[6]李焰,高弋君,李珍妮,等.借款人描述性信息對投資人決策的影響——基于 P2P 網(wǎng)絡(luò)借貸平臺的分析[J]. 經(jīng)濟研究,2014(A1).

[7]廖理,李夢然,王正位.聰明的投資者:非完全市場化利率與風(fēng)險識別——來自P2P網(wǎng)絡(luò)借貸的證據(jù)[J]. 經(jīng)濟研究,2014(7).

[8]王會娟,廖理.中國網(wǎng)絡(luò)借貸平臺信用認(rèn)證機制研究——來自“人人貸”的經(jīng)驗證據(jù)[J]. 中國工業(yè)經(jīng)濟,2014(4).

[9]Breiman L. Random Forests[J]. Machine Iearning, 2001, 45(1).

[10]陳封能,斯坦巴赫, 庫碼爾.數(shù)據(jù)挖掘?qū)д揫M]. 范明,范宏建,譯.北京:人民郵電出版社,2011.

[11]Japkowicz N. The Class Imbalance Problem: Significance and Strategies[C]∥ In Proceedings of the 2000 International Conference on Artificial Intelligence (IC-AI'2000): Special Track on Inductive Learning, Las Vegas, Nevada, 2000.

[12]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1).

(責(zé)任編輯:李勤)

The Evaluation of the Borrower's Credit Risk in Peer-to-Peer Lending under the Background of Big Data:Evidence from RenRen Dai

LIU Xiang-dong, LI Fen

(School of Economics, Jinan University, Guangzhou 510632, China)

Abstract:Massive transaction data is flowing on the Peer-to-Peer lending platforms every day in the age of big data. For the purpose of making the most of these data to control the credit risk effectively, we established the credit risk evaluation model of Peer-to-Peer lending using data mining methods. Moreover, due to the imbalance of the data, we decided to use the synthetic minority over-sampling technique (SMOTE) to improve the performance of the credit risk model after several tries. The empirical study found that Random Forests is more suitable for the evaluation of credit risk. CART, ANN and C4.5 also perform well. In addition, the borrower's marital status and possession of house, car, mortgage and auto loan is of no importance, but their personal information (company size, employment length, etc.) and credit information (loan information, credit score, etc.) play an important role in the evaluation of credit risk.

Key words:Peer-to-Peer lending; imbalanced data; SMOTE; data mining; random forests

收稿日期:2015-11-18

基金項目:國家自然科學(xué)基金面上項目《帶Lévy跳的多因子市道輪換框架下的仿射利率結(jié)構(gòu)模型》(71471075);教育部人文社會科學(xué)研究一般項目《基于市道輪換框架下帶Lévy跳的高頻數(shù)據(jù)的波動率》(14YJAZH052);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目“暨南跨越計劃”《PMCMC算法在市道輪換框架下利率結(jié)構(gòu)模型中的應(yīng)用》(15JNKY003)

作者簡介:柳向東,男,湖南瀏陽人,理學(xué)博士,教授,博士生導(dǎo)師,研究方向:大數(shù)據(jù)理論及統(tǒng)計分析;

中圖分類號:F832∶C812

文獻標(biāo)志碼:A

文章編號:1007-3116(2016)05-0041-08

李鳳,女,重慶黔江人,碩士生,研究方向:大數(shù)據(jù)統(tǒng)計與計量分析。

【統(tǒng)計應(yīng)用研究】

猜你喜歡
P2P網(wǎng)絡(luò)借貸隨機森林數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于P2P網(wǎng)絡(luò)借貸的信用風(fēng)險管控研究
我國P2P網(wǎng)絡(luò)借貸平臺的風(fēng)險防范
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
汪清县| 镇原县| 宁海县| 乌拉特前旗| 疏附县| 安义县| 富蕴县| 菏泽市| 扎兰屯市| 象州县| 玉山县| 通山县| 康定县| 高邑县| 玉田县| 天水市| 柳河县| 通化县| 吉木萨尔县| 嘉荫县| 浙江省| 鄂尔多斯市| 南康市| 法库县| 嵩明县| 封丘县| 乡宁县| 康马县| 阳东县| 微博| 浦城县| 永济市| 年辖:市辖区| 固镇县| 湖北省| 普定县| 天津市| 深泽县| 龙胜| 竹北市| 海南省|