周玉琴 張曉玫 羅璇
(西南財(cái)經(jīng)大學(xué),四川成都 611130)
基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸成功率預(yù)測(cè)研究
周玉琴 張曉玫 羅璇
(西南財(cái)經(jīng)大學(xué),四川成都 611130)
P2P網(wǎng)絡(luò)借貸成功率較低是P2P網(wǎng)絡(luò)借貸市場(chǎng)快速發(fā)展瓶頸。探索借貸成功率提高路徑,構(gòu)建基于隨機(jī)森林的網(wǎng)絡(luò)借貸成功率評(píng)估模型,根據(jù)“人人貸”平臺(tái)2015年一季度訂單數(shù)據(jù),選取借款人基本特征、歷史信息、貸款特征及認(rèn)證信息等33個(gè)變量,最大限度包含借款訂單信息。研究表明歷史借款成功率、未還清借款量、收入認(rèn)證等是借貸成功率重要影響因素;預(yù)測(cè)P2P網(wǎng)絡(luò)借貸成功率時(shí),隨機(jī)森林方法準(zhǔn)確率明顯優(yōu)于Logistic回歸模型等方法。
隨機(jī)森林;smote算法;P2P網(wǎng)絡(luò);歷史借貸成功率
P2P網(wǎng)絡(luò)借貸依托于互聯(lián)網(wǎng)技術(shù)與民間借貸,可快速發(fā)布信息并被投資者檢索,促成交易高效匹配,提升市場(chǎng)效率。P2P網(wǎng)絡(luò)借貸準(zhǔn)入門(mén)檻較低[1](投資者僅需出資50元以上即可),參與方式較靈活,借貸雙方具有廣泛性。然而,由于交易通過(guò)互聯(lián)網(wǎng)渠道完成,借款人可能是傳統(tǒng)金融機(jī)構(gòu)篩選后的“次級(jí)客戶(hù)”,而借貸平臺(tái)無(wú)法考查所有借款人情況,且出借人可能不具備良好風(fēng)險(xiǎn)識(shí)別與承受力,導(dǎo)致基于信用的網(wǎng)絡(luò)借貸平臺(tái)借貸成功率偏低,制約網(wǎng)絡(luò)借貸市場(chǎng)持續(xù)健康發(fā)展。如何從大量借款訂單信息中挑選少量預(yù)測(cè)P2P網(wǎng)絡(luò)借貸平臺(tái)借貸成功率,進(jìn)而減少信息搜集成本,一直被監(jiān)管層、投資者以及學(xué)者廣泛關(guān)注。研究表明性別、借款人信用等級(jí)、年齡以及信用評(píng)級(jí)等對(duì)P2P網(wǎng)絡(luò)借貸成功率具有顯著影響[2-3],已有文獻(xiàn)多采用統(tǒng)計(jì)模型(多元回歸、Logistic回歸和Tobit回歸等)研究網(wǎng)絡(luò)借貸成功率影響因素,但并未給出變量重要程度排序。雖然統(tǒng)計(jì)模型具有廣泛適用性,但線性、非線性傳統(tǒng)統(tǒng)計(jì)學(xué)嚴(yán)格假設(shè)條件要求預(yù)測(cè)變量、函數(shù)形式間相互獨(dú)立,與實(shí)際函數(shù)關(guān)系不符。因此,本文運(yùn)用機(jī)器學(xué)習(xí)方法中的隨機(jī)森林算法研究P2P網(wǎng)絡(luò)借貸成功率影響因素。
隨機(jī)森林是一種非參數(shù)統(tǒng)計(jì)方法,預(yù)測(cè)準(zhǔn)確率與噪聲容忍度明顯優(yōu)于支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等機(jī)器學(xué)習(xí)方法[4]。近年來(lái),隨機(jī)森林被廣泛運(yùn)用到客戶(hù)流失、信用風(fēng)險(xiǎn)管理、客戶(hù)忠誠(chéng)度研究等領(lǐng)域,學(xué)者發(fā)現(xiàn)較之Logistic回歸與普通線性回歸,隨機(jī)森林預(yù)測(cè)效果明顯更優(yōu)[5-6]。因此研究引入非參數(shù)隨機(jī)森林模型評(píng)估與預(yù)測(cè)P2P網(wǎng)絡(luò)借貸成功率,為網(wǎng)絡(luò)借貸平臺(tái)、借款人及投資者提供參考。本研究與已有研究主要區(qū)別:一是運(yùn)用隨機(jī)森林模型評(píng)估P2P網(wǎng)絡(luò)借貸成功率,并與其他模型比較評(píng)估準(zhǔn)確率;二是運(yùn)用隨機(jī)森林模型分析各變量重要程度,降低數(shù)據(jù)維度,為投資者選取標(biāo)的提供指標(biāo)參考;三是在借貸成功率影響因素選擇上,選取33個(gè)變量,最大限度包含借款訂單信息。
(一)Logistic回歸模型
選擇通用Logistic回歸模型作為其他方法比較基準(zhǔn),可識(shí)別自變量對(duì)P2P網(wǎng)絡(luò)借貸成功率的影響方向與程度。Logistic模型具體形式見(jiàn)式(1):
其中Pi為網(wǎng)絡(luò)借貸成功率,βi(i=0,1,…,n)為待估計(jì)系數(shù),Xi(i=0,1,…,n)為自變量,εi為隨機(jī)誤差項(xiàng)。網(wǎng)絡(luò)借貸成功率指借款成功率變量為1的概率,自變量包括借款人基本特征、歷史信息、貸款特征、認(rèn)證信息等33個(gè)變量。
(二)隨機(jī)森林分類(lèi)模型
Logistic回歸模型解決因變量不連續(xù)回歸問(wèn)題,但線性或非線性以及變量間獨(dú)立傳統(tǒng)統(tǒng)計(jì)假設(shè)與現(xiàn)實(shí)數(shù)據(jù)不符,為開(kāi)發(fā)一種更精確通用方法解決此問(wèn)題,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于預(yù)測(cè),取得較好效果。大量理論與實(shí)證研究證明隨機(jī)森林預(yù)測(cè)準(zhǔn)確率較高,對(duì)異常值與噪聲具有容忍度,且不易出現(xiàn)過(guò)擬合[4]。隨機(jī)森林方法在生物信息學(xué)、農(nóng)學(xué)和醫(yī)學(xué)等領(lǐng)域應(yīng)用,但尚未運(yùn)用于P2P網(wǎng)絡(luò)借貸成功率影響因素分析。因此,本研究選用此方法評(píng)估P2P網(wǎng)絡(luò)借貸成功率。
隨機(jī)森林方法具有很好自適應(yīng)功能,結(jié)合隨機(jī)子空間算法和Bagging算法特點(diǎn)與優(yōu)勢(shì),以決策樹(shù)為基分類(lèi)器。在訓(xùn)練集抽樣時(shí)采用Bagging算法無(wú)放回抽樣法,借鑒隨機(jī)子空間方法,在訓(xùn)練集中僅抽取部分特征訓(xùn)練,最終由訓(xùn)練決策樹(shù)投票決定分類(lèi)結(jié)果,如圖1所示。即隨機(jī)森林分類(lèi)是組合分類(lèi)模型,由若干決策樹(shù)分類(lèi)模型{h(X,θi),i= 1,…k}組成,且參數(shù)集{θi}是獨(dú)立分布隨機(jī)變量,在給定自變量X下,各決策樹(shù)分類(lèi)模型均有一票投票權(quán)選擇最優(yōu)分類(lèi)結(jié)果。網(wǎng)絡(luò)借貸成功率問(wèn)題中,因變量為P2P網(wǎng)絡(luò)借貸成功率(成功為1,失敗為0),由于因變量是二值變量,估計(jì)模型采用隨機(jī)森林二分類(lèi)模型,而非隨機(jī)森林回歸模型。
隨機(jī)森林分類(lèi)器算法如下:第一步,從P2P網(wǎng)絡(luò)借貸數(shù)據(jù)中抽取一定比例包含借款訂單信息的樣本集D作為原始訓(xùn)練集,剩余樣本集作為預(yù)測(cè)集;第二步,運(yùn)用Bootstrap重抽樣方法從D中抽取k個(gè)子樣本集,其中子樣本集與原始樣本集D樣本容量一致,記為Di(i=1,2,…,k),并生成隨機(jī)向量序列θi(i=1,…,k),通過(guò)構(gòu)造不同訓(xùn)練集增加模型間差異,提高組合分類(lèi)模型外推預(yù)測(cè)能力;第三步,從P2P網(wǎng)絡(luò)借貸數(shù)據(jù)中篩選出用于研究網(wǎng)絡(luò)借貸成功率的自變量矩陣X,然后對(duì)各子集樣本Di(i=1,2,…,k)分別建立網(wǎng)絡(luò)借貸決策模型{h(X,θi),i=1,…,k};第四步,構(gòu)建多分類(lèi)模型系統(tǒng),該系統(tǒng)由經(jīng)過(guò)k輪學(xué)習(xí)得到分類(lèi)模型序列{h1(X),h2(X),…,hk(X)}組成,且最終分類(lèi)決策可用公式(2)(說(shuō)明最終分類(lèi)由多數(shù)投票決策方式確定)表示,其中,Y為目標(biāo)變量(或稱(chēng)輸出變量),hi表示單個(gè)決策樹(shù)分類(lèi)模型,H(X)為組合分類(lèi)模型,I(·)表示性函數(shù)。
篩選變量是隨機(jī)森林重要特征,運(yùn)用預(yù)測(cè)精度法與基尼值法評(píng)價(jià)變量重要性。首先,對(duì)生成的隨機(jī)森林,用OOB(out-of-bag)數(shù)據(jù)(在使用Bootstrap方法抽樣時(shí),訓(xùn)練集中數(shù)據(jù)不會(huì)出現(xiàn)在各Bootstrap樣本中,OOB數(shù)據(jù)即未被抽中數(shù)據(jù))測(cè)試性能,得到原始OOB基尼值;其次,在OOB某特征值中人為添加噪聲干擾(即隨機(jī)改變特征值),用改變后OOB數(shù)據(jù)測(cè)試隨機(jī)森林性能,得到加入噪聲后的OOB基尼值;最后,相應(yīng)特征重要性度量值為原OOB基尼值與加入噪聲后OOB基尼值之差。加入噪聲后OOB基尼值下降幅度越大,則該特征重要程度越高。
(三)模型評(píng)價(jià)標(biāo)準(zhǔn)
運(yùn)用準(zhǔn)確度、靈敏度和特異性指標(biāo)比較各模型結(jié)果,準(zhǔn)確度度量全部樣本被正確分類(lèi)比例,靈敏度度量正例樣本被正確分類(lèi)比例,特異性度量負(fù)例樣本被正確分類(lèi)比例。指標(biāo)值越大,說(shuō)明模型效果越好。通過(guò)混淆矩陣(見(jiàn)表1)定義三個(gè)指標(biāo),將值得關(guān)注的數(shù)據(jù)稱(chēng)為正類(lèi)(本研究指貸款成功樣本),其他稱(chēng)為反類(lèi)。
準(zhǔn)確度=100×(TP+TN)/(TP+TN+FP+FN)
靈敏度=100×TP/(TP+FN)
特異性=100×TN/(TN+FP)
(一)變量選擇
根據(jù)已有研究,認(rèn)為借款人基本特征及歷史信息、借款特征、平臺(tái)認(rèn)證信息等與P2P網(wǎng)絡(luò)借貸成功率存在相關(guān)關(guān)系。
借款人基本特征主要包含借款人婚姻狀況、學(xué)歷、性別、年齡、行業(yè)、公司規(guī)模、工作城市、收入范圍、工作階層、房產(chǎn)、房貸、車(chē)產(chǎn)、車(chē)貸、信用等級(jí)等指標(biāo)。借款人歷史信息指借款人歷史借貸成功率、未還清借款數(shù)量、逾期金額、嚴(yán)重逾期筆數(shù),借款人持有債權(quán)數(shù)量、U計(jì)劃①U計(jì)劃在用戶(hù)認(rèn)可標(biāo)的范圍內(nèi),對(duì)符合要求標(biāo)的自動(dòng)投標(biāo),且回款本金在相應(yīng)期限內(nèi)自動(dòng)復(fù)投,期限結(jié)束后U計(jì)劃會(huì)通過(guò)“人人貸”債券轉(zhuǎn)讓平臺(tái)轉(zhuǎn)讓退臺(tái),詳細(xì)信息可參考http://www.renrendai.com/financeplan/listPlan.action。數(shù)量、薪計(jì)劃②薪計(jì)劃是針對(duì)工薪族理財(cái)需求的高效自動(dòng)投標(biāo)工具,用戶(hù)可在每月固定日期投入固定金額,詳細(xì)信息可以參考http://www.renrendai. com/autoinvestplan/listPlan!detailPlan.action。數(shù)量等特征。
借款特征指借款金額、期限、用途、利率、保障方式等,借款金額與借貸成功關(guān)系研究最多。大量研究表明,借款人借貸行為與其基本特征及貸款特征高度相關(guān)。Seth研究指出借款人基本信息與借款金額影響投資者最終投資決策,借款人提高借款金額時(shí),借貸成功率相對(duì)下降[7];Pope等分析借貸成功率與借款人年齡關(guān)系,研究表明較之35歲以下人群,35~60歲人群貸款成功機(jī)率更高[3]。
圖1 隨機(jī)森林結(jié)構(gòu)示意
表1 混淆矩陣
認(rèn)證信息包含機(jī)構(gòu)擔(dān)保、信用報(bào)告、工作認(rèn)證、實(shí)地認(rèn)證、身份認(rèn)證、收入認(rèn)證、房產(chǎn)認(rèn)證、車(chē)產(chǎn)認(rèn)證、婚姻認(rèn)證等特征。Puro等研究表明當(dāng)前拖欠記錄、總負(fù)債償還比例及信用得分等是借貸成功率主要影響因素[8];王會(huì)娟和廖理[9]研究P2P網(wǎng)絡(luò)借貸平臺(tái)信用認(rèn)證機(jī)制對(duì)借貸行為的影響,發(fā)現(xiàn)信用評(píng)級(jí)越高,借款成功率越高且借款成本越低,進(jìn)一步分析認(rèn)證指標(biāo)與方式對(duì)借貸行為的影響,研究表明工作、收入、車(chē)產(chǎn)、房產(chǎn)等認(rèn)證指標(biāo)對(duì)借貸行為影響較大。
(二)變量說(shuō)明與數(shù)據(jù)處理
1.數(shù)據(jù)來(lái)源與變量說(shuō)明。采用2015年一季度“人人貸”網(wǎng)站全部借款訂單作為初始樣本,共收集56 614筆真實(shí)交易數(shù)據(jù),其中借款失敗樣本46 062份,借款成功樣本10 552份。數(shù)據(jù)集包含33個(gè)變量,包括借款人基本特征、借款人歷史信息、借款特征及認(rèn)證信息等,見(jiàn)表2。
2.數(shù)據(jù)預(yù)處理。為剔除缺失值對(duì)實(shí)證分析的影響,必須檢測(cè)缺失值,原始樣本中含有缺失值29 261個(gè),其中成功借款1 030個(gè),失敗借款28 231個(gè),剔除缺失值后剩余有效樣本27 353個(gè),其中成功借款9 522個(gè),失敗借款17 831個(gè)。從原始數(shù)據(jù)缺失變量個(gè)數(shù)(見(jiàn)表3)發(fā)現(xiàn),缺失變量超過(guò)3個(gè)的借款訂單成功概率極小,說(shuō)明借貸成功率與借款人信息完整程度成正比。由于實(shí)地認(rèn)證標(biāo)③實(shí)地認(rèn)證標(biāo)由“人人貸”與友眾信業(yè)金融信息服務(wù)(上海)有限公司(以下簡(jiǎn)稱(chēng)“友信”)共同推出,產(chǎn)品在原有審核基礎(chǔ)上,增加友信前端工作人員對(duì)借款人情況實(shí)地走訪,審核調(diào)查以及貸中、貸后服務(wù)環(huán)節(jié)中,加強(qiáng)風(fēng)險(xiǎn)管理控制,達(dá)到雙重保障效果。、機(jī)構(gòu)擔(dān)保標(biāo)④“人人貸”為提高資金借貸安全性,引入“中安信業(yè)”“證大速貸”作為合作伙伴,為相應(yīng)借款承擔(dān)連帶保證責(zé)任,有機(jī)構(gòu)擔(dān)保的借款為機(jī)構(gòu)擔(dān)保標(biāo)。本研究討論借貸行為影響因素,主要針對(duì)無(wú)擔(dān)保借款,因此剔除此類(lèi)觀測(cè)值。及信用認(rèn)證標(biāo)認(rèn)證機(jī)制不同,因此剔除機(jī)構(gòu)擔(dān)保標(biāo)576個(gè)和實(shí)地認(rèn)證標(biāo)8 222個(gè),剩余有效樣本18 555個(gè)。樣本中非信用認(rèn)證標(biāo)8 798個(gè),其中成功借款8 796個(gè),失敗借款2個(gè),說(shuō)明經(jīng)過(guò)實(shí)地認(rèn)證與機(jī)構(gòu)擔(dān)保的借款成功率較高。
表2 變量說(shuō)明
表3 樣本中缺失變量個(gè)數(shù)
剔除缺失值和非信用認(rèn)證標(biāo)后,剩余有效樣本中成功借款726個(gè),失敗借款17 829個(gè),數(shù)據(jù)集過(guò)多集中于失敗借款,造成數(shù)據(jù)嚴(yán)重失衡,即樣本非對(duì)稱(chēng)分布問(wèn)題,使模型無(wú)法正確分類(lèi)預(yù)測(cè)成功借款類(lèi)別[10]。因此,本研究采用Smote算法平衡數(shù)據(jù),該方法以新生成數(shù)據(jù)豐富原數(shù)據(jù)樣本,綜合運(yùn)用過(guò)采樣與欠采樣技術(shù),解決數(shù)據(jù)分布稀疏性問(wèn)題[11]。
運(yùn)用有效樣本集生成訓(xùn)練集、測(cè)試集及預(yù)測(cè)集。首先,在有效樣本中隨機(jī)抽取約20%樣本(3 711個(gè)數(shù)據(jù))作為預(yù)測(cè)集,主要檢驗(yàn)平衡后模型對(duì)有效樣本集適應(yīng)性;其次,用剩余14 844個(gè)數(shù)據(jù)(包含586個(gè)成功借款)平衡抽樣,采用Smote算法,將成功與失敗比例約平衡為1∶3[12]。平衡后數(shù)據(jù)集中包含1 172個(gè)成功借款和3 516個(gè)失敗借款,最后將2/3平衡后數(shù)據(jù)作為訓(xùn)練集(包含782個(gè)成功借款,2 344個(gè)失敗借款),1/3作為測(cè)試集(包含390個(gè)成功借款,1 172個(gè)失敗借款)。
(三)特征描述
有效樣本數(shù)據(jù)集中,總體成功率約3.9%。為了解各類(lèi)借款人成功率情況,將借貸成功情況與已有研究中關(guān)注較多變量交叉分析,包括性別、年齡及信用等級(jí)(見(jiàn)圖2、3、4)。
圖2 不同性別借款成功率
從圖2可知,女性借款者成功率略高于男性借款者,但差距不明顯。圖3表明30~40歲借款者成功率最高,而50歲以上借款者成功率最低,說(shuō)明各年齡層借貸成功率存在差異。圖4顯示HR信用等級(jí)借款者(占有效樣本97%)中僅2.49%借款者能夠獲得資金,說(shuō)明信用等級(jí)較低借款者,無(wú)法通過(guò)傳統(tǒng)銀行體系獲得借款時(shí),也很難通過(guò)P2P網(wǎng)絡(luò)借貸平臺(tái)獲得借款,但其他等級(jí)中未出現(xiàn)信用等級(jí)越高借入者越易獲得借款情況。
圖3 不同年齡借款成功率
圖4 不同信用等級(jí)借款成功率
(一)確定指標(biāo)體系
由于原始自變量較多,變量間包含一些共性信息,非所有變量均有助于評(píng)估借貸成功率,可能因變量間相關(guān)性等降低了模型有效性,因此在確定借貸成功率評(píng)估模型前,從原始變量中選取合適變量建立成功率評(píng)估指標(biāo)體系,有助于投資者在投標(biāo)時(shí)審核和重點(diǎn)關(guān)注。為選取合適評(píng)估指標(biāo)體系,運(yùn)用隨機(jī)森林方法計(jì)算變量重要性(通過(guò)在變量加入噪聲前后的預(yù)測(cè)準(zhǔn)確性差異判斷),并篩選出預(yù)測(cè)模型自變量。
從表4發(fā)現(xiàn)借款者歷史信息與認(rèn)證信息重要性強(qiáng)于貸款特征與借款者基本特征變量,其中“歷史借貸成功率”和“未還清借款數(shù)量”是影響貸款成功率極重要變量。在認(rèn)證信息中,“收入認(rèn)證”“工作認(rèn)證”“信用認(rèn)證”比其他認(rèn)證信息重要;在借款者基本特征中,“信用等級(jí)”重要性強(qiáng)于其他變量;在貸款特征中,“貸款金額”“貸款利率”更重要。
表4 變量重要性
根據(jù)變量重要性排序,分別選取前6個(gè)變量、前10個(gè)變量、前14個(gè)變量、前18個(gè)變量為輸入變量集,運(yùn)用隨機(jī)森林方法分別計(jì)算訓(xùn)練集、測(cè)試集及預(yù)測(cè)集準(zhǔn)確度、靈敏度與特異性,其中隨機(jī)森林參數(shù)取值為系統(tǒng)默認(rèn)值,以此確定最優(yōu)指標(biāo)體系。
為檢驗(yàn)平衡后模型對(duì)有效樣本集的適應(yīng)性,重點(diǎn)關(guān)注預(yù)測(cè)集評(píng)價(jià)指標(biāo),由于投資者更關(guān)注成功可能性較高借款訂單,因此重點(diǎn)關(guān)注準(zhǔn)確度與靈敏度指標(biāo)。結(jié)果進(jìn)一步驗(yàn)證選取合適指標(biāo)體系必要性(見(jiàn)表5)。前10個(gè)變量模型在訓(xùn)練集與預(yù)測(cè)集里靈敏度最高,準(zhǔn)確度和特異性也高于前6個(gè)變量模型;雖前10個(gè)變量模型準(zhǔn)確度非最高,但總體精度較高,在預(yù)測(cè)集中為98.14%。綜合而言,10個(gè)變量最合適,且該模型相對(duì)14個(gè)變量與18個(gè)變量所需變量較少,可提高投資者選擇效率,縮短訂單滿(mǎn)標(biāo)時(shí)間。
表5 不同輸入變量評(píng)價(jià)指標(biāo)
(二)模型結(jié)果與解釋
以前10個(gè)變量為輸入變量,建立隨機(jī)森林模型,同時(shí)建立決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持向量機(jī)及Logistic模型預(yù)測(cè)模型并比較。各模型預(yù)測(cè)結(jié)果表明隨機(jī)森林模型預(yù)測(cè)準(zhǔn)確度、靈敏度和特異性均較高,支持向量機(jī)與貝葉斯在預(yù)測(cè)靈敏度方面較好,但預(yù)測(cè)準(zhǔn)確度低于神經(jīng)網(wǎng)絡(luò)和Logistic模型。此外,貝葉斯、支持向量機(jī)和隨機(jī)森林模型對(duì)成功借款預(yù)測(cè)準(zhǔn)確率(靈敏度)高于失敗借款預(yù)測(cè)準(zhǔn)確率(靈敏度)(見(jiàn)表6)。隨機(jī)森林模型在訓(xùn)練集、測(cè)試集和預(yù)測(cè)集準(zhǔn)確度與特異性均優(yōu)于其他模型。
(三)穩(wěn)健性檢驗(yàn)
為檢驗(yàn)平衡比例對(duì)模型效果影響,采用Smote算法對(duì)剩余14 844個(gè)數(shù)據(jù)平衡抽樣,將成功和失敗比例分別平衡為1∶2與1∶4,平衡后數(shù)據(jù)2/3作為訓(xùn)練集,其余數(shù)據(jù)作為測(cè)試集,平衡后樣本情況如表7所示。不同比例下模型在預(yù)測(cè)集中準(zhǔn)確度表明,隨機(jī)森林模型在預(yù)測(cè)集準(zhǔn)確度均高于其他模型,且比例越高的預(yù)測(cè)集準(zhǔn)確度越高,如圖5所示。
表6 六種模型比較
表7 平衡后樣本統(tǒng)計(jì)表
圖5 不同平衡比例預(yù)測(cè)集準(zhǔn)確度
本研究根據(jù)“人人貸”2015年一季度數(shù)據(jù),建立基于非參數(shù)隨機(jī)森林的借貸成功率評(píng)估模型,并與決策樹(shù)、支持向量機(jī)、貝葉斯、神經(jīng)網(wǎng)絡(luò)和Logistic回歸算法比較,其中隨機(jī)森林模型預(yù)測(cè)集準(zhǔn)確度最高,約98%。隨機(jī)森林借貸成功率模型評(píng)估所有變量重要程度,選取33個(gè)變量中前10個(gè)重要變量(歷史借貸成功率、未還清借款數(shù)量、收入認(rèn)證、工作認(rèn)證、信用認(rèn)證、信用等級(jí)、身份認(rèn)證、預(yù)期金額、貸款金額和借款成本)預(yù)測(cè)借款訂單成功率,可降低信息搜集成本?;陔S機(jī)森林借貸成功率評(píng)估模型快捷篩選出成功率較高訂單,提高投資者選擇有效性,且模型避免復(fù)雜計(jì)算過(guò)程,適用于網(wǎng)絡(luò)借貸平臺(tái)海量且不斷增加的訂單。將隨機(jī)森林方法應(yīng)用到我國(guó)網(wǎng)絡(luò)借貸成功率評(píng)估模型上,為進(jìn)一步實(shí)際應(yīng)用網(wǎng)絡(luò)金融提供實(shí)證參考,充實(shí)網(wǎng)絡(luò)借貸行為理論研究。由于隨機(jī)森林模型未給出變量對(duì)借貸成功率的影響方向,后續(xù)研究中可深入分析。
[1]帥青紅.P2P網(wǎng)絡(luò)借貸監(jiān)管的博弈分析[J].四川大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2014(4).
[2]Lin M,Prabhala N R,Viswanathan S.Judging Borrowers by the Company They Keep:Social Networks and Adverse Selection in Online Peer-to-Peer Lending[J].Management Science,2012(1).
[3]Pope D G,Sydnor J R.What’s in a Picture?Evidence of Discrimination from Prosper.com[J].Journal of Human Resources,2011(1).
[4]Breiman L.Random Forests[J].Machine Learning,2001(1).
[5]Lariviere B,Den Poel D V.Predicting Customer Retention and Profitability by Using Random Forests and Regression ForestsTechniques[J].Export Systems with Application,2005(29).
[6]方匡南,吳見(jiàn)彬.個(gè)人住房貸款違約預(yù)測(cè)與利率政策模擬[J].統(tǒng)計(jì)研究,2013(10).
[7]Seth Freedman,Ginger Z J.Do Social Networks Solve Information Problems for Peer-to-Peer Lending?Evidence from Prosper.com [EB/OL].(2016-04-20).https://ideas.repec.org/p/net/wpaper/0843. html.
[8]Puro L,Eieh J E T,Wallenius H,et al.Borrower Decision Aid for People-to-people lending[J].Decision Support System,2010(1).
[9]王會(huì)娟,廖理.中國(guó)P2P網(wǎng)絡(luò)借貸平臺(tái)信用認(rèn)證機(jī)制研究—來(lái)自“人人貸”的經(jīng)驗(yàn)證據(jù)[J].中國(guó)工業(yè)經(jīng)濟(jì),2014(1).
[10]方匡南,吳見(jiàn)彬,謝邦昌.基于隨機(jī)森林的保險(xiǎn)客戶(hù)利潤(rùn)貢獻(xiàn)度研究[J].數(shù)理統(tǒng)計(jì)與管理,2014(6).
[11]Chawla N V,Bowyer K W,Hall L O,et al.Smote:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002(1).
[12]石曉軍.Logistic違約率模型最優(yōu)樣本配比與分界點(diǎn)的模擬分析[J].數(shù)理統(tǒng)計(jì)與管理,2006(6).
F832
A
1672-3805(2016)06-0011-07
2016-10-12
國(guó)家自然科學(xué)基金項(xiàng)目“小微企業(yè)互聯(lián)網(wǎng)平臺(tái)融資模式研究—基于雙向拍賣(mài)和信號(hào)博弈雙重視角”(71503210)
周玉琴(1990-),女,西南財(cái)經(jīng)大學(xué)金融智能與金融工程四川省重點(diǎn)實(shí)驗(yàn)室博士研究生,研究方向?yàn)榻鹑陲L(fēng)險(xiǎn)管理、金融工程。