章寧 陳欽
摘 要:針對(duì)借貸過程中的信息不對(duì)稱問題,為更有效地整合不同的數(shù)據(jù)源和貸款違約預(yù)測(cè)模型,提出一種集成學(xué)習(xí)的訓(xùn)練方法,使用AUC(Area Under Curve)值和Q統(tǒng)計(jì)值對(duì)學(xué)習(xí)器的準(zhǔn)確性和多樣性進(jìn)行度量,并實(shí)現(xiàn)了基于AUC和Q統(tǒng)計(jì)值的集成學(xué)習(xí)訓(xùn)練算法(TABAQ)?;趥€(gè)人對(duì)個(gè)(P2P)貸款數(shù)據(jù)進(jìn)行實(shí)證分析,發(fā)現(xiàn)集成學(xué)習(xí)的效果與基學(xué)習(xí)器的準(zhǔn)確性和多樣性關(guān)系密切,而與所集成的基學(xué)習(xí)器數(shù)量相關(guān)性較低,并且各種集成學(xué)習(xí)方法中統(tǒng)計(jì)集成表現(xiàn)最好。實(shí)驗(yàn)還發(fā)現(xiàn),通過融合借款人端和投資人端的信息,可以有效地降低貸款違約預(yù)測(cè)中的信息不對(duì)稱性。TABAQ能有效發(fā)揮數(shù)據(jù)源融合和學(xué)習(xí)器集成兩方面的優(yōu)勢(shì),在保持預(yù)測(cè)準(zhǔn)確性穩(wěn)步提升的同時(shí),預(yù)測(cè)的一類錯(cuò)誤數(shù)量更是進(jìn)一步下降了4.85%。
關(guān)鍵詞:集成學(xué)習(xí);曲線下面積;Q統(tǒng)計(jì)值;貸款違約預(yù)測(cè);信息不對(duì)稱性;個(gè)人對(duì)個(gè)人借貸
中圖分類號(hào):TP181;TP391.77
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)04-0935-05
Abstract: Focusing on the information asymmetry problem in the process of lending, in order to integrate different data sources and loan default prediction models more effectively, an ensemble learning training method was proposed, which measured the accuracy and the diversity of learners by Area Under Curve (AUC) value and Q statistics, and an ensemble learning training method named TABAQ (Training Algorithm Based on AUC and Q statistics) was implemented. By empirical analyses based on Peer-to-Peer (P2P) loan data, it was found that the performance of ensemble learning was closely related to the accuracy and diversity of the base learners and had low correlation with the number of base learners, and statistical ensemble performed best in all ensemble learning methods. It was also found in the experiments that by integrating the information sources of borrower side and investor side, the information asymmetry in loan default prediction was effectively reduced. TABAQ can combine the advantages of both information sources fusion and ensemble learning. With the accuracy of prediction steadily improved, the number of forecast errors further reduced by 4.85%.
Key words: ensemble learning; Area Under Curve (AUC); Q statistics; loan default prediction; information asymmetry; Peer-to-Peer loan (P2P loan)
銀行信貸風(fēng)險(xiǎn)一般是指借款人違約不償還貸款的風(fēng)險(xiǎn),相關(guān)研究包括借款人信用評(píng)級(jí)、貸款違約預(yù)測(cè)、金融欺詐分析等,其中貸款違約預(yù)測(cè)與保障信貸資金安全、防范投資損失直接相關(guān),是銀行信貸風(fēng)險(xiǎn)研究中非常重要的子領(lǐng)域。數(shù)據(jù)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等方法和技術(shù)在該領(lǐng)域研究中得到了廣泛使用,但由于相關(guān)研究主要還是基于借款人提供的信息開展,實(shí)際效果受借貸雙方間信息不對(duì)稱性的限制較大。
個(gè)人對(duì)個(gè)人借貸(Peer-to-Peer Lending或Peer-to-Peer Loan)即個(gè)人對(duì)個(gè)人貸款,整個(gè)借貸交易過程都在電子平臺(tái)線上完成。除了借款人方提供的個(gè)人基本情況、經(jīng)濟(jì)信用、借款用途等信息以外,交易平臺(tái)也會(huì)將投資人投標(biāo)、貸款還款與違約、投資人收益等信息予以公開,以這些數(shù)據(jù)為基礎(chǔ),逐步形成了基于投資人端信息的預(yù)測(cè)模型,這為研究如何降低借貸交易的信息不對(duì)稱性提供了基礎(chǔ)。
機(jī)器學(xué)習(xí)(Machine Learning, ML)主要研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,或者重新組織已有知識(shí)結(jié)構(gòu)使之不斷改善自身性能。集成學(xué)習(xí)(Ensemble Learning, EL)屬于機(jī)器學(xué)習(xí)的一個(gè)重要分支,是指通過把多個(gè)學(xué)習(xí)器進(jìn)行整合,獲得比單個(gè)學(xué)習(xí)器更好學(xué)習(xí)效果的方法,集成學(xué)習(xí)越來(lái)越廣泛地被運(yùn)用在計(jì)算機(jī)視覺識(shí)別、信息安全、輔助醫(yī)療診斷、金融欺詐預(yù)防、銀行貸款違約預(yù)測(cè)等領(lǐng)域[1]。但在貸款違約預(yù)測(cè)的研究中,目前缺乏具體方法對(duì)集成學(xué)習(xí)構(gòu)建、優(yōu)化和檢驗(yàn)的全過程進(jìn)行有效指導(dǎo)。
以P2P借貸為切入點(diǎn),提出一種集成學(xué)習(xí)的訓(xùn)練方法,將不同預(yù)測(cè)模型以及不同來(lái)源的數(shù)據(jù)信息進(jìn)行集成融合,對(duì)于降低信息不對(duì)稱性、提升貸款違約預(yù)測(cè)準(zhǔn)確性、減少可能的投資失誤和資金損失具有較大研究意義。
1?研究背景
1.1?傳統(tǒng)銀行貸款違約預(yù)測(cè)
傳統(tǒng)的貸款違約預(yù)測(cè)是指對(duì)銀行貸款是否會(huì)出現(xiàn)違約進(jìn)行預(yù)判,是對(duì)銀行信貸業(yè)務(wù)中各類風(fēng)險(xiǎn)進(jìn)行有效管理的基礎(chǔ)。20世紀(jì)90年代以前,該領(lǐng)域研究主要使用線性判別分析(Linear Discriminant Analysis,LDA)、邏輯回歸(Logistic Regression, LR)等數(shù)據(jù)統(tǒng)計(jì)方法和技術(shù)[2-3],進(jìn)入20世紀(jì)90年代以后,各類機(jī)器學(xué)習(xí)算法,包括支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)等[4-6],逐漸得到了較廣泛的應(yīng)用。決策樹是目前使用最多的方法,文獻(xiàn)[7]認(rèn)為基于C4.5算法的決策樹方法較之基于ID3算法表現(xiàn)更優(yōu),而如果將決策樹與ANN方法進(jìn)行集成,貸款違約預(yù)測(cè)的準(zhǔn)確度將獲得進(jìn)一步提升[8]。
但從總體上來(lái)說(shuō),目前還沒有發(fā)現(xiàn)某一種單一的方法,可以在所有數(shù)據(jù)集上都保持最好的預(yù)測(cè)表現(xiàn)。從2010年以后,集成學(xué)習(xí)由于具有綜合多種方法優(yōu)勢(shì)的特點(diǎn),逐步成為了信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域研究的熱點(diǎn)方向[9-10]。
1.2?P2P貸款違約預(yù)測(cè)
目前對(duì)P2P貸款的違約預(yù)測(cè)方法主要分為基于借款人端信息和基于投資人端信息兩類。前一類方法與傳統(tǒng)銀行貸款違約預(yù)測(cè)方法類似,基于借款人提供的各類信息對(duì)貸款違約概率進(jìn)行預(yù)測(cè),主要算法包括線性判別分析[11]、決策樹[12]、邏輯回歸[13-14]、支持向量機(jī)[15]、貝葉斯網(wǎng)絡(luò)(Bayesian Network)[15]等,這些研究發(fā)現(xiàn)借款總期數(shù)、借款金額、借款人收入、借款人負(fù)債收入比、借款人信用級(jí)別都與貸款是否違約有較強(qiáng)關(guān)聯(lián)性。
針對(duì)P2P貸款的借貸雙方信息不對(duì)稱性問題[16-17],文獻(xiàn)[18-19]提出利用貸款投資人端信息,構(gòu)建基于投資人投資穩(wěn)定性的P2P貸款違約預(yù)測(cè)(Lender Stability,LS)模型;文獻(xiàn)[20]則基于投資效用理論,利用投資人歷史收益率、貸款利率出價(jià)等信息,使用TF-IDF算法構(gòu)造逆向比例權(quán)重因子,建立了優(yōu)化的基于投資人效用的貸款違約預(yù)測(cè)模型(Lender Utility2, LU2),并取得了更為準(zhǔn)確和穩(wěn)定的預(yù)測(cè)效果。
1.3?集成學(xué)習(xí)
集成學(xué)習(xí)也被稱為多分類器系統(tǒng)(Multiple Classifier System, MCS),一般來(lái)說(shuō)機(jī)器學(xué)習(xí)中的學(xué)習(xí)器(Learner)通常是由一個(gè)現(xiàn)有的學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中產(chǎn)生,比如決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等,而集成學(xué)習(xí)則通過某種規(guī)則,將多個(gè)學(xué)習(xí)器進(jìn)行組合,集成產(chǎn)生新的學(xué)習(xí)器。
集成學(xué)習(xí)中被集成的學(xué)習(xí)器稱為基學(xué)習(xí)器(Base Learner),將單一算法訓(xùn)練而成的基學(xué)習(xí)器進(jìn)行集成的方法被稱為同質(zhì)集成(Homogeneous Ensemble);與之對(duì)應(yīng),若集成包含了多種不同類型算法生成的基學(xué)習(xí)器,則被稱為異質(zhì)集成(Heterogeneous Ensemble)。異質(zhì)集成中基學(xué)習(xí)器也被稱為個(gè)體學(xué)習(xí)器(Individual Learner)或組件學(xué)習(xí)器(Component Leaner)。為使最終得到的學(xué)習(xí)器表現(xiàn)更好,除了提高基學(xué)習(xí)器的準(zhǔn)確性以外,提高基學(xué)習(xí)器之間的差異性(Diversity)也是關(guān)鍵因素之一[21]。
集成學(xué)習(xí)的過程主要由兩步組成:一是訓(xùn)練生成基學(xué)習(xí)器,二是將這些基學(xué)習(xí)器進(jìn)行集成組合。按照基學(xué)習(xí)器的不同生成方法,可將集成學(xué)習(xí)分為四類[22]:一是通過重采樣或復(fù)制等方法改變訓(xùn)練數(shù)據(jù),如Bagging、Boosting;二是通過選取特征值(Feature)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行變化,如隨機(jī)子空間(Random Subspace,RS)、隨機(jī)森林(Random Forest,RF);三是對(duì)基學(xué)習(xí)器的配置參數(shù)進(jìn)行變化,如K近鄰(K Nearest Neighbors,KNN)算法分類器中的核函數(shù)、神經(jīng)網(wǎng)絡(luò)調(diào)的撲結(jié)構(gòu);四是對(duì)基學(xué)習(xí)器的算法類型進(jìn)行多樣化,即對(duì)不同類型的基學(xué)習(xí)器進(jìn)行集成。
按照基學(xué)習(xí)器組合的不同方式,集成學(xué)習(xí)又可以被分為線性集成、非線性集成,以及統(tǒng)計(jì)集成(或智能集成)三類。其中線性集成指通過加和或者取平均的方式得到最終結(jié)果,非線性集成則指通過多數(shù)投票、加權(quán)計(jì)算等方式獲得最終結(jié)果,而統(tǒng)計(jì)集成(或智能集成)方式則是采取回歸預(yù)測(cè)、貝葉斯算法、神經(jīng)網(wǎng)絡(luò)等方法計(jì)算最終結(jié)果[23]。
2?貸款違約預(yù)測(cè)的集成學(xué)習(xí)訓(xùn)練方法
2.1?總體研究框架
本文的總體研究框架主要包括四部分:1)訓(xùn)練基學(xué)習(xí)器。2)選擇基學(xué)習(xí)器進(jìn)入集成過程。3)對(duì)基學(xué)習(xí)器進(jìn)行集成,根據(jù)集成方法不同可分為兩類操作:一類是針對(duì)線性集成、非線性集成方法,對(duì)基學(xué)習(xí)器結(jié)果的組合參數(shù)進(jìn)行調(diào)整和優(yōu)化;另一類則對(duì)應(yīng)統(tǒng)計(jì)集成方法,在基學(xué)習(xí)器之上進(jìn)行多層模型學(xué)習(xí)。4)對(duì)生成的集成學(xué)習(xí)器進(jìn)行測(cè)試檢驗(yàn),并根據(jù)結(jié)果決定是否繼續(xù)進(jìn)行集成。
2.2?基學(xué)習(xí)器篩選
集成學(xué)習(xí)通過找到準(zhǔn)確且互補(bǔ)的基分類器,并對(duì)其進(jìn)行集成來(lái)提高學(xué)習(xí)器的泛化能力,從而獲得更優(yōu)的學(xué)習(xí)效果。故需要找到合適的指標(biāo),對(duì)基學(xué)習(xí)器的準(zhǔn)確性和多樣性進(jìn)行度量,從而篩選出預(yù)測(cè)準(zhǔn)確性高,且有較強(qiáng)的多樣性和互補(bǔ)性的基學(xué)習(xí)器。
2.2.1?基學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確性度量
ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值常被用來(lái)評(píng)價(jià)一個(gè)二值分類器(Binary Classifier)的優(yōu)劣。ROC曲線最早運(yùn)用在軍事上,后來(lái)逐漸運(yùn)用到醫(yī)學(xué)領(lǐng)域,再被運(yùn)用到統(tǒng)計(jì)分析研究中,可準(zhǔn)確反映某分析方法特異性和敏感性的關(guān)系[24]。
ROC曲線以下部分的面積即為AUC,AUC值越高表示模型預(yù)測(cè)效果越好,它可以被解釋為任取一對(duì)(正、負(fù))樣本,正樣本的預(yù)測(cè)值大于負(fù)樣本預(yù)測(cè)值的概率[25]。AUC值具有一致性和穩(wěn)定性的特點(diǎn),不受判斷閾值選擇的影響,而且即使測(cè)試數(shù)據(jù)集正負(fù)樣本分布不平衡也能保持穩(wěn)定,故本文使用預(yù)測(cè)AUC值作為各學(xué)習(xí)器準(zhǔn)確性的度量指標(biāo)。
2.2.2?基學(xué)習(xí)器之間的多樣性度量
基學(xué)習(xí)器之間的多樣性(Diversity)與其相互之間的互補(bǔ)性緊密相關(guān),多樣性越強(qiáng)的基學(xué)習(xí)器,集成以后模型的泛化能力越強(qiáng),目前越來(lái)越多的研究已經(jīng)把注意力放到了如何更準(zhǔn)確地對(duì)分類器之間的多樣性進(jìn)行度量[21]。
假設(shè)有兩個(gè)學(xué)習(xí)器分別為Ci和Cj,N00(N11)為兩個(gè)學(xué)習(xí)器都判斷錯(cuò)誤(正確)的樣本數(shù)量,N10為Ci判斷正確而Cj判斷錯(cuò)誤的樣本數(shù)量,N01則為Ci判斷錯(cuò)誤而Cj判斷正確的樣本數(shù)量,可以發(fā)現(xiàn)樣本總數(shù)量N=N00+N01+N10+N11,具體關(guān)系如表1所示。
當(dāng)前研究中對(duì)不同學(xué)習(xí)器之間差異性的度量方法主要有四種,分別為Q統(tǒng)計(jì)、相關(guān)系數(shù)ρ、不一致度量(disagreement measure, dis)、雙次失敗度量(Double-Fault measure, DF)。
1)Q統(tǒng)計(jì)值(Q statistics)。
Q統(tǒng)計(jì)值源自統(tǒng)計(jì)學(xué)領(lǐng)域,計(jì)算方法如式(1)所示,其值為-1~1。如果兩個(gè)分類器總是同時(shí)正確或錯(cuò)誤分類,則Qi, j=1,此時(shí)兩個(gè)學(xué)習(xí)器完全相同,相互之間的差異性最小。反之,如果兩個(gè)分類器在每個(gè)樣例上分類結(jié)果都相反,則Qi, j=-1,這種情況兩個(gè)學(xué)習(xí)器之間差異性最高。
2)相關(guān)系數(shù)ρ。
兩個(gè)學(xué)習(xí)器Ci和Cj之間相關(guān)系數(shù)ρ計(jì)算方法見式(2), ρ與Q統(tǒng)計(jì)值具有相同的符號(hào),代表的意義也類似,即值越小則學(xué)習(xí)器之間的差異性越大。
3)不一致度量dis。
不一致度量dis計(jì)算方法如式(3),其關(guān)注分類器Ci和Cj分類結(jié)果差異的樣本比例,這個(gè)比例越高,兩個(gè)分類器之間差異性越高;反之則差異性越低。
4)雙次失敗度量DF。
雙次失敗度量DF的計(jì)算方法見式(4),其值為兩個(gè)學(xué)習(xí)器Ci和Cj在相同的樣例上判別錯(cuò)誤的比例,可以認(rèn)為這個(gè)比例越高,兩個(gè)學(xué)習(xí)器越容易犯同樣的錯(cuò)誤,其集成以后泛化性也越低。
總體看來(lái),Q統(tǒng)計(jì)指標(biāo)的意義更加清晰明確,且計(jì)算過程相比相關(guān)系數(shù)ρ更為簡(jiǎn)便,故本文使用Q統(tǒng)計(jì)值作為各學(xué)習(xí)器之間差異性的度量指標(biāo)。
2.3?集成學(xué)習(xí)訓(xùn)練
當(dāng)前集成學(xué)習(xí)的訓(xùn)練方法主要可分為線性集成、非線性集成、統(tǒng)計(jì)集成三種。前兩種方法都是對(duì)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行直接組合,區(qū)別只是在于對(duì)各個(gè)基學(xué)習(xí)器結(jié)果的權(quán)重因子計(jì)算方法不同;第三種方法則是基于各基學(xué)習(xí)器的輸出結(jié)果之上,使用其他模型進(jìn)行多次學(xué)習(xí),并生成獲得新的學(xué)習(xí)器。
2.3.1?線性集成及非線性集成
由于貸款違約預(yù)測(cè)的結(jié)果是一個(gè)連續(xù)性的概率值,故本文的線性集成采取平均值法(AVerage, AV),即通過計(jì)算各基學(xué)習(xí)器所預(yù)測(cè)貸款違約概率的算術(shù)平均值得到集成后的違約概率 pAV,具體如式(5)所示:
其中:m為參與集成的基學(xué)習(xí)器數(shù); pi為基學(xué)習(xí)器Ci預(yù)測(cè)的貸款違約概率。
而非線性集成方法需要為各基學(xué)習(xí)器的輸出結(jié)果設(shè)置不同的權(quán)重因子(Weight Factor, WF),各基學(xué)習(xí)器權(quán)重因子與其預(yù)測(cè)準(zhǔn)確性相關(guān)[26]。由于AUC值具有一致性和穩(wěn)定性特點(diǎn),本文使用基學(xué)習(xí)器的預(yù)測(cè)結(jié)果AUC值代表其預(yù)測(cè)準(zhǔn)確性,并以此計(jì)算其權(quán)重因子,集成后的違約概率pWF如式(6)所示:
2.3.2?統(tǒng)計(jì)學(xué)習(xí)集成
二層學(xué)習(xí)(Double-level Learning,DL)集成是統(tǒng)計(jì)集成的一種,是指以基學(xué)習(xí)器結(jié)果作為輸入,通過第二層模型學(xué)習(xí)訓(xùn)練獲得集成學(xué)習(xí)器的方法。本文選擇使用邏輯回歸(LR)作為二層學(xué)習(xí)集成的模型。二層學(xué)習(xí)集成方法的貸款違約概率 pDL計(jì)算方法如式(7)所示:
2.4?集成學(xué)習(xí)器的預(yù)測(cè)效果檢驗(yàn)
對(duì)于訓(xùn)練獲得的集成學(xué)習(xí)器,將從預(yù)測(cè)準(zhǔn)確性和錯(cuò)誤情況兩方面進(jìn)行檢驗(yàn),其中準(zhǔn)確性使用預(yù)測(cè)結(jié)果的AUC值進(jìn)行度量。
學(xué)習(xí)器在預(yù)測(cè)時(shí)出現(xiàn)的錯(cuò)誤可分為一類錯(cuò)誤和二類錯(cuò)誤。前者是指將實(shí)際違約貸款判別為正常,后者則是將未違約貸款判別為違約。一類錯(cuò)誤可能造成對(duì)違約貸款的投資失誤,對(duì)資金安全影響更大。本文使用一類錯(cuò)誤數(shù)量作為度量學(xué)習(xí)器犯錯(cuò)情況的指標(biāo),該數(shù)值越高,則學(xué)習(xí)器預(yù)測(cè)失誤越嚴(yán)重。
2.5?算法實(shí)現(xiàn)
按照總體研究框架,本文構(gòu)建了基于AUC和Q統(tǒng)計(jì)值的集成學(xué)習(xí)訓(xùn)練算法(Training Algorithm Based on AUC and Q statistics, TABAQ),覆蓋集成學(xué)習(xí)從構(gòu)造、篩選、訓(xùn)練、檢驗(yàn)和持續(xù)優(yōu)化的全過程。
算法說(shuō)明:在所有備選基學(xué)習(xí)器中,選擇分類準(zhǔn)確性最高,且差異性最大的基學(xué)習(xí)器作為初始集成學(xué)習(xí)器,然后循環(huán)篩選剩余的基學(xué)習(xí)器進(jìn)入集成學(xué)習(xí)過程,直到集成后學(xué)習(xí)器的準(zhǔn)確性不再提升,或者所有基學(xué)習(xí)器都被集成后為止。
3?P2P貸款數(shù)據(jù)實(shí)證分析
基于實(shí)際P2P貸款數(shù)據(jù),使用本文算法TABAQ來(lái)訓(xùn)練并生成集成學(xué)習(xí)器,并基于此對(duì)單一數(shù)據(jù)源與融合數(shù)據(jù)源、單學(xué)習(xí)器與集成學(xué)習(xí)器的預(yù)測(cè)結(jié)果分別進(jìn)行了實(shí)證對(duì)比分析。
實(shí)證分析主要分為三部分:1)訓(xùn)練基學(xué)習(xí)器,設(shè)置實(shí)驗(yàn)對(duì)比基準(zhǔn),并對(duì)不同基學(xué)習(xí)器之間差異性進(jìn)行對(duì)比分析;2)使用TABAQ訓(xùn)練生成集成學(xué)習(xí)器,并對(duì)不同集成方法、集成參數(shù)對(duì)集成學(xué)習(xí)效果的影響進(jìn)行對(duì)比分析;3)對(duì)單信息源與多信息源、單學(xué)習(xí)器與集成學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。
實(shí)驗(yàn)使用到的基學(xué)習(xí)器共5類,覆蓋了基于借款人端信息和投資人端信息的兩類預(yù)測(cè)模型,前者包括邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(DT),后者包括投資人穩(wěn)定性(LS)和投資人效用(LU2)。集成學(xué)習(xí)方法則選擇平均值法(AV)、權(quán)重因子(WF)和二層學(xué)習(xí)(DL)三種。
3.1?實(shí)驗(yàn)數(shù)據(jù)說(shuō)明
實(shí)證數(shù)據(jù)來(lái)自P2P借貸平臺(tái)Prosper,使用的樣本屬性在借款人端包括借款人信用評(píng)級(jí)分、借款人預(yù)期損失率、借款利率、借款人每月還款金額、借款人借款收入比、借款人是否擁有住房等,投資人端則包括投資總金額、歷史投資違約情況、貸款出價(jià)利率、貸款出資額等。
實(shí)證數(shù)據(jù)分別被劃分為訓(xùn)練數(shù)據(jù)集(Train Dataset)、驗(yàn)證數(shù)據(jù)集(Verification Dataset)和測(cè)試數(shù)據(jù)集(Test Dataset)。其中:測(cè)試數(shù)據(jù)集用于訓(xùn)練基學(xué)習(xí)器;驗(yàn)證數(shù)據(jù)集用于計(jì)算基學(xué)習(xí)器的AUC值、一類錯(cuò)誤數(shù)量、相互間的差異性Q統(tǒng)計(jì)值等數(shù)值,以訓(xùn)練獲得集成學(xué)習(xí)的參數(shù);測(cè)試數(shù)據(jù)集則用于對(duì)各種基學(xué)習(xí)器和集成學(xué)習(xí)器的預(yù)測(cè)效果進(jìn)行檢測(cè)和對(duì)比。
各數(shù)據(jù)集通過放回取樣的方式從貸款數(shù)據(jù)中隨機(jī)選取,每個(gè)數(shù)據(jù)集包含的貸款數(shù)量都為1000筆,共抽取10個(gè)數(shù)據(jù)集,各數(shù)據(jù)集輪流用于訓(xùn)練、驗(yàn)證和測(cè)試。進(jìn)行10次實(shí)驗(yàn),將各輪次實(shí)驗(yàn)結(jié)果取平均值用作對(duì)比分析。
3.2?實(shí)驗(yàn)結(jié)果分析
3.2.1?基學(xué)習(xí)器之間多樣性分析
表2為各基學(xué)習(xí)器間的差異性Q統(tǒng)計(jì)值,可以發(fā)現(xiàn):基于不同信息源的學(xué)習(xí)器之間Q統(tǒng)計(jì)值較低,如基于借款人端信息的LR、SVM、DT學(xué)習(xí)器,與基于投資人端信息的LS和LU2學(xué)習(xí)器之間,說(shuō)明這些基學(xué)習(xí)器之間存在較強(qiáng)互補(bǔ)性。而基于相同信息源的模型之間Q統(tǒng)計(jì)值則都較高,表示較低的多樣性。
3.2.2?不同集成方法的比較
三種集成方法訓(xùn)練獲得的學(xué)習(xí)器的預(yù)測(cè)結(jié)果見表3,其中,Error-I為預(yù)測(cè)結(jié)果中的一類錯(cuò)誤數(shù)量??梢钥吹綄儆诮y(tǒng)計(jì)集成的二層學(xué)習(xí)方法(DL)表現(xiàn)更好,取得了更高的AUC值以及更低的一類錯(cuò)誤數(shù)量,而平均值方法(AV)和權(quán)重因子方法(WF)則表現(xiàn)欠佳,訓(xùn)練獲得的集成學(xué)習(xí)器預(yù)測(cè)效果甚至低于單個(gè)基學(xué)習(xí)器。
在集成更多的基學(xué)習(xí)器后,并不能確保獲得更好的預(yù)測(cè)效果,在集成學(xué)習(xí)訓(xùn)練過程中,需要考慮“更多并非更好”的原則,避免盲目增加基學(xué)習(xí)器對(duì)實(shí)際效果產(chǎn)生負(fù)面影響。
3.2.3?模型預(yù)測(cè)結(jié)果綜合對(duì)比分析
不同信息源、不同學(xué)習(xí)器預(yù)測(cè)結(jié)果的綜合對(duì)比見表4,其中BL列表示是單個(gè)基學(xué)習(xí)器(Base Learner),EL表示的是集成學(xué)習(xí)器(Ensemble Learner),總體上來(lái)看通過融合數(shù)據(jù)源和采取集成學(xué)習(xí)的方法,對(duì)提升預(yù)測(cè)效果都有幫助。從不同的數(shù)據(jù)源來(lái)看,基于投資人端信息的學(xué)習(xí)器獲得了比基于借款人端信息學(xué)習(xí)器更好的效果,即更高的預(yù)測(cè)AUC值及更低的一類錯(cuò)誤數(shù)量,這說(shuō)明由于不存在提供虛假信息的道德風(fēng)險(xiǎn),投資人端的信息對(duì)于貸款違約預(yù)測(cè)更有幫助。在借款人端信息的基礎(chǔ)之上,通過融入投資人端的信息,預(yù)測(cè)AUC值獲得了較大提升,而預(yù)測(cè)的一類錯(cuò)誤數(shù)量則更少,這證明引入投資人端的信息,對(duì)于降低信息不對(duì)稱性、提高預(yù)測(cè)準(zhǔn)確性,特別是降低一類錯(cuò)誤造成的投資失誤有幫助。
無(wú)論是基于借款人端的信息源,還是投資人端的信息源,集成學(xué)習(xí)方法總體上都取得了比單學(xué)習(xí)器更好的預(yù)測(cè)效果。
需要關(guān)注的一點(diǎn)是基于投資人端信息的基學(xué)習(xí)器經(jīng)過集成學(xué)習(xí)以后,預(yù)測(cè)AUC值降低了0.00054,這應(yīng)該與基學(xué)習(xí)器之間的多樣性不足有關(guān)。
從表2可以發(fā)現(xiàn)該類基學(xué)習(xí)器之間的差異性Q統(tǒng)計(jì)值非常高,說(shuō)明基學(xué)習(xí)器之間的多樣性極低,這證明了基學(xué)習(xí)器的多樣性與集成學(xué)習(xí)效果之間的正相關(guān)性,集成學(xué)習(xí)過程中如果引入的基學(xué)習(xí)器過分相似,泛化性不足,最終的預(yù)測(cè)效果可能受到負(fù)面影響。
同時(shí)采取融合信息源和集成學(xué)習(xí)方法后,取得了最優(yōu)的預(yù)測(cè)效果,預(yù)測(cè)AUC值保持穩(wěn)步提升的同時(shí),一類錯(cuò)誤的數(shù)量更是進(jìn)一步降低為86.3,相對(duì)于單學(xué)習(xí)器最優(yōu)的90.7進(jìn)一步下降了4.85%。這說(shuō)明TABAQ能夠有效地將多信息源融合與多學(xué)習(xí)器集成進(jìn)行結(jié)合,同時(shí)發(fā)揮雙方面的優(yōu)勢(shì)作用,降低信息不對(duì)稱性,提升學(xué)習(xí)器的準(zhǔn)確性,為提高貸款違約的預(yù)測(cè)效果、避免投資失誤、保障資金安全提供了有效支持。
4?結(jié)語(yǔ)
本文基于預(yù)測(cè)AUC值及差異性Q統(tǒng)計(jì)值,提出了一種集成學(xué)習(xí)的訓(xùn)練算法TABAQ。使用P2P貸款數(shù)據(jù)進(jìn)行實(shí)證分析發(fā)現(xiàn),使用統(tǒng)計(jì)集成的方法可以獲得比單個(gè)學(xué)習(xí)器更好的預(yù)測(cè)效果。集成學(xué)習(xí)的效果與基學(xué)習(xí)器的準(zhǔn)確性和多樣性關(guān)系密切,但與被集成基學(xué)習(xí)器數(shù)量的相關(guān)性較低,集成了過多、過于相似的基學(xué)習(xí)器,可能會(huì)對(duì)集成學(xué)習(xí)的泛化性造成負(fù)面影響。通過融合投資人端的信息數(shù)據(jù),能夠有效地降低貸款違約預(yù)測(cè)中的信息不對(duì)稱性問題。TABAQ能結(jié)合多數(shù)據(jù)源融合和多學(xué)習(xí)器集成的雙方面優(yōu)勢(shì),預(yù)測(cè)的準(zhǔn)確性持續(xù)提升,同時(shí)一類錯(cuò)誤的數(shù)量相對(duì)單模型、單數(shù)據(jù)源、融合數(shù)據(jù)源等都更低。后續(xù)可以考慮更加準(zhǔn)確地量化和度量不同數(shù)據(jù)源信息對(duì)預(yù)測(cè)效果的影響程度,并基于此對(duì)優(yōu)化集成學(xué)習(xí)過程中的各類參數(shù)開展進(jìn)一步研究。
參考文獻(xiàn)(References)
[1] ZHOU X. Ensemble Methods: Foundations and Algorithms [M]. Boca Racton: CRC Press, 2012: 15-17.
[2] DIMITRAS A I, ZANAKIS S H, ZOPOUNIDIS C. A survey of business failures with an emphasis on prediction methods and industrial applications[J]. European Journal of Operational Research, 1996, 90(3): 487-513.
[3] HAND D J, HENLEY W E. Statistical classification methods in consumer credit scoring: a review[J]. Journal of the Royal Statistical Society, 1997, 160(3): 523-541.
[4] MIN J H, LEE Y C. Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters[J]. Expert Systems with Applications, 2005, 28(4): 603-614.
[5] LI H, SUN J, WU J. Predicting business failure using classification and regression tree: an empirical comparison with popular classical statistical methods and top classification mining methods[J]. Expert Systems with Applications, 2010, 37(8): 5895-5904.
[6] CHARALAMBOUS C, CHARITOU A, KAOUROU F. Application of feature extractive algorithm to bankruptcy prediction[C]// Proceedings of the 2000 IEEE-Inns-Enns International Joint Conference on Neural Networks. Washington, DC: IEEE Computer Society, 2000: 5303.
[7] AMIN R K, INDWIARTI, SIBARONI Y. Implementation of decision tree using C4.5 algorithm in decision making of loan application by debtor (case study: bank pasar of Yogyakarta special region) [C]// Proceedings of the 2015 International Conference on Information and Communication Technology. Piscataway, NJ: IEEE, 2015: 75-80.
[8] GENG R, BOSE I, CHEN X. Prediction of financial distress: an empirical study of listed Chinese companies using data mining[J]. European Journal of Operational Research, 2015, 241(1): 236-247.
[9] VERIKAS A, KALSYTE Z, BACAUSKIENE M, et al. Hybrid and ensemble-based soft computing techniques in bankruptcy prediction: a survey[J]. Soft Computing, 2010, 14(9): 995-1010.
[10] JADHAV S, HE H, JENKINS K W. An academic review: applications of data mining techniques in finance industry[J]. International Journal of Soft Computing and Artificial Intelligence 2016, 4(1): 79-95.
[11] ERGER S C, GLEISNER F. Emergence of financial intermediaries in electronic markets: the case of online P2P lending[J]. Business Research, 2010, 2(1): 39-65.
[12] JIN Y, ZHU Y. A data-driven approach to predict default risk of loan for online Peer-to-Peer (P2P) lending[C]// Proceedings of the Fifth International Conference on Communication Systems and Network Technologies. Piscataway, NJ: IEEE, 2015: 609-613.
[13] EMEKTER R, TU Y. Evaluating credit risk and loan performance in online Peer-to-Peer (P2P) lending[J]. Applied Economics, 2015, 47(1): 54-70.
[14] 談超, 孫本芝, 王冀寧. P2P網(wǎng)絡(luò)借貸平臺(tái)中的逾期行為研究[J]. 財(cái)會(huì)通訊, 2015(2): 49-51. (TAN C, SUN B Z, WANG J N. Research on overdue behavior in P2P lending platform[J]. Communication of Finance and Accounting, 2015(2): 49-51.)
[15] 鄧帆帆, 薛菁, 閆海鑫.商業(yè)銀行參與P2P網(wǎng)絡(luò)借貸的路徑分析及建議——基于貝葉斯網(wǎng)絡(luò)投資模型的測(cè)算結(jié)果[J]. 集美大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2015, 18(2): 53-58. (DENG F F, XUE J, YAN H X. Analysis and suggestions of commercial banks participation in P2P lending — based on the measurement results of Bayesian network model[J]. Journal of Jimei University (Philosophy and Social Sciences), 2015, 18(2): 53-58.)
[16] WANG P, ZHENG H, CHEN D, et al. Exploring the critical factors influencing online lending intentions[J]. Financial Innovation, 2015, 1(1): 1-11.
[17] EVERETT C R. Information asymmetry in relationship versus transactional debt markets: evidence from peer-to-peer lending[D]. West Lafayette: Purdue University, 2011: 63-66.
[18] LUO C, XIONG H, ZHOU W, et al. Enhancing investment decisions in P2P lending: an investor composition perspective[C]// Proceedings of the 2011 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 292-300.
[19] ZHAO H, WU L, LIU Q, et al. Investment recommendation in P2P lending: a portfolio perspective with risk management[C]// Proceedings of the 2014 IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2014: 1109-1114.
[20] 章寧, 陳欽. 基于TF-IDF算法的P2P貸款違約預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(10): 3042-3047. (ZHANG N, CHEN Q. P2P loan default prediction model based on TF-IDF algorithm[J]. Journal of Computer Applications, 2018, 38(10): 3042-3047.)
[21] KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy[J]. Machine Learning, 2003, 51(2): 181-207.
[22] CHEN N, RIBEIRO B, AN C. A Financial credit risk assessment: a recent review[J]. Artificial Intelligence Review, 2016, 5(1): 1-23.
[23] CANUTO A M P, ABREU M C C, OLIVEIRA L D M, et al. Investigating the influence of the choice of the ensemble members in accuracy and diversity of selection-based and fusion-based methods for ensembles[J]. Pattern Recognition Letters, 2007, 28(4): 472-486.
[24] FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
[25] MYERSON J, GREEN L, WARUSAWITHARANA M, et al. Area under the curve as a measure of discounting [J]. Journal of the Experimental Analysis of Behavior, 2001, 76(2): 235-243.
[26] MEYNET J, THIRAN J P. Information theoretic combination of classifiers with application to AdaBoost[C]// Proceedings of the 2007 International Conference on Multiple Classifier Systems. Berlin: Springer, 2007: 171-179.