国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模型融合的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法

2018-01-11 01:15:01白鵬飛NicolaasFransdeROOIJ周國(guó)富
關(guān)鍵詞:個(gè)人信用向量分類

白鵬飛, 安 琪, Nicolaas Frans de ROOIJ, 李 楠, 周國(guó)富,,3

(1. 華南師范大學(xué)華南先進(jìn)光電子研究院, 廣州 510006; 2. 深圳市國(guó)華光電科技有限公司, 深圳 518110;3. 深圳市國(guó)華光電研究院, 深圳 518110)

基于多模型融合的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法

白鵬飛1*, 安 琪1, Nicolaas Frans de ROOIJ2, 李 楠2, 周國(guó)富1,2,3

(1. 華南師范大學(xué)華南先進(jìn)光電子研究院, 廣州 510006; 2. 深圳市國(guó)華光電科技有限公司, 深圳 518110;3. 深圳市國(guó)華光電研究院, 深圳 518110)

針對(duì)網(wǎng)絡(luò)個(gè)人信用有效評(píng)分缺失的問(wèn)題,分析了互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估數(shù)據(jù)的特點(diǎn),選用支持向量機(jī)、隨機(jī)森林和XGBoost分別建立了信用預(yù)測(cè)模型,并對(duì)3種單一模型進(jìn)行了投票加權(quán)融合. 基于互聯(lián)網(wǎng)信貸數(shù)據(jù)的特點(diǎn),在特征工程中對(duì)樣本集特征進(jìn)行了離散化、歸一化和特征組合等處理. 為增加對(duì)比,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了FICO評(píng)估核心——Logistic回歸分析. 實(shí)驗(yàn)結(jié)果表明:3種單一算法性能均優(yōu)于Logistic回歸,XGBoost表現(xiàn)優(yōu)于支持向量機(jī)和隨機(jī)森林模型,預(yù)測(cè)相對(duì)準(zhǔn)確;投票融合模型的表現(xiàn)比單一模型更好,模型分辨能力更優(yōu)秀,預(yù)測(cè)精度更高,更適用于互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估.

個(gè)人信用評(píng)估; 互聯(lián)網(wǎng)信貸; 支持向量機(jī); 隨機(jī)森林; XGBoost; 模型融合

近些年,隨著互聯(lián)網(wǎng)金融的不斷發(fā)展,我國(guó)的信貸體系也發(fā)生了很大變化,出現(xiàn)了P2P網(wǎng)絡(luò)借貸、微額小貸和消費(fèi)分期付等互聯(lián)網(wǎng)信貸形式. 信用風(fēng)險(xiǎn)是互聯(lián)網(wǎng)信貸的最大風(fēng)險(xiǎn)[1],而由于我國(guó)的社會(huì)信用體系建設(shè)起步較晚,尚處于發(fā)展中,資金方與網(wǎng)絡(luò)信貸用戶存在信息不對(duì)稱問(wèn)題,導(dǎo)致用戶很難借貸成功. 隨著大數(shù)據(jù)技術(shù)的進(jìn)步,基于數(shù)據(jù)挖據(jù)算法的個(gè)人信用評(píng)估模型為互聯(lián)網(wǎng)信貸機(jī)構(gòu)風(fēng)控管理提供了可能.

與傳統(tǒng)個(gè)人信貸評(píng)估數(shù)據(jù)不同,互聯(lián)網(wǎng)個(gè)人信貸信用評(píng)估所用數(shù)據(jù)通常具備以下3個(gè)特點(diǎn):(1)數(shù)據(jù)來(lái)源更多元,涵蓋用戶日常生活的方方面面,主要包括個(gè)人基本信息、銀行信用類信息、通訊運(yùn)營(yíng)商信息、電商支付類信息及社交網(wǎng)絡(luò)類信息這五大維度數(shù)據(jù);(2)指標(biāo)維度更高維,龐大的互聯(lián)網(wǎng)數(shù)據(jù)造成樣本變量數(shù)目出現(xiàn)爆炸性增長(zhǎng),達(dá)成千上萬(wàn)維,有價(jià)值信息密度變低;(3)數(shù)據(jù)模型更新更及時(shí)[2],時(shí)刻處在動(dòng)態(tài)變化中,著重近期和正在發(fā)生的數(shù)據(jù). 隨著大數(shù)據(jù)技術(shù)在信用評(píng)分領(lǐng)域的發(fā)展,我們可以充分運(yùn)用大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行處理、匹配及整合,從中發(fā)掘出有用的信用信息,進(jìn)而提高信用評(píng)分的準(zhǔn)確性.

本文以互聯(lián)網(wǎng)信貸平臺(tái)真實(shí)數(shù)據(jù)作為研究樣本集,選用支持向量機(jī)、隨機(jī)森林和XGBoost分別建立了信用預(yù)測(cè)模型,并對(duì)3種單一模型進(jìn)行了投票加權(quán)融合. 基于互聯(lián)網(wǎng)信貸數(shù)據(jù)的特點(diǎn),在特征工程中對(duì)樣本集特征進(jìn)行了離散化、歸一化和特征組合等處理.

1 樣本數(shù)據(jù)及數(shù)據(jù)處理

1.1 樣本數(shù)據(jù)

采用國(guó)內(nèi)某互聯(lián)網(wǎng)小額信貸平臺(tái)真實(shí)數(shù)據(jù)作為研究樣本集,主要采集了用戶基本信息、通訊運(yùn)營(yíng)商信息和社交網(wǎng)絡(luò)類信息等. 為了用戶及平臺(tái)隱私,樣本數(shù)據(jù)已做脫敏處理. 本數(shù)據(jù)集共有15 000個(gè)樣本,正負(fù)樣本比為9∶1. 每個(gè)樣本包含1 138維特征,其中1 045維是數(shù)值特征,93維是類別特征. 為了檢測(cè)模型的泛化能力,從原數(shù)據(jù)集中隨機(jī)取12 000個(gè)樣本為訓(xùn)練集,剩余3 000個(gè)樣本為測(cè)試集.

1.2 數(shù)據(jù)處理

在對(duì)數(shù)據(jù)進(jìn)行建模之前,需要對(duì)數(shù)據(jù)進(jìn)行特征工程. 首先,原樣本集中個(gè)別樣本存在大量缺失屬性值,對(duì)模型產(chǎn)生較大的干擾,需將其從原樣本集中直接刪除[3]. 然后對(duì)所有樣本的缺失值進(jìn)行填充:數(shù)值型缺失值采用均值填充,類別型缺失值作為特征新取值進(jìn)行填充. 針對(duì)數(shù)值型特征,用最大最小規(guī)范法

(1)

進(jìn)行數(shù)值歸一化,式中Xnorm為歸一化后的數(shù)據(jù),X為原始數(shù)據(jù),Xmax、Xmin分別為原始數(shù)據(jù)集的最大值和最小值. 針對(duì)類別型特征,采用獨(dú)熱編碼進(jìn)行0-1編碼處理[4].

從統(tǒng)計(jì)上來(lái)說(shuō),原始特征僅僅是真實(shí)特征分布在低維空間的映射,不足以描述真實(shí)分布,若加入組合特征,則能在更高維空間擬合真實(shí)分布,同時(shí)兼顧全局模型和個(gè)性化模型,使得預(yù)測(cè)更準(zhǔn)確. 本文對(duì)任意兩原始特征a、b進(jìn)行a-b、a+b、a×b、a/b和a2+b2等5種組合,計(jì)算其與標(biāo)簽列的皮爾遜相關(guān)系數(shù);對(duì)任意3個(gè)原始特征計(jì)算(a-b)×c與標(biāo)簽列的皮爾遜相關(guān)系數(shù),最終選擇每類組合中排名前200位的特征加入到訓(xùn)練特征中. 因?yàn)檫B續(xù)特征的離散化對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性,能夠使模型更穩(wěn)定,所以將原始數(shù)據(jù)中所有連續(xù)的數(shù)值特征進(jìn)行等量離散化到10個(gè)區(qū)間,用1~10表示,添加至訓(xùn)練數(shù)據(jù)集.

最后統(tǒng)計(jì)每個(gè)樣本的特征處于各區(qū)間內(nèi)的次數(shù),得到10維計(jì)數(shù)特征,也加到訓(xùn)練特征集中.

2 評(píng)分模型

當(dāng)前國(guó)內(nèi)各大銀行的信用評(píng)估主要是參考美國(guó)的FICO評(píng)分體系,其核心是Logistic回歸算法[5]. 但是考慮到我國(guó)基本國(guó)情以及互聯(lián)網(wǎng)信用數(shù)據(jù)的特點(diǎn),一些新的基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法更為適合[3]. 本文的評(píng)分模型是基于支持向量機(jī)、隨機(jī)森林和XGBoost等3種算法,分別構(gòu)建單模型和融合模型,并對(duì)比各模型預(yù)測(cè)表現(xiàn). 所選用的3種單一模型具備很好的多樣性,相關(guān)性較小,性能表現(xiàn)也較為接近,滿足模型融合的基本條件.

2.1 支持向量機(jī)模型

支持向量機(jī)[6-7](Support Vector Machine,簡(jiǎn)稱SVM)是90年代中期發(fā)展起來(lái)的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化. 它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì).

支持向量機(jī)的基本思想是尋找一個(gè)滿足分類要求的超平面,使其在保證分類精度的同時(shí)最大化超平面兩側(cè)的空白區(qū)域[8]. 針對(duì)線性不可分情況,通常引入核函數(shù)將非線性可分的特征向量空間映射到線性可分的特征向量空間,簡(jiǎn)化映射空間中的內(nèi)積運(yùn)算,避免直接在高維空間中進(jìn)行計(jì)算,然后再利用線性可分的支持向量機(jī)進(jìn)行分類.

設(shè)訓(xùn)練樣本集D={xi,yi}(i=1,2,…,m),xin,yi{+1,-1},yi為輸出. 把這m個(gè)樣本點(diǎn)看作是n維空間中的點(diǎn),如果存在一個(gè)分類超平面

(2)

圖1 最優(yōu)分類面示意圖

要使分類間隔最大等價(jià)于使‖ω‖2/2最小,尋求最優(yōu)分類面H的問(wèn)題就轉(zhuǎn)化為求解下面的最優(yōu)化問(wèn)題:

s.t.yi[ωTx+b]≥1 (i=1,2,…,m).

(3)

根據(jù)優(yōu)化理論,可得線性可分條件下的分類決策樹為

(4)

其中,b*是分類閾值,αi是每個(gè)樣本對(duì)應(yīng)的Lagrange乘子,αi不為零時(shí)所對(duì)應(yīng)的樣本就是支持向量.

在構(gòu)建SVM模型時(shí),核函數(shù)以及核參數(shù)的選取決定著SVM模型的最終表現(xiàn). 為了使模型有較好的預(yù)測(cè)能力,本文采用徑向基核函數(shù)作為支持向量機(jī)的內(nèi)積核函數(shù),利用網(wǎng)格搜索來(lái)選擇徑向基核函數(shù)的最優(yōu)參數(shù)γ和懲罰因子C. 在對(duì)本文信用評(píng)估研究數(shù)據(jù)集特征選擇中,采用了Filter方式的單變量相關(guān)系數(shù)法,從全部3 966維特征中選取出前1 000維最重要特征. 在此過(guò)程中SVM核函數(shù)參數(shù)γ和懲罰因子C設(shè)置在一定區(qū)間內(nèi)取隨機(jī)值,多次訓(xùn)練取平均值. 選出重要特征之后,再用網(wǎng)格搜索法確定最優(yōu)參數(shù),進(jìn)而訓(xùn)練模型并對(duì)測(cè)試集預(yù)測(cè)信用程度.

2.2 隨機(jī)森林模型

隨機(jī)森林[9-10](Random Forest,簡(jiǎn)稱RF)是通過(guò)自助法重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成k個(gè)分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定. 單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個(gè)測(cè)試樣品需要經(jīng)過(guò)每一棵樹分類決策,統(tǒng)計(jì)后的結(jié)果更接近于正確分類. 隨機(jī)森林對(duì)多元共線性不敏感,對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測(cè)多達(dá)幾千個(gè)解釋變量的作用.

由于隨機(jī)森林模型在訓(xùn)練過(guò)程中可以輸出特征重要性排序,本文采用Embedded方法,從離散化特征、歸一化特征、獨(dú)熱編碼特征和組合特征等4類特征中分別選取前400名,構(gòu)成1 200維的重要特征集,用于模型最終的訓(xùn)練和預(yù)測(cè). 隨機(jī)森林中最重要的參數(shù)是決策樹的棵樹,在參數(shù)調(diào)優(yōu)中,通過(guò)網(wǎng)格搜索法確定出最優(yōu)決策樹棵樹. 最后進(jìn)行模型訓(xùn)練,代入測(cè)試集檢驗(yàn)?zāi)P捅憩F(xiàn).

2.3 XGBoost模型

XGBoost[11-12](Extreme Gradient Boosting)是Gradient Boosting Decision Tree(簡(jiǎn)稱GBDT)的一個(gè)C++實(shí)現(xiàn). GBDT是Boosting型分類器,在生成每一棵樹的時(shí)候采用梯度下降的思想,以之前生成的所有樹為基礎(chǔ),向著最小化給定目標(biāo)函數(shù)的方向多走一步. 與傳統(tǒng)GBDT方式不同,XGBoost能夠自動(dòng)利用CPU的多線程進(jìn)行并行,同時(shí)對(duì)損失函數(shù)進(jìn)行了二階的泰勒展開,并增加了正則項(xiàng),用于權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜度.

設(shè)樣本集D={xi,yi}(|D|=n,xim,yi),可由集成樹模型得出預(yù)測(cè)值i=φ其中F={f(x)=ωq(x)}是所有樹的集合,q代表樹的結(jié)構(gòu)部分,ω代表葉子權(quán)重部分,共T棵樹.

設(shè)計(jì)整體目標(biāo)函數(shù)為

(5)

其中,Ω(f)=γT+‖ω‖2/2;l(φ)是損失函數(shù),通常是凸函數(shù),用于刻畫預(yù)測(cè)值i和真實(shí)值yi的差異;Ω(φ)為模型的正則化項(xiàng),用于降低模型的復(fù)雜度,減輕過(guò)擬合問(wèn)題. 模型目標(biāo)是最小化目標(biāo)函數(shù).

(6)

其中,gi是一階導(dǎo)數(shù),hi為二階導(dǎo)數(shù).

定義Ij={i|q(xi)=j}為葉子j的樣本集合,則

(7)

在樹結(jié)構(gòu)q已知時(shí),式(7)中葉子節(jié)點(diǎn)權(quán)重ωj有閉式解,解和對(duì)應(yīng)的目標(biāo)函數(shù)值如下:

(8)

本文在XGBoost建模時(shí),選擇樹模型為基分類器,AUC為模型表現(xiàn)的度量指標(biāo). XGBoost參數(shù)眾多,但整體魯棒性好,在大多數(shù)情況下,只需調(diào)節(jié)樹深、最小葉子節(jié)點(diǎn)樣本權(quán)重和、L2正則化系數(shù)等就能取得不錯(cuò)的效果. 利用Bagging的思想,分別對(duì)離散化特征、歸一化特征、獨(dú)熱編碼特征和組合特征進(jìn)行單獨(dú)模型訓(xùn)練并預(yù)測(cè),然后對(duì)4類特征的預(yù)測(cè)值進(jìn)行加權(quán)融合,最終得到XGBoost模型的預(yù)測(cè)結(jié)果.

2.4 融合模型

模型融合是一種以增加算法的多樣性、減少泛化誤差來(lái)提高模型準(zhǔn)確率的強(qiáng)有力技術(shù),分為Stacking、Blending和Voting等思路[13]. 模型融合有2個(gè)基本要素:一是單一模型之間的相關(guān)性要盡可能小,二是單一模型之間的性能表現(xiàn)相差不大. 在實(shí)踐中,往往是相關(guān)系數(shù)較低且性能較好的單一模型融合之后能明顯改善最終的預(yù)測(cè)結(jié)果[14-15]. 本文中隨機(jī)森林是Bagging型算法,XGBoost是Boosting型算法. Bagging主要關(guān)注降低方差,而Boosting主要關(guān)注降低偏差. 這是2種完全不同的集成樹學(xué)習(xí)策略. 另外,支持向量機(jī)不屬于集成學(xué)習(xí),它是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)算法. 可見(jiàn)本文3種單一算法具備很好的多樣性,相關(guān)性較小,性能最終表現(xiàn)也較為接近,符合模型融合對(duì)單一模型的要求.

Stacking的基本思想是使用大量基分類器,然后使用另一種頂層分類器來(lái)融合基分類器的預(yù)測(cè),旨在降低泛化誤差. 相對(duì)于Stacking,Blending更加簡(jiǎn)單,用不相交的數(shù)據(jù)訓(xùn)練不同的基模型,將基模型的輸出取平均.

實(shí)踐中最常用的融合方法是Voting,即投票加權(quán)融合,它快速直接,只需要已建立模型在測(cè)試集上的預(yù)測(cè)結(jié)果,而不需要重新訓(xùn)練. 在投票時(shí),加入相應(yīng)權(quán)重,模型表現(xiàn)越好,其權(quán)重也就越高. 投票加權(quán)融合公式如下:

M融=n1M1+n2M2+…+nkMk,

(9)

其中n1+n2+…+nk=1.

本文采用簡(jiǎn)單加權(quán)投票的融合方法,對(duì)已經(jīng)建立的SVM、RF和XGBoost等3種單一模型的預(yù)測(cè)結(jié)果進(jìn)行模型融合,以期獲得更準(zhǔn)確的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法.

3 實(shí)驗(yàn)結(jié)果與分析

本文模型均在Python環(huán)境利用Scikit-Learn機(jī)器學(xué)習(xí)包實(shí)現(xiàn). 模型的表現(xiàn)采用AUC值和F1分?jǐn)?shù)指標(biāo)來(lái)度量.F1分?jǐn)?shù)是統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類模型精確度的一種指標(biāo),同時(shí)兼顧了分類模型的準(zhǔn)確率和召回率,是模型準(zhǔn)確率和召回率的一種加權(quán)平均,最大值是1,最小值是0. ROC曲線通常被用來(lái)描述模型的分辨能力. 以假正率為橫坐標(biāo),真正率為縱坐標(biāo)繪制成曲線. 而曲線下面積(Area Under Curve,簡(jiǎn)稱AUC)能更好地衡量ROC所表達(dá)結(jié)果的好壞,AUC值越大,代表模型的預(yù)測(cè)精度越高.

3.1 支持向量機(jī)建模

對(duì)于徑向基核函數(shù)來(lái)說(shuō),最主要的參數(shù)是懲罰因子C和最優(yōu)參數(shù)γ,其中C控制對(duì)誤分樣本的懲罰力度,γ用來(lái)控制最優(yōu)分類面的形狀. 利用單變量相關(guān)系數(shù)法選取出前1 000維最重要特征之后,用網(wǎng)格搜索法對(duì)參數(shù)尋優(yōu),最終確定當(dāng)核參數(shù)γ為0.01、懲罰因子C為2時(shí),SVM模型在驗(yàn)證集上的表現(xiàn)最佳.

最終,SVM模型的F1分?jǐn)?shù)為0.778,AUC值為0.691 013.

3.2 隨機(jī)森林建模

隨機(jī)森林中決策樹的棵樹(設(shè)為Ntree)太多或者太少,效果都不好. 當(dāng)Ntree較小時(shí),隨機(jī)森林的分類誤差大,性能也比較差. 當(dāng)樹的棵數(shù)增大到一定值后,模型性能基本穩(wěn)定了,再增加Ntree只會(huì)增加計(jì)算量. 同時(shí)森林的規(guī)模達(dá)到一定程度時(shí),將導(dǎo)致森林的可解釋性減弱. 利用網(wǎng)格搜索方法,確定了當(dāng)樹的棵樹為450時(shí)模型效果最好.

經(jīng)過(guò)RF模型的訓(xùn)練,代入測(cè)試集進(jìn)行預(yù)測(cè),最終得出F1分?jǐn)?shù)為0.748,AUC值為0.680 278. RF模型在測(cè)試集上的表現(xiàn)不如SVM.

3.3 XGBoost建模

首先,在利用Bagging的思想分別對(duì)離散化特征、歸一化特征、獨(dú)熱編碼特征和組合特征單獨(dú)訓(xùn)練并預(yù)測(cè)時(shí),為了減少運(yùn)算量同時(shí)能保證模型的精確度,采取對(duì)主要參數(shù)加入擾動(dòng)的方式增加多樣性,在一定范圍內(nèi)隨機(jī)取值,訓(xùn)練10次取預(yù)測(cè)平均值.

然后對(duì)4類特征的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)融合(表1),權(quán)重比例為1∶1∶2∶6,最終得到F1分?jǐn)?shù)為0.802,AUC值為0.714 592. 可以看出,XGBoost的表現(xiàn)優(yōu)于SVM和RF模型.

表1 XGBoost的加權(quán)融合Table 1 Weighted fusion of XGBoost

3.4 模型融合

最后對(duì)已建立的SVM、RF和XGBoost等3種模型的預(yù)測(cè)結(jié)果進(jìn)行簡(jiǎn)單加權(quán)投票融合,經(jīng)網(wǎng)格尋優(yōu)得出SVM、RF、XGBoost的最佳權(quán)重比例為1∶1∶8. 投票之后融合模型的F1分?jǐn)?shù)為0.806,AUC得分為0.714 941. 融合后的模型優(yōu)于單個(gè)模型的表現(xiàn)(表2和圖2). 說(shuō)明基于多模型融合的互聯(lián)網(wǎng)信貸個(gè)人信用評(píng)估方法能有效改善評(píng)分精確度,有助于信貸平臺(tái)風(fēng)險(xiǎn)控制的健康發(fā)展. 本文在4G內(nèi)存Linux系統(tǒng)條件下實(shí)驗(yàn),各模型單次運(yùn)行所占用的CPU時(shí)間(tCPU)見(jiàn)表2. 建立融合模型時(shí),3種單一算法同時(shí)運(yùn)行,得到結(jié)果之后執(zhí)行融合,總計(jì)算用時(shí)有一定程度的增加,但在可接受范圍之內(nèi).

表2 單一模型投票融合Table 2 Voting ensemble of single models

圖2 投票融合模型的ROC曲線

4 結(jié)束語(yǔ)

信用評(píng)估對(duì)互聯(lián)網(wǎng)個(gè)人信貸風(fēng)險(xiǎn)控制至關(guān)重要,本文根據(jù)互聯(lián)網(wǎng)信用數(shù)據(jù)的特點(diǎn),基于支持向量機(jī)、隨機(jī)森林和XGBoost分別建立了預(yù)測(cè)模型,并對(duì)3種單一模型進(jìn)行投票加權(quán)融合. 采用F1分?jǐn)?shù)和AUC值對(duì)模型表現(xiàn)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明:XGBoost模型表現(xiàn)優(yōu)于SVM和RF,投票融合模型的預(yù)測(cè)結(jié)果比單一模型更好,評(píng)分精確度更高,更適用于互聯(lián)網(wǎng)信貸個(gè)人信用的評(píng)估.

[1] 易憲容. 當(dāng)前互聯(lián)網(wǎng)金融最大風(fēng)險(xiǎn)是信用風(fēng)險(xiǎn)[N]. 證券日?qǐng)?bào),2014-03-08(B02).

[2] 武安華. 互聯(lián)網(wǎng)個(gè)人信用評(píng)分研究[J]. 中國(guó)金融,2016(16):46-47.

[3] 向暉,楊勝剛. 個(gè)人信用評(píng)分關(guān)鍵技術(shù)研究的新進(jìn)展[J]. 財(cái)經(jīng)理論與實(shí)踐,2011(4):20-24.

XIANG H,YANG S G. Recent development in key techniques of credit scoring[J]. The Theory and Practice of Finance and Economics,2011(4):20-24.

[4] 向暉. 個(gè)人信用評(píng)分組合模型研究與應(yīng)用[D]. 長(zhǎng)沙:湖南大學(xué),2011.

XIANG H. Research on ensemble model for credit scoring and its application[D]. Changsha:Hunan University,2011.

[5] 劉新海. 運(yùn)用大數(shù)據(jù)開展P2P信用風(fēng)險(xiǎn)評(píng)估的Upstart[J]. 征信,2016(6):18-20.

LIU X H. Upstart:a company making P2P credit risk assessment based on big data[J]. Credit Reference,2016(6):18-20.

[6] VAPNIK V. The nature of statistical learning theory[M]. New York:Springer,1995.

[7] VAPNIK N. Statistical learning theory[M]. New York:Springer,1999.

[8] 肖智,李文娟. 基于主成分分析和支持向量機(jī)的個(gè)人信用評(píng)估[J]. 技術(shù)經(jīng)濟(jì),2010(3):69-72.

XIAO Z,LI W J. Personal credit scoring based on PCA and SVM[J]. Technology Economics,2010(3):69-72.

[9] BREIMAN L,FRIEDMAN J H,OLSHEN R A,et al. Classification and regression trees[M]. Belmont:Wadsworth,1984.

[10] BREIMAN L. Random forests[J]. Machine Learning,2001,45:5-32.

[11] CHEN T Q,GUESTRIN C. XGBoost:a scalable tree boosting system[C]∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM,2016:785-794.

[12] CHEN T Q,LI H,YANG Q,et al. General functional matrix factorization using gradient boosting[J]. Proceedings of the 30th International Conference on Machine Learning,2013,28:436-444.

[13] ROHAVI R,ROHAVI R. An empirical comparison of voting classification algorithms:bagging,boosting and variants[J]. Machine Learning,1999,36:105-139.

[14] KITTLER J,HATEF M,DUIN R P W,et a1. On combining classifiers[J]. IEEE Transactions on Pattern Analysis and Machine Learning,1998,20(3):226-239.

[15] JAIN A K,DUIN R,MAO J C. Statistical pattern recognition:a review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.

Internet Credit Personal Credit Assessing Method Based on Multi-Model Ensemble

BAI Pengfei1*, AN Qi1, Nicolaas Frans de ROOIJ2, LI Nan2, ZHOU Guofu1,2,3

(1. South China Academy of Advanced Optoelectronics, South China Normal University, Guangzhou 510006, China; 2. Shenzhen Guohua Optoelectronics Technology Co., Ltd, Shenzhen 518110, China;3. Academy of Shenzhen Guohua Optoelectronics, Shenzhen 518110, China)

To solve the problem of the missing of the effective scores of online personal credits, the characteristics of internet personal credit assessment data are analyzed. Support vector machine (SVM), random forest (RF), and XGBoost have been adopted to establish the credit forecasting model in the paper, respectively. The voting fusion of the proposed models is conducted. Based on the data characteristics of internet credit data, discretization, normalization, and feature combination are adopted to experimental data set in feature engineering. In order to improve the contrast, the logistic regression analysis-the core of FICO assessment is carried out. The experimental results show that the performance of the three established algorithm are better than logistic regression. The performance of XGBoost are better than SVM and RF model in the accuracy prediction. The performance of voting fusion model is better than that of single model, with outstanding model resolution and prediction accuracy, which is more suitable for internet personal credit assessment.

personal credit assessing; online lending; support vector machine; random forest; XGBoost; model ensemble

2017-03-06 《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》網(wǎng)址:http://journal.scnu.edu.cn/n

國(guó)家自然科學(xué)基金委員會(huì)-荷蘭國(guó)家基金機(jī)構(gòu)間合作重點(diǎn)項(xiàng)目(NSFC-NWO)(51561135014);教育部“長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃”資助項(xiàng)目(IRT13064);廣東省引進(jìn)創(chuàng)新科研團(tuán)隊(duì)計(jì)劃項(xiàng)目(2013C102);廣東省科技計(jì)劃項(xiàng)目(2014B090914004,2016B090918083);廣東省引進(jìn)第四批領(lǐng)軍人才專項(xiàng)資金項(xiàng)目(2014);深科技創(chuàng)新【2015】291號(hào)科技金融股權(quán)投資項(xiàng)目(GQYCZZ20150721150406);國(guó)家高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃111引智基地(光信息創(chuàng)新引智基地)

*通訊作者:白鵬飛,副研究員,Email:Baipf@scnu.edu.cn.

TP39

A

1000-5463(2017)06-0119-05

【中文責(zé)編:莊曉瓊 英文審校:葉頎】

猜你喜歡
個(gè)人信用向量分類
向量的分解
分類算一算
聚焦“向量與三角”創(chuàng)新題
基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
個(gè)人信用信息何以應(yīng)由憲法保護(hù)?——一個(gè)制度論證的進(jìn)路
法大研究生(2020年2期)2020-01-19 01:43:22
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
嚴(yán)重交通違法行為將直接與個(gè)人信用掛鉤
汽車與安全(2016年5期)2016-12-01 05:22:05
向量垂直在解析幾何中的應(yīng)用
华坪县| 佛坪县| 大化| 襄垣县| 顺义区| 炉霍县| 辽宁省| 潢川县| 扎兰屯市| 个旧市| 文安县| 巴彦县| 淮滨县| 凭祥市| 弥勒县| 和静县| 垣曲县| 曲麻莱县| 石嘴山市| 佛坪县| 丰都县| 普宁市| 嵊泗县| 耿马| 民和| 泗水县| 抚松县| 南投市| 武鸣县| 蛟河市| 九寨沟县| 三明市| 聂拉木县| 张家港市| 合山市| 延安市| 调兵山市| 鄄城县| 安仁县| 黄平县| 南澳县|