国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信用逾期預(yù)測中不同機(jī)器學(xué)習(xí)模型對比分析①

2022-11-07 09:08
關(guān)鍵詞:分類器樣本預(yù)測

陳 霞

(中國人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100872)

風(fēng)險控制是衡量金融行業(yè)是否健康可持續(xù)發(fā)展的重要因素,一直也是金融公司重點(diǎn)研究的內(nèi)容.當(dāng)前金融信貸業(yè)務(wù)量隨著消費(fèi)升級不斷高漲,但是違約風(fēng)險也在日趨凸顯,如某些小型貸款機(jī)構(gòu)不得不依賴自己在銀行的擔(dān)保金勉強(qiáng)維持.據(jù)公開數(shù)據(jù)研究,中國上市的商業(yè)銀行不良貸款余額逐年增長,并在2020年達(dá)到了歷史最高.四大國有行合計(jì)壞賬萬億元,居商業(yè)銀行首位,占上市銀行不良貸款總額約6 成.截至2020年末,中國工商銀行不良貸款余額排名第一,其次為中國建設(shè)銀行、中國農(nóng)業(yè)銀行和中國銀行,不良貸款余額均高于2 000 億元[1].這些結(jié)果充分反映了銀行由于沒有控制好風(fēng)險導(dǎo)致了巨額不良資產(chǎn)的問題,因此金融公司在開展貸款業(yè)務(wù)時應(yīng)將風(fēng)險控制放在首要位置.

為了更好地控制業(yè)務(wù)風(fēng)險使自身獲利,金融機(jī)構(gòu)不斷挖掘存量用戶特征信息,以此區(qū)分好用戶和壞用戶.早在20世紀(jì)90年代開始,金融公司為了獲利,把各類統(tǒng)計(jì)分析算法應(yīng)用在業(yè)務(wù)中,通過模型擬合的方法提前判斷出用戶風(fēng)險[2-5].但對于數(shù)據(jù)樣本較少的新業(yè)務(wù),單純用這類數(shù)據(jù)容易導(dǎo)致模型結(jié)果過擬合.本文試圖結(jié)合相似金融業(yè)務(wù)數(shù)據(jù)做為模型訓(xùn)練樣本,運(yùn)用目前金融行業(yè)運(yùn)用較多的算法: 隨機(jī)森林、LightGBM、XGBoost、DNN 和遷移學(xué)習(xí),分別預(yù)測新業(yè)務(wù)出的結(jié)果并與真實(shí)結(jié)果進(jìn)行比較,旨在為小樣本業(yè)務(wù)在模型建立過程中樣本不足的問題提供一種有效的解決方法.

1 信貸業(yè)務(wù)在模型上的發(fā)展情況

得益于Nasdap 系統(tǒng),1971年美國的互聯(lián)網(wǎng)金融進(jìn)入正式運(yùn)營,1995年美國成立了一家網(wǎng)絡(luò)銀行,從此互聯(lián)網(wǎng)金融進(jìn)入了發(fā)展期.20世紀(jì)90年代開始,發(fā)達(dá)國家在互聯(lián)網(wǎng)金融領(lǐng)域快速發(fā)展,互聯(lián)網(wǎng)金融服務(wù)逐漸多元化、綜合化,行業(yè)之間競爭非常激烈.各公司為了提升利潤,降低風(fēng)險逾期率迫在眉睫,各種統(tǒng)計(jì)分析算法應(yīng)用在金融風(fēng)控中,大數(shù)據(jù)量化風(fēng)控成為主流思想,如在信貸引入決策樹模型、邏輯回歸模型、判別分析以及BP 神經(jīng)網(wǎng)絡(luò)模型[2-5].由于邏輯回歸模型可解釋性較強(qiáng),在金融領(lǐng)域備受青睞,然而邏輯回歸算法要求數(shù)據(jù)滿足嚴(yán)格的假設(shè),因此在實(shí)踐中很難應(yīng)用[6].相比于邏輯回歸模型,隨機(jī)森林、LightGBM 和XGBoost等樹模型采用集成模型的思想,擬合效果更好.DNN深度學(xué)習(xí)模型則可在稀疏空間做分類,通過增加節(jié)點(diǎn)數(shù)或激活函數(shù)的次數(shù)來增加線性或者非線性轉(zhuǎn)換能力和次數(shù),且盡可能的優(yōu)化損失函數(shù)去學(xué)習(xí)規(guī)則,但其解釋性相對較差.

為了滿足信貸模型預(yù)測效果更好的要求,可從模型算法、數(shù)據(jù)輸入和變量挖掘3 個方面來進(jìn)行優(yōu)化.模型方面可以優(yōu)化模型算法或是利用組合模型進(jìn)行預(yù)測,如使用不同核函數(shù)建立支持向量機(jī)模型、基于XGBoost 機(jī)器學(xué)習(xí)算法建模、使用加權(quán)投票法建立組合模型、基于梯度提升決策樹模型、建立SVM-Logistic組合模型、建立隨機(jī)森林等與邏輯回歸融合模型[7-12];變量方面可擴(kuò)大量化維度,如蔣翠清等[13]將借款用途和社交情況等信息進(jìn)行量化,分析了不同軟信息對貸款違約的影響作用; 數(shù)據(jù)方面可進(jìn)行抽樣等操作,如祝鈞桃等[14]針對小樣本數(shù)據(jù)從數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)、外部記憶、參數(shù)優(yōu)化4 個方面解決小樣本問題,為往后的研究提供了有價值的參考.

2 預(yù)測模型方法和數(shù)據(jù)來源

該實(shí)戰(zhàn)案例分析使用iOS 系統(tǒng) 10.14 版本,軟件為Jupyter notebook; 具體硬件配置: 內(nèi)存8 GB、處理器為2.3 GHz Intel Core i5; 實(shí)驗(yàn)中使用的工具為Python 3.7 Sklearn、TensorFlow、Kears 等.

2.1 基礎(chǔ)數(shù)據(jù)來源

數(shù)據(jù)源來自某銀行信貸業(yè)務(wù),分為歷史金融貸款數(shù)據(jù)和現(xiàn)業(yè)務(wù)數(shù)據(jù),歷史信貸數(shù)據(jù)時間范圍為2014年1月-2017年12月,按天記錄,共30 萬條數(shù)據(jù).當(dāng)前金融業(yè)務(wù)數(shù)據(jù)共1.5 萬條,時間范圍為2017年1月-2017年12月.由于需要大規(guī)模開展業(yè)務(wù),需要結(jié)合歷史信貸數(shù)據(jù)評估業(yè)務(wù)風(fēng)險,如通過用戶的歷史逾期情況、資產(chǎn)負(fù)債比例、工作年限等維度,用于預(yù)測個人信譽(yù)問題.

該實(shí)驗(yàn)數(shù)據(jù)離散變量主要包括有工作年限、工作行業(yè)和房產(chǎn)情況.連續(xù)變量數(shù)據(jù)情況如表1 所示.

表1 連續(xù)變量數(shù)據(jù)情況

2.2 預(yù)測模型方法

(1)隨機(jī)森林算法

隨機(jī)森林(random forest,RF)模型是2001年由Breiman[15]提出的基于分類樹的算法.它通過對大量分類樹的匯總提高了模型的預(yù)測精度,是取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的新的模型,在醫(yī)學(xué)、氣象、金融、水利等領(lǐng)域被廣泛使用.

在算法上,隨機(jī)森林是采用bootstrap sample 方法,有放回的抽樣方式進(jìn)行數(shù)據(jù)選擇,然后從所有屬性中隨機(jī)選擇m個屬性.采用樹模型訓(xùn)練模型但沒有剪枝過程,每棵樹都盡最大程度成長.重復(fù)k次,建立k個模型,k個模型形成決策森林,每棵樹都是一個弱分類器,最終的預(yù)測結(jié)果采用投票的方式整合k個弱分類器結(jié)果完成預(yù)測.從整體來看,單棵樹存在過擬合、準(zhǔn)確度不高、不穩(wěn)定的現(xiàn)象,多棵樹共同決策可提升模型穩(wěn)定性和精度.算法步驟如下:

輸入為樣本集D={(x1,y1),(x2,y2),···,(xm,ym)} 迭代100 次,輸出最終的強(qiáng)分類器f(x),t=1,2,3,···,100;對訓(xùn)練集進(jìn)行100 次隨機(jī)采樣,共使用有放回采集24.8 萬次,得到包含24.8 萬個樣本的采樣集合Dt; 用采樣集Dt訓(xùn)練第t個弱學(xué)習(xí)器Gt(x),選擇一個最優(yōu)的特征值作為左右決策的劃分點(diǎn); 分類算法,則100 個弱學(xué)習(xí)器進(jìn)行投票; 回歸算法,則100 個弱學(xué)習(xí)器通過算法平均的方法,最終擬合出模型結(jié)果.本文采用分類算法完成投票.

隨機(jī)森林算法參數(shù)配置: 100 個弱學(xué)習(xí)器,有放回抽樣bootstrap=true,criterion=“gini”.

(2)XGBoost 算法

XGBoost 是基于GBDT 算法的提升,GBDT 算法僅支持CART 基分類器,XGBoost 支持CART 基分類器的基礎(chǔ)上同時支持線性分類器.在精度提升方面,XGBoost 使用二階泰勒展開式f(x)=f(x0)+f′(x0)(x-x0)+(x-x0)2,比GBDT 更好的逼近損失函數(shù)(loss function).為了防止過擬合,XGBoost 算法一方面代價函數(shù)里加入了正則項(xiàng)來控制模型復(fù)雜度,另一方面借鑒了隨機(jī)森林的做法,支持列抽樣.具體算法如算法1.

算法1.XGBoost 算法輸入: I,inst ance set of current node; d,feature dimension gain←0 G←∑i∈I gi,H←∑i∈I hi For k=1 to m do x jk For j in sorted(I,by )do GL←0,HL←0

GL←GL+gi,HL←HL+h j GR←G-GL,HR←H-HL()score←max score,G2L HL+λ+G2R HR+λ- G2 H+λ end end輸出: Split with max score

XGBoost 算法參數(shù)配置: 采用二元分類邏輯回歸的方法,訓(xùn)練100 次,最大樹深度為3,學(xué)習(xí)率為0.01,正則化權(quán)重L1 和L2 為1.

(3)LightGBM 算法

LightGBM 在XGBoost 的基礎(chǔ)上做了改進(jìn),主要引入了Histogram 算法,內(nèi)存消耗低并且可快速尋找樹的分裂節(jié)點(diǎn).LightGBM 結(jié)合單邊梯度采樣(gradientbased one-side sampling)和互斥特征合并(exclusive feature bundling),在減少維度和下采樣上面進(jìn)行優(yōu)化使Histogram 算法效果更好.在樹的生長上,LightGBM拋棄了Level-wise 策略采用leaf-wise,為防止過擬合,使用最大樹深限制,如算法2 所示.

算法2.LightGBM 算法輸入: I: training data,d: iterations; a: sampling ratio of large gradient data; b: sampling ratio of small gradient data; loss: loss function,L: weak learner models←{},fact←1-a b topN←a×len(I),randN←a×len(I)i=1 For to do preds←mod els.predict(I)g←loss(I,preds),w←{1,1,···}sorted←GetS ortedIndices(abs(g))topS et←sorted[1:topN]rankS et←RanddomPick(sorted[topN:len(I)],randN)usedS et←topS et+rankS et w[rankS et]×=fact Assign weight to the small gradient data.newModels←L(I[usedS et],-g[usedS et],w[usedS et])Models.append(newModel)

大量的金融信貸場景研究案例表明,LightGBM 在預(yù)測結(jié)果上表現(xiàn)的效果優(yōu)于XGBoost、Logistic、SVM和隨機(jī)森林等模型效果,準(zhǔn)確性較高的同時具有較好的魯棒性[16,17].

LightGBM 算法訓(xùn)練參數(shù)設(shè)置: 采用GBDT 提升算法類型,弱學(xué)習(xí)器數(shù)量為100,最大樹深度為3,學(xué)習(xí)率為0.01,正則化權(quán)重L1 和L2 為1.

(4)TrAdaBoost 遷移學(xué)習(xí)算法

在21世紀(jì)初,Ben-David Schuller[18]提出了學(xué)習(xí)與任務(wù)之間具有相互聯(lián)系的觀點(diǎn),為遷移學(xué)習(xí)提供了理論基礎(chǔ).利用遷移學(xué)習(xí)思想在醫(yī)學(xué)上取得了顯著成就,如基于X 射線和CT 圖像預(yù)訓(xùn)練的CNN 模型進(jìn)行 COVID-19檢測任務(wù); 把基于自然圖像預(yù)訓(xùn)練得到的不同ResNet 模型遷移到乳腺癌診斷任務(wù); 使用與目標(biāo)數(shù)據(jù)相似的腦血管圖像在 AlexNet 上進(jìn)行預(yù)訓(xùn)練,再利用 SVM 分類器進(jìn)行微調(diào)訓(xùn)練[19-21].在文本挖掘上也常常采用遷移學(xué)習(xí)方法,如采用遷移學(xué)習(xí)方法實(shí)現(xiàn)交叉語言文本分類; 利用完善的英文標(biāo)簽處理中文標(biāo)簽缺失問題,解決了交叉語言遷移分類問題[22,23].遷移學(xué)習(xí)方法在P2P信貸實(shí)驗(yàn)上表明遷移學(xué)習(xí)模型的平均AUC 比邏輯回歸模型高0.088 0,比支持向量機(jī)模型高0.035 5[24].

TrAdaBoost 遷移學(xué)習(xí)算法[25]利用對 AdaBoost 算法加以改來達(dá)到遷移學(xué)習(xí)的效果,主要通過boosting的作用建立自動調(diào)整權(quán)重的機(jī)制,加重正確的輔助數(shù)據(jù)權(quán)重,減少不重要的輔助訓(xùn)練數(shù)據(jù)權(quán)重.主要方法如下:

TaTbT=Ta∪Tb輸入: 兩個數(shù)據(jù)集 和 ,合并的訓(xùn)練數(shù)據(jù)集,基本分類算法Learner 和迭代次數(shù)N.初始化:w1=(w11,···,w1n+m)a 1.初始權(quán)重向量,其中,1 w1i=■■■■■■■n,i=1,···,n 1 β=1/(1+■m,i=n+1,···,n+m 2.設(shè)置For t=1,…,N PtPt=wt/∑m+n i=1 wti Pt ht:X■→YhtTbδt=n+m∑i=n+1 2lnn/N)wti|ht(xi)-c(xi)|∑n+m i=1 wti設(shè)置 滿足,調(diào)用Learner,根據(jù)合并后的訓(xùn)練數(shù)據(jù)T 以及T 上的權(quán)重分布 和未標(biāo)注數(shù)據(jù)S,得到一個S 的分類器.計(jì)算 在 上的容錯率:βt=δt/(1-δt)b設(shè)置設(shè)置新的權(quán)重向量:wt+1 i =■■■■■■■■■wtiβ|ht(xi)-c(xi)|,i=1,···,n wtiβ-|ht(xi)-c(xi)|t,i=n+1,···,n+m輸出最終分類器:)■■■■■■■1,∑Nt=[N/2]ln(1 h f(x)=βt)ht(x)≥1/2∑Nt=[N/2]ln(1 βt 0,other

TrAdaBoost 遷移學(xué)習(xí)算法訓(xùn)練參數(shù)設(shè)置: 基本分類算法采用XGBoost 模型算法,并用二元分類邏輯回歸訓(xùn)練,迭代次數(shù)為100,最大樹深度為3,學(xué)習(xí)率為0.01,正則化權(quán)重L1 和L2 為1,TrAdaBoost 權(quán)重修改次數(shù)為8 次,即訓(xùn)練整體訓(xùn)練次數(shù)為8 次.

(5)DNN 算法

DNN (deep neural network)神經(jīng)網(wǎng)絡(luò)模型又叫全連接神經(jīng)網(wǎng)絡(luò)是基本的深度學(xué)習(xí)框架,最早由 Hinton等人[26]于2006年提出,可基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí),同時能夠?qū)W習(xí)出高階非線性特征,具有特征交叉能力.神經(jīng)網(wǎng)絡(luò)總體可分為3 個模塊: 輸入層、隱藏層和輸出層.目前應(yīng)用場景較為廣泛,如圖像識別、聲音識別、廣告推薦、風(fēng)險預(yù)測和智能投顧等場景[27,28].本文DNN 模型結(jié)構(gòu)如圖1 所示.

圖1 DNN 模型結(jié)構(gòu)圖

具體邏輯如下:

對客戶的數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗和數(shù)據(jù)變換.通過3 層隱藏層后輸出預(yù)測結(jié)果.每一層可以有一個或多個神經(jīng)元,文中模型隱層神經(jīng)元選用8 個,輸出層只有1 個神經(jīng)元.激活函數(shù)包括tanh、ELU(exponential linear units)、Sigmoid、ReLU 和maxout等,本文選擇ReLU 函數(shù).ReLU 函數(shù)能克服梯度消失的問題,使得神經(jīng)網(wǎng)訓(xùn)練速度更快.輸出層設(shè)置了1 個神經(jīng)元,使用Sigmoid 作為激活函數(shù),輸出在0 和1 之間.

σ(x)=1/(1+e-x)

由于本文針對金融信貸逾期,可抽象為好壞預(yù)測的二分類問題,故采用binary cross_entropy 作為損失函數(shù).

農(nóng)民的土地產(chǎn)權(quán)是指農(nóng)村土地所有權(quán)制度的總稱,由土地使用、收入、占有和處置的各種權(quán)利和一些衍生權(quán)組成。由于主權(quán)與土地關(guān)系最密切,因此也是農(nóng)民土地產(chǎn)權(quán)的基本重點(diǎn)。

DNN 算法訓(xùn)練參數(shù)設(shè)置: SGD 學(xué)習(xí)率為0.1,SWA 采用周期性學(xué)習(xí),學(xué)習(xí)長度c為20,學(xué)習(xí)率 α1為0.001.在訓(xùn)練過程中,模型初始化參數(shù)之后使用SGD進(jìn)行梯度下降,迭代20 個epoch 后,將模型的參數(shù)進(jìn)行加權(quán)平均后得到組合權(quán)重的集成模型.

2.3 模型評價指標(biāo)

TP與TN表示都分對的情況,TP是樣本為正,預(yù)測結(jié)果為正; 樣本為負(fù),預(yù)測結(jié)果為負(fù);FP表示樣本為負(fù),預(yù)測結(jié)果為正;FN表示樣本為正,預(yù)測結(jié)果為負(fù).AUC (area under curve)為ROC 曲線下與坐標(biāo)軸圍成的面積,AUC 越接近1.0,檢測方法真實(shí)性越高; 當(dāng)AUC=0.5 時,則真實(shí)性最低,則無應(yīng)用價值.

ROC 曲線的橫坐標(biāo)表示偽正類率,表示預(yù)測為正但實(shí)際為負(fù)的樣本占所有負(fù)例樣本的比例; 偽正類率即為FPR(false positive rate).

ROC 曲線的縱坐標(biāo)為真正類率,表示預(yù)測為正且實(shí)際為正的樣本占所有正例樣本的比例.真正類率即為TPR(true positive rate).

精準(zhǔn)率(accuracy)表示正確預(yù)測為正和正確預(yù)測為負(fù)的結(jié)果數(shù)量占所有預(yù)測結(jié)果數(shù)量的比例.

召回率(recall)表示正確預(yù)測為負(fù)的數(shù)量占全部負(fù)樣本數(shù)量的比例.

圖2 為本文流程圖.

圖2 流程圖

3 模型預(yù)測結(jié)果對比分析

考慮到需要預(yù)測的金融業(yè)務(wù)數(shù)據(jù)共1.5 萬條,則其中1 萬條數(shù)據(jù)用于模型訓(xùn)練,5 000 條數(shù)據(jù)用于模型預(yù)測.目標(biāo)業(yè)務(wù)數(shù)據(jù)樣本較少,結(jié)合歷史相似信貸模型的30 萬條數(shù)據(jù),模型訓(xùn)練樣本共31 萬,跨時間預(yù)測數(shù)據(jù)共5 000 條.壞樣本選擇邏輯為自放貸后12 個月的表現(xiàn)期中,逾期90 天及以上的用戶.建模數(shù)據(jù)好壞樣本分布情況如表2 所示.

表2 建模數(shù)據(jù)好壞樣本分布情況

隨機(jī)森林算法、XGBoost 算法、LightGBM 算法和DNN 算法在數(shù)據(jù)訓(xùn)練時采用80%訓(xùn)練,20%預(yù)測的方法,為防止模型過擬合,樹模型深度最大為3.TrAdaBoost 算法中訓(xùn)練集為30 萬歷史信貸數(shù)據(jù),預(yù)測集目標(biāo)信貸業(yè)務(wù)1 萬條數(shù)據(jù).最終模型評價測試數(shù)據(jù)均為小業(yè)務(wù)數(shù)據(jù),共5 000 條.建模數(shù)據(jù)測試訓(xùn)練測試數(shù)據(jù)分布如表3 所示.

表3 建模數(shù)據(jù)訓(xùn)練測試數(shù)據(jù)分布

隨機(jī)森林、XGBoost、LightGBM、DNN 和TrAdaBoost 算法預(yù)測數(shù)據(jù)ROC 曲線結(jié)果如圖3 所示,5 種模型AUC 結(jié)果分別為84、81、83、84 和86.其中TrAdaBoost 算法效果最好,AUC 的預(yù)測結(jié)果為86,比隨機(jī)森林和DNN 的AUC 高2 個點(diǎn),比XGBoost 的結(jié)果高5 個點(diǎn).

圖3 各算法ROC 曲線對比圖

表4 說明了各種算法預(yù)測結(jié)果的準(zhǔn)確率及召回率,從模型的準(zhǔn)確率和召回率來看,TrAdaBoost 算法準(zhǔn)確率能達(dá)到88%,召回率73%,均比其他模型效果好; 其次是DNN,準(zhǔn)確率為86%,召回率為70%; 隨機(jī)森林算法,準(zhǔn)確率為84%,召回率為68%; 相比于隨機(jī)森林算法,XGBoost 算法和LightGBM 算法對預(yù)測數(shù)據(jù)的召回率更好,分別是70%、71%,其中LightGBM 算法的準(zhǔn)確率比XGBoost 算法高1 個百分點(diǎn).

表4 各算法預(yù)測結(jié)果對比(%)

圖4 的TrAdaBoost 算法模型結(jié)果分布表明,模型效果較顯著.把壞賬戶進(jìn)行分?jǐn)?shù)的轉(zhuǎn)換后,按照等量劃分的方法把結(jié)果分為8 份,每份約1 250 條數(shù)據(jù),黑色的曲線表示壞賬率,可以看出壞賬率有下降的趨勢,尤其是前兩個區(qū)間的壞賬率尤其高,在業(yè)務(wù)中可以按照這個閾值作為cut 節(jié)點(diǎn)來為業(yè)務(wù)作輔助決策.從入模變量的重要性來看,重要性變量集中在金融屬性較強(qiáng)的變量上,比如借款人提前還款次數(shù)和近3 個月內(nèi)提前還款金額,從這兩個變量從一定程度上可以說明借款人的財(cái)務(wù)狀況.

圖4 TrAdaBoost 算法模型結(jié)果區(qū)間和壞賬率分布圖

4 結(jié)論

本研究的主要目的是在銀行新開金融產(chǎn)品數(shù)據(jù)集很小的情況下,開發(fā)一個能對用戶是否逾期作出預(yù)測的有效模型.對于金融機(jī)構(gòu)想預(yù)判用戶是否有逾期風(fēng)險,但由于資源的限制,阻礙了他們獲得有效用戶數(shù)據(jù)的管理者來說具有非凡的意義.把小樣本融于其他類似的金融數(shù)據(jù)集中,提高模型的預(yù)測能力,對新金融業(yè)務(wù)具有很強(qiáng)的數(shù)據(jù)參考價值.本文研究結(jié)果表明,小樣本業(yè)務(wù)結(jié)合相似業(yè)務(wù)構(gòu)建模型的思路是可行的.隨機(jī)森林、XGBoost、LightGBM、DNN 和TrAdaBoost 五種算法在測試集上AUC 結(jié)果都高于80,精準(zhǔn)度也都高于80%,召回率平均能達(dá)到70%以上,其中TrAda-Boost 算法AUC 結(jié)果為86,精準(zhǔn)率為88%的情況下召回可達(dá)73%,效果最好.總體而言,TrAdaBoost 算法相較于其他對比方法魯棒性較好,在預(yù)測集上的結(jié)果表現(xiàn)最佳.但是,本研究在數(shù)據(jù)的選擇上仍有一些缺陷,例如,在入模變量的數(shù)據(jù)選擇上只用了銀行內(nèi)部的數(shù)據(jù),未引入三方數(shù)據(jù)而導(dǎo)致用戶畫像不全,使得預(yù)測集的準(zhǔn)確率和召回率還有提升空間,后面可進(jìn)一步補(bǔ)充民間借貸等相關(guān)數(shù)據(jù).

猜你喜歡
分類器樣本預(yù)測
分類器集成綜述
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴(kuò)增分類
選修2—2期中考試預(yù)測卷(B卷)
選修2—2期中考試預(yù)測卷(A卷)
學(xué)貫中西(6):闡述ML分類器的工作流程
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
直擊高考中的用樣本估計(jì)總體
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
基于支持向量機(jī)的測厚儀CS值電壓漂移故障判定及處理
七年級數(shù)學(xué)下冊期末檢測題(B)