国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的信貸違約預(yù)測研究

2023-04-06 22:14:58趙川鞠紅梅王美玲
電腦知識與技術(shù) 2023年5期
關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

趙川 鞠紅梅 王美玲

關(guān)鍵詞:大數(shù)據(jù);風(fēng)險預(yù)測;機(jī)器學(xué)習(xí);信貸違約;投票算法

0 引言

為了響應(yīng)國家穩(wěn)經(jīng)濟(jì)的政策,金融機(jī)構(gòu)對資金困難的企業(yè)和個人進(jìn)行信貸支持,幫助供企業(yè)打通供應(yīng)鏈資金需求,鼓勵個人進(jìn)行創(chuàng)業(yè)創(chuàng)新、開展副業(yè)、互聯(lián)網(wǎng)辦公等多種靈活就業(yè)方式,共渡難關(guān),起到穩(wěn)定市場經(jīng)濟(jì)作用。面對如此龐大的資金需求,金融機(jī)構(gòu)需要依托機(jī)器學(xué)習(xí)模型,輔助進(jìn)行風(fēng)險評估和風(fēng)險預(yù)測。

1 文獻(xiàn)回顧

隨著計(jì)算機(jī)技術(shù)在金融領(lǐng)域的應(yīng)用,許多學(xué)者加入信貸風(fēng)險的研究,其中Linwei Hu等人在相關(guān)文獻(xiàn)中分析了監(jiān)督學(xué)習(xí)算法在銀行中的應(yīng)用場景[1];XiaojunMa等人使用多觀測數(shù)據(jù)清洗的LightGBM算法,表明該算法在預(yù)測違約方面具有較高的準(zhǔn)確性[2];馬?;ㄡ槍π缘卦趥€人信用風(fēng)險評估中,使用隨機(jī)森林和XG?Boost模型進(jìn)行對比分析,指出XGBoost模型更加適合處理大量高緯度的噪音和非線性信用風(fēng)險的數(shù)據(jù)[3];陳紅在文獻(xiàn)中構(gòu)建邏輯回歸模型、樸素貝葉斯、支持向量機(jī)、決策樹、組合模型進(jìn)行綜合對比,同時對違約客戶進(jìn)行客戶畫像分析,給出合理化建議和應(yīng)用方向[4]。

國內(nèi)外學(xué)者對于信貸風(fēng)險預(yù)測的相關(guān)問題進(jìn)行了大量的可行性分析與研究,不同學(xué)者選取的研究數(shù)據(jù)、評價指標(biāo)和模型有所不同,最終得出不同的研究結(jié)果,這些研究具有重要的參考和借鑒意義。本文將結(jié)合銀行數(shù)據(jù)集,以機(jī)器學(xué)習(xí)算法中XGBoost、Light?GBM模型、邏輯回歸模型和隨機(jī)森林模型為基礎(chǔ),結(jié)合Voting投票算法,進(jìn)行個貸違約預(yù)測方面的研究。

2 算法及方案簡介

2.1 算法簡介與預(yù)備知識

1) 邏輯回歸

邏輯回歸是在線性回歸的基礎(chǔ)上進(jìn)行改進(jìn)的,增加了sigmoid激活函數(shù)[5]。線性回歸模型為輸入,f (x)為預(yù)測值,W T 為截線,b 為真實(shí)值和預(yù)測值的差值,具體公式為:

邏輯回歸把預(yù)測值映射到0-1區(qū)間。當(dāng)預(yù)測值y > 0.5時,判斷為正例,y < 0.5時,判斷為反例,以此進(jìn)行分類。

2) 隨機(jī)森林

隨機(jī)森林的特點(diǎn)在于隨機(jī)性和集成學(xué)習(xí),通過隨機(jī)采取樣本,隨機(jī)挑選特征,形成多棵決策樹,每棵決策樹都有自己判斷權(quán)力,隨機(jī)森林收集每一棵樹投票結(jié)果,以少數(shù)服從多數(shù)的原理,進(jìn)行最終分類判斷[6]。

3) XGBoost

XGBoost的預(yù)測模型通過設(shè)定損失函數(shù),并根據(jù)參數(shù)進(jìn)行一階、二階導(dǎo)數(shù)計(jì)算,以提高泛化能力[7]。令k 表示全部樹的數(shù)量,t 表示預(yù)測輪數(shù),fk 是第k 顆預(yù)測結(jié)果,ft (xi )為第t 輪改善參數(shù),Y ti 表示基于xi 樣本第t輪預(yù)測結(jié)果,預(yù)測公式為

4) LightGBM

LightGBM由微軟研究院研究開發(fā),基于不犧牲速度的情況下,盡可能使用更多的數(shù)據(jù)運(yùn)算,具有準(zhǔn)確率高、區(qū)分能力強(qiáng)的特點(diǎn)[8]?;谥狈綀D(Histogram)算法、基于梯度的單邊采樣算法(GOSS)和互斥特征捆綁算法(EFB),這3個算法的引入下,降低了葉子生成的復(fù)雜度,從而節(jié)約了大量的運(yùn)行計(jì)算時間和存儲空間。

5) Voting投票算法

Voting投票算法是集成算法中的一種,該算法又分為硬投票(Hard Voting) 和軟投票(Soft Voting) 兩種使用方式。其中硬投票是基于少數(shù)服從多數(shù)的原則,將不同分類器的結(jié)果分別進(jìn)行統(tǒng)計(jì),看最終哪個投票多來確定分類結(jié)果;而軟投票可以為不同分類器設(shè)置不同權(quán)重,由于每個分類器都有獨(dú)立估算分類的概率,軟投票法將所有概率再進(jìn)行平均,最后平均概率最大的作為分類結(jié)果。

6) 淆矩陣(confusion matrix)

假如收到一些樣本,倘若該樣本集中只存在兩種類別,即正例和反例。而當(dāng)預(yù)測值為正例時,本文將其記為positive(P),而當(dāng)預(yù)測值為反例的時候,本文將其記為negative(N)。此時如果預(yù)測值與真實(shí)值相同的時候,本文記為true(T),而當(dāng)預(yù)測值和真實(shí)值相反不一樣的時候,則記為false(F)。從而有了以下的混淆矩陣(confusion matrix),如表1所示。

7) ROC曲線

ROC曲線以假正例率(FPR)為X軸,以真正例率(TPR)為Y軸,進(jìn)行圖形的繪制。由于ROC曲線能夠反映出分類效果,但從表現(xiàn)程度上還是不夠直觀,對此,通過AUC來直觀地凸顯出分類能力,即該指標(biāo)實(shí)際為ROC曲線下的面積。

2.2 方案流程

本文研究的方案流程主要包括7個步驟:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、擇優(yōu)選擇、集成、對比評估、總結(jié),如圖1所示。

3 數(shù)據(jù)處理及模型訓(xùn)練

3.1 數(shù)據(jù)描述

本文采用天池公開銀行貸款數(shù)據(jù)集,該數(shù)據(jù)總量有47類指標(biāo)信息,80萬條用戶數(shù)據(jù)。47類指標(biāo)信息具體描述如表2所示。

3.2 數(shù)據(jù)處理

數(shù)據(jù)處理是模型訓(xùn)練的前提,圍繞關(guān)鍵指標(biāo)進(jìn)行數(shù)據(jù)處理,通過對數(shù)據(jù)缺失值占比、數(shù)據(jù)異常值篩查進(jìn)行多次降維,缺失部分采取為向上填充法的方式進(jìn)行空值填充,特殊字符進(jìn)行數(shù)字化處理。表3 為Grade指標(biāo)數(shù)字化處理前后對比。

3.3 繪制相關(guān)性熱力矩陣圖

經(jīng)過數(shù)據(jù)處理,最終將數(shù)據(jù)集降維至23項(xiàng)指標(biāo),并制作成相關(guān)性矩陣熱力圖,觀察各個指標(biāo)與關(guān)鍵指標(biāo)之間的相關(guān)性。呈現(xiàn)如圖2所示。

由相關(guān)性熱力矩陣圖可以看出,與isDefault關(guān)鍵性指標(biāo)相關(guān)度較高的為loanAmnt、term、interestRate、installment、grade和dti,而其他指標(biāo)起到相關(guān)性較小,用于提供輔助性作用。

3.4 模型訓(xùn)練及評分結(jié)果

數(shù)據(jù)集采取8:2的分配比例,即訓(xùn)練集為640000 條,測試集160000條,進(jìn)行數(shù)據(jù)集的拆分,分別帶入到模型中訓(xùn)練和測試,并記錄邏輯回歸、隨機(jī)森林、XG?Boost、LightGBM這四種單一模型的AUC評分。單一模型評分結(jié)果如表4所示。

3.5 模型集成及對比結(jié)果

本文選擇AUC評分較高的模型,即邏輯回歸模型、LightGBM模型和隨機(jī)森林模型,使用Voting硬投票算法進(jìn)行模型融合,發(fā)現(xiàn)Voting模型融合后的AUC 評分有較大提升。對比數(shù)據(jù)如表5所示。

4 總結(jié)

通過對數(shù)據(jù)集的清洗篩選,選出部分相關(guān)聯(lián)的特征值進(jìn)行多種模型的訓(xùn)練,以數(shù)學(xué)原理闡述了不同模型的處理方式,本文測試中以最優(yōu)的模型進(jìn)行Voting 投票算法的融合,其結(jié)果表明十分優(yōu)異,能夠起到提升預(yù)測準(zhǔn)確度的作用,具體得出以下結(jié)論。

1) 在進(jìn)行數(shù)據(jù)集處理時,將數(shù)據(jù)字符類型進(jìn)行定量數(shù)值化,能夠更好地形成圖像,進(jìn)行指標(biāo)的選擇,比如在等級劃分時,采用數(shù)值的形式,進(jìn)行數(shù)據(jù)集優(yōu)化。

2) 不同模型在處理同一數(shù)據(jù)集的處理效果差異性很大,如在XGBoost模型處理與隨機(jī)森林模型在處理同一數(shù)據(jù)集時,AUC評分差距很大。

3) 作為Voting投票融合算法,將三種有效的單一模型進(jìn)行融合,能夠有效提升AUC評分,證明融合算法相較于單一的模型,能夠發(fā)揮融合算法的強(qiáng)化性,提高準(zhǔn)確度。

猜你喜歡
機(jī)器學(xué)習(xí)大數(shù)據(jù)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
虎林市| 兴国县| 小金县| 天镇县| 哈密市| 禹州市| 峨山| 炎陵县| 棋牌| 金寨县| 色达县| 青冈县| 大埔县| 宁陕县| 大兴区| 耒阳市| 乐至县| 元阳县| 乐业县| 安阳市| 灵璧县| 辽阳县| 环江| 榆林市| 罗定市| 定州市| 德阳市| 绥滨县| 北碚区| 永兴县| 通化市| 平安县| 厦门市| 越西县| 静乐县| 京山县| 隆子县| 平罗县| 克拉玛依市| 中方县| 陕西省|