国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度循環(huán)生存分析在個人信用評估中的應用

2023-11-27 15:30:29李淑錦梅浩
中國集體經(jīng)濟 2023年33期
關鍵詞:生存分析信用風險深度學習

李淑錦 梅浩

摘要:根據(jù)資金流入的特點,金融機構(gòu)同時面臨著違約和提前還款風險。文章創(chuàng)新性地構(gòu)造了違約和提前還款實際生存時間,將深度循環(huán)生存分析模型(Deep Recurrent Survival Analysis,DRSA)用于預測個人信貸的風險事件概率,在12個月、12~24個月以及24~36個月的時間窗口上對風險進行評估,并與logistic、Cox-PH、混合治愈模型進行比較分析。實證結(jié)果顯示,DRSA模型在信用風險評估上是有效的。相較于提前還款而言違約預測的準確度更高,在三個時間窗口上分別達到97.4%、98.8%和99.8%。

關鍵詞:生存分析;信用風險;競爭風險;深度學習;類別不平衡;LSTM

一、引言

2021年12月31日,中國人民銀行發(fā)布了關于印發(fā)《金融科技發(fā)展規(guī)劃(2022-2025年)》的通知,指出應以深化金融數(shù)據(jù)要素應用為基礎,秉持數(shù)字驅(qū)動原則,應用數(shù)字化手段不斷增強風險識別監(jiān)測、分析預警能力,提升數(shù)字化營銷能力,洞察客戶行為偏好和真實金融需求。據(jù)《中華人民共和國2021年國民經(jīng)濟和社會發(fā)展統(tǒng)計公報》顯示,我國2021年全部金融機構(gòu)人民幣消費貸款余額548849億元,增加53181億元。其中,個人短期消費貸款余額93558億元,增加6080億元;個人中長期消費貸款余額455292億元,增加47101億元。隨著貸款需求和規(guī)模的日益壯大,對于金融機構(gòu)來說,如何應用金融科技來深度挖掘借款者的金融數(shù)據(jù),預測風險行為及其時間分布,是在新的金融形勢下把握風險與機遇的一項重大挑戰(zhàn)。

二、國內(nèi)外文獻梳理

傳統(tǒng)的信用風險模型旨在預測貸款到期時的違約概率,對貸款的風險進行評級與區(qū)分。統(tǒng)計和機器學習的二分類方法一直以來都被廣泛應用于信貸違約預測,如Probit回歸、logistic回歸、非參數(shù)隨機森林法、BP神經(jīng)網(wǎng)絡、支持向量機等。當前,銀行、消費金融公司、網(wǎng)絡小貸等金融機構(gòu)在原來關注違約概率的基礎上,提出了估計違約、提前還款風險的發(fā)生概率與時間分布等更高要求。

Narain(1992)最早將生存分析中的加速失效時間方法(accelerated failure time,AFT)引入違約概率建模。Banasilk et al.(1999)將指數(shù)、Weibull和Cox非參數(shù)模型的性能與logistic回歸進行了比較,發(fā)現(xiàn)在信用評分中生存分析的預測效果優(yōu)于logistic。Farewell(1982)、Larson & Dinse(1985)、Bentzen et al.(1989)、Kuk & Chen(1992)都通過logistic-Weibull混合治愈模型將生存函數(shù)分解為事件部分與延遲部分兩類效應,事件部分刻畫了事件發(fā)生的概率,延遲部分刻畫了事件發(fā)生的時間。在信用風險領域,由于違約行為會導致出借方損失本金和利息,普遍地被作為感興趣事件來引入研究。除此以外,提前還款也會導致出借方損失利息,近年來提前還款作為競爭風險被逐漸引入到信用風險研究中。Ren(2019)提出了深度循環(huán)生存分析模型(Deep Recurrent Survival Analysis,DRSA),研究結(jié)果顯示,DRSA的預測能力顯著優(yōu)于其他模型。

通過梳理國內(nèi)外的文獻,發(fā)現(xiàn)在其他研究中都是將最近一次還款日期與貸款發(fā)起日相差的月數(shù)作為貸款的生存時間,并將其表示為正常還款行為發(fā)生的次數(shù),這樣的設計并不科學。在對模型的識別能力評價方面,很多研究并沒有考慮到樣本不均衡性對概率預測的影響。

本文試圖從以下方面進行創(chuàng)新:一是重新定義貸款的生存時間,分別獲得違約與提前還款的實際觀測時間;二是根據(jù)競爭風險的發(fā)生時間,將競爭風險作為刪失數(shù)據(jù)提前排除在后續(xù)的風險集中;三是研究引入代價敏感學習法,根據(jù)正負類樣本的比例對損失函數(shù)進行修正。

三、概念界定與評估方法介紹

(一)違約與提前還款的界定

生存時間是指個體存活至某一時刻后發(fā)生風險的時間,將個體生存時間按先后進行排序得到觀測序列0=t(0)<t(1)<t(2)<…t(L),觀測時間t(k)(0≦k≦L)為觀測序列中的時間點,t(L)表示最后觀測到發(fā)生風險的時間點。將違約實際生存時間記為T1= ,提前還款實際生存時間記為T2= 。貸款的實際生存時間為T=min{T1,T2}。

研究選用期限為36個月的分期貸款數(shù)據(jù),借款者按規(guī)定每月償還相應利息與本金。定義風險集合Rt為在t(0≤t≤36)時刻存在風險的個體集合,n 為t時刻風險集合的觀測數(shù)量,nt為t時刻因發(fā)生風險而退出觀測的數(shù)量,可以得到n =n -nt-1。由于貸款中存在完全還款情況,因此當T=0時,n >0,n36=0。在生存分析中,用刪失狀態(tài)變量δ來表示感興趣事件的風險是否發(fā)生在觀測期內(nèi),若δ=0,則表示觀測數(shù)據(jù)刪失,未觀測到感興趣事件;表示觀測數(shù)據(jù)未刪失,觀測到感興趣事件。將違約作為感興趣事件,導致個體提前退出觀測的行為除了違約以外,還包括了提前還款,因此將提前還款作刪失處理。

假設:提前還款會同時償還剩余的全部本金與部分期數(shù)的利息,而違約只償還了部分期數(shù)的本金與利息,并且償還的本金與利息的期數(shù)相同。

將事件刪失的時間記作C。貸款的違約狀態(tài)變量用二元離散變量來表示:Y=1表示貸款違約,Y=0表示貸款未違約。在該假設下,可以得到貸款的三種最終信用狀態(tài):

1. 違約。T1=T2<36,Y=1,δ=1。在觀測期內(nèi)觀測到貸款發(fā)生違約。

2. 提前還款。T2=C<T1=36,Y=0,δ=0。貸款因發(fā)生提前還款而未觀測到違約。

3.正常還款。T1=T2=C=36,Y=0,δ=0。在觀測期內(nèi)沒有觀測到貸款發(fā)生違約或提前還款。

需要注意的是,由于假設的限定,T1≥T2恒成立,可以將生存時間重新記為T=T2,貸款退出觀測的退出時間可以表示為 =min{C,T}。

本文分別將在第12、24、36個月觀測貸款數(shù)據(jù)的違約情況。記Tα為實驗選定的觀測時間(12、24或36),生存模型在訓練集和測試集上的觀測時間定義不同:在訓練集中,已知樣本i刪失時間為Ci,生存時間記為Ti,退出觀測的退出時間可以表示為 i=min{Ci,Ti,Tα};在測試集中,由于事先不確定樣本i的還款情況,所以 i=Tα。

(二)logistic模型

該模型屬于二分類模型,是一種Sigmoid函數(shù),能夠?qū)⑤敵鲋缔D(zhuǎn)化為(0,1)之間的數(shù)。logistic函數(shù)的公式為:

π(Z)= (1)

式中,Z=[z1,z2,z3,…,zp]T表示p個與還款行為相關的特征變量組成的向量,b0為常數(shù)項,b為回歸參數(shù)的向量。根據(jù)前文設定,貸款違約的狀態(tài)變量為Y=1,不違約為Y=0,假設閾值為μ:

=0, <μ;1, ≥μ;(2)

若Y= ,則模型分類正確,否則分類錯誤。

(三)Cox-PH模型

在生存分析中,T表示個體生存時間的隨機變量,X=[x1,x2,x3,…,xq]T表示q個與還款行為相關的特征變量組成的向量。Cox比例風險模型(Cox-PH)是廣泛應用于生存分析的回歸模型。Cox-PH屬于半?yún)?shù)回歸模型,具有半?yún)?shù)性質(zhì),模型公式為:

h(t,X)=h0(t)e (3)

式中,h0(t)被稱為基準風險函數(shù),β為回歸參數(shù)的向量,指數(shù)項e 中只包含因變量X而不包含t,我們稱X為非時間依賴變量。

(四)混合治愈模型

模型的生存函數(shù)表達形式為:

S(t|X,Z)=π(Z)S(t|Y=1,X)+1-π(Z)(4)

式(4)中,S(t|X,Z)是信用貸款的全概率生存公式。π(Z)表示在給定協(xié)變量向量Z的條件下,樣本來源于非免疫子集的可能性;S(t|Y=1,X)表示在已知樣本來源于非免疫子集,在協(xié)變量向量X條件下生存時間大于t的概率。

π(X)采用二分類模型來解釋事件發(fā)生的可能性,本文采用logistic模型。延遲部分用于解釋風險發(fā)生在觀測時間之后的可能性,用Cox-PH來表示。模型的含義:評價對象在t時間之前未違約的概率,可以表示為它一直未發(fā)生違約的概率與在t時刻前未違約且最終會違約的概率之和。

(五)DRSA模型

深度循環(huán)生存分析(Deep Recurrent Survival Analysis,DRSA),采用長短期記憶網(wǎng)絡(Long Short-term Memory,LSTM)來進行生存預測。Ren通過將生存時間離散化后進行排序來獲得觀測時間序列,時間序列與上文表示相同。

DRSA模型的損失函數(shù)來源:一是未刪失數(shù)據(jù)集內(nèi)的樣本在生存時間發(fā)生風險的概率。二是未刪失數(shù)據(jù)在生存時間Ti之內(nèi)發(fā)生風險的累積概率。三是刪失數(shù)據(jù) i在處的生存概率。因為未刪失數(shù)據(jù)滿足 i=Ti,所以可以將來源二和來源三合并得到完整數(shù)據(jù)集的損失函數(shù)。為了獲得最優(yōu)參數(shù),DRSA模型通過隨機梯度下降法來最小化損失函數(shù):

arg minθLT+L? (5)

四、模型建立與結(jié)果分析

(一)數(shù)據(jù)來源與特征選取

研究選用Lending Club借貸平臺上借款發(fā)起日期2016年6月30日至2018年9月30日貸款期限為36個月的個人借款數(shù)據(jù),借款者每月按規(guī)定償還本息,所有項目均已結(jié)項。在對原始數(shù)據(jù)進行清洗后,共獲得403963條觀測數(shù)據(jù)。在選取特征時,首先對特征進行相關性檢驗刪除冗余特征,之后對剩余的變量采用卡方分箱的方法進行分箱處理,并選入Ⅳ值大于0.02的變量,最終選取了4個分類變量和20個連續(xù)變量。

(二)建模過程

1. 劃分數(shù)據(jù)集

將數(shù)據(jù)集按照7:3的比例劃分為訓練集(282774條數(shù)據(jù))與測試集(12189條數(shù)據(jù)),按照每12個月的觀測時間窗口對數(shù)據(jù)集進行劃分,分別在第12個月、24個月和36個月觀測前0~12個月、12~24個月和24~36個月的貸款情況。

2.L? 平衡類別權(quán)重

Finlay(2011)的研究顯示,對于logistic和神經(jīng)網(wǎng)絡而言,在計算損失函數(shù)時對樣本的類別施加不同權(quán)重的代價懲罰往往能得到更好的效果。代價敏感學習(Cost-Sensitive Learning)就是這樣的一類方法。本文采用了Fernández(2018)提出的直接學習方法,使用訓練數(shù)據(jù)的類別比例來對不同類別的損失施加權(quán)重。

weight_for_1= (6)

weight_for_0= (7)

total表示樣本總數(shù),pos表示違約的樣本數(shù)量,neg表示刪失的樣本數(shù)量,weight_for_1表示計算違約樣本損失函數(shù)的權(quán)重,weight_for_0表示計算刪失樣本損失函數(shù)的權(quán)重。

根據(jù)表1可知,時間窗口為0~12個月的貸款在測試集上分類的準確度得到明顯的提升。在經(jīng)過權(quán)重修正后的模型中,前三個模型對貸款違約的識別能力明顯提升,達到60%以上。DRSA模型的準確度在經(jīng)過修正后達到97.23%,模型的分類能力得到明顯的提升,識別違約樣本的準確度也達到77.12%,高于其他三個模型。

(三)模型性能比較

從AUC來看,Cox-PH和混合治愈模型并沒有改善logistic的預測能力,Cox-PH的AUC在三個時間窗口上都比logistic更低。DRSA的AUC和準確度在三個時間窗口上都遠高于其他三個模型,模型在信用風險評估上是有效的。從時間上來看,前三個模型的AUC和準確度都隨著觀測時間推移而下降,而DRSA模型的預測性能隨著時間推移而上升,這說明了LSTM能夠把握時間序列之間的相關性,模型在長期預測上是有效的。

五、結(jié)語

本文采用DRSA模型,在為期12個月的時間窗口上對三年期貸款進行了違約預測,模型取得了較好的預測性能。本文加入了競爭風險研究,通過定義違約和提前還款實際生存時間的方法區(qū)分兩類風險,將感興趣事件的競爭風險事件做了刪失處理,修正了風險集合與預測概率。類別不平衡的數(shù)據(jù)集會導致模型將少數(shù)類樣本全部預測為多數(shù)類,研究采用代價敏感學習方法對損失函數(shù)中的不同類別施加了損失權(quán)重,改善了模型的分類能力。

研究結(jié)果顯示,采用DRSA模型評估個人信用風險是可行的,DRSA模型采用LSTM方法很好地挖掘了時間序列之間的相關性。本文的結(jié)果為金融機構(gòu)預測信用風險帶來的啟示:一是根據(jù)DRSA模型預測貸中階段的違約水平,根據(jù)違約概率修正貸款利率,同時根據(jù)預期的貸中違約規(guī)模來預期壞賬損失。二是預測貸中階段的提前還款水平,根據(jù)提前還款的時間與規(guī)模預測借款的久期,幫助金融公司更好地匹配資產(chǎn)與負債水平。

參考文獻:

[1]中國人民銀行.中國人民銀行關于印發(fā)《金融科技發(fā)展規(guī)劃(2022-2025年)》的通知[EB/OL].(2021-12-31)[2022-06-19]. http://www.china-cer.com.cn/file/pdf/金融科技發(fā)展規(guī)劃(2022-2025).pdf.

[2]國家統(tǒng)計局.中華人民共和國2021年國民經(jīng)濟和社會發(fā)展統(tǒng)計公報[R].2022.

[3]王會娟,廖理.中國P2P網(wǎng)絡借貸平臺信用認證機制研究——來自“人人貸”的經(jīng)驗證據(jù)[J].中國工業(yè)經(jīng)濟,2014(04):136-147.

[4]廖理,李夢然,王正位.聰明的投資者:非完全市場化利率與風險識別——來自P2P網(wǎng)絡借貸的證據(jù)[J].經(jīng)濟研究,2014,49(07):125-137.

[5]方匡南,吳見彬,朱建平,等.信貸信息不對稱下的信用卡信用風險研究[J].經(jīng)濟研究,2010,45(S1):97-107.

[6]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個人信用風險預警方法[J].數(shù)量經(jīng)濟技術經(jīng)濟研究,2014,31(02):125-136.

[7]郭英見,吳沖.基于信息融合的商業(yè)銀行信用風險評估模型研究[J].金融研究,2009(01):95-106.

[8]劉云燾,吳沖,王敏,等.基于支持向量機的商業(yè)銀行信用風險評估模型研究[J].預測,2005(01):52-55.

[9]Narain B. Survival Analysis and the Credit Granting Decision[M].Credit Scoring and Credit Control.Oxford,U.K.:OUP,1992:109-121.

[10]Banasik,J,et al.Not if but when will borrowers default[J].Journal of the Operational Research Society,1999.

[11]Farewell,V.T.The use of mixture models for the analysis of survival data with long-term survivors[J].Biometrics,1982,38(04):1041-1046.

[12]Larson,M.G.and Dinse,G.E.A Mixture Model for the Regression Analysis of Competing Risks Data[J].Applied Statistics,1985,34(03):201-211.

[13]Bentzen S M,Thames H D,Travis E L,et al. Direct Estimation of Latent Time for Radiation Injury in Late-responding Normal Tissues:Gu,Lung,and Spinal Cord[J].International Journal of Radiation Biology,1989,55(01):27-43.

[14]Chen K C H.A mixture model combining logistic regression with proportional hazards regression[J].Biometrika,1992, 79(03):531-541.

[15]Ren K,Qin J,Zheng L,et al.Deep Recurrent Survival Analysis[C]//2019:4798-4805.

[16]Finlay S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research.2011.210(02):368-378.

*基金項目:國家社會科學基金項目(17BJY233)。

(作者單位:杭州電子科技大學經(jīng)濟學院。梅浩為通信作者)

猜你喜歡
生存分析信用風險深度學習
淺析我國商業(yè)銀行信用風險管理
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
京東商城電子商務信用風險防范策略
制造業(yè)出口貿(mào)易生存分析與跨國比較探討
乙型肝炎相關慢加急性肝衰竭死因與HBV抗原變異相關性的探討
個人信用風險評分的指標選擇研究
醫(yī)學中生存分析的多結(jié)局風險比例模型的實踐應用
达拉特旗| 柳江县| 博客| 五指山市| 阿合奇县| 邓州市| 建水县| 凉城县| 沁源县| 苍山县| 新巴尔虎右旗| 南阳市| 图木舒克市| 施甸县| 上杭县| 东平县| 华容县| 海盐县| 砚山县| 唐海县| 万安县| 临高县| 南岸区| 碌曲县| 汉阴县| 广汉市| 上思县| 金寨县| 柘荣县| 靖安县| 铜鼓县| 门源| 巴中市| 那坡县| 津南区| 闽侯县| 双柏县| 高邑县| 都昌县| 枞阳县| 合江县|