張國慶 昌寧
摘? 要:隨著全球經(jīng)濟的變化和我國金融制度的改革,信用卡借貸業(yè)務(wù)在金融行業(yè)中發(fā)展的十分迅猛,為銀行帶來了巨大的收益。但是,高收益往往伴隨著高風(fēng)險,信用卡借貸隱藏著巨大的風(fēng)險。如何在已有的信用卡數(shù)據(jù)基礎(chǔ)上,利用科學(xué)的方法來鑒別風(fēng)險,是各個銀行急需解決的問題。該文主要研究LightGBM在銀行信用卡違約問題中的作用,通過實驗,與LR、SVM、隨機森林等幾個常用模型的對比,發(fā)現(xiàn)LightGBM模型的準確率最高,說明LightGBM模型效果較好,有一定的實用價值。
關(guān)鍵詞:信用卡違約? 金融欺詐? LightGBM
中圖分類號:F832? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)04(c)-0008-02
1? 信用卡違約研究的背景
隨著經(jīng)濟全球化和我國金融體制的改革,國內(nèi)外各大銀行都不斷的擴展自己的業(yè)務(wù)規(guī)模,出現(xiàn)了許多新型的線上交易。以金融機構(gòu)來講,支付寶、微信支付等侵占了大量的市場;以個體來講,不論是穩(wěn)定的余額寶、理財通,或者是風(fēng)險較大的股票等,各種理財方式逐漸被大家所接受。所以說,我國銀行業(yè)面臨巨大的困難。
依靠傳統(tǒng)的方式難以改變銀行業(yè)目前的狀況,管理者們需要改變銀行的經(jīng)營策略。銀行卡業(yè)務(wù)是金融市場中最有前景的產(chǎn)品之一,數(shù)據(jù)顯示,工商銀行的信用卡到2018年6月末為止,共發(fā)卡1.56億張,授信總額為13.98萬億元,環(huán)比增長9.09%[1]。信用卡業(yè)務(wù)給銀行帶來了巨大的利潤。
同時,信用卡也給銀行帶來了巨大的風(fēng)險。隨著信用卡數(shù)量的增加,銀行在獲利的同時,也會存在一些“賴賬”用戶,這些不遵守規(guī)定的用戶給管理者帶來了很大的困難。如何利用已存在的借貸數(shù)據(jù)來辨別用戶是否違約便成了一個關(guān)鍵問題,既要獲得最大的利潤,同時又要減小違約所帶來的損失。因此,關(guān)于信用卡違約的研究是一個值得研究的問題。
2? 國內(nèi)外研究現(xiàn)狀
人們現(xiàn)在普遍認為,信用卡最早在19世紀末出現(xiàn),但是當時僅僅是一種短期的借貸行為,沒有形成正規(guī)化的授信額度。1952年,F(xiàn)ranklin National Bank第一次公開發(fā)行信用卡,于是關(guān)于信用卡欺詐的研究便有了開端。
在國外,BrauseR等在1999年通過關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)來研究信用卡欺詐問題,得到的結(jié)果有較高的辨識度,且誤報率較低[2]。QuahJTS和SriganeshM在2007年通過自組織映射網(wǎng)絡(luò)的方法,來研究用戶的行為,并進行了實時欺詐檢測的研究[3]。2016年,F(xiàn)lorentinButaru等比較了邏輯回歸、決策樹和隨機森林三種方法,結(jié)果表明,不同的銀行適用于不同的模型,沒有一種模型適合所有的銀行[4]。
在國內(nèi),2008年,楊璽等使用支持向量機來研究銀行的欺詐問題,可以有效的檢測高風(fēng)險的交易行為[5]。2013年,楊屹等使用Adaboost來研究銀行的欺詐問題[6]。2016年,王純杰等使用Kmeans將客戶分為不同的類別,通過多值有序的Logistic回歸模型來研究銀行的欺詐問題[7]。
3? LightGBM介紹
Microsoft在2016年末提出了輕量級梯度提升機,它是基于決策樹算法的梯度提升框架,可用作分類、排序等許多機器學(xué)習(xí)的任務(wù)中[8]。
GBDT[9]梯度提升決策樹,和隨機森林類似,都是多棵決策樹的一種集成。所不同的是,GBDT所生成的樹是有序的,下一棵樹的輸入是上一棵樹所預(yù)測的結(jié)果,由此不斷迭代。以下舉例說明GBDT的基本思想,假設(shè)小明的真實年齡為18歲,第一棵樹得到的結(jié)果是10歲,與真實的年齡相差8歲,那么第二棵樹就會在殘差8歲的基礎(chǔ)上去學(xué)習(xí),以此類推。每一輪迭代,擬合的誤差都會減小。
LightGBM是更為優(yōu)化的GBDT算法框架,它采用按葉子生長的策略來構(gòu)建決策樹,并且會限制其最大深度,不僅能過保證效率,還能預(yù)防過擬合。
LightGBM具備一下優(yōu)點:(1)訓(xùn)練效率高,低內(nèi)存使用;(2)支持并行學(xué)習(xí),可處理大規(guī)模數(shù)據(jù);(3)優(yōu)化了對類別特征的支持。
4? 實驗
該文所使用的數(shù)據(jù)是來自UCI上的German credit dataset,一共包含1000條數(shù)據(jù),其中違約樣本300條,正常樣本700條。樣本特征包含借貸金額、年齡、個人資產(chǎn)、婚姻狀況等信息。該數(shù)據(jù)集已經(jīng)做了很好的預(yù)處理,包括特征選擇、異常值的篩選和缺失值的填充等。為了防止量綱的不同導(dǎo)致的差異,該文采用min-max方法對數(shù)據(jù)進行標準化處理。
該文選取LR、SVM、隨機森林三種模型與LightGBM進行對比,四種模型均使用Python實現(xiàn)。該文將數(shù)據(jù)集隨機劃分為兩部分,其中訓(xùn)練集占70%,測試集占30%。
LR模型對測試集預(yù)測結(jié)果的混淆矩陣如表1所示,此時模型的準確率為76.67%。
SVM模型對測試集預(yù)測結(jié)果的混淆矩陣如表2所示,此時模型的準確率為77.33%。
SVM和LR所預(yù)測的結(jié)果在各部分的數(shù)值大致相同,準確率也相近。隨機森林模型對測試集預(yù)測結(jié)果的混淆矩陣如表3所示,此時模型的準確率為77.33%,值得一提的是,使用隨機森林在訓(xùn)練集上的準確率高達99%,這里可能是由于訓(xùn)練數(shù)據(jù)不足,導(dǎo)致了過擬合。
在LightGBM中,學(xué)習(xí)率設(shè)置為0.01,決策樹棵樹設(shè)置為20棵,樹的最大深度設(shè)置為6,樣本采樣比例為0.75。LightGBM模型對測試集預(yù)測結(jié)果的混淆矩陣如表4所示,此時模型準確率為82%。
5? 結(jié)語
從實驗中可以得出,LightGBM模型較優(yōu)于其他三個常用的模型,采用LightGBM可以幫助銀行更好的鑒別違約客戶,從而使銀行獲得更多利潤。
參考文獻
[1] http://www.sohu.com/a/253249429_100216228.
[2] Brause R,Langsdorf T,Hepp M.Neural Data Mining for Credit Card Fraud Detection[C]//IEEE International Conference on TOOLS with Artificial Intelligence, 1999:103-106.
[3] Quah J T S, Sriganesh M. Real Time Credit Card Fraud Detection using Computational Intelligence[C]// International Joint Conference on Neural Networks. IEEE,2007:863-868.
[4] Butaru F, Chen Q, Clark B, et al. Risk and Risk Management in the Credit Card Industry[J]. Journal of Banking & Finance,2016(72):218-239.
[5] 楊璽.基于支持向量機的信用卡欺詐檢測研究[D].四川師范大學(xué),2008.
[6] 楊屹.基于稀有類分類的信用卡欺詐識別研究[D].北京工商大學(xué),2013.
[7] 王純杰,李群,董小剛,等.基于K-均值聚類的多值有序Logistic回歸模型在信用卡信用評級中的應(yīng)用研究[J].吉林師范大學(xué)學(xué)報:自然科學(xué)版,2016,37(3):72-81.
[8] https://github.com/Microsoft/LightGBM.
[9] Ye J, Chow J H, Chen J, et al. Stochastic gradient boosted distributed decision trees[J].2009:2061-2064.