劉田田
摘 要:現(xiàn)有的信用評估模型往往需要在建模前預(yù)設(shè)模型的基本形態(tài)結(jié)構(gòu),極易因函數(shù)形式的誤設(shè)導(dǎo)致評估結(jié)果誤差較大,同時現(xiàn)有模型大多面向傳統(tǒng)大中型企業(yè)、消費信貸用戶,對農(nóng)戶這一借款主體缺乏適用性?;谒捱w地區(qū)某農(nóng)村信用社的農(nóng)戶信貸數(shù)據(jù)庫,設(shè)計一種面向我國農(nóng)戶貸款信用風(fēng)險評估模型——Relief-GEP模型。模型首先使用Relief算法,對建模樣本集維度進行刪減,剔除對預(yù)測違約概率影響不大的各項指標,在擯棄部分噪聲數(shù)據(jù)的同時提高后續(xù)建模精度;在缺乏最優(yōu)函數(shù)形式的先驗信息情況下使用基因表達式編程算法,以“適者生存”的邏輯通過反復(fù)演化迭代,動態(tài)構(gòu)筑模型的核心部分。實證研究表明,Relief-GEP模型相比于當(dāng)前流行的12個信用風(fēng)險評估模型,擁有更優(yōu)的擬合精度與更好的泛化能力。
關(guān)鍵詞:仿真建模;信用風(fēng)險;特征權(quán)重選擇算法;基因表達式編程算法
DOI:10. 11907/rjdk. 202034????????????????????????????????????????????????????????????????? 開放科學(xué)(資源服務(wù))標識碼(OSID):
中圖分類號:TP303 ? 文獻標識碼:A ??????????????? 文章編號:1672-7800(2020)011-0079-05
A Relief-GEP Model for Credit Risk Evaluation of Loans for Farmers
LIU Tian-tian
(College of Information and Electromechanical Engineering, Jiangsu Open University, Nanjing 210017,China)
Abstract:The existing credit evaluation model needs to presuppose the basic structure of the model itself before the modeling process, then the error of the evaluation result is very easy to be caused by the setting error of the function form of the model. At the same time, most of the existing models are designed for traditional large and medium-sized enterprises or consumer users, and are lack of applicability to farmers who wish to apply for loans. Based on the credit database of a rural credit cooperative in Suqian area, this paper designs a credit risk evaluation model - the Relief-GEP model which is oriented to evaluate the credit risk of loans for farmers in China. The model firstly uses the relief algorithm to reduce the dimension of the sample set for modeling, eliminate all the indexes that have little effect on the prediction of default probability and some noise data to improve the accuracy of subsequent modeling process, and then in the condition of lack of the prior information of the optimal function form, the gene expression programming algorithm is employed with the logic of “survival of the fittest” and dynamically construct the model through the repeated evolutionary iteration. The empirical study shows that the Relief-GEP model has better fitting precision and better generalization ability than the 12 credit risk evaluation models that are popular in the current academic and industry circles.
Key Words:simulation modeling; credit risk; relief algorithm; gene expression programming algorithm
0 引言
根據(jù)2016年國務(wù)院印發(fā)的《推進普惠金融發(fā)展規(guī)劃(2016-2020)》,農(nóng)民群體是中國普惠金融[1]的重點服務(wù)對象之一。但迄今為止,全國農(nóng)戶的貸款可得性、貸款覆蓋率等統(tǒng)計指標依然相對較低[2],究其根本原因,主要在于農(nóng)戶貸款的信用風(fēng)險較高。信用風(fēng)險[3]指獲得信用支持的債務(wù)人不能遵照合約按時足額償還本金和利息的可能性。農(nóng)戶貸款的特點是貸前調(diào)查不易、貸款金額小、居住分散、清收成本高,這使得傳統(tǒng)的基于信貸員逐筆審核的信用風(fēng)險評估機制難以作為。為降低信用風(fēng)險管理成本,提高貸款決策效率,目前信貸機構(gòu)一般選擇信用評估模型[4]對貸款農(nóng)戶信用風(fēng)險進行批量化、自動化預(yù)測與管理,而當(dāng)前商業(yè)銀行或農(nóng)村信用社大多已有面向大中型企業(yè)、上市公司、個人消費貸的信用評估模型,但卻缺乏專門針對農(nóng)戶的風(fēng)險評估方法與模型。
王樹娟等[5]在國內(nèi)最早研究農(nóng)戶信用風(fēng)險評估模型,將農(nóng)戶信用分為戶主素質(zhì)、資金信用和經(jīng)營能力等3個方面7個指標,運用模糊數(shù)學(xué)方法建立綜合評價數(shù)學(xué)模型,采用定量分析方法評估農(nóng)戶信用;王慧等[6]采用生態(tài)學(xué)中修正BS模型,利用末位淘汰機制對農(nóng)戶信用作用建模,分析末位淘汰機制對于農(nóng)戶信用水平的影響;王思宇等[7]將LightGBM算法應(yīng)用于研究用戶信用風(fēng)險中,發(fā)現(xiàn)其具有更快的訓(xùn)練速度和更高的訓(xùn)練效率。
國外對農(nóng)戶信用風(fēng)險評估模型也有研究[8-9],但由于各國農(nóng)業(yè)文化的差異,這些研究對我國農(nóng)戶信用風(fēng)險評估指導(dǎo)有限[10-11]。
我國農(nóng)戶信用風(fēng)險評估模型研究成果數(shù)量不多,采用的模型技術(shù)大多較為老舊,如基于傳統(tǒng)統(tǒng)計學(xué)方法的logistic回歸、probit回歸等模型[12]?;诖耍疚膶?yīng)用新穎的人工智能、機器學(xué)習(xí)模型,采用特征權(quán)重選擇算法對樣本集進行處理,運用基因表達式編程算法構(gòu)筑信用評估模型,實驗表明該模型在訓(xùn)練效率、泛化能力上均表現(xiàn)優(yōu)異。
1 Relief-GEP算法設(shè)計
針對農(nóng)戶信用風(fēng)險評估的實際需求與現(xiàn)有模型存在的問題,本文設(shè)計一種面向我國農(nóng)戶貸款信用風(fēng)險的評估模型——Relief-GEP模型。Relief-GEP模型首先使用Relief算法,對建模樣本集進行維度刪減,只保留預(yù)測農(nóng)戶違約概率意義較大的指標,從而解決構(gòu)建模型時的指標選取問題,盡可能擯棄噪聲信息,提高建模效率。之后基于基因表達式編程(Gene Expression Programming,GEP)模型動態(tài)構(gòu)筑核心的信用評估模型,從而避免在缺乏先驗信息的情況下誤設(shè)函數(shù)形式問題。
1.1 Relief算法
Relief特征權(quán)重選擇算法[13]主要原理:從樣本集D中隨機選擇一個樣本xi(i∈{1,2,?,n}),之后在D中尋找k個與xi距離最近且類標簽相同的樣本,其集合記為Shit,并在D中尋找k個與xi距離最近且類標簽不同的樣本,其集合記為Smiss。分別計算各屬性與Shit中樣本在同一屬性上的平均距離、各屬性與Smiss中樣本在同一屬性上的平均距離。
若前者大于后者,則表明該屬性在異類標簽樣本上能夠較好區(qū)分,增加該屬性權(quán)重;反之則認為該屬性不能有效區(qū)分異類樣本,減少該屬性權(quán)重,重復(fù)多次得到較為穩(wěn)定的各屬性權(quán)重。Relief特征權(quán)重選擇算法對各屬性重要程度的評價是正向的,即評價結(jié)果值越大,對應(yīng)的屬性對預(yù)測因變量的重要性越強。
1.2 GEP算法
基因表達式編程算法(GEP)是一種較為新穎的進化智能算法[14],其將多個變量間的表達式首先表示為樹結(jié)構(gòu),之后通過廣度優(yōu)先遍歷該樹結(jié)構(gòu)表達式,得到以線性串結(jié)構(gòu)表示的“基因染色體組”。線性串結(jié)構(gòu)與樹結(jié)構(gòu)的表達式可以互相轉(zhuǎn)化,且轉(zhuǎn)化結(jié)果唯一。
GEP 的基因用線性編碼符號串表示,由頭部和尾部共同決定。頭部可以包含函數(shù)運算符或運算變量,尾部僅包含運算變量。若頭部長度為h,尾部長度為t,則線性串結(jié)構(gòu)編碼需滿足以下函數(shù)關(guān)系:
t=h?(n-1)+1?????? (1)
其中,n為運算符可支持的最大可帶運算變量個數(shù),例如乘號運算符最大可以攜帶兩個運算變量。
1.3 Relief-GEP信用評估模型設(shè)計
Relief-GEP農(nóng)戶信用評估模型步驟如下:
首先對用于建模的農(nóng)戶歷史信貸數(shù)據(jù)集進行數(shù)據(jù)清洗。數(shù)據(jù)清洗工作主要包括剔除含有缺失值的樣本,對來自不同數(shù)據(jù)源的樣本進行單位統(tǒng)一化(如借款金額的單位元與萬元之間的不一致性),剔除明顯含有錯誤取值指標的樣本等。
在完成原始樣本集數(shù)據(jù)清洗工作后,使用Relief算法對建模樣本集中各變量指標與因變量(是否違約)的影響重要性進行判斷?;诟髦笜嗽赗elief算法中的重要性得分,剔除分值為負的各項指標,從而在壓縮建模樣本集維度,提高后續(xù)建模效率之余,將預(yù)測違約概率關(guān)聯(lián)性不大的各項指標在建模步驟前剔除,避免冗余屬性所含的噪聲信息對最終擬合得到的違約概率產(chǎn)生影響。
基于維度精簡的建模樣本使用GEP算法構(gòu)建模型。選擇常規(guī)的加減乘除、乘方、自然對數(shù)、正余弦、大于、小于、等于、大于等于、小于等于等運算符作為備選運算符,供GEP算法在迭代中使用。算法的停止條件為迭代次數(shù)達到預(yù)設(shè)的最大迭代次數(shù)閾值。
在完成GEP算法迭代后,根據(jù)算法的擬合結(jié)果將農(nóng)戶違約概率的可預(yù)測模式總結(jié)為計算機邏輯語言,之后進一步將其轉(zhuǎn)化為便于理解的自然語言。
在使用Relief-GEP農(nóng)戶信用評估模型對新的樣本進行違約概率預(yù)測時,首先根據(jù)建模階段Relief算法發(fā)現(xiàn)的弱關(guān)聯(lián)指標對新樣本維度進行削減,隨后將降維了的新樣本帶入訓(xùn)練好的GEP算法預(yù)測模式中,得到最終的預(yù)測違約概率。
2 實證研究
2.1 實證數(shù)據(jù)
本文的研究數(shù)據(jù)來自宿遷地區(qū)某農(nóng)村信用社農(nóng)戶信貸數(shù)據(jù)庫。數(shù)據(jù)庫搜集了該地區(qū)2017年共645份面向農(nóng)戶發(fā)放貸款的歷史記錄,除具有較大的樣本規(guī)模外,數(shù)據(jù)集也具有較好的時效性。
數(shù)據(jù)集中共含有11維變量指標,分別為該筆貸款的額度、該筆貸款是否存在擔(dān)保、貸款者性別、貸款者年齡、貸款者婚姻狀況、貸款者受教育水平、貸款者健康狀況、貸款者年收入、該筆貸款的持續(xù)月數(shù)、該筆貸款的實際利率與該筆貸款最終是否違約。
其中,貸款額度、年齡、年收入、貸款月數(shù)、實際利率均為連續(xù)性變量,剩余變量均為二值或多值離散型變量。是否存在擔(dān)保為二值啞變量,取值為1表明存在擔(dān)保,為0表明不存在;性別為二值啞變量,男性為2,女性為1;婚姻狀況為二值啞變量,未婚為0,已婚為1;教育為多值離散型變量,取值為0~9之間的整數(shù),取值越大表明受教育程度越高;健康狀況為二值變量,取值為0表明健康,為2表明存在一些健康問題。
表1給出本文實證數(shù)據(jù)集中自變量各指標的描述性統(tǒng)計情況,相關(guān)計算由SPSS 20.0軟件完成。
從表1可以看出,當(dāng)?shù)刭J款農(nóng)戶的借款金額一般不超過5萬元,一定程度上均屬于小額貸款,同時大多數(shù)貸款農(nóng)戶都存在貸款擔(dān)保人。而在貸款農(nóng)戶中,女性數(shù)量明顯高于男性,未婚者居多,在年齡上又以中年人居多。在受教育情況方面,大多數(shù)農(nóng)戶受教育程度不高。
2.2 實證設(shè)計
選擇當(dāng)前最為成熟與流行的12種信用評估方法:決策樹(DT)、判別分析(DA)、logistic回歸、線性核函數(shù)的支持向量機(SVM-liner)、高斯核函數(shù)的支持向量機(SVM-rbf)、多項式核函數(shù)的支持向量機(SVM-polynomial)、k最近鄰(k-NN)、樸素貝葉斯(NB)、k均值聚類(k-means)、徑向基神經(jīng)網(wǎng)絡(luò)(RBF-ANN)、反向傳播神經(jīng)網(wǎng)絡(luò)(BP-ANN)、自組織映射神經(jīng)網(wǎng)絡(luò)(SOM-ANN)。這12個模型應(yīng)用廣泛,有較好的代表性。
選用5折交叉法進行樣本訓(xùn)練,劃分測試樣本?;趧澐值挠?xùn)練樣本模型對獨立于訓(xùn)練樣本的測試樣本進行模型泛化能力檢驗。
采用AUC指標綜合評判模型的平均預(yù)測能力和偏倚程度。AUC指標計算方法為:首先根據(jù)表2的混淆矩陣定義兩個指標:
假正類率:
FPR=FPFP+TN????? (2)
真正類率:
TPR=TPTP+FN????? (3)
對輸出結(jié)果為各樣本預(yù)測違約概率的模型,根據(jù)模型預(yù)測結(jié)果中每個樣本屬于正類樣本的概率從大到小排序,構(gòu)成各樣本的違約概率序列P,之后從高到低按序依次以序列P中的當(dāng)前違約概率作為閾值,判斷當(dāng)所有被預(yù)測的樣本以該閾值作為分類依據(jù)時的總體樣本劃分情況,即當(dāng)各樣本的預(yù)測違約概率大于該閾值時,將其劃入違約類;反之,將其劃入未違約類。之后計算兩類樣本的假正類率和真正類率值,形成一系列假正類率序列和真正類率序列。最后在二維坐標軸中以假正類率序列為橫軸,真正類率序列為縱軸,繪制出對應(yīng)的曲線,該曲線即為ROC曲線(Receiver Operating Characteristic),而ROC曲線下方與坐標軸圍成的面積定義為AUC(Area Under Curve)值。
在Relief-GEP農(nóng)戶信用評估模型參數(shù)設(shè)置方面,選擇剔除Relief算法識別結(jié)果中重要性系數(shù)小于0的指標,同時設(shè)置GEP算法的演化迭代停止閾值為300次,適應(yīng)度函數(shù)設(shè)置為建模階段的AUC指標值最大化。
最后,12個對比模型使用MATLAB編程實現(xiàn),Relief算法基于RapidMiner軟件運算,GEP算法基于GeneXproTools 5.0軟件運行。
2.3 實證結(jié)果分析
表3展示Relief-GEP農(nóng)戶信用評估模型各指標對預(yù)測違約概率重要性的評價結(jié)果。
從表3中可以明顯看出,在所用數(shù)據(jù)集各項指標中,性別因素對預(yù)測違約概率作用最為明顯,作用力度在所有指標中占比超過了50%,其次分別為婚姻狀況、教育、年齡、貸款實際利率等因素,而健康狀況、貸款是否存在擔(dān)保、貸款額度3項指標的Relief算法重要性得分均為負值,表明這3項指標對預(yù)測違約概率作用不強。故根據(jù)Relief-GEP農(nóng)戶信用評估模型設(shè)計原理,剔除這3項指標,從而實現(xiàn)訓(xùn)練樣本降維,擯棄噪聲信息。
圖1進一步展示了Relief算法篩選對預(yù)測違約概率作用較大的各項指標后,GEP算法在訓(xùn)練階段多次演化迭代過程中算法的適應(yīng)度值變化情況。
從圖1可以明顯看出,在總計300次的迭代過程中,GEP算法的最優(yōu)精度很快接近100%,同時GEP算法在迭代過程中的平均適應(yīng)度、最優(yōu)適應(yīng)度兩項指標總體上均隨著迭代次數(shù)的增加而提高,表明GEP算法向最優(yōu)解逼近的能力與效率均較強。與此同時,在整個迭代過程中,GEP算法的適應(yīng)度也出現(xiàn)了多處“驟降”現(xiàn)象,表明GEP算法在迭代過程中能夠有效跳出局部解空間,嘗試在更廣闊的解空間中尋找適應(yīng)度更高的個體。
表4展示了在構(gòu)建模型訓(xùn)練階段與應(yīng)用模型測試階段參與比較的12個對比模型,與本文設(shè)計的Relief-GEP農(nóng)戶信用評估模型在訓(xùn)練階段AUC指標值與測試階段AUC指標值的具體取值情況。
由表4可以明顯看出,在訓(xùn)練階段,除k-means模型與SOM-ANN模型之外,其余模型的擬合AUC指標均在0.9以上,logistic、SVM-liner、SVM-rbf、SVM-polynomial、k-NN、BP-ANN與Relief-GEP模型的擬合精度更是達到了AUC值大于0.95的水平,這表明大多數(shù)模型在訓(xùn)練階段都能較好地對訓(xùn)練樣本中所含的擬合模式進行充分整合。而在所有表現(xiàn)較好的模型中,Relief-GEP模型的擬合精度最高,AUC值達到0.976 7,SVM-rbf與k-NN模型次之,AUC指標值分別為0.967 4與0.954 9,這表明相比于現(xiàn)有的12個代表性信用評估模型,Relief-GEP模型能夠更好地挖掘訓(xùn)練樣本中所蘊含的擬合模式。
從表4最右列可以發(fā)現(xiàn),在訓(xùn)練階段及測試階段表現(xiàn)較好的模型,其預(yù)測AUC指標值相對于訓(xùn)練階段均有不同程度降低,這表明訓(xùn)練樣本集樣本所含的信息中依然存在一定的噪聲信息,從而干擾了模型對樣本集中蘊含的違約概率精準識別。而在各模型中Relief-GEP模型擁有最高的預(yù)測精度,其測試階段的AUC指標值達到0.956 2,在所有的13個模型中排名第一,其次為RBF-ANN模型與DA模型,AUC指標值分別為0.939與0.94。而剩余在訓(xùn)練階段表現(xiàn)較好的各模型,在測試階段性能均出現(xiàn)較大幅度的下降,AUC指標均未達到0.9,表明這些模型在訓(xùn)練階段所表現(xiàn)出的較優(yōu)性能很大程度上是由過度擬合問題造成的,因而其泛化能力較差。
在實際使用信用評估模型對各貸款農(nóng)戶進行貸前信用評估時,使用者往往僅能根據(jù)各備選模型對已有樣本的擬合精度(相當(dāng)于測試階段模型的擬合結(jié)果)進行選擇,故模型的穩(wěn)定性與泛化能力尤為重要。本文設(shè)計的Relief-GEP農(nóng)戶信用評估模型,在訓(xùn)練階段與測試階段均表現(xiàn)出穩(wěn)定的性能,較優(yōu)的泛化能力,對新樣本的違約概率預(yù)測能力較高,實用性強。
將Relief-GEP農(nóng)戶信用評估模型得到的最終違約概率預(yù)測模式以C++語言表述如下:
from math import *
def gepModel(d):
ROUNDING_THRESHOLD = 2.72727627255423
G2C4 = -8.23297830133976
y = 0.0
y = pow(d[0],3.0)
y = y + gepLT2C(gepGOE2G(((G2C4-d[5])+d[3]),exp(G2C4)),gepLogi((d[6]*d[3])))
y = y + gepLogi(pow(d[0],4.0))
if (y >= ROUNDING_THRESHOLD):
return 1
else:
return 0
def gepLT2C(x, y):
if (x < y):
return (x+y)
else:
return (x-y)
def gepGOE2G(x, y):
if (x >= y):
return (x+y)
else:
return atan(x*y)
def gepLogi(x):
if (abs(x) > 709.0):
return 1.0 / (1.0 + exp(abs(x) / x * 709.0))
else:
return 1.0 / (1.0 + exp(-x))
3 結(jié)語
本文設(shè)計了面向我國農(nóng)戶貸款信用風(fēng)險評估的Relief-GEP模型。模型首先使用Relief算法刪減對預(yù)測違約概率作用不大的冗余屬性,擯棄一定的噪聲數(shù)據(jù),明晰了模型預(yù)測使用的指標,因而提高了后續(xù)建模的整體效率。在缺乏最優(yōu)模型具體結(jié)構(gòu)形態(tài)先驗知識的情況下,結(jié)合“適者生存”的哲學(xué)思想,使用基因表達式編程算法對模型的最優(yōu)結(jié)構(gòu)不加限制地進行演化迭代尋優(yōu),最終構(gòu)建出完整的農(nóng)戶貸款信用風(fēng)險評估模型?;谒捱w地區(qū)某農(nóng)村信用社農(nóng)戶信貸歷史樣本進行實證研究,結(jié)果表明,設(shè)計的Relief-GEP模型相比于當(dāng)前流行的12種信用風(fēng)險評估模型,擁有更好的建模樣本擬合能力及更優(yōu)的樣本泛化能力。該模型形態(tài)結(jié)構(gòu)十分靈活,但如果在建模前缺乏先驗信息而以傳統(tǒng)方式預(yù)設(shè)模型結(jié)構(gòu)形式的情況下,則極易因函數(shù)形式誤設(shè)導(dǎo)致模型識別精度不高,這需要在后續(xù)工作中進行改進。
參考文獻:
[1] 王穎, 曾康霖. 論普惠:普惠金融的經(jīng)濟倫理本質(zhì)與史學(xué)簡析[J]. 金融研究, 2016,15(2):37-54.
[2] 張梓榆,溫濤,王小華.“新常態(tài)”下中國農(nóng)貸市場供求關(guān)系的重新解讀——基于農(nóng)戶分化視角[J].農(nóng)業(yè)技術(shù)經(jīng)濟,2018,17(4):54-64.
[3] MA X M, LV X L. Financial credit risk prediction in internet finance driven by machine learning[J]. Neural Computing and Applications,2019,31(12):128-135.
[4] ELIANA COSTA E SILVA,ISABEL CRISTINA LOPES,ALDINA CORREIA,et al. A logistic regression model for consumer default risk[J]. Journal of Applied Statistics,2020,47(13-15):1154-1168,159-1681.
[5] 王樹娟, 霍學(xué)喜, 何學(xué)松. 農(nóng)村信用社農(nóng)戶信用綜合評價模型[J]. 財貿(mào)研究, 2005,16(5):35-39
[6] 王惠,王靜.末位淘汰機制下的農(nóng)戶信用水平演化動態(tài)模擬仿真及案例檢驗[J].農(nóng)林經(jīng)濟管理學(xué)報,2019,18(6):717-724.
[7] 王思宇,陳建平.基于LightGBM算法的信用風(fēng)險評估模型研究[J].軟件導(dǎo)刊,2019,18(10):19-22.
[8] MARTINE V,HAFSAH J,KERRI B. Risk preferences and poverty traps in the uptake of credit and insurance amongst small-scale farmers in South Africa[J]. Journal of Economic Behavior and Organization,2019,33(265):1482-1511.
[9] VIHI S K, JESSE B, DALLA A A ,et al. Analysis of farm risk and coping strategies among maize farmers in lere local government area of kaduna state, nigeria[J]. Asian Journal of Research in Agriculture and Forestry,2018,561(9):624-637.
[10] JAIN R, GOUR B, DUBEY S. A hybrid approach for credit card fraud detection using rough set and decision tree technique[J]. International Journal of Computer Applications, 2016,139(10):1-6.
[11] YU L, YANG Z, TANG L. A novel multistage deep belief network based extreme learning machine ensemble learning paradigm for credit risk assessment[J]. Flexible Services & Manufacturing Journal, 2016, 28(4):576-592.
[12] YASIN A,KADRIYE K. A jackknifed ridge estimator in probit regression model[J]. Statistics,2020,54(4):295-312.
[13] 肖利軍,郭繼昌,顧翔元.一種采用冗余性動態(tài)權(quán)重的特征選擇算法[J].西安電子科技大學(xué)學(xué)報,2019,46(5):155-161.
[14] MOHSEN A,RAHIM T. A gene expression programming model for economy growth using knowledge-based economy indicators[J]. Journal of Modelling in Management,2019,14(1):921-937.
(責(zé)任編輯:杜能鋼)