鄭路遠
湖南大學(xué)數(shù)學(xué)與計量經(jīng)濟學(xué)院,湖南長沙410012
基于粗糙集理論的信貸風(fēng)險評估模型研究
鄭路遠
湖南大學(xué)數(shù)學(xué)與計量經(jīng)濟學(xué)院,湖南長沙410012
信貸風(fēng)險是現(xiàn)代商業(yè)銀行所需面對的首要風(fēng)險,特別是我國商業(yè)銀行由于缺乏基礎(chǔ)數(shù)據(jù),無法采用國外銀行的先進信貸風(fēng)險評估模型,長期以來一直使用傳統(tǒng)方法進行信貸風(fēng)險評估,因此急需探索一個適用于我國國情的信貸風(fēng)險評估模型。為此,首先建立一套包含財務(wù)指標與非財務(wù)指標的信貸風(fēng)險評估指標體系,然后根據(jù)粗糙集理論能夠處理不可區(qū)分關(guān)系的特點,結(jié)合我國具體國情,提出了基于粗糙集理論的信貸風(fēng)險評估模型,并給出數(shù)據(jù)預(yù)處理、屬性簡化、決策規(guī)則集的生成、對象分類及規(guī)則預(yù)測精度驗證的實現(xiàn)方法。最后以多家公司的信貸情況為測試實例,采用基于粗糙集理論的信貸風(fēng)險評估模型進行測試,測試結(jié)果表明,信貸正常公司的預(yù)測準確率達到83.33%,非正常公司的預(yù)測準確率達到100%,能夠為銀行的信貸決策提供有效的參考。
信貸風(fēng)險評估;粗糙集理論;模型
近年來的美國股市崩盤、拉美債務(wù)危機以及美國“次貸危機”,引起各國對金融風(fēng)險管控的高度重視[1]。目前,歐美發(fā)達國家于2007年開始執(zhí)行《新巴塞爾資本協(xié)議》,該協(xié)議反映了當(dāng)前銀行領(lǐng)域在金融風(fēng)險管控方面的最新技術(shù)和方法,能夠有效的對信貸風(fēng)險實現(xiàn)管控。而我國與歐美發(fā)達國家銀行業(yè)的信貸風(fēng)險管控水平相差較大,因此我國銀行業(yè)急需進行信貸風(fēng)險管控理論的研究,同時借鑒國際銀行業(yè)的優(yōu)秀信貸風(fēng)險管控經(jīng)驗,全面提高我國銀行業(yè)的信貸風(fēng)險管控能力。
為了可以更好的進行信貸風(fēng)險管控,建立科學(xué)合理的信貸風(fēng)險評估指標體系,在參考了國外學(xué)者對信貸風(fēng)險評估指標體系研究成果的基礎(chǔ)上[2],結(jié)合我國具體國情,選取的指標體系分為財務(wù)指標和非財務(wù)指標,財務(wù)指標如表1所示,其值為連續(xù)型。從表1中可以看出,財務(wù)指標主要選取了目前企業(yè)通用的財務(wù)指標,各財務(wù)指標的計算值也按照通用公式進行計算。
表1 財務(wù)指標表Table 1 Financial indicators
為了彌補財務(wù)指標對企業(yè)信貸風(fēng)險評估的不足,采用了行業(yè)發(fā)展和企業(yè)情況作為非財務(wù)指標,其中行業(yè)景氣指數(shù)以100為分界,大于100說明經(jīng)濟上行,小于100說明經(jīng)濟下行;企業(yè)情況各指標的取值如表2所示。
表2 企業(yè)的非金融指標Table 2 Non-financial indicators in companies
在不滿足統(tǒng)計假設(shè)的條件下,采用粗糙集理論產(chǎn)生的決策比較簡單,為不準確數(shù)據(jù)的研究分析及挖掘數(shù)據(jù)內(nèi)在聯(lián)系方面提供了較為有效的方法[3-5],因此與傳統(tǒng)評估方法相比,在信貸風(fēng)險評估模型中采用粗糙集理論,能夠較為準確的進行信貸風(fēng)險評估。在實際應(yīng)用中,主要分為數(shù)據(jù)預(yù)處理、屬性簡化、決策規(guī)則集的生成、對象分類及規(guī)則預(yù)測精度驗證五個步驟。
2.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理就是對商業(yè)銀行掌握的信貸主體數(shù)據(jù)進行數(shù)據(jù)的正確性及完整性檢查,對數(shù)據(jù)中的噪聲進行處理并對連續(xù)屬性進行離散化,使經(jīng)過處理的數(shù)據(jù)滿足粗糙集理論的要求,主要分為缺省值的處理和連續(xù)屬性離散化兩步。
缺省值處理:由于商業(yè)銀行掌握的數(shù)據(jù)表一般缺項較少,為了不影響數(shù)據(jù)表中包含的信息,采用Conditioned Mean Completer算法,缺項值由與該缺項數(shù)據(jù)的決策屬性值相同的數(shù)據(jù)項中取均值獲得。
連續(xù)屬性離散化:粗糙集理論要求屬性值必須是離散型數(shù)據(jù),由于本文選擇的財務(wù)指標屬性值分布較均勻,所以使用等頻率算法進行屬性值離散。具體為將某一具體屬性值由大到小進行排序,然后依據(jù)給定的離散數(shù)k,將m個屬性值均分為k段,各段都包含有m/k個屬性值,然后得到斷點集,就完成了連續(xù)屬性的離散化。
2.2屬性簡化
目前粗糙集屬性簡化中常用的基于區(qū)分函數(shù)的簡化算法和基于屬性重要性的簡化算法,在數(shù)據(jù)較多時,計算量過大,所以本文采用遺傳算法來完成屬性簡化[6-8]。算法中區(qū)分矩陣的一項由候選約簡的表示位串來代表,也就是對象的分辨屬性集,某位為1時代表該屬性存在,為0時代表該屬性不存在,算法的適應(yīng)函數(shù)如式1所示:
式中,v表示某分辨屬性集的位串;n表示條件屬性的數(shù)量,也就是屬性集的長度;Lv表示位串v中值為1的數(shù)量;Cv表示位串v可以區(qū)分的對象數(shù)量;m表示訓(xùn)練樣本的數(shù)量。適應(yīng)函數(shù)包含兩部分,第一部分表示希望Lv的取值盡量小,后一部分表示希望可以區(qū)別的對象盡量多。在進行初始種群的設(shè)計時,可將專家或核等必要的屬性增加進種群中,以提高算法收斂的速度。算法的具體執(zhí)行步驟如下:
①計算條件屬性C對于決策屬性D的依賴度;
②設(shè)core(C)=Ф,然后逐個去除屬性c∈C,若γC-c≠γC,就能夠確定core(C)為其中的一個核;若γcore(C)(D)=γC(D),則說明core(C)為最小屬性約簡,如不是則繼續(xù)執(zhí)行步驟3;
③由隨機生成的長度為n,數(shù)量為m的二進制位串表示的個體組成初始種群,然后計算出初始群體中所有個體的適應(yīng)度;
④依據(jù)賭輪盤的方法進行個體選擇,同時根據(jù)變異概率Pm和交叉概率Pc生成下一代群體,在變異過程中應(yīng)保證與核屬性相對應(yīng)的基因位不發(fā)生變化;
⑤計算下一代群體中全部個體的適應(yīng)度;
⑥在獲得下一代個體后,如果新一代個體中的某個個體的適應(yīng)度小于上一代某個個體的適應(yīng)度,則使用上一代最好的個體替換新一代最差的個體,以保證算法能夠收斂;
⑦如果連續(xù)t代群體中最高適應(yīng)度個體的適應(yīng)度不再提高,則停止計算并將最優(yōu)個體輸出,也就是說此時的屬性已經(jīng)是最簡化的。
2.3決策規(guī)則集的生成
根據(jù)屬性簡化表,決策規(guī)則采用"if…,then…"的表達形式,即當(dāng)屬性滿足一定的條件要求時,就可以得出相應(yīng)的決策規(guī)則。但為了去掉表達決策規(guī)則時的多余屬性值,需要進行屬性值約簡,本文采用計算決策規(guī)則的覆蓋度和可信度進行值約簡,覆蓋度和可信度的計算如式2、式3所示:
式中,βR(D)表示覆蓋度,αR(D)表示可信度。Dk表示第k個決策規(guī)則的決策屬性類,[xk]R表示對規(guī)則的全部條件屬性分類。通過選取覆蓋度和可信度比較高的決策規(guī)則來完成值約簡。
2.4對象分類
完成決策表的屬性約簡及值約簡后,得到了最終的全部決策規(guī)則。銀行可以根據(jù)決策規(guī)則對任意一個貸款對象進行分類,但依據(jù)決策規(guī)則得到的某一貸款對象與其信息數(shù)據(jù)的匹配程度可能會有以下幾種情況:1)新貸款對象僅匹配某一條規(guī)則;2)新貸款對象能夠匹配多條規(guī)則,且匹配結(jié)果一致;3)新貸款對象能夠匹配多條規(guī)則,但匹配結(jié)果不相同;4)新貸款對象無法匹配任何一個規(guī)則。
對情況1和情況2,根據(jù)規(guī)則集對貸款對象的判定結(jié)果僅有一個,所以能夠確定貸款對象的分類;但對于情況3和情況4,無法根據(jù)規(guī)則集對貸款對象進行分類,本文分別采用投票法和最近相鄰法來解決情況3和情況4,具體如下:
投票法:決策規(guī)則集用R表示,讓R為對象的所有可能決策類分配一個代表其可信度的量值。通常,對象都被劃分到改值最大的類中。假設(shè)待進行分類的對象為x,投票的具體過程如下:
①掃描整個決策規(guī)則集R,激活規(guī)則集R(x)并找出與對象x匹配的全部規(guī)則;
②各個規(guī)則α→β?R(X)為其后件的決策類指定一個量值votes(α→β)作為α→β的票數(shù):votes(α→β)=support(αΛβ),這就是在決策規(guī)則集中同時滿足規(guī)則α和規(guī)則β的對象數(shù)目;
③計算對象x相對于各個決策類的可信度certainty(x,β)如式4所示,投票數(shù)votes(β)和Rβ(x)分別如式5、式6所示。
最近相鄰法:各個規(guī)則和測試儀樣本的相似度如式7所示,其中,Фj*表示測試樣本的第j個評價指標的具體值,Фi,j表示規(guī)則庫中第i個規(guī)則的第j個評價指標具體值,wj表示第j個評價指標的權(quán)重大小,本文取所有權(quán)重相同。Simi表示規(guī)則庫中的第i個規(guī)則和測試樣本的相似度,數(shù)值越小表示兩者的相似程度越高。
2.5決策規(guī)則預(yù)測精度檢驗
決策規(guī)則建立后,應(yīng)依據(jù)測試樣本進行規(guī)則檢驗,以驗證所建立的規(guī)則是否科學(xué)。在規(guī)則檢驗中,建立的規(guī)則配比準確率越高、測試樣本的數(shù)量越大,則說明建立的信貸風(fēng)險評估模型的可行性越高。
為驗證本文提出的基于粗糙集理論的信貸風(fēng)險評估模型是否準確,選取2015年的60家ST公司作為信貸違約樣本,60家信貸正常公司作為信貸正常樣本,然后從中隨機抽取96家公司(48家信貸違約,48家信貸正常)作為評估模型的訓(xùn)練樣本,剩下的24家公司作為測試樣本,用于檢測評估模型的準確性。本文選取的樣本中,缺少部分數(shù)據(jù)項,具體如表3所示,表中缺陷數(shù)據(jù)采用Rosetta軟件中的Conditioned Mean Completer算法補全。
表3 部分原始數(shù)據(jù)Table 3 Partial original data
對于信貸風(fēng)險評估體表體系中的連續(xù)性指標,運用Rosetta中的Equal Frequency(等頻率算法)進行指標離散,將每個指標分為4段,分別以1、2、3、4表示各段的離散值,部分指標離散后的數(shù)值如表4所示。
表4 離散化后的部分屬性數(shù)據(jù)Table 4 Partial data of the properties after discretization
在選用的信貸風(fēng)險評估指標體系中,有很多指標是多余的,采用Rosetta軟件的遺傳算法對評評估指標體系中的屬性進行簡化,最終選取了{C6,C8,C15,C17,C19}五個屬性作為簡化后的條件屬性。在簡化指標的基礎(chǔ)上,設(shè)置規(guī)則的覆蓋度大于0.05,可信度大于0.75,最后一共得到了30條決策規(guī)則,部分決策規(guī)則下所示:
①流動資產(chǎn)周轉(zhuǎn)率C6(1)AND資產(chǎn)凈利率C8(2)AND現(xiàn)金流動負債比率C15(1)AND主營業(yè)務(wù)收入現(xiàn)金含量C17(4)AND行業(yè)景氣指數(shù)C19(3)=>D(0);
②流動資產(chǎn)周轉(zhuǎn)率C6(2)AND資產(chǎn)凈利率C8(3)AND現(xiàn)金流動負債比率C15(3)AND主營業(yè)務(wù)收入現(xiàn)金含量C17(3)AND行業(yè)景氣指數(shù)C19(2)=>D(0);
③流動資產(chǎn)周轉(zhuǎn)率C6(2)AND資產(chǎn)凈利率C8(1)AND現(xiàn)金流動負債比率C15(2)AND主營業(yè)務(wù)收入現(xiàn)金含量C17(3)AND行業(yè)景氣指數(shù)C19(4)=>D(1);
④流動資產(chǎn)周轉(zhuǎn)率C6(1)AND資產(chǎn)凈利率C8(3)AND現(xiàn)金流動負債比率C15(4)AND主營業(yè)務(wù)收入現(xiàn)金含量C17(2)AND行業(yè)景氣指數(shù)C19(2)=>D(1);
獲得決策規(guī)則集后,使用未參與訓(xùn)練的余下24個樣本公司進行測試,即將這24個樣本按照決策規(guī)則進行分類,然后與該公司的實際信貸情況進行對比,具體如圖1所示:
圖1 測試結(jié)果Fig.1 Test results
從圖1中的測試結(jié)果可以看出:信貸情況正常公司的12個樣本中,有10個預(yù)測正確,2個樣本錯誤的預(yù)測成了信貸違約,正確率達到83.33%;信貸情況非正常的12個公司,信貸情況的預(yù)測全部正確,正確率達到了100%;信貸風(fēng)險判別的綜合正確率達高達91.67%。說明基于粗糙集理論的信貸風(fēng)險評估模型具有良好的預(yù)測精度。
本文建立的基于粗糙集理論的信貸風(fēng)險評估模型具有良好的預(yù)測精度,但同時也存在一些問題:一是在信貸風(fēng)險評估指標體系中沒有能夠反映宏觀經(jīng)濟情況的指標,這是因為該指標需要大量樣本數(shù)據(jù),目前建立的模型還難以實現(xiàn);二是本文僅將信貸風(fēng)險分為兩級,但實際銀行是將信貸評估劃分為五級,如何將粗糙集理論應(yīng)用在五級信貸評估中。這些都還需在后續(xù)的工作中繼續(xù)研究。
針對我國商業(yè)銀行采用的傳統(tǒng)信貸風(fēng)險評估方法的不足,提出了基于粗糙集理論的信貸風(fēng)險評估模型。首先建立了一套信貸風(fēng)險評估指標體系,然后給出了粗糙集理論應(yīng)用在信貸風(fēng)險評估模型中的各步驟實現(xiàn)方法,最后采用24家公司的信貸情況作為測試樣本,測試結(jié)果表明信貸風(fēng)險判別的綜合正確率達高達91.67%,可為銀行的信貸決策提供有效的參考。
[1]Douglas RE,John DF.Corporate Financial Management[M].Beijing:Chinese People's University Press,2015
[2]Li RenPu,Zheng Ouwang.Mining Classification Rules Using Rough Sets and Neural Networks[J].European Journal of Operational Research,2014,3(4):443-448
[3]肖厚國,桑琳,宮悅,等.基于遺傳算法的粗糙集屬性約簡及其應(yīng)用[J].計算機工程與應(yīng)用,2015,44(15):228-230
[4]Slowinski R,Zopounidis C,Dimitras AI.Rough Set Predictor of Business Failure[J].Soft Computing in Financial Engineering,2014,5(8):402-424
[5]朱小剛.基于計算機粗糙集的數(shù)據(jù)挖掘設(shè)計與應(yīng)用分析[J].山東農(nóng)業(yè)大學(xué)學(xué)報:自然科學(xué)版,2015,46(5):765-768
[6]吳山產(chǎn),毛鋒,王文淵.基于粗糙集的兩種離散化算法的研究[J].計算機工程與應(yīng)用,2014(26):67-69
[7]薛鋒,柯孔林.粗糙集與神經(jīng)網(wǎng)絡(luò)系統(tǒng)在商業(yè)銀行貸款五級分類中的應(yīng)用[J].系統(tǒng)工程理論與實踐,2015,3(5):40-45
[8]于達仁,胡清華,鮑文.融合粗糙集和模糊聚類的連續(xù)數(shù)據(jù)知識發(fā)現(xiàn)[J].中國電機工程學(xué)報,2014,24(6):205-210
Research on Credit Risk Assessment Model Based on Rough Set Theory
ZHENG Lu-yuan
College of Mathematics and Econometrics/Hunan University,Changsha 410012,China
Credit risk is the primary risk for which modern commercial banks are facing,especially in our country due to lack of basic data,so commercial banks can't use the foreign advanced credit risk assessment model to have to use the traditional one so as to explore a suitable for China's national conditions of the credit risk assessment model.Aiming at this problem,first of all,a set of financial indicators and non-financial indicators of credit risk assessment index system should be established and then according to the characteristic,which theory of rough set is able to handle indistinguishable relationship,combining with China's specific national conditions,the credit risk assessment model based on rough set theory is put forward and presents a simplified data preprocessing,attribute and decision rule set the generation rules,object classification and prediction accuracy of the implementation of the method.Finally the multiple companies credit conditions are tested for some cases with the credit risk assessment model based on rough set theory.The results show that the prediction accuracy in credit normal companies reaches 83.33%,it is 100%in abnormal companies.Which could provide an effective reference for bank credit decisions.
Credit risk assessment;rough set theory;model
TN202
A
1000-2324(2016)02-0316-05
2015-01-06
2015-03-10
鄭路遠(1994-),男,浙江長興人,本科,主要研究方向:應(yīng)用數(shù)學(xué).E-mail:zheng@163.com