鄒柏松
(中南民族大學 經濟學院,湖北 武漢 443000)
基于組合模型的商業(yè)銀行信用風險研究
鄒柏松
(中南民族大學 經濟學院,湖北 武漢 443000)
伴隨著全球性的金融風暴和西方著名投行等金融機構的倒閉或被國有化,信用風險重新進入了眾多風險分析家的視野。為了建立適用于我國國情的新的信用風險度量模型,使得我國的信用風險管理水平得以提高,開展信用風險量化管理技術的研究,在我國商業(yè)銀行風險管理的實踐中應用信用風險量化管理技術具有重要的現(xiàn)實以及理論意義。針對上述現(xiàn)狀,本文分別建立裝袋模型、基于預測值和基于預測結果(0/1)的組合模型,并將實證結果與單一模型結果進行了比較分析。通過比較發(fā)現(xiàn),組合模型的預測準確率不一定高于每個單一模型,但準確率值卻趨于準確率最高模型的值,同時組合模型的穩(wěn)健性明顯優(yōu)于單一模型,總體而言,組合模型在一定程度上提高了模型預測精度,同時優(yōu)化了模型穩(wěn)健性,這使得模型更具有實際應用價值。
信用風險; 統(tǒng)計方法; 數(shù)據(jù)挖掘; 組合模型
信用風險的復雜性隨著金融市場的持續(xù)發(fā)展也越發(fā)明顯,因此關于有效度量的風險也逐步增加。由于在我國嚴重違約數(shù)據(jù)及相關信貸統(tǒng)計資料不實,得出的信用風險度量的結論都不甚精確[1]。一般情況下,現(xiàn)代商業(yè)銀行對客戶初始違約概率的測算都是在量化分析其財務指標之后進行的,在這一基礎上以其結果為根據(jù)對初始信用等級進行劃分,然后通過不同信用等級的劃分結果將客戶分為某一類債務人,比如不違約類或者違約類,但國內應用量化模型進行風險評估的技術并不成熟,現(xiàn)有的量化方法大多只是利用一種統(tǒng)計方法或者數(shù)據(jù)挖掘方法進行建模及評估,不同的方法在穩(wěn)健性及準確性方面有較大差異,導致了預測結果對方法有很大的依賴性,模型預測的準確性很有可能只是由某一方法自身的特點決定,使得模型預測結果有效性降低,因此,結合多種定性定量方法進行研究,使得各方法相互取長補短,建立組合分類預測模型以達到更高的預測精度是信用風險評估技術發(fā)展的必然趨勢[2-3]。
基于此,對商業(yè)銀行信用風險管理方面的實踐來說,本文的研究具有重要的現(xiàn)實以及理論意義。首先,現(xiàn)實方面,可以為商業(yè)銀行風險管理人員的研究提供思路,并通過實證合理評估信用風險,從而指導銀行信用風險管理的實踐;其次,理論方面,由于我國商業(yè)銀行信用風險管理理念和文化缺失較為嚴重,機制不夠健全,研究信用風險評估方法,有助于完善商業(yè)銀行風險管理模式和制度,同時為風險管理研究提供理論支持。
1.樣本獲取及數(shù)據(jù)預處理
第一,財務指標及數(shù)據(jù)獲取。國際上通常以衡量企業(yè)財務狀況的問題來替代衡量商業(yè)銀行測度企業(yè)信用風險的問題,因為最主要的商業(yè)銀行信用風險形成的原因即為企業(yè)不能如期還本付息[4-5]。通常情況下,需要通過各類財務分析指標對企業(yè)的財務狀況好壞、盈利水平高低以及償債能力大小等一系列數(shù)據(jù)來對企業(yè)的財務狀況進行衡量。本文基于在財務評價中通常會使用到的財務指標體系,從投資收益、盈利能力、經營能力、償債能力、資本構成、現(xiàn)金流量等方面入手選取了衡量上市公司財務狀況的15個財務指標。
考慮到我國信用體系尚未建立完善,很難獲知公司相關的違約信息,因此本文界定我國上市公司所包括的ST類公司為存在一定違約風險的企業(yè)。我國對存在異常狀況的上市公司的股票交易是從1998年開始實行特別處理制度(ST,Special Treatment)的,而且因為財務異常問題被實行特別處理的上市公司具有很高的可度量性,因而比較容易確定樣本。
論文采取截面數(shù)據(jù)分析法,從上市公司最新披露的2011年度財務數(shù)據(jù)中抽取樣本,共獲得360組原始數(shù)據(jù),主要集中于批發(fā)與零售、房地產業(yè)、制造業(yè)等三個擁有比較密集上市公司的行業(yè),包含88家有違約風險的公司(簡稱為ST類公司,標記為“1”)和272家無違約風險公司(簡稱為非ST類公司,標記為“0”),原始數(shù)據(jù)來源于巨潮資訊網(www.cninfo.com.cn)以及和訊網(www.hexun.com)[6]。
第二,數(shù)據(jù)清洗及預處理。數(shù)據(jù)清洗的含義為發(fā)現(xiàn)并糾正相關數(shù)據(jù)文件中能夠被識別的錯誤程序中的最后一道,主要包含了檢查數(shù)據(jù)一致性,處理缺失值以及無效值等。在本文中,除了去除缺失值外,還需要剔除一些異常的值,常用的異常值剔除方法有以下三種:
(1)兩倍、三倍標準差檢驗法。
基于小概率事件原理的方法即為兩倍、三倍標準差檢驗法,在標準差σ已知的情況下,可考慮用該方法對某一組測定值中所存在的異常值進行檢驗[7-8]。根據(jù)正態(tài)分布的特點,偏差大于三倍標準差(3σ)以及兩倍標準差(2σ)的測定值所出現(xiàn)的概率小于0.3%和5%,因此,結果為一個小概率事件,在離群點的偏差大于三倍或者兩倍標準差的情況下,則能夠剔除該值。
在樣本容量大于30但是不知道σ值的情況下,判定可直接通過對相關樣本值標準差s的計算代替σ來進行[9]。在數(shù)據(jù)平滑性較好且樣本容量較大的情況下,這種方法的效果較好;但該方法在數(shù)據(jù)離散度大且樣本個數(shù)少的情況下作用不明顯。
關于兩倍、三倍標準差檢驗法的步驟如下所示:
第二步,計算σ=s;
(2)ASTM檢測法。
ASTM檢測法是美國材料試驗協(xié)會提出的一個對異常值檢驗的方法,檢驗統(tǒng)計量表示為:
(3)t檢驗法。
常用于統(tǒng)計檢驗中的方法為t檢驗法,將除了待測定值xi外的測定值看作一個整體,并假設這個整體服從于正態(tài)分布是t檢驗法的基本思想。通過這些測定值對平均值x和s進行計算,并且將待測定值xi假設為樣本容量是1的特征總體[10]。若xi和其余測定值屬于同一個總體,則它和其余的測定值不應存在顯著性差異,檢驗統(tǒng)計量為:
若根據(jù)xi計算得出的統(tǒng)計量T值大于在顯著性水平α下計算出的t檢驗臨界值,表明出現(xiàn)xi是一個小概率事件,考慮為異常值,將其舍棄,反之,則保留。
考慮到本文的數(shù)據(jù)樣本容量比較大,且各類指標的相應取值范圍也比較廣,數(shù)據(jù)在一定范圍內具有平滑性,所以選用兩倍、三倍標準差檢驗法檢測異常值,對標準選擇5%的置信水平進行剔除。
通過剔除缺失值和異常值的樣本,一共剔除了60個奇異樣本,之后獲得的樣本數(shù)據(jù)集合為320個,其中ST類公司80個(標記為“1”),非ST類公司240個(標記為“0”)。
因為每一個行業(yè)的業(yè)務范圍和企業(yè)經營環(huán)境均有所差異,各項企業(yè)財務指標的衡量方法也有可能不同,因此本文將三個行業(yè)的財務指標數(shù)據(jù)分別除以各自對應行業(yè)的均值,此做法一方面消除了行業(yè)的影響,另一方面去除了量綱的影響,從而使數(shù)據(jù)的可比性更強。
第三,樣本分組。為客觀地檢驗模型的預測精度,獲得的樣本需要被分為測試樣本和訓練樣本兩部分,測試樣本用來對模型的穩(wěn)健性和精確度進行評估,訓練樣本用于模型的建立[11]。本文通過隨機數(shù)抽樣方法,訓練的樣本分別從非ST類公司以及ST類公司中隨機抽取50%,剩余的部分作為測試樣本來進行模型精確度的檢驗,根據(jù)2-折交叉驗證法,以此抽取10次,構成10對樣本。
2.模型評估方法概述
雖然有很多評價模型的方法,但是最主要的評價內容依然是模型的穩(wěn)健性和精確性。因為無法用統(tǒng)計技術中較為常用的顯著性、置信度、擬合優(yōu)度等指標對基于數(shù)據(jù)挖掘方法的模型進行檢驗[12],所以本文在采用以下方法對模型結果進行評估:
(1)模型的精確性檢驗
將測試樣本帶入訓練后的模型中得出預測值,當預測值大于0.5時,判為違約公司(值記為“1”),當預測值小于0.5時,則判為非違約公司(值記為“0”),對結果進行統(tǒng)計得出相應的預測結果,實際和預測結果之中相符合的樣本數(shù)與所有樣本數(shù)的百分比稱為準確率或者精確度,反之則被稱為誤判率,其中所體現(xiàn)的性能為精確性。本文所涉及到的準確率或者精確度分為三種,第I類準確率是第一種,第II類準確率是第二種,總體準確率是第三種,這幾個指標在每個檢驗樣本中的具體表達式如下:
第Ⅰ類準確率=所有違約公司中預測結果
正確的個數(shù)/違約公司個數(shù)
=P(預測值為1|實測值為1)
第Ⅱ類準確率=所有非違約公司中預測結果
正確的個數(shù)/非違約公司個數(shù)
=P(預測值為0|實測值為0)
總體準確率=總體預測結果
正確的個數(shù)/所有公司個數(shù)
(2)模型的穩(wěn)健性檢驗
穩(wěn)健性也可被理解為推廣性,即在測試樣本中應用經過訓練模型時,其準確率的波動情況,若準確率波動較小且沒有大幅度的下降,則說明對訓練樣本以外的樣本來說,該模型適用性比較強,在實際運用時的可操作性也較強;反之,只能在特定樣本中應用該模型,即使準確率較高,也不能進行推廣應用,由此看來,模型的穩(wěn)健性的重要性要強過模型的精確性[13]。模型穩(wěn)健性檢驗方法主要有以下幾種:
①平均絕對誤差(MAE)
②平方差(SSE)
SSE=∑(ei)2
③均方差(MSE)
④根方差或標準差(RMSE)
(3)模型收益(Gain)曲線檢驗
不斷學習樣本的過程即為模型的建立過程,學習所帶來的收益(Gains)或者說學習的效果主要在模型“捕捉”到數(shù)據(jù)中所隱藏的規(guī)律和特征與否這一方面體現(xiàn)[14]。具體來說,即對于訓練樣本,模型能否通過學習有效總結概括出特定類別樣本中存在的規(guī)律和特征,只有這樣,模型在檢驗樣本集上才可能有理想的分類預測能力。模型在這一方面的能力越強,其價值也就相應地越大,模型建立的意義也就越大,在實際應用中帶來的“利潤(Profit)”就越高。本文利用模型收益曲線圖直觀地評價分類預測的精度,其繪制方法如下:
首先,將真實值和預測概率值按預測概率大小從大到小排序;
其次,分別計算前10%,前20%,…,前100%的數(shù)據(jù)中預測結果為“1”的個數(shù)占真值“1”的總數(shù)的比例,記為n%;
最后,分別以點10%,…,100%為橫坐標,n%為縱坐標繪制曲線圖。曲線上升越快,則說明只需很少數(shù)據(jù)就可預測出來存在違約風險的大部分公司,則模型預測的效果就更好。
1.基于裝袋(Bagging)方法的分類預測模型
裝袋(Bagging)是數(shù)據(jù)挖掘中一種提高分類準確率的方法。其思想可以通過舉例來進行更為直觀的說明:如果說你是一個病人,想要通過你的癥狀對病癥進行診斷,你也許會看多個醫(yī)生,而不是只選擇某一個醫(yī)生,在某一種診斷結果比其他的結果出現(xiàn)的次數(shù)多的情況下,你一般會將它作為最好的或者最終的判斷,換句話說,最終判斷是根據(jù)多數(shù)表決做出的,其中每個醫(yī)生都具有相同的投票權重。現(xiàn)在,將醫(yī)生換成分類器,就可以得到裝袋的基本思想,直觀地,更多醫(yī)生的多數(shù)表決比少數(shù)醫(yī)生的多數(shù)表決更可靠。
對訓練樣本進行建模,分別得到了Mi(i=1,2,3,4)這四個分類模型,為了分類一個未知樣本X,在每個分類模型回到對其分類預測結果(0或者1)的情況下,記為一票。采用裝袋分類器M*對結果進行統(tǒng)計,并將得到最高的類賦予X,當四種分類模型的分類結果出現(xiàn)兩個1和兩個0時,則采用0/1隨機數(shù)方法決定。采用裝袋方法得到的結果如下:
表1 裝袋方法分類預測結果
(續(xù)上表)
該方法的總體準確率優(yōu)于單一模型,第I類準確率及其穩(wěn)健性也是最優(yōu)的,因此裝袋方法預測效果較好。
2.基于最小二乘法的加權組合分類預測模型
(1)權重系數(shù)求解
加權組合預測模型的關鍵在于確定權重系數(shù)。目前常用的求解組合預測模型權重系數(shù)的方法有很多,但基于最小二乘法的相關方法最為常用,即誤差平方和最小的組合預測方法。
記f1t,f2t,f3t,f4t分別表示Logisitc回歸模型、貝葉斯判別模型、BP神經網絡模型和支持向量機模型在訓練樣本上的預測值,其中,t=1,…,160;訓練樣本實際的因變量值(0或1)用yt進行表示;四個模型的權重用w1,w2,w3,w4來表示,組合模型的預測值用ft進行表示。組合預測模型如下:
ft=w1f1t+w2f2t+w3f3t+w4f4t
S.T.w1+w2+w3+w4=1
記eit=yt-fitti,其含義為在第i種預測方法上樣本t所存在的預測誤差W=(w1w2w3w4)T,R=(1 1 1 1)T。模型的相關誤差信息矩陣為:
相關的矩陣形式為:J=WTEW,因此,根據(jù)誤差平方和最小化的原則,組合預測模型可轉化為:
minJ=WTEW
S.T.RTW=1
將拉格朗日乘數(shù)引入來對上述最小值問題進行求解,構造的方程如下:
J=WTEW+λ(RTW-1)
極值存在的必要條件是J對W的一階導數(shù)等于0,即
進而推得權重向量的表達式為:
以上求解方法只是針對無非負限制的一般的權重,由此方法得出的權重系數(shù)可能會有負值出現(xiàn)的情況,關于權重系數(shù)是否可以為負的問題,理論界尚存在很多爭議,因此,為確保權重系數(shù)具有可解釋性,本文在求解和應用時將加以限制,即令wi∈[0,1]。
(2)加權組合分類預測模型實證結果
本文中,權重系數(shù)的求解通過Matlab軟件計算可得。10次2-折交叉驗證的權重系數(shù)結果如下:
表2 權重系數(shù)求解結果
將上述結果與單一模型結果進行比較可得:
①分類準確率比較:加權組合分類預測模型10次結果的平均總準確率高于任一單一模型10次結果的平均總準確率,第I類準確率和第II類準確率的值居于四個單一模型準確率中間(這是由加權的特點決定的),是接近準確率最高的一個,因此組合模型在一定程度上有效提升了模型的準確率。將組合模型和單一模型的模型收益圖繪制在同一張圖上也可以直觀看出(如圖1),組合模型曲線上升最快,這更加驗證了組合模型分類預測精度的提升。
圖1 模型收益(Gain)匯總圖
②模型穩(wěn)健性比較:加權組合分類預測模型10次結果的穩(wěn)健性指標值(包括:MAE、SSE、MSE、RMSE等)均小于權重不為零的相應單一模型的穩(wěn)健性指標值(若某次測試中某一單一模型權重系數(shù)為零,則說明此次該模型對總體模型沒有起到作用,無需考慮該模型的指標值),且10次測試結果總準確率的標準差和MAE等穩(wěn)健性指標的標準差均小于單一模型相應的值,該結果說明將組合模型應用于不同樣本時,分類精度波動不大,優(yōu)于單一模型,模型的穩(wěn)健性得到有效提升,具有實際應用價值。
(3)基于預測結果(1/0值)的加權組合分類預測模型
基于預測結果(0或1)的加權組合模型準確率結果如表3。
表3 基于預測結果的加權組合模型準確率
基于預測結果加權的模型和基于預測值加權的模型分類準確率不相上下,但總體而言,基于預測結果加權的模型的穩(wěn)健性略好。組合模型在一定程度上有效提升了單一模型的總體準確率,且其模型穩(wěn)健性明顯優(yōu)于單一模型[15]。
我國信用風險管理體系還不夠完善,關于信用風險的度量方法多是借鑒國外現(xiàn)有模型,且以單一模型為主,使得評估方法不夠穩(wěn)定,單一模型自身的特點也會對結果造成很大影響。針對存在的問題,本文構建了加權組合分類預測模型,利用訓練樣本根據(jù)最小二乘方法確定權重,利用測試樣本對單一模型和組合模型進行比較,最終完成整個信用風險評估體系的建設。模型預測的精確率得到一定程度上的提升,穩(wěn)健性較之單一模型有了明顯改善,由于良好的模型穩(wěn)健性是模型具有實際應用價值的前提,因此本文構建的組合模型具有一定的實際意義。
[1] 白雪梅,臧 微.信用風險對中國商業(yè)銀行成本效率的影響[J].財經問題研究,2013(2):54-59.
[2] 顧海峰.信用平穩(wěn)下商業(yè)銀行信用風險測度模型及應用——基于模糊綜合評判法[J].財經理論與實踐,2014(5):8-12.
[3] 李天慈,李映照.商業(yè)銀行中小企業(yè)貸款信用風險管理研究[J].南方金融,2014(9):93-95.
[4] 張 潔,譚 軍.我國商業(yè)銀行公司治理與信用風險管理績效[J].財會通訊,2013(6):113-115.
[5] 周旭東,呂鵬展.商業(yè)銀行信用風險管理的挑戰(zhàn)[J].中國金融,2013(12):50-52.
[6] 陳 云,石 松,潘 彥,等.基于SVM混合集成的信用風險評估模型[J].計算機工程與應用,2016,52(4):115-120.
[7] 郭蓮麗,郭立宏,李建勛,等.基于證據(jù)理論的商業(yè)銀行信用風險測度[J].統(tǒng)計與決策,2013(19):51-54.
[8] 楊北京,劉新海.基本征信數(shù)據(jù)挖掘分析[J].現(xiàn)代管理科學,2015(8):54-56.
[9] 萬振海,劉鐵英,張 揚,等.信用風險評估中DKIPSO-SVC組合模型的仿真研究[J].系統(tǒng)仿真學報,2015,27(8).
[10] 呂勁松,王志成,隋學深,等.基于數(shù)據(jù)挖掘的商業(yè)銀行對公信貸資產質量審計研究[J].金融研究,2016(7):150-159.
[11] 甘信軍,張 捷.商業(yè)銀行信用風險控制的統(tǒng)計策略[J].求索,2014(10):47-51.
[12] 尹 麗.基于KMV模型的中國商業(yè)銀行信用風險評估[J].統(tǒng)計與決策,2013(6):157-159.
[13] 鄭大川.信用評級方法研究綜述和展望[J].管理現(xiàn)代化,2013(6):117-119.
[14] 趙婷婷,陳萬義.基于信用消費行為的商業(yè)銀行零售業(yè)務信用風險再評估[J].金融理論與實踐,2016(12):75-79.
[15] 劉志洋.商業(yè)銀行流動性風險、信用風險與償付能力風險[J].中南財經政法大學學報,2016(3).
[責任編輯:馬建平]
F 830.33
A
1672-6219(2017)05-0079-05
2017-06-07
鄒柏松,男,中南民族大學經濟學院經濟師。
10.13393/j.cnki.1672-6219.2017.05.017