顧遵雷
摘要:公共信用綜合評價是政府部門實施分級分類監(jiān)管,構(gòu)建以信用為基礎(chǔ)的新型監(jiān)管機制的重要支撐,在提高跨部門資源整合能力、優(yōu)化資源配置、防范化解風險等方面發(fā)揮了積極作用。在充分研究、借鑒國內(nèi)外、業(yè)內(nèi)外信用評級優(yōu)秀做法基礎(chǔ)上,結(jié)合實際情況,基于Logistic模型,利用公共信用數(shù)據(jù),對企業(yè)公共信用綜合評價指標和方法進行研究和探索,并對評價模型進行驗證分析。
關(guān)鍵詞:信用評價;邏輯回歸;研究
一、前言
(一)研究背景和意義
公共信用綜合評價是政府部門實施分級分類監(jiān)管的重要依據(jù),是構(gòu)建以信用為基礎(chǔ)的新型監(jiān)管機制、推進社會信用體系建設(shè)高質(zhì)量發(fā)展、促進形成新發(fā)展格局的的重要基礎(chǔ)。2019年7月,國務(wù)院辦公廳出臺《關(guān)于加快推進社會信用體系建設(shè)構(gòu)建以信用為基礎(chǔ)的新型監(jiān)管機制的指導(dǎo)意見》(國辦發(fā)〔2019〕35號),要求加強事前、事中、事后全流程監(jiān)管。特別是在事中環(huán)節(jié)信用監(jiān)管中,要求對市場主體開展全覆蓋、標準化、公益性的公共信用綜合評價,定期將評價結(jié)果推送至相關(guān)政府部門、金融機構(gòu)、行業(yè)協(xié)會商會參考使用,并依照有關(guān)規(guī)定向社會公開。2022年3月,中辦國辦印發(fā)《關(guān)于推進社會信用體系建設(shè)高質(zhì)量發(fā)展促進形成新發(fā)展格局的意見》指出要加快健全以信用為基礎(chǔ)的新型監(jiān)管機制,全面建立企業(yè)信用狀況綜合評價體系,以信用風險為導(dǎo)向優(yōu)化配置監(jiān)管資源。
(二)研究思路和目標
1.研究的思路
研究借鑒金融機構(gòu)信用評級、省內(nèi)外公共信用綜合評價、相關(guān)行業(yè)信用評價工作實踐,對比分析評價指標,研究建立評價模型指標,采用回歸分析方法,利用樣本數(shù)據(jù)進行建模,并利用樣本外的數(shù)據(jù),對模型的效力進行驗證。利用評價模型對市場主體進行評價,并對評價結(jié)果進行分析。
2.研究的目標
基于我省法人信用基礎(chǔ)數(shù)據(jù)庫,構(gòu)建公共信用綜合評價指標,建立可行的、科學的評價模型,對我省企業(yè)進行公共信用綜合評價,支撐政府部門實施分級分類和精確有效監(jiān)管[1]。
(三)研究的內(nèi)容和方法
1.研究的內(nèi)容
研究利用Logistic回歸模型建立公共信用綜合評價模型,主要包括:構(gòu)建評價指標體系,對模型變量預(yù)測強度進行分析,構(gòu)建評分模型,利用K-S值、GINI系數(shù)判斷模型的分區(qū)能力等。
2.研究的方法
(1)資料分析法。梳理分析國家及省關(guān)于社會信用體系建設(shè)、構(gòu)建新型監(jiān)管機制等文件要求,梳理借鑒國內(nèi)外信用評級或信用評價的理論方法,為公共信用綜合評價提供制度和理論支撐。
(2)比較分析法。通過對兄弟省市、相關(guān)行業(yè)部門,以及第三方信用服務(wù)機構(gòu)的信用評價方法進行比較分析,總結(jié)各自優(yōu)勢、特點和經(jīng)驗,提煉出對我省公共信用綜合評價的有用的思路、方法和模型。
(3)調(diào)查分析法。通過開展實地調(diào)研,學習借鑒先進做法和經(jīng)驗,對現(xiàn)有數(shù)據(jù)進行分析歸納,建立評價指標,并邀請專家對指標選擇、模型設(shè)計等方面進行論證,使評價指標和模型更具科學性和權(quán)威性。
二、評分模型原理和方法
(一)選擇擬合函數(shù)
目前,常用建模方法非常多,如判別分析、線性回歸、邏輯回歸及分類樹等統(tǒng)計方法;或是機器學習、類神經(jīng)網(wǎng)絡(luò)、基因算法及專家系統(tǒng)等非統(tǒng)計方法。由于公共信用綜合評價是通過企業(yè)的行為特征信息來預(yù)測其“好”與“壞”,因此本文采用邏輯回歸(Logistic)方法建立評分模型。logistic回歸是一種廣義線性回歸(generalized linear model),它是一種分類算法,用于解決因變量為二分類(0or1)或多分類問題的方法[2]。對于分類問題而言,其輸出因變量的范圍應(yīng)該在(0,1)之間,選用Sigmod函數(shù)可以有效地擬合分類問題的期望輸出。Logistic回歸模型的適用條件:
1.因變量為二分類的分類變量或某事件的發(fā)生率。但是需要注意,重復(fù)計數(shù)現(xiàn)象指標不適用于Logistic回歸。
2.殘差和因變量都要服從二項分布。二項分布對應(yīng)的是分類變量,所以不是正態(tài)分布,進而不是用最小二乘法,而是用最大似然法來解決方程估計和檢驗問題。
3.自變量和Logistic概率是線性關(guān)系。
4.各觀測對象間相互獨立。
(二)自變量處理和分析
1.自變量處理
(1)連續(xù)型變量分箱處理和WOE轉(zhuǎn)化
對于連續(xù)性變量進行分箱處理。首先按照頻數(shù)盡量平均分成多組,初步形成變量分組,然后在初步分組的基礎(chǔ)上合并相似組形成最終分箱[3]。分組合并時,需要按照如下標準進行:
①不同的分箱間好壞比例要有差異;
②單一變量應(yīng)維持至多8個區(qū)間;
③每個分箱中的好/壞件數(shù)至少大于等于10;
④每個分箱中記錄數(shù)占比至少大于2%;
⑤每個分箱好壞比率的排序需要和業(yè)務(wù)常識保持一致。
其中③和④是通常情況下的標準,在特殊情況下,這兩個標準要求會適當提高或放松。
變量分箱完成后,對變量進行WOE轉(zhuǎn)換,用每個分組的WOE值替換原來的變量值。
(2)分類型變量的分箱和虛擬變量引入
對于分類型變量,可以將每個屬性作為一個分箱。Logistic回歸中分類變量需要使用啞變量來操作。
2.自變量分析
在建立模型的過程中,可以通過以下兩個指標對模型變量的預(yù)測強度進行分析。
(1)WOE(Weight Of Evidence)跡象權(quán)數(shù),表示當前分箱中好壞客戶的各自占總體好壞客戶比例的差異,描述了預(yù)測變量與目標變量之間的關(guān)系。WOE絕對值越高,表示該組違約和正常企業(yè)區(qū)分度越高,反之,區(qū)分度越低[4]。
(2)IV(information value)信息值,又稱VOI(Value Of Information),用來表示變量預(yù)測能力的強度,可用于單變量篩選。IV越高,說明該自變量與因變量關(guān)聯(lián)度高,預(yù)測強度高,適合納入預(yù)測模型。
(三)參數(shù)估計
邏輯回歸模型的參數(shù)是用最大似然法估計。極大似然估計是一種統(tǒng)計方法,利用已知的樣本結(jié)果信息,反推最具有可能(最大概率)導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值。每個觀察值yi皆為0或1,因此,yi~Bernoulli(π),i=1,…, n(此為白努利分配,n為樣本數(shù))。
(四)模型建立
邏輯回歸得到的是因變量為“1”和“0”比值的自然對數(shù),即ln(odds),其中odds也稱勝算率。若要以分數(shù)形態(tài)呈現(xiàn),必須要經(jīng)過轉(zhuǎn)換,轉(zhuǎn)換公式為:
Score=ln(odds)×Scale+Location
轉(zhuǎn)換的步驟如下:
1.設(shè)定odds為某一固定值的分數(shù)為l;
2.設(shè)定odds每增加1倍時,相對增加的分數(shù)為p,此分數(shù)也成為了PDO(Point of double odds);
3.將odds=1:1和2:1時的分數(shù)套入公式,解方程可以得出Location 的值為l,Scale的值為p ln (2);
4.最后得到評價模型計算公式為:
Score=ln(odds)×? p? +l。
三、信用評分模型建立與實證分析
建模的步驟主要分為:模型設(shè)計、建模數(shù)據(jù)準備、變量選取、建立模型、模型評估、完成信用評分表。
(一)模型變量的設(shè)計
1.觀察期和表現(xiàn)期
(1)觀察時點(Observation Point)
觀察時點是指所需樣本選取的時間點,該時點下的企業(yè)信息即是評價模型用來評價客戶及預(yù)測企業(yè)將來是否發(fā)生失信的重要參考。
(2)觀察期間(Observation Period)
觀察期間是指開發(fā)樣本在觀察時點之前一段時間,該期間是對樣本信息進行觀察和提煉的時期。本課題選取的觀察期間為12個月。
(3)表現(xiàn)時點(Outcome Point)
表現(xiàn)時點是最終判斷樣本屬于失信或非失信的時間點。
(4)表現(xiàn)期間(Outcome Period)
觀察時點至表現(xiàn)時點這段時間為表現(xiàn)期間。表現(xiàn)期是對觀察點上企業(yè)進行監(jiān)控的時間周期,該期間內(nèi)企業(yè)會被分類成失信企業(yè)、非失信企業(yè)或無法確定。
2.失信企業(yè)的表現(xiàn)定義
在表現(xiàn)期間存在行政處罰記錄、執(zhí)行案件記錄(未履行案件)、失信被執(zhí)行人記錄、聯(lián)合懲戒記錄的企業(yè)視為失信企業(yè)。沒有上述信息的企業(yè)視為非失信企業(yè)。
3.排除規(guī)則
模型開發(fā)樣本應(yīng)具備群體代表性,而且必須有準確的預(yù)測信息和表現(xiàn)信息,才能使模型更加準確。因此對于一些特殊企業(yè),如已被注銷、吊銷的企業(yè),其行為無法預(yù)測,將不包含在評分模型開發(fā)中。
(二)建模數(shù)據(jù)準備
從全部數(shù)據(jù)中抽取兩類樣本:開發(fā)樣本和檢驗樣本。開發(fā)樣本時建立模型的實際數(shù)據(jù)集。檢驗樣本用于檢驗?zāi)P偷姆€(wěn)健性。本次共選取50萬家在業(yè)企業(yè)作為樣本數(shù)據(jù),70%為開發(fā)樣本,30%為驗證樣本。
(三)變量分析及選取
對影響企業(yè)信用綜合評價結(jié)果的因素進行逐一分析,計算WOE和IV值,判斷指標預(yù)測強度,刪除預(yù)測強度低的指標。以注冊資金為例做如下分析:
該變量是連續(xù)性變量,對其進行分箱處理,并進行WOE轉(zhuǎn)化,計算IV值,得到結(jié)果如表1。
IV為0.34,該變量預(yù)測強度高,可納入評價模型。經(jīng)過同樣的方法分析,納入模型的變量包括:注冊資本、成立年限、所屬行業(yè)、欠稅記錄條數(shù)、嚴重失信記錄條數(shù)、行政處罰條數(shù)、執(zhí)行案件記錄條數(shù)、法定代表人嚴重失信記錄條數(shù)、法定代表人執(zhí)行案件條數(shù)、關(guān)聯(lián)企業(yè)嚴重失信條數(shù)、關(guān)聯(lián)企業(yè)執(zhí)行案件記錄條數(shù)。
(四)模型的建立
將樣例數(shù)據(jù)中表現(xiàn)期有失信記錄的企業(yè)因變量設(shè)為1,無失信記錄的企業(yè)因變量設(shè)為0。將樣例數(shù)據(jù)導(dǎo)入SPSS軟件進行回歸分析,得到結(jié)果如表2。
根據(jù)上表的回歸結(jié)果,結(jié)合每個指標的分值權(quán)重,在確定好標準評分、標準ODDS和PDO后,按照上文的轉(zhuǎn)換公式和轉(zhuǎn)換步驟,最終得到模型評分卡。
(五)模型的評估
1.區(qū)分度指標驗證
以注冊資金為例,利用不保留樣本數(shù)據(jù)計算模型的K-S值和基尼系數(shù),以判斷模型的預(yù)測能力。按照該指標得分進行分段并由低到高排序,計算各分段失信企業(yè)占比累計與正常企業(yè)占比累計差值,K-S=MAX(失信企業(yè)占比累計-正常企業(yè)占比累計)。經(jīng)計算,各指標K-S值和基尼系數(shù)均在可接受范圍內(nèi)[5]。
2.群體穩(wěn)定度指標驗證
群體穩(wěn)定度指標(PSI)是用來衡量群體評分卡在開發(fā)群體時點與現(xiàn)行評分時點的評分對象的差異程度。按照PSI計算方法,各指標PSI計算結(jié)果顯示穩(wěn)定度均在中等以上,驗證合格。
四、結(jié)語
本次研究,主要是基于Logistic模型,利用目前已歸集的公共信用信息,構(gòu)建評價指標、建立評價模型。隨著公共信用信息歸集范圍不斷擴大,已經(jīng)數(shù)據(jù)的不斷積累,今后將定期評估、完善評價指標,用新數(shù)據(jù)定期迭代評級模型,不斷修正評分卡,并定期發(fā)布企業(yè)公共信用綜合評價結(jié)果。
參考文獻
[1]劉開元.隨機森林與邏輯回歸模型在違約預(yù)測中的應(yīng)用[J].信息與電腦(理論版),2016(21):111-112.
[2]阿明翰,張達敏,李偉.邏輯回歸在信用卡風險評估模型構(gòu)建中的應(yīng)用[J].內(nèi)江科技,2016(9):41-42.
[3]徐喆.邏輯回歸模型在互聯(lián)網(wǎng)金融P2P業(yè)務(wù)信用風險的應(yīng)用[J].統(tǒng)計科學與實踐,2015(11):26-29.
[4]姜明輝,許佩,任瀟,等.個人信用評分模型的發(fā)展及優(yōu)化算法分析[J].哈爾濱工業(yè)大學學報,2015(5):40-45.
[5]朱艷敏.基于信用評分模型的小微企業(yè)貸款的可獲得性研究[D].蘇州:蘇州大學,2014.
作者單位:江蘇省戰(zhàn)略與發(fā)展研究中心