顧一凡 黃莉媛 林晨欣 曹春萍
摘 ?要:為切實(shí)解決中小微企業(yè)貸款融資和銀行對中小微企業(yè)貸款策略之間存在的問題,提出了基于風(fēng)險(xiǎn)等級的中小微企業(yè)信貸模型。該模型創(chuàng)新性地將機(jī)器學(xué)習(xí)算法引入傳統(tǒng)中小微企業(yè)信貸風(fēng)險(xiǎn)及策略的研究當(dāng)中,運(yùn)用PCA降維、K-means聚類確定企業(yè)風(fēng)險(xiǎn)等級;通過Fisher線性判別確定銀行信貸利率。應(yīng)用該模型將123 家中小微企業(yè)分成五類風(fēng)險(xiǎn)等級,并給出銀行對五類不同風(fēng)險(xiǎn)等級企業(yè)的貸款額度及利率,并通過實(shí)驗(yàn)驗(yàn)證模型的有效性和正確性。
關(guān)鍵詞:K-means聚類;PCA降維;Fisher線性判別;信貸模型
中圖分類號:TP391 ? ? 文獻(xiàn)標(biāo)識碼:A
Research on the Credit Model of Small, Medium and
Micro Enterprises based on Risk Level
GU Yifan1, HUANG Liyuan2, LIN Chenxin2, CAO Chunping1
(1.School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2.Business School, University of Shanghai for Science and Technology, Shanghai 200093, China)
guyifan2020@126.com; 948384993@qq.com; 1246506991@qq.com; 2213893844@qq.com
Abstract: In order to effectively solve the problems between loan financing of small, medium and micro enterprises and the bank's loan strategy for them, this paper proposes to build a credit model for small, medium and micro enterprises based on risk level. This model innovatively introduces machine learning algorithms into the research on credit risks and strategies of traditional small, medium and micro enterprises. PCA (Principal Components Analysis) dimensionality reduction and K-means clustering are used to determine enterprise risk level. Bank credit interest rate is determined by Fisher linear discriminant. Based on this model, 123 small, medium and micro enterprises are divided into five risk levels, and the bank's loan lines and interest rates for each level are given. Validity and accuracy of the model are verified through experiments.
Keywords: K-means clustering; PCA dimensionality reduction; Fisher linear discriminant; credit model
1 ? 引言(Introduction)
中小微企業(yè)作為我國宏觀經(jīng)濟(jì)的“毛細(xì)血管”,貢獻(xiàn)了我國80%的就業(yè)崗位和60%的GDP[1-2]。但中小微企業(yè)自身資金實(shí)力弱,若想發(fā)展就需要獲得銀行提供的貸款支持,而銀行放貸首要考慮的是貸款資金的安全,因此銀行放貸資金安全與中小微企業(yè)貸款需求之間的矛盾便成為一個亟待解決的問題。
目前,銀行為了解決這一問題,采取了如下策略:對中小微企業(yè)進(jìn)行風(fēng)險(xiǎn)評估,對于風(fēng)險(xiǎn)等級在一定標(biāo)準(zhǔn)下的企業(yè),給予放貸。在鄭建華等[3]提出的研究企業(yè)信用評級模型中,使用了層次分析法進(jìn)行評級模型的構(gòu)建。在郝曉露等[4]提出的商業(yè)銀行貸款的研究中,使用了灰色預(yù)測模型對貸款利率進(jìn)行了預(yù)測。王薛[5]使用了AHP——模糊綜合評價(jià)農(nóng)村信用社農(nóng)戶貸款風(fēng)險(xiǎn)模型。仔細(xì)分析上述模型可以發(fā)現(xiàn),每個模型都涉及大量計(jì)算和推斷。計(jì)算機(jī)在大量數(shù)據(jù)的計(jì)算中表現(xiàn)出了極大的優(yōu)勢,所以構(gòu)建基于計(jì)算機(jī)的信貸模型成為目前的研究熱點(diǎn)。
本文在鄭建華等相關(guān)工作的基礎(chǔ)上,創(chuàng)新性地將機(jī)器學(xué)習(xí)算法引入對中小微企業(yè)貸款風(fēng)險(xiǎn)的研究當(dāng)中。針對這一問題,提出了基于中小微企業(yè)風(fēng)險(xiǎn)評估等級的銀行貸款模型。該模型首先從企業(yè)原始發(fā)票信息中提取若干指標(biāo);其次通過對指標(biāo)進(jìn)行降維,對企業(yè)進(jìn)行聚類,劃分出企業(yè)風(fēng)險(xiǎn)等級;最后根據(jù)企業(yè)對應(yīng)的風(fēng)險(xiǎn)等級,通過構(gòu)建貸款額度與貸款利率的計(jì)算模型,為銀行制定相應(yīng)的貸款策略。
2 企業(yè)風(fēng)險(xiǎn)等級確定(Enterprise risk level determination)
從123 家企業(yè)的進(jìn)項(xiàng)、銷項(xiàng)發(fā)票記錄中提取信息,定義10 個原始風(fēng)險(xiǎn)評價(jià)指標(biāo)[6-7]。將這10 個原始風(fēng)險(xiǎn)評價(jià)指標(biāo)通過PCA降維,得到三個降維之后的評價(jià)指標(biāo),既保留了原始數(shù)據(jù)的絕大部分信息,又極大簡化了后續(xù)的計(jì)算量。最后,根據(jù)三個降維之后的評價(jià)指標(biāo),通過K-means聚類,將原123 家企業(yè)分為五個風(fēng)險(xiǎn)等級,為后續(xù)銀行信貸策略的確定提供依據(jù)。
2.1 ? 原始評價(jià)指標(biāo)定義
從123 家企業(yè)的進(jìn)項(xiàng)、銷項(xiàng)發(fā)票記錄中,提取并定義企業(yè)實(shí)力及企業(yè)信譽(yù)兩大類共10 個評價(jià)指標(biāo)。
企業(yè)實(shí)力評價(jià)指標(biāo)如下定義:
:企業(yè)有效銷售次數(shù);
:企業(yè)有效進(jìn)貨次數(shù);
:企業(yè)供應(yīng)穩(wěn)定性,即有效進(jìn)貨次數(shù)與總體進(jìn)貨次數(shù)的比值;
:企業(yè)銷售穩(wěn)定性,即有效銷售次數(shù)與總體銷售次數(shù)的比值;
:企業(yè)進(jìn)貨規(guī)模,即進(jìn)項(xiàng)金額總和(營業(yè)成本);
:企業(yè)銷售規(guī)模,即銷項(xiàng)金額總和(營業(yè)收入);
:企業(yè)對上游企業(yè)的影響力,即企業(yè)銷方銷售總額;
:企業(yè)對下游企業(yè)的影響力,即企業(yè)購方采購總額。
企業(yè)信譽(yù)評價(jià)指標(biāo)如下定義:
:企業(yè)信用評級,即將企業(yè)A、B、C、D四檔原始信用評級折算為4321分值;
:企業(yè)違約情況,即若企業(yè)有違約記錄,則該指標(biāo)為1,否則為0。
2.2 ? 基于PCA降維對原始指標(biāo)進(jìn)行簡化
主成分分析通過正交變換的方法,將原始線性相關(guān)的觀測數(shù)據(jù)轉(zhuǎn)變?yōu)槿舾蓚€線性無關(guān)變量表示的數(shù)據(jù)[8]。線性無關(guān)的變量稱為主成分。如此,將原來高維空間中的數(shù)據(jù)映射到低維空間,降低了計(jì)算復(fù)雜度。同時(shí),保留了原始數(shù)據(jù)中的大部分信息,實(shí)現(xiàn)了數(shù)據(jù)降維的功能。
如上10 個指標(biāo)覆蓋了123 家企業(yè)各個方面的信息,可以較為全面地量化其內(nèi)在的風(fēng)險(xiǎn)。但由于這10 個原始指標(biāo)所構(gòu)成的高維數(shù)據(jù)不便于觀察和計(jì)算,所以采用PCA降維對原始高維指標(biāo)進(jìn)行降維。通過計(jì)算10 個信貸風(fēng)險(xiǎn)指標(biāo)之間的相關(guān)系數(shù)矩陣,再求解相關(guān)系數(shù)矩陣的特征值與特征向量。將特征向量對應(yīng)主成分的特征值與全體特征向量對應(yīng)主成分的特征值之和的比值定義為信息貢獻(xiàn)率,選取前三個貢獻(xiàn)率最大的主成分,其貢獻(xiàn)率依次為34.85%、20.22%、13.42%,累積貢獻(xiàn)率達(dá)68.49%,可以最大程度保留原始10 個指標(biāo)中所包含的企業(yè)內(nèi)在風(fēng)險(xiǎn)的信息,又能解決高維指標(biāo)數(shù)據(jù)不便于觀察計(jì)算的問題。
其中第一主成分為:
(1)
第二主成分為:
(2)
第三主成分為:
(3)
將式(1)第一主成分定義為企業(yè)交易規(guī)模指標(biāo),式(2)第二主成分定義為企業(yè)信譽(yù)指標(biāo),式(3)第三主成分定義為企業(yè)盈利能力指標(biāo)。從三個維度重新審視企業(yè)內(nèi)在的風(fēng)險(xiǎn)等級。
2.3 ? 基于K-means確定123 家企業(yè)的風(fēng)險(xiǎn)等級
K均值聚類是常用的聚類算法。在未知數(shù)據(jù)特征標(biāo)簽的情況下,將各項(xiàng)指標(biāo)接近的樣本點(diǎn)聚成一類[9]。首先,由已確認(rèn)的分類個數(shù)選擇個數(shù)據(jù)對象作為初始聚類中心;然后將其余樣本點(diǎn)分配到與之最近的聚類中心所在的類中;進(jìn)而更新每個類中樣本點(diǎn)的均值作為下一次更新的聚類中心。如此往復(fù)迭代,直至聚類結(jié)果收斂為止。K-means算法流程如圖1所示。
將簡化后的指標(biāo)作為訓(xùn)練數(shù)據(jù),通過K-means聚類,將123 家企業(yè)聚類成不同風(fēng)險(xiǎn)等級的類別。選取=5,將原始123 家企業(yè)依據(jù)降維之后的三個指標(biāo)分成五個風(fēng)險(xiǎn)等級:高風(fēng)險(xiǎn)企業(yè)、較高風(fēng)險(xiǎn)企業(yè)、中等風(fēng)險(xiǎn)企業(yè)、較低風(fēng)險(xiǎn)企業(yè)、低風(fēng)險(xiǎn)企業(yè)。以此完成對123 家企業(yè)風(fēng)險(xiǎn)等級的確定。
3 ? 銀行信貸模型(Bank credit model)
銀行信貸模型分成銀行信貸額度確定和銀行信貸利率確定兩大部分。依據(jù)企業(yè)有效進(jìn)貨次數(shù)等三個指標(biāo),通過Fisher線性判別預(yù)測企業(yè)信貸違約概率。根據(jù)企業(yè)信貸違約概率建立銀行信貸額度求解模型。同時(shí),依據(jù)銀行信貸利率與不同信譽(yù)等級下的客戶流失率的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)據(jù)擬合,再結(jié)合企業(yè)信貸違約率等相關(guān)數(shù)據(jù),建立銀行信貸利率求解模型。
3.1 ? 基于Fisher線性判別的企業(yè)違約率預(yù)測[10]
Fisher線性判別是一種經(jīng)典線性判別方法,適用于二分類問題。其核心思想為訓(xùn)練一組樣本點(diǎn),將樣本點(diǎn)投影到一條直線上,使得同類樣本點(diǎn)的投影點(diǎn)盡可能密集接近,使得異類樣本點(diǎn)的投影點(diǎn)盡可能遠(yuǎn)離。最終訓(xùn)練出一個模型進(jìn)行線性判別預(yù)測,同時(shí)給出樣本點(diǎn)所屬對應(yīng)兩個類別的概率。
由于無法從企業(yè)過往違約情況中直接得到企業(yè)未來貸款償還的違約率,故采用Fisher線性判別,基于企業(yè)有效進(jìn)貨次數(shù)、有效銷售次數(shù)、企業(yè)信用評級作為訓(xùn)練數(shù)據(jù)訓(xùn)練模型。將企業(yè)未來是否違約轉(zhuǎn)化為一個二分類預(yù)測問題,即將企業(yè)劃分為未來會違約的組別和未來不會違約的組別,將預(yù)測結(jié)果與企業(yè)過往違約情況進(jìn)行比對,得到得分模型:
(4)
若得分>0,則將該企業(yè)預(yù)測為不違約;反之,則將該企業(yè)預(yù)測為違約。由于樣本點(diǎn)的分類存在屬于對應(yīng)類別的概率,故將樣本點(diǎn)屬于違約類別的概率定義為該企業(yè)的違約概率,將該樣本點(diǎn)屬于未違約類別的概率定義為該企業(yè)的不違約概率。
3.2 ? 銀行信貸額度的確定[11]
原則上不為信譽(yù)評級為D的企業(yè)發(fā)放貸款,故額度模型的建立及之后的計(jì)算中,自動剔除信譽(yù)評級為D的企業(yè)。設(shè)銀行年度貸款總額為固定常數(shù)元,計(jì)算同一風(fēng)險(xiǎn)等級企業(yè)的平均貸款額度為:
(5)
其中,為級企業(yè)的平均不違約概率,為級下企業(yè)總數(shù)(不包括信譽(yù)評級為D的企業(yè))。
3.3 ? 銀行信貸利率的確定[12]
本文貸款利率求解步驟如下:
步驟1:根據(jù)銀行貸款年利率與不同信譽(yù)等級下客戶流失率的統(tǒng)計(jì)數(shù)據(jù),進(jìn)行對數(shù)函數(shù)形式的曲線擬合,得到如式(6)所示的銀行客戶流失率與貸款年利率之間的函數(shù)關(guān)系。
(6)
其中,表示第類風(fēng)險(xiǎn)等級且信譽(yù)等級為的企業(yè)的流失率,表示第類風(fēng)險(xiǎn)的貸款年利率。由于不包含風(fēng)險(xiǎn)等級為D的企業(yè),故如上函數(shù)中,沒有的函數(shù)關(guān)系式。
步驟2:可表示為第類風(fēng)險(xiǎn)等級且信譽(yù)等級為的企業(yè)的留存率,將式(6)代入,則第類風(fēng)險(xiǎn)等級企業(yè)的總體流失率如式(7)所示。
(7)
其中,表示第類風(fēng)險(xiǎn)等級且信譽(yù)等級為的企業(yè)個數(shù)。
步驟3:以為決策變量建立如式(8)所示非線性規(guī)劃模型。
(8)
其中,為第類風(fēng)險(xiǎn)等級的企業(yè)貸款利率,目標(biāo)函數(shù)表示銀行的總收入,表示給第類風(fēng)險(xiǎn)等級企業(yè)貸款的總額度,企業(yè)貸款利率的約束條件為4%至15%。
通過對式(8)非線性規(guī)劃函數(shù)模型在約束條件下求解,可以得到在風(fēng)險(xiǎn)可控的情況下,在貸款利潤最大化的前提下,銀行貸給不同風(fēng)險(xiǎn)等級企業(yè)的各自貸款利率。再結(jié)合由式(5)計(jì)算得到的不同風(fēng)險(xiǎn)等級下,銀行給企業(yè)貸款的額度,可以完整給出銀行對于不同風(fēng)險(xiǎn)等級下的企業(yè)的貸款策略。由于同一風(fēng)險(xiǎn)等級下企業(yè)的風(fēng)險(xiǎn)情況近似相等,故按照風(fēng)險(xiǎn)等級組別給出策略,可以極大降低放貸的復(fù)雜程度,同時(shí)保證風(fēng)險(xiǎn)可控。
4 ? 實(shí)驗(yàn)驗(yàn)證(Experiment verification)
4.1 ? 實(shí)驗(yàn)數(shù)據(jù)集
本次研究所用數(shù)據(jù)集包括四個:企業(yè)信息數(shù)據(jù)集、進(jìn)項(xiàng)發(fā)票信息數(shù)據(jù)集、銷項(xiàng)發(fā)票信息數(shù)據(jù)集,以及銀行貸款年利率與不同信譽(yù)等級下的客戶流失率的統(tǒng)計(jì)數(shù)據(jù)集。其中,企業(yè)信息數(shù)據(jù)集包括123 家企業(yè)的企業(yè)代號、企業(yè)名稱、企業(yè)信用評級以及企業(yè)歷史違約情況。企業(yè)進(jìn)項(xiàng)發(fā)票數(shù)據(jù)集、銷項(xiàng)發(fā)票數(shù)據(jù)集分別包含123 家企業(yè)采購及銷售時(shí)所開發(fā)票的記錄,記錄中包括發(fā)票號碼、開票日期、銷方單位代號、購方單位代號、金額、稅額、價(jià)稅合計(jì)和發(fā)票狀態(tài)。銀行貸款年利率與不同信譽(yù)等級下的客戶流失率的統(tǒng)計(jì)數(shù)據(jù)集包括貸款年利率對應(yīng)于不同信譽(yù)評級的企業(yè)的客戶流失率的統(tǒng)計(jì)數(shù)據(jù)。
4.2 ? 計(jì)算原始指標(biāo)
對企業(yè)信譽(yù)及實(shí)力的10 個原始評價(jià)指標(biāo)進(jìn)行計(jì)算。同時(shí),為了消除不同指標(biāo)之間量綱的影響,對每個評價(jià)指標(biāo)進(jìn)行極大值標(biāo)準(zhǔn)化。部分企業(yè)信貸風(fēng)險(xiǎn)指標(biāo)評分結(jié)果如表1所示。
4.3 ? 基于降維后的指標(biāo)對企業(yè)進(jìn)行不同風(fēng)險(xiǎn)等級的聚類實(shí)驗(yàn)及結(jié)果分析
基于降維后的三個指標(biāo)對123 家企業(yè)進(jìn)行聚類,值為5。不同風(fēng)險(xiǎn)等級企業(yè)聚類結(jié)果如圖2所示。
123 家企業(yè)根據(jù)企業(yè)交易規(guī)模指標(biāo)、企業(yè)信譽(yù)指標(biāo)、企業(yè)盈利能力指標(biāo)聚成五類,依次為:低風(fēng)險(xiǎn)企業(yè)共1 家,較低風(fēng)險(xiǎn)企業(yè)共7 家,中等風(fēng)險(xiǎn)企業(yè)共86 家,較高風(fēng)險(xiǎn)企業(yè)共2 家,高風(fēng)險(xiǎn)企業(yè)共27 家。通過比對對應(yīng)企業(yè)原始10 個指標(biāo),其聚類結(jié)果與實(shí)際情況基本一致。
4.4 ? 企業(yè)信貸違約率計(jì)算的實(shí)驗(yàn)及結(jié)果分析
通過Fisher線性判別,根據(jù)式(4),對企業(yè)違約情況進(jìn)行預(yù)測,準(zhǔn)確率達(dá)77.2%。進(jìn)而計(jì)算企業(yè)違約概率與企業(yè)不違約概率,部分計(jì)算結(jié)果如表2所示。
4.5 ? 銀行信貸策略的實(shí)驗(yàn)及結(jié)果分析
通過對貸款額度模型式(5)及貸款利率模型式(8)的求解,得到對五類風(fēng)險(xiǎn)等級企業(yè)的貸款策略,完整貸款策略如表3所示。
其中,a為銀行放貸的總額度。對于風(fēng)險(xiǎn)較低的企業(yè)類別,可以獲得較大的貸款額度,同時(shí)享受較低的貸款利率;而對于風(fēng)險(xiǎn)較高的企業(yè),則在獲得較低貸款額度的同時(shí),需
要支付較高的貸款利率。這與實(shí)際情況相符,亦證明了模型的可行性與有效性。
5 ? 結(jié)論(Conclusion)
本研究通過對123 家中小微企業(yè)的進(jìn)項(xiàng)、銷項(xiàng)發(fā)票數(shù)據(jù)進(jìn)行研究,得出評價(jià)其風(fēng)險(xiǎn)等級的10 個原始指標(biāo)。通過PCA降維、K-means聚類等機(jī)器學(xué)習(xí)常用技術(shù),將123 家企業(yè)劃分成五類風(fēng)險(xiǎn)等級,并根據(jù)有效進(jìn)貨次數(shù)、有效銷售次數(shù)和企業(yè)信譽(yù)等指標(biāo)進(jìn)行Fisher線性判別預(yù)測,計(jì)算得出不同風(fēng)險(xiǎn)等級下,企業(yè)的平均違約率及貸款額度。繼而根據(jù)銀行年利率與客戶流失率的統(tǒng)計(jì)數(shù)據(jù)信息,構(gòu)建銀行貸款收入的非線性優(yōu)化模型。通過對非線性優(yōu)化模型的求解,得出銀行對不同風(fēng)險(xiǎn)等級下企業(yè)的貸款利率。
參考文獻(xiàn)(References)
[1] 梁鈺.新冠肺炎疫情下小微企業(yè)融資支持舉措效果評估及改進(jìn)建議——基于湖南岳陽的調(diào)查[J].金融經(jīng)濟(jì),2020(10):58-61,72.
[2] 鐘成林,胡雪萍.中小民營企業(yè)融資困境的形成機(jī)理及政策支持體系研究——基于群體性與個體性金融聲譽(yù)交互作用視角[J].社會科學(xué),2019(05):50-58.
[3] 鄭建華,黃灝然,李曉龍.基于大數(shù)據(jù)小微企業(yè)信用評級模型研究[J].技術(shù)經(jīng)濟(jì)與管理研究,2020(07):22-26.
[4] 郝曉露,高巍.商業(yè)銀行貸款分配及盈利最大化的計(jì)量探析[J].湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào)(人文社會科學(xué)版),2019,16(09):48-51.
[5] 王薛.農(nóng)村信用社農(nóng)戶貸款風(fēng)險(xiǎn)評價(jià)與控制研究[D].保定:華北電力大學(xué),2007.
[6] 房斌.P銀行小微企業(yè)信貸風(fēng)險(xiǎn)評價(jià)體系研究[D].西安:西安石油大學(xué),2020.
[7] 陳琳,季凌.基于數(shù)據(jù)挖掘的中小企業(yè)客戶信用評級模型的設(shè)計(jì)與實(shí)現(xiàn)[J].海峽科技與產(chǎn)業(yè),2019(01):176-178.
[8] 趙薔.主成分分析方法綜述[J].軟件工程,2016,19(06):1-3.
[9] TANG J L, ZHANG Z G, WANG D, et al. Research on weeds identification based on K-means feature learning[J]. Soft Computing, 2018, 22(22):7649-7658.
[10] 徐曉萍,馬文杰.非上市中小企業(yè)貸款違約率的定量分析——基于判別分析法和決策樹模型的分析[J].金融研究,2011(03):111-120.
[11] 遲國泰,龔玲玲.商戶小額貸款決策模型[J].技術(shù)經(jīng)濟(jì),2016,35(04):98-103.
[12] 牟太勇.基于信用風(fēng)險(xiǎn)評估的商業(yè)銀行貸款定價(jià)研究[D].成都:電子科技大學(xué),2007.
作者簡介:
顧一凡(2000-),男,本科生.研究領(lǐng)域:機(jī)器學(xué)習(xí).
黃莉媛(1999-),女,本科生.研究領(lǐng)域:金融學(xué).
林晨欣(2000-),女,本科生.研究領(lǐng)域:金融生態(tài).
曹春萍(1968-),女,碩士,副教授.研究領(lǐng)域:智能數(shù)據(jù)處理,個性化服務(wù).