張子越
摘要:文章針對中小微企業(yè)信貸問題進(jìn)行建模求解分析,構(gòu)建了基于優(yōu)化的隨機(jī)森林算法構(gòu)建的信貸策略模型,將發(fā)票的進(jìn)銷賬目、供求關(guān)系和企業(yè)信譽(yù)作為自變量,將企業(yè)實力評估和判斷是否提供貸款作為因變量。結(jié)合模型并綜合考慮銀行的收益,結(jié)合額度和年利率數(shù)據(jù),確定各企業(yè)所能擁有的最大額度的放款,列出對企業(yè)放款的優(yōu)先級排序。根據(jù)模型求解得出信貸策略為根據(jù)信譽(yù)等級ABC以及是否違約得出年利率和信貸額度分別為6.82%,95萬元,8.95%,85萬元,10.53%,70萬元。文章主要的創(chuàng)新點在于針對數(shù)據(jù)維數(shù)過高,無關(guān)特征對檢測結(jié)果產(chǎn)生干擾的問題,提出了一種基于隨機(jī)森林的特征重要度特征選擇方法,能夠給中小微企業(yè)信貸問題提供方法參考。
關(guān)鍵詞:中小微企業(yè);信貸策略;隨機(jī)森林;信貸額度
中小微企業(yè)融資一直是世界性難題,信息不透明、主體分散且缺乏標(biāo)準(zhǔn)化,這些特點意味著小微企業(yè)的經(jīng)營風(fēng)險很高,更是造成銀行不敢貸、不愿貸的主要原因。由于中小微企業(yè)規(guī)模小和資產(chǎn)較少,也缺少抵押資產(chǎn),因此銀行通常是依據(jù)信貸政策、企業(yè)的交易票據(jù)信息和上下游企業(yè)的影響力,向?qū)嵙?qiáng)、供求關(guān)系穩(wěn)定的企業(yè)提供貸款,并可以對信譽(yù)高、信貸風(fēng)險小的企業(yè)給予利率優(yōu)惠,是政府重點扶持的對象。政府通過銀行對信譽(yù)高、風(fēng)險小的企業(yè)給予貸款政策優(yōu)惠,為評定不同企業(yè)的貸款方式,需建立中小微企業(yè)的信貸決策模型。
一、基于隨機(jī)森林的模型構(gòu)建
(一)數(shù)據(jù)預(yù)處理
在訓(xùn)練模型之前,首先要進(jìn)行特征提取從而最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用,并使用python中的sklearn提供了較為完整的特征處理方法,包括數(shù)據(jù)預(yù)處理、特征選擇、降維等。本文中使用特征提取的原因是各表格中數(shù)據(jù)零散,無法進(jìn)行直觀分析,需要通過提取特征值,對數(shù)據(jù)進(jìn)行子集的劃分,進(jìn)而得到指標(biāo),在構(gòu)造的特征中篩選出最能刻畫研究問題的特性,也就是特征選擇,便于模型的訓(xùn)練和預(yù)測。
首先對數(shù)據(jù)進(jìn)行刪除無用數(shù)據(jù)處理(見表1)。
對各企業(yè)的進(jìn)項發(fā)票和銷項發(fā)票數(shù)據(jù)進(jìn)行合計,錄入為“進(jìn)貨價稅合計”和“銷售價稅合計”兩類新數(shù)據(jù)用于判斷企業(yè)的資金流動量,數(shù)據(jù)處理的代碼和結(jié)果如表2所示。
(二)隨機(jī)森林算法原理
隨機(jī)森林是在bagging算法的基礎(chǔ)之上進(jìn)行了一些小的改動,首先隨機(jī)從原始數(shù)據(jù)集中隨機(jī)抽取m個子樣本,而且在訓(xùn)練每個基學(xué)習(xí)器的時候,不是從所有特征中選擇最優(yōu)特征來進(jìn)行節(jié)點的切分,而是隨機(jī)選取k個特征,從這k個特征中選擇最優(yōu)特征來切分節(jié)點,從而更進(jìn)一步降低了模型的方差。而后隨機(jī)森林使用的基學(xué)習(xí)器是CART決策樹。隨機(jī)森林隨機(jī)選擇的樣本子集大小m越小模型的方差就會越小,但是偏差會越大,在實際應(yīng)用中,一般會通過交叉驗證的方式來調(diào)參,從而獲取一個合適的樣本子集的大小。故隨機(jī)森林除了其學(xué)習(xí)器使用CART決策樹和特征的隨機(jī)選擇以外,其他方面與bagging方法相似(見圖1)。
最終的分類結(jié)果如式(1)所示:
本文將“是否違約”作為第一屬性值,對根節(jié)點“企業(yè)代號”進(jìn)行劃分成“非葉子結(jié)點123……”,并對違約的企業(yè)進(jìn)行“NO”處理;再對劃分出的“非葉子結(jié)點”依據(jù)“企業(yè)的信譽(yù)等級ABCD”繼續(xù)向下劃分,直到不能再依據(jù)屬性值判定,成為葉子結(jié)點。
(三)指標(biāo)計算
根據(jù)公式對其他指標(biāo)進(jìn)行計算處理,將用到的公式如下所示:
結(jié)合python中panda和numphy算法對數(shù)據(jù)進(jìn)行特征提取,得到處理后結(jié)果(見表3)。
二、模型求解過程
信貸策略提供首先需要對信貸風(fēng)險進(jìn)行量化分析。對于貸款額度和利率,僅從企業(yè)的信譽(yù)評級和信譽(yù)層面考慮分配是不合理的,還需要考慮銀行的總收益。本文需要從發(fā)票的總金額、開票的頻率是否異常、發(fā)票的作廢比例、發(fā)票的金額波動是否正常多個指標(biāo)對企業(yè)實力進(jìn)行觀察,從發(fā)票周期、進(jìn)項發(fā)票信息和銷項發(fā)票信息對銀行的總收益進(jìn)行觀察。在完成提取指標(biāo)后,利用“隨機(jī)森林”算法對指標(biāo)進(jìn)行處理。最后,將處理結(jié)果的數(shù)據(jù)按照放款順序自上而下的優(yōu)先級進(jìn)行排序,然后在固定總額的前提下,按照優(yōu)先級分配。
選取數(shù)據(jù)中的特征值作為訓(xùn)練數(shù)據(jù),企業(yè)風(fēng)險ABCD作為訓(xùn)練標(biāo)簽,構(gòu)建出隨機(jī)森林對應(yīng)模型。分析統(tǒng)計銀行等級數(shù)據(jù),綜合分析計算得出企業(yè)信譽(yù)分別為ABC時的年利率及額度(見表4)。
根據(jù)前面處理的數(shù)據(jù)得到企業(yè)的風(fēng)險評級結(jié)果,進(jìn)行模型求解,并給出企業(yè)信譽(yù)等級與年利率之間的關(guān)系如圖2所示。
三、隨機(jī)森林模型的分析
在對特征值進(jìn)行隨機(jī)森林算法處理之后,數(shù)據(jù)的回歸性如表5所示:其中,Accuracy表示回歸結(jié)果的準(zhǔn)確性,Macro avg表示算數(shù)平均值,Weighted avg表示加權(quán)平均值,Pricision表示精確度,Recall表示召回率,即是否符合該模型0或1條件下的線形數(shù)據(jù)處理,Support表示在該模型下的可滿足條件的企業(yè)數(shù),數(shù)據(jù)處理的代碼和結(jié)果如表5所示。
對該結(jié)果進(jìn)行雙重檢驗:1.與實際中銀行貸款額度相比,結(jié)果中的貸款額度處在正常范圍;2.對算法進(jìn)行檢驗,沒有問題且運(yùn)行正確,數(shù)據(jù)正確可信。綜上可知,該模型具有結(jié)果可靠性,可以為銀行解決信道分配策略問題。
四、結(jié)語
本文通過構(gòu)建基于優(yōu)化的隨機(jī)森林算法構(gòu)建的信貸策略模型,選取進(jìn)銷賬目、供求關(guān)系和企業(yè)信譽(yù)作為自變量和企業(yè)實力評估和判斷是否提供貸款作為因變量。確定各企業(yè)所能擁有的最大額度的放款,列出對企業(yè)放款的優(yōu)先級排序。模型得出的結(jié)果中,99.9%不相關(guān)的樹得出的預(yù)測結(jié)果涵蓋所有的情況,這些預(yù)測結(jié)果將會彼此抵消。少數(shù)優(yōu)秀的預(yù)測結(jié)果會顯現(xiàn)出主要決定作用,從而得出優(yōu)良的預(yù)測結(jié)果。根據(jù)模型求解得出信貸策略為根據(jù)信譽(yù)等級ABC以及是否違約得出年利率和信貸額度分別為6.82%,95萬元,8.95%,85萬元,10.53%,70萬元。
參考文獻(xiàn):
[1]汪政元.基于優(yōu)化的隨機(jī)森林方法的企業(yè)信用風(fēng)險評價研究[D].廣州:暨南大學(xué),2017.
[2]單光年.大數(shù)據(jù)背景下商業(yè)銀行信貸風(fēng)險管理策略研究[J].商業(yè)經(jīng)濟(jì),2020(08):164-165.
[3]于立勇,詹捷輝.基于Logistic回歸分析的違約概率預(yù)測研究[J].財經(jīng)研究,2004(09):15-23.
[4]朱沁.F市農(nóng)商銀行信用風(fēng)險管理研究[D].南昌:江西財經(jīng)大學(xué),2020.
[5]馬琬清.新冠疫情對中國宏觀經(jīng)濟(jì)的影響分析[J].湖北經(jīng)濟(jì)學(xué)院學(xué)報(人文社會科學(xué)版),2020,17(09):34-37.
[6]鄧偉.基于KMV模型的信用風(fēng)險評估研究——以制造業(yè)上市公司為例[J].現(xiàn)代營銷(信息版),2020(07):18-19.
[7]胡寧,方蘭婷,秦中元.基于隨機(jī)森林和深度的自編碼高斯混合模型的無監(jiān)督入侵檢測方法[J].網(wǎng)絡(luò)空間安全,2020,11(08):40-44+50.
[8]劉玲,鄭建國.一種基于隨機(jī)森林的組合分類算法設(shè)計與應(yīng)用[J].電子設(shè)計工程,2020,28(16):54-57.
(作者單位:淮北師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院)