江萍萍,鄭瑞坤
(湖北工業(yè)大學理學院,湖北 武漢 430068)
世界銀行將那些被中央銀行監(jiān)管控制的金融活動定義為正規(guī)金融[1],非正規(guī)金融則相對應于正規(guī)金融而言,當前學術界對其并沒有明確的說法。國外學者認為非正規(guī)金融是除銀行信貸、股票及債券市場等金融活動之外的融資機制[2],而國內學者則視之為民間借貸[3-4]。我國的金融制度和體系尚未完善,非正規(guī)金融與正規(guī)金融在不同因素沖擊下表現(xiàn)出互補或替代關系[5],兩者缺一不可。非正規(guī)金融可以有效降低農(nóng)村居民陷入貧困的可能性[6],也提高了我國的經(jīng)濟效率,為民間金融逐步陽光化提供了保障[7],但其發(fā)展過程中也產(chǎn)生了一系列風險問題,甚至會干擾到金融市場秩序的穩(wěn)定和國家宏觀政策的調控[8]。近10年來,我國P2P行業(yè)高速發(fā)展的背后卻衍生出異化的模式[9],網(wǎng)貸市場的監(jiān)管缺失與非理性羊群行為導致眾多金融亂象,加劇了金融脆弱性,這也凸顯了健全外部監(jiān)管體制和完善平臺內部運營機制的緊迫性[10]。然而,P2P行業(yè)作為我國非正規(guī)金融市場的特殊組成部分,業(yè)務覆蓋到傳統(tǒng)金融觸及不到的借款人和投資人,不僅彌補了我國傳統(tǒng)金融機構的市場空白,還幫助一部分小微企業(yè)解決了融資問題。據(jù)“網(wǎng)貸之家”網(wǎng)貸資訊平臺的研究報告顯示,P2P行業(yè)的累計成交量在2019年6月底達到8.6萬億元。與此同時,湖南、山東、重慶等地區(qū)對轄區(qū)內的P2P網(wǎng)貸業(yè)務全部予以取締,致使投資風險陡然加劇。本文基此,以P2P網(wǎng)貸行業(yè)為例,分析影響非正規(guī)金融在運營過程中的各種風險因素,為其良性發(fā)展提供決策依據(jù)。
國外學者從P2P內部運營特征探究風險影響因素,認為盈利能力高、流動性高和資產(chǎn)規(guī)模大的平臺不易發(fā)生違約風險,而高負債和高杠桿的項目違約風險較高[11],國內學者主要采用Cox比例風險模型,以及邏輯回歸模型、支持向量機等對平臺風險進行測評[12-14]。本文的非正規(guī)金融風險因素的評估方法,除了識別非正規(guī)金融的風險,還需要對重要風險因素進行評估。國內學者在評價地下水水質、地表灰塵重金屬污染,以及精準識別貧困等問題時[15-18],普遍采用隨機森林模型,這一方面可以對問題實現(xiàn)分類預測功能,另一方面又可對各變量的重要性進行度量。因此,使用隨機森林模型來識別P2P網(wǎng)貸平臺是否存在問題并度量關鍵風險因素。
數(shù)據(jù)來源于“網(wǎng)貸之家”官方網(wǎng)站。該網(wǎng)站創(chuàng)辦于2011年10月,是當前國內較為權威的第三方網(wǎng)貸機構。運用Python爬蟲從網(wǎng)頁爬取了2018年6—11月共6個月的月度成交數(shù)據(jù)以及平臺狀態(tài)(正常平臺與問題平臺)。每組數(shù)據(jù)包含四個維度的指標:“成交量”維度的指標包含成交量、平均預期收益率、平均借款期限、待還余額;“人氣”維度的指標包含投資人數(shù)、人均投資金額、滿標用時、前十大投資者待收金額占比;“平臺運營”維度的指標包含注冊資本、資金凈流入、運營時間;“分散性”維度的指標包含借款標數(shù)、借款人數(shù)、人均借款金額以及前十大借款人待還金額占比。四個維度下共有15個特征指標(表1)。
表1 風險特征指標及含義
對表1中代表風險特征的指標進行預處理。刪除缺失值后,得到共計370個平臺的1790組成交數(shù)據(jù);將平臺狀態(tài)分為正常平臺和問題平臺兩類,每組數(shù)據(jù)包含15個風險特征指標和1個平臺類別指標。
以P2P平臺為例,隨機森林模型的風險識別過程(圖1)包括以下三個步驟。
1)運用Bootstrap方法在初始P2P平臺訓練集中重復抽出n個平臺訓練集,每個訓練集的樣本容量與網(wǎng)貸平臺原訓練集一致,未被抽中的樣本組成平臺測試集,稱作袋外數(shù)據(jù)OOB(Out of Bag)。這部分數(shù)據(jù)用來檢驗模型的預測識別效果。
2)分別對上述n個網(wǎng)貸平臺訓練集選擇最優(yōu)的風險因素作為分裂屬性,得到n個決策樹模型。使用R軟件生成決策樹的過程中,有影響模型準確性的重要參數(shù),它們分別是mtry和ntree。mtry表示節(jié)點中用于二叉樹的變量個數(shù),即風險指標的個數(shù),該值是從1至15逐一嘗試,直到所對應的模型誤判概率達到最低;ntree表示隨機森林所包含的決策樹數(shù)目,可通過圖形大致判斷模型誤差穩(wěn)定時的ntree值。
3)將k個決策樹的結果進行組合,基于樹分類器投票的多少形成最終結果,即可對平臺的風險狀態(tài)進行識別。
圖1 隨機森林生成流程
使用MDA值(Mean Decrease Accuracy)計算風險指標的重要性。MDA具體計算過程如下:
1)用網(wǎng)貸平臺的測試集去測試已構建好的隨機森林模型,得到n棵樹的OOB誤差;
2)將平臺測試集中某個風險變量Q的值打亂,再次計算這n棵樹的OOB誤差;
3)對上述兩次OOB誤差的差值進行平均,得到單棵樹對風險變量Q的重要性值。
(1)
從式(1)看出,變量重要性與MDA值的變化方向相同。
對所有風險指標的數(shù)據(jù)特征進行分析,各統(tǒng)計量如表2所示。從標準差來看,除平均預期收益率和平均借款期限之外的各風險指標均波動較大;從峰度和偏度來看,各指標均呈現(xiàn)不同程度的尖峰厚尾和有偏的數(shù)據(jù)特征,并且僅平均預期收益率和運營時間兩個指標呈負偏態(tài)分布;另外,各指標的JB統(tǒng)計量和其對應的P值顯示,所有指標均拒絕正態(tài)分布的原假設。
表2 各指標基本統(tǒng)計量
本文中運用R軟件實現(xiàn)隨機森林分類過程。首先使用sample( )函數(shù)按0.7∶0.3的比例進行有放回抽樣,將網(wǎng)貸平臺數(shù)據(jù)集分為訓練集和測試集。對70%的訓練樣本進行訓練,選擇mtry(圖2)和ntree(圖3)的最佳數(shù)值以確定最終的隨機森林模型。
圖2 二叉樹變量個數(shù)及其誤判概率散點圖
圖3 決策樹數(shù)量及其對應模型誤差變化圖
由圖2通過對比可發(fā)現(xiàn),當二叉樹的個數(shù)即mtry=7時,模型誤差最??;繪制mtry=7的情況下模型誤差與決策樹數(shù)量之間的關系圖(圖3)可知,當ntree在2600左右時,模型內誤差保持相對穩(wěn)定狀態(tài),因此將ntree選定為2600。兩個重要參數(shù)值由此確定下來。
為了檢驗上述構建模型的分類預測效果,將測試集的數(shù)據(jù)代入模型中,測試集包含522組數(shù)據(jù),其中472組正常平臺數(shù)據(jù),50組問題平臺數(shù)據(jù),分類結果如表3所示。正常平臺的識別率達到93.43%,問題平臺的識別率達到80%,總體識別率是92.15%。模型識別效果較好,可用于風險重要因素識別。
表3 網(wǎng)貸平臺測試集預測分類結果
根據(jù)訓練集得到隨機森林模型,輸出各變量指標對應于正常平臺和問題平臺的重要性權重如表4所示,權重值越大表明該因素越重要。
從表4可以看到,對于正常平臺,運營時間、平均預期收益率、前十大借款人待還金額占比、待還余額等風險因素比較重要,兼顧這些因素的平臺一般擁有一定的人氣,也較為安全??偟膩碚f,需重點關注平臺運營、成交量、運營時間三個維度的風險因素。運營時間長的平臺風險管理水平較為成熟;平均預期收益率在正常范圍內波動,貸款資金較為分散使得平臺遭受違約風險的相對較低;待還余額在可承受范圍,平臺總體安全度較高。對于問題平臺,除了重點關注運營時間、平均預期收益率以及待還余額之外,還需關注人均投資金額和滿標用時這兩個人氣維度指標。問題平臺可能因運營時間不長,未能積累足夠人氣,期望通過提高收益率來吸引投資者從而增加借款對象,若因運營時間過短而未能積累一定的風險防御經(jīng)驗,易導致資金周轉不良等風險問題。
表4 平臺風險因素對應權重
MDA值衡量的是某個風險變量受到干擾時隨機森林模型準確率下降的程度,下降幅度越大則說明這個風險變量對模型的預測效果影響越大。測算結果見圖4。
圖4 MDA值及其對應風險因素的散點圖
若不區(qū)分問題平臺和正常平臺,總體考慮MDA值。從圖4可以看到,運營時間、平均預期收益率、待還余額、人均投資金額以及前十大借款人待還金額占比等風險因素的重要性較高,而借款人數(shù)和資金凈流入的重要程度較低,這也與表4的變量權重所展示的結果總體一致,說明風險因素識別具有可靠性。上述因素可以作為P2P網(wǎng)貸行業(yè)風險管理關注的內容。
以P2P網(wǎng)貸行業(yè)為例,運用網(wǎng)絡爬蟲方法收集數(shù)據(jù),并運用隨機森林分類方法,對非正規(guī)金融市場風險因素進行了研究。該方法對平臺風險有較好的識別效果,得到平臺的關鍵風險因素主要是運營時間、平均預期收益率、待還余額、人均投資金額以及前十大借款人待還余額占比等。對我國 P2P平臺的風險進行分析,可以有效幫助投資對象識別 P2P網(wǎng)貸問題平臺和正常平臺從而選擇優(yōu)質的投資平臺,避免因問題平臺帶來資金受損;對風險因素的重要程度進行評估,可以為政府部門和監(jiān)管機構對非正規(guī)金融的風險監(jiān)管提供一定的決策支持,并且對如何提高識別非正規(guī)金融風險提供了思路。