□文/郝仁杰
(南京郵電大學(xué) 江蘇·南京)
[提要] 隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的征信體系不再滿足互聯(lián)網(wǎng)金融對征信精度的要求。本文基于Logistic回歸、隨機(jī)森林算法的模型來預(yù)測P2P網(wǎng)貸中客戶的信用風(fēng)險。通過爬蟲技術(shù)抓取某網(wǎng)貸平臺的交易數(shù)據(jù),然后利用SMOTE重采樣技術(shù)對數(shù)據(jù)采樣,實證研究結(jié)果表明:相較于Logistic回歸模型,基于隨機(jī)森林模型的預(yù)測能顯著降低錯誤比例,提高預(yù)測正確率、召回率和特異性。本研究對P2P網(wǎng)貸平臺的信用風(fēng)險預(yù)警具有參考意義。
隨著“互聯(lián)網(wǎng)+”概念興起,傳統(tǒng)的金融模式已經(jīng)不再滿足時代的新要求,紛紛提出多式多樣的業(yè)務(wù)模式。隨之而來的是各種包括政策風(fēng)險、監(jiān)管風(fēng)險、操作風(fēng)險、網(wǎng)絡(luò)風(fēng)險與信用風(fēng)險在內(nèi)的種種風(fēng)險。因此,當(dāng)前對于平臺而言最重要的是如何利用各自的數(shù)據(jù),通過大數(shù)據(jù)模型精準(zhǔn)判斷借貸人的違約風(fēng)險,這對保障投資人的利益、平臺的安全和行業(yè)的穩(wěn)健發(fā)展都具有很重要的現(xiàn)實意義。
在國外,早期的網(wǎng)貸信用風(fēng)險評估中,借貸平臺是通過投資人而非借貸平臺來篩選確定借款人是否值得信賴,這就造成虛假陳述現(xiàn)象比較普遍。后來引入數(shù)學(xué)建模的形式去評估信貸風(fēng)險,比較常用的包括判別分析、聚類分析、Logistic回歸等。此后對模型進(jìn)行進(jìn)一步探索之后,引入了ZE-TA信用風(fēng)險評估模型、高斯混合模型和隨機(jī)森林等模型。在國內(nèi),近幾年內(nèi)的網(wǎng)貸平臺良莠不齊,發(fā)展模式并沒有行業(yè)規(guī)范,帶來更嚴(yán)重的信用風(fēng)險。有學(xué)者利用現(xiàn)代大數(shù)據(jù)中借貸人的個人特征、歷史表現(xiàn)、借款信息等三個方面的數(shù)據(jù)建立模型發(fā)現(xiàn)其對網(wǎng)貸信用風(fēng)險存在顯著影響。繆蓮英等學(xué)者通過Logistic回歸研究發(fā)現(xiàn)社會資本的存在能夠降低平臺借款人的違約風(fēng)險。
目前,對傳統(tǒng)商業(yè)銀行貸款的信用風(fēng)險研究比較成熟,但隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)金融的興起,傳統(tǒng)的征信體系已經(jīng)不能滿足現(xiàn)階段對征信的要求。而且傳統(tǒng)的數(shù)學(xué)模型對于多變量之間共線性有嚴(yán)格的要求,并不能全面考慮各種特征,并且使用機(jī)器學(xué)習(xí)模型進(jìn)行信用風(fēng)險研究還處于初步階段。
Logistic回歸模型是典型的廣義線性模型,響應(yīng)變量與自變量之間通過Logit函數(shù)連接,在0-1分類問題中得到廣泛應(yīng)用。假設(shè)因變量Y取值為0或1,事件未發(fā)生定義為Y=0,事件發(fā)生的概率為P,事件未發(fā)生的概率為1-P,把P看成x的線性函數(shù),Logistic回歸的公式可以表示為:
表1 變量說明一覽表
隨機(jī)森林是常見的集成學(xué)習(xí)模型,它是基于在基學(xué)習(xí)器為Bagging模型的基礎(chǔ)上,引入了隨機(jī)的概念。一方面是數(shù)據(jù)的隨機(jī):在訓(xùn)練模型的時候每棵樹會隨機(jī)又放回的利用訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,大約有1/3的數(shù)據(jù)不會被選取到;另一方面在樹模型分葉的節(jié)點上,會隨機(jī)選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。
最后兩個模型的評價指標(biāo),本文從訓(xùn)練集、測試集、未重采樣測試集根據(jù)混淆舉證計算得來的正確率、召回率、特異性、錯判率四個指標(biāo)來評價模型,其中前三個指標(biāo)越接近1表示模型越好,錯判率越接近0越好。
(一)數(shù)據(jù)來源與變量說明。本文選取了國內(nèi)一個比較出名的網(wǎng)貸平臺作為研究目標(biāo)。利用網(wǎng)絡(luò)爬蟲技術(shù)獲取平臺從一段時間爬取的借貸數(shù)據(jù),共計8,864條樣本。樣本所含指標(biāo)如表1所示,包括客戶是否為違約客戶、是否為本地籍、教育水平、婚姻狀況、收入水平、是否有公積金、個人住房貸款筆數(shù)、商品房貸款筆數(shù)、其他貸款筆數(shù)和貸記卡賬戶數(shù)。(表1)
(二)數(shù)據(jù)預(yù)處理。因為本數(shù)據(jù)集近90%的樣本是屬于非違約的,如果分類器將所有的樣本都分類為該類,盡管最后的分類精度超過90%,其實并無實際意義。所以,在數(shù)據(jù)不均衡時,評價指標(biāo)的參考意義不大。針對樣本數(shù)據(jù)不平衡的情況,本文用R軟件中的SMOTE函數(shù)進(jìn)行重采樣的處理方式,對大類的數(shù)據(jù)樣本進(jìn)行欠采樣來減少大類的數(shù)據(jù)樣本個數(shù),即采樣的個數(shù)少于該類樣本的個數(shù)。得到的樣本集兩個類別各近占50%。將重采樣剩余的原始數(shù)據(jù)作為整個數(shù)據(jù)集的測試集,用重采樣后的數(shù)據(jù)集的70%訓(xùn)練模型,然后先用剩下的30%測試模型,最后再用整個數(shù)據(jù)集的測試集再次驗證模型的預(yù)測效果。
表2 Logistic回歸模型評價指標(biāo)一覽表(單位:%)
表3 隨機(jī)森林模型評估指標(biāo)一覽表(單位:%)
(三)實證分析
1、Logistic回歸模型建立與預(yù)測。將經(jīng)過9個指標(biāo)作為特征變量,是否違約作為目標(biāo)變量來建立Logistic回歸模型。首先,考察特征變量間的多重共線性。從相關(guān)系數(shù)矩陣中發(fā)現(xiàn),特征變量之間的共線性比較普遍且復(fù)雜,采用“逐步回歸”對變量進(jìn)行篩選。將建立的模型分別用重采樣的訓(xùn)練集與測試集以及未經(jīng)重采樣數(shù)據(jù)集的測試集進(jìn)行了模型的預(yù)測,通過正確率、召回率、特異性以及錯判率四種指標(biāo)來檢驗?zāi)P皖A(yù)測效果,結(jié)果如表2所示。(表2)
由表2中的結(jié)果可知,訓(xùn)練集和測試集以及未重采樣的測試集所計算得到的4個指標(biāo)差異不大。平均來看,模型的預(yù)測正確率大概為64%、召回率為64%、特異性為60%以及錯判率在35%。
2、隨機(jī)森林模型建立與預(yù)測。本文采用集成學(xué)習(xí)中隨機(jī)森林的算法,此算法是目前機(jī)器學(xué)習(xí)方法中比較流行且預(yù)測效果較優(yōu)的集成算法。它避免了過擬合的誤差,能夠有效地提高模型的預(yù)測能力。
圖1表示的訓(xùn)練集分類的誤判率,可以看到隨著樹的數(shù)量增多,誤判率漸漸趨于平穩(wěn)。到100棵樹時誤判率已有平穩(wěn)趨勢,但之后還是有些許波動,最后在進(jìn)行隨機(jī)森林建模時,樹的參數(shù)選為300。(圖1)
由表3中的結(jié)果可知,訓(xùn)練集和測試集以及未重采樣的測試集所計算得到的四個指標(biāo)有差異。訓(xùn)練集的整體預(yù)測效果優(yōu)于其他兩個訓(xùn)練集,這是由于本身的模型是基于訓(xùn)練集所建立。模型的預(yù)測正確率大概為85%、召回率為90%、特異性為70%以及錯判率在13%左右。這個驗證結(jié)果明顯比Logistic回歸預(yù)測結(jié)果的精確度有提升。(表3)
借款人違約,對出借人和P2P平臺都會造成巨大損失,更會制約行業(yè)的發(fā)展。預(yù)警借款人違約風(fēng)險的有效手段是構(gòu)建全國性的征信體系,同時平臺進(jìn)一步完善審查監(jiān)督制度,但這些都需要多個參與主體長期的共同努力才能實現(xiàn)。就目前來看,最有效的方法是平臺基于自身積累的大數(shù)據(jù),構(gòu)建預(yù)測準(zhǔn)確、性能穩(wěn)定的違約風(fēng)險預(yù)警模型。
圖1 誤判率趨勢圖
本文基于Logistic回歸和隨機(jī)森林信用風(fēng)險預(yù)警模型進(jìn)行分析比較,研究結(jié)果表明:基于三個樣本集的模型評價指標(biāo),隨機(jī)森林所建立的模型計算得到的準(zhǔn)確率、召回率和特異性比Logistic回歸的高,并且錯誤率要低。所以,在對P2P網(wǎng)貸信用風(fēng)險預(yù)警時,選用隨機(jī)森林所構(gòu)建的模型預(yù)測效果會比較好。而傳統(tǒng)的Logistic回歸,由于必須滿足嚴(yán)格的統(tǒng)計學(xué)假設(shè),在評估客戶信用風(fēng)險時可能受到較大限制,具有自身的局限性。但是,Logistic回歸模型還是有借鑒之處,比如每個特征變量對客戶違約的影響程度以及正負(fù)向關(guān)系是可以通過模型的系數(shù)可以直觀的看到,這是集成學(xué)習(xí)具有局限的地方。所以,可以將這兩種模型從不同角度去看待,但總的預(yù)測效果還是由隨機(jī)森林建立的模型更為準(zhǔn)確,并且符合大數(shù)據(jù)時代的要求。
本文研究基于Logistic回歸與集成學(xué)習(xí)的P2P網(wǎng)貸違約風(fēng)險預(yù)警,對P2P網(wǎng)貸平臺的違約風(fēng)險預(yù)警具有啟示意義,有助于平臺更好地預(yù)測借款人信用風(fēng)險,完善自身風(fēng)控體系。另外,由于數(shù)據(jù)有限,本研究還有需進(jìn)一步深入探討的地方,比如如何提升模型的泛化能力、對違約客戶的細(xì)化分類以及從更多維度的用戶特征去訓(xùn)練模型。