国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)模型的P2P網(wǎng)貸平臺風(fēng)險(xiǎn)預(yù)警研究

2019-10-23 05:45:04馮凌秉蔣志慧
金融與經(jīng)濟(jì) 2019年9期
關(guān)鍵詞:網(wǎng)貸預(yù)警準(zhǔn)確率

■嚴(yán) 武,馮凌秉,蔣志慧,孔 雯

本文利用大數(shù)據(jù)網(wǎng)絡(luò)爬蟲技術(shù)收集了網(wǎng)貸第三方網(wǎng)站平臺的公開數(shù)據(jù),利用機(jī)器學(xué)習(xí)模型對網(wǎng)貸平臺的非法集資風(fēng)險(xiǎn)進(jìn)行了預(yù)警研究,比較了傳統(tǒng)機(jī)器學(xué)習(xí)方法(以邏輯回歸和決策樹模型為代表)與前沿機(jī)器學(xué)習(xí)模型(以隨機(jī)森林模型和XGBoost模型為代表)在多個(gè)預(yù)測指標(biāo)上的靜態(tài)預(yù)警效能,并在動(dòng)態(tài)預(yù)警框架下研究了網(wǎng)貸平臺全生命周期內(nèi)各模型的動(dòng)態(tài)預(yù)警效果。研究表明,傳統(tǒng)與前沿機(jī)器學(xué)習(xí)模型均表現(xiàn)出了優(yōu)良的預(yù)警效果,傳統(tǒng)模型的準(zhǔn)確率略低于前沿模型,但決策樹模型在重要檢出率指標(biāo)上的表現(xiàn)優(yōu)于其他模型。在動(dòng)態(tài)預(yù)警框架下,本文發(fā)現(xiàn)在平臺全生命周期內(nèi),所采用機(jī)器學(xué)習(xí)模型的預(yù)警效果隨時(shí)間的變化呈現(xiàn)波動(dòng)上升并在2017年后緩慢下降的趨勢。雖然該趨勢與我國網(wǎng)貸行業(yè)的發(fā)展和監(jiān)管現(xiàn)狀相符,但也表明預(yù)警模型的使用者應(yīng)積極尋找表外指標(biāo),進(jìn)一步挖掘網(wǎng)貸平臺的深層次指標(biāo)以穩(wěn)定預(yù)警效果。

一、引言與文獻(xiàn)綜述

近年來,以P2P網(wǎng)貸為代表的新興金融模式因其利率不受限制,提供遠(yuǎn)超銀行存款的高額回報(bào)受到投資者的普遍青睞。同時(shí),因?yàn)槠脚_的靈活放貸模式能在一定程度上解決中小企業(yè)和個(gè)人“融資難、融資貴”的難題,從而很好的彌補(bǔ)了傳統(tǒng)金融體系在“末端”的缺位,一定程度上推動(dòng)了普惠金融的創(chuàng)新發(fā)展。然而,由于P2P平臺進(jìn)入門檻低、監(jiān)管滯后等原因?qū)е缕脚_安全問題頻發(fā),非法集資詐騙問題嚴(yán)重,極大損害了投資者的利益,擾亂了金融市場秩序。因此,如何及時(shí)有效偵測P2P平臺的非法集資風(fēng)險(xiǎn)成為了業(yè)界和學(xué)界討論的重點(diǎn)。

由于不同國家在宏觀經(jīng)濟(jì)政策、行業(yè)制度、社會(huì)環(huán)境等方面存在著較大差異,導(dǎo)致國內(nèi)外學(xué)者在對P2P研究的整體方向上存在著一定差異。相對而言,國外的社會(huì)征信體系建設(shè)比較健全且監(jiān)管體制和法律法規(guī)比較完善,其研究以借款人違約及借款成功率的影響因素為主。在借款人違約率方面,Lin et al.(2009)基于Prosper平臺的數(shù)據(jù)研究指出平臺了解借款人的社會(huì)網(wǎng)絡(luò)關(guān)系能有效降低借貸中的信息不對稱問題。在借款成功率方面,Greiner et al.(2009)發(fā)現(xiàn)借款人社會(huì)網(wǎng)絡(luò)關(guān)系越復(fù)雜,借款利率相對越低,借款成功率越高,但與其相關(guān)的借款違約率并不能降低。Sonenshein et al.(2011)指出借貸雙方之間的溝通能有效提高信用度較低的借款人的借款成功率,但不能明顯降低其借款違約率。Freedman&Jin(2017)指出,P2P平臺較傳統(tǒng)借貸中介而言,其信息透明公開度低,會(huì)加劇借貸的道德風(fēng)險(xiǎn)及逆向選擇問題。

國內(nèi)對P2P網(wǎng)絡(luò)借貸的研究主要集中在P2P網(wǎng)貸風(fēng)險(xiǎn),較早期是借款人違約風(fēng)險(xiǎn)和行業(yè)風(fēng)險(xiǎn),后期研究集中關(guān)注P2P平臺自身的風(fēng)險(xiǎn)。多數(shù)學(xué)者認(rèn)為P2P網(wǎng)絡(luò)借貸中借款人存在著很高的信用風(fēng)險(xiǎn)。李悅雷(2013)、王會(huì)娟和廖理(2014)的實(shí)證研究表明信用認(rèn)證機(jī)制對平臺的借款成本和借款成功率都有重要的影響。何德旭和王進(jìn)成(2013)將我國P2P網(wǎng)絡(luò)借貸平臺內(nèi)外的風(fēng)險(xiǎn)歸分為六類,分別是平臺聲譽(yù)風(fēng)險(xiǎn)、法律風(fēng)險(xiǎn)、利率管理風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)、區(qū)域集中度等層面的風(fēng)險(xiǎn)和資金使用方面的信用風(fēng)險(xiǎn)。張巧良和張黎(2015)指出網(wǎng)貸平臺存在法律風(fēng)險(xiǎn)、市場風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)、技術(shù)風(fēng)險(xiǎn)、無序競爭風(fēng)險(xiǎn)、內(nèi)部管理風(fēng)險(xiǎn)、聲譽(yù)風(fēng)險(xiǎn)與機(jī)構(gòu)合作風(fēng)險(xiǎn)等八大風(fēng)險(xiǎn)。唐藝軍和葛世星(2015)還指出了操作風(fēng)險(xiǎn)、流動(dòng)性風(fēng)險(xiǎn)和信息污染風(fēng)險(xiǎn)。

目前僅有個(gè)別學(xué)者研究P2P問題平臺風(fēng)險(xiǎn)影響因素。李先玲(2016)基于231個(gè)P2P網(wǎng)絡(luò)借貸平臺數(shù)據(jù)研究發(fā)現(xiàn)相關(guān)人員金融行業(yè)從業(yè)背景、注冊資本和平臺自我監(jiān)管能夠有效降低平臺出現(xiàn)問題的機(jī)會(huì)比率,而過度行業(yè)競爭則會(huì)增加風(fēng)險(xiǎn)概率。彭劭志(2016)等將平臺出現(xiàn)的失聯(lián)、提現(xiàn)困難和終止?fàn)I運(yùn)等行為定義為P2P網(wǎng)絡(luò)借貸平臺的違約行為,并運(yùn)用實(shí)證方法探討了平臺違約行為的影響因素。范超和王磊(2017)等用我國444家P2P平臺基本信息與交易信息研究了P2P網(wǎng)絡(luò)借貸的風(fēng)險(xiǎn)甄別問題。巴曙松(2018)等以網(wǎng)貸之家披露的3176家P2P平臺為研究樣本,定量測算注冊資本、注冊地、業(yè)務(wù)模式、風(fēng)險(xiǎn)保障模式等因素是如何影響P2P平臺的生存狀態(tài),并據(jù)此提出了針對性的監(jiān)管措施。

國內(nèi)外關(guān)于P2P網(wǎng)絡(luò)借貸平臺的研究主要集中在影響因素的描述性分析,對于P2P網(wǎng)貸平臺風(fēng)險(xiǎn)預(yù)警的研究較為缺乏。鑒于此,本文基于互聯(lián)網(wǎng)信息爬取技術(shù),整理收集了數(shù)家大型主流網(wǎng)貸網(wǎng)站上的P2P網(wǎng)貸平臺數(shù)據(jù),利用主流機(jī)器學(xué)習(xí)模型進(jìn)行風(fēng)險(xiǎn)預(yù)警研究,探討了機(jī)器學(xué)習(xí)模型在網(wǎng)貸平臺風(fēng)險(xiǎn)預(yù)警上的優(yōu)越性,并特別提出決策樹模型在檢出率指標(biāo)上表現(xiàn)出了優(yōu)良的性能,應(yīng)予以重視。同時(shí),本文設(shè)計(jì)了特殊的動(dòng)態(tài)預(yù)警框架以產(chǎn)生訓(xùn)練集和測試集,動(dòng)態(tài)觀測機(jī)器學(xué)習(xí)模型在平臺全生命周期內(nèi)的動(dòng)態(tài)預(yù)測效果,并結(jié)合我國網(wǎng)貸平臺的監(jiān)管實(shí)際,為進(jìn)一步提升網(wǎng)貸平臺的風(fēng)險(xiǎn)預(yù)警提出了經(jīng)驗(yàn)證據(jù)與改進(jìn)意見。

二、指標(biāo)分析與模型選擇

(一)指標(biāo)分析

本文研究的核心被解釋變量是如何根據(jù)事先已經(jīng)公開的信息識別出平臺是否為“問題平臺”。若平臺出現(xiàn)提現(xiàn)困難、停業(yè)、經(jīng)偵介入、跑路等問題,則定義為問題平臺,賦值為1;非“問題平臺”及認(rèn)定為“正常平臺”,賦值為0。借鑒已有關(guān)于網(wǎng)絡(luò)借貸平臺風(fēng)險(xiǎn)因素的研究,本文主要從預(yù)測P2P平臺風(fēng)險(xiǎn)因素考量,結(jié)合數(shù)據(jù)的可得性,將所有指標(biāo)分6個(gè)一級指標(biāo)及30個(gè)二級指標(biāo)的P2P平臺風(fēng)險(xiǎn)預(yù)警體系指標(biāo)。指標(biāo)含義及變量類型如表1所示。

表1 一級與二級指標(biāo)類型及其含義一覽表

續(xù)表1

(二)模型選擇

已有風(fēng)險(xiǎn)預(yù)警的研究方法可以分為兩大類,即傳統(tǒng)的統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)算法模型。本文選擇邏輯回歸和決策樹模型作為傳統(tǒng)模型,選擇隨機(jī)森林和XGBoost模型作為前沿模型,其中邏輯回歸模型、決策樹模型和隨機(jī)森林模型參考周志華(2016);XGBoost模型參考Chen&Guestrin(2016)。

三、數(shù)據(jù)處理與預(yù)警評估

(一)數(shù)據(jù)處理

本文數(shù)據(jù)來源于網(wǎng)貸之家、網(wǎng)貸天眼及51網(wǎng)貸等第三方網(wǎng)站,利用Python爬蟲技術(shù)抓取這些網(wǎng)站上公布的所有P2P平臺數(shù)據(jù),數(shù)據(jù)截止日期為2018年11月30日。剔除無效樣本,共得到樣本6424家,抓取各樣本平臺30項(xiàng)指標(biāo)。所有平臺中問題平臺為5262家,正常平臺有1162家。本文隨機(jī)抽取60%的觀測值作為靜態(tài)分析的訓(xùn)練集,40%的數(shù)據(jù)為測試集,實(shí)證使用訓(xùn)練集共3854家,包括719家正常平臺,3135家問題平臺。測試集中共含有2670家平臺,正常平臺443家,問題平臺2172家。

本文同時(shí)從動(dòng)態(tài)預(yù)警的角度出發(fā),評估預(yù)警模型隨時(shí)間變化的學(xué)習(xí)效果,動(dòng)態(tài)產(chǎn)生訓(xùn)練集和測試集。近年來各項(xiàng)P2P平臺監(jiān)管法規(guī)的出臺會(huì)使得平臺風(fēng)險(xiǎn)特征隨時(shí)間發(fā)生變動(dòng),早期問題平臺特征可能會(huì)對當(dāng)前的訓(xùn)練準(zhǔn)確性產(chǎn)生影響。因此,本文預(yù)警模型的移動(dòng)窗口是1個(gè)月,單個(gè)訓(xùn)練集由兩年內(nèi)發(fā)生問題的平臺,與當(dāng)時(shí)仍正常經(jīng)營的平臺共同構(gòu)成。由于2011年之前P2P平臺數(shù)量較少,本文第一個(gè)訓(xùn)練集是在2011年1月1日~2013年1月1日年之間出現(xiàn)問題的問題平臺,以及當(dāng)時(shí)正常經(jīng)營的平臺;而第一個(gè)測試集是該時(shí)點(diǎn)仍在正常經(jīng)營的平臺,測試結(jié)果為在2013年1月1日之后的180天之內(nèi),該平臺是否轉(zhuǎn)變?yōu)閱栴}平臺,如果180天之內(nèi)仍為正常平臺(即使之后成為問題平臺),則視為正常平臺,否則作為問題平臺。2013年2月1日則重新產(chǎn)生一次訓(xùn)練集和測試集,以此類推①由于數(shù)據(jù)截止時(shí)間為2018年11月30日,2018年7月1日之后的測試集不滿足180天的“問題暴露期”要求,預(yù)測準(zhǔn)確性的評估效果可能會(huì)受到影響。因此,動(dòng)態(tài)預(yù)警框架下的數(shù)據(jù)截止日期為2018年6月31日。。

(二)預(yù)警評估

對于數(shù)據(jù)集的每一個(gè)測試樣本,模型都有4種可能的預(yù)測結(jié)果,在預(yù)警模型中,混淆矩陣是一種可視化工具,適用于有監(jiān)督的學(xué)習(xí)方法,是評價(jià)分類器性能的重要工具。混淆矩陣是一張二維表,根據(jù)預(yù)測值是否與真實(shí)值一致來對預(yù)測樣本進(jìn)行分類?;煜仃嚨拿恳恍斜硎緲颖緦?shí)際分類的實(shí)例,每一列表示樣本的預(yù)測類別。當(dāng)預(yù)測值與真實(shí)值一致時(shí),預(yù)測樣本分類正確,當(dāng)預(yù)測值與真實(shí)值不一致時(shí),預(yù)測樣本分類有誤。

表2 混淆矩陣示例

如表2所示,TP(True Positive)是指正確預(yù)測的正類樣本數(shù),即正常平臺被預(yù)測為正常平臺的數(shù)量;FN(False Negative)是指錯(cuò)誤預(yù)測的正類樣本數(shù),即正常平臺被預(yù)測為問題平臺的數(shù)量;FP(False Positive)是指錯(cuò)誤預(yù)測的負(fù)類樣本數(shù),即問題平臺被預(yù)測為正常平臺的數(shù)量;TN(True Negative)是指正確預(yù)測的負(fù)類樣本數(shù),即問題平臺被預(yù)測為問題平臺的數(shù)量。同時(shí),在本文的動(dòng)態(tài)預(yù)警框架中,TP表示預(yù)測為正常平臺,實(shí)際180天內(nèi)未發(fā)生問題的平臺數(shù)量;FN為預(yù)測為問題平臺,實(shí)際180天內(nèi)未發(fā)生問題的平臺數(shù)量;FP為預(yù)測為正常平臺,實(shí)際180天內(nèi)發(fā)生問題的平臺數(shù)量;TN為預(yù)測為問題平臺,實(shí)際180天內(nèi)發(fā)生問題的平臺數(shù)量。本文主要關(guān)注以下兩個(gè)衡量模型表現(xiàn)的指標(biāo)。

準(zhǔn)確率(accuracy)定義為預(yù)測正確的樣本數(shù)量占總樣本數(shù)量的比例:

檢出率(discovery)定義為所有問題平臺被預(yù)測為問題平臺數(shù)量的比例:

四、實(shí)證分析

(一)描述性統(tǒng)計(jì)分析

把樣本分為正常運(yùn)營平臺和問題平臺兩組,對比分析這兩組平臺在每一個(gè)變量上的對照情況。表3為平臺之間在分類變量上的對比結(jié)果,表4展示了在連續(xù)變量上的對比結(jié)果。對比發(fā)現(xiàn):相比正常運(yùn)營平臺來說,問題平臺和正常平臺之間存在著明顯差異。在平臺實(shí)力方面,正常平臺非民營系占比相對較大,平臺注冊區(qū)域在省會(huì)城市的占比、上市平臺、有ICP經(jīng)營號平臺的占比也比問題平臺大。在產(chǎn)品特征因素方面,問題平臺允許自動(dòng)投標(biāo)和允許債權(quán)轉(zhuǎn)讓占比相對較小,業(yè)務(wù)類型單一。正常運(yùn)營平臺有銀行存管、加入監(jiān)管協(xié)會(huì)、有逾期賠付和投標(biāo)保障占比分別為53%、21%、38%和71%,而問題平臺占比分別為6%、2%、23%和36%。高管學(xué)歷和高管是否從事金融行業(yè)經(jīng)驗(yàn)的占比方面,正產(chǎn)平臺和問題平臺之間也存在一定差距。

表3 正常平臺與問題平臺在分類型變量上的分析對比表

續(xù)表3

通過表4可以看出,相比正常運(yùn)營平臺來說,問題平臺注冊資本平均值、投資期限平均值較小,總體運(yùn)營天數(shù)的均值較短,而參考收益率平均值較大,投資期限相對較短,投友關(guān)注量及投友評分方面兩個(gè)也存在明顯差異。值得注意的是,正常運(yùn)營平臺的參考收益率最大值為25%,而問題平臺的參考收益率最大值達(dá)到48%。此外,正常平臺的變更記錄比問題平臺多,可能由于運(yùn)營時(shí)間普遍較長;而問題平臺的異常經(jīng)營次數(shù)多于正常平臺。

表4 正常平臺與問題平臺在連續(xù)型變量上的分析對比表

(二)預(yù)警效果評價(jià)

表5為四類分類算法模型的整體分類結(jié)果,即分別在測試集和訓(xùn)練集上的混淆矩陣;表6為四類模型在準(zhǔn)確率和檢出率兩個(gè)預(yù)測評價(jià)指標(biāo)上的預(yù)警表現(xiàn)??梢钥闯?,邏輯回歸模型對負(fù)類樣本(問題平臺)有很好的預(yù)測,但對正類樣本(正常平臺)的預(yù)測不佳,測試集中誤判數(shù)量達(dá)到了225家,該模型的準(zhǔn)確率在訓(xùn)練集和測試集上面分別為0.8939和0.8977,檢出率在訓(xùn)練集和測試集上面分別為0.8953和0.9028。決策樹模型對正類樣本(正常平臺)有很好的預(yù)測,但對負(fù)類樣本(問題平臺)的預(yù)測效果不好,測試集中誤判數(shù)量達(dá)122家。其準(zhǔn)確率在訓(xùn)練集和測試集上面分別為0.9385和0.9346,檢出率在訓(xùn)練集和測試集上面分別為0.9859和0.9776。決策樹模型的檢出率指標(biāo)表現(xiàn)在所有模型中表現(xiàn)最好。這一點(diǎn)應(yīng)引起模型使用者的關(guān)注,因?yàn)闆Q策樹模型的數(shù)學(xué)形式簡單,模型訓(xùn)練速度快,需要調(diào)整的參數(shù)較少,并且模型結(jié)果為分叉樹結(jié)構(gòu),具有優(yōu)良的可解釋性①?zèng)Q策樹模型的分叉樹圖結(jié)果本文不列出,可向作者索取。。

相比傳統(tǒng)機(jī)器學(xué)習(xí)模型,隨機(jī)森林模型和XGBoost模型整體表現(xiàn)都更加優(yōu)良。隨機(jī)森林模型對正類樣本(正常平臺)和負(fù)類樣本(問題平臺)都有很好的預(yù)測,其準(zhǔn)確率在訓(xùn)練集和測試集上面分別為0.9556和0.9510,檢出率在訓(xùn)練集和測試集上面分別為0.9747和0.9726。XGBoost模型的靜態(tài)預(yù)測表現(xiàn)與隨機(jī)森林十分類似,其準(zhǔn)確率顯著優(yōu)于傳統(tǒng)模型。與隨機(jī)森林模型相比,其準(zhǔn)確率在訓(xùn)練集上的表現(xiàn)顯著更優(yōu),為0.9831,在測試集上的表現(xiàn)略好于隨機(jī)森林。其檢出率在訓(xùn)練集上的表現(xiàn)也顯著優(yōu)于隨機(jī)森林,但在測試集上則沒有隨機(jī)森林的表現(xiàn)好。

表5 四類模型靜態(tài)預(yù)警模型的混淆矩陣表

綜合來看,隨機(jī)森林模型和XGBoost在準(zhǔn)確率和檢出率上有著更為均衡的表現(xiàn),其準(zhǔn)確率比傳統(tǒng)機(jī)器學(xué)習(xí)模型更高。但在檢出率指標(biāo)上,決策樹模型表現(xiàn)優(yōu)良,其在測試集上達(dá)到了接近98%的檢出率。因此,當(dāng)關(guān)注的指標(biāo)是檢出率時(shí),應(yīng)將決策樹模型作為首選模型。

表6 四類模型靜態(tài)預(yù)警效果評價(jià)表

(三)指標(biāo)重要性分析

XGBoost模型可以根據(jù)每個(gè)變量對模型的貢獻(xiàn)給出變量的重要性排序,其結(jié)果見表7。本文結(jié)合每個(gè)指標(biāo)的含義及其重要性排序情況做進(jìn)一步分析②隨機(jī)森林模型也可以給出指標(biāo)重要性排序表,其結(jié)果與XGBoost十分類似,限于篇幅不在此處列出,留存?zhèn)渌鳌?。重要性排名前三的指?biāo)分別為參考收益、投資期限與投友評分,其中參考收益的重要性最高,且其重要性指標(biāo)值為第二名投資期限指標(biāo)的近6倍,可以看出問題平臺往往給出較高的參考收益以吸引投資者,但過高的參考收益往往也是導(dǎo)致平臺爆雷的關(guān)鍵因素。與此相關(guān)的指標(biāo)是“投資期限”,參考收益設(shè)置越高的平臺往往也將投資期限設(shè)置的較長,最長達(dá)46個(gè)月。此外應(yīng)注意到,第三方平臺上的“投友評分”以及“投友關(guān)注度”也是較為重要的兩個(gè)指標(biāo),投友評分越低以及投友關(guān)注度越低的平臺,其出現(xiàn)問題的概率也越大,故而投資者和監(jiān)管平臺也應(yīng)重視第三方網(wǎng)站上提供的輿論數(shù)據(jù)。此外,運(yùn)營天數(shù)長短(是否為老平臺),是否有銀行存管,注冊資本大小也都是較為重要的指標(biāo)。

值得注意的是,“融資記錄”和“移動(dòng)APP”并非重要的預(yù)測指標(biāo)。個(gè)人投資者在考察網(wǎng)貸平臺的安全性時(shí)往往重視該平臺是否獲得過機(jī)構(gòu)的投資,或者其是否開發(fā)有手機(jī)端APP。表7的結(jié)果顯示,這兩個(gè)指標(biāo)都不能作為判斷平臺風(fēng)險(xiǎn)的指標(biāo)。另外,類似是否允許“債權(quán)轉(zhuǎn)讓”,公司的“注冊區(qū)域”等指標(biāo)在預(yù)測模型中的重要性也十分微弱。因此,投資者和監(jiān)管者在關(guān)注網(wǎng)貸平臺時(shí)不能被平臺的這些“偽裝”指標(biāo)所迷惑,而應(yīng)該關(guān)注表中排名靠前的指標(biāo)。

表7 XGBoost模型指標(biāo)重要性排序表

(四)動(dòng)態(tài)預(yù)警分析

從2007年第一家P2P平臺拍拍貸成立到2018年底平臺上線和問題數(shù)的動(dòng)態(tài)變化情況如圖1所示。鑒于機(jī)器學(xué)習(xí)模型的預(yù)測效果會(huì)受到訓(xùn)練用樣本量大小以及被解釋變量中的樣本均衡程度(問題平臺數(shù)和非問題平臺數(shù)的比例),本文基于動(dòng)態(tài)預(yù)警的視角來分析在整個(gè)平臺近10年的生命周期內(nèi)模型預(yù)警效果的動(dòng)態(tài)變化模式。

圖1 網(wǎng)貸平臺上線平臺數(shù)與問題平臺數(shù)動(dòng)態(tài)變化圖

考慮到2013年之前行業(yè)內(nèi)平臺數(shù)量較少,平臺出問題的概率很小,不滿足機(jī)器學(xué)習(xí)樣本量的要求,因而將開始時(shí)點(diǎn)設(shè)置為2013年1月1日,結(jié)束時(shí)點(diǎn)設(shè)置為2018年6月31日,共計(jì)可獲取66個(gè)訓(xùn)練集及對應(yīng)的測試集。此外,為了方便進(jìn)行動(dòng)態(tài)描述統(tǒng)計(jì),根據(jù)平臺的注冊資金設(shè)置一個(gè)虛擬變量,即平臺規(guī)模,按照平臺注冊資金分類,高于1億元為大平臺,1千萬至1億為中等平臺,低于1千萬的為小平臺。為了呈現(xiàn)我國P2P平臺的生存情況,本文結(jié)合我國P2P行業(yè)的五個(gè)發(fā)展階段①五個(gè)階段分別設(shè)定為:行業(yè)導(dǎo)入期(2007~2011年),快速發(fā)展期(2011~2013年),野蠻生長期(2014年1月~2015年7月),規(guī)范成長期(2015年8月~2017年1月)和行業(yè)整頓期(2017年2月~至今)。其中行業(yè)整頓期的截止日期為樣本截止期。,統(tǒng)計(jì)出各個(gè)時(shí)期新上線平臺的生存情況。從表8可以看到,在P2P平臺的不同發(fā)展階段,新上線P2P平臺的類型是不同的,大平臺比例增長保持穩(wěn)定,小平臺增長比例下降,中等規(guī)模平臺占比不斷上升。而平臺能夠持續(xù)經(jīng)營(超過1000天)的比例不斷下降,存續(xù)期較短(低于一年)的比例不斷上升。問題平臺平均存續(xù)天數(shù)也一直下降,顯示出P2P行業(yè)在進(jìn)入整頓期之前,的確是有著嚴(yán)重的問題,已經(jīng)到了不得不進(jìn)行整頓的地步。

表8 P2P平臺存續(xù)情況概覽

圖2展示了在平臺目前的全生命周期內(nèi)四種機(jī)器學(xué)習(xí)模型預(yù)警效果(準(zhǔn)確率和檢出率)的動(dòng)態(tài)變化模式。由圖可知,邏輯回歸模型的動(dòng)態(tài)預(yù)警準(zhǔn)確率能維持75%左右的水平,檢出率在2015年以前很低,在2015年之后逐漸攀升,到2016年底可以達(dá)到75%的水平。決策樹算法的準(zhǔn)確率波動(dòng)與邏輯回歸模型十分接近,但其檢出率的表現(xiàn)要顯著優(yōu)于其他算法,在2016~2017年可達(dá)到95%的水平。意外的是,隨機(jī)森林模型的準(zhǔn)確率與邏輯回歸模型和決策樹模型非常接近,其檢出率的波動(dòng)特征也與邏輯模型相似,但一直略低于后者。其檢出率在2016年底可以達(dá)到60%。XGBoost模型的準(zhǔn)確率和檢出率表現(xiàn)與隨機(jī)森林十分相似,檢出率表現(xiàn)略好于后者①值得說明的是,XGBoost模型中有眾多的可調(diào)參數(shù),筆者在動(dòng)態(tài)模型中并未根據(jù)窗口移動(dòng)對每一個(gè)XGBoost模型進(jìn)行最優(yōu)調(diào)參。在xgb.train函數(shù)使用時(shí),除特意設(shè)定nrounds=50,eta=0.1,其他均為默認(rèn)設(shè)置。。

圖2 四種機(jī)器學(xué)習(xí)模型的動(dòng)態(tài)預(yù)警效果圖

四種預(yù)警方法在兩個(gè)評價(jià)指標(biāo)上都顯示出了相同的趨勢。就準(zhǔn)確率來說,四種方法相差不大,均在80%左右波動(dòng),并呈現(xiàn)逐漸遞減的整體趨勢。檢出率總體呈現(xiàn)先波動(dòng)上升后下降的趨勢。在2013~2015年期間,四種預(yù)警方法的檢出率均較低,模型的學(xué)習(xí)效果較差,這是訓(xùn)練集中問題平臺的樣本數(shù)量不足造成的?;仡檰栴}平臺的出現(xiàn)趨勢可以發(fā)現(xiàn),問題平臺從2015年才開始大量出現(xiàn),2016年之后出現(xiàn)爆發(fā)式增長,才滿足一定檢出率要求的訓(xùn)練集樣本量,此后模型的訓(xùn)練效果較好。2016~2017年上半年,模型的準(zhǔn)確率較高,檢出率也較高,決策樹算法能達(dá)到80%以上的檢出率。

自2017年下半年,也就是平臺進(jìn)入全面整頓期開始,機(jī)器學(xué)習(xí)模型的檢出率開始逐漸下降,即便圖1中顯示問題平臺數(shù)在這個(gè)時(shí)期是持續(xù)增加的。通過提取動(dòng)態(tài)預(yù)警模型過程中XGBoost模型以及隨機(jī)森林模型的變量重要性排序情況,發(fā)現(xiàn)在整個(gè)生命期內(nèi),變量重要性的排序情況并沒有顯著的變動(dòng),最重要的三個(gè)指標(biāo)的排序情況(參考收益,投資期限和投友平分)基本沒有發(fā)生過變化。出現(xiàn)這種情況原因可能在于訓(xùn)練集中的指標(biāo)均為“表層指標(biāo)”,代表了平臺的特征,卻無法代表平臺的業(yè)務(wù)和風(fēng)險(xiǎn)特征。2017年之后,監(jiān)管機(jī)構(gòu)密集出臺新的P2P平臺監(jiān)管要求和業(yè)務(wù)規(guī)范,平臺的競爭和發(fā)展進(jìn)入新的階段,一些目的在于“圈錢”和投機(jī)的問題平臺無法生存,逐步暴露。剩余的平臺在表層指標(biāo)的范疇內(nèi)基本都是達(dá)標(biāo)的,導(dǎo)致這一階段平臺出現(xiàn)問題的原因不包含在本文已有的指標(biāo)庫中,比如貸款壞賬率、項(xiàng)目逾期率等基礎(chǔ)的財(cái)務(wù)指標(biāo)。如果需要提升模型的預(yù)測力,則需要引入更多指標(biāo),如具體貸款質(zhì)量、貸款去向、監(jiān)管合規(guī)性等指標(biāo),但是此類信息往往不公開披露。因此,即便是前沿的學(xué)習(xí)模型在指標(biāo)信息不足的情況下也很難有良好的檢出率表現(xiàn)。

五、結(jié)論及政策建議

本文結(jié)合P2P網(wǎng)貸行業(yè)在我國的發(fā)展和研究現(xiàn)狀構(gòu)建了我國P2P網(wǎng)貸平臺風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,并選擇基于傳統(tǒng)機(jī)器學(xué)習(xí)模型(邏輯回歸和決策樹模型)以及前沿機(jī)器學(xué)習(xí)模型(隨機(jī)森林和XGBoost)四種分類算法對P2P網(wǎng)貸平臺風(fēng)險(xiǎn)預(yù)警問題進(jìn)行了靜態(tài)和動(dòng)態(tài)分析。靜態(tài)研究結(jié)果表明基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的靜態(tài)預(yù)測效果普遍低于基于前沿機(jī)器學(xué)習(xí)模型,說明平臺是否違約與其相關(guān)影響因素之間存在較為復(fù)雜的非線性關(guān)系。靜態(tài)對比的結(jié)果還表明,前沿機(jī)器學(xué)習(xí)模型的準(zhǔn)確率相對較高,但是傳統(tǒng)機(jī)器學(xué)習(xí)模型中的決策樹模型的檢出率相對較高。

其次,本文通過動(dòng)態(tài)劃分訓(xùn)練集和測試集的方式研究了四種機(jī)器學(xué)習(xí)模型對于網(wǎng)貸平臺全生命周期內(nèi)非法集資風(fēng)險(xiǎn)的動(dòng)態(tài)預(yù)警效果,結(jié)果顯示四種預(yù)警方法平均準(zhǔn)確率在80%左右。檢出率隨時(shí)間的變化總體呈現(xiàn)波動(dòng)上升后下降的趨勢,在2013~2015年期間,四種預(yù)警方法的檢出率均較低,模型的學(xué)習(xí)效果較差,這是由于訓(xùn)練集中問題平臺的樣本數(shù)量不足造成的。2016~2017年上半年,各個(gè)模型的準(zhǔn)確率較高,檢出率也較高。2017年下半年開始,模型的檢出率開始下降。發(fā)生這種現(xiàn)象的原因在于訓(xùn)練集中的指標(biāo)均為“表層指標(biāo)”,代表了平臺的特征,卻無法代表平臺的業(yè)務(wù)和風(fēng)險(xiǎn)特征,無法體現(xiàn)監(jiān)管對平臺產(chǎn)生的影響。

本文的研究顯示,前沿機(jī)器學(xué)習(xí)模型在準(zhǔn)確率上顯著優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,但檢出率并不是它們的強(qiáng)項(xiàng)。預(yù)警方法的選擇是否合理會(huì)對預(yù)警的效果產(chǎn)生影響。因此,應(yīng)結(jié)合網(wǎng)貸行業(yè)的實(shí)際情況不斷優(yōu)化預(yù)警模型,平臺自身的風(fēng)控體系以及政府監(jiān)管模型都應(yīng)綜合考慮各種預(yù)警方法,尤其是隨機(jī)森林和XGBoost等已經(jīng)在實(shí)戰(zhàn)中得到充分檢驗(yàn)的模型應(yīng)得到進(jìn)一步充分的應(yīng)用,但傳統(tǒng)的機(jī)器學(xué)習(xí)模型,如決策樹模型,在檢出率上有著優(yōu)良的表現(xiàn),并且其調(diào)參成本更低,運(yùn)算速度更快,更適合用于平臺算法的部署。

本文模型動(dòng)態(tài)預(yù)警效果下降的現(xiàn)象也表明現(xiàn)有的公開信息已經(jīng)不足以為P2P平臺監(jiān)管者和投資人提供足夠的參考,也就是說監(jiān)管機(jī)構(gòu)應(yīng)轉(zhuǎn)變監(jiān)管方向,從資質(zhì)監(jiān)管向業(yè)務(wù)監(jiān)管轉(zhuǎn)變。隨著一系列法律法規(guī)和行業(yè)規(guī)章制度的密集出臺,P2P領(lǐng)域的正常平臺和問題平臺在合規(guī)性的表現(xiàn)上已相差不大,無法單純的通過某一平臺是否滿足法律法規(guī)的要求來判斷是否存在問題,這也為構(gòu)建有效的監(jiān)管模型提出了新的方向。

猜你喜歡
網(wǎng)貸預(yù)警準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
P2P網(wǎng)貸中的消費(fèi)者權(quán)益保護(hù)
中國外匯(2019年10期)2019-08-27 01:58:18
法國發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
園林有害生物預(yù)警與可持續(xù)控制
網(wǎng)貸平臺未來亟需轉(zhuǎn)型
商周刊(2017年17期)2017-09-08 13:08:58
網(wǎng)貸十年:迎來“去偽存真” 時(shí)代
商周刊(2017年17期)2017-09-08 13:08:58
機(jī)載預(yù)警雷達(dá)對IFF 的干擾分析
呼和浩特市| 苍山县| 宝应县| 杨浦区| 伊川县| 射阳县| 凤庆县| 德化县| 齐河县| 民勤县| 石狮市| 炎陵县| 普安县| 阳原县| 东宁县| 缙云县| 自贡市| 中宁县| 松桃| 清水河县| 宁国市| 武宁县| 三明市| 庆城县| 吉隆县| 宿州市| 昌都县| 永兴县| 科技| 惠来县| 景宁| 锡林郭勒盟| 五家渠市| 辉南县| 永清县| 双峰县| 灵山县| 道孚县| 丰镇市| 绥江县| 临漳县|