李淑錦,嵇曉佳
(杭州電子科技大學 經(jīng)濟學院,浙江 杭州 310018)
隨著我國居民生活水平的提高以及金融體制改革的加快,人們的消費觀發(fā)生了很大的轉(zhuǎn)變,提前消費(信貸消費)開始進入人們的生活。據(jù)中國支付清算協(xié)會的數(shù)據(jù),個人消費信貸規(guī)模不斷擴大,2020年第二季度,我國人均銀行卡持有量達到6.18張,其中,信用卡人均持有量0.54張。個人消費信貸在提高消費者幸福指數(shù)和改善金融機構(gòu)資產(chǎn)結(jié)構(gòu)的同時,信用風險也逐步凸顯?;诖吮尘?,排除高風險借款人群,降低個人消費信貸違約風險,成為消費信貸領(lǐng)域亟待解決的問題。
已經(jīng)有國內(nèi)外學者對個人借款者的信用風險評估進行探討。關(guān)于信用風險評估模型的研究,Ohlson(1980)[1]首次利用Logistic回歸構(gòu)建了有關(guān)信用分類模型,并且得到明顯的分類效果;Sustersic等(2009)[2]在缺乏一般評估方法所需要的信用評估數(shù)據(jù)時使用人工神經(jīng)網(wǎng)絡(luò)模型對個人借款者的信用風險進行評估;黃震(2015)[3]通過BP神經(jīng)網(wǎng)絡(luò)模型導入個人借款者的相關(guān)信息來分析其違約情況;師應(yīng)來等(2018)[4]得到非線性模型的預(yù)測精度更高的結(jié)論;還有學者對信用風險的評估指標進行了相關(guān)研究。Stein(2002)[5]將信用風險度量指標分為硬信息(一些客觀存在的信息)和軟信息(一些描述性信息)兩類。李思瑤等(2016)[6]在Stein的風險度量指標體系下進行實證分析,研究發(fā)現(xiàn)借款人的收入、所處區(qū)域、學歷水平及信用評級和違約率負相關(guān)。Barasinska和Sch?fer(2014)[7]發(fā)現(xiàn)性別也是影響借貸成功的因素;廖理等(2014)[8]研究發(fā)現(xiàn)借款者的地域分布與其借款成功相關(guān)。
在資本市場上,資本具有逐利性,當資本出借人在決定投資某個項目時,很可能會模仿他人的選擇,從而導致羊群效應(yīng)。關(guān)于羊群效應(yīng),Bikhchandani和Sharma(2000)[9]定義了股票市場的羊群效應(yīng)并對其成因加以闡述。伍旭川和何鵬(2005)[10]探究了中國開放式基金市場上的羊群行為,發(fā)現(xiàn)存在較強的羊群效應(yīng)且會對股票市場產(chǎn)生影響。廖理等(2015)[11]使用P2P數(shù)據(jù)證實了羊群效應(yīng)的存在,且當借款信息不對稱程度越高,羊群效應(yīng)越強,持續(xù)時間越短。張科和裴平(2016)[12]具體分析客觀存在信息和描述性信息對羊群效應(yīng)產(chǎn)生的影響;關(guān)于羊群效應(yīng)與信用風險關(guān)系的研究,Herzenstein等(2011)[13]經(jīng)實證得到羊群效應(yīng)有利于維護借貸雙方利益的結(jié)論。Lee和Lee(2012)[14]提取了韓國網(wǎng)貸平臺的借款者數(shù)據(jù),得出羊群效應(yīng)(群體智慧較大)可以降低投資者風險。Mollick和Nanda(2015)[15]根據(jù)美國Kickstarter平臺的數(shù)據(jù)得出群體智慧可以預(yù)測專家意見。Baruch等(2014)[16]的研究表明,如果存在部分具有獨立觀點的市場參與者時,群體甚至能夠修正專家發(fā)布的錯誤信息。
綜上所述,國內(nèi)外學者關(guān)于信用風險評估方法以及股票市場中的羊群效應(yīng)研究成果豐富,關(guān)于個人借貸的羊群效應(yīng)的研究則主要集中在羊群效應(yīng)是否存在的問題,尚未出現(xiàn)將羊群效應(yīng)納入信用風險評估模型的研究,因此建立一個體現(xiàn)群體智慧因素背景下能有效評估個人借款者信用風險的模型來預(yù)測個人借款者的違約風險是非常必要的和迫切的。本文將羊群效應(yīng)作為個人信用風險的一個評估指標,并且將Lasso和Logistic模型結(jié)合優(yōu)勢互補創(chuàng)建Lasso-Logistic模型,首先用Lasso模型對評估指標進行篩選,剔除冗余變量,再利用Logistic模型對個人借款者的信用風險進行評估,是本文的主要研究內(nèi)容和創(chuàng)新點。
國內(nèi)外學者關(guān)于個人信用風險評估方法有兩大類:統(tǒng)計型和非統(tǒng)計型。統(tǒng)計類的評估模型一般有:Logistic回歸、貝葉斯和決策樹等;非統(tǒng)計方法包括SVM模型和神經(jīng)網(wǎng)絡(luò)模型等。常見各種方法的優(yōu)缺點見表1。
表1 各類評估方法的比較
從表1可以看出,每個方法各有自己的優(yōu)缺點,如Logistic模型解釋性高,建模簡單,但容易導致欠擬合;Lasso模型預(yù)測精度高,能解決多重共線性和擬合問題,但是計算過程相對復雜等。這些模型的共性是都不能完全對模型的變量進行有效解釋。近年來不少學者將具有互補特點的模型進行組合來創(chuàng)建新的信用評估模型。向暉(2011)[17]將單一模型和組合模型進行對比,發(fā)現(xiàn)組合模型會有更高的預(yù)測精度,且模型的可解釋性和穩(wěn)健性都有所提高。
本文將Lasso和Logistic模型結(jié)合起來構(gòu)建新的評估方法,原因如下:(1)Lasso和Logistic模型具有一定互補性。Logistic易造成欠擬合問題,而Lasso正好能解決多重共線性和擬合問題;Lasso計算過程復雜,但是Logistic模型較簡單且實現(xiàn)難度低;(2)兩個模型都可以解決非線性問題,且二者對數(shù)據(jù)的假設(shè)條件都較低。將Lasso和Logistic模型相結(jié)合構(gòu)建新的評估方法-Lasso-Logistic模型,從理論上看能夠提高模型預(yù)測的準確率以及可解釋性。
Logistic回歸模型的基本原理如下:設(shè)yi表示第i個借款者是否違約,自變量xi1,xi2,…,xim則代表影響借款人i信用的m個信用相關(guān)指標,則有:
yi=f(xi1,xi2,…,xim)+εi,i=1,2,…,n
(1)
其中yi是二元離散變量,取值是0或者1。yi=0表示第i個借款者未違約,yi=1表示違約。已知第i個借款者信息x的前提下,定義其違約概率為p=P(yi=1|x),那么未違約概率為P(yi=0|x)=1-p。
Logistic回歸方程表示為:
(2)
且當(1)式中yi為多元線性函數(shù)時,可以將yi表示為yi=∑βjxij,根據(jù)泰勒公式,Logistic回歸模型可以表示為:
π*=β0+β1xi1+β2xi2+…+βmxim+εi=∑jβjxij+εi
(3)
Lasso-Logistic回歸模型是在普通Logistic回歸模型的基礎(chǔ)上,加入對參數(shù)的懲罰項來進行變量選擇和參數(shù)估計。在本文的研究背景下,個人借款者是否違約是一個二元因變量,可以用0、1來表示。由于存在多個評估指標,需要剔除冗余變量,Lasso模型的特點符合本文的要求,因此本文構(gòu)建Lasso-Logistic模型。
Lasso-Logistic回歸模型中的參數(shù)估計可以表示為:
(4)
Lasso-Logistic回歸模型中調(diào)和參數(shù)λ會直接影響到變量的選擇結(jié)果。常用于選擇調(diào)和參數(shù)的方法主要包括Boostrap、交叉驗證、廣義交叉驗證,本文采用十折交叉驗證方法來確定調(diào)和參數(shù)λ。
交叉驗證法首先把數(shù)據(jù)分成數(shù)量大致相等的K份,用其中k-1份數(shù)據(jù)擬合模型fk,用獲得的模型fk預(yù)測第k份數(shù)據(jù)得到預(yù)測誤差。實踐中,令k=1,2,…,K,重復上述過程,最后匯總K個模型的預(yù)測誤差。如果K=10,就是十折交叉驗證。
十折交叉驗證的預(yù)測誤差可以表示為:
(5)
其中k(i)是表示N個樣本中觀測i屬于第k(k=1,2,…,K)份數(shù)據(jù)的指示函數(shù),fk表示使用剔除第k份數(shù)據(jù)后擬合的模型。
假定擬合了一組含有調(diào)和參數(shù)的模型表示為fk(x,λ),定義:
(6)
那么CV(f,λ)就是一條隨λ變化而變化的檢驗誤差曲線,找到使其最小的λ,就得到Lasso-Logistic回歸模型的調(diào)和參數(shù):
(7)
在此基礎(chǔ)上對應(yīng)選取模型壓縮后保留下來的自變量,得到Lasso模型確定的Logistic回歸方程為:
(8)
此時模型只包含Lasso篩選后的變量。
廖理和張偉強(2017)[18]針對互聯(lián)網(wǎng)借款平臺中個人借款者的信息價值進行實證研究,結(jié)果表明個人借款者的所有信息都存在或多或少的價值,因此,本文選取影響個人借款者信用風險的相關(guān)變量建立個人信用風險評估的指標體系,包括個人借款者的特征、標的資產(chǎn)的特征和個人借款者的信用特征。結(jié)合實證分析時使用數(shù)據(jù)的可獲得性,本文選取個人借款者的特征包括性別、年齡和婚姻狀況;標的資產(chǎn)的特征包括借款利率、借款金額和借款期限;個人借款者的信用特征包括歷史還清率、歷史還清期數(shù)、待還清率、待還期數(shù)和歷史逾期數(shù)等。根據(jù)學者們的研究,羊群效應(yīng)也是影響借款者信用風險的一個指標。羊群效應(yīng)一方面體現(xiàn)著群體智慧,另一方面,盲目跟從也會增加投資者的風險。
借鑒學者們的研究,將與違約率正相關(guān)的指標賦較大值,而和違約率呈負相關(guān)的指標賦較小值,具體各指標變量的賦值見表2。歷史還清期數(shù)和待還期數(shù)若僅考慮次數(shù)顯然不合理,將根據(jù)其在借款總次數(shù)中的占比進行賦值。歷史逾期數(shù)則不同,逾期次數(shù)要比比率更能說明誠信度,因此便用逾期次數(shù)賦值。對于線性模型,數(shù)據(jù)歸一化后,最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易收斂到最優(yōu)解,因此本文將年齡、借款利率、借款金額和借款期限進行標準化處理。
表2 信用風險及評估指標賦值
由于個人借款者的數(shù)據(jù)難以獲取,本文選擇微貸網(wǎng)平臺上個人借款者的相關(guān)數(shù)據(jù)來進行實證分析。在該平臺上,籌資者需要提交相關(guān)的個人信息以及相應(yīng)的借款數(shù)額等信息;投資者可以對各個項目進行篩選評估,選擇相對更有利的項目。每一筆借款的投資金額以及投資時間可以從該平臺上獲取。微貸網(wǎng)平臺則會對籌資者所提供的信息進行審核,并且根據(jù)這些信息對籌資者進行信用評級。
本文利用Python爬蟲抓取了21 176個借款者的數(shù)據(jù),其中存在924筆逾期數(shù)據(jù)。因為逾期數(shù)據(jù)遠小于未逾期數(shù)據(jù),數(shù)據(jù)間存在的極大不平衡性會影響樣本預(yù)測的準確性。Weiss和Provost(2003)[19]通過實證檢驗發(fā)現(xiàn),數(shù)據(jù)并不一定需要自然分布,為提高預(yù)測的精度,本文采用“減少多數(shù)法”對樣本數(shù)據(jù)進行平衡處理,最終確定的有效樣本個數(shù)是1 850個,其中包括924個逾期樣本,926個正常樣本。因為本文采用十折交叉驗證(即將數(shù)據(jù)集分成10份,其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù)進行檢驗),因此測試集數(shù)據(jù)為185個,其余數(shù)據(jù)均作為9份訓練數(shù)據(jù)來進行訓練;其中訓練集中,違約樣本832個,正常樣本833個;測試集中違約樣本92個,正常樣本93個。
通常意義上,羊群效應(yīng)是指市場上那些沒有獲得全部信息或者沒有成熟投資經(jīng)驗的投資者模仿其他投資者的現(xiàn)象。本文將羊群效應(yīng)進一步定義為投資者的羊群效應(yīng)體現(xiàn)著群體智慧,是理性的。不同的學者根據(jù)研究目的不同,采取不同的方法對羊群行為進行測度。目前對個人借款平臺羊群行為的測度方法主要有三種。第一種方法是根據(jù)投資人投標的份額大小來衡量羊群效應(yīng)。如果隨著時間的增加,一項投資標的的投資份額在增加,就說明該項目的投資存在羊群行為,且投標的份額隨時間越來越大,那么羊群效應(yīng)就越大;第二種方法是根據(jù)項目的投標速度來測度。如果當前投標次數(shù)增多而投資者所需要的平均投標時間卻呈現(xiàn)減少狀態(tài),那么從側(cè)面體現(xiàn)了存在羊群效應(yīng);第三種方法是根據(jù)后續(xù)投標來測度羊群行為。某項目當前獲得的投標次數(shù)越多,那么從一定程度上顯示著其他投資者對該項目的信任,從而,后續(xù)投資者會將該因素作為是否投標的因素。
(9)
圖1 羊群效應(yīng)較大
Herding的取值范圍為0到2,Herding值越大,表示羊群效應(yīng)越小。Herding在0到1之間表示羊群效應(yīng)較強,在1到2之間則表示羊群效應(yīng)較小。本文通過t檢驗發(fā)現(xiàn)違約借款的羊群效應(yīng)值顯著低于未違約借款,即投資者對于違約借款會呈現(xiàn)出更弱的羊群效應(yīng),這意味著羊群效應(yīng)具有一定的信息量,符合預(yù)期。
圖2 羊群效應(yīng)較小
由于12個信用風險評估指標對個人信用風險的影響不同,本文首先運用Lasso模型對評估指標進行篩選。通過相關(guān)軟件進行十折交叉驗證,得到圖3。圖3上面部分的橫坐標表示模型經(jīng)Lasso篩選得出的變量個數(shù),下方的橫坐標表示λ的取值范圍(-8,-1),縱坐標表示模型在不同的λ取值時模型的均方差。根據(jù)學者Tibshirani(1996)[20]研究,λ估計值在圖中兩虛線之間時模型預(yù)測偏差波動幅度相對較小,建議選取使模型容易處理的λ值。
圖3 Lambda與變量數(shù)目對應(yīng)走勢
圖4顯示了Lasso模型在不同λ值時所選擇變量的系數(shù)表現(xiàn)情況:λ為-8時,對應(yīng)自變量個數(shù)為12;λ為-2時對應(yīng)自變量個數(shù)為1,即當λ取值變大時,懲罰項所篩選出的自變量個數(shù)減少。圖4顯示,λ取值在-4和-8之間時,篩選出來8個變量,刪除的冗余變量是借款利率、年齡、歷史還清率和待還清率。此時,基于Lasso-Logistic模型得到的參數(shù)估計結(jié)果如表3所示。
圖4 Lasso系數(shù)解路徑
表3 模型參數(shù)估計結(jié)果
因此,擬合的公式為:
Y=-0.856 7+0.105 2*H-2.1002*X11+0.552 1*X10+0.0310*X1+
0.011 2*X3-0.005 5*X5-0.059 5*X7+0.4077*X8
(10)
從公式(10)可以看出,羊群效應(yīng)和違約正相關(guān),因為羊群效應(yīng)越大(賦值越小),群體智慧越大,違約發(fā)生的機會越小,符合本文的預(yù)期;借款期限與違約風險負相關(guān),這是因為平臺對長期的借款審核更加嚴格,對借款者的信用等級要求更高,違約風險相對降低了;借款總額、性別與違約風險正相關(guān),符合預(yù)期;婚姻狀況與違約概率成正相關(guān),這說明未婚人群違約情況多于已婚人群,符合預(yù)期;歷史還清期數(shù)與違約負相關(guān),這也在一定程度上證明了本文對還清率定義的正確性,因為歷史還清期數(shù)多并不等同于歷史逾期數(shù)少;待還期數(shù)與違約負相關(guān),這與歷史還清期數(shù)相同,僅考慮次數(shù)顯然不合理,待還期數(shù)多,不是意味著違約風險高,更大可能是該借款者剛進行借款活動,而支付期還沒到或者所需支付的次數(shù)不多;歷史逾期數(shù)與違約概率成正相關(guān),從歷史的違約次數(shù)可以在很大程度上得出借款者的違約風險,符合本文預(yù)期。
陳中飛等(2019)[21]的研究表明,中國互聯(lián)網(wǎng)個人借貸平臺對借款利率的定價存在問題,因此Lasso模型對其進行剔除是合理的;年齡作為冗余變量被剔除的原因是樣本中借款者的年齡都集中在30-40歲,沒有較大的區(qū)別;歷史還清率和待還清率被剔除是由于本文的數(shù)據(jù)中多數(shù)借款者都是初次借款,因此不需要根據(jù)歷史的借款次數(shù)及月份對此次借款者的借款狀態(tài)進行分類討論,Lasso模型對指標的篩選也是合理的。
本文分別測試了在評估指標一致的情況下,Logistic回歸模型和Lasso-Logistic模型對違約的預(yù)測準確率,結(jié)果見表4。
表4 Logistic和Lasso-Logistic模型預(yù)測精度對比
從表4可以看出,使用Logistic模型,訓練集的整體預(yù)測準確率為87.87%,測試集準確率為84.86%;而使用Lasso-Logistic模型,訓練集準確率達99.04%,測試集準確率達96.76%,準確率都大大超過了Logistic模型。在個人信用風險的實際評估中,如果實際借款者違約,但是預(yù)測結(jié)果是借款者未違約,也就是說有違約風險的不良借款人被識別為沒有違約風險的優(yōu)良借款人,它所帶來的損害遠大于將優(yōu)良的借款者識別為不良借款者。因此當模型將不良貸款者看成優(yōu)質(zhì)貸款者的概率越小,這個模型才具備對更優(yōu)質(zhì)借款人的識別能力。對于測試集,Lasso-Logistic模型犯這類錯誤的概率是4.35%,遠小于Logistic模型的27.17%,因此Lasso-Logistic模型的評估結(jié)果優(yōu)于Logistic模型。
表5是在其他因素不變的條件下,利用新建的Lasso-Logistic模型,通過添加或刪除羊群效應(yīng)這一指標來判斷群體智慧是否是個人借款者信用風險的主要影響因素,即能否提高預(yù)測的精確度。從表5可以看出剔除了羊群效應(yīng)指標后,Lasso-Logistic模型的預(yù)測精度僅有84.32%,與Logistic模型的預(yù)測結(jié)果類似,與添加羊群效應(yīng)指標后的預(yù)測精度96.76%相比,預(yù)測精度大大降低,再一次證實了羊群效應(yīng),即群體智慧對違約風險的影響是不容忽視的。
表5 羊群效應(yīng)對預(yù)測結(jié)果的影響
綜上所述,Lasso-Logistic模型在個人借款者的信用風險評估中,評估結(jié)果令人滿意,并且該模型得出的各評估指標的經(jīng)濟意義,與文中理論分析的結(jié)果一致,進一步證明了本文選取的評估指標是合理的。微貸網(wǎng)上的借款者信息中,性別、婚姻狀況、借款金額、借款期限、歷史還清期數(shù)、待還期數(shù)、歷史逾期數(shù)、羊群效應(yīng)這8個指標成為了個人借款者信用風險重要的影響因素,同時Lasso-Logistic模型的結(jié)果為預(yù)測借款者信用風險提供了參考,減小了投資者的投資風險。
本文立足于個人借款者,通過理論分析個人借款者信用風險的影響因素,選取了包括羊群效應(yīng)、借款人的特征、借款人的信用特征以及標的資產(chǎn)特征等指標建立個人借款者的信用風險評估指標體系;借鑒Lasso模型和Logistic回歸方法的優(yōu)勢,構(gòu)建Lasso-Logistic信用風險評估模型;然后利用微貸網(wǎng)平臺借款者的數(shù)據(jù)進行實證分析,結(jié)果表明,Lasso-Logistic模型在預(yù)測借款人的違約概率時確實優(yōu)于一般的Logistic回歸模型。本文的主要結(jié)論是:
1.Lasso模型可以篩選出個人借款者信用風險評估的有效指標
個人借款者信用風險評估的指標較多,但有些指標是無效的、冗余的,只能增加評估的難度并不能改善評估的結(jié)果。本文利用Lasso對指標進行篩選,將初選的12個指標的評估體系降低為8個指標的評估體系,使得Lasso-Logistic模型的計算更加快捷。
2.Lasso-Logistic模型的預(yù)測精度高于Logistic回歸模型
無論對訓練集還是測試集,不管是對違約客戶的預(yù)測還是正??蛻舻念A(yù)測,Lasso-Logistic的準確率都高于Logistic回歸模型。利用Logistic模型進行評估,訓練集的整體預(yù)測正確率為87.87%,測試集的預(yù)測精度84.86%;而利用本文構(gòu)建的Lasso-Logistic模型,訓練集準確率高達99.04%,測試集準確率也高達96.76%,準確率都大大超過了Logistic模型所預(yù)測的精度。進一步說明該模型在個人信用風險評估中的適用性。
3.羊群效應(yīng)是影響個人借款者信用風險的重要指標
在建立個人借款者的信用風險評估指標體系時,本文創(chuàng)新性地引入了一個新的變量——羊群效應(yīng),根本原因在于:大數(shù)據(jù)時代,每個人都能夠通過自己的努力去尋找一些重要信息來控制投資風險,因此多數(shù)人就能得到不同的、有價值的信息,使得總體信息更接近完全信息,這對于違約風險的預(yù)測是十分重要的。實證結(jié)果表明,在其它評估指標不變的條件下,利用Lasso-Logistic模型對測試集進行預(yù)測,含有羊群效應(yīng)的模型預(yù)測借款者是否違約的整體預(yù)測精度高達96.76%,遠高于不考慮羊群效應(yīng)的準確率84.32%。