梁顥嚴(yán)
摘要:隨著金融證券化的發(fā)展,銀行已由賣方市場(chǎng)轉(zhuǎn)到了買方市場(chǎng)。因此,爭(zhēng)奪實(shí)力雄厚、信用度高、還款能力強(qiáng)的客戶是商業(yè)銀行主要的競(jìng)爭(zhēng)。文章綜述了利用人工智能方法在貸款申請(qǐng)預(yù)測(cè)方面的研究。將利用Logistic Regression算法建立貸款申請(qǐng)最大化利潤(rùn)模型,同時(shí)利用機(jī)器學(xué)習(xí)的基本理論,證明本模型的泛化性良好。
關(guān)鍵詞:人工智能;Logistic Regression;貸款申請(qǐng);機(jī)器學(xué)習(xí)
一、前言
銀行貸款,指的是銀行根據(jù)國(guó)家政策以一定的利率將資金貸放給資金需要者,并約定期限歸還的一種經(jīng)濟(jì)行為。一般要求房屋抵押、提供擔(dān)保、收入證明、個(gè)人征信良好才可申請(qǐng)。
近年來(lái),隨著政策的進(jìn)一步開放與人民消費(fèi)理念的進(jìn)步,我國(guó)商業(yè)銀行個(gè)人消費(fèi)貸款發(fā)展迅速,個(gè)人消費(fèi)貸款占銀行貸款總額的比重逐年增長(zhǎng),并逐步成為銀行主要的業(yè)務(wù)和效益來(lái)源之一。隨著金融證券化的發(fā)展,銀行在貸款這項(xiàng)金融活動(dòng)中也面臨諸多的風(fēng)險(xiǎn),如利潤(rùn)風(fēng)險(xiǎn)、流動(dòng)性風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)等。因此,如何提高信貸資產(chǎn)的安全性,如何對(duì)申請(qǐng)貸款的用戶進(jìn)行正確的信用評(píng)估,嚴(yán)格避開不良借貸的風(fēng)險(xiǎn),成為了一家銀行能否平穩(wěn)運(yùn)行的重中之重。
早在1998年5月,中國(guó)人民銀行便參照國(guó)際慣例,結(jié)合我國(guó)國(guó)情,制定了《貸款分類指導(dǎo)原則》,要求商業(yè)銀行依據(jù)借款人的實(shí)際還款能力進(jìn)行貸款質(zhì)量的五級(jí)分類,即按風(fēng)險(xiǎn)程度將貸款劃分為五類:正常、關(guān)注、次級(jí)、可疑、損失,后三種為不良貸款。不良的貸款首先對(duì)銀行來(lái)說(shuō)是一種極大的利益損害,當(dāng)銀行的不良貸款過(guò)多的時(shí)候,就會(huì)極大的影響銀行的經(jīng)營(yíng)運(yùn)轉(zhuǎn)。對(duì)社會(huì)而言,不良貸款也起到負(fù)面的影響,并形成一系列的不良反應(yīng)。所以銀行想要的便是借款人能夠履行合同,能正常還本付息,及時(shí)償還全款的正常貸款。
隨著互聯(lián)網(wǎng)金融的發(fā)展,傳統(tǒng)的分析方法和手段已經(jīng)不能滿足金融貸款公司越來(lái)越高的成本利潤(rùn)分析要求,大數(shù)據(jù)技術(shù)的出現(xiàn),滿足了金融貸款公司的動(dòng)態(tài),靈活,實(shí)時(shí)的分析需求。經(jīng)研究,影響個(gè)人貸款還款的主要因素有:借款人信用狀況,借款人就業(yè)情況與從業(yè)時(shí)間,借款人的收入來(lái)源與消費(fèi)傾向,借款人的年齡,學(xué)歷,婚姻家庭狀況等。本文將綜合上述因素進(jìn)行分析,利用傳統(tǒng)機(jī)器學(xué)習(xí),構(gòu)建貸款模型,盡量降低銀行的貸款風(fēng)險(xiǎn)。研究意義有以下方面:從理論上討論了利用Logistic Regression建立貸款申請(qǐng)最大化利潤(rùn)模型的可行性,并運(yùn)用機(jī)器學(xué)習(xí)的理論證明其合理性;運(yùn)用現(xiàn)有少量數(shù)據(jù)集對(duì)所建立的模型進(jìn)行驗(yàn)證;為銀行今后制作相關(guān)的網(wǎng)絡(luò)系統(tǒng)提供制作算法,制作理念和制作核心。
二、探究基于傳統(tǒng)機(jī)器學(xué)習(xí)的貸款模型
(一)機(jī)器學(xué)習(xí)
1. 簡(jiǎn)介
機(jī)器學(xué)習(xí)是人工智能的核心,是利用人工智能解決現(xiàn)實(shí)問(wèn)題的理論基礎(chǔ)。機(jī)器學(xué)習(xí)能夠以數(shù)據(jù)為學(xué)習(xí)對(duì)象,從數(shù)據(jù)中挖掘數(shù)據(jù)內(nèi)在的信息從而不斷迭代訓(xùn)練,總結(jié)出僅靠人類無(wú)法發(fā)現(xiàn)的潛在規(guī)律和問(wèn)題,機(jī)器學(xué)習(xí)的運(yùn)用也在生活中變得越來(lái)越廣泛,例如在數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等都有相應(yīng)的推廣。
2. 監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)中被最廣泛采納的兩大機(jī)器學(xué)習(xí)方法是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。大約70%的機(jī)器學(xué)習(xí)是監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)大概占10%~20%,有時(shí)也會(huì)使用1半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。本文將使用的決策樹,SVM算法以及Logistic Regression就屬于監(jiān)督學(xué)習(xí)算法。
監(jiān)督學(xué)習(xí)就像已經(jīng)知道所需輸出的輸入,運(yùn)用已知的數(shù)據(jù)信息訓(xùn)練算法。首先學(xué)習(xí)算法會(huì)獲得對(duì)應(yīng)所求輸出的數(shù)據(jù)標(biāo)簽,算法會(huì)將實(shí)際輸出與所求輸出進(jìn)行對(duì)比練習(xí),找到錯(cuò)誤。然后對(duì)現(xiàn)有模型進(jìn)行修改,通過(guò)分類、回歸、梯度下降等方法,最終使算法可以通過(guò)新的數(shù)據(jù)來(lái)預(yù)測(cè)可能的結(jié)果。例如,本文就是為了預(yù)測(cè)什么樣的貸款交易是有風(fēng)險(xiǎn)的。
無(wú)監(jiān)督學(xué)習(xí),與監(jiān)督學(xué)習(xí)恰恰相反,使用無(wú)歷史標(biāo)簽的相反數(shù)據(jù)。系統(tǒng)不會(huì)被告知正確的輸出,算法必須自己探索所求輸出。無(wú)監(jiān)督學(xué)習(xí)對(duì)事務(wù)性數(shù)據(jù)的處理效果很好。例如,它可以識(shí)別有一些具有相同屬性的貸款客戶群體,或者它可以找到主要屬性將客戶群體彼此區(qū)分開。
(二)建立貸款模型
前文已經(jīng)簡(jiǎn)述了機(jī)器學(xué)習(xí)的相關(guān)內(nèi)容,我們知道機(jī)器學(xué)習(xí)是能夠基于數(shù)據(jù)建模學(xué)習(xí)的一種方法,對(duì)大數(shù)據(jù)條件下的問(wèn)題可以通過(guò)機(jī)器學(xué)習(xí)算法模型挖掘數(shù)據(jù)中大量的潛在價(jià)值和信息,從而指導(dǎo)人類分析和解決問(wèn)題。我們回到本文的貸款申請(qǐng)最大化利潤(rùn)問(wèn)題,我們需要評(píng)判的是用戶是否具備還款的能力,從而決定是否給出該用戶的借貸資格,這是個(gè)很典型的分類問(wèn)題,希望通過(guò)用戶的個(gè)人信息,建立模型給出一個(gè)評(píng)估結(jié)果(同意貸款或不同意貸款)。嘗試通過(guò)算法模型分析出一名用戶具備還款能力的可能性,以此輔助我們?cè)跇I(yè)務(wù)上進(jìn)行決策。分類問(wèn)題是機(jī)器學(xué)習(xí)中的基本問(wèn)題,諸如決策樹,SVM,邏輯回歸等基礎(chǔ)模型都得到了廣泛的應(yīng)用,基于邏輯回歸在二分類問(wèn)題上的通用性,我們決定以Logistic Regression來(lái)建立模型。
1. 邏輯回歸
首先,線性回歸是一種因變量與自變量成線性關(guān)系的回歸分析。在線性回歸中,可以利用線性預(yù)測(cè)函數(shù)通過(guò)已知數(shù)據(jù)來(lái)進(jìn)行建模并大致預(yù)測(cè)模型參數(shù)。
線性回歸作為一種廣義的線性回歸分析模型。它的模型形式為:
z=w1*x1+w2*x2+…wn*xn+b(1)
其中w和b是待求參數(shù),邏輯回歸通過(guò)函數(shù)L將wx+b對(duì)應(yīng)一個(gè)隱狀態(tài)p:
p=L(wx+b) (2)
然后根據(jù)p 與1-p的大小決定因變量的值。邏輯回歸的因變量一般是二分類的,其容易解釋被人們所常用,但也可以是多分類的。
邏輯回歸的實(shí)質(zhì)是將正樣本概率除以負(fù)樣本概率再取其對(duì)數(shù)。這一簡(jiǎn)單的變換將概率變成了比值,一方面改變了取值區(qū)間的矛盾,另一方面,經(jīng)過(guò)長(zhǎng)時(shí)間的大量實(shí)踐總結(jié)發(fā)現(xiàn),它還常常是因變量和自變量之間呈線性關(guān)系。所以,邏輯回歸從根本上解決了因變量可能不連續(xù)的問(wèn)題。在生活中,許多現(xiàn)實(shí)問(wèn)題也與它的模型相吻合,就例如一件事情是否發(fā)生跟其他數(shù)值型自變量的關(guān)系。
線性回歸的輸出z,即樣本特征與參數(shù)的線性組合,邏輯回歸通過(guò)激活函數(shù)Sigmoid函數(shù)將原始的連續(xù)值輸出z映射在了區(qū)間[0,1]的概率分布上,從而將模型輸出轉(zhuǎn)變?yōu)槲覀兿M玫降念悇e概率形式描述目標(biāo)問(wèn)題。之所以叫Sigmoid,是因?yàn)楹瘮?shù)的圖像很想一個(gè)字母S,其特性:函數(shù)的取值在0~1之間,且在0.5處為中心對(duì)稱,并且越靠近x=0的取值斜率越大。
Sigmoid的公式形式:
f(z)=1/1+e-z(3)
Sigmoid函數(shù)可以將任意的數(shù)據(jù)輸入都映射到了[0,1]區(qū)間。這樣我們可以順利地將線性回歸得到的預(yù)測(cè)值映射到Sigmoid函數(shù)中,完成由值到概率的轉(zhuǎn)化,得到我們想要的客戶是否符合結(jié)果的概率。
2. 損失函數(shù)
損失函數(shù)是為了評(píng)估模型擬合的好壞,通常用損失函數(shù)來(lái)度量模型的擬合程度。而損失函數(shù)的最小化,意味著擬合程度最好,對(duì)應(yīng)的模型參數(shù)即為最優(yōu)參數(shù)。邏輯回歸的損失函數(shù)為對(duì)數(shù)損失函數(shù),因?yàn)閿?shù)據(jù)集中有很多數(shù)據(jù),要求將這些數(shù)據(jù)相乘,又因?yàn)楦怕蕄總是在(0,1)之間的,所以如果利用對(duì)數(shù)函數(shù)變換將連乘變?yōu)檫B加,那么就不會(huì)超出計(jì)算精度。
在損失函數(shù)中,當(dāng)y為1,即樣本為正樣本,那么我們希望將其預(yù)測(cè)為正樣本的概率p越大越好,則logp越大越好。反之,當(dāng)y為0時(shí),那么我們希望將其預(yù)測(cè)為負(fù)樣本的概率越大越好,即log(1-p)越大越好。
3. 梯度下降法
為了得到最小化的損失函數(shù)和最優(yōu)的模型參數(shù)值,可以通過(guò)梯度下降法來(lái)一步步的迭代求解。
首先,梯度下降,是采用一步步逼近目標(biāo)函數(shù)的最小值的方法。但因?yàn)閾p失函數(shù)不一定是凸函數(shù),這種方式有可能會(huì)求得局部的最優(yōu)解,而不是整個(gè)函數(shù)全局的最優(yōu)解。所以還需要對(duì)選擇方式,學(xué)習(xí)率和批處理數(shù)量進(jìn)行研究。
學(xué)習(xí)率也就是每一步的步長(zhǎng),可以盡量從小開始,如果還是達(dá)不到最優(yōu)就在減小,但也不能太小徒增計(jì)算量,增加計(jì)算時(shí)間。
梯度下降法也大致分為三類,分別是批量梯度下降法,隨機(jī)梯度下降法及小批量梯度下降法。第一種每次迭代都考慮全部樣本,太費(fèi)時(shí)間;第二種迭代速度快,但不一定每次都朝著收斂的方向;最后一種每次選擇一小部分樣本,既實(shí)用又方便。所以我們的處理方式將選擇小批量梯度下降法。
以上已經(jīng)簡(jiǎn)述了本次構(gòu)建貸款最大化模型的相關(guān)制作算法與核心知識(shí)。接下來(lái),將開始著手介紹模型的實(shí)現(xiàn)。
三、數(shù)據(jù)集來(lái)源
本論文實(shí)驗(yàn)數(shù)據(jù)來(lái)自P2P平臺(tái)lending club在2007~2011年貸款申請(qǐng)人的各項(xiàng)評(píng)估指標(biāo),我們基于此數(shù)據(jù)集,結(jié)合機(jī)器學(xué)習(xí)算法建立貸款申請(qǐng)模型。
原始數(shù)據(jù)集包括40000個(gè)樣本,每個(gè)樣本包含52個(gè)特征。本文首先基于對(duì)信貸行業(yè)的理解,對(duì)特征維度進(jìn)行初步篩選。
原始數(shù)據(jù)集中主要特征為貸款金額,貸款期限,利率,工作年限這類整型或浮點(diǎn)型數(shù)據(jù),以及“貸款意圖”,“貸款公司頭銜”,“貸款人有無(wú)房產(chǎn)”,“是否成功借貸”這類字符型數(shù)據(jù)。
四、實(shí)驗(yàn)過(guò)程
(一)數(shù)據(jù)預(yù)處理
數(shù)據(jù)的預(yù)處理和特征選擇是機(jī)器學(xué)習(xí)解決問(wèn)題過(guò)程中的重要環(huán)節(jié),也被定義為特征工程。特征工程就是把原始數(shù)據(jù)轉(zhuǎn)化為需要的數(shù)據(jù),也即能夠被機(jī)器學(xué)習(xí)模型接受并有效訓(xùn)練的數(shù)據(jù),多數(shù)時(shí)候我們往往會(huì)把大量的精力投入在構(gòu)建模型和調(diào)節(jié)參數(shù)之中,卻忽略了特征工程的重要性。
首先針對(duì)數(shù)據(jù)集的特征進(jìn)行初步的探索性分析,主要了解各數(shù)據(jù)特征在貸款業(yè)務(wù)中的邏輯及含義。基于這些業(yè)務(wù)知識(shí)和特征與結(jié)果的相關(guān)性進(jìn)行粗略的篩選,清理掉與貸款業(yè)務(wù)相關(guān)性不是很大的部分特征。本數(shù)據(jù)集中如公司名稱,申請(qǐng)人ID,以及一些編碼如url等特征顯然與業(yè)務(wù)相關(guān)性不大,對(duì)這些特征進(jìn)行清理。
數(shù)據(jù)集中選擇是否成功借貸作為我們數(shù)據(jù)集的標(biāo)簽,表示最終同意貸款或不同意貸款。用Python第三方提供的常用機(jī)器學(xué)習(xí)庫(kù)sklearn進(jìn)行模型的建立,由于sklearn中各學(xué)習(xí)模型只能接受數(shù)值類型的數(shù)據(jù),因此像標(biāo)簽特征這樣的離散型數(shù)據(jù),將“是”和“否”做映射處理,將其轉(zhuǎn)化為數(shù)值類型數(shù)據(jù)0和1。
若數(shù)據(jù)的某一列特征取值為唯一值,顯然這樣的特征對(duì)我們的模型訓(xùn)練是沒(méi)有意義的,在數(shù)據(jù)的處理過(guò)程中我們也進(jìn)行刪除處理。針對(duì)數(shù)據(jù)中某一特征缺失值較少,選擇刪除這少量樣本,而如果某列特征缺失值過(guò)多,認(rèn)為該特征失去訓(xùn)練價(jià)值,將該列刪除。
(二)實(shí)驗(yàn)結(jié)論
本文采用數(shù)據(jù)集中的“是否同意借貸”為標(biāo)簽,是典型的二分類問(wèn)題,而邏輯回歸作為機(jī)器學(xué)習(xí)中二分類問(wèn)題的經(jīng)典算法,將其作為首選模型進(jìn)行建模。使用Python實(shí)現(xiàn)邏輯回歸算法模型,調(diào)用sklearn庫(kù)完成具體的模型實(shí)現(xiàn)及訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.01,其他參數(shù)采用默認(rèn)值,并采用10折交叉驗(yàn)證。
需要注意到的是,對(duì)模型的評(píng)判標(biāo)準(zhǔn),應(yīng)當(dāng)根據(jù)貸款行業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景,以實(shí)現(xiàn)利潤(rùn)最大化為目標(biāo)進(jìn)行模型評(píng)判,因此對(duì)模型要求高的準(zhǔn)確率的同時(shí),還應(yīng)當(dāng)要求盡量降低錯(cuò)誤率,在本論文場(chǎng)景中,一次成功的借貸帶來(lái)的利潤(rùn)為該用戶償還的貸款利率,而虧損來(lái)自于我們錯(cuò)誤地完成了一次無(wú)法收回貸款的借貸交易,而這樣的虧損相比于一位用戶的利率來(lái)說(shuō)是要高出很多的。因此對(duì)負(fù)樣本(不同意借貸)的關(guān)注不可被忽視。
模型最終預(yù)測(cè)的結(jié)果中,正確率于錯(cuò)誤率都達(dá)到了99%,通過(guò)對(duì)原始數(shù)據(jù)的觀察發(fā)現(xiàn)數(shù)據(jù)中正負(fù)樣本為6:1,造成了模型對(duì)正樣本的偏重,采用調(diào)整正負(fù)樣本權(quán)重的方式進(jìn)行改善,重新訓(xùn)練之后的結(jié)果為正確率73%,錯(cuò)誤率47%。
實(shí)驗(yàn)最后同時(shí)對(duì)比了其他幾種傳統(tǒng)機(jī)器學(xué)習(xí)算法,SVM的正確率為68%,錯(cuò)誤率為52%,而決策樹的正確率為66%,錯(cuò)誤率為49%。
從業(yè)務(wù)角度上,本文最終根據(jù)模型預(yù)測(cè)的結(jié)果進(jìn)行綜合衡量,權(quán)衡準(zhǔn)確率和召回率等多項(xiàng)指標(biāo),以得到利潤(rùn)最大化。
五、結(jié)論與展望
本文基于機(jī)器學(xué)習(xí)算法建模,以經(jīng)典二分類模型邏輯回歸為核心算法在實(shí)際場(chǎng)景中建立貸款申請(qǐng)最大化利潤(rùn)模型,并且在數(shù)據(jù)集上表現(xiàn)良好,對(duì)最大化銀行利潤(rùn)起到了不錯(cuò)的參考和指導(dǎo)作用。本文的模型仍存在一些提升空間,基于實(shí)驗(yàn)數(shù)據(jù)集較小,尚未進(jìn)行大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練測(cè)試,未來(lái)可以在調(diào)節(jié)參數(shù),嘗試更換一些集成算法上做出優(yōu)化,本文對(duì)正負(fù)樣本不均衡問(wèn)題采用的是調(diào)整正負(fù)樣本權(quán)重方式,是基于數(shù)據(jù)樣本較小的情況下做出的考慮,最好的辦法依然還是盡量獲取到更多的數(shù)據(jù),從而使模型得到更強(qiáng)的泛化能力。
參考文獻(xiàn):
[1]潘曉文,趙永清.商業(yè)銀行計(jì)提貸款損失準(zhǔn)備進(jìn)行利潤(rùn)平滑的研究[J].現(xiàn)代金融,2015(12).
[2]曲冠知.大數(shù)據(jù)下的金融貸款公司成本利潤(rùn)分析[J].科技經(jīng)濟(jì)導(dǎo)刊,2018(19).
(作者單位:西安高新一中國(guó)際部)