国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下的邏輯回歸算法分析與研究

2022-11-12 02:17唐婷黎明
電子技術與軟件工程 2022年17期
關鍵詞:矢量分組邏輯

唐婷 黎明

(1.四川職業(yè)技術學院計算機工程學院 四川省遂寧市 629000)

(2.四川省農(nóng)村信用社聯(lián)合社 四川省成都市 610096)

目前,隨著計算機技術的不斷發(fā)展,給整個社會生活以及產(chǎn)業(yè)發(fā)展帶來新的生機,產(chǎn)業(yè)技術的提升更新迫在眉睫。我們處于信息大爆發(fā)的時代,大數(shù)據(jù)中蘊含著豐富的資源,如何對數(shù)據(jù)進行科學的處理,提取其中有價值的信息,從而形成標準的可應用模型。邏輯回歸算法是大數(shù)據(jù)中常用的數(shù)據(jù)分析方法之一,它具有模型簡單、訓練速度快等特點,在產(chǎn)業(yè)技術中有著廣泛的應用。

本文主要介紹邏輯回歸算法的原理,以及對大數(shù)據(jù)環(huán)境下的邏輯回歸算法進行詳細的分析與研究,最后通過實踐案例的分析來驗證邏輯回歸算法的可行性。本文的實踐案例為銀行消費貸款中信用評分模型的建立,可以通過數(shù)據(jù)分析來預測還款人的還款能力、還款意愿,以及欺詐風險,在行內(nèi)交易數(shù)據(jù)和行外征信數(shù)據(jù)的基礎上,建立信用評分模型。

1 邏輯回歸算法研究背景

消費信貸近年來的增長令人矚目,根據(jù)人民銀行發(fā)布的《中國普惠金融指標分析報告(2018年) 》,截至2018年末,全國人均個人消費貸款余額為27089.4元,同比增長19.54%。大力發(fā)展消費信貸,是銀行向?qū)I(yè)零售銀行轉(zhuǎn)型的關鍵點。

個人消費貸款單筆金額小、筆數(shù)多,對比起大額貸款,個人消費貸款的人工管理筆均成本高、單位資金收益低。在我社傳統(tǒng)個人消費信貸處理流程中,主要依靠人工營銷和人工審查審批。即使在有業(yè)務規(guī)范條款的情況下,也由于量化條款不夠,導致審查審批的標準不統(tǒng)一,由此延伸也容易出現(xiàn)操作風險和道德風險。

大數(shù)據(jù)下的金融風控模型是利用數(shù)據(jù)分析和模型進行風險評估,依據(jù)評估分數(shù),預測還款人的還款能力、還款意愿,以及欺詐風險,從而利用數(shù)據(jù)實施科學風控。同時,大數(shù)據(jù)可以利用海量數(shù)據(jù)進行計算,分析其中內(nèi)在規(guī)律,通過邏輯回歸算法等建模方法,在行內(nèi)交易數(shù)據(jù)和行外征信數(shù)據(jù)的基礎上,建立信用評分模型,優(yōu)化審批,在得出更加有效的規(guī)律后,再進一步優(yōu)化評分模型、優(yōu)化審批,從而形成良性循環(huán)。本論文的目的是基于銀行內(nèi)部大數(shù)據(jù)的環(huán)境下,通過對邏輯回歸算法的分析與研究,建立適合消費貸款使用的邏輯回歸評分模型。

2 邏輯回歸算法的原理

邏輯回歸模型不僅本身具有很高的預測精度,同時便于理解,符合監(jiān)管對可解釋性的要求。該模型的許多前提假設比較符合經(jīng)濟現(xiàn)實和金融數(shù)據(jù)的分布規(guī)律,譬如它不要求模型變量間具有線性的相關關系,不要求變量服從協(xié)方差矩陣相等和殘差服從正態(tài)分布等,這使得模型的適用性和靈活性都很好。

建立模型可選用的方法非常多,如區(qū)別分析、線性回歸、邏輯回歸及分類樹等統(tǒng)計方法,或是人工神經(jīng)網(wǎng)絡、基因演算法及專家系統(tǒng)等非統(tǒng)計方法。本文采用邏輯回歸的方法來建立數(shù)據(jù)驅(qū)動的評分模型。如表1所示。

通常,邏輯回歸可以用于一個名義或順序因變量的建模。

首先,假設有n個包含違約狀態(tài)變量y的觀測值。違約狀態(tài)變量y有兩種取值:0表示正常事件,1表示違約事件。同時,假設收集到r個預測變量,或自變量,也被稱為協(xié)變量,x1,…,xr。第i個觀測值的自變量和因變量的取值分別表示為xi1,…,xir和yi。具體符號詳見表1:

表1

用邏輯回歸模型計算事件(y=1)的概率為:

常數(shù)β0,β1,…,βr稱為模型參數(shù)。第一個常數(shù)β0稱為截距項。同時將自變量x和模型參數(shù)β定義為r+1維的向量,如下:

xT=[1 x1… xr]和βT=[β0β1… βr]

結(jié)合上述兩個向量,則概率公式可以重新整理為:

也可以寫為另外一種替代形式:

即:

其中,z=βTx,或者z=β0+β1x1+…+βrxr

對概率公式進行簡單的轉(zhuǎn)換,可以得到:

上式左邊的轉(zhuǎn)換式被稱為logit函數(shù)。需要注意的是,p是違約的概率,而(1-p)是正常的概率。

比例p/(1-p)被稱為比率,即違約事件概率與正常事件概率的比值。因此,logit函數(shù)僅僅是比率的自然對數(shù)。而邏輯回歸模型是用比率的對數(shù)作為因變量的線性回歸模型。用給定數(shù)據(jù)擬合邏輯回歸模型,首先從似然函數(shù)和似然方程開始。最大似然法則(ML)通過構建一個代表從建議的模型得到的數(shù)據(jù)的似然值而發(fā)生作用。然后,如果給定的參數(shù)數(shù)據(jù)最大化了似然函數(shù)的值,則該法認為得到了最優(yōu)模型。

邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,此次模型開發(fā)的因變量就是二分類的(好/壞賬戶)。邏輯回歸對自變量類型一般不做規(guī)定,但它要求自變量與因變量的邏輯轉(zhuǎn)換之間應符合線性關系。當自變量為分類變量時,可不必考慮線性關系,但當自變量為連續(xù)型變量時,則需要檢驗二者之間的線性關系是否成立。如果不成立,應進行相應的變量變換,如對數(shù)變換、指數(shù)變換、多項式變換等,使其以恰當?shù)男问竭M入模型。由于此次開發(fā)采用分箱型模型的方法,所有的自變量屬于分類變量,所以不需要檢驗線性關系。

模型最終變量需要進行檢測,包括業(yè)務邏輯檢查、穩(wěn)定性檢查、回歸結(jié)果檢查、評估方差膨脹系數(shù)和變量特征分析。上面描述的幾種統(tǒng)計測試便是判斷在最終模型中,變量是否被包括或被排除的基礎。

3 基于邏輯回歸算法的模型開發(fā)

邏輯回歸算法在實踐應用中重要的步驟就是建立特征工程,特征工程的目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。在實踐應用中,大部分復雜模型的算法精進都是由數(shù)據(jù)科學家完成,我們能做的主要是數(shù)據(jù)獲取、變量預處理、征信特征矢量提取、變量特征分析和信用評分分組開發(fā)。以消費貸款信用評分模型為例,建立特征工程的過程如下步驟:

3.1 數(shù)據(jù)獲取

在消費貸款評分卡模型這個場景中,所用到的數(shù)據(jù)按照數(shù)據(jù)來源可以分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。建模使用的內(nèi)部數(shù)據(jù)主要是貸款申請信息、還款計劃與還款明細、存款流水明細等數(shù)據(jù),這些數(shù)據(jù)包括了客戶在貸款申請時以及放款之后的還款表現(xiàn)。所用到的外部數(shù)據(jù)主要為人行征信數(shù)據(jù)(銀行版),提取的信息數(shù)據(jù)包括征信查詢類變量、征信信貸產(chǎn)品類變量、征信基本信息類變量、征信信貸使用類等幾大類變量,例如:申請日前2年逾期次數(shù)、申請日前6個月查詢次數(shù)、上次逾期距今月份數(shù)、征信報告記錄的信用產(chǎn)品數(shù),正在使用的信用產(chǎn)品數(shù),上次登記公共記錄距今月份數(shù),公共信息中的不良記錄數(shù),公共信息中的破產(chǎn)記錄數(shù)等。

課題組按季度提取農(nóng)商行2017年1月到2018年12月的小額農(nóng)貸客戶,根據(jù)賬齡分析與遷徙矩陣分析給出好壞客戶的風險標識,在建模過程中對樣本進行抽樣。基于此構建模型訓練樣本,通常按照一定比例將模型訓練樣本隨機劃分為模型的訓練樣本與驗證樣本。由于模型需具有解釋性,因此采取邏輯回歸算法進行模型構建。

3.2 變量預處理

評分模型是將所有能預測客戶未來是否會發(fā)生目標事件(不同評分卡有不同的定義,通常申請評分卡指是否審批通過,行為評分卡指是否會出現(xiàn)違約,催收評分卡指是否催收恢復等)的變量,進行最優(yōu)化的排列組合,并予以適當?shù)臋嘀睾?,給予目標客戶群體一個客觀的信用評價,所以,模型變量的質(zhì)量對評分模型的評價預測結(jié)果會產(chǎn)生顯著的影響。

因此,在進入模型開發(fā)過程之前,根據(jù)不同零售金融業(yè)務的場景和需求,構建具有通用性和標準化的客戶信用評分模型及評級體系,提出可能影響目標達成的潛在因素,進而列舉未來開發(fā)程序所需要的各種變量邏輯與樣本期間長度,獲得變量清單,供模型開發(fā)使用。

在獲取數(shù)據(jù)后,需要對數(shù)據(jù)進行統(tǒng)計性分析工作,隨后對數(shù)據(jù)進行預處理的工作。通常情況下數(shù)據(jù)預處理包含了:極端值的識別和處理、缺失值的計算和處理、關鍵變量的列聯(lián)表及相關統(tǒng)計量的計算、穩(wěn)定性指標的計算、相關系數(shù)檢驗和特征矢量提取和變量特征分析。

由于異常值、缺失值處理,統(tǒng)計量計算、穩(wěn)定性指標計算步驟通常是作為數(shù)據(jù)挖掘過程的標準步驟,并且受限于篇幅的限制,此處僅以特征矢量提取和變量特征分析為例進行詳細說明。

3.3 征信特征矢量提取

在貸前申請階段,由于對客戶的其他信息了解的很有限,所以客戶的征信報告是獲取客戶信息與數(shù)據(jù)的主要來源。征信報告中有著豐富的客戶的歷史信貸信息與逾期情況,這些對于信用評分模型來說有著非常大的作用。征信報告中的信息可以分成四個大類,分別為查詢?nèi)罩?、個人信息、查詢信息和信貸信息。

不過因為征信報告中的信息和數(shù)據(jù)是無法直接使用的,所以需要依據(jù)一定的邏輯對征信報告中的數(shù)據(jù)進行提取,這就涉及到征信特征的矢量提取。通過對征信報告中豐富的歷史信息進行多維度矢量提取,可以為之后的預篩選模型做建模矢量準備,也可以為貸后部分做策略矢量準備。

提取征信特征矢量的作用:快速高效地解讀征信報告;便捷有效地了解客戶的個性化檔案;人群對比、時間對比簡單易行;單變量分析的基礎;作為模型的輸入變量。

在消費貸款評分卡建過程中,我們對征信報告進行了詳細的分析和特征矢量提取。累計從征信報告中提取出300個常用字段,并基于常用字段進行了高維征信特征矢量的衍生。從圖1可以看出部分衍生的特征矢量,為已提取的征信矢量類別。

圖1:已提取的征信矢量類別示例

下面以圖2為例對地址類變量的映射以及矢量加工邏輯進行說明。

圖2:矢量(以地址類變量為例)

3.4 變量特征分析

變量特性分析的目的是檢查變量對于好壞客戶的區(qū)分度,采用的方法是根據(jù)客戶在該變量上的取值進行分段,目標是在每個分段中盡可能最大化好壞客戶的比例差異,因此,在各個分段中好壞比例差異越大,該變量對好壞客戶預測的能力也越強,體現(xiàn)在指標信息熵中,信息熵越大,該變量的預測能力越強。

如表2所示,以“CRVNBNKVALLV9003 最近3個月查詢獲貸比”為例來說明CA表格中各欄的含義。

此變量的含義為最近3個月內(nèi)該客戶征信查詢筆數(shù)與最近3個月內(nèi)所有獲貸筆數(shù)的比值。從經(jīng)驗來說,此變量越大,說明該客戶在最近3個月被銀行拒絕的比例越高,因此違約的概率也越大。從上表中該變量的特性分析可以看到,這個值越大,的確壞客戶的占比越高,與業(yè)務經(jīng)驗相符。該變量的總信息熵為5.59,說明該變量具有很好的預測性。

3.5 信用評分分組開發(fā)

分組模型是指評分卡模型開發(fā)中的一種技術,由于評分卡模型的線性特點,很難描述貸款行為數(shù)據(jù)中的非線性關系,分組模型是一種很有價值的技術,使得評分卡模型能夠充分描述和說明數(shù)據(jù)中的非線性關系。分組模型需要兩個關鍵的階段:分組模型的分組選擇,分組模型的分組測試,分析和評定。分組選擇是將模型開發(fā)貸款樣本進行邏輯的分類。而邏輯的分類可以是通過經(jīng)驗的方法,也可以是通過統(tǒng)計學的方法。最常用也最有效的方法則是兩種方法的有機結(jié)合,是基于評分卡開發(fā)經(jīng)驗,業(yè)務知識和統(tǒng)計學分析的全面綜合結(jié)論。

根據(jù)客戶的過往信貸歷史,根據(jù)人群特征差異性,比如征信豐富程度和逾期情況,將人群分為多個人群組別。根據(jù)人群分組,信用評分模型將由不同的多個子模型組成,一次申請只會進入一個子模型進行評分,最終再進行分數(shù)校準。

評分卡的設計是首先根據(jù)征信報告計算客戶信貸產(chǎn)品的逾期情況,同時還要計算客戶的正常和歷史信貸產(chǎn)品的豐富情況,然后根據(jù)逾期情況和信貸產(chǎn)品的豐富情況進行分組,共分成五組,征信缺失或極少組;無逾期少征信組;無逾期多征信組;普通逾期組;重度逾期組,每組對應不同的征信特征矢量。

4 模型驗證

通常在建模數(shù)據(jù)量足夠的情況下,建模樣本分成估計樣本和驗證樣本。前者被用于變量的選擇和模型預測。后者將被用于驗證模型的穩(wěn)定性。一個好的風險模型應該對兩類樣本顯示出一致的排序能力。瑞天將預留樣本驗證作為標準評分卡開發(fā)過程的一部分。估計樣本通過用隨機抽樣隨機選取80%的群體進行評分卡開發(fā),與用其余的20%群體進行檢驗來驗證是否同樣有效。

對驗證樣本20%應用評分卡的目的是,用未在任何建模過程使用的獨立樣本來判斷評分卡的識別力。如果獨立樣本的評分與開發(fā)群體不同,這個回歸就基于對開發(fā)樣本的模型產(chǎn)生過度擬合(over-fitted),評分卡在業(yè)務環(huán)境中就不能很好地工作。

區(qū)分能力驗證,采用Kolmogorov-Smirnov (K-S)統(tǒng)計值和基尼系數(shù)(Gini)進行檢測。 需要對比開發(fā)樣本和驗證樣本的K-S統(tǒng)計值和基尼系數(shù)來判斷模型好壞區(qū)分能力是否發(fā)生大的變化。

一般申請的K-S值在20以上,Gini在30以上說明有區(qū)分能力。如表3所示。

表3

5 結(jié)論

從驗證情況來看,個別組測試集性能比驗證集性能低,原因是本次訓練采用隨機抽樣的方法進行訓練集和驗證集的選取,從統(tǒng)計學角度可能存在這種情況。其次,模型中的個別變量最終分值不完全是數(shù)據(jù)驅(qū)動的結(jié)果,有疊加業(yè)務經(jīng)驗以保證變量有一定的邏輯性。如學歷變量,由于歷史數(shù)據(jù)中研究生學歷的客戶很少,導致數(shù)據(jù)驅(qū)動結(jié)果顯示研究生學歷的評分低于大學本科、大學??频?。因此不能嚴格使用數(shù)據(jù)驅(qū)動的結(jié)果,需要結(jié)合業(yè)務經(jīng)驗進行分數(shù)調(diào)整。

雖然高的KS表示模型更具預測能力。同時也要小心KS造成過度擬合,由上表可知模型的區(qū)分能力非常穩(wěn)定,無較大變化,至少說明評分卡開發(fā)樣本與驗證樣本保持一致。在模型使用過程中也要注意監(jiān)控群體穩(wěn)定性,持續(xù)進行模型的跟蹤和優(yōu)化。

猜你喜歡
矢量分組邏輯
刑事印證證明準確達成的邏輯反思
邏輯
創(chuàng)新的邏輯
分組搭配
怎么分組
分組
基于矢量最優(yōu)估計的穩(wěn)健測向方法
色料減色混合色矢量計算