国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)倉庫的消費(fèi)金融信用等級(jí)模型及應(yīng)用研究

2021-01-29 22:20西安大略大學(xué)韓佩軒
商展經(jīng)濟(jì) 2021年15期
關(guān)鍵詞:信用等級(jí)聚類群體

西安大略大學(xué) 韓佩軒

1 消費(fèi)金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu)

1.1 消費(fèi)金融大數(shù)據(jù)整體框架

信息技術(shù)發(fā)展速度不斷加快,消費(fèi)金融能夠獲得更加精準(zhǔn)的金融數(shù)據(jù),同時(shí)數(shù)據(jù)量逐漸增多,在進(jìn)行金融數(shù)據(jù)處理的過程中以及對(duì)有關(guān)數(shù)據(jù)分析的時(shí)候過程比較繁瑣,需要耗費(fèi)大量的時(shí)間。所以,在數(shù)據(jù)處理過程中如果依然運(yùn)用傳統(tǒng)的技術(shù),是很難滿足需求的[1]。建立消費(fèi)金融大數(shù)據(jù)整體框架,對(duì)數(shù)據(jù)信息進(jìn)行存儲(chǔ)、處理,并做好統(tǒng)計(jì)工作。

1.2 消費(fèi)金融大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)

1.2.1 系統(tǒng)功能模塊

數(shù)據(jù)倉庫架構(gòu),主要為六個(gè)模塊,具體介紹如下:

其一,數(shù)據(jù)采集模塊主要的功能是對(duì)原始數(shù)據(jù)進(jìn)行采集,并在數(shù)倉中存儲(chǔ)。

其二,消息隊(duì)列模塊是緩沖隊(duì)列,其接收上游生產(chǎn)者傳輸?shù)臄?shù)據(jù)信息,向下游消費(fèi)者傳輸[2]。

其三,數(shù)據(jù)預(yù)處理模塊,用于預(yù)處理消費(fèi)消息隊(duì)列中的緩沖數(shù)據(jù),經(jīng)過流處理模塊計(jì)算之后存儲(chǔ)在實(shí)時(shí)數(shù)倉中。

其四,實(shí)時(shí)數(shù)倉,可以提供實(shí)時(shí)數(shù)據(jù)查詢。

其五,非實(shí)時(shí)數(shù)倉,對(duì)于T+1時(shí)間的數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析以及數(shù)據(jù)查詢服務(wù)予以提供。

其六,數(shù)據(jù)接口平臺(tái),將數(shù)據(jù)查詢接口提供給各業(yè)務(wù)系統(tǒng)。

1.3 消費(fèi)金融大數(shù)據(jù)平臺(tái)數(shù)據(jù)管理

1.3.1 數(shù)據(jù)抽取

其一,抽取結(jié)構(gòu)化數(shù)據(jù)。通過sqoop,可以將生產(chǎn)數(shù)據(jù)庫中的所有庫存數(shù)據(jù)導(dǎo)入HIVE,通過canal將每天增加的數(shù)據(jù)偽裝成MySQL的從端,利用主數(shù)據(jù)庫中的binlog進(jìn)行查詢,實(shí)時(shí)讀取的時(shí)候,向Kafka隊(duì)列中寫入數(shù)據(jù),而且還要實(shí)時(shí)更新數(shù)據(jù)傳輸?shù)介_源數(shù)據(jù)庫中,開源數(shù)據(jù)庫所發(fā)揮的作用是每天將數(shù)據(jù)定期抽取到HIVE中。

其二,抽取非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)應(yīng)的,即為視頻信息、圖片信息等,都不是由數(shù)字表達(dá)數(shù)據(jù)信息。這些數(shù)據(jù)都在RDB中統(tǒng)一存儲(chǔ),將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,媒體文件數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)中。利用字符識(shí)別技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成文本,提取出來,并在數(shù)據(jù)庫中存儲(chǔ)。

其三,抽取埋點(diǎn)日志。對(duì)客戶行為日志用Kafka緩沖,Web前端和后端使生產(chǎn)者將數(shù)據(jù)寫入到指定的Topic[3]。

1.3.2 數(shù)據(jù)轉(zhuǎn)換及處理

將數(shù)據(jù)維度模型建立起來,對(duì)于分析需求快速完成,且響應(yīng)性能得以發(fā)揮。在維度建模的時(shí)候,對(duì)決策的需求進(jìn)行分析,構(gòu)建數(shù)據(jù)模型,為分析需求提供服務(wù)。通過分析模型,將維度表建立起來,通過整合數(shù)據(jù),搜集個(gè)人基礎(chǔ)信息,建立客戶信息表。

2 消費(fèi)金融客戶信用等級(jí)模型的構(gòu)建

2.1 消費(fèi)金融客戶信用等級(jí)細(xì)分模型

2.1.1 k-means聚類算法

k-Means算法,是聚類數(shù)量經(jīng)過定義固定之后,將記錄迭代向聚類分配,并對(duì)聚類中心進(jìn)行調(diào)整,在模型沒有建立之前,其是作為一種無監(jiān)督的學(xué)習(xí)機(jī)制存在的。該算法的特點(diǎn)是輸入字段需要一個(gè)或多個(gè)字段,可以輸出的信息為多個(gè),能夠快速集聚大型數(shù)據(jù)。

2.1.2 模型建立

本文應(yīng)用K均值聚類算法建立了消費(fèi)金融客戶信用評(píng)級(jí)細(xì)分模型。具體采用如下的設(shè)計(jì)方法:

其一,在樣本數(shù)據(jù)的選取上,合理選擇客戶數(shù)據(jù)主要用于細(xì)分消費(fèi)信貸的信用等級(jí)。

其二,對(duì)數(shù)據(jù)信息分類處理中,可以根據(jù)消費(fèi)信貸行為劃分為兩個(gè)群體,即有消費(fèi)行為的客戶群體和無消費(fèi)行為的客戶群體[4]。

其三,在處理數(shù)據(jù)的過程中,基于有消費(fèi)信貸行為的客戶對(duì)數(shù)據(jù)進(jìn)行處理。

2.2 消費(fèi)金融客戶信用等級(jí)概率預(yù)測(cè)模型

2.2.1 算法介紹

其一,決策樹算法。決策樹是一種預(yù)測(cè)模型,是一種層次二叉樹結(jié)構(gòu)。樹中的每個(gè)內(nèi)部節(jié)點(diǎn)為單個(gè)變量指定一個(gè)替代測(cè)試。對(duì)于實(shí)值和整數(shù)值變量,使用閾值,對(duì)于屬性數(shù)據(jù),使用成員子集[5]。每個(gè)數(shù)據(jù)從樹的根沿著唯一的路徑向下到一個(gè)葉節(jié)點(diǎn),變量在每個(gè)內(nèi)部節(jié)點(diǎn)的選擇測(cè)試結(jié)果中確定具體的路徑。每個(gè)葉節(jié)點(diǎn)為最可能的葉分類指定類標(biāo)簽。

其二,邏輯回歸算法。在線性回歸中,樣本點(diǎn)設(shè)置在空間中的直線上或直線附近,自變量和因變量可以用線性函數(shù)表示,從而闡明它們之間所存在的對(duì)應(yīng)關(guān)系。然而,在某些應(yīng)用中,既可以用曲線來表示變量之間所存在的關(guān)系,也可以用非線性函數(shù)來表達(dá)這些關(guān)系。這個(gè)時(shí)候的計(jì)算依然是用最小二乘法,但參與回歸的時(shí)候則是以變量函數(shù)的形式。典型的是非線性回歸中,因變量是一個(gè)隨機(jī)變量,只有0和1兩個(gè)值。自變量通過線性組合影響因變量的期望,獲得回歸模型[6]。

其三,隨機(jī)森林算法。由于消費(fèi)者信用評(píng)級(jí)的概率模型為分類模型,所以模型比較多,可以根據(jù)需要選擇。比較常用的模型是決策樹、logistic回歸以及隨機(jī)森林等算法。

2.2.2 模型評(píng)價(jià)指標(biāo)

回歸算法的評(píng)價(jià)參數(shù)主要包括精確率、召回率和 F1分?jǐn)?shù)。

其一,精確率。模型預(yù)測(cè)是正,而且實(shí)際是正的樣本數(shù)量/模型預(yù)測(cè)是正的樣本數(shù)量,計(jì)算的時(shí)候使用TP/(TP+FP)。精確率就是通過預(yù)測(cè)所獲得的結(jié)果,主要的作用是預(yù)測(cè)為正的樣本中對(duì)的一共是多少。

其二,召回率。模型預(yù)測(cè)為正和實(shí)際為正的樣本數(shù)/模型預(yù)測(cè)為正的樣本數(shù),TP/(TP+FP)是用于計(jì)算的公式。將召回率與原始樣本進(jìn)行比較,表示樣本中有多少正面的樣本,以及有多少被預(yù)測(cè)的樣本是正確的[7]。

其三,F(xiàn)1分?jǐn)?shù)。該分?jǐn)?shù)就是精確率與召回率的調(diào)和平均數(shù),計(jì)算所采用的公式:

F1分?jǐn)?shù)=2×精確率×召回率/(精確率+召回率)

2.3 基于遷移學(xué)習(xí)的小樣本解決方案

2.3.1 生成式對(duì)抗網(wǎng)絡(luò)算法

采用遷移學(xué)習(xí)法可以通過現(xiàn)象對(duì)問題的共性把握,并能熟練地處理新問題。生成式對(duì)抗網(wǎng)絡(luò)算法即為GAN算法,這是一種新的機(jī)器學(xué)習(xí)思想。在這個(gè)模型中,參與者有兩個(gè),一個(gè)是生成模型,另一個(gè)是判別模型,其中的生成模型重在捕獲樣本數(shù)據(jù)的分布,生成的樣本與實(shí)際訓(xùn)練數(shù)據(jù)相似,其中為了生成與真實(shí)訓(xùn)練數(shù)據(jù)相似的樣本,越接近真實(shí)樣本越好。所謂的“判別模型”是一個(gè)雙分類器,根據(jù)訓(xùn)練數(shù)據(jù)的概率對(duì)樣本進(jìn)行估計(jì)。如果樣本的數(shù)據(jù)是通過真實(shí)的訓(xùn)練獲得的,就可以斷定其為輸出大概率;如果樣本的數(shù)據(jù)不是通過真實(shí)的訓(xùn)練獲得的,就可以斷定其為輸出小概率。生成式對(duì)抗網(wǎng)絡(luò)算法的主要目的是對(duì)發(fā)生器的輸出情況做出判斷[8]。

2.3.2 模型建立

其一,選擇數(shù)據(jù)。如果在真實(shí)樣本中發(fā)現(xiàn)有數(shù)據(jù)選取樣本不足的問題,需要過濾掉客戶數(shù)據(jù)字段,對(duì)消費(fèi)者信用等級(jí)進(jìn)一步細(xì)分。

其二,處理數(shù)據(jù)。在處理缺失值的時(shí)候,需要按照當(dāng)前類型比例對(duì)分類變量的缺失值信息進(jìn)行隨機(jī)化填充,如果在寬表處理之前連續(xù)性變量的缺失值已經(jīng)處理了,則缺失的時(shí)候都默認(rèn)賦值為0。

對(duì)異常值和極值進(jìn)行替換,使其成為最接近極值的值。例如,如果離群值定義為高于或低于三個(gè)標(biāo)準(zhǔn)差的任何值,則所有離群值都將替換為該范圍內(nèi)的最高或最低值[8]。

其三,迭代次數(shù)的設(shè)置。將總的迭代次數(shù)和一次訓(xùn)練迭代的操作是固定發(fā)生器,對(duì)鑒別器進(jìn)行K次訓(xùn)練,使鑒別器逼近最優(yōu)鑒別器,然后固定鑒別器,對(duì)發(fā)生器進(jìn)行一次優(yōu)化訓(xùn)練。執(zhí)行訓(xùn)練循環(huán),直到達(dá)到總迭代次數(shù)n。

3 基于信用等級(jí)模型的客戶群體分類與預(yù)測(cè)

3.1 變量分析

對(duì)2019年5月至2020年5月的客戶數(shù)據(jù)實(shí)施模型訓(xùn)練,以產(chǎn)品的所有業(yè)務(wù)數(shù)據(jù)作為樣本,客戶的逾期率可以達(dá)到1.1%,不良率可以達(dá)到0.6%。從客戶的屬性來看,主要包括個(gè)人基本信息、信用行為信息、第三方外部信息。與客戶相關(guān)的變量為233個(gè),對(duì)變量進(jìn)行分析,對(duì)客戶的區(qū)分度進(jìn)行分析。

3.2 消費(fèi)金融客戶信用等級(jí)細(xì)分模型實(shí)驗(yàn)結(jié)果

基于sparkML框架,使用scalar程序?qū)-means模型進(jìn)行設(shè)計(jì)。聚類數(shù)目由2個(gè)增加到10個(gè),調(diào)整聚類數(shù)目后,選擇最優(yōu)聚類數(shù)目。如果簇的數(shù)目是第一次迭代為3,此時(shí)的模型就是最優(yōu)的[9]。

比如,群體一,是2046人,在人群總數(shù)中所占有的比例是9%,平均授信是180000元,平均年齡是40歲,要比整體客戶的平均年齡要高一些。

群體二,是17050人,在人群總數(shù)中所占有的比例是75%,這個(gè)群體的年齡分布比較廣泛,授信額度的分布也是比較大的。

群體三,是3602人,在人群總數(shù)中所占有的比例是16%,這個(gè)群體的年齡是37歲。

對(duì)第二組進(jìn)一步細(xì)分。風(fēng)險(xiǎn)客戶群主要包括拒絕客戶。日利率為0.000666,群體一的授信額度較高,被稱為“高授信客戶群”。第三組群體風(fēng)險(xiǎn)較大,稱為“風(fēng)險(xiǎn)客戶群”,第二組稱為“大眾客戶群”。之前有過授信額而且有過借款,但此后就調(diào)整了授信。

如果按照客戶的生命周期對(duì)大客戶群進(jìn)行分類,可以進(jìn)一步細(xì)分為一個(gè)獨(dú)立的群體,具有很大的戰(zhàn)略價(jià)值。大眾年輕客戶年齡在19歲到30歲之間;大眾不斷增長(zhǎng)的客戶年齡在31至38歲之間;顧客的年齡介于39歲到46歲之間。

3.3 消費(fèi)金融客戶信用等級(jí)概率預(yù)測(cè)模型實(shí)驗(yàn)結(jié)果

進(jìn)行訓(xùn)練的時(shí)候按照決策樹模型、邏輯回歸模型和隨機(jī)森林模型,模型評(píng)價(jià)指標(biāo)按照精確率、召回率、F1分?jǐn)?shù)等,結(jié)果表明,隨機(jī)森林模型的結(jié)果比較高,模型準(zhǔn)確率高于90%,預(yù)測(cè)效果非常好。

4 結(jié)語

通過上面的研究可以明確,研究互聯(lián)網(wǎng)消費(fèi)金融等級(jí)模型,根據(jù)時(shí)間選擇合適的模型分析風(fēng)險(xiǎn)控制是非常必要的。在本文的研究中,基于消費(fèi)金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu),構(gòu)建消費(fèi)金融客戶信用等級(jí)模型,對(duì)客戶群體進(jìn)行分類并預(yù)測(cè),提出做好風(fēng)險(xiǎn)評(píng)估的重要性,為信用風(fēng)險(xiǎn)管理研究提供依據(jù)。

猜你喜歡
信用等級(jí)聚類群體
通過自然感染獲得群體免疫有多可怕
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
“群體失語”需要警惕——“為官不言”也是腐敗
武器裝備科研生產(chǎn)單位信用評(píng)價(jià)工作取得階段性成果
基于高斯混合聚類的陣列干涉SAR三維成像
昌吉州建立事業(yè)單位法人信用等級(jí)評(píng)價(jià)體系
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
基于改進(jìn)的遺傳算法的模糊聚類算法
關(guān)愛特殊群體不畏難
特殊群體要給予特殊的關(guān)愛
泗阳县| 六安市| 西林县| 南召县| 锦州市| 饶平县| 辉南县| 吴川市| 温州市| 冷水江市| 隆化县| 漳平市| 义乌市| 靖安县| 望江县| 库伦旗| 徐州市| 邹平县| 许昌县| 龙里县| 冕宁县| 日土县| 康马县| 虞城县| 法库县| 新营市| 双柏县| 象山县| 嘉黎县| 都匀市| 文安县| 稻城县| 曲阳县| 石楼县| 阜宁县| 那坡县| 乳源| 鸡东县| 和龙市| 孟连| 昆明市|