国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)倉(cāng)庫(kù)的消費(fèi)金融信用等級(jí)模型及應(yīng)用研究

2021-09-10 07:22:44韓佩軒
商展經(jīng)濟(jì)·上半月 2021年8期
關(guān)鍵詞:消費(fèi)金融數(shù)據(jù)倉(cāng)庫(kù)體系構(gòu)建

摘 要:消費(fèi)金融所面向的主要客戶是低收入群體,如果采用傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)估模型不是很適用。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及社交網(wǎng)絡(luò)的興起,在消費(fèi)金融機(jī)構(gòu)中,數(shù)據(jù)成為核心金融資源,大量的數(shù)據(jù)信息都被集中處理,并將信用評(píng)級(jí)模型建立起來(lái),對(duì)風(fēng)險(xiǎn)做出預(yù)測(cè)。本文著重研究基于數(shù)據(jù)倉(cāng)庫(kù)的消費(fèi)金融信用等級(jí)模型及應(yīng)用,首先分析了消費(fèi)金融客戶數(shù)據(jù)倉(cāng)庫(kù)及其私有云體系結(jié)構(gòu),然后探討了消費(fèi)金融客戶信用等級(jí)模型的構(gòu)建,最后對(duì)基于信用等級(jí)模型的客戶群體進(jìn)行了分類與預(yù)測(cè)。

關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);消費(fèi)金融;信用等級(jí)模型;應(yīng)用;體系構(gòu)建

本文索引:韓佩軒.<標(biāo)題>[J].商展經(jīng)濟(jì),2021(15):-057.

中圖分類號(hào):F832 文獻(xiàn)標(biāo)識(shí)碼:A

DOI:10.12245/j.issn.2096-6776.2021.15.18

1 消費(fèi)金融客戶數(shù)據(jù)倉(cāng)庫(kù)及其私有云體系結(jié)構(gòu)

1.1 消費(fèi)金融大數(shù)據(jù)整體框架

信息技術(shù)發(fā)展速度不斷加快,消費(fèi)金融能夠獲得更加精準(zhǔn)的金融數(shù)據(jù),同時(shí)數(shù)據(jù)量逐漸增多,在進(jìn)行金融數(shù)據(jù)處理的過程中以及對(duì)有關(guān)數(shù)據(jù)分析的時(shí)候過程比較繁瑣,需要耗費(fèi)大量的時(shí)間。所以,在數(shù)據(jù)處理過程中如果依然運(yùn)用傳統(tǒng)的技術(shù),是很難滿足需求的[1] 。建立消費(fèi)金融大數(shù)據(jù)整體框架,對(duì)數(shù)據(jù)信息進(jìn)行存儲(chǔ)、處理,并做好統(tǒng)計(jì)工作。

1.2 消費(fèi)金融大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)

1.2.1 系統(tǒng)功能模塊

數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),主要為六個(gè)模塊,具體介紹如下:

其一,數(shù)據(jù)采集模塊主要的功能是對(duì)原始數(shù)據(jù)進(jìn)行采集,并在數(shù)倉(cāng)中存儲(chǔ)。

其二,消息隊(duì)列模塊是緩沖隊(duì)列,其接收上游生產(chǎn)者傳輸?shù)臄?shù)據(jù)信息,向下游消費(fèi)者傳輸[2] 。

其三,數(shù)據(jù)預(yù)處理模塊,用于預(yù)處理消費(fèi)消息隊(duì)列中的緩沖數(shù)據(jù),經(jīng)過流處理模塊計(jì)算之后存儲(chǔ)在實(shí)時(shí)數(shù)倉(cāng)中。

其四,實(shí)時(shí)數(shù)倉(cāng),可以提供實(shí)時(shí)數(shù)據(jù)查詢。

其五,非實(shí)時(shí)數(shù)倉(cāng),對(duì)于T+1時(shí)間的數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析以及數(shù)據(jù)查詢服務(wù)予以提供。

其六,數(shù)據(jù)接口平臺(tái),將數(shù)據(jù)查詢接口提供給各業(yè)務(wù)系統(tǒng)。

1.3 消費(fèi)金融大數(shù)據(jù)平臺(tái)數(shù)據(jù)管理

1.3.1 數(shù)據(jù)抽取

其一,抽取結(jié)構(gòu)化數(shù)據(jù)。通過sqoop,可以將生產(chǎn)數(shù)據(jù)庫(kù)中的所有庫(kù)存數(shù)據(jù)導(dǎo)入HIVE,通過canal將每天增加的數(shù)據(jù)偽裝成MySQL的從端,利用主數(shù)據(jù)庫(kù)中的binlog進(jìn)行查詢,實(shí)時(shí)讀取的時(shí)候,向Kafka隊(duì)列中寫入數(shù)據(jù),而且還要實(shí)時(shí)更新數(shù)據(jù)傳輸?shù)介_源數(shù)據(jù)庫(kù)中,開源數(shù)據(jù)庫(kù)所發(fā)揮的作用是每天將數(shù)據(jù)定期抽取到HIVE中。

其二,抽取非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)應(yīng)的,即為視頻信息、圖片信息等,都不是由數(shù)字表達(dá)數(shù)據(jù)信息。這些數(shù)據(jù)都在RDB中統(tǒng)一存儲(chǔ),將結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),媒體文件數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)中。利用字符識(shí)別技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成文本,提取出來(lái),并在數(shù)據(jù)庫(kù)中存儲(chǔ)。

其三,抽取埋點(diǎn)日志。對(duì)客戶行為日志用Kafka緩沖,Web前端和后端使生產(chǎn)者將數(shù)據(jù)寫入到指定的Topic[3] 。

1.3.2 數(shù)據(jù)轉(zhuǎn)換及處理

將數(shù)據(jù)維度模型建立起來(lái),對(duì)于分析需求快速完成,且響應(yīng)性能得以發(fā)揮。在維度建模的時(shí)候,對(duì)決策的需求進(jìn)行分析,構(gòu)建數(shù)據(jù)模型,為分析需求提供服務(wù)。通過分析模型,將維度表建立起來(lái),通過整合數(shù)據(jù),搜集個(gè)人基礎(chǔ)信息,建立客戶信息表。

2 消費(fèi)金融客戶信用等級(jí)模型的構(gòu)建

2.1 消費(fèi)金融客戶信用等級(jí)細(xì)分模型

2.1.1 k-means聚類算法

k-Means算法,是聚類數(shù)量經(jīng)過定義固定之后,將記錄迭代向聚類分配,并對(duì)聚類中心進(jìn)行調(diào)整,在模型沒有建立之前,其是作為一種無(wú)監(jiān)督的學(xué)習(xí)機(jī)制存在的。該算法的特點(diǎn)是輸入字段需要一個(gè)或多個(gè)字段,可以輸出的信息為多個(gè),能夠快速集聚大型數(shù)據(jù)。

2.1.2 模型建立

本文應(yīng)用K均值聚類算法建立了消費(fèi)金融客戶信用評(píng)級(jí)細(xì)分模型。具體采用如下的設(shè)計(jì)方法:

其一,在樣本數(shù)據(jù)的選取上,合理選擇客戶數(shù)據(jù)主要用于細(xì)分消費(fèi)信貸的信用等級(jí)。

其二,對(duì)數(shù)據(jù)信息分類處理中,可以根據(jù)消費(fèi)信貸行為劃分為兩個(gè)群體,即有消費(fèi)行為的客戶群體和無(wú)消費(fèi)行為的客戶群體[4] 。

其三,在處理數(shù)據(jù)的過程中,基于有消費(fèi)信貸行為的客戶對(duì)數(shù)據(jù)進(jìn)行處理。

2.2 消費(fèi)金融客戶信用等級(jí)概率預(yù)測(cè)模型

2.2.1 算法介紹

其一,決策樹算法。決策樹是一種預(yù)測(cè)模型,是一種層次二叉樹結(jié)構(gòu)。樹中的每個(gè)內(nèi)部節(jié)點(diǎn)為單個(gè)變量指定一個(gè)替代測(cè)試。對(duì)于實(shí)值和整數(shù)值變量,使用閾值,對(duì)于屬性數(shù)據(jù),使用成員子集[5]。每個(gè)數(shù)據(jù)從樹的根沿著唯一的路徑向下到一個(gè)葉節(jié)點(diǎn),變量在每個(gè)內(nèi)部節(jié)點(diǎn)的選擇測(cè)試結(jié)果中確定具體的路徑。每個(gè)葉節(jié)點(diǎn)為最可能的葉分類指定類標(biāo)簽。

其二,邏輯回歸算法。在線性回歸中,樣本點(diǎn)設(shè)置在空間中的直線上或直線附近,自變量和因變量可以用線性函數(shù)表示,從而闡明它們之間所存在的對(duì)應(yīng)關(guān)系。然而,在某些應(yīng)用中,既可以用曲線來(lái)表示變量之間所存在的關(guān)系,也可以用非線性函數(shù)來(lái)表達(dá)這些關(guān)系。這個(gè)時(shí)候的計(jì)算依然是用最小二乘法,但參與回歸的時(shí)候則是以變量函數(shù)的形式。典型的是非線性回歸中,因變量是一個(gè)隨機(jī)變量,只有0和1兩個(gè)值。自變量通過線性組合影響因變量的期望,獲得回歸模型[6] 。

其三,隨機(jī)森林算法。由于消費(fèi)者信用評(píng)級(jí)的概率模型為分類模型,所以模型比較多,可以根據(jù)需要選擇。比較常用的模型是決策樹、logistic回歸以及隨機(jī)森林等算法。

2.2.2 模型評(píng)價(jià)指標(biāo)

回歸算法的評(píng)價(jià)參數(shù)主要包括精確率、召回率和 F1分?jǐn)?shù)。

其一,精確率。模型預(yù)測(cè)是正,而且實(shí)際是正的樣本數(shù)量/模型預(yù)測(cè)是正的樣本數(shù)量,計(jì)算的時(shí)候使用

TP/(TP+FP)。精確率就是通過預(yù)測(cè)所獲得的結(jié)果,主要的作用是預(yù)測(cè)為正的樣本中對(duì)的一共是多少。

其二,召回率。模型預(yù)測(cè)為正和實(shí)際為正的樣本數(shù)/模型預(yù)測(cè)為正的樣本數(shù),TP/(TP+FP)是用于計(jì)算的公式。將召回率與原始樣本進(jìn)行比較,表示樣本中有多少正面的樣本,以及有多少被預(yù)測(cè)的樣本是正確的[7] 。

其三,F(xiàn)1分?jǐn)?shù)。該分?jǐn)?shù)就是精確率與召回率的調(diào)和平均數(shù),計(jì)算所采用的公式:

F1分?jǐn)?shù)=2×精確率×召回率/(精確率+召回率)

2.3 基于遷移學(xué)習(xí)的小樣本解決方案

2.3.1 生成式對(duì)抗網(wǎng)絡(luò)算法

采用遷移學(xué)習(xí)法可以通過現(xiàn)象對(duì)問題的共性把握,并能熟練地處理新問題。生成式對(duì)抗網(wǎng)絡(luò)算法即為GAN算法,這是一種新的機(jī)器學(xué)習(xí)思想。在這個(gè)模型中,參與者有兩個(gè),一個(gè)是生成模型,另一個(gè)是判別模型,其中的生成模型重在捕獲樣本數(shù)據(jù)的分布,生成的樣本與實(shí)際訓(xùn)練數(shù)據(jù)相似,其中為了生成與真實(shí)訓(xùn)練數(shù)據(jù)相似的樣本,越接近真實(shí)樣本越好。所謂的“判別模型”是一個(gè)雙分類器,根據(jù)訓(xùn)練數(shù)據(jù)的概率對(duì)樣本進(jìn)行估計(jì)。如果樣本的數(shù)據(jù)是通過真實(shí)的訓(xùn)練獲得的,就可以斷定其為輸出大概率;如果樣本的數(shù)據(jù)不是通過真實(shí)的訓(xùn)練獲得的,就可以斷定其為輸出小概率。生成式對(duì)抗網(wǎng)絡(luò)算法的主要目的是對(duì)發(fā)生器的輸出情況做出判斷[8] 。

2.3.2 模型建立

其一,選擇數(shù)據(jù)。如果在真實(shí)樣本中發(fā)現(xiàn)有數(shù)據(jù)選取樣本不足的問題,需要過濾掉客戶數(shù)據(jù)字段,對(duì)消費(fèi)者信用等級(jí)進(jìn)一步細(xì)分。

其二,處理數(shù)據(jù)。在處理缺失值的時(shí)候,需要按照當(dāng)前類型比例對(duì)分類變量的缺失值信息進(jìn)行隨機(jī)化填充,如果在寬表處理之前連續(xù)性變量的缺失值已經(jīng)處理了,則缺失的時(shí)候都默認(rèn)賦值為0。

對(duì)異常值和極值進(jìn)行替換,使其成為最接近極值的值。例如,如果離群值定義為高于或低于三個(gè)標(biāo)準(zhǔn)差的任何值,則所有離群值都將替換為該范圍內(nèi)的最高或最

低值[8] 。

其三,迭代次數(shù)的設(shè)置。將總的迭代次數(shù)和一次訓(xùn)練迭代的操作是固定發(fā)生器,對(duì)鑒別器進(jìn)行K次訓(xùn)練,使鑒別器逼近最優(yōu)鑒別器,然后固定鑒別器,對(duì)發(fā)生器進(jìn)行一次優(yōu)化訓(xùn)練。執(zhí)行訓(xùn)練循環(huán),直到達(dá)到總迭代次數(shù)n。

3 基于信用等級(jí)模型的客戶群體分類與預(yù)測(cè)

3.1 變量分析

對(duì)2019年5月至2020年5月的客戶數(shù)據(jù)實(shí)施模型訓(xùn)練,以產(chǎn)品的所有業(yè)務(wù)數(shù)據(jù)作為樣本,客戶的逾期率可以達(dá)到1.1%,不良率可以達(dá)到0.6%。從客戶的屬性來(lái)看,主要包括個(gè)人基本信息、信用行為信息、第三方外部信息。與客戶相關(guān)的變量為233個(gè),對(duì)變量進(jìn)行分析,對(duì)客戶的區(qū)分度進(jìn)行分析。

3.2 消費(fèi)金融客戶信用等級(jí)細(xì)分模型實(shí)驗(yàn)結(jié)果

基于sparkML框架,使用scalar程序?qū)-means模型進(jìn)行設(shè)計(jì)。聚類數(shù)目由2個(gè)增加到10個(gè),調(diào)整聚類數(shù)目后,選擇最優(yōu)聚類數(shù)目。如果簇的數(shù)目是第一次迭代為3,此時(shí)的模型就是最優(yōu)的[9] 。

比如,群體一,是2046人,在人群總數(shù)中所占有的比例是9%,平均授信是180000元,平均年齡是40歲,要比整體客戶的平均年齡要高一些。

群體二,是17050人,在人群總數(shù)中所占有的比例是75%,這個(gè)群體的年齡分布比較廣泛,授信額度的分布也是比較大的。

群體三,是3602人,在人群總數(shù)中所占有的比例是16%,這個(gè)群體的年齡是37歲。

對(duì)第二組進(jìn)一步細(xì)分。風(fēng)險(xiǎn)客戶群主要包括拒絕客戶。日利率為0.000666,群體一的授信額度較高,被稱為“高授信客戶群”。第三組群體風(fēng)險(xiǎn)較大,稱為“風(fēng)險(xiǎn)客戶群”,第二組稱為“大眾客戶群”。之前有過授信額而且有過借款,但此后就調(diào)整了授信。

如果按照客戶的生命周期對(duì)大客戶群進(jìn)行分類,可以進(jìn)一步細(xì)分為一個(gè)獨(dú)立的群體,具有很大的戰(zhàn)略價(jià)值。大眾年輕客戶年齡在19歲到30歲之間;大眾不斷增長(zhǎng)的客戶年齡在31至38歲之間;顧客的年齡介于39歲到46歲之間。

3.3 消費(fèi)金融客戶信用等級(jí)概率預(yù)測(cè)模型實(shí)驗(yàn)結(jié)果

進(jìn)行訓(xùn)練的時(shí)候按照決策樹模型、邏輯回歸模型和隨機(jī)森林模型,模型評(píng)價(jià)指標(biāo)按照精確率、召回率、F1分?jǐn)?shù)等,結(jié)果表明,隨機(jī)森林模型的結(jié)果比較高,模型準(zhǔn)確率高于90%,預(yù)測(cè)效果非常好。

4 結(jié)語(yǔ)

通過上面的研究可以明確,研究互聯(lián)網(wǎng)消費(fèi)金融等級(jí)模型,根據(jù)時(shí)間選擇合適的模型分析風(fēng)險(xiǎn)控制是非常必要的。在本文的研究中,基于消費(fèi)金融客戶數(shù)據(jù)倉(cāng)庫(kù)及其私有云體系結(jié)構(gòu),構(gòu)建消費(fèi)金融客戶信用等級(jí)模型,對(duì)客戶群體進(jìn)行分類并預(yù)測(cè),提出做好風(fēng)險(xiǎn)評(píng)估的重要性,為信用風(fēng)險(xiǎn)管理研究提供依據(jù)。

參考文獻(xiàn)

劉新海.數(shù)字金融下的消費(fèi)者信用評(píng)分現(xiàn)狀與展望[J].征信,2020,256(5):70-77,86.

鄭浦陽(yáng).基于期望確認(rèn)模型的消費(fèi)金融用戶感知對(duì)持續(xù)使用意愿的影響研究[J].品牌研究,2020,42(3):130-133.

常尚新,劉秀.基于PVAR模型的消費(fèi)金融對(duì)經(jīng)濟(jì)增長(zhǎng)影響分析[J].商業(yè)經(jīng)濟(jì)研究,2019,787(24):161-163.

鄭浦陽(yáng).用UTAUT模型進(jìn)行消費(fèi)金融領(lǐng)域的消費(fèi)者行為分析[J].福建茶葉,2020,219(3):99-100.

劉錚.基于SOR與理性行為模型的大學(xué)生使用消費(fèi)金融工具行為影響因素及機(jī)理研究——以“螞蟻花唄”為例[J].金融理論與實(shí)踐,2020(7):59-66.

申卓.大數(shù)據(jù)背景下互聯(lián)網(wǎng)金融機(jī)構(gòu)的信用評(píng)級(jí)模型研究[J].中國(guó)新通信,2019,21(1):203-205.

陳琳,季凌.基于數(shù)據(jù)挖掘的中小企業(yè)客戶信用評(píng)級(jí)模型的設(shè)計(jì)與實(shí)現(xiàn)[J].海峽科技與產(chǎn)業(yè),2019(1):67-68.

楊洋洋,謝雪梅.基于大數(shù)據(jù)的電商網(wǎng)貸動(dòng)態(tài)信用評(píng)級(jí)模型研究——來(lái)自“拍拍貸”的經(jīng)驗(yàn)數(shù)據(jù)[J].征信,2019, 37(9):30-38,53.

楊洋洋,謝雪梅.基于大數(shù)據(jù)的電商網(wǎng)貸動(dòng)態(tài)信用評(píng)級(jí)模型研究——來(lái)自“拍拍貸”的經(jīng)驗(yàn)數(shù)據(jù)[J].征信,2019(9):30-38.

Abstract: The main customers of consumer finance are low-income groups, and the traditional credit risk assessment model is not very suitable. With the development of mobile Internet technology and the rise of social networks, data has become the core financial resources in consumer financial institutions. A large amount of data information is processed in a centralized manner, and a credit rating model is established to predict risks. This paper focuses on the research and application of consumer finance credit rating model based on data warehouse. Firstly, it analyzes the consumer finance customer data warehouse and its private cloud architecture, then discusses the construction of consumer finance customer credit rating model, and finally classifies and forecasts the customer groups based on the credit rating model.

Keywords: data warehouse; consumer finance; credit rating model; application; system construction

猜你喜歡
消費(fèi)金融數(shù)據(jù)倉(cāng)庫(kù)體系構(gòu)建
基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
互聯(lián)網(wǎng)消費(fèi)金融服務(wù)的法律風(fēng)險(xiǎn)分析
商情(2016年42期)2016-12-23 14:28:02
多元化農(nóng)業(yè)技術(shù)推廣體系的構(gòu)建探索
農(nóng)村職業(yè)學(xué)校學(xué)生成績(jī)考核體系的研究
如何構(gòu)建旅游管理專業(yè)實(shí)踐教學(xué)體系
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
淺談保險(xiǎn)公司進(jìn)入消費(fèi)金融領(lǐng)域
商(2016年22期)2016-07-08 16:57:13
互聯(lián)網(wǎng)金融背景下消費(fèi)金融發(fā)展新趨勢(shì)分析
商(2016年20期)2016-07-04 08:17:25
構(gòu)建行政事業(yè)單位內(nèi)部控制體系的思考
黑河市| 左云县| 昌平区| 白朗县| 益阳市| 东至县| 凉城县| 滦南县| 辉县市| 大宁县| 探索| 龙井市| 沿河| 新津县| 丰镇市| 堆龙德庆县| 宝鸡市| 清原| 德惠市| 衡阳县| 扎赉特旗| 汪清县| 霍州市| 东丰县| 屯留县| 资讯 | 张家口市| 闵行区| 吴川市| 旺苍县| 伊春市| 凤庆县| 襄城县| 平阳县| 旬邑县| 蓬莱市| 德惠市| 新津县| 双桥区| 东乡| 文化|