史 偉,王明月,張青云,李曉會(huì)
基于xgboost模型的消費(fèi)者信用評(píng)級(jí)系統(tǒng)
史 偉,王明月,張青云,李曉會(huì)
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
設(shè)計(jì)了一種基于xgboost模型的消費(fèi)者信用評(píng)級(jí)系統(tǒng),通過(guò)人臉識(shí)別方法選出一部分特征作為消費(fèi)者標(biāo)簽,量化消費(fèi)者信息,以此敘述消費(fèi)者形象;對(duì)-means聚類進(jìn)行改進(jìn),提出了基于核密度的人臉識(shí)別聚類算法,將消費(fèi)者分成不同的類別,據(jù)此完成信用評(píng)級(jí)。系統(tǒng)能夠緩解噪聲點(diǎn)敏感,使原始中心點(diǎn)選擇更加簡(jiǎn)單,并且較少使用銀行交易記錄,具有較高的可用性。
xgboost模型;信用評(píng)級(jí);消費(fèi)者畫像;聚類算法
目前,人工智能技術(shù)[1]的快速發(fā)展,使其再次成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn),而人臉識(shí)別技術(shù)是最受關(guān)注的應(yīng)用之一,甚至對(duì)金融行業(yè)也產(chǎn)生了積極的影響。隨著人臉識(shí)別等技術(shù)的不斷應(yīng)用,也對(duì)金融行業(yè)的風(fēng)險(xiǎn)保護(hù)問(wèn)題提出了挑戰(zhàn),例如借貸過(guò)程中可能存在的欺詐現(xiàn)象,需要對(duì)消費(fèi)者的信用進(jìn)行評(píng)級(jí),進(jìn)而控制風(fēng)險(xiǎn)。因此,建立一種安全、準(zhǔn)確的消費(fèi)者信用評(píng)級(jí)系統(tǒng)是非常必要的。
信用評(píng)級(jí)[2]是指利用消費(fèi)者的個(gè)人基本信息以及信貸信息進(jìn)行分析,得出消費(fèi)者的信用等級(jí),進(jìn)而判斷消費(fèi)者是否有能力接受借貸服務(wù),接受哪個(gè)等級(jí)的借貸服務(wù),以及違約的風(fēng)險(xiǎn)和損失等級(jí)。
有很多傳統(tǒng)的信用評(píng)級(jí)模型,例如FICO[3]通過(guò)統(tǒng)計(jì)分析原始數(shù)據(jù)來(lái)建立數(shù)學(xué)模型,預(yù)測(cè)消費(fèi)者的信用評(píng)級(jí),但是缺少正確數(shù)據(jù)的存儲(chǔ),還不適用于處理企業(yè)信貸問(wèn)題;David Durand提出了判別分析法[4],通過(guò)對(duì)原始樣本的規(guī)律建立函數(shù),實(shí)現(xiàn)對(duì)大量的原始數(shù)據(jù)的有效分類,具有較高的精確度和效率,然而得出的結(jié)果缺少經(jīng)濟(jì)方面的意義;第十二屆全國(guó)人大三次會(huì)議中,李克強(qiáng)總理第一次提出了“互聯(lián)網(wǎng)+”[5]計(jì)劃,促進(jìn)新興技術(shù)和傳統(tǒng)行業(yè)的融合發(fā)展,特別是金融行業(yè),我國(guó)互聯(lián)網(wǎng)金融行業(yè)隨著余額寶等理財(cái)產(chǎn)品的產(chǎn)生而快速發(fā)展。
由上述分析可以看出,傳統(tǒng)的風(fēng)險(xiǎn)評(píng)級(jí)方法都存在著一定的缺陷。因此,本文提出了一種消費(fèi)者信用評(píng)級(jí)系統(tǒng),基本步驟如下。
(1)利用人臉識(shí)別技術(shù)獲取消費(fèi)者信息,在Hadoop分布式平臺(tái)利用MapReduce分布式架構(gòu)、HDFS分布式文件系統(tǒng)和xgboost回歸法描繪消費(fèi)者的形象。
(2)利用核密度人臉識(shí)別聚類算法將消費(fèi)者分成不同的等級(jí),對(duì)其進(jìn)行分析,以達(dá)到金融風(fēng)險(xiǎn)控制的目的。
消費(fèi)者畫像構(gòu)建是指建立標(biāo)簽體系[6],在Hadoop分布式平臺(tái)[7]利用xgboost回歸法[8]將消費(fèi)者原始標(biāo)簽信息定量化,利用HDFS分布式文件系統(tǒng)[9]存儲(chǔ)、MapReduce分布式架構(gòu)[10]計(jì)算消費(fèi)者數(shù)據(jù),進(jìn)而描述消費(fèi)者畫像,便于計(jì)算機(jī)處理,消費(fèi)者畫像廣泛應(yīng)用于金融領(lǐng)域,可以找出適應(yīng)需求的消費(fèi)者或者生產(chǎn)出適合消費(fèi)者的產(chǎn)品。消費(fèi)者畫像形成過(guò)程如圖1所示。
圖1 消費(fèi)者畫像
構(gòu)建消費(fèi)者畫像的詳細(xì)步驟如下。
(1)建立標(biāo)簽體系[11]。標(biāo)簽體系是用于描述消費(fèi)者畫像,首先通過(guò)對(duì)消費(fèi)者依次進(jìn)行人臉檢測(cè)、圖像預(yù)處理、特征提取和人臉識(shí)別[12]得到消費(fèi)者的具體信息,選出有代表性的特征數(shù)據(jù),即為標(biāo)簽數(shù)據(jù),通過(guò)標(biāo)簽來(lái)對(duì)消費(fèi)者的特點(diǎn)進(jìn)行描述,即產(chǎn)生正確的消費(fèi)者標(biāo)簽,建立標(biāo)簽體系,每個(gè)消費(fèi)者都具有自己的特征標(biāo)簽,分析每個(gè)特征標(biāo)簽,根據(jù)消費(fèi)者所在的群體可以得出其獨(dú)有的特征,分析可得消費(fèi)者的違約風(fēng)險(xiǎn)等信息。
(2)定量化消費(fèi)者數(shù)據(jù)。消費(fèi)者標(biāo)簽信息屬于定性化數(shù)據(jù),因此需要對(duì)其進(jìn)行定量化以便后續(xù)計(jì)算,xgboost回歸法可以實(shí)現(xiàn)此操作。xgboost回歸法是指任一樣本根據(jù)某個(gè)特征值進(jìn)行分裂,每次分裂形成1棵樹(shù),添加1棵樹(shù)的實(shí)質(zhì)是機(jī)器學(xué)習(xí)1個(gè)特征標(biāo)簽,每一棵樹(shù)都被學(xué)習(xí)之后,通過(guò)樣本中葉子結(jié)點(diǎn)(即經(jīng)過(guò)機(jī)器學(xué)習(xí)的所有樹(shù))的分?jǐn)?shù)對(duì)特征進(jìn)行轉(zhuǎn)換,直到每個(gè)特征轉(zhuǎn)換成數(shù)值型數(shù)據(jù),以提高相似性計(jì)算的效率。
(3)形成消費(fèi)者畫像。Hadoop分布式平臺(tái)即分布式系統(tǒng)的基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā),實(shí)現(xiàn)了MapReduce分布式架構(gòu)和HDFS分布式文件系統(tǒng)。轉(zhuǎn)換之后的消費(fèi)者數(shù)據(jù)利用HDFS來(lái)存儲(chǔ),在大數(shù)據(jù)環(huán)境下,利用1臺(tái)計(jì)算機(jī)不能對(duì)數(shù)據(jù)進(jìn)行有效存儲(chǔ),需要多臺(tái)計(jì)算機(jī)對(duì)其存儲(chǔ),提高了成本,但是HDFS可以同時(shí)處理全部文件數(shù)據(jù)。然后利用MapReduce分布式架構(gòu)對(duì)數(shù)據(jù)進(jìn)行計(jì)算,其處理模塊是自定義的,解決了某些架構(gòu)不能修改錯(cuò)誤模塊而創(chuàng)建補(bǔ)丁導(dǎo)致后續(xù)操作可能存在問(wèn)題的缺陷。MapReduce由Map和Reduce函數(shù)構(gòu)成。原理圖如圖2所示。
圖2 MapReduce原理圖
聚類通過(guò)訓(xùn)練樣本的全部數(shù)據(jù)來(lái)得出其規(guī)律。
-means聚類[13-14]隨機(jī)選擇個(gè)初始點(diǎn)作為每個(gè)簇的中心,遍歷數(shù)據(jù)集的全部數(shù)據(jù),計(jì)算每個(gè)數(shù)據(jù)之間的距離,將距離較近的數(shù)據(jù)放在一組,即為1個(gè)簇,簇的中心會(huì)連續(xù)更新,最終達(dá)到全部數(shù)據(jù)到中心的距離最小或某個(gè)閾值。-means將距離作為樣本分類的標(biāo)準(zhǔn),數(shù)據(jù)間的距離越近說(shuō)明越相似,數(shù)據(jù)間的距離越遠(yuǎn)說(shuō)明差異越大。
樣本相似性[15]的判別方法是距離長(zhǎng)短,距離可以通過(guò)3種方式度量。
(1)閔科夫斯基距離:點(diǎn)與點(diǎn)的真實(shí)距離:
(2)馬氏距離:數(shù)據(jù)之間的協(xié)方差距離,考慮樣本特征間的關(guān)系。
(3)夾角余弦:通過(guò)夾角的余弦值得出相似性。
(4)相關(guān)系數(shù):
判斷特征之間的線性關(guān)系。
-means具有操作簡(jiǎn)單和效率高等優(yōu)點(diǎn),然而也存在一些缺陷:(1)需要預(yù)先知道分類個(gè)數(shù),實(shí)際上很不容易實(shí)現(xiàn);(2)對(duì)孤立點(diǎn)過(guò)于敏感,可能會(huì)造成局部最優(yōu);(3)每個(gè)簇初始點(diǎn)的選擇不確定,導(dǎo)致結(jié)果不一定最優(yōu)。
核密度估計(jì)[16]是非參數(shù)估計(jì)方法,基于核密度的人臉識(shí)別聚類算法是對(duì)-means聚類算法的改進(jìn),可以解決以上問(wèn)題,首先在預(yù)先不知道數(shù)據(jù)分布的情況下得出近似的概率密度函數(shù),以得到數(shù)據(jù)分布的特征,可以使用這種方法選取核密度極大值作為初始點(diǎn),然后再進(jìn)行-means聚類算法。
基于核密度的聚類算法基本步驟為:(1)遍歷一次數(shù)據(jù)集得出核密度估計(jì)結(jié)果;(2)計(jì)算出節(jié)點(diǎn)的值和聚類的初始點(diǎn);(3)進(jìn)行-means聚類算法。
算法的基本思想是:首先對(duì)節(jié)點(diǎn)進(jìn)行聚類,設(shè)均值向量為聚類的初始點(diǎn)集合,分別計(jì)算其余樣本值與初始點(diǎn)的歐氏距離,與初始值距離最小的樣本歸入到該簇中,循環(huán)迭代直到全部樣本都?xì)w入到對(duì)應(yīng)的簇中(算法1第1~11行);還需要額外考慮一種數(shù)據(jù),即有些樣本數(shù)據(jù)是噪點(diǎn)但被分到簇中,設(shè)Ni為任意樣本,如果A和B的距離半徑不大于A和Ni的距離,則Ni即為噪點(diǎn),除去噪點(diǎn)形成新的簇(算法1第12~22行)。聚類的偽代碼如下:
算法1 聚類算法
輸入:初始樣本A
輸出:聚類合并結(jié)果O”={O1,O2,…,Om}
1: A.forEach(function(value,index,array))
2: 均值向量為μ={μ1,μ2,…,μm}
3: Oj’=?(1≤j≤m)
4: for(j=1;j≤m;j++){
5: for(i=1;i≤n;i++){
6: dij=||xi-μj||2;
7: θi=min dij;
8: Oθi’=Oθi’∪{xi};
9: }
10: }
11: return O’={O1’,O2’,…,Om’};
12: While(O’!=Null)
13: OA”=Next(O’);
14: ZDA=GetPoints(OA”);
15: OB”=Next(O’);
16: ZDB=GetPoints(OB”);
17: do
18: if(Zr(DA,DB) <= distance(DA,Ni))
19: O”=sub(Ni);
20: End
21: until 所有樣本比較完畢
22: return O”;
23: End
系統(tǒng)硬件環(huán)境采用Intel(R) Core(TM) i3-3240 CPU@3.40 GHz處理器,4 GB內(nèi)存,500 G硬盤;軟件環(huán)境采用Windows10操作系統(tǒng)和pycharm開(kāi)發(fā)平臺(tái)。
首先根據(jù)人臉識(shí)別獲取消費(fèi)者特征,將消費(fèi)者特征轉(zhuǎn)換為對(duì)應(yīng)的標(biāo)簽,便于處理,再對(duì)消費(fèi)者分配,利用標(biāo)簽并在Hadoop分布式平臺(tái)上,采用HDFS分布式文件系統(tǒng)存儲(chǔ)消費(fèi)者的數(shù)據(jù),MapReduce分布式架構(gòu)計(jì)算消費(fèi)者的數(shù)據(jù),利用xgboost回歸法使機(jī)器能夠?qū)W習(xí)消費(fèi)者的數(shù)據(jù),分析其數(shù)據(jù)可以得出消費(fèi)者的特征,以此來(lái)描繪消費(fèi)者畫像。然后根據(jù)基于核密度的人臉識(shí)別聚類算法將所有消費(fèi)者進(jìn)行等級(jí)劃分,實(shí)現(xiàn)金融風(fēng)險(xiǎn)的控制。
將消費(fèi)者數(shù)據(jù)分別進(jìn)行-means聚類和基于核密度的人臉識(shí)別聚類,2種方法的聚類結(jié)果都形成5個(gè)簇,即將消費(fèi)者分為5個(gè)等級(jí),如圖3和圖4所示。進(jìn)行對(duì)比可以得出基于核密度的分布式聚類有較高的準(zhǔn)確率,噪聲點(diǎn)較少,簇內(nèi)更緊密,簇間差距更顯著。
圖3 k-means聚類結(jié)果圖
圖4 基于核密度的人臉識(shí)別聚類結(jié)果圖
從數(shù)據(jù)中取出5組數(shù)據(jù)量不同的數(shù)據(jù),2種方法所需時(shí)間如圖5所示。可以得出數(shù)據(jù)量越大基于核密度的人臉識(shí)別聚類所需時(shí)間與-means相差越大,因此在數(shù)據(jù)量大的情況下,優(yōu)先使用基于核密度的人臉識(shí)別聚類方法。
圖5 聚類效率對(duì)比圖
基于xgboost模型的消費(fèi)者信用評(píng)級(jí)方法解決了傳統(tǒng)評(píng)級(jí)系統(tǒng)較多的使用消費(fèi)者銀行交易記錄的缺陷,提高了聚類算法的效率和精確度,并且如果采用具有更快CPU和更大內(nèi)存的計(jì)算機(jī),還可以繼續(xù)提高聚類效率。本文給出了基于xgboost模型的消費(fèi)者信用評(píng)級(jí)系統(tǒng)的開(kāi)發(fā)流程,建立消費(fèi)者畫像和消費(fèi)者分類的關(guān)鍵技術(shù),以及消費(fèi)者的信用評(píng)級(jí)對(duì)控制金融風(fēng)險(xiǎn)具有的重要意義。
[1] 董建文. 人工智能時(shí)代互聯(lián)網(wǎng)金融信息安全風(fēng)險(xiǎn)及防范[J]. 科技與金融, 2019(11): 60-63.
[2] Brendan Daley, Brett Green, Victoria Vanasco. Securitization, Ratings, and Credit Supply[J]. The Journal of Finance, 2020, 75(2): 17-26.
[3] 姜琳. 美國(guó)FICO評(píng)分系統(tǒng)述評(píng)[J]. 商業(yè)研究, 2006(20): 81-84.
[4] 石勇, 孟凡. 信用評(píng)分基本理論及其應(yīng)用[J]. 大數(shù)據(jù), 2017, 3(1): 19-26.
[5]李克強(qiáng)主持召開(kāi)國(guó)務(wù)院常務(wù)會(huì)議 通過(guò)《“互聯(lián)網(wǎng)+”行動(dòng)指導(dǎo)意見(jiàn)》 用“互聯(lián)網(wǎng)+”助推經(jīng)濟(jì)發(fā)展[J]. 決策探索: 上半月, 2015(7): 4.
[6] 高廣尚. 用戶畫像構(gòu)建方法研究綜述[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(3): 25-35.
[7] 孫超. 基于Hadoop平臺(tái)的機(jī)器學(xué)習(xí)聚類算法研究[D]. 西安: 西安電子科技大學(xué), 2018.
[8] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, 16(8):13-17.
[9] 王大志. 基于HDFS的跨集群分布式文件系統(tǒng)研究[J].信息技術(shù)與信息化, 2019(8): 229-230.
[10] 林丹楠, 黃銳. 大數(shù)據(jù)挖掘中的MapReduce并行聚類優(yōu)化算法研究[J]. 太原師范學(xué)院學(xué)報(bào): 自然科學(xué)版, 2019, 18(4): 49-53.
[11] 商麗媛. 基于用戶畫像的中小企業(yè)營(yíng)銷策略研究[J]. 科技經(jīng)濟(jì)市場(chǎng), 2019(11): 155-156.
[12] 崔慶華. 基于局部特征分析的人臉識(shí)別方法[J]. 計(jì)算機(jī)產(chǎn)品與流通, 2020(4): 140.
[13] Hartigan J A, Wong M A. A K‐Means Clustering Algorithm[J]. Journal of the Royal Statistical Society: Series C: Applied Statistics, 1979, 28(1): 100-108.
[14] 熊忠陽(yáng), 陳若田, 張玉芳. 一種有效的K-means聚類中心初始化方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(11): 4188-4190.
[15] 李桂林, 陳曉云. 關(guān)于聚類分析中相似度的討論[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004(31): 64-65, 82.
[16] Tao X, Li Y. Concept-Based, Personalized Web Information Gathering: A Survey[C]//Knowledge Science, Engineering and Management, Third International Conference, KSEM 2009: 25-27.
Consumer Credit Rating System Based on the Xgboost Model
SHI Wei, WANG Ming-yue, ZHANG Qing-yun, LI Xiao-hui
(School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)
A consumer credit rating system based on xgboost model is designed, which uses face recognition method to select some features as consumer labels, quantifies consumer information, and narrates consumer image. The k-means clustering is improved, and a face recognition clustering algorithm based on kernel density is proposed, which divides consumers into different categories for credit rating. The system can alleviate noise point sensitivity, make the selection of original center point more simple, and use less bank transaction records with high availability.
xgboost model; credit evaluation; consumer portrait; clustering algorithm
TP311
A
1674-3261(2021)01-0001-04
10.15916/j.issn1674-3261.2021.01.001
2020-06-03
國(guó)家自然科學(xué)基金項(xiàng)目(61802161)
史偉(1978-),女,遼寧錦州人,實(shí)驗(yàn)師,碩士。
責(zé)任編校:孫 林