王廷元,何先波
(西華師范大學(xué) 計(jì)算機(jī)學(xué)院,四川 南充 637400)
近年來(lái),雖然我國(guó)加快了社會(huì)征信體系的建設(shè),但仍然無(wú)法滿(mǎn)足日益增長(zhǎng)的實(shí)際需要.截至2018年8月末,央行征信數(shù)據(jù)庫(kù)中收錄的9.7億人中只有4.4億人有信貸記錄,而征信的真實(shí)覆蓋率只有35%,企業(yè)的覆蓋率也只有30%[1].社會(huì)上存在著大量的“信用白戶(hù)”.如何有效地對(duì)“信用白戶(hù)”進(jìn)行評(píng)估已成為服務(wù)類(lèi)金融的研究熱點(diǎn),因此引入用戶(hù)畫(huà)像技術(shù)對(duì)金融服務(wù)企業(yè)顯得尤為重要[2].由于客戶(hù)的消費(fèi)數(shù)據(jù)涉及到個(gè)人隱私,很多企業(yè)除了難以獲取客戶(hù)的完整信息之外,也很少披露客戶(hù)的真實(shí)消費(fèi)數(shù)據(jù),所以目前基于消費(fèi)數(shù)據(jù)構(gòu)建群體畫(huà)像的研究比較缺乏.
A.Cooper最先提出用戶(hù)畫(huà)像的概念,并將其定義為“用戶(hù)真實(shí)數(shù)據(jù)的虛擬顯示”[3].隨著技術(shù)的成熟,用戶(hù)畫(huà)像技術(shù)已經(jīng)應(yīng)用在推薦系統(tǒng)、精準(zhǔn)服務(wù)、企業(yè)安全等領(lǐng)域.樂(lè)承毅等[4]利用改進(jìn)的RFM模型對(duì)高校圖書(shū)館讀者進(jìn)行細(xì)致分類(lèi),為高校圖書(shū)館的精準(zhǔn)服務(wù)提供參考.鐘雅等[5]針對(duì)企業(yè)內(nèi)部惡意用戶(hù)的問(wèn)題,通過(guò)本體理論、標(biāo)簽式畫(huà)像方法,結(jié)合K-Means聚類(lèi)對(duì)用戶(hù)進(jìn)行分組,實(shí)現(xiàn)了對(duì)惡意用戶(hù)的有效檢測(cè).周?;╗6]通過(guò)對(duì)用戶(hù)在線(xiàn)評(píng)論進(jìn)行用戶(hù)畫(huà)像,給服務(wù)企業(yè)提供精準(zhǔn)服務(wù)提供參考.索曉陽(yáng)[7]基于網(wǎng)絡(luò)社交信息對(duì)網(wǎng)絡(luò)用戶(hù)進(jìn)行群體畫(huà)像,其結(jié)果對(duì)網(wǎng)絡(luò)輿情引導(dǎo)有積極意義.張曉月等[8]通過(guò)Protégé工具建立本體實(shí)現(xiàn)用戶(hù)畫(huà)像屬性之間的關(guān)聯(lián),為酒店了解用戶(hù)需求,提供個(gè)性化服務(wù)提供建議.李佳慧等[9]從標(biāo)簽體系和畫(huà)像體系兩方面來(lái)探索如何構(gòu)建用戶(hù)畫(huà)像,取得了不錯(cuò)的效果.張長(zhǎng)浩等[10]利用國(guó)網(wǎng)商旅數(shù)據(jù),通過(guò)雙通道建模構(gòu)建用戶(hù)敏感程度識(shí)別模型,有效提升了敏感客戶(hù)的分類(lèi)準(zhǔn)確率.韋伊[11]將用戶(hù)畫(huà)像技術(shù)應(yīng)用于信用評(píng)價(jià)和消費(fèi)配額,探索了用戶(hù)畫(huà)像技術(shù)在信用風(fēng)險(xiǎn)管控方面的應(yīng)用.
雖然用戶(hù)畫(huà)像技術(shù)已經(jīng)成功應(yīng)用于多個(gè)領(lǐng)域,但是基于消費(fèi)者群體畫(huà)像的信用評(píng)估還很缺乏,很多學(xué)者只是從理論上進(jìn)行了探討[9,11],沒(méi)有從實(shí)驗(yàn)上進(jìn)行驗(yàn)證.本文利用獲取到的真實(shí)客戶(hù)消費(fèi)數(shù)據(jù),結(jié)合用戶(hù)畫(huà)像理論深入分析客戶(hù)消費(fèi)特征,構(gòu)建消費(fèi)者群體畫(huà)像.在消費(fèi)者群體畫(huà)像的基礎(chǔ)上,分析消費(fèi)數(shù)據(jù),建立一種基于消費(fèi)者群體畫(huà)像的智能評(píng)分模型,為移動(dòng)公司對(duì)客戶(hù)提供個(gè)性化服務(wù)及客戶(hù)信用控制提供較好的參考價(jià)值.
在金融服務(wù)中,為實(shí)現(xiàn)對(duì)客戶(hù)的精準(zhǔn)推銷(xiāo),需要進(jìn)行用戶(hù)畫(huà)像建模.
結(jié)合本文的客戶(hù)消費(fèi)數(shù)據(jù),由身份特征、消費(fèi)能力、人脈關(guān)系、位置軌跡、興趣愛(ài)好五個(gè)屬性子畫(huà)像組合成消費(fèi)者群體畫(huà)像.具體步驟如下:1)首先通過(guò)箱線(xiàn)圖、散點(diǎn)圖等方式查看客戶(hù)信用分在每個(gè)消費(fèi)特征上的分布情況,同時(shí)對(duì)異常值進(jìn)行處理;2)然后深入分析各消費(fèi)特征與信用分之間的關(guān)系,去除掉影響不大的特征;同時(shí)通過(guò)各消費(fèi)特征之間的線(xiàn)性、邏輯關(guān)系等衍生新的消費(fèi)特征,構(gòu)建消費(fèi)者群體畫(huà)像.圖1顯示信用分在部分特征上的分布情況.圖2顯示原有消費(fèi)特征與信用分之間的相關(guān)性.
圖1 信用分在部分特征上的分布情況
圖2 原有消費(fèi)特征與信用分的相關(guān)性
從圖2可以看出,原有的特征集中大部分特征與信用分有很強(qiáng)的相關(guān)性,各個(gè)特征之間也具有一定的聯(lián)系,可以對(duì)它們進(jìn)行融合、衍生成新的特征.圖3顯示經(jīng)過(guò)特征處理后形成的新特征與信用分的相關(guān)性.
圖3 處理后的特征與信用分的相關(guān)性
XGboost[12](eXreme Gradient Boosting)是陳天奇博士在GBDT(Gradient Boost Decision Tree)的基礎(chǔ)上對(duì)Boosting方法改進(jìn)所得到的模型.LightGBM[13](Light Gradient Boosting Machine)是微軟于2017年提出基于決策樹(shù)算法的分布式梯度提升框架.這兩種模型都是基于決策樹(shù)提升的模型,因?yàn)閷?duì)輸入要求不敏感、運(yùn)行速度快、預(yù)測(cè)效果好,被廣泛應(yīng)用于數(shù)據(jù)科學(xué)競(jìng)賽中,但是都有一定的缺點(diǎn).例如XGboost中的預(yù)排序、level-wise生成決策樹(shù)等方法,在數(shù)據(jù)量大時(shí),會(huì)產(chǎn)生大量的不必要的內(nèi)存消耗,增加了算法運(yùn)算時(shí)間;LightGBM雖然通過(guò)用帶有深度限制的leaf-wise的葉子生長(zhǎng)策略、直方圖算法等方法對(duì)XGboost做了一定的優(yōu)化改進(jìn),但也存在著過(guò)擬合、對(duì)噪聲數(shù)據(jù)較敏感等問(wèn)題.
Stacking[14]是一種分層的模型集成框架.以?xún)蓪幽P蜑槔?,首先用?xùn)練集對(duì)第一層的多個(gè)模型進(jìn)行K折交叉驗(yàn)證,然后將這些模型的預(yù)測(cè)值組合成為第二層模型的訓(xùn)練集,對(duì)測(cè)試集做同樣處理后作為第二層模型的測(cè)試集,最后用第二層模型進(jìn)行模型預(yù)測(cè).
由于Stacking通過(guò)對(duì)模型K折交叉驗(yàn)證雖然能提高預(yù)測(cè)的穩(wěn)定性,但整體模型較復(fù)雜,運(yùn)算時(shí)間較長(zhǎng).XGboost,LightGBM算法各有優(yōu)缺點(diǎn).為了充分利用2.1節(jié)建立的多維度消費(fèi)者群體特征,提高客戶(hù)信用分的預(yù)測(cè)準(zhǔn)確率,本文提出一種基于LightGBM和XGboost的智能評(píng)分模型,模型結(jié)構(gòu)如圖4所示.
圖4 基于LightGBM和XGboost的智能評(píng)分模型
該評(píng)分模型以Stacking兩層框架為藍(lán)本,為降低融合模型過(guò)擬合、挖掘出更多的有效信息,對(duì)每個(gè)基模型進(jìn)行5折交叉驗(yàn)證取平均值.首先在學(xué)習(xí)層內(nèi)設(shè)置兩個(gè)不同的模型XGboost和LightGBM,并將其預(yù)測(cè)結(jié)果合并為新的特征集作為下一層模型的輸入.然后第二層用貝葉斯預(yù)測(cè)再次對(duì)第一層的結(jié)果進(jìn)行訓(xùn)練來(lái)提高模型的預(yù)測(cè)準(zhǔn)確度和泛化能力.
本文的數(shù)據(jù)來(lái)自2019數(shù)字中國(guó)創(chuàng)新大賽公開(kāi)的消費(fèi)數(shù)據(jù)集.該數(shù)據(jù)集包涵用戶(hù)年齡、用戶(hù)網(wǎng)齡、用戶(hù)通話(huà)交往圈人數(shù)等30個(gè)特征,涉及身份特征、消費(fèi)能力、人脈關(guān)系、位置軌跡等五個(gè)維度.通過(guò)分析上述特征與用戶(hù)信用分之間的相關(guān)性,同時(shí)深入挖掘特征之間的關(guān)系,并對(duì)所有特征進(jìn)行重要性排序,結(jié)果如圖5所示.
圖5 特征重要性排序
實(shí)驗(yàn)采用平均絕對(duì)誤差(Mean Absolute Error,MAE)來(lái)度量預(yù)測(cè)模型的精確度,MAE的值越小,說(shuō)明預(yù)測(cè)值和真實(shí)值的結(jié)果越接近.
在訓(xùn)練特征相等且統(tǒng)一進(jìn)行5折交叉驗(yàn)證的情況下,對(duì)比幾種常用的機(jī)器學(xué)習(xí)模型,分別為線(xiàn)性回歸模型(LR)[15],隨機(jī)森林模型(RF)[16]、梯度提升回歸樹(shù)(GBDT)模型[17],其中XGboost參數(shù)設(shè)置為nthread=8,eta=0.005,max_depth=15,subsample=0.8,booster=gbtree,objective=reg:linnear,n_estimators=2400,colsample_bytree=0.8,eval_metric=mae;LightGBM參數(shù)設(shè)置:learning_rate=0.01,objective=regression_l1,n_estimators=2400,max_depth=-1,feature_fraction=0.6,bagging_fraction=0.8,seed=2000,bagging_freq=2,num_leaves=50,nthread=8,reg_alpha=2.2,reg_lambda=1.4,boosting_type=gbdt,metric=mae;GBDT參數(shù)設(shè)置:n_estimators=2400,subsample=0.8,:learning_rate=0.01,max_depth=7,min_samples_split=1060,min_samples_leaf=120,max_feature=21,其余的算法采用默認(rèn)參數(shù)配置.各模型的實(shí)驗(yàn)結(jié)果如表1所示.
從表1可以得出,XGboost,LightGBM模型的得分高于其他模型,顯示了這兩種模型在客戶(hù)信用評(píng)分預(yù)測(cè)中表現(xiàn)較好.同時(shí)為了驗(yàn)證本文集成模型的優(yōu)勢(shì),選擇了一些常用的集成模型方法,比如Blending[18],模型加權(quán)融合[18]等,實(shí)驗(yàn)結(jié)果如表2所示.
從表2得到,XGboost,LightGBM通過(guò)Stacking方法的集成模型得分高于基于Blending方法、加權(quán)平均的集成模型得分,驗(yàn)證了本文提出的智能評(píng)分模型的有效性.
表1 各個(gè)模型的實(shí)驗(yàn)結(jié)果對(duì)比
表2 模型融合方法的實(shí)驗(yàn)結(jié)果對(duì)比
在挖掘消費(fèi)數(shù)據(jù)的基礎(chǔ)上,提出基于消費(fèi)者群體畫(huà)像的智能評(píng)分模型.通過(guò)分析消費(fèi)群體的多維度特征與信用分之間的關(guān)系,采用特征融合的方法建立新的消費(fèi)特征,補(bǔ)充了多維消費(fèi)特征體系,基于XGboost和LightGBM的集成模型能有效地提升預(yù)測(cè)準(zhǔn)確率,并在實(shí)驗(yàn)中得到了驗(yàn)證,為移動(dòng)公司動(dòng)態(tài)授予信用消費(fèi)額度和客戶(hù)信用控制提供了參考.研究的不足在于本文評(píng)分模型的提升效果不太明顯,后續(xù)的研究中可以通過(guò)優(yōu)化模型參數(shù)、融合其他的機(jī)器學(xué)習(xí)算法等方式來(lái)提升該評(píng)分模型的預(yù)測(cè)效果.