陳瑩
(中國電信股份有限公司海南分公司,海南 ???570100)
根據(jù)數(shù)據(jù)顯示,每月平均有多達(dá)半數(shù)的移動預(yù)付費(fèi)用戶曾因賬戶余額不足但沒有及時(shí)充值而導(dǎo)致停機(jī)的情況。對運(yùn)營商則意味著收入的損失。目前中國電信已經(jīng)為部分用戶提供星級服務(wù)。但中低端用戶沒有該信用服務(wù)。對這些用戶進(jìn)行信用評分并授信,對提升用戶滿意度和客戶粘性很有意義。本文旨在探索一種針對非星級用戶的基于SVM的信用評分方法,建模過程如圖1所示[1-2]:(1)確定業(yè)務(wù)需求;(2)定義標(biāo)簽;(3)選取合適的樣本,匹配出全部的特征信息;(4)特征工程+模型訓(xùn)練+模型評價(jià)+模型調(diào)優(yōu);(5)輸出模型報(bào)告;(6)上線與監(jiān)控。
圖1 信用評分建模流程圖
電信非星級客戶信用評分模型的設(shè)計(jì)目標(biāo)是篩選出有信用需求的低風(fēng)險(xiǎn)客戶。信用評分結(jié)果是:高分?jǐn)?shù)的被評分人意味著比低分?jǐn)?shù)的被評分人具有更強(qiáng)的信用需求和更低的風(fēng)險(xiǎn)。
信用評分模型的主要目的是衡量用戶的信用風(fēng)險(xiǎn)[4-6]。我們從以下幾個(gè)角度給非星級用戶構(gòu)建指標(biāo)體系:
基本信息:個(gè)人基本信息是每個(gè)場景下都一定會有的數(shù)據(jù),比較典型的信息有年齡、性別、城市、入網(wǎng)時(shí)間、是否實(shí)名制等。
消費(fèi)信息:典型的消費(fèi)信息是用戶每個(gè)月的ARPU、充值和套餐信息,從而計(jì)算出他的購買需求和購買力。
歷史表現(xiàn):用戶在使用過程中會有一些歷史表現(xiàn)。如歷史停機(jī)和還款表現(xiàn),這是可以直接體現(xiàn)用戶的還款意愿。
穩(wěn)定性:除了通過固定維度來看用戶的表現(xiàn)外,還可以將用戶上述的維度變化趨勢做成特征。
用戶特征中的連續(xù)型變量的數(shù)量級差異較大,這對模型的影響很大,我們將這些連續(xù)型變量做歸一化處理,典型的是單位區(qū)間[0,1]:
用戶特征中離散型變量,采用WOE(Weight of Evidence)編碼方式。定義格式為:
其中,pyi是這個(gè)分組中響應(yīng)客戶占樣本中所有響應(yīng)客戶的比例,pin是這個(gè)分組中為響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例。
支持向量機(jī)(Support vector machine, SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原則的機(jī)器學(xué)習(xí)分類方法[3]。SVM通過找到兩個(gè)類型之間的最大距離方式來劃分類型,即最大邊緣超平面,任意超平面可以用下面的方程來描述:
本文所涉及的實(shí)驗(yàn)數(shù)據(jù)取自三亞、東方和儋州三個(gè)地市的85萬條非星級用戶的95個(gè)特征數(shù)據(jù),實(shí)驗(yàn)?zāi)P徒⒃贚inux系統(tǒng)下,編程平臺采用R語言。所有特征數(shù)據(jù)均進(jìn)行歸一化處理。核函數(shù)和相應(yīng)Cost、Gamma參數(shù)的選擇是SVM模型訓(xùn)練的關(guān)鍵環(huán)節(jié),本文選擇了應(yīng)用最廣的4種核函數(shù):線性核(Linear kernel,LK)、多項(xiàng)式核(Polynomial kernel,PK)、徑向基函數(shù)核(Radial basis function kernel,RBF)和Sigmoid核函數(shù)(Sigmoid kernel,SK)。
為了更好的訓(xùn)練模型,避免模型的過度擬合而影響模型的泛化能力,模型采用k折交叉驗(yàn)證(k-fold cross validation)。詳細(xì)的SVM模型參數(shù)取值情況如表1所示:
表1 SVM 模型參數(shù)表
本文模型評估采用三個(gè)評價(jià)指標(biāo):查準(zhǔn)率(Precision)、查全率(Recall)和F1分?jǐn)?shù)(F1 score)。具體公式如下:
圖2 不同K 值RBF 核模型性能指標(biāo)圖
表2 RBF 核時(shí)不同K 值的模型評估指標(biāo)表
本文以SVM算法為基礎(chǔ),結(jié)合海南電信非星級用戶的多維度特征,并對Cost、Gamma、核函數(shù)類型和K值進(jìn)行了對比實(shí)驗(yàn),綜合精度、查全率和F1值三項(xiàng)評價(jià)指標(biāo)。本文提出的信用風(fēng)險(xiǎn)評測方法在運(yùn)行6個(gè)月的情況下,信用需求預(yù)測準(zhǔn)確度高,整體壞賬率表現(xiàn)穩(wěn)定,用戶退訂率低,用戶感知率較高。