夏廣偉,何清泉,李雨珊
(1.長沙民政職業(yè)技術(shù)學院,湖南 長沙 410004;2.保險職業(yè)學院,湖南 長沙 410114)
進入21世紀,伴隨著新科技革命的深入發(fā)展,互聯(lián)網(wǎng)成為時代潮流,為社會發(fā)展創(chuàng)造了無限機遇,使得居民消費方式發(fā)生了巨大的改變,消費支付由“現(xiàn)金付款”變成“貨幣+信用支付”的形式(如圖1所示),為居民生活帶來了更多便利。信用支付主要利用客戶個人信用等級獲得一定預支信用額度,具體通過信用卡形式體現(xiàn)。信用卡“預支”功能給客戶消費帶來極大便利,促進社會消費,并幫助商業(yè)銀行在積累優(yōu)質(zhì)客戶、提升收益方面發(fā)揮了重要作用[1]。如何在為客戶提供便利的同時,進一步降低信用預支功能帶來的爛賬、壞賬等風險,有效促進信用卡業(yè)務(wù)的良性發(fā)展,是銀行業(yè)亟待解決的問題。本文通過基于K-means 算法的客戶分類方法對信用卡客戶進行精確識別并分類,動態(tài)劃分客戶風險等級,有利于規(guī)避銀行在拓展信用卡業(yè)務(wù)時可能出現(xiàn)的風險,助力銀行高質(zhì)量獲客、精細化客戶管理,提高銀行風險管理能力。
圖1 信用卡支付方式
信用卡擁有支付和消費信貸的雙重屬性,不同客戶群體的信用透支額度不同,客戶消費信貸的風險也存在巨大差異[2]。為了有效預防客戶消費信貸過程中可能出現(xiàn)的信用風險,銀行有必要對信用卡客戶群體進行風險識別,精選優(yōu)質(zhì)客戶,規(guī)避與防范信用風險。
根據(jù)余旋關(guān)于信用卡客戶的分類方法[3],信用卡客戶大致可以分為4類。
低端客戶指的是低貢獻、高風險客戶。一般包含兩類客戶群體:一類是刷卡消費形式單一,每次消費額度大(如消費值大于額度60%以上),且每月還款額度基本維持在銀行最低要求的客戶;另一類是征信中存在不良行為的客戶,如每次消費爆卡的客戶。
中端客戶指高貢獻、高風險客戶。這一類客戶的特點是用卡頻率較高,對銀行貢獻度較大,他們幾乎月刷卡率都在60%以上。同時,此類客戶也會存在最低額度還款和分期還款的行為,屬于既有貢獻又有風險的一類。
潛力客戶是指低貢獻、低風險客戶。這一類客戶的刷卡額度一般不高,消費使用頻率較低,且?guī)缀醪淮嬖诜制谇闆r,因此對銀行的貢獻較低,但是由于消費都是按時全額還款,這意味著此類客戶發(fā)生死賬、壞賬的風險極低,屬于銀行較喜歡的客戶類型。
高端客戶指高貢獻、低風險客戶。一般指信用卡每月的使用頻率很高,月使用額度60%以上,且全額還款或分期還款低。高端客戶消費的商戶質(zhì)量高,消費能力強,消費商戶真實度高,消費方向多元化,這些信息表明客戶資產(chǎn)雄厚,信用值極好,可以享受銀行提供的最優(yōu)質(zhì)的服務(wù)。
K-means 算法,即k 均值聚類算法(kmeans clustering algorithm),是一種迭代求解的分類算法。其計算過程是:首先,將采集的數(shù)據(jù)分為若干個組,產(chǎn)生隨機的初始聚類中心;然后,分別計算各類目數(shù)據(jù)與這些聚類中心之間的距離;最后,根據(jù)距離的遠近將類目數(shù)據(jù)對象進行重新分配。在計算過程中,會根據(jù)現(xiàn)有對象不斷更新聚類中心,直到滿足某個終止條件為止,終止條件可以不設(shè)置,也可以是要求的最小數(shù)目。聚類的核心思想是將物理或抽象的對象集合分為由類似屬性對象組成的多個類(cluster),目前常用的聚類算法有劃分法、層次法、密度法、網(wǎng)格法等[4]。
K-means聚類算法是經(jīng)典且應(yīng)用廣泛的劃分方法之一,具有理論可靠、算法簡單、收斂速度快、能有效處理大數(shù)據(jù)集等優(yōu)點[5]。算法步驟如下。
步驟一:預設(shè)k個對象數(shù)據(jù)來形成初始的聚類中心:a=a1,a2,a3...ak;
步驟二:分析采集的數(shù)據(jù)樣本,將每個樣本的值用符號xi來表示,分別計算每個值到所有的k個聚類中心的距離,得到結(jié)果后,進行對比分析,將每個樣本分配到與聚類中心距離最近的類中;
步驟三:計算完成后,會產(chǎn)生新的類集aj=,重復上面的計算過程來更新聚類中心;
通常情況下,可以通過重復上面的操作步驟來提高精確度,直到結(jié)果符合預期為止。K-means算法流程如圖2所示。
圖2 K-means算法流程圖
本文計算所用數(shù)據(jù)來源于泰迪大數(shù)據(jù)平臺,經(jīng)過預處理后選擇6萬條信用卡客戶數(shù)據(jù),數(shù)據(jù)集主要包括客戶編號、逾期、強制??ㄓ涗?、婚姻、個人月收入、年齡、呆賬等26 個關(guān)鍵字段,部分字段的 具體值如圖3所示。
圖3 數(shù)據(jù)表部分字段值
首先對客戶數(shù)據(jù)進行預處理,然后利用Kmeans算法對客戶類型進行統(tǒng)計分析,評定客戶風險等級,為銀行信用卡客戶業(yè)務(wù)處理提供合理建議,具體處理方法如下:
(1)確定分析目標。
(2)數(shù)據(jù)清洗,確定并完善關(guān)鍵字段。
(3)構(gòu)建K-means 聚類模型,對客戶風險類型進行聚類分析。
(4)根據(jù)聚類計算結(jié)果評估客戶風險。
(5)依據(jù)聚類分析產(chǎn)生的客戶類型,為銀行提出合理建議。
客戶風險分析的具體流程如圖4所示。
圖4 客戶風險分析流程圖
為了方便進行數(shù)據(jù)統(tǒng)計分析,首先對數(shù)據(jù)字段值進行預處理,如將逾期、強制??ㄓ涗浀闹翟O(shè)置為1和2,表示“是”和“否”兩種狀態(tài);將婚姻的值設(shè)置為1、2和3,分別代表“未婚”“已婚”和“其他”;同理,將個人月收入、年齡、月刷卡額分別以不同的值來代表不同的區(qū)間段,等等。部分字段的具體設(shè)置屬性說明(見表1):
表1 部分字段說明
續(xù)表
1.分析工具
本文采用python 語言對處理好的信用卡客戶數(shù)據(jù)進行建模分析,圖5為經(jīng)過清洗后的客戶數(shù)據(jù)統(tǒng)計量結(jié)果。
圖5 數(shù)據(jù)清洗及描述截圖
從統(tǒng)計結(jié)果可以看出,信用卡交易原始數(shù)據(jù)大小為60 000 行、26 列,如果以存在“逾期”“呆賬”“強制??ㄓ涗洝薄巴似庇涗洝薄熬芡涗洝焙汀拌Υ脩簟钡? 個關(guān)鍵字段作為分析指標,則風險用戶的數(shù)據(jù)大小為2 002 行、26 列,低風險或無風險的客戶數(shù)據(jù)大小為57 998行、26列;如果以存在“呆賬”“強制??ㄓ涗洝薄巴似庇涗洝薄熬芡涗洝钡? 個關(guān)鍵字段作為分析指標,則風險用戶的數(shù)據(jù)大小為2 339行、26列,低風險或無風險的客戶數(shù)據(jù)大小為57 661行、26列。本文以第一種的6個關(guān)鍵字段來作為風險行為特征分析指標。
2.構(gòu)建FJS特征模型
根據(jù)客戶風險行為、經(jīng)濟狀況、收入情況等影響客戶信用風險的主要因素,構(gòu)建信用卡客戶FSJ特征模型,即客戶風險行為特征(F)、客戶經(jīng)濟狀況特征(J)、客戶收入情況特征(S)。分別對客戶上述數(shù)據(jù)進行統(tǒng)計分析,得到特征值排名前五的數(shù)據(jù),如表2、表3和表4所示。
表2 風險行為特征數(shù)據(jù)統(tǒng)計表
表3 經(jīng)濟狀況數(shù)據(jù)統(tǒng)計表
續(xù)表
表4 收入情況數(shù)據(jù)統(tǒng)計表
3.聚類處理
由于不同字段數(shù)據(jù)的極差區(qū)別較大,為了更好了解信用卡客戶數(shù)據(jù)分布情況,進一步將數(shù)據(jù)做標準化處理,同時為了提高精度,設(shè)置合適的聚類的中心點數(shù)目,通過計算簇內(nèi)誤差平方和(SSE)來選擇合適的k值。
其中,C 為樣本集合,p 為簇內(nèi)樣本中心,mi為簇內(nèi)每個樣本點。以此方法為依據(jù),當出現(xiàn)明顯拐點時,則k值最優(yōu)。
由圖6可以看出,簇內(nèi)誤差平方和在4 和5 時出現(xiàn)了較大拐點,當k值大于5時,則誤差平方和減少的趨勢不再明顯,所以可設(shè)置最佳類簇數(shù)量為5,得到聚類中心數(shù)據(jù)如圖7所示。
圖6 簇內(nèi)誤差平方和
圖7 FJS聚類中心
將聚類中心數(shù)據(jù)進行計算處理,可以得到客戶聚類分群表,如表5所示。
表5 客戶聚類分群表
經(jīng)過計算,得到5 個聚類中心,表中的聚類類別1~5 表示五種類型的客戶,類別個數(shù)代表該聚類中心附近的客戶數(shù)量。其中,風險行為特征數(shù)據(jù)值越小,說明風險越大;經(jīng)濟狀況風險特征值越小,說明經(jīng)濟狀況越差;收入情況風險特征絕對值越小,說明收入情況越穩(wěn)定。
4.聚類分類結(jié)果分析與建議
從聚類結(jié)果上看,客戶被分成5 種不同的類型,結(jié)合實際情況可將客戶分類如下:非目標客戶、高風險客戶、中風險客戶、一般客戶、優(yōu)質(zhì)客戶。
非目標類客戶:對應(yīng)表中聚類類別序號為2的客戶,此類客戶風險行為分值很高、且經(jīng)濟情況很差、收入狀況一般。他們是客戶中的瑕疵戶,在用卡過程中頻繁出現(xiàn)逾期、呆賬等行為,建議銀行將此類客戶定為非目標客戶,在后續(xù)的營銷過程中,逐步降低其用卡額度,或者根據(jù)情況限制其使用信用卡。
高風險客戶:對應(yīng)表中聚類類別序號為5的客戶,此類客戶風險行為分值一般,經(jīng)濟狀況較差,收入情況較差。他們在信用卡的使用過程中出現(xiàn)過逾期等不良行為,且在銀行信用記錄較差。針對此類高風險客戶,銀行需要大力提升監(jiān)管力度,對客戶的狀況進行深入了解,避免出現(xiàn)其他風險。
中風險客戶:對應(yīng)表中聚類類別序號為3的客戶,此類客戶風險行為分值一般,經(jīng)濟狀況一般,收入波動較大。他們一般缺乏穩(wěn)定的收入來源,在信用卡使用過程中很可能出現(xiàn)資金周轉(zhuǎn)問題。銀行需要謹慎對待此類客戶,建議定期發(fā)送分期或提額短信來提高客戶的活躍度。同時,加大與客戶溝通頻率,以便及時調(diào)整客戶風險等級,優(yōu)化服務(wù)策略。
一般客戶:對應(yīng)表中聚類類別序號為4 的客戶,此類客戶風險行為分值一般,經(jīng)濟情況較好,收入情況較好。他們在平時用卡過程中基本未出現(xiàn)逾期等不良情況,風險性低。建議銀行定期給此類客戶增加臨時額度,額度多少可根據(jù)分值變化綜合評定。并且可以適當向此類客戶推薦其他產(chǎn)品,這樣不僅可以增加客戶黏性,也能夠獲得更多的收益。
優(yōu)質(zhì)客戶:包括數(shù)據(jù)集中未被選中的客戶(無風險行為客戶)以及實驗結(jié)果中聚類類別序號為1的客戶,此類客戶風險分析值很低,經(jīng)濟情況良好,收入情況良好。此類客戶完全能夠按時還款,消費刷卡符合自身收入水平,無不良行為記錄。根據(jù)數(shù)據(jù)反映出的客戶特點,建議銀行進行個性化服務(wù),如對消費頻繁的客戶,做好及時回訪和定期提額;對額度需求較大的客戶,給予優(yōu)惠貸款利率或提供專屬分期服務(wù);對其他優(yōu)質(zhì)客戶還可以根據(jù)其自身特點,提供優(yōu)先推薦體驗新業(yè)務(wù)和關(guān)聯(lián)產(chǎn)品推送等服務(wù),以進一步增加客戶滿意度和忠誠度,提升客戶價值和銀行的經(jīng)濟效益。
本文采用Python語言對采集的信用卡客戶信息數(shù)據(jù)進行分析,提出一種基于K-means 聚類分析法的評價模型,與銀行傳統(tǒng)的客戶分類方法相比,該模型能從多個維度和角度對客戶的風險進行評估,不僅可以更精確實現(xiàn)客戶分類,有效降低銀行在發(fā)放信用卡過程中可能出現(xiàn)的風險,也能夠?qū)蛻艉罄m(xù)用卡的行為進行有效預測,進而及時向銀行提出合理建議,以便其調(diào)整對客戶的服務(wù)策略。