楊 郁
(上海交通大學(xué) 信息安全工程學(xué)院,中國(guó) 上海 201203)
隨著我國(guó)社會(huì)經(jīng)濟(jì)的高速發(fā)展,居民收入和消費(fèi)水平的不斷提高,和諧社會(huì)穩(wěn)步快速建設(shè)都對(duì)保險(xiǎn)業(yè)的經(jīng)營(yíng)提出了新的要求。相關(guān)數(shù)據(jù)顯示,我國(guó)居民的投保意愿和參保意識(shí)正在逐年提升。但是,保險(xiǎn)行業(yè)的客戶營(yíng)銷效果普遍不高。因此,本文從客戶細(xì)分理論出發(fā),使用K-MEANS聚類算法,按人、價(jià)值、行為三個(gè)維度分別進(jìn)行客戶細(xì)分,再進(jìn)行統(tǒng)一合并。通過(guò)對(duì)某壽險(xiǎn)公司的實(shí)際數(shù)據(jù)進(jìn)行提取、清洗、處理、挖掘,實(shí)現(xiàn)壽險(xiǎn)客戶的群體分類,并有針對(duì)性的開展?fàn)I銷活動(dòng),為保險(xiǎn)公司的業(yè)務(wù)發(fā)展提供了一定的支撐。
客戶細(xì)分是指在已劃分好的特定市場(chǎng)中,根據(jù)客戶的基本特征,行為特征,價(jià)值特征等將客戶細(xì)分為具有不同險(xiǎn)種消費(fèi)需求的群體。細(xì)分能夠幫助企業(yè)找出高價(jià)值客戶和潛在客戶,區(qū)分客戶的忠誠(chéng)度和較易流失的客戶,可以有針對(duì)性地提供保險(xiǎn)產(chǎn)品和服務(wù)。
客戶細(xì)分一般有幾種方式,主要如下:
1)基于人口統(tǒng)計(jì)的細(xì)分:性別、年齡、戶籍、職業(yè)、收入、教育程度等。
2)基于客戶價(jià)值的細(xì)分:已繳保費(fèi)、代繳保費(fèi)、件均保費(fèi)等。
3)基于客戶行為的細(xì)分:首次購(gòu)買保單日期、最近一次購(gòu)買保單日期、購(gòu)買的險(xiǎn)種等。
4)基于客戶態(tài)度的細(xì)分:對(duì)資費(fèi)敏感程度、對(duì)服務(wù)滿意程度、對(duì)企業(yè)的認(rèn)同度等。
由于各種細(xì)分方式,均僅從一個(gè)維度進(jìn)行切入,后續(xù)刻畫客戶會(huì)造成比較單一和片面的問(wèn)題。因此,本文針對(duì)基于人口統(tǒng)計(jì)、價(jià)值、行為這三種細(xì)分方式,分別進(jìn)行聚類,最終將結(jié)果再進(jìn)行統(tǒng)一整理合并。至于基于客戶態(tài)度的細(xì)分方式,由于數(shù)據(jù)獲取難度較大,暫不考慮。
客戶細(xì)分一般采用聚類的數(shù)據(jù)挖掘方法建立模型。聚類方法是指:根據(jù)數(shù)據(jù)記錄的相似性對(duì)其進(jìn)行歸組,使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。在這種情況下,分群將把類似的顧客歸組到一起,同時(shí)最大程度地體現(xiàn)按此方式組成的不同顧客組之間的差異。常用的聚類方法有:基于劃分的聚類,基于層次的聚類,基于密度的聚類等。本文中基于實(shí)際數(shù)據(jù)量大小和處理效率,采用KMEANS算法進(jìn)行聚類。
以某月的壽險(xiǎn)個(gè)險(xiǎn)投保人寬表作為拍照群體,按照10%左右進(jìn)行隨機(jī)抽樣,生成約10萬(wàn)客戶進(jìn)行建模,字段涵蓋客戶基礎(chǔ)信息、投保人價(jià)值信息、投保人行為信息、投保人購(gòu)買產(chǎn)品信息等,共計(jì)400余個(gè)字段。
在獲取數(shù)據(jù)之后,需首先對(duì)需要建模的數(shù)據(jù)進(jìn)行探索。數(shù)據(jù)探索一般會(huì)根據(jù)字段類型,對(duì)字符型字段采用分布分析,對(duì)數(shù)值型字段采用集中度和離散度的分析(包括:均值,中位數(shù),方差,分位數(shù)等),主要目的是查看輸入變量是否有缺失值、單一值、單類別取值過(guò)大、極值等影響。結(jié)合后續(xù)的聚類分析,本文對(duì)缺失值超過(guò)20%的字段、單一值字段、單類別取值過(guò)大的字段均直接進(jìn)行剔除,對(duì)極值的整條記錄進(jìn)行剔除。
經(jīng)過(guò)上述處理后,剩余變量約為100個(gè),根據(jù)人口統(tǒng)計(jì)、客戶價(jià)值、客戶行為三種方式,對(duì)變量進(jìn)行分類篩選。
1)人口統(tǒng)計(jì)方式:取客戶的年齡作為細(xì)分變量。因?yàn)槟挲g層次不同的客戶,往往也會(huì)有不同的保險(xiǎn)需求,同時(shí),年齡也可以間接反映客戶所處于的生命周期階段和消費(fèi)水平能力等。因此,直接將年齡劃分成如下五段:19-30歲、31-40歲、41-50歲、51-60歲、60歲以上,即對(duì)應(yīng)五個(gè)用戶群。
2)客戶價(jià)值方式:衡量投保人的保費(fèi)價(jià)值,此部分變量較多,需做降維處理。主要方法是通過(guò)相關(guān)分析、主成分分析和變量聚類,發(fā)現(xiàn)相關(guān)性較高的變量,并將這些高相關(guān)性變量組成一類。在每類中,根據(jù)1-R**2 Ratio指標(biāo)和業(yè)務(wù)人員經(jīng)驗(yàn),選取1-2個(gè)有代表性的變量。最終,選取四個(gè)變量如下:件均保費(fèi)、已繳保費(fèi)、未繳保費(fèi)、躉交保費(fèi)。
3)客戶行為方式:衡量投保人的行為方式。同樣,此部分變量納入較多,需做降維處理,具體方法同上。最終,選取變量如下:首次購(gòu)買保單距今時(shí)長(zhǎng)、保單數(shù)量、加保次數(shù)、為他人購(gòu)買保單數(shù)量、不同險(xiǎn)種購(gòu)買保單數(shù)等字段。
通過(guò)SPSS軟件,運(yùn)用K-MEANS快速聚類方法對(duì)上述價(jià)值變量和行為變量進(jìn)行聚類。由于K-MEANS需要預(yù)先設(shè)置聚類數(shù)目,一般可以從初始值4開始,不斷增加聚類數(shù),并觀察聚類結(jié)果進(jìn)行評(píng)估。聚類評(píng)估主要可以從以下兩方面來(lái)考慮:
1)輪廓值:SPSS選用輪廓值來(lái)評(píng)價(jià)聚類的好壞。對(duì)于不同的聚類組數(shù),可分別求出他們的輪廓值(silhouette width),一般該值越大越好,超過(guò)0.5,就認(rèn)為是比較好的分類結(jié)果,0.2以下則表明缺少實(shí)質(zhì)的聚類結(jié)構(gòu)。
2)業(yè)務(wù)分析:對(duì)聚類的結(jié)果,從業(yè)務(wù)上進(jìn)行分析。檢驗(yàn)不同類之間的聚類變量均值或分布是否有顯著差異,來(lái)衡量類與類之間的相異性。此外,業(yè)務(wù)上的可解釋性也是重要的判斷準(zhǔn)則。
因此,根據(jù)以上原則,對(duì)價(jià)值群聚成五類,對(duì)行為群聚成六類,具體如下:
表1 客戶價(jià)值分群結(jié)果
表2 客戶行為分群結(jié)果
針對(duì)上述客戶的人口統(tǒng)計(jì)信息(按年齡,5類),客戶價(jià)值(5類),客戶行為(6類)進(jìn)行整合歸并,最終形成25個(gè)聚類群體,有針對(duì)性的開展?fàn)I銷,部分舉例如下:
表3 最終分群結(jié)果示例
為了彌補(bǔ)以往客戶細(xì)分方式唯一的不足,本文從客戶的人口統(tǒng)計(jì)信息、客戶價(jià)值信息、客戶行為信息三個(gè)維度進(jìn)行客戶細(xì)分,采用KMEANS算法進(jìn)行快速聚類,并對(duì)最終結(jié)果進(jìn)行有效合并,提出相對(duì)應(yīng)的營(yíng)銷策略和產(chǎn)品提升方案。
保險(xiǎn)營(yíng)銷效果,不僅與客戶的選取相關(guān),營(yíng)銷策略、營(yíng)銷渠道、營(yíng)銷時(shí)間等方面也是影響成功率的重要因素,后續(xù)可將細(xì)分結(jié)果與推送系統(tǒng)相結(jié)合,進(jìn)一步對(duì)客戶的渠道偏好等進(jìn)行分析。
[1]陳文偉,黃金才.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M[.北京:人民郵電出版社,2004.
[2]張敏.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)客戶群體細(xì)分中的應(yīng)用研究[D].天津財(cái)經(jīng)大學(xué),2006.
[3]Russell S.Winer.A Framework for Customer Relationship Management[J].California Management Review,2001,43(4):89-105.
[4]Ricardo Chalmeta.Methodology for Customer Relationship Management[J].The Journa of Systems and Software,2005.