李海燕,王松響
(鄭州鐵路職業(yè)技術(shù)學(xué)院,河南 鄭州 451460)
會員畫像研究是當(dāng)前的一個熱門話題,最早是由交互設(shè)計(jì)之父Alan Cooper提出的,他認(rèn)為會員畫像是根據(jù)一系列用戶的真實(shí)數(shù)據(jù)而挖掘出的目標(biāo)用戶模型。用戶畫像的本質(zhì)是消費(fèi)者特征“可視化”,通過收集與分析用戶的基本屬性、購買特征、行為特征等多個維度的主要信息,將會員標(biāo)簽綜合起來,即可勾勒出會員的整體特征與輪廓。在商業(yè)領(lǐng)域,會員畫像所能實(shí)現(xiàn)的會員識別、精準(zhǔn)營銷、改善經(jīng)營、拓展市場等功能,是企業(yè)應(yīng)用會員畫像的主要驅(qū)動力。
本研究的目的是針對會員的消費(fèi)情況數(shù)據(jù),建立一個RFM數(shù)學(xué)模型,利用python軟件實(shí)現(xiàn)刻畫每一位會員購買力,以便能夠?qū)γ總€會員的價值進(jìn)行識別,為商場對會員進(jìn)行精準(zhǔn)促銷提供數(shù)據(jù)支撐。
數(shù)據(jù)來源于2018年全國大學(xué)生數(shù)學(xué)建模競賽的C題《大型百貨商場會員畫像描繪》(簡稱《競賽題》)。題目數(shù)據(jù)中給出了某大型百貨商場會員的相關(guān)信息,附件1是會員信息數(shù)據(jù)表,附件2是近幾年的銷售流水表,附件3是會員消費(fèi)明細(xì)表,附件4是商品信息表,附件5是數(shù)據(jù)字典表。
RFM模型是衡量客戶價值和購買力的重要工具和手段。該模型通過一個客戶的近期購買行為、購買的總體頻率以及消費(fèi)金額來描述該客戶的會員價值畫像。三個指標(biāo)分別是最近一次消費(fèi)時間(Recency)、消費(fèi)頻率(Frequency)和消費(fèi)總金額(Monetary)[1]。
最近一次消費(fèi)時間指會員最近一次的購買時間。理論上,最近一次的消費(fèi)時間越近的會員價值越高。消費(fèi)頻率是指在一定時間內(nèi)會員的消費(fèi)次數(shù),一定時間內(nèi)的消費(fèi)次數(shù)越多,越說明會員喜歡在該商場購物,會員的忠誠度越高。消費(fèi)總金額指在一定時間內(nèi)的消費(fèi)總金額,金額越高說明該會員的消費(fèi)能力越強(qiáng)。
運(yùn)用軟件,采用K-means聚類分析的方法,將會員劃分為8類。
對于《競賽題》附件1會員信息數(shù)據(jù)表、附件3會員消費(fèi)明細(xì)表數(shù)據(jù)預(yù)處理如下:
將“登記時間”一列中的空白數(shù)據(jù)刪除。
選取2017年10月1日—2017年12月31日的消費(fèi)記錄。
對第一步處理完畢會員消費(fèi)明細(xì)表中的異常數(shù)據(jù)進(jìn)行清洗,即篩選出能反映會員消費(fèi)特征的有效數(shù)據(jù)。異常數(shù)據(jù)有兩種情況:一種是商品售價與消費(fèi)金額差距較大的數(shù)據(jù)。這種情況可能是由于產(chǎn)品打折或商場促銷造成的,由于優(yōu)惠活動的實(shí)施背景無法確定,所以以打折為唯一因素,并以一折為最低優(yōu)惠限度。用Excel對數(shù)據(jù)進(jìn)行篩選,將消費(fèi)金額小于售價一折的產(chǎn)品數(shù)據(jù)和負(fù)數(shù)據(jù)刪除。另一種是銷售量、消費(fèi)金額、積分都為負(fù)數(shù)的數(shù)據(jù)。
數(shù)據(jù)字典表中與相同會員消費(fèi)明細(xì)表中的單據(jù)號可能不是同一筆消費(fèi),在提取數(shù)據(jù)時,將同一卡號下相同的單據(jù)號當(dāng)作一次消費(fèi)。
在會員消費(fèi)明細(xì)表中用vlookup函數(shù)匹配會員信息數(shù)據(jù)表中的數(shù)據(jù),將未匹配到的數(shù)據(jù)刪除,以此篩選出該商場會員的所有消費(fèi)數(shù)據(jù)。
Python軟件是一種解釋性的、高級的、通用的計(jì)算機(jī)編程語言,由荷蘭計(jì)算機(jī)工程師吉多·范羅蘇姆(Guido van Rossum)創(chuàng)建,并于1991年首次發(fā)布,它的設(shè)計(jì)理念強(qiáng)調(diào)代碼可讀性,特別是使用強(qiáng)制縮進(jìn)格式。Python語言具有簡潔性、易讀性以及可擴(kuò)展性,完全開源,非常多的科學(xué)計(jì)算庫都提供了Python的調(diào)用接口。它具有豐富和強(qiáng)大的庫,常被昵稱為“膠水語言”,能夠把用其他語言制作的各種模塊很輕松地聯(lián)結(jié)在一起。
本研究的聚類算法K-means算法,來自Python的Sklearn庫。Sklearn是機(jī)器學(xué)習(xí)中常用的第三方庫,對常用的機(jī)器學(xué)習(xí)中的回歸、分類、聚類等方法進(jìn)行了封裝。Sklearn庫要建立在NumPy、Scipy、MatPlotLib等庫之上[2]。
K-means是一個聚類分析算法, 在數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)對象之間的關(guān)系,將數(shù)據(jù)進(jìn)行分組,組內(nèi)的相似性越大,組間的差別越大,則聚類效果越好。算法的主要目的是找到數(shù)據(jù)中自然聚類的中心,使得各個類內(nèi)部點(diǎn)的誤差平方和最小。假設(shè)有n個對象,k個類,m個樣本[3]。
算法步驟如下:第一步,確定有k類;第二步,在m個樣本中隨機(jī)選取k個樣本作為類中心;第三步,計(jì)算各樣本與各類中心的距離,將各樣本歸于最近的類中心點(diǎn);第四步,求各類樣本的均值,作為新的類中心;第五步,如果類中心不再發(fā)生變動或者達(dá)到迭代次數(shù)上限,算法結(jié)束,否則回到第三步,反復(fù)執(zhí)行三、四、五步,直到結(jié)束[4]。
常見的距離函數(shù)有歐式距離、曼哈頓距離、余弦距離等,這里我們選取歐式距離
用誤差平方和作為聚類的目標(biāo)函數(shù)
式中,k表示k個聚類中心,Ci表示第i個中心,d表示歐式距離。
根據(jù)對會員數(shù)據(jù)的分析,各指標(biāo)數(shù)據(jù)度量單位各不相同,且不在同一個區(qū)間,為避免直接進(jìn)行數(shù)據(jù)建模對結(jié)果造成干擾,需要將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于F、R、M指標(biāo)對顧客價值存在正相關(guān)影響,因此針對這三項(xiàng)指標(biāo)運(yùn)用正向指標(biāo)的標(biāo)準(zhǔn)化方法,標(biāo)準(zhǔn)化公式為
式中,xnorm表示標(biāo)準(zhǔn)化后的數(shù)值,x表示原始值,xmin表示該指標(biāo)的極小值,xmax表示該指標(biāo)的極大值。
利用 R(最近購買日期)、F(購買頻次數(shù))、 M(購買總金額三個指標(biāo)),完成RFM模型的建設(shè)。聚類K-means 算法使用Python軟件實(shí)現(xiàn),實(shí)驗(yàn)過程分兩個階段。
第一個階段,選取2017年12月共31天的數(shù)據(jù),對算法程序進(jìn)行訓(xùn)練,按k=8,聚類分為8簇。
第二個階段,選取2017年10—12月的數(shù)據(jù),運(yùn)用程序運(yùn)算,按k=8,聚類分為8簇。
程序分兩個部分:第一部分是聚類,調(diào)用K-means 算法;第二部分是利用第一部分的數(shù)據(jù)結(jié)果,運(yùn)用Matplotlib庫畫三維散點(diǎn)圖。
5.3.1 第一階段實(shí)驗(yàn)結(jié)果
第一階段實(shí)驗(yàn)結(jié)果見表1和圖1。
表1 第一階段各類會員卡數(shù)量
續(xù)表
圖1 第一階段三維分類散點(diǎn)圖
5.3.2 第二階段實(shí)驗(yàn)結(jié)果
第二階段實(shí)驗(yàn)結(jié)果見表2和圖2。
表2 第二階段各類會員卡數(shù)量
圖2 第二階段三維分類散點(diǎn)圖
將該商場會員劃分為8類,其分類特征和營銷策略見表3。
表3 會員特征及營銷策略
其中,消費(fèi)非常高的會員(一段時間內(nèi)的消費(fèi)總金額超過該段時間內(nèi)平均消費(fèi)金額900%的會員)劃分在高級會員中。
近年來,隨著大數(shù)據(jù)分析技術(shù)的發(fā)展,對客戶進(jìn)行會員畫像,利用會員標(biāo)簽細(xì)分客戶類型,成為認(rèn)識和了解商場會員的重要工具,也為商場制定精細(xì)化的、有針對性的營銷手段提供了數(shù)據(jù)支持。
本研究根據(jù)某商場2017年10月到12月的會員銷售記錄,通過K-means 算法聚類分析,將該商場3個月消費(fèi)的會員劃分為8類。通過會員的類別標(biāo)簽,可以對不同類的會員使用不同的營銷手段,分類進(jìn)行商品的宣傳、推送等,挖掘顧客的后續(xù)消費(fèi)力、消費(fèi)價值,將客戶的價值最大化。
鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報2019年3期