胥學峰, 邢德恩, 宗炫君
(1.都城偉業(yè)集團有限公司, 北京 100020;2.國網(wǎng)江蘇省電力公司經(jīng)濟技術(shù)研究院,江蘇 南京 210008)
基于PCA與SOM神經(jīng)網(wǎng)絡算法的客戶價值細分模型研究
胥學峰1, 邢德恩1, 宗炫君2
(1.都城偉業(yè)集團有限公司, 北京 100020;2.國網(wǎng)江蘇省電力公司經(jīng)濟技術(shù)研究院,江蘇 南京 210008)
針對房地產(chǎn)客戶價值管理問題,以某大型房地產(chǎn)企業(yè)的普通住宅業(yè)務為研究對象,構(gòu)建了基于PCA與SOM神經(jīng)網(wǎng)絡算法的房地產(chǎn)客戶價值細分模型。首先采用PCA主成份分析法將輸入變量重組為線性不相關的綜合指標,然后采用SOM神經(jīng)網(wǎng)絡算法對客戶價值進行聚類分析,最后針對聚類結(jié)果,分析不同目標客戶群的購買模式和價值特征,旨在為房地產(chǎn)企業(yè)的營銷過程提供決策支持。
客戶價值細分; SOM; 主成份分析法; 自組織性;評價指標
Abstract: Facing real estate customer value management and taking common residence business of a large real estate enterprise as research object, this paper establishes a real estate customer value segmentation model based on PCA and SOM neural network. Firstly, input variables are reorganized into linear and irrelevant composite indicators in the PCA method. Then, a cluster analysis is made of customer value in the SOM neural network algorithm. Finally, with respect to cluster results, this paper analyzes purchasing patterns and value characteristics of different target customer groups so as to provide decision support for the marketing process of the real estate enterprise.
Keywords: customer value segmentation; SOM; principal component analytic method; self-organization; evaluation index
當前我國房地產(chǎn)企業(yè)面臨著去庫存、成交率低、營銷成本高、客戶滿意度低、客戶流失、未激活的潛在客戶、資源粗放化等一系列問題,另外,房地產(chǎn)行業(yè)還有一定的特殊性,比如資金流動性低,需求量非常大等。這就要求房地產(chǎn)企業(yè)在營銷過程中以客戶為導向,正確進行客戶價值的識別,通過對房地產(chǎn)客戶歷史數(shù)據(jù)進行分析,識別出不同價值的客戶,從而對其制定個性化的營銷方案,將有限的資源集中于高價值用戶,實現(xiàn)資源的合理配置,提高企業(yè)的利潤最大化。
信息時代的到來使得房地產(chǎn)企業(yè)焦點由“以產(chǎn)品為中心”向“以客戶為導向”轉(zhuǎn)變,這就要求企業(yè)不斷聚焦客戶價值細分研究,從海量的歷史數(shù)據(jù)中挖掘客戶的購買行為和模式,區(qū)分高價值與低價值客戶的特征,針對不同的客戶提供差異化的服務方案,將有限的資源集中到高價值客戶上,實現(xiàn)企業(yè)的利潤最大化。
國內(nèi)外學者從不同的角度對客戶價值細分進行了研究,Dweyer與Jackson從客戶流失的角度出發(fā),將客戶價值細分指標分為“永久流失”和“暫時流失”兩種,建立了相應的客戶價值細分指標體系[1];Alex與Berson等人從客戶關系管理角度出發(fā),采用決策樹和聚類算法來研究零售業(yè)客戶的價值細分[2];張良均等人在研究航空公司客戶價值分析中,采用了LRFMC模型,從客戶會員時長、消費間隔、消費頻率、飛行里程和折扣系數(shù)五個維度研究客戶價值識別[3];鄒鵬等人從代價敏感性學習的機制下研究了客戶價值細分,建立了分類的期望損失函數(shù)作為分類效果的評價標準。
由于房地產(chǎn)行業(yè)是一個非常特殊的行業(yè),具有流動性差、需求量大、政策導向明顯和資金需求量大的特點,導致房地產(chǎn)客戶價值的研究不能直接采用傳統(tǒng)的RFM模型(消費間隔R、消費頻率F、消費金額M),本文在前人研究的基礎上拓展了RFM模型,針對房地產(chǎn)客戶價值的研究,通過專家調(diào)研法和頭腦風暴法粗選出了與客戶價值影響因素相關的12個指標,具體的指標體系如表1所示。
(1)購買能力。主要從客戶本身的購買能力出發(fā)選取指標,包括月薪酬、單價、付款類型、薪資收入、首付款、首付比例幾個指標,同樣的月薪酬在不同的區(qū)域反映的購買能力是不同的,區(qū)域因素可以用房產(chǎn)單價來反映,同時,首付款和首付比例也能直接反映購買者的購買能力。
(2)家庭結(jié)構(gòu)。由于中國房屋的稀缺性以及人們的生活觀念影響,使得購房不僅僅是個人的決策,往往購買決策是整個家庭的決策結(jié)果。本文用家庭生命周期、年齡、教育情況等指標來反映家庭結(jié)構(gòu),本文將家庭生命周期分為年輕男女、已婚無子女、已婚子女小于6周歲、已婚子女小于20周歲、三代家庭、老年家庭6個級別。
(3)購買動機。購買動機也就是指客戶購房的直接驅(qū)動力。依據(jù)馬斯洛需求層次理論得知,需求從低到高分為生理性需求、安全性需求、功能性需求、情感性需求和社會性需求五大類,應用到房地產(chǎn)客戶上,購買動機從低到高分為棲居型、改善型、享受型、占有型和出租型。
(4)其他。從實地調(diào)研中發(fā)現(xiàn),房地產(chǎn)客戶價值分析還與已有房產(chǎn)面積、跟進次數(shù)、建筑面積等有非常重要聯(lián)系,跟進次數(shù)在一定程度上可以反映購房者的品牌忠誠度。
表1 客戶價值細分指標粗選列表
在房地產(chǎn)客戶價值細分的研究過程中,由于客戶評價指標屬性較多,并且指標之間存在一定的關聯(lián)性,直接對客戶進行聚類分析會導致信息重溢現(xiàn)象?;诖?,本文構(gòu)建了基于PCA與SOM神經(jīng)網(wǎng)絡的房地產(chǎn)客戶價值細分模型,針對上節(jié)構(gòu)建的客戶價值細分指標,首先采用基于PCA的主成份分析法將眾多指標重組為少數(shù)幾個相互獨立的能夠很大程度上反映所有指標特征的綜合指標,然后針對這幾個指標采用SOM神經(jīng)網(wǎng)絡算法進行聚類分析,將客戶細分為不同價值的類,最后針對每個類別的客戶進行分析,為企業(yè)的營銷過程和客戶關系管理提供一定的決策支持[4]。房地產(chǎn)客戶價值細分建??傮w流程如圖1所示。
圖1 房地產(chǎn)客戶價值細分建模流程
主成份分析法(Principal Component Analysis)旨在利用將維的思想,把多維指標轉(zhuǎn)換為少數(shù)綜合指標(主成份),每個綜合指標盡可能全面的反映原始變量的信息,且各主成份之間線性不相關,所包含的信息不重疊,從而降低問題的求解難度,保持數(shù)據(jù)分析的有效性[5]。
本文采用PCA主成份分析法確定房地產(chǎn)客戶價值評價指標,在前文粗選的客戶價值評價指標的基礎上,運用主成份分析法對初始指標進行將維處理,為下一步客戶價值細分做準備,分析主要的步驟如下:
(1)采集數(shù)據(jù)及確定某房地產(chǎn)客戶價值評價集合。通過調(diào)研某房地產(chǎn)企業(yè),抽樣獲取數(shù)據(jù)作為樣本,原始數(shù)據(jù)指標集合為:
{Vi1,Vi2,Vi3……Vij}其中i=1,2,3…m,j=1,2,3…n
(1)
(2)指標變量標準化處理。進行數(shù)據(jù)探索和描述性統(tǒng)計分析,為了消除指標之間的量綱和取值范圍差異的影響,必須對指標數(shù)據(jù)進行標準化處理。本文采用最小-最大值標準化方法:
(2)
(3)計算相關系數(shù)矩陣Rij,rij表示原變量Vi與Vj之間的相關系數(shù),計算公式為:
(3)
(4)計算特征值λi及對應的特征向量li。
(5)計算主成份貢獻率及累計貢獻率。一般選取累計貢獻率大于85%的特征值對應的主成份m,這m個主成份就綜合體現(xiàn)了所有指標的大部分信息。
主成份貢獻率:
(4)
主成份累計貢獻率:
(5)
(6)計算各主成份得分Zij,將其作為房地產(chǎn)客戶價值細分評價的綜合指標。
Zij=Vij*li
(6)
由于客戶資料復雜多變,且客戶價值模式往往又由許多隱含層次因素交互作用影響,本因此,文構(gòu)建了SOM神經(jīng)網(wǎng)絡對客戶價值進行聚類分析,該網(wǎng)絡為無監(jiān)督學習網(wǎng)絡,能夠自動識別輸入樣本信息自動聚類,受環(huán)境干擾性小,具有較強的自組織性,相比于傳統(tǒng)的聚類算法,其具有更優(yōu)秀的聚類性能[6]。
自組織映射神經(jīng)網(wǎng)絡(Self Organization Feature Map, SOM)是芬蘭赫爾辛基大學教授Kohonen于1981年提出的,該網(wǎng)絡由輸入層和競爭層構(gòu)成,輸入層將輸入信息通過權(quán)值向量映射到競爭層各神經(jīng)元上,競爭層神經(jīng)元相互競爭使得學習率和神經(jīng)元鄰域半徑不斷減小,從而使得同類神經(jīng)元逐漸集中,形成屬性特征相似的類別[7]。本文基于SOM神經(jīng)網(wǎng)絡,建立房地產(chǎn)客戶價值細分模型,建模主要思路如下:
(1)依據(jù)某房地產(chǎn)企業(yè)客戶價值細分指標構(gòu)建SOM神經(jīng)網(wǎng)絡,網(wǎng)絡拓撲結(jié)構(gòu)為六邊形,競爭層包括2×2=4個神經(jīng)元。
(2)網(wǎng)絡初始化及鄰域半徑的確定。輸入層與競爭層神經(jīng)元之間實現(xiàn)全連接,權(quán)值向量{Wij}賦予[0,1]區(qū)間內(nèi)的隨機值,確定學習率η(0)(0<η(0)<1),確定初始鄰域半徑Ng(0),一般情況下,應該覆蓋所有鄰域距離的2/3。權(quán)值向量應滿足:
(7)
(3)接受輸入。隨機從訓練集中選取一個輸入樣本,并進行歸一化處理,得到Xk=(X1,X2,…Xn),n為輸入神經(jīng)元數(shù)目。
(4)尋找獲勝神經(jīng)元。計算輸入樣本與全部競爭層神經(jīng)元之間的距離(歐氏距離):
(8)
選擇距離最小時對應的節(jié)點Nj*為競爭獲勝神經(jīng)元:
(9)
(5)定義優(yōu)勝鄰域。優(yōu)勝鄰域是以獲勝神經(jīng)元為中心,設定一定距離的半徑的一個區(qū)域,在網(wǎng)絡的學習過程中,隨著迭代次數(shù)的增加,權(quán)值向量不斷自組織和調(diào)整,優(yōu)勝鄰域不斷縮小為零,模式趨于穩(wěn)定[8]。Nj*表示獲勝神經(jīng)元的鄰域,其應滿足:
Nj*={m,dj (10) (6)權(quán)值調(diào)整。當樣本輸入后,獲勝神經(jīng)元及其優(yōu)勝鄰域范圍內(nèi)的神經(jīng)元會以自組織形式不斷調(diào)整權(quán)值向量,隨著迭代次數(shù)的推移,競爭層各神經(jīng)元就會趨于穩(wěn)定狀態(tài)[8]。權(quán)值向量調(diào)整如下: (11) (7)檢查結(jié)束。隨著迭代次數(shù)的增加,學習率會不斷的減小,判斷結(jié)束的標準為學習率逐漸減小為零或某個非常小的正數(shù)。 本文采用RStudio軟件進行數(shù)據(jù)分析,為了驗證模型的有效性,本文選取了24條已成交客戶數(shù)據(jù)作為樣本數(shù)據(jù),利用建立的模型對客戶價值進行細分研究。 為了降低問題的復雜度,選取了24條數(shù)據(jù)作為研究樣本,根據(jù)客戶價值細分指標體系選取12條指標,并對數(shù)據(jù)進行標準化預處理[9]。結(jié)合RStudio軟件進行主成份分析,主成份的選擇依據(jù)主成份累計方差貢獻率大于等于85%,可知,各主成份方差貢獻率如表2所示。 表2 各主成份方差貢獻率 由上表可以看出,主成份一、主成份二、主成份三和主成份四的累計方差貢獻率高達85.7%(大于85%),故只需選取主成份一、主成份二、主成份三和主成份四,即可代表原來的12個指標的大部分信息,各主成份因子載荷矩陣如表3所示。 表3 各主成份因子載荷矩陣 由上表各主成份因子載荷矩陣可以看出,第一主成份在首付金額、首付比例、已有房產(chǎn)面積、購房用途、月工資等指標上載荷較高,說明其主要反映這幾個指標的信息,因此,認為第一主成份代表了個人資產(chǎn)情況;第二主成份在家庭生命周期和年齡指標上載荷最高,認為第二主成份主要反映了家庭結(jié)構(gòu);第三主成份在單價上載荷較高,且與購房面積呈較強的負相關關系,說明第三主成份主要反映了個人購買能力情況;第四主成份與付款方式呈較強正相關,且與年齡和咨詢次數(shù)呈較強負相關,則認為第四主成份主要反映了客戶付款方式情況。 各綜合指標計算公式為: comp1=0.311*x1+0.3*x3+0.375*x4+ (12) comp2=0.242*x1-0.254*x2-0.397*x3- (13) comp3=-0.873*x2+0.314*x5+0.212*x6+ (14) comp4=-0.478*x1-0.129*x2+0.318*x4- (15) 各主成份得分情況如表4所示,然后將這四個主成份作為SOM神經(jīng)網(wǎng)絡模型的輸入樣本,進行客戶價值聚類分析。 表4 SOM神經(jīng)網(wǎng)絡輸入樣本 如圖2所示,基于主成份分析法選擇的4個主成份,采用SOM神經(jīng)網(wǎng)絡算法對客戶價值進行細分,通過調(diào)整參數(shù)及結(jié)果分析,將SOM神經(jīng)網(wǎng)絡參數(shù)設置為:競爭層為2*2的二維空間平面,為矩形網(wǎng)絡拓撲結(jié)構(gòu),學習率線性變動區(qū)間為[0.05,0.01],鄰域半徑為0.5,最大迭代次數(shù)為500次[10],此時,模型取得最理想的效果,聚類結(jié)果如表5所示。 表5 客戶聚類結(jié)果 圖2 客戶特征分布雷達圖 針對聚類結(jié)果進行特征分析,24個客戶被分成了4類客戶群,客戶群1包括1 2 3 4 5 8 14 18 19 20 22等11個客戶,客戶群1在comp2、comp3與comp4屬性上較大,在comp1屬性上最??;客戶群2包括15 16共2個客戶,客戶群2在comp1、comp3與comp4屬性上最大,在comp2屬性上最??;客戶群3包括6 7 9 10 11 12 13 17共8個客戶,客戶群3在comp2屬性上最大,在comp4屬性上較?。豢蛻羧?包括21 23 24共3個客戶,客戶群4在四個屬性上都非常小。 通過上述分析表明每個客戶群都具有顯著不同的特征,根據(jù)上面特征描述,本文將客戶群定義為四個等級的客戶類別:重要保持客戶、重要發(fā)展客戶、重要挽留客戶、一般客戶。其中每類客戶的特征如下: 第一類(客戶群2):重要保持客戶。這類客戶的個人資產(chǎn)情況和個人購買能力都比較突出,中年成熟家庭,且基本采用全款方式購買,對房地產(chǎn)企業(yè)的貢獻最大,所占的比例卻非常小。因此,應該優(yōu)先將資源集中到他們身上,實施差異化的管理和一對一營銷,重點保持和延長該類客戶的高消費水平。 第二類(客戶群1):重要發(fā)展客戶。這類客戶個人資產(chǎn)水平較低,年齡基本在25至35之間,首付比例低且無房產(chǎn)面積,購房單價較高,有一定的購買能力,屬于事業(yè)初創(chuàng)期的年輕人,這類客戶當前的價值不是很高,但是卻有很大的發(fā)展?jié)摿?。因此,房地產(chǎn)企業(yè)應該重點關發(fā)展類客戶,挖掘其購買潛力,防止他們流失到競爭對手陣營,使他們盡可能發(fā)展為公司的忠誠客戶。 第三類(客戶群3):重要挽留客戶。該類客戶通常為中年客戶,已經(jīng)擁有至少一套房產(chǎn),使用較低首付比例,該類客戶所購買房產(chǎn)已經(jīng)飽和。因此,可以對該類客戶采取必要的挽留措施。 第四類(客戶群4):一般客戶。該類客戶的個人資產(chǎn)通常較低,年齡較小,且購買能力比較低,首付比例較低,是房地產(chǎn)企業(yè)的一般價值客戶。 本文結(jié)合房地產(chǎn)行業(yè)的特點,基于客戶價值細分理論以及SOM神經(jīng)網(wǎng)絡理論,構(gòu)建了基于PCA與SOM神經(jīng)網(wǎng)絡算法的房地產(chǎn)客戶價值細分模型,首先運用PCA主成份分析法提取影響客戶價值細分的綜合指標,然后采用SOM神經(jīng)網(wǎng)絡算法對客戶價值進行細分,將房地產(chǎn)客戶價值細分為重要保持客戶、重要發(fā)展客戶、重要挽留客戶和一般客戶,幫助房地產(chǎn)企業(yè)優(yōu)化營銷資源配置,為房地產(chǎn)企業(yè)的價值客戶群管理提供一定的決策支持。 [1] DWYER F R. Customer lifetime valuation to support marketing decision making[J]. Journal of Interactive, 2003(4):32-39. [2] (美)ALEXBERSO著, 賀奇,譯. 構(gòu)建面向CRM的數(shù)據(jù)挖掘應用[M]. 北京: 人民郵電出版社, 2001. [3] 張良均, 云偉標, 王路. R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京: 機械工業(yè)出版社, 2015. [4] 李春華. 自特征映射自組織特征映射神經(jīng)網(wǎng)絡原理和應用研究[J]. 北京大學學報, 2006, 42 (2): 543-547. [5] 楊淑霞, 呂世森, 喬艷芬. 用電客戶信用的主客觀評價及分析[J]. 中國電力, 2005, 38(6): 1-4. [6] 薛星, 張世峰. 房地產(chǎn)市場預警系統(tǒng)時政研究[J]. 金融縱橫, 2010, 13(4): 23-29. [7] 李瀟虎. 城市房地產(chǎn)市場預警系統(tǒng)研究[J]. 金融縱橫, 2010,13(4):23-29. [8] 高雋. 人工神經(jīng)網(wǎng)絡原理及其仿真實例[M]. 北京:機械工程出版社, 2007. [9] 楊毅, 陳沖. 基于SOM神經(jīng)網(wǎng)絡的煤炭企業(yè)客戶細分模型研究[J]. 中國礦業(yè), 2009, 18(2): 33-38. [10] 肖強, 錢曉東. 一種改進的SOM神經(jīng)網(wǎng)絡對Web用戶的聚類[J]. 情報科學, 2012, 12(3): 54-59. A Research of Customer Value Segmentation Model Based on PCA and SOM Neural Network Xu Xuefeng1, Xing Deen1, Zong Xuanjun2 (1. Ducheng Weiye Group Corporation, Beijing 100020, China; 2. State Grid JiangsuElectric Power Co., Economic and Technical Research Institute, Nanjing Jiangsu 210008, China) 10.3969/j.issn.1000-3886.2017.03.016 TM744 A 1000-3886(2017)03-0049-04 定稿日期: 2016-10-19 國家電網(wǎng)公司科技項目《基于云計算的多產(chǎn)業(yè)輔助決策支撐體系研究與應用》 胥學峰(1966-),山東鄒平人,男,碩士生,高級工程師,主要研究方向:房地產(chǎn)產(chǎn)業(yè)發(fā)展。 邢德恩(1972-),山東濟寧人,男,工程碩士,全國注冊安全工程師,主要研究方向:數(shù)據(jù)分析研究。 宗炫君(1990-),江蘇鹽城人,女,碩士,工程師,主要研究方向:數(shù)據(jù)分析算法研究。3 實例分析
3.1 主成份分析
0.204*x5+0.372*x6+0.278*x7-0.297*x8-
0.156*x9+0.355*x10+0.294*x11+0.299*x12
0.419*x5+0.109*x6-0.42*x7-0.438*x9+
0.194*x10+0.345*x11
0.205*x8+0.127*x9-0.102*x11+0.13*x12
0.311*x5+-0.112*x6-0.387*x8-
0.173*x9-0.309*x11+0.505*x123.2 SOM神經(jīng)網(wǎng)絡訓練及學習過程
3.3 模型分析
4 結(jié)束語