郭磊 郭湖斌 趙荔
摘 要:隨著電子商務(wù)的快速發(fā)展,用戶之間異質(zhì)性逐漸明顯。為了對用戶合理細(xì)分,本文通過逐次遞進(jìn)的思想,借助經(jīng)典RFM模型中的關(guān)鍵指標(biāo),選擇最后購買時間R作聚類簇類的控制因素。借助改進(jìn)的K-Means算法對電商企業(yè)用戶進(jìn)行聚類研究,從而得到合理的聚類分類結(jié)果及各簇類用戶的特征行為,為電子商務(wù)企業(yè)的精準(zhǔn)營銷奠定了基礎(chǔ)。
關(guān)鍵詞:大數(shù)據(jù);K-means;聚類分析;精準(zhǔn)營銷
一、引言
大數(shù)據(jù)與人工智能的發(fā)展給人們生活帶來諸多的便利,主要得益于企業(yè)對信息技術(shù)和應(yīng)用模型開發(fā)的大力投入。在電子商務(wù)領(lǐng)域,沃爾瑪和亞馬遜兩家行業(yè)領(lǐng)軍企業(yè)在用戶識別,分類和精準(zhǔn)營銷等終端用戶行為研究和實(shí)際應(yīng)用奠定了該領(lǐng)域的研究基礎(chǔ)。國內(nèi)不少學(xué)者和企業(yè)在研究創(chuàng)新和管理實(shí)踐等方面做出了積極探索,并在提高用戶的購買轉(zhuǎn)化率和降低營銷成本等方面為企業(yè)帶來了一定經(jīng)濟(jì)效益。在企業(yè)的客戶關(guān)系管理方面,如何有效地對用戶進(jìn)行合理分類,是企業(yè)精準(zhǔn)營銷的基礎(chǔ)。Cheng(2009)和Khajvand(2011)基于RFM(Recency,F(xiàn)requency, Monetary)三個重要指標(biāo),應(yīng)用數(shù)據(jù)挖掘技術(shù)通過計算價值貢獻(xiàn)對用戶進(jìn)行分類,Jain對近50年的K-Mean的數(shù)據(jù)聚類分析方法進(jìn)行了全面研究,龔婷和辛愛莉等分別在航空旅客和電子商務(wù)領(lǐng)域的用戶聚類做出了實(shí)踐研究。
綜上可見,在國內(nèi)電子商務(wù)領(lǐng)域中,對用戶的分類研究多從特定的指標(biāo)考慮,建立不同需求的模型進(jìn)行分析。因此本文借助用戶分類模型中的經(jīng)典指標(biāo)及其歷史數(shù)據(jù),選擇某一關(guān)鍵指標(biāo)作為控制因素,利用K-Means算法對滿足特定要求用戶的歷史數(shù)據(jù)進(jìn)行聚類分類。基于機(jī)器學(xué)習(xí)的原理,使其屬性相似的用戶可以聚類在一簇,從而使得電子商務(wù)企業(yè)可以較為直觀地得到不同簇類的用戶特征,其研究結(jié)果對大數(shù)據(jù)背景下的用戶合理分類和精準(zhǔn)營銷具有較強(qiáng)的參考價值。
二、理論及數(shù)據(jù)基礎(chǔ)
早在上個世紀(jì)初,意大利經(jīng)濟(jì)學(xué)家Pareto在研究國民財富分配時,發(fā)現(xiàn)意大利20%的人口擁有該國80%的財富,從而提出著名的80/20法則。隨后一百多年的時間里,人們發(fā)現(xiàn)80/20法則不僅在經(jīng)濟(jì)學(xué)領(lǐng)域,在管理學(xué)等領(lǐng)域也具有廣泛的應(yīng)用,如公司80%的利潤來自于20%的用戶,即企業(yè)努力與該20%的用戶拓展合作,則對企業(yè)發(fā)展最有益處。
在當(dāng)前大數(shù)據(jù)時代,企業(yè)在推廣、獲取和維系用戶等方面已經(jīng)出現(xiàn)了革命性的創(chuàng)新。用戶及其指標(biāo)之間也存在著巨大的差異,為此,針對不同的企業(yè)需要深入分析用戶及行為所產(chǎn)生的指標(biāo)數(shù)據(jù)。假設(shè)企業(yè)共有n個用戶,則用戶們的多維指標(biāo)數(shù)據(jù)可表示為:
在管理實(shí)踐方面,本文以國內(nèi)某知名電子商務(wù)網(wǎng)站三年內(nèi)近萬名注冊用戶數(shù)據(jù)為研究基礎(chǔ),從中選擇至少登錄過一次,且有購買記錄的7418位用戶為研究對象,進(jìn)行數(shù)據(jù)分類驗證。前期對用戶進(jìn)行初始統(tǒng)計分析,發(fā)現(xiàn)用戶的購買次數(shù)與購買金額之間的相關(guān)性系數(shù)僅為0.517,屬于中性相關(guān)的,其兩者的分布分別如圖1、圖2所示
深入分析發(fā)現(xiàn)用戶平均購買金額為3198.9元,標(biāo)準(zhǔn)差為56321.6,其變異系數(shù)為17.6;用戶平均購買次數(shù)為16.8次,標(biāo)準(zhǔn)差為126.6,其變異系數(shù)為7.5,可見企業(yè)用戶之間異質(zhì)性非常明顯,為了精準(zhǔn)服務(wù)和管理,則需要對其進(jìn)行合理分類。
三、聚類數(shù)據(jù)分析
隨著聚類簇數(shù)值的增大,用戶的分組也將更精確,同時簇中的聚合度也變得更高,即SSE下降趨勢會逐漸變小,在聚類數(shù)達(dá)真實(shí)值時,SSE下降緩慢,且趨于平穩(wěn),即再進(jìn)行細(xì)分的話,已無實(shí)際意義。從圖3、圖4中可看出隨著族類數(shù)K繼續(xù)變大,當(dāng)K值大于4時,SSE下降趨勢大幅減少,基本上趨于平穩(wěn),即應(yīng)用K-Means算法分析時,選擇K=4時是適合當(dāng)前用戶聚類分類精度要求的。
用戶的購買次數(shù)和購買金額是電商企業(yè)另外兩個重要的指標(biāo),為此本文應(yīng)用K-Means算法進(jìn)行分析,其實(shí)現(xiàn)的基本思想和路徑如下:
在K-Means分析結(jié)果中出現(xiàn)兩個特殊的聚類,即每個聚類之中僅各包括一值,購買金額分別為4820248.45元和1352426.22元。在這兩個聚類用戶數(shù)量極少,但是從購買金額角度來看,該用戶對電商企業(yè)來說又是極為重要的用戶,故需要電商企業(yè)投入較多資源進(jìn)行重點(diǎn)維系。另外兩個聚類之中含有絕大數(shù)的用戶,且購買金額最大僅為912380.89元,故可對用戶購買金額角度不超過百萬的用戶群體重新K-Means聚類分析,其結(jié)果如圖6所示。為了達(dá)到電商企業(yè)對用戶合理分類的要求,再次應(yīng)用上述理論和方法,運(yùn)行程序后得到分析結(jié)果分別如圖7、圖8所示:
逐次應(yīng)用K-Means聚類分析,一方面可以識別出數(shù)據(jù)中的奇異點(diǎn),但是實(shí)際上又極為重視的用戶,另一方面使得用戶分類程度可控,結(jié)構(gòu)清晰,其各聚類中的用戶分特征如下表所示。
從購買金額視角來看,其變異系數(shù)由整體17.6,降維到變異系數(shù)最大的一類僅1.34,其余各聚類的效果顯著,聚類內(nèi)的變異系數(shù)均不超過0.4,即整體聚類分類效果成效顯著。在聚類0內(nèi),用戶購買金額與購買次數(shù)之相關(guān)性極低,即此類用戶購買次數(shù)的增加,并不會帶來用戶購買金額的增加,而是受到電商企業(yè)單筆超過百元免費(fèi)配送的政策影響,此類用戶對于價格極為敏感,購買頻次也特別低,則需要增加低價值的產(chǎn)品品種數(shù)量,引導(dǎo)該類用戶購買電商企業(yè)高價值產(chǎn)品的營銷策略,從而提高該類用戶的貢獻(xiàn)度。聚類1用戶極少,但該用戶購買金額與聚類0的全部用戶金額接近,且其購買頻次和單均金額都特高,屬電商的戰(zhàn)略企業(yè)用戶,電商企業(yè)則需要派專業(yè)人員維系與該用戶的關(guān)系 。聚類2的用戶購買金額較大,購買頻次更高,但是單均金額不高,應(yīng)屬電商企業(yè)的代銷用戶,電商企業(yè)則需派技術(shù)人員進(jìn)行技術(shù)指導(dǎo)或幫助。其他聚類的用戶也表現(xiàn)了各自的特征,為電商企業(yè)的服務(wù)分配和精準(zhǔn)營銷提供數(shù)據(jù)依據(jù)。
四、結(jié)論及擴(kuò)展
隨著信息技術(shù),特別是大數(shù)據(jù)等相關(guān)的技術(shù)快速發(fā)展,企業(yè)已有以較低經(jīng)濟(jì)成本獲取用戶相關(guān)特性及用戶行為等數(shù)據(jù)的技術(shù)能力,同時隨著用戶數(shù)量的增加,用戶之間的差異性也逐漸擴(kuò)大,本文通過選擇經(jīng)典用戶行為影響指標(biāo),然后逐次運(yùn)用K-means分析方法對已有歷史數(shù)據(jù)進(jìn)行聚類研究,使得用戶分類層次清晰,同類用戶之間屬性和行為相對一致,便于企業(yè)對用戶進(jìn)行合理分類,從而可為用戶提供精準(zhǔn)服務(wù),從而實(shí)現(xiàn)企業(yè)和用戶的雙贏。
參考文獻(xiàn):
[1]Kumar, R., Analysis of wealth Walmart, in Strategic Financial Management Casebook[B]. Academic Press 2017(1).
[2]Boratto, L., et al., Using neural word embeddings to model user behavior and detect user segments[J]. Knowledge-Based Systems, 2016(108).
[3]李海麗.數(shù)據(jù)分析和挖掘在電商精細(xì)化運(yùn)營中的應(yīng)用[J].中國經(jīng)貿(mào),2017(15).
[4]劉春艷,等.客戶細(xì)分下的電商營銷策略研究[J].商業(yè)經(jīng)濟(jì)研究,2016(1).
[5]Cheng,C.-H. and Y.-S. Chen,Classifying the segmentation of customer value via RFM model and RS theory[J].Expert Systems with Applications,2009(36).
[6]Khajvand,M.,et al.,Estimating customer lifetime value based on RFM analysis of customer purchase behavior: Case study[J].Procedia Computer Science,2011(3).
[7]Jain,A.K.,Data clustering:50 years beyond K-means[J].Pattern Recognition Letters,2010(31).
[8]龔婷,等.基于K-means的航空旅客聚類研究[J].價值工程,2018(37).
[9]辛愛莉,等.聚類算法在電子商務(wù)客戶細(xì)分中的應(yīng)用[J].商場現(xiàn)代化,2008(5).
[10]Han,S.H et.al., Segmentation of telecom customers based on customer value by decision tree model[J]. Expert Systems with Applications, 2012(39).