国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于商業(yè)大數(shù)據(jù)的客戶分類方案

2017-04-04 02:55:27李偉秦鵬胡廣勤張毓福

六盤水師范學(xué)院學(xué)報 2017年6期

關(guān)鍵詞：金額可視化商業(yè)

李偉秦鵬胡廣勤張毓福

(六盤水師范學(xué)院數(shù)學(xué)與信息工程學(xué)院，貴州六盤水553001)

隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展，人們已經(jīng)進(jìn)入了Web 2.0時代，導(dǎo)致數(shù)據(jù)量呈現(xiàn)爆炸式增長。在商業(yè)活動中企業(yè)營銷焦點已經(jīng)從以產(chǎn)品為中心轉(zhuǎn)變?yōu)橐钥蛻魹橹行?，客戶關(guān)系管理成為企業(yè)的核心問題?？蛻絷P(guān)系管理的關(guān)鍵問題是客戶分類，客戶分類可以區(qū)分無價值客戶和高價值客戶。企業(yè)對待不同價值的客戶制定個性化服務(wù)方案，采取不同營銷策略，將有限的資源集中于高價值客戶，提高經(jīng)營效率。精確的客戶分類結(jié)果是企業(yè)優(yōu)化營銷資源分配的重要依據(jù)，客戶分類變得越來越必要。

Hughes提出了RFM模型（Hughes A，1994），以客戶最近一次消費距現(xiàn)在的時間長度R、消費次數(shù)F、消費金額M三個變量來描述客戶的特征及對客戶進(jìn)行分類。國內(nèi)學(xué)者基于傳統(tǒng)RFM模型變量含義的質(zhì)疑，提出了修正的多指標(biāo)RFM模型（曾小青等，2013）。同時，傳統(tǒng)的客戶端服務(wù)器結(jié)構(gòu)處理商業(yè)大數(shù)據(jù)，進(jìn)行客戶分類的效率很低。近兩年大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)、金融、物流領(lǐng)域的發(fā)展迅速，體現(xiàn)出極高的社會價值（李國杰和程學(xué)旗，2012），大數(shù)據(jù)分析技術(shù)已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域重要趨勢。本研究基于大數(shù)據(jù)技術(shù)，探討在Hadoop平臺上使用Hive和R分析處理商業(yè)數(shù)據(jù)，進(jìn)行客戶分類。

1 關(guān)鍵技術(shù)

Hadoop是Apache基金會旗下的一個開源分布式計算平臺，為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。Hadoop的核心是分布式文件系統(tǒng)HDFS和并行計算框架MapReduce（J.Cohen，2009）。HDFS是一個高度容錯性的系統(tǒng)（Chuck Lam，2010），提供高吞吐量的數(shù)據(jù)訪問，適合大規(guī)模數(shù)據(jù)集上的應(yīng)用，實現(xiàn)了以流的形式訪問文件系統(tǒng)中的數(shù)據(jù)。HDFS以其高可靠性和高擴展性，尤其適合部署在商業(yè)計算機組成的集群上。

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)。Hive定義了類SQL查詢語言（HQL），通過HQL語句可以快速實現(xiàn)MapReduce統(tǒng)計，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

R是一個開源的數(shù)據(jù)分析軟件（Luis Torgo，2010），被科學(xué)家和數(shù)據(jù)分析師用于數(shù)據(jù)分析、數(shù)據(jù)可視化和預(yù)測建模。它允許以完全的、交互的和面向?qū)ο蟮姆绞骄帉懩_本和函數(shù)。數(shù)據(jù)挖掘的結(jié)果可以使用R進(jìn)行高效的可視化展現(xiàn)。

Hadoop平臺存儲數(shù)據(jù)，Hive分析統(tǒng)計數(shù)據(jù)，R則對數(shù)據(jù)進(jìn)行聚類可視化。通過結(jié)合Hadoop、Hive和R來實現(xiàn)并行處理商業(yè)大數(shù)據(jù)，進(jìn)行客戶分類。

2 設(shè)計思想

隨著大數(shù)據(jù)時代的來臨和數(shù)據(jù)挖掘技術(shù)的發(fā)展，客戶的數(shù)據(jù)量日益增多，傳統(tǒng)的客戶分類方法分類的實際效果和效率并不理想。因此，研究基于Hadoop平臺，采用Hive對商業(yè)大數(shù)據(jù)進(jìn)行統(tǒng)計分析，并在R中使用K-Means算法提高客戶分類效果。

客戶分類是根據(jù)客戶的屬性特征將客戶劃分為不同群體的過程。客戶分類的目的是識別客戶價值，即通過商業(yè)大數(shù)據(jù)識別不同價值用戶。識別客戶價值應(yīng)用最廣泛的是RFM模型，該模型有三個指標(biāo)：最近消費時間間隔（recency）、消費頻率（frequency）、消費金額（monetary）。

在企業(yè)擁有一個包含客戶詳細(xì)信息和消費記錄信息大數(shù)據(jù)集的前提下，通過刪除不適用的值與空值的方法來清洗數(shù)據(jù)，并把處理好的數(shù)據(jù)存儲到HDFS中。在Hadoop平臺上使用Hive預(yù)處理數(shù)據(jù)，從中抽取客戶ID、消費時間和消費金額三個字段。以客戶ID作為分類字段，將客戶的消費金額匯總得到客戶消費總金額；對客戶ID進(jìn)行計數(shù)，得到客戶消費次數(shù)；根據(jù)客戶最后一次消費時間，計算得到客戶消費間隔。由于客戶消費總金額與消費次數(shù)存在較重的共線性（Senthamarai，2007），因此通過使用消費平均金額代替消費總額來修正。

3 實現(xiàn)過程

實驗以公司交易模擬數(shù)據(jù)作為研究對象，以其客戶的消費數(shù)據(jù)作為依據(jù)，對客戶進(jìn)行分類，來識別客戶的價值?？蛻舴诸愊到y(tǒng)架構(gòu)如圖1所示，其實現(xiàn)要經(jīng)過3個過程：數(shù)據(jù)預(yù)處理、數(shù)據(jù)統(tǒng)計分析和數(shù)據(jù)聚類可視化。

圖1 客戶分類系統(tǒng)架構(gòu)

3.1 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)預(yù)處理開始之前要選取最近一段時間的商業(yè)交易數(shù)據(jù)，只有最新的數(shù)據(jù)才有分析的價值。由于真實的商業(yè)交易數(shù)據(jù)是多樣高維的，在數(shù)據(jù)原始的高維空間中，包含有冗余信息和噪音信息，這就會造成誤差，降低分析結(jié)果的準(zhǔn)確率，因此還要對原始數(shù)據(jù)進(jìn)行降維。這里將采用PCA算法，通過線性投影將高維的數(shù)據(jù)映射到低維的空間中表示，使在投影的維度上數(shù)據(jù)的方差盡量大，在保留較多數(shù)據(jù)點特性的同時使用較少的數(shù)據(jù)維度?；赑CA算法將所有數(shù)據(jù)都投影到用戶ID、消費金額和消費時間這三個維度，從而實現(xiàn)異構(gòu)商業(yè)數(shù)據(jù)的同構(gòu)化。最后，將預(yù)處理后的最近一段時間的交易大數(shù)據(jù)集上傳到分布式文件系統(tǒng)HDFS中進(jìn)行存儲，其Shell命令為：./bin/hdfs dfs–put～/trade_log.csv/dataset。

3.2 數(shù)據(jù)統(tǒng)計分析

Hive是基于Hadoop的數(shù)據(jù)倉庫，使用HQL編寫的查詢語句，會被Hive自動解析成MapReduce任務(wù)由Hadoop來執(zhí)行，因此要先啟動Hadoop再啟動Hive。在Hive中創(chuàng)建一個數(shù)據(jù)庫test，命令為：hive＞ create database db_test;hive＞ use db_test。在數(shù)據(jù)庫db_test中創(chuàng)建一個表trade_log，包含字段（user_id,trade_day,amount）,命令為：hive＞create table db_test.trade_log (user_id INT,trade_dayDATE,amountFLOAT)COMMENT'Welcome to db_test！'ROW FORMAT DELIMITED FIELDSTERMINATED BY ' 'STORED AS TEXTFILE。再把HDFS中的數(shù)據(jù)加載到了數(shù)據(jù)倉庫的大表trade_log中，命令為：load data inpath'/dataset/trade_log.csv'overwrite into table trade_log，就可以對客戶消費信息進(jìn)行統(tǒng)計分析。

利用聚合函數(shù)count()查詢客戶消費次數(shù)，命令為：hive＞ select user_id,count(*)from trade_log group by user_id。利用聚合函數(shù)avg()計算客戶每次消費平均金額，命令為：hive＞select user_id,avg(amount)from trade_log group by user_id。利用聚合函數(shù)min()計算客戶最近消費時間間隔，命令為：hive＞ select user_id,min(datediff(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),trade_day))from trade_log group by user_id。通過Hive分析得到客戶分析的結(jié)果，最后將該結(jié)果利用R進(jìn)行聚類分析可視化。

3.3 數(shù)據(jù)聚類可視化

R是用于統(tǒng)計分析和統(tǒng)計制圖的優(yōu)秀工具，可以與Hive等數(shù)據(jù)分析軟件結(jié)合起來使用，在R中使用K-Means聚類算法進(jìn)行客戶分析。其中K-Means算法公式為：

K-Means算法是基于距離的聚類算法，采用距離作為客戶相似性的評價指標(biāo)，即兩個客戶的距離越近，其相似度越大。該算法首先隨機選取任意k個客戶作為初始聚類的中心，然后每次迭代對Hive分析后數(shù)據(jù)集中剩余的每個客戶進(jìn)行聚類，直到該算法收斂。

4 實驗分析

客戶分類的3個指標(biāo)通過R可視化的箱尾圖（肖楠，2014）如圖2、圖3和圖4所示，展示了客戶消費次數(shù)、客戶平均消費金額和客戶最近消費時間間隔的連續(xù)值的分布情況，并給出了三個變量統(tǒng)計信息，通過該圖明顯可得出變量中的異常值。

圖2 客戶消費次數(shù)指標(biāo)箱尾圖圖3客戶平均消費金額指標(biāo)箱尾圖圖4客戶最近消費時間間隔指標(biāo)箱尾圖

在數(shù)據(jù)預(yù)處理之后，數(shù)據(jù)會被使用K-Means算法在R中進(jìn)行客戶聚類。再在R終端執(zhí)行如下關(guān)鍵命令：

result$Species＜-NULL;#對訓(xùn)練數(shù)據(jù)去掉分類標(biāo)記

kc＜-kmeans(result,3);#分類模型訓(xùn)練

plot(result[c("消費次數(shù)","消費平均金額")],col=kc$cluster);#聚類結(jié)果可視化

points(kc$centers[,c("消費次數(shù)","消費平均金額")],col=1:3);#不同的顏色代表不同的聚類結(jié)果。

客戶消費次數(shù)和消費平均年齡的K-Means客戶分類結(jié)果可視化圖如圖5所示，實驗結(jié)果主要分為三類客戶。第一類客戶：客戶數(shù)量比較少，消費次數(shù)較多，平均消費金額較高，并且最近一段時間有過消費。第二類客戶：客戶數(shù)量較多，或者消費次數(shù)多，或者消費平均金額高，數(shù)量達(dá)到了客戶總量的一半。第三類客戶：消費次數(shù)少，并且消費平均金額低。第一類客戶是公司最有價值的客戶，公司應(yīng)該給其分配更多的資源。第二類客戶是公司最應(yīng)該發(fā)展的客戶，應(yīng)向其推薦針對性的產(chǎn)品，來促進(jìn)他們的消費。第三類客戶價值最低，公司應(yīng)減少對其資源的分配。

圖5 K-Means客戶分類結(jié)果可視化圖

5 結(jié)語

本文研究了基于商業(yè)大數(shù)據(jù)的客戶分類，以解決傳統(tǒng)的客戶分類方式在處理商業(yè)大數(shù)據(jù)后變得低效的問題。提出了一種使用Hadoop作為商業(yè)大數(shù)據(jù)的存儲處理平臺，利用Hive提取有用信息，利用R可視化結(jié)果的解決方案，并且在實驗分析時選擇K-Means算法進(jìn)行聚類來提高客戶分類效果。同時也存在不足之處，實驗的數(shù)據(jù)為模擬數(shù)據(jù)，在以后的研究中使用真實的數(shù)據(jù)來完善研究方法。

參考文獻(xiàn)：

李國杰,程學(xué)旗.2012.大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].戰(zhàn)略與決策研究,27(6):647-656.

肖楠.2014.R數(shù)據(jù)可視化手冊[M].北京:人民郵電出版社.

曾小青,徐秦,張丹.2013.基于消費數(shù)據(jù)挖掘的多指標(biāo)客戶細(xì)分新方法[J].計算機應(yīng)用研究,(10):2944-2947.

Chuck Lam.2010.Hadoop in Action[M].Manning Publications.

J.Cohen.2009.Graph Twiddling in a MapReduce World[J].Computing in Science&Engineering,(6):63-69.

Hughes A.1994.Strategic database marketing:the masterplan for starting and managing a profitable,customer based marketing program[M].Irwin Professional,85-90.

Luis Torgo.2010.Data Mining with R[M].Chapman and Hall.

Senthamarai.2007.Automated Classification of Customer Emails via Association Rule Mining[J].Information Technology Journal,(3):81-86.

猜你喜歡

金額可視化商業(yè)

基于CiteSpace的足三里穴研究可視化分析

世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化(2022年3期)2022-08-22 00:32:50

2001年-2020年縣級一般公共預(yù)算支出資金來源情況表

地方財政研究(2022年5期)2022-06-30 05:58:56

基于Power BI的油田注水運行動態(tài)分析與可視化展示

云南化工(2021年8期)2021-12-21 06:37:54

基于CGAL和OpenGL的海底地形三維可視化

海洋信息技術(shù)與應(yīng)用(2020年1期)2020-06-11 12:43:56

“融評”：黨媒評論的可視化創(chuàng)新

傳媒評論(2019年4期)2019-07-13 05:49:14

商業(yè)前沿

知識經(jīng)濟·中國直銷(2018年10期)2018-11-06 07:46:30

商業(yè)前沿

知識經(jīng)濟·中國直銷(2017年12期)2018-01-03 08:20:34

商業(yè)前沿

知識經(jīng)濟·中國直銷(2017年11期)2017-11-28 05:32:30

上海故事(2016年12期)2016-12-09 16:49:08

商業(yè)遙感已到瓜熟蒂落時?

太空探索(2016年7期)2016-07-10 12:10:15

六盤水師范學(xué)院學(xué)報2017年6期

六盤水師范學(xué)院學(xué)報的其它文章: 高等職業(yè)教育藝術(shù)設(shè)計類專業(yè)學(xué)生創(chuàng)新能力研究
——以廣告專業(yè)人才培養(yǎng)為例; 基于應(yīng)用型人才培養(yǎng)目標(biāo)的古代漢語課程考核評價方式探討
——以六盤水師范學(xué)院文學(xué)與新聞學(xué)院為例; 略談司馬遷與杜佑著史思想之差異
——從《史記》與《通典》“匈奴”記載比較談起; 基于CNKΙ的民族認(rèn)同研究文獻(xiàn)計量分析; 基于中國外匯儲備的幣種結(jié)構(gòu)分析; 六盤水紅豆杉植物化學(xué)成分預(yù)試及其氨基酸組成

怀来县| 蓬安县| 赤水市| 定陶县| 克山县| 河池市| 阳高县| 蚌埠市| 天等县| 九龙城区| 通化市| 普陀区| 宁远县| 宣威市| 江门市| 茌平县| 晋江市| 汤原县| 嘉祥县| 富锦市| 德令哈市| 都安| 芦山县| 阳新县| 左云县| 金堂县| 博客| 铜梁县| 肥乡县| 龙游县| 昆明市| 柏乡县| 阳东县| 丰原市| 土默特右旗| 双柏县| 德昌县| 道孚县| 大余县| 遵化市| 清涧县|