基于大數(shù)據(jù)的商業(yè)智能在電商數(shù)據(jù)分析中的應(yīng)用

2019-09-10 22:03錢丹丹周金海

電子商務(wù) 2019年4期

錢丹丹周金海

摘要：為了將大數(shù)據(jù)與傳統(tǒng)商業(yè)智能相結(jié)合，重新設(shè)計了商業(yè)智能的架構(gòu)平臺，著重探討了數(shù)據(jù)獲取方式，以中藥飲片企業(yè)電商數(shù)據(jù)為例，用聚類分析中的K-Means算法對消費者進行分群，以此實現(xiàn)對不同消費者進行個性化營銷的目的。

關(guān)鍵詞：大數(shù)據(jù);商業(yè)智能;數(shù)據(jù)挖掘;聚類分析

引言

商業(yè)智能（Bl）概念由Gartner Group提出，涉及信息搜索、管理和分析，目的是使企業(yè)決策者獲得知識，促使他們做出對企業(yè)更加有力的決策。商業(yè)智能不是一種獨立的技術(shù)，而是一套完整的解決方案。它將數(shù)據(jù)倉庫，聯(lián)機分析（OLAP），數(shù)據(jù)挖掘和可視化等技術(shù)結(jié)合應(yīng)用于業(yè)務(wù)活動，使企業(yè)的復(fù)雜信息轉(zhuǎn)化為可供輔助的知識，最后將知識呈現(xiàn)給用戶，以支持企業(yè)決策[1]。

隨著Internet應(yīng)用程序規(guī)模的不斷擴大，需要處理的數(shù)據(jù)量呈指數(shù)級增長，數(shù)據(jù)結(jié)構(gòu)變得越來越復(fù)雜。業(yè)務(wù)運營壓力急劇增大，從而直接推動了大數(shù)據(jù)處理技術(shù)的發(fā)展[2]。隨著電子商務(wù)、云計算、移動社交媒體等新一代IT技術(shù)的快速發(fā)展，傳統(tǒng)的Bl系統(tǒng)逐漸不能滿足企業(yè)數(shù)據(jù)分析的需求。個性化、數(shù)據(jù)化、科學(xué)的數(shù)據(jù)分析技術(shù)逐漸使傳統(tǒng)的Bl系統(tǒng)需要與大數(shù)據(jù)技術(shù)相結(jié)合，實現(xiàn)一種滿足大數(shù)據(jù)分析的新平臺架構(gòu)。

1、基于傳統(tǒng)BI體系的大數(shù)據(jù)應(yīng)用設(shè)計

在大數(shù)據(jù)時代，傳統(tǒng)BI的數(shù)據(jù)存儲能力、數(shù)據(jù)分析能力、實時數(shù)據(jù)處理能力不能勝任非結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)源的應(yīng)用分析。因此，如何綜合利用現(xiàn)有的BI和大數(shù)據(jù)技術(shù)是新平臺架構(gòu)設(shè)計的關(guān)鍵。傳統(tǒng)的BI數(shù)據(jù)主要來自內(nèi)部操作系統(tǒng)和管理系統(tǒng);大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng)，如微博，網(wǎng)頁和其他數(shù)據(jù)交換。在數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲和以后的數(shù)據(jù)應(yīng)用程序方面，這兩者都有本質(zhì)上的不同?；谝陨峡紤]，設(shè)計了新的架構(gòu)平臺如圖1所示。

數(shù)據(jù)源主要包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)，內(nèi)部數(shù)據(jù)由OA系統(tǒng)、ERP系統(tǒng)、財務(wù)報表系統(tǒng)等相關(guān)結(jié)構(gòu)化數(shù)據(jù)組成;外部數(shù)據(jù)包括互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù)，如超文本，圖像和視頻。數(shù)據(jù)采集在原有采集方式中新增了互聯(lián)網(wǎng)網(wǎng)頁爬蟲的采集方式。針對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)采用不同的處理方法。非結(jié)構(gòu)化數(shù)據(jù)整理成結(jié)構(gòu)化數(shù)據(jù)存儲在分布式結(jié)構(gòu)化數(shù)據(jù)庫中;傳統(tǒng)數(shù)據(jù)仍存儲在關(guān)系型數(shù)據(jù)庫中。大數(shù)據(jù)主要以分布式文件系統(tǒng)（HDFS）和NoSQL數(shù)據(jù)庫的形式存儲。最終數(shù)據(jù)主要用于聯(lián)機分析處理，數(shù)據(jù)挖掘，數(shù)據(jù)可視化等方面。

2、數(shù)據(jù)采集方式

大數(shù)據(jù)背景下的數(shù)據(jù)收集方法主要包括三類：系統(tǒng)日志收集，網(wǎng)絡(luò)數(shù)據(jù)收集和數(shù)據(jù)接口收集。日志數(shù)據(jù)的采集是通過設(shè)備中的日志記錄子系統(tǒng)實現(xiàn)的，這個子系統(tǒng)能夠在必要的時候生成日志消息。常用的商用數(shù)據(jù)API都支持REST API的方式獲取數(shù)據(jù)信息。網(wǎng)絡(luò)數(shù)據(jù)采集主要采用網(wǎng)絡(luò)爬蟲技術(shù)，其核心原則是：使用超文本傳輸協(xié)議HTTP仿真瀏覽器通過統(tǒng)一資源定位器URL地址訪問Web服務(wù)器，獲取Web服務(wù)器的權(quán)限，返回到原始頁面并解析數(shù)據(jù)[3]。

傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)可能存在問題，因此為爬取web資源而設(shè)計的聚焦爬蟲技術(shù)應(yīng)運而生。聚焦爬蟲有選擇地訪問因特網(wǎng)上的與網(wǎng)頁相關(guān)的鏈接，以基于已建立的爬行目標（使用某電商銷售主題）獲得他們所需的信息。聚焦爬蟲并不追求網(wǎng)頁的全面覆蓋，相反，它針對與特定主題相關(guān)的網(wǎng)頁，并為面向主題的用戶查詢準備數(shù)據(jù)資源。

3、中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用案例

3.1中藥飲片企業(yè)發(fā)展狀況

傳統(tǒng)中藥飲片在生產(chǎn)銷售過程中比較混亂，沒有統(tǒng)一的質(zhì)量標準，因此，質(zhì)量監(jiān)督管理難度較大。由于中藥飲片生產(chǎn)企業(yè)已經(jīng)逐漸全面實施藥品GMP認證，其生產(chǎn)已從純手工加工獨立出來成為中藥行業(yè)的一項產(chǎn)業(yè)。也因此中藥飲片、中藥材、中成藥并稱為中藥的三大組成部分。隨著GMP認證的實施，中藥飲片生產(chǎn)企業(yè)也發(fā)生了本質(zhì)的變化，中藥飲片的質(zhì)量得到了提高，同時取得了良好的社會效益。然而，中藥飲片的來源，加工方法和用途均有其傳統(tǒng)特征。這一目標特性與GMP要求之間存在很大差異。因此，在實施過程中存在很多問題，特別是2010版的GMP和附錄對中藥飲片生產(chǎn)的要求達到了前所未有的高度，中藥飲片企業(yè)的管理面臨嚴峻挑戰(zhàn)。

3.2 K-Means算法

K均值是一種廣泛使用的聚類方法，它將D個實體劃分為N個聚類。從而確保集群內(nèi)的相似性盡可能高，集群之間的相似性盡可能低。K-means算法的過程如下：

（1）隨機選擇N個數(shù)據(jù)點作為質(zhì)心;

（2）計算數(shù)據(jù)集中每個數(shù)據(jù)點到質(zhì)心的距離，并將數(shù)據(jù)集中的所有數(shù)據(jù)點聚合為N個簇;

（3）根據(jù)第2步計算得到的N組數(shù)據(jù)點，迭代計算出新的質(zhì)心：

（4）重復(fù)步驟2-3，直到最終質(zhì)心與前一個質(zhì)心之間的距離很?。M足收斂）;

（5）最后讀入所有的觀察值，將每個觀察值按照最接近質(zhì)心的類別進行分類，分類結(jié)束。

質(zhì)心和距離是K-MEANS算法的兩個基本概念。質(zhì)心可以被看做是一個樣本，或者可以被認為是數(shù)據(jù)集中的某個數(shù)據(jù)點A，并規(guī)定它是具有相似性的一組數(shù)據(jù)的中心。質(zhì)心的選擇對聚類結(jié)果有很大影響，因為該算法是隨機選擇任何一個對象作為初始聚類的質(zhì)心，并且最初表示聚類結(jié)果。當然，這個結(jié)果通常是不合理的，只是隨機劃分的數(shù)據(jù)集。質(zhì)心的具體校正還需要多輪迭代計算才能逐漸逼近所需的聚類結(jié)果：具有相似性的對象被分組為一組，所有這些對象都具有共同的質(zhì)心。另外，由于初始質(zhì)心選擇的隨機性，最終結(jié)果不一定是預(yù)期的，因此需要多次迭代，在每次迭代時重新隨機獲得初始質(zhì)心，直到最終聚類結(jié)果滿足預(yù)期。

距離實際上是相似度的度量。常見的距離公式計算有：曼哈頓距離，歐幾里德距離，閔可夫斯基距離，切比雪夫距離等。聚類分析中最常用的距離公式是歐氏距離，因為歐氏距離直觀且容易計算，而且歐式距離對對象的點進行坐標偏移和變化旋轉(zhuǎn)，最后，距離的值保持不變，因此仍然可以通過對象的原始相似性來判斷對象相似性。設(shè)d（x，y）為對象a和b之間的距離，則d（x，y）應(yīng)滿足以下三個屬性：

（1）非負性：即d（x，y）30恒成立;當且僅當x=y時，d（x，y）=O。

（2）對稱性：即d（x，y）=d（y，X）。

（3）三角不等式：任意對象a，b，c恒有d（x，y+d（y，z）3d（x，z）。

3.3中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用分析

在大數(shù)據(jù)時代，獨立的數(shù)據(jù)本身價值不大，通過數(shù)據(jù)預(yù)測未來趨勢以及利用數(shù)據(jù)發(fā)現(xiàn)隱藏的知識才是關(guān)鍵。眾多中藥飲片企業(yè)緊跟時代發(fā)展，在電商網(wǎng)站都有相應(yīng)的門店銷售中藥飲片，因此積累了大量顧客購買中藥飲片的消費記錄。對這些消費記錄的分析可以對消費者進行分組，不同群體的消費者可以根據(jù)消費行為對營銷進行個性化?？蛻舴诸愑欣谥兴庯嬈髽I(yè)針對性的為不同群體客戶提供差別化服務(wù)，也能夠讓企業(yè)及時察覺市場和客戶的一些微小變化并針對其調(diào)整策略。

RFM模型是廣泛應(yīng)用的多因素客戶分類方法，R（Recency）表示客戶最近交易到當前時間的時間段。F（Frequency）代表在指定時間段內(nèi)客戶與企業(yè)合作的次數(shù)（即購買行為），M（Monetary）代表在指定時間段內(nèi)客戶與企業(yè)交易所產(chǎn)生的金額[4]，RFM是以客戶創(chuàng)造的絕對金額來衡量客戶價值的。

現(xiàn)從某中藥飲片電商網(wǎng)站爬取相關(guān)數(shù)據(jù)，依據(jù)一定的數(shù)據(jù)處理原則對原始數(shù)據(jù)進行清洗采集，經(jīng)過處理后得到消費者數(shù)據(jù)（3000條），R在這里表示最近一次購買中藥飲片的時間間隔，F(xiàn)表示購買中藥飲片頻率，M表示在某平臺上消費的總金額，截取部分有效數(shù)據(jù)見表1：

不同數(shù)據(jù)項之間存在著數(shù)值大小和數(shù)值單位的差異，因此不能直接用來參與運算。比如，消費者購買的產(chǎn)品總金額M是一個很大的數(shù)值屬性，單位一般在百以上，而在一定時間內(nèi)購買產(chǎn)品的頻率往往較小，且相對于消費金額來說沒什么作用。為了讓這些屬性都能發(fā)揮作用，需要將屬性與其自身對應(yīng)的范圍進行比較，保證單位和數(shù)值不存在差值性，以便后期直接使用這些標準數(shù)據(jù)進行運算。本文采用歸一化處理方法對數(shù)據(jù)進行處理，以下表2是經(jīng)過處理后的3000條數(shù)據(jù)中的部分數(shù)據(jù)。

使用K-Means算法設(shè)置簇的數(shù)量為3，最大迭代次數(shù)為3，距離函數(shù)使用歐幾里德距離。由于初始質(zhì)心是隨機的，因此每個簇的結(jié)果可能不同。經(jīng)過多次重復(fù)實驗后，檢測聚類結(jié)果基本相同，因此可以采用此聚類結(jié)果，對聚類用戶進行群體特征分析，并進行群體個性化營銷。以下是K-Means算法聚類生成的群體一、二、三的圖片，如圖3消費群體所示：

群體一：這些客戶最近一次在電商網(wǎng)站消費間隔天數(shù)（R）較短，消費總金額（M）較多。他們是企業(yè)最理想的客戶類型，同時也是潛在客戶，對公司貢獻大，但所占比例很小。企業(yè)應(yīng)優(yōu)先考慮將資源投放到他們身上，以此實現(xiàn)差異化管理和一對一營銷，從而提高此類客戶的忠誠度和滿意度，并最大限度地提高此類客戶的高消費水平。

群體二：這些客戶的購買頻率（F）一般，最后一次在電子商務(wù)網(wǎng)站上消費的時間間隔（R）較短，并且消費總量（M）是適中的。他們客戶價值變化的不確定性很高，消費下降的原因各不相同，因此及時了解客戶信息并與客戶保持互動尤為重要。企業(yè)可以根據(jù)近期消費間隔時間和消費頻次來推測顧客消費行為的變化，重點關(guān)注這些客戶并采用特定的營銷方案來延長這類客戶的生命周期。

群體三：這類客戶的購買頻率（F）一般，最近一次在電商網(wǎng)站消費間隔天數(shù)（R）適中，消費總金額（M）較少。他們是中藥飲片企業(yè)的一般用戶與低價值客戶，可能只有中藥飲片打折促銷時才會購買。

4、總結(jié)

在大數(shù)據(jù)的背景下，充分利用數(shù)據(jù)挖掘信息可以抓住市場機遇。眾多企業(yè)除了線下實體銷售外也開展了具有獨特優(yōu)勢的線上交易，從電商大數(shù)據(jù)中挖掘隱藏的信息，根據(jù)這些信息，針對不同的客戶群體進行個性化營銷，從而提高企業(yè)的客戶滿意度和經(jīng)濟效益。本文主要研究了大數(shù)據(jù)與傳統(tǒng)商業(yè)智能在電商企業(yè)（中藥飲片電商網(wǎng)站）數(shù)據(jù)分析中的應(yīng)用，重點描述聚類分析的K—Means算法并應(yīng)用于電子商務(wù)網(wǎng)站中客戶消費數(shù)據(jù)的挖掘。通過聚類分析將客戶分為3個群體，根據(jù)不同客戶群體的特征有助于企業(yè)識別客戶，從而實現(xiàn)差異化的營銷目標。

參考文獻：

[1]陳榮鑫，付永鋼，陳維斌.基于Pentaho的商業(yè)智能系統(tǒng)[J].計算機工程與設(shè)計，2008，09： 2407-2409.

[2]楊超.基于大數(shù)據(jù)技術(shù)的BI系統(tǒng)關(guān)鍵技術(shù)研究[D].華南理工大學(xué)，2016.

[3]卞偉瑋，王永超，崔立真，郭偉，李暉，周苗，薛付忠，劉靜.基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J].山東大學(xué)學(xué)報（醫(yī)學(xué)版），2017，55[06）： 47-55.

[4]李品睿，許守任，許暉.基于RFM模型的核心客戶識別與關(guān)系管理研究——以保險業(yè)為例[J].現(xiàn)代管理科學(xué)，2015，（6）：24-26.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)的商業(yè)智能在電商數(shù)據(jù)分析中的應(yīng)用