国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的商業(yè)智能在電商數(shù)據(jù)分析中的應(yīng)用

2019-09-10 22:03錢丹丹周金海
電子商務(wù) 2019年4期
關(guān)鍵詞:商業(yè)智能聚類分析數(shù)據(jù)挖掘

錢丹丹 周金海

摘要:為了將大數(shù)據(jù)與傳統(tǒng)商業(yè)智能相結(jié)合,重新設(shè)計了商業(yè)智能的架構(gòu)平臺,著重探討了數(shù)據(jù)獲取方式,以中藥飲片企業(yè)電商數(shù)據(jù)為例,用聚類分析中的K-Means算法對消費者進行分群,以此實現(xiàn)對不同消費者進行個性化營銷的目的。

關(guān)鍵詞:大數(shù)據(jù);商業(yè)智能;數(shù)據(jù)挖掘;聚類分析

引言

商業(yè)智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企業(yè)決策者獲得知識,促使他們做出對企業(yè)更加有力的決策。商業(yè)智能不是一種獨立的技術(shù),而是一套完整的解決方案。它將數(shù)據(jù)倉庫,聯(lián)機分析(OLAP),數(shù)據(jù)挖掘和可視化等技術(shù)結(jié)合應(yīng)用于業(yè)務(wù)活動,使企業(yè)的復(fù)雜信息轉(zhuǎn)化為可供輔助的知識,最后將知識呈現(xiàn)給用戶,以支持企業(yè)決策[1]。

隨著Internet應(yīng)用程序規(guī)模的不斷擴大,需要處理的數(shù)據(jù)量呈指數(shù)級增長,數(shù)據(jù)結(jié)構(gòu)變得越來越復(fù)雜。業(yè)務(wù)運營壓力急劇增大,從而直接推動了大數(shù)據(jù)處理技術(shù)的發(fā)展[2]。隨著電子商務(wù)、云計算、移動社交媒體等新一代IT技術(shù)的快速發(fā)展,傳統(tǒng)的Bl系統(tǒng)逐漸不能滿足企業(yè)數(shù)據(jù)分析的需求。個性化、數(shù)據(jù)化、科學(xué)的數(shù)據(jù)分析技術(shù)逐漸使傳統(tǒng)的Bl系統(tǒng)需要與大數(shù)據(jù)技術(shù)相結(jié)合,實現(xiàn)一種滿足大數(shù)據(jù)分析的新平臺架構(gòu)。

1、基于傳統(tǒng)BI體系的大數(shù)據(jù)應(yīng)用設(shè)計

在大數(shù)據(jù)時代,傳統(tǒng)BI的數(shù)據(jù)存儲能力、數(shù)據(jù)分析能力、實時數(shù)據(jù)處理能力不能勝任非結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)源的應(yīng)用分析。因此,如何綜合利用現(xiàn)有的BI和大數(shù)據(jù)技術(shù)是新平臺架構(gòu)設(shè)計的關(guān)鍵。傳統(tǒng)的BI數(shù)據(jù)主要來自內(nèi)部操作系統(tǒng)和管理系統(tǒng);大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng),如微博,網(wǎng)頁和其他數(shù)據(jù)交換。在數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲和以后的數(shù)據(jù)應(yīng)用程序方面,這兩者都有本質(zhì)上的不同?;谝陨峡紤],設(shè)計了新的架構(gòu)平臺如圖1所示。

數(shù)據(jù)源主要包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)由OA系統(tǒng)、ERP系統(tǒng)、財務(wù)報表系統(tǒng)等相關(guān)結(jié)構(gòu)化數(shù)據(jù)組成;外部數(shù)據(jù)包括互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù),如超文本,圖像和視頻。數(shù)據(jù)采集在原有采集方式中新增了互聯(lián)網(wǎng)網(wǎng)頁爬蟲的采集方式。針對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)采用不同的處理方法。非結(jié)構(gòu)化數(shù)據(jù)整理成結(jié)構(gòu)化數(shù)據(jù)存儲在分布式結(jié)構(gòu)化數(shù)據(jù)庫中;傳統(tǒng)數(shù)據(jù)仍存儲在關(guān)系型數(shù)據(jù)庫中。大數(shù)據(jù)主要以分布式文件系統(tǒng)(HDFS)和NoSQL數(shù)據(jù)庫的形式存儲。最終數(shù)據(jù)主要用于聯(lián)機分析處理,數(shù)據(jù)挖掘,數(shù)據(jù)可視化等方面。

2、數(shù)據(jù)采集方式

大數(shù)據(jù)背景下的數(shù)據(jù)收集方法主要包括三類:系統(tǒng)日志收集,網(wǎng)絡(luò)數(shù)據(jù)收集和數(shù)據(jù)接口收集。日志數(shù)據(jù)的采集是通過設(shè)備中的日志記錄子系統(tǒng)實現(xiàn)的,這個子系統(tǒng)能夠在必要的時候生成日志消息。常用的商用數(shù)據(jù)API都支持REST API的方式獲取數(shù)據(jù)信息。網(wǎng)絡(luò)數(shù)據(jù)采集主要采用網(wǎng)絡(luò)爬蟲技術(shù),其核心原則是:使用超文本傳輸協(xié)議HTTP仿真瀏覽器通過統(tǒng)一資源定位器URL地址訪問Web服務(wù)器,獲取Web服務(wù)器的權(quán)限,返回到原始頁面并解析數(shù)據(jù)[3]。

傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)可能存在問題,因此為爬取web資源而設(shè)計的聚焦爬蟲技術(shù)應(yīng)運而生。聚焦爬蟲有選擇地訪問因特網(wǎng)上的與網(wǎng)頁相關(guān)的鏈接,以基于已建立的爬行目標(使用某電商銷售主題)獲得他們所需的信息。聚焦爬蟲并不追求網(wǎng)頁的全面覆蓋,相反,它針對與特定主題相關(guān)的網(wǎng)頁,并為面向主題的用戶查詢準備數(shù)據(jù)資源。

3、中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用案例

3.1中藥飲片企業(yè)發(fā)展狀況

傳統(tǒng)中藥飲片在生產(chǎn)銷售過程中比較混亂,沒有統(tǒng)一的質(zhì)量標準,因此,質(zhì)量監(jiān)督管理難度較大。由于中藥飲片生產(chǎn)企業(yè)已經(jīng)逐漸全面實施藥品GMP認證,其生產(chǎn)已從純手工加工獨立出來成為中藥行業(yè)的一項產(chǎn)業(yè)。也因此中藥飲片、中藥材、中成藥并稱為中藥的三大組成部分。隨著GMP認證的實施,中藥飲片生產(chǎn)企業(yè)也發(fā)生了本質(zhì)的變化,中藥飲片的質(zhì)量得到了提高,同時取得了良好的社會效益。然而,中藥飲片的來源,加工方法和用途均有其傳統(tǒng)特征。這一目標特性與GMP要求之間存在很大差異。因此,在實施過程中存在很多問題,特別是2010版的GMP和附錄對中藥飲片生產(chǎn)的要求達到了前所未有的高度,中藥飲片企業(yè)的管理面臨嚴峻挑戰(zhàn)。

3.2 K-Means算法

K均值是一種廣泛使用的聚類方法,它將D個實體劃分為N個聚類。從而確保集群內(nèi)的相似性盡可能高,集群之間的相似性盡可能低。K-means算法的過程如下:

(1)隨機選擇N個數(shù)據(jù)點作為質(zhì)心;

(2)計算數(shù)據(jù)集中每個數(shù)據(jù)點到質(zhì)心的距離,并將數(shù)據(jù)集中的所有數(shù)據(jù)點聚合為N個簇;

(3)根據(jù)第2步計算得到的N組數(shù)據(jù)點,迭代計算出新的質(zhì)心:

(4)重復(fù)步驟2-3,直到最終質(zhì)心與前一個質(zhì)心之間的距離很?。M足收斂);

(5)最后讀入所有的觀察值,將每個觀察值按照最接近質(zhì)心的類別進行分類,分類結(jié)束。

質(zhì)心和距離是K-MEANS算法的兩個基本概念。質(zhì)心可以被看做是一個樣本,或者可以被認為是數(shù)據(jù)集中的某個數(shù)據(jù)點A,并規(guī)定它是具有相似性的一組數(shù)據(jù)的中心。質(zhì)心的選擇對聚類結(jié)果有很大影響,因為該算法是隨機選擇任何一個對象作為初始聚類的質(zhì)心,并且最初表示聚類結(jié)果。當然,這個結(jié)果通常是不合理的,只是隨機劃分的數(shù)據(jù)集。質(zhì)心的具體校正還需要多輪迭代計算才能逐漸逼近所需的聚類結(jié)果:具有相似性的對象被分組為一組,所有這些對象都具有共同的質(zhì)心。另外,由于初始質(zhì)心選擇的隨機性,最終結(jié)果不一定是預(yù)期的,因此需要多次迭代,在每次迭代時重新隨機獲得初始質(zhì)心,直到最終聚類結(jié)果滿足預(yù)期。

距離實際上是相似度的度量。常見的距離公式計算有:曼哈頓距離,歐幾里德距離,閔可夫斯基距離,切比雪夫距離等。聚類分析中最常用的距離公式是歐氏距離,因為歐氏距離直觀且容易計算,而且歐式距離對對象的點進行坐標偏移和變化旋轉(zhuǎn),最后,距離的值保持不變,因此仍然可以通過對象的原始相似性來判斷對象相似性。設(shè)d(x,y)為對象a和b之間的距離,則d(x,y)應(yīng)滿足以下三個屬性:

(1)非負性:即d(x,y)30恒成立;當且僅當x=y時,d(x,y)=O。

(2)對稱性:即d(x,y)=d(y,X)。

(3)三角不等式:任意對象a,b,c恒有d(x,y+d(y,z)3d(x,z)。

3.3中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用分析

在大數(shù)據(jù)時代,獨立的數(shù)據(jù)本身價值不大,通過數(shù)據(jù)預(yù)測未來趨勢以及利用數(shù)據(jù)發(fā)現(xiàn)隱藏的知識才是關(guān)鍵。眾多中藥飲片企業(yè)緊跟時代發(fā)展,在電商網(wǎng)站都有相應(yīng)的門店銷售中藥飲片,因此積累了大量顧客購買中藥飲片的消費記錄。對這些消費記錄的分析可以對消費者進行分組,不同群體的消費者可以根據(jù)消費行為對營銷進行個性化??蛻舴诸愑欣谥兴庯嬈髽I(yè)針對性的為不同群體客戶提供差別化服務(wù),也能夠讓企業(yè)及時察覺市場和客戶的一些微小變化并針對其調(diào)整策略。

RFM模型是廣泛應(yīng)用的多因素客戶分類方法,R(Recency)表示客戶最近交易到當前時間的時間段。F(Frequency)代表在指定時間段內(nèi)客戶與企業(yè)合作的次數(shù)(即購買行為),M(Monetary)代表在指定時間段內(nèi)客戶與企業(yè)交易所產(chǎn)生的金額[4],RFM是以客戶創(chuàng)造的絕對金額來衡量客戶價值的。

現(xiàn)從某中藥飲片電商網(wǎng)站爬取相關(guān)數(shù)據(jù),依據(jù)一定的數(shù)據(jù)處理原則對原始數(shù)據(jù)進行清洗采集,經(jīng)過處理后得到消費者數(shù)據(jù)(3000條),R在這里表示最近一次購買中藥飲片的時間間隔,F(xiàn)表示購買中藥飲片頻率,M表示在某平臺上消費的總金額,截取部分有效數(shù)據(jù)見表1:

不同數(shù)據(jù)項之間存在著數(shù)值大小和數(shù)值單位的差異,因此不能直接用來參與運算。比如,消費者購買的產(chǎn)品總金額M是一個很大的數(shù)值屬性,單位一般在百以上,而在一定時間內(nèi)購買產(chǎn)品的頻率往往較小,且相對于消費金額來說沒什么作用。為了讓這些屬性都能發(fā)揮作用,需要將屬性與其自身對應(yīng)的范圍進行比較,保證單位和數(shù)值不存在差值性,以便后期直接使用這些標準數(shù)據(jù)進行運算。本文采用歸一化處理方法對數(shù)據(jù)進行處理,以下表2是經(jīng)過處理后的3000條數(shù)據(jù)中的部分數(shù)據(jù)。

使用K-Means算法設(shè)置簇的數(shù)量為3,最大迭代次數(shù)為3,距離函數(shù)使用歐幾里德距離。由于初始質(zhì)心是隨機的,因此每個簇的結(jié)果可能不同。經(jīng)過多次重復(fù)實驗后,檢測聚類結(jié)果基本相同,因此可以采用此聚類結(jié)果,對聚類用戶進行群體特征分析,并進行群體個性化營銷。以下是K-Means算法聚類生成的群體一、二、三的圖片,如圖3消費群體所示:

群體一:這些客戶最近一次在電商網(wǎng)站消費間隔天數(shù)(R)較短,消費總金額(M)較多。他們是企業(yè)最理想的客戶類型,同時也是潛在客戶,對公司貢獻大,但所占比例很小。企業(yè)應(yīng)優(yōu)先考慮將資源投放到他們身上,以此實現(xiàn)差異化管理和一對一營銷,從而提高此類客戶的忠誠度和滿意度,并最大限度地提高此類客戶的高消費水平。

群體二:這些客戶的購買頻率(F)一般,最后一次在電子商務(wù)網(wǎng)站上消費的時間間隔(R)較短,并且消費總量(M)是適中的。他們客戶價值變化的不確定性很高,消費下降的原因各不相同,因此及時了解客戶信息并與客戶保持互動尤為重要。企業(yè)可以根據(jù)近期消費間隔時間和消費頻次來推測顧客消費行為的變化,重點關(guān)注這些客戶并采用特定的營銷方案來延長這類客戶的生命周期。

群體三:這類客戶的購買頻率(F)一般,最近一次在電商網(wǎng)站消費間隔天數(shù)(R)適中,消費總金額(M)較少。他們是中藥飲片企業(yè)的一般用戶與低價值客戶,可能只有中藥飲片打折促銷時才會購買。

4、總結(jié)

在大數(shù)據(jù)的背景下,充分利用數(shù)據(jù)挖掘信息可以抓住市場機遇。眾多企業(yè)除了線下實體銷售外也開展了具有獨特優(yōu)勢的線上交易,從電商大數(shù)據(jù)中挖掘隱藏的信息,根據(jù)這些信息,針對不同的客戶群體進行個性化營銷,從而提高企業(yè)的客戶滿意度和經(jīng)濟效益。本文主要研究了大數(shù)據(jù)與傳統(tǒng)商業(yè)智能在電商企業(yè)(中藥飲片電商網(wǎng)站)數(shù)據(jù)分析中的應(yīng)用,重點描述聚類分析的K—Means算法并應(yīng)用于電子商務(wù)網(wǎng)站中客戶消費數(shù)據(jù)的挖掘。通過聚類分析將客戶分為3個群體,根據(jù)不同客戶群體的特征有助于企業(yè)識別客戶,從而實現(xiàn)差異化的營銷目標。

參考文獻:

[1]陳榮鑫,付永鋼,陳維斌.基于Pentaho的商業(yè)智能系統(tǒng)[J].計算機工程與設(shè)計,2008,09: 2407-2409.

[2]楊超.基于大數(shù)據(jù)技術(shù)的BI系統(tǒng)關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2016.

[3]卞偉瑋,王永超,崔立真,郭偉,李暉,周苗,薛付忠,劉靜.基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J].山東大學(xué)學(xué)報(醫(yī)學(xué)版),2017,55[06): 47-55.

[4]李品睿,許守任,許暉.基于RFM模型的核心客戶識別與關(guān)系管理研究——以保險業(yè)為例[J].現(xiàn)代管理科學(xué),2015,(6):24-26.

猜你喜歡
商業(yè)智能聚類分析數(shù)據(jù)挖掘
什么是商業(yè)智能?它的定義和解決方案
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
關(guān)于實時商業(yè)智能的文獻綜述
農(nóng)村居民家庭人均生活消費支出分析
基于省會城市經(jīng)濟發(fā)展程度的實證分析
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
商業(yè)智能在當下出版社中的運用
“縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究