張亮
摘要:如今一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代正在開(kāi)啟,在商業(yè)、物流、金融等諸多領(lǐng)域大量數(shù)據(jù)被巧妙地用來(lái)激活新型服務(wù),提升行業(yè)效率。同樣在煙草行業(yè)的諸多環(huán)節(jié),大量數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的應(yīng)用前景也十分樂(lè)觀,文中簡(jiǎn)要探析了數(shù)據(jù)挖掘技術(shù)的幾種方法在煙草商業(yè)企業(yè)的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;煙草;分析
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)22-5375-02
1 大數(shù)據(jù)和數(shù)據(jù)挖掘
隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),但要到多大級(jí)別才稱得上是大數(shù)據(jù)呢?根據(jù)大數(shù)據(jù)研究的先驅(qū)麥肯錫公司,發(fā)布的一篇名為《大?數(shù)?據(jù)?的?下?一?個(gè)?前?沿?:?創(chuàng)?新?、?競(jìng)?爭(zhēng)?和?生?產(chǎn)?力》的報(bào)告中是這么說(shuō)的:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。但它還同時(shí)說(shuō)明,并不是說(shuō)一定要超過(guò)特定TB (1TB=1024GB,1PB=1024TB,1EB=1024PB)值的數(shù)據(jù)集才能稱作大數(shù)據(jù)。維基百科中給出的大數(shù)據(jù)的定義是這樣的:“巨量資料(big data),或稱大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊”。國(guó)際數(shù)據(jù)公司(IDC)則從大數(shù)據(jù)的四個(gè)特征來(lái)定義,即四個(gè)V:Volume(體量大),Velocity(快速化),Variety(類型雜),Value(價(jià)值大)。大數(shù)據(jù)的概念是比較寬泛的,見(jiàn)仁見(jiàn)智,智者見(jiàn)智。但前面的三種定義無(wú)一例外地都突出了“大”字,但“大”還遠(yuǎn)遠(yuǎn)不是全部。筆者比較肯定的一個(gè)對(duì)大數(shù)據(jù)的定義是:大數(shù)據(jù)是“在多樣的或者大量數(shù)據(jù)中,迅速獲取信息的能力”。這個(gè)定義里更關(guān)心大數(shù)據(jù)的功用,大數(shù)據(jù)能幫助大家干什么?在這個(gè)定義中,重心是“能力”二字,大數(shù)據(jù)的核心能力就是:發(fā)現(xiàn)規(guī)律和預(yù)測(cè)未來(lái)。
大數(shù)據(jù)之所以具備這樣的核心能力,關(guān)鍵在于數(shù)據(jù)挖掘。如果把大數(shù)據(jù)比作礦石的話,那么數(shù)據(jù)挖掘就是在礦石中淘金。數(shù)據(jù)挖掘(Data Mining)就是從海量的數(shù)據(jù)中提取、轉(zhuǎn)換、分析,從中獲得潛在的、有價(jià)值的信息,這些信息是隱含的、事先未知的,它可以表示為概念、規(guī)則、模式等形式。數(shù)據(jù)挖掘也是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。從商業(yè)角度來(lái)看,數(shù)據(jù)挖掘是一種商業(yè)信息處理技術(shù),即是按照企業(yè)既定的業(yè)務(wù)目標(biāo),對(duì)大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、分析,從中提取出有商業(yè)價(jià)值的信息,使得企業(yè)可以更合理地進(jìn)行銷售分析與預(yù)測(cè),幫助企業(yè)做出更有利的決策,提高市場(chǎng)的競(jìng)爭(zhēng)能力。
2 數(shù)據(jù)挖掘技術(shù)在煙草商業(yè)企業(yè)的應(yīng)用分析
目前在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。煙草商業(yè)企業(yè)信息化經(jīng)過(guò)這么多年的發(fā)展,已經(jīng)建立了營(yíng)銷、專賣、物流、OA等各類經(jīng)營(yíng)管理的支持系統(tǒng),這些信息系統(tǒng)每天都會(huì)產(chǎn)生大量的多種多樣的經(jīng)營(yíng)管理數(shù)據(jù),為了進(jìn)一步提高企業(yè)生產(chǎn)經(jīng)營(yíng)管理水平,提升零售客戶和消費(fèi)者的滿意度,有必要將先進(jìn)的信息技術(shù)手段融入到企業(yè)的管理理念當(dāng)中。通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析挖掘,提煉出對(duì)經(jīng)營(yíng)管理有效和有用的信息,為制定合理有效的經(jīng)營(yíng)策略提供數(shù)據(jù)支持。
數(shù)據(jù)挖掘的分析方法有很多,常用的幾種介紹如下:
· 關(guān)聯(lián)規(guī)則:用關(guān)聯(lián)規(guī)則挖掘隱藏在數(shù)據(jù)間的相互關(guān)系。對(duì)于給定的一組項(xiàng)目集和一個(gè)數(shù)據(jù)集,通過(guò)分析數(shù)據(jù)找出項(xiàng)目之間的關(guān)聯(lián)規(guī)則,那么其中一個(gè)項(xiàng)目就可以通過(guò)其他項(xiàng)目進(jìn)行預(yù)測(cè)。
· 分類和聚類:分類定義了一種從屬性到類別的映射關(guān)系,通過(guò)這種映射關(guān)系可以把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到特定的類別中。聚類是根據(jù)一定的規(guī)則,按照相似性吧樣本分成若干類別的分析過(guò)程,與分類不同的是,它要?jiǎng)澐值念愂俏粗摹?/p>
· 孤立點(diǎn)分析:經(jīng)常存在一些數(shù)據(jù)對(duì)象,它們不符合數(shù)據(jù)的一般模型,這樣的數(shù)據(jù)對(duì)象就是為孤立點(diǎn)(outlier),它可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,也可能是固有數(shù)據(jù)變異性的結(jié)果。孤立點(diǎn)分析就是找出數(shù)據(jù)中的這些孤立點(diǎn)。
· 分類樹(shù):分類樹(shù)是決策樹(shù)的一種類型,它輸出的是樣本的類標(biāo)。分類樹(shù)的目標(biāo)是連續(xù)的劃分?jǐn)?shù)據(jù),使依賴變量的差別最大。分類樹(shù)的真正的目的是將數(shù)據(jù)分類到不同組或分支中,在依賴變量的值上建立最強(qiáng)劃分。
2.1 卷煙營(yíng)銷領(lǐng)域的應(yīng)用
1) 用于精準(zhǔn)營(yíng)銷。卷煙精準(zhǔn)營(yíng)銷是現(xiàn)代營(yíng)銷理論在煙草行業(yè)的創(chuàng)新發(fā)展,是推動(dòng)卷煙市場(chǎng)營(yíng)銷上水平的重要途徑。傳統(tǒng)營(yíng)銷模式下,市場(chǎng)把握更多停留在感性認(rèn)識(shí),營(yíng)銷決策主要依靠經(jīng)驗(yàn)判斷,貨源投放“供非所求、供不應(yīng)求、供過(guò)于求”等現(xiàn)象時(shí)有發(fā)生,客戶需求無(wú)法有效滿足。為此通過(guò)數(shù)據(jù)挖掘技術(shù)的探索和研究,運(yùn)用聚類分析、相關(guān)分析和決策樹(shù)等工具,它將有利于解決服務(wù)資源“怎么分”、卷煙品牌“誰(shuí)來(lái)賣”、“賣多少”、“怎樣賣好”等問(wèn)題。通過(guò)數(shù)據(jù)挖掘技術(shù)的深入研究和探索,來(lái)進(jìn)一步提升貨源精準(zhǔn)投放和客戶精細(xì)服務(wù)水平,為行業(yè)精準(zhǔn)營(yíng)銷提供了一條可深入探索的路徑。
2) 用于消費(fèi)者分類。目前商業(yè)企業(yè)所收集的數(shù)據(jù)是以零售客戶為主體,終端消費(fèi)者的數(shù)據(jù)未被收集。這是一項(xiàng)龐大的工程,未來(lái)可以考慮通過(guò)銷售終端來(lái)實(shí)現(xiàn)。收集到數(shù)據(jù)后,我們可以通過(guò)生活型態(tài)(時(shí)間和金錢的處理態(tài)度)指標(biāo)對(duì)所有消費(fèi)者進(jìn)行分類,描述現(xiàn)階段主要消費(fèi)群體特征,以便在營(yíng)銷措施上迎合這部分消費(fèi)者需求,提高營(yíng)銷效率。我們還可以通過(guò)卷煙低焦指標(biāo)對(duì)消費(fèi)者進(jìn)行分類,分析支持卷煙低焦的消費(fèi)群體是主要的還是次要的,以決定是加速卷煙低焦化的步伐還是減緩。
2.2 專賣稽查領(lǐng)域的應(yīng)用
真煙非法流動(dòng)是商業(yè)企業(yè)面臨的難題,給企業(yè)帶來(lái)很多不利影響。通過(guò)孤立點(diǎn)分析法可用于確定極低或極高以及品牌高集中的客戶的進(jìn)貨行為。孤立點(diǎn)是數(shù)據(jù)集中與其它數(shù)據(jù)對(duì)象顯著不同的數(shù)據(jù),它可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,也可能是固有數(shù)據(jù)變異性的結(jié)果。孤立點(diǎn)分析法就是找出數(shù)據(jù)中的這些孤立點(diǎn)。這些客戶的實(shí)際經(jīng)營(yíng)能力值得警惕,我們要采取相應(yīng)對(duì)策做提前預(yù)防。采用孤立點(diǎn)分析技術(shù)對(duì)客戶群進(jìn)行分析,找出與其他客戶明顯不同的客戶進(jìn)行重點(diǎn)關(guān)注和防范。例如某卷煙零售客戶在當(dāng)?shù)責(zé)煵輰Yu批發(fā)企業(yè)進(jìn)貨量比較少,但是經(jīng)營(yíng)規(guī)模比較大,則有可能從其它渠道購(gòu)進(jìn)卷煙或銷售假煙。
2.3 物流配送領(lǐng)域的應(yīng)用
目前的物流配送仍是按照行政區(qū)域的方式為主,以后打破行政區(qū)域規(guī)劃后的配送中心選址問(wèn)題屬于最優(yōu)成本問(wèn)題,即求解是固定成本、運(yùn)輸成本和變動(dòng)成本和等之和為最優(yōu)的問(wèn)題。
配送中心的選址需要考慮兩方面因素,一是中心點(diǎn)數(shù)量,二是中心點(diǎn)分布情況。單一中心點(diǎn)的選址問(wèn)題較為簡(jiǎn)單,這里我們主要討論多個(gè)中心點(diǎn)選址的問(wèn)題。多個(gè)中心點(diǎn)的選址需要在打破行政區(qū)域的限制,訂單統(tǒng)一采集并集中處理的基礎(chǔ)上才能實(shí)施。多中心選址可以在一些已知的備選地點(diǎn)中選出一定數(shù)目的地點(diǎn)來(lái)設(shè)置配送中心,從而使形成的物流網(wǎng)絡(luò)的總成本最小,其中包括各種投資費(fèi)用、不可變費(fèi)用和可變的費(fèi)用。而在實(shí)際操作中,當(dāng)這類問(wèn)題的規(guī)模變得很大或者要考慮一些市場(chǎng)因素(比如顧客需求量)時(shí),數(shù)學(xué)規(guī)劃就存在一些困難。不過(guò),這個(gè)問(wèn)題可以通過(guò)數(shù)據(jù)挖掘中的分類樹(shù)方法來(lái)解決。
分類樹(shù)的目標(biāo)是連續(xù)的劃分?jǐn)?shù)據(jù),使依賴變量的差別最大。用分類樹(shù)的方法解決這種問(wèn)題時(shí),需要四個(gè)方面的數(shù)據(jù):中心點(diǎn)的位置、備選點(diǎn)的位置、中心點(diǎn)的業(yè)務(wù)需求量及中心點(diǎn)和備選點(diǎn)之間的距離。通過(guò)這種方法,不僅能確定中心點(diǎn)的位置,同時(shí)也能確定每年各個(gè)地址物品的運(yùn)輸量,使銷量得到保證。
3 前景展望
數(shù)據(jù)挖掘技術(shù)的方法很多,不同的方法適用的范圍和目的也不一樣,單一的算法往往都有其局限性,因而需要不斷改進(jìn)或者將多種方法結(jié)合運(yùn)用,才能很好地發(fā)揮數(shù)據(jù)的作用。我們期待數(shù)據(jù)挖掘技術(shù)可以在可以應(yīng)用、可以拓展的地方應(yīng)用它、拓展它,同時(shí)讓不斷發(fā)展的數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)得到廣泛應(yīng)用,它也必將發(fā)揮出巨大能量,為提高我國(guó)煙草行業(yè)競(jìng)爭(zhēng)力提供強(qiáng)有力的保障。
參考文獻(xiàn):
[1] 田臨卿,許自成.數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應(yīng)用[J].中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2012(6).
[2] 譚磊.大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013.