梁婧婕+++曹婷
摘 要:大數(shù)據(jù)時(shí)代,各行各業(yè)匯集了龐大的數(shù)據(jù),如何使這些數(shù)據(jù)得到充分的利用,數(shù)據(jù)挖掘是最關(guān)鍵也是最基礎(chǔ)的工作。在本次研究中,將數(shù)據(jù)挖掘技術(shù)與購物籃思想理念相結(jié)合,運(yùn)用R語言,對(duì)南京一家超市五個(gè)月內(nèi)的銷售數(shù)據(jù)進(jìn)行研究分析。具體有65536條數(shù)據(jù),有31869條銷售記錄,2242種類商品,將這些商品分為192小類商品,基于食品分類規(guī)則將該超市食品分為38類。此次研究過程如下:首先,運(yùn)用R語言,使用編寫字典的方式,對(duì)所獲取的數(shù)據(jù)進(jìn)行清洗,生成結(jié)構(gòu)化數(shù)據(jù)。然后,在三方面對(duì)數(shù)據(jù)挖掘。一,數(shù)據(jù)描述性統(tǒng)計(jì)挖掘。二關(guān)聯(lián)規(guī)則挖掘。最后,用圖表的形式展示此次研究的成果。此次煙酒店意義:利用初級(jí)數(shù)據(jù)挖掘的理論支持,幫助企業(yè)更好地分析、了解客戶,最終贏得客戶的競(jìng)爭(zhēng)是該研究的重要的意義和實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;購物籃;超市銷售;關(guān)聯(lián)規(guī)則
一、研究背景
1998年的《哈佛商業(yè)評(píng)論》刊登過這樣一個(gè)案例,20世紀(jì)90年代美國沃爾瑪超市中,沃爾瑪超市管理人員分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難以理解的想象:在某些特定的情況下,啤酒與尿布這兩件毫無關(guān)聯(lián)的商品會(huì)經(jīng)常出現(xiàn)在同一購物籃中。1993年美國學(xué)者Agrawal提出關(guān)于通過分析購物籃中商品集合,從而找出關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為.Agrawal從數(shù)學(xué)計(jì)算機(jī)算法角度提出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法--Apriori算法。沃爾瑪嘗試將Apriori算法引入到數(shù)據(jù)分析中,并獲得成功,為超市銷售產(chǎn)生了開拓性的影響。于是產(chǎn)生了“啤酒與尿布”的故事。
近幾年,數(shù)據(jù)挖掘技術(shù)在零售業(yè),電信業(yè),金融業(yè)等許多領(lǐng)域得到了廣泛的應(yīng)用。為了更加清楚地了解學(xué)習(xí)數(shù)據(jù)挖掘在大數(shù)據(jù)環(huán)境下的應(yīng)用。此次,我們對(duì)數(shù)據(jù)挖掘中的部分分析功能在零售業(yè)(基于一小型超市)的應(yīng)用做一些粗略的研究與學(xué)習(xí),基于關(guān)聯(lián)規(guī)則,購物籃,Apriori算法等分析商品銷售狀況,探索出更多的類似于啤酒與尿布這樣的規(guī)則等,輔助決策者了解銷售全局,降低庫存成本,進(jìn)行市場(chǎng)分析等。
二、文獻(xiàn)回顧
數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,90年代有了突飛猛進(jìn)的發(fā)展。2001年,GartnerGroup的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。美國麻省理工學(xué)院在2001年1月份的《科技評(píng)論》(TechnologyReview)提出將在未來5年對(duì)人類產(chǎn)生重大影響的10大新興技術(shù),其中第3項(xiàng)就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術(shù)已被廣泛的應(yīng)用于各個(gè)領(lǐng)域。在零售業(yè)領(lǐng)域,很多大型的零售商都采用了數(shù)據(jù)挖掘工具進(jìn)行決策分析,關(guān)聯(lián)規(guī)則挖掘已經(jīng)投入應(yīng)用領(lǐng)域,交叉管理,庫存控制好客戶分析設(shè)計(jì)都是零售業(yè)數(shù)據(jù)挖掘的主要內(nèi)容。以沃爾瑪為例他就采用了BO的方案。LuisCavique的購物籃分析的可擴(kuò)展算法研究;AndreasMilda,ThomasReutterer提出了一個(gè)改進(jìn)合作過濾方法以及預(yù)測(cè)二進(jìn)制購物籃數(shù)據(jù)的交叉目錄購買情況;HorngJinhChangd的基于聚類分析和關(guān)聯(lián)規(guī)則分析的潛在客戶購買行為的期望模型研究;FransCoenen,PaulLeng的基于分類精確度的關(guān)聯(lián)規(guī)則閾值影響等。
國內(nèi)對(duì)數(shù)據(jù)挖掘的研究較晚,沒有形成整體的力量。1993年國家自然基金首次提出支持?jǐn)?shù)據(jù)挖掘領(lǐng)域的研究項(xiàng)目。目前,國內(nèi)的許多科研單位和高等院校競(jìng)相開展數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及應(yīng)用研究。復(fù)旦大學(xué)一直從事這方面的研究,朱揚(yáng)勇等把一個(gè)應(yīng)用于特征規(guī)則基于差異化的興趣度定義運(yùn)用到關(guān)聯(lián)給則中,重新設(shè)立了興趣度;武漢科技大學(xué)的張新霞等提出基于統(tǒng)計(jì)相關(guān)性的興趣度量;東南大學(xué)宋愛波等提出了一種解決規(guī)則組合爆炸問題的方法,建立了一個(gè)帶約束規(guī)則挖掘算法的模型,對(duì)Apriorii算法進(jìn)行優(yōu)化。還有其他相關(guān)研究。
但是,當(dāng)前國內(nèi)零售業(yè)數(shù)據(jù)挖掘工作還處于探索階段。據(jù)了解,許多零售業(yè)企業(yè)使用收賬結(jié)賬設(shè)備獲取的相關(guān)銷售數(shù)據(jù),都沒有得到充分利用,這些數(shù)據(jù)本來都可以幫助零售企業(yè)實(shí)施交叉銷售,控制庫存,降低庫存風(fēng)險(xiǎn)等創(chuàng)造更大的商業(yè)價(jià)值,卻被忽略。所以,我們以南京市一家蘇果超市為主體,使用購物籃的思想,從數(shù)據(jù)的獲取,到數(shù)據(jù)清洗,再到關(guān)聯(lián)規(guī)則分析等一系列系統(tǒng)的方法,研究與運(yùn)用數(shù)據(jù)挖掘技術(shù)。
三、研究對(duì)象及方法
本研究所用的超市銷售數(shù)據(jù)來自于南京市某一家蘇果便利店的一個(gè)月內(nèi)的月銷量數(shù)據(jù)。數(shù)據(jù)大約有六萬多條。包括商品的單號(hào),商品銷售時(shí)間,商品名稱,銷售單價(jià),銷售數(shù)量,銷售金額。其中,部分是一個(gè)單號(hào)包含一個(gè)商品,其余為是一個(gè)單號(hào)包含多個(gè)商品。所以,本次研究不僅對(duì)購買了一個(gè)商品的購物籃進(jìn)行描述分析,同時(shí)也對(duì)購買多個(gè)商品的購物籃進(jìn)行關(guān)聯(lián)規(guī)則分析。
采用購物籃分析方法。購物籃分析就是通過購物籃所顯示的交易信息來研究顧客的購買行為,其直觀意義就是顧客在購買一種商品的同時(shí)有多大的意愿購買另一種商品。研究商品之間的關(guān)聯(lián)規(guī)則。這一規(guī)則中包含兩個(gè)參數(shù):支持度(support)和置信度(confidence)。支持度(Support)的公式是:Support(A->B)=P(AUB)。支持度揭示了A與B同時(shí)出現(xiàn)的概率。置信度(Confidence)的公式是:Confidence(A->B)=P(A|B)。置信度揭示了A出現(xiàn)時(shí),B是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。
四、數(shù)據(jù)清洗
隨著信息技術(shù)的不斷發(fā)展,各行各業(yè)都建立了很多的計(jì)算機(jī)信息系統(tǒng),所以也就產(chǎn)生了大量的數(shù)據(jù)。當(dāng)需要對(duì)數(shù)據(jù)進(jìn)行分析的時(shí)候,直接獲取的數(shù)據(jù)并不能夠直接進(jìn)行數(shù)據(jù)分析。主要表現(xiàn)在:數(shù)據(jù)冗余、數(shù)據(jù)重復(fù)、臟數(shù)據(jù)等問題。為了使得數(shù)據(jù)能夠有效地支持相關(guān)的運(yùn)作與分析,必須對(duì)數(shù)據(jù)進(jìn)行清洗與處理,使之成為結(jié)構(gòu)化數(shù)據(jù)。所以數(shù)據(jù)清洗也就是各種數(shù)據(jù)分析如OLAP(關(guān)聯(lián)分析)、數(shù)據(jù)挖掘的前提與基礎(chǔ)。在R軟件中,通過建立字典的方式進(jìn)行數(shù)據(jù)的清洗。
我們?cè)趯?duì)超市數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗的方法是構(gòu)建字典,具體步驟如下:
1.建立鏈接:用read直接讀取數(shù)據(jù)所在的文件,建立鏈接。
2.編寫字典:根據(jù)商品的貨號(hào),提取出每一種商品的關(guān)鍵字,定為搜索的字符(searchword)賦予它替換的名稱(replacenames),把類似的商品給予相同的名稱,如:洗衣護(hù)理劑,柔順劑,都給它附名柔順劑。其中,忽略商品的生產(chǎn)廠商。(注:因?yàn)橹饕芯糠较蚺c生產(chǎn)廠商無關(guān))這樣的話,可明確商品類型,依據(jù)連鎖超市商品分類明細(xì)表指標(biāo),對(duì)所有的商品進(jìn)行分類(categorys),如:家居用品,飲料,調(diào)料制品,糧食類等總共38種。
3.名稱替換:使用for循環(huán)語句,按照字典里的關(guān)鍵字對(duì)原始數(shù)據(jù)里所有的商品進(jìn)行對(duì)比,測(cè)試,找到相同的賦與替換名稱與分類。結(jié)果如下(部分)。如果沒有搜索到對(duì)應(yīng)的關(guān)鍵字,則用other_names代替。這樣,打開清除后的數(shù)據(jù)文件,查看清洗后的結(jié)果,對(duì)沒有與之相對(duì)應(yīng)的關(guān)鍵字的商品再進(jìn)行字典的補(bǔ)充,知絕大部分的商品都搜索到與之相匹配的關(guān)鍵字。這樣,就完成了字典的編寫,與得到清洗后的結(jié)構(gòu)化數(shù)據(jù)。
4.數(shù)據(jù)的重組:對(duì)于相同單號(hào)的數(shù)據(jù)合并在一起,則為一個(gè)顧客購買的商品。加載reshape程序包,把整體的數(shù)據(jù)打碎(melt),讓其回到一個(gè)一個(gè)數(shù)據(jù)點(diǎn)的狀態(tài),根據(jù)觀測(cè)的id名稱和變量名稱定為,再根據(jù)id名稱和變量名稱進(jìn)行重新的組合,將同一個(gè)顧客買的所有商品都排列到一行。這里,假定購買最多的一個(gè)客戶買了20種商品。在每一行顯示該客戶所買商品名稱,買的不足20種的則用“@”表示。得到的數(shù)據(jù)就是完全清理好的數(shù)據(jù),保存到新的文件夾.
五、結(jié)果分析
1.數(shù)據(jù)描述性統(tǒng)計(jì)分析
(1)數(shù)據(jù)的基本信息
在65536條銷售數(shù)據(jù)中,分類匯總產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)后共有31869條消費(fèi)記錄,其中購買一件商品的顧客購物籃有19778個(gè),購買一件以上商品的購物籃有12091個(gè),分別占總體銷售數(shù)據(jù)的62.06%和37.94%,購買一件商品的比例稍高;在包含一件以上商品的12091個(gè)購物籃中,顧客大多購買2-4件商品,占總體的88%左右。
通過分析銷量最多的10種商品發(fā)現(xiàn),該超市銷售38類商品中,銷售量最多的是飲料(19.1%),其次是熟食速食(14.0%),第三是休閑食品(11.5%)。銷量最多的10種商品的銷量占總銷量的81.0%。銷量最少的10種商品的銷售比例只占0.6%,其中最少的三種商品是服裝服飾、鞋帽類、土產(chǎn)干貨,其銷量的比例都不到0.02%。
通過分析銷售金額最多的10種商品,該超市銷售38類商品中,銷售金額最多的是煙草(19.8%),其次是飲料(13.9%),第三是蛋奶類(9.4%)。銷售額最多的10種商品的占總銷量銷售額比例為82.4%。
2.關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)
(1)總分類關(guān)聯(lián)規(guī)則
①由圖1可知,在對(duì)飲料進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí)發(fā)現(xiàn),顧客在購買了飲料時(shí),有可能同時(shí)購買蔬果(1.2%),熟食速食(1.3%),營養(yǎng)保健品(7.9%),塑料制品(21.6%)與休閑食品(34.3%)。顧客在購買飲料時(shí)一般有34.3%的可能性會(huì)同時(shí)購買休閑食品,這里的塑料制品被認(rèn)為是塑料袋,這是一般規(guī)則。同時(shí),顧客還有可能購買營養(yǎng)保健品,由此推斷,顧客買飲料可能是看望長(zhǎng)輩或家庭宴會(huì),所以有7.9%的可能性購買營養(yǎng)保健品。
②由圖2可知,顧客在購買休閑食品時(shí),有1.3%的可能會(huì)同時(shí)會(huì)購買餅干糕點(diǎn)或糖果類商品,這是我們生活經(jīng)驗(yàn)的一般規(guī)則。同時(shí)發(fā)現(xiàn),顧客在購買休閑食品時(shí)也極有1.33%的可能購買蔬果,3.67%的可能性購買醬菜。據(jù)推測(cè),這可能是主婦在為孩子購買零食時(shí),會(huì)購買生活必需品。
③根據(jù)圖3,顧客在購買調(diào)味制品時(shí),會(huì)對(duì)糧食和醬菜有需要,購買可能性分別為1.5%和4.6%,這是主婦在購物時(shí)的一般規(guī)則;同時(shí)發(fā)現(xiàn),顧客在購買調(diào)味制品時(shí),也可能購買家用清潔(2.3%)和個(gè)人潔護(hù)(3.5%)等日用品,這可能是主婦在為家庭內(nèi)添置一些食品,日用品等生活必需品。
(2)明細(xì)分類關(guān)聯(lián)規(guī)則
明細(xì)分類商3中銷量前5的商品分別為水,香煙,腸,茶和購物袋。下面對(duì)香煙,香腸和茶作明細(xì)商品關(guān)聯(lián)規(guī)則分析。
①對(duì)香煙的關(guān)聯(lián)規(guī)則
由圖4可知,香煙與打火機(jī)這兩類商品的置信度較高,為3.2%,說明此次關(guān)聯(lián)規(guī)則挖掘貼近顧客的日常需求,這是對(duì)一般關(guān)聯(lián)規(guī)則的有效驗(yàn)證。同時(shí)還發(fā)現(xiàn),顧客在購買香煙的同時(shí),有1.3%的可能性會(huì)購買香皂,有1.5%的可能性會(huì)購買鞋刷。據(jù)推測(cè),這可能是由于顧客在購買香煙時(shí)會(huì)幫妻子購買一些日用品。除此之外,發(fā)現(xiàn)顧客在購買香煙時(shí),對(duì)粥和可樂的購買分別為2.9%和3.5%,有較高的關(guān)聯(lián)度。
②對(duì)香腸的規(guī)則
在對(duì)香腸進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),由圖5可知,顧客也會(huì)同時(shí)購買其他零食,其中對(duì)丸子和鳳爪的購買可能性分別為1.9%和1.1%。同時(shí)發(fā)現(xiàn),顧客在購買香腸的同時(shí)有1.03%的可能性會(huì)購買杯子。據(jù)推測(cè),顧客可能是由于要宴請(qǐng)客人所以會(huì)同時(shí)購買香腸和水杯等餐桌必需品。
③對(duì)茶的關(guān)聯(lián)規(guī)則
對(duì)茶進(jìn)行關(guān)聯(lián)規(guī)則挖掘,由圖6可知,顧客在購買茶時(shí),購買咖啡,可樂等替代飲品的可能性分別為5.0%和3.6%,擁有較強(qiáng)的可信度,說明對(duì)超市商品的分類擺放其實(shí)是有助于商品銷售的。同時(shí)發(fā)現(xiàn),顧客在買茶的同時(shí),有1.3%的可能性會(huì)購買鞋刷,據(jù)推測(cè)這可能是由于妻子在為丈夫購茶飲時(shí),會(huì)同時(shí)買家用清潔用品。
3.時(shí)間序列挖掘
根據(jù)折線圖7,我們推斷出以下結(jié)論:圖中七天每天營業(yè)時(shí)間7:00am~21:00pm中,商品銷量和銷售額均先走勢(shì)平緩,之后達(dá)到峰點(diǎn),隨后下降,即在18:00pm~20:00pm達(dá)到峰點(diǎn),說明此超市在此時(shí)間段人流量最大,推測(cè)可能是18:00pm以后,人們下班回家,會(huì)順便帶生活必需品或休閑食品等需要的商品回家。
由圖8發(fā)現(xiàn),發(fā)現(xiàn)周銷量和銷售額的變化趨勢(shì)相同,均是由平緩到峰值再下降,且峰值出現(xiàn)點(diǎn)均在18:00pm~20:00pm間,銷售額=銷量×單價(jià)則說明在高峰期單價(jià)銷售差別不大,即此超市在18:00pm~20:00pm每日銷售商品類似。
六、結(jié)論與建議
通過對(duì)六萬條超市數(shù)據(jù)進(jìn)行挖掘,獲取描述統(tǒng)計(jì)信息,為管理者進(jìn)貨安排給出合理化建議。關(guān)聯(lián)規(guī)則挖掘,在本次研究中發(fā)現(xiàn),買飲料的人極有可能會(huì)買營養(yǎng)保健品;購買休閑食品的時(shí)候會(huì)買醬菜;買香煙的人極有可能會(huì)買鞋刷;買香腸的人會(huì)買水杯。根據(jù)得出的這些隱含的規(guī)則,可幫助管理者進(jìn)行更好地貨架拜訪,從而提高超市銷售量,同時(shí)增強(qiáng)顧客的購物體驗(yàn)。這一挖掘內(nèi)容延于沃爾瑪?shù)钠【婆c尿布的故事,也是本次研究的重點(diǎn)。其中挖掘到的新的關(guān)聯(lián)規(guī)則是本次研究的創(chuàng)新點(diǎn)。時(shí)間序列分析可得到超市的購買高峰期,從而幫助管理者合理的進(jìn)行人員的安排。
研究后發(fā)現(xiàn),我們可進(jìn)行如下改進(jìn),在數(shù)據(jù)的獲取方面,在條件允許的情況下獲取更加豐富的數(shù)據(jù)資源,此作為深入研究的必備條件。再者,進(jìn)一步的學(xué)習(xí)關(guān)聯(lián)規(guī)則算法,為研究提供理論支持。最后,多方面的進(jìn)場(chǎng)分析,從客戶以及決策中兩方面的角度考慮分析,是研究結(jié)果更加全面。
參考文獻(xiàn):
[1]鄭繼剛.數(shù)據(jù)挖掘研究的現(xiàn)狀與發(fā)展趨勢(shì)[J].紅河學(xué)院學(xué)報(bào),2010.
[2]袁劍秋.基于關(guān)聯(lián)規(guī)則算法在數(shù)據(jù)挖掘中的研究與應(yīng)用[D].成都理工大學(xué)碩士論文,2009.
[3]T.Mitchell.MachineLearning.McGraw-Hill,Boston,MA,1997.
[4]林凡.數(shù)據(jù)挖掘在零售業(yè)交叉銷售的作用[D].黑龍江碩士學(xué)位論文,2009.
[5]R.C.Holte.Very Simple Classification Rules Perform Well on Most Commonly Used Data sets.Machine Learning,11:63-91,1993.