黃曉艷,蔡麗清,張鈺莎
(廣東外語(yǔ)外貿(mào)大學(xué)南國(guó)商學(xué)院,廣州 510545)
校園超市數(shù)據(jù)關(guān)聯(lián)規(guī)則與統(tǒng)計(jì)分析
黃曉艷,蔡麗清,張鈺莎
(廣東外語(yǔ)外貿(mào)大學(xué)南國(guó)商學(xué)院,廣州 510545)
隨著社會(huì)的發(fā)展,校園超市已經(jīng)成為學(xué)生日常生活必不可少的一部分。然而對(duì)校園超市進(jìn)行數(shù)據(jù)挖據(jù),既可以為商家提供有效地銷(xiāo)售手段使利潤(rùn)增加,又可以滿(mǎn)足學(xué)生的購(gòu)物需求,達(dá)到雙贏的局面。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;統(tǒng)計(jì)分析
隨著社會(huì)的發(fā)展,校園超市逐漸在大學(xué)校園中興起,但是卻出現(xiàn)了校園超市沒(méi)有滿(mǎn)足學(xué)生的需求而逐漸流失客源,導(dǎo)致經(jīng)營(yíng)不善。大學(xué)生們由于在校園超市沒(méi)有購(gòu)買(mǎi)到自己心儀的商品而舍近求遠(yuǎn)。所以對(duì)校園超市進(jìn)行數(shù)據(jù)挖掘有著重要的意義。通過(guò)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,我們不再是傳統(tǒng)的所有數(shù)據(jù)的關(guān)聯(lián)規(guī)則,而是針對(duì)某一個(gè)特定的時(shí)間段做關(guān)聯(lián)規(guī)則分析[1],這樣得出來(lái)的結(jié)果更具有時(shí)間性,使商家可以準(zhǔn)確的了解到在特定時(shí)間段里大學(xué)生對(duì)商品的需求,而做出相對(duì)應(yīng)的銷(xiāo)售手段。還可以通過(guò)數(shù)據(jù)統(tǒng)計(jì)分析超市工作時(shí)間與人員配置。校園超市與數(shù)據(jù)挖掘的結(jié)合能更加建設(shè)校園生活。
本次實(shí)驗(yàn)的數(shù)據(jù)取自廣東外語(yǔ)外貿(mào)大學(xué)南國(guó)商學(xué)院聯(lián)合100超市2015年3月~11月的數(shù)據(jù),總共有為60幾萬(wàn)條原始數(shù)據(jù)。
然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:
①數(shù)據(jù)篩選:將60幾萬(wàn)條數(shù)據(jù)中,空缺和錯(cuò)誤的數(shù)據(jù)通過(guò)SQL2008將其篩選出來(lái)。
然后通過(guò)商品表將所以的商品替換成字母,便于操作。通過(guò)SQL語(yǔ)句(select distinct*from test)把重復(fù)的數(shù)據(jù)剔除掉之后將結(jié)果保存為tested通過(guò)sql(select *from tested where id in(select*from tested group by id having count(*)>1))篩選出購(gòu)物籃中商品有兩件以上的數(shù)據(jù)再通過(guò)VS2010制作成購(gòu)物籃:
圖1 預(yù)處理結(jié)果
通過(guò)數(shù)據(jù)統(tǒng)計(jì),發(fā)現(xiàn)了每日的18:00:00到18:59:59校園超市的銷(xiāo)售量最大。由于原始數(shù)據(jù)中3月、11月的數(shù)據(jù)是沒(méi)有特殊假期相對(duì)完整,接下來(lái)我們就以11月每日的18:00:00到 18:59:59時(shí)間段一共有3696條數(shù)據(jù)和3月份每日18:00:00~18:59:59的銷(xiāo)售數(shù)據(jù)一共有3149條數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析。
2.1 APriori算法頻繁項(xiàng)級(jí)的產(chǎn)生
在關(guān)聯(lián)規(guī)則中有四個(gè)基本的概念:
項(xiàng)集與支持度計(jì)數(shù)[2]
①支持度:support(A,B)=p(A∪B)=ó(A∪B)/N其中ó(A∪B)表示包含項(xiàng)A和B的事務(wù)在事務(wù)數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),N是事務(wù)數(shù)據(jù)庫(kù)的大小。
②置信度:confidence(A,B)=p(A∣B)=ó(A∪B)/ó (A)其中ó(A∪B)表示事務(wù)數(shù)據(jù)庫(kù)D中同時(shí)包含項(xiàng)A 和B的事務(wù)占包含項(xiàng)A的事務(wù)的百分比。
③頻繁項(xiàng)級(jí)和強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)用戶(hù)預(yù)先設(shè)定的最小支持度和最小置信度閾值,若支持度不小于最小支持度閾值的項(xiàng)集,稱(chēng)為頻繁項(xiàng)級(jí)。若支持度不小于最小支持度閾值且置信度不小于最小置信度閾值的規(guī)則,稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。
根據(jù)11月份所篩選的3696條數(shù)據(jù)中設(shè)支持度為1.19% 置信度為15%。通過(guò)搭配及計(jì)算支持度得出不小于支持度閾值的項(xiàng)集構(gòu)成頻繁2項(xiàng)級(jí)[3]。Aprior算法通過(guò)合并頻繁2項(xiàng)集產(chǎn)生候選3項(xiàng)集時(shí),為了避免產(chǎn)生太多重復(fù)的候選項(xiàng)集,同時(shí)確保沒(méi)有遺漏頻繁項(xiàng)集Apriori算法以頻繁項(xiàng)級(jí)按字典排序,若兩個(gè)頻繁2項(xiàng)級(jí)前者相同則合并,得出候選3項(xiàng)集如表1所示。
表1 候選3項(xiàng)集
為了提高效率,在計(jì)數(shù)支持度得出頻繁3項(xiàng)級(jí)之前可以進(jìn)行候選項(xiàng)集的前剪枝,可以有效的減少支持度計(jì)數(shù)過(guò)程中I/O的次數(shù)。然后計(jì)算支持度,結(jié)果如下表2所示。
表2 候選3項(xiàng)集的支持度
2.2 產(chǎn)生關(guān)聯(lián)規(guī)則
由頻繁2項(xiàng)集產(chǎn)生的關(guān)聯(lián)規(guī)則置信度小于15%的刪除,可以利用Apriori的性質(zhì)最后得出強(qiáng)關(guān)聯(lián)規(guī)則有A4,K→F17,如表3所示。
表3 商品的支持度和置信度
2.3 相同時(shí)段、不同季度所得關(guān)聯(lián)規(guī)則的比較
共同點(diǎn):在3、11月份的18:00:00~18:59:59這個(gè)銷(xiāo)售高峰中的主要銷(xiāo)售的商品是飲料、水果、面包、零食。所以說(shuō)主要影響著校園超市銷(xiāo)售量的商品是食品類(lèi)。
①超市可以在3、11月的時(shí)間段里,生活用品類(lèi)和清潔品類(lèi)而并不是主要的銷(xiāo)售商品,所以校園超市應(yīng)該減少這類(lèi)商品的進(jìn)貨量。
②同時(shí)在下午6點(diǎn)這個(gè)時(shí)間段,超市可以在收銀臺(tái)附近添加幾個(gè)面包架擺放面包,以增加銷(xiāo)量。
③在擺放面包的附近可以擺上與它有關(guān)聯(lián)的商品,例如:糖、果脯、香腸等零食。
④在這個(gè)時(shí)間段可以對(duì)商品進(jìn)行捆綁消費(fèi),例如:泡面和面包,牛奶和面包,飲料和面包,面包和香腸等。
不同點(diǎn):在11月份,廣州的天氣悶熱,比較多的學(xué)生在買(mǎi)其他商品的同時(shí)買(mǎi)上水果,所以商家可以嘗試新的促銷(xiāo)方式,將水果、面包、酸奶同時(shí)進(jìn)行促銷(xiāo)以增加銷(xiāo)售量。
目的:因?yàn)槟承r(shí)段會(huì)有許多學(xué)生來(lái)超市購(gòu)物,以至于所有工作人員忙不過(guò)來(lái),而有些時(shí)間段卻幾乎沒(méi)有學(xué)生購(gòu)物,而浪費(fèi)了不少的資源與金錢(qián)。因此我們希望通過(guò)對(duì)銷(xiāo)售數(shù)據(jù)的分析挖據(jù)發(fā)現(xiàn)顧客的購(gòu)物時(shí)間規(guī)律,為超市的人員及服務(wù)配置等工作提供決策參考。對(duì)數(shù)據(jù)中每一天的每個(gè)時(shí)間段的銷(xiāo)售額的統(tǒng)計(jì)中,分別以3月份~4月份、5月份~6月份、9月份到10月份為一組,對(duì)這三組的數(shù)據(jù)查詢(xún)出每個(gè)時(shí)間段的銷(xiāo)售額(以早上6點(diǎn)開(kāi)始,晚上11點(diǎn)結(jié)束,每一個(gè)鐘為一個(gè)時(shí)間段)。
其次,對(duì)于每一周每一個(gè)工作日的銷(xiāo)售額進(jìn)行統(tǒng)計(jì),選擇3月份和9月份的數(shù)據(jù)顯示,分別對(duì)星期一到星期天一整天的銷(xiāo)售數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。對(duì)于上述描述,利用Excel工具分別得到以上兩張圖表:
結(jié)論:對(duì)于上面兩張圖表,可以得到以下幾點(diǎn)結(jié)論:
①一天中,超市銷(xiāo)售共有3個(gè)高峰期,分別為早上8點(diǎn)~9點(diǎn)、12點(diǎn)~13點(diǎn)、18點(diǎn)~19點(diǎn),其中15點(diǎn)~16點(diǎn)也是一個(gè)小高峰期,因此,超市管理人員可以在高峰期中增加超市工作人員。
②一天中,除了有3個(gè)高峰期中,我們從圖中也可以看出4個(gè)低峰期,分別為早上9點(diǎn)~10點(diǎn)、14點(diǎn)~15點(diǎn)、16點(diǎn)~17點(diǎn)、19點(diǎn)過(guò)后銷(xiāo)售額呈下降趨勢(shì)。因此,在這幾個(gè)低潮期超市管理人員可以合理安排超市工作人員的工作時(shí)間,同時(shí)可以增強(qiáng)工作人員對(duì)超市的忠誠(chéng)度。
③一周中,星期一的銷(xiāo)售額最高,星期六的銷(xiāo)售額最低,星期二到星期五呈下降趨勢(shì),同樣可以合理安排超市工作人員的工作時(shí)間。
圖2 超市經(jīng)營(yíng)時(shí)間銷(xiāo)售圖
[1]張鈺莎.數(shù)據(jù)挖掘在高校圖書(shū)館服務(wù)中的應(yīng)用研究[J].廊坊師范學(xué)院學(xué)報(bào),2015,7:32-35
[2]蔣盛益.商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析[M].北京:子工業(yè)出版,.2014,1:104-109
[3]張鈺莎.數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評(píng)估中的應(yīng)用研究.暨南大學(xué)[D],2012,6
圖3 星期銷(xiāo)售折線(xiàn)圖
校園超市作為大學(xué)生校園生活必不可少的一個(gè)部分,但是如何經(jīng)營(yíng)超市和如何滿(mǎn)足廣大學(xué)生的日常生活成了一大難題。商家們對(duì)校園超市進(jìn)行數(shù)據(jù)挖掘可以準(zhǔn)確的發(fā)現(xiàn)學(xué)生們?nèi)粘P枨蟮囊?guī)律,構(gòu)建一個(gè)繁榮和諧的校園環(huán)境。
HUANG Xiao-yan,CAI Li-qing,ZHANG Yu-sha
(Guangdong University of Foreign Studies South China Business College,Guangzhou 510545)
With the development of the society,the campus supermarket has become an indispensable part of the students'daily life.However to dig,according to the data,the campus supermarket can make profits for merchants to provide effective sales approach,and can meet the demand of the students'shopping,achieve win-win situation.
The Data Mining;Association Rules;Statistics Analysis
廣東省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目(No.201512620039)
1007-1423(2016)21-0032-04
10.3969/j.issn.1007-1423.2016.21.007
黃曉艷(1995-),女,廣州人,研究方向?yàn)閿?shù)據(jù)挖掘
張鈺莎(1982-),女,山西晉城人,碩士,副教授,研究方向?yàn)閿?shù)據(jù)挖掘,E-mail:zys1982xx@163.com
2016-04-27
2016-07-20Association Rules and Statistical Analysis of Campus Supermarket Data
蔡麗清(1995-),女,廣州人,研究方向?yàn)閿?shù)據(jù)挖掘