佘梓航,徐嘉樺,姚志玉,梁偉典
(韓山師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東 潮州 521041)
隨著大數(shù)據(jù)時(shí)代的到來,信息技術(shù)的進(jìn)步加快了互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)平臺購物以方便、快捷、價(jià)格低的購買模式越來越受到廣大網(wǎng)友的喜愛.近年來,我國網(wǎng)絡(luò)交易的結(jié)構(gòu),已經(jīng)發(fā)展為以天貓為首,京東、蘇寧、拼多多、亞馬遜中國、唯品會、當(dāng)當(dāng)網(wǎng)、網(wǎng)易嚴(yán)選等電商共同發(fā)展的局面.網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展一方面給網(wǎng)絡(luò)商家們帶來巨大的利潤,但另一方面又帶給網(wǎng)絡(luò)商家史無前例的挑戰(zhàn).網(wǎng)絡(luò)購物的用戶早已經(jīng)破千萬,網(wǎng)絡(luò)購物的成交額也在逐年的增長.僅2018年天貓“雙十一”購物節(jié)當(dāng)天的成交額,就已經(jīng)突破了2 135億[1].成交額的提升,也預(yù)示著商家的數(shù)據(jù)分析能力、庫存管理能力和用戶管理能力也要相應(yīng)地進(jìn)行提升.與此同時(shí),數(shù)據(jù)庫技術(shù)的發(fā)展使得獲取、存儲這些交易數(shù)據(jù)成為了可能.對這些龐大的交易數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)分析,能夠?yàn)樯碳姨峁└鱾€(gè)方面的指導(dǎo).不少的學(xué)者也已利用數(shù)據(jù)分析方法對大數(shù)據(jù)進(jìn)行分析.例如:葉春姣[2]對2013年9月至2015年12月京東線上手機(jī)交易記錄進(jìn)行分析,利用空間聚類、分類回歸樹等數(shù)據(jù)挖掘方法,得出全國手機(jī)網(wǎng)絡(luò)消費(fèi)者的時(shí)空分布情況.郭成蹊[3]利用天貓網(wǎng)站用戶2014年4-7月真實(shí)數(shù)據(jù)進(jìn)行分析,得到預(yù)測客戶流失的模型,包括決策樹模型、logistic回歸模型及迭代決策樹模型.黃益國[4]通過使用數(shù)據(jù)挖掘技術(shù),對淘寶化妝品NL 店鋪的客戶以及商品銷售進(jìn)行分析,基于k-means 聚類算法對NL 店鋪的客戶進(jìn)行分類,將客戶分為高級VIP、普通VIP及普通客戶,并且利用貝葉斯分類方法預(yù)測了NL店鋪不同的客戶對新產(chǎn)品A 的購買傾向.Moe[5]和Sismeiro[6]也分別通過網(wǎng)站點(diǎn)擊數(shù)據(jù)和用戶瀏覽網(wǎng)店的歷史記錄數(shù)據(jù),建立了用戶再次購買概率模型和購買行為統(tǒng)計(jì)分析模型.
本文利用統(tǒng)計(jì)分析方法,通過python軟件,以淘寶天貓旗艦店佰潤居旗艦店陶瓷產(chǎn)品銷售情況為例,分析該旗艦店產(chǎn)品的時(shí)空交易分布的情況,同時(shí)通過歷史數(shù)據(jù),預(yù)測2019年佰潤居旗艦店的商品交易量,為佰潤居旗艦店的庫存管理提供一定的指導(dǎo).
通過與佰潤居旗艦店的商家進(jìn)行聯(lián)系,獲得了佰潤居旗艦店2017年1月1日至2019年6月11日共131 281 條交易記錄及相關(guān)商品編號數(shù)據(jù)(編號信息未在圖1 中給出),具體原始數(shù)據(jù)的例子見圖1(數(shù)據(jù)已去掉涉及買家隱私的相關(guān)信息).
對于獲得的數(shù)據(jù),本文進(jìn)行如下假設(shè):(1)訂單付款時(shí)間即為買家交易時(shí)間;(2)買家收貨地址即為買家所在地,不考慮買家將商品寄給其他人的情況;(3)對于不同標(biāo)題的產(chǎn)品,如果商品編號一致,視為同一種產(chǎn)品.
圖1 用戶購買信息
對于這131 281條交易記錄,先去掉有缺失和未付款的數(shù)據(jù).隨后,對于沒有缺失的數(shù)據(jù),使用python軟件對商品的收貨地址進(jìn)行分詞,提取出地址中省市的信息作為指標(biāo).同時(shí)按照年份和月份為時(shí)間指標(biāo),按照省市和年月聯(lián)合指標(biāo)對余下的數(shù)據(jù)進(jìn)行分析.具體研究方法及成果將在下文給出.
通過條形圖、皮爾遜相關(guān)系數(shù)及均值等分析方法,對所擁有的數(shù)據(jù)進(jìn)行分析.假設(shè)X=(x1,x2,…,xN),Y=(y1,y2,…,yN),則均值[7]的定義為
皮爾遜相關(guān)系數(shù)[7]的定義為
顯然-1 ≤ρXY≤1.當(dāng)ρXY=0,X 和Y 不具有線性相關(guān)的關(guān)系;當(dāng)ρXY>0,X 和Y 具有正線性相關(guān)的關(guān)系;當(dāng)ρXY<0,X 和Y 具有負(fù)線性相關(guān)的關(guān)系;當(dāng)ρXY越接近±1時(shí),相關(guān)性越高.
本文使用python軟件對數(shù)據(jù)進(jìn)行挖掘分析,具體使用的挖掘函數(shù)及算法邏輯如下:
Step 1:收集數(shù)據(jù),保存為csv后綴文件;
Step 2:使用函數(shù)pd.read.csv讀取數(shù)據(jù),按照年份建立數(shù)據(jù)集;
Step 3:使用循環(huán)語句,將商品標(biāo)題與商家提供的編碼進(jìn)行轉(zhuǎn)換,建立編碼集;
Step 4:使用split 函數(shù)按“-”及“/”為分隔符,分別將年月及時(shí)刻分開,建立相應(yīng)的時(shí)間集,并通過astype將時(shí)間集轉(zhuǎn)換成str類型;
Step 5:使用split函數(shù)按“ ”為分隔符,將省份及城市分開,建立相應(yīng)的位置集;
Step 6:使用groupby函數(shù)及sum函數(shù)對前述步驟中所建立的數(shù)據(jù)集進(jìn)行計(jì)算,得出不同省、不同市在不同年月的銷售量情況,同時(shí)計(jì)算相應(yīng)的增長率;
Step 7:畫圖展示計(jì)算結(jié)果,數(shù)據(jù)分析.
下文將對python分析出來的結(jié)果進(jìn)行展示,并且給出相應(yīng)的分析結(jié)論.
將2017 年至2019 年5 月份的所有交易量進(jìn)行統(tǒng)計(jì),如圖2所示.
從圖2中可以看出,2018年銷售量遠(yuǎn)高于2017 年,同時(shí),2019 年的前5 月份的銷售量已經(jīng)接近2017 年全年的銷售量.可以發(fā)現(xiàn)該旗艦店的銷售量呈上升趨勢,平均月銷售量也能看出上升的趨勢.因此,商家應(yīng)該對自己企業(yè)的產(chǎn)品有信心,繼續(xù)提高商品質(zhì)量,保持銷售趨勢.通 過對2017 年至2019 年5 月份的月銷售量進(jìn)行分析(圖3).從圖3可以看出,2017 年與2018 年月銷售量、2018 年1-5 月銷售量與2019 年1-5月的銷售量都有正的線性相關(guān)關(guān)系,通過計(jì)算皮爾遜相關(guān)系數(shù),得到相關(guān)系數(shù)分別為ρ1≈0.316 和ρ2≈0.384 .考慮到2017 年及2018年2月份都是農(nóng)歷春節(jié),大部分天貓旗艦店商家都暫停營業(yè),大部分快遞公司也停止服務(wù).因此,在剔除2月份銷售量數(shù)據(jù)之后,2017 年及2018年月銷售量相關(guān)系數(shù)ρ3≈0.646,有高度的正相關(guān)性.可見不同年份的相同月份之間的銷售量有正相關(guān)關(guān)系.高度正相關(guān)性可以讓商家利用歷史數(shù)據(jù),建立相應(yīng)的庫存模型.
圖2 年度總銷售量、平均月銷售量直方圖(單位:件)
圖3 2017年至2019年5月份月銷售量折線圖(單位:件)
2017年及2018年的區(qū)域銷售數(shù)據(jù),見表1和表2.
表1 2017年各省份陶瓷銷售量(單位:件)
表2 2018年各省份陶瓷銷售量(單位:件)
由表1 和表2 可以看出,東部地區(qū)銷售量遠(yuǎn)遠(yuǎn)高于中部和西部,而中部和西部銷售量差異不大.除香港特別行政區(qū)外,沿海地區(qū)銷售量遠(yuǎn)遠(yuǎn)高于內(nèi)陸地區(qū),內(nèi)陸地區(qū)銷售量遠(yuǎn)遠(yuǎn)高于高原地區(qū),各個(gè)地區(qū)的銷售量趨勢,可以查看圖4.西部地區(qū)的銷量少跟其經(jīng)濟(jì)水平有關(guān),而香港地區(qū)的銷量少主要是受到郵費(fèi)及跨境運(yùn)輸難度大所造成的影響.2017、2018年兩年都保持銷售量前三的區(qū)域是廣東、江蘇、浙江三省.
按照城市為指標(biāo)進(jìn)行劃分,對2017、2018年不同城市的銷售情況進(jìn)行分析.圖5給出了2018年銷售量前十名的城市的銷售情況,比較了這10個(gè)城市在2017、2018年兩年的銷售量情況.2018年銷售量前十名的城市的銷量達(dá)到了總銷量的33.28%.可見,排名前十的城市銷量變化對全國總銷量的變化有巨大的影響.從圖5中可以看出,排名前十名的城市以一線城市為主.除了廣州負(fù)增長之外,其他城市的銷售量均有所增長,尤其是重慶、上海和南京.重慶2018年的銷售量是2017年的5.24倍,上海2018年的銷售量是2017年的2.42倍,南京2018年的銷售量是2017年的2.05倍.因此,商家可以通過查找廣州、重慶、上海、南京幾個(gè)地方的交易數(shù)據(jù)(如:退貨量、客戶要求、發(fā)貨要求、發(fā)貨時(shí)長、購買商品類型等)來分析導(dǎo)致負(fù)增長和高增長的原因,進(jìn)一步改善自己的產(chǎn)品.
圖4 2017、2018年各地區(qū)銷售情況對比(香港特別行政區(qū)除外)(單位:件)
圖5 2018年銷售量排名前十的城市近兩年銷售量情況對比(單位:件)
根據(jù)2017、2018年兩年的商品銷量進(jìn)行統(tǒng)計(jì),得出表3、表4.
表3 2017年銷量前十名的商品(單位:件)
表4 2018年銷量前十名的商品(單位:件)
通過表3、表4可以看出,2017年銷售量前十名的商品銷售量總和為48 852件,占2017年度銷售量80 148件的60.95%,2018年銷售量前十名的商品銷售量總和為60 983件,占2018年度銷售量142 188件的42.89%.2018年銷量前十名商品銷售量所占比重相對于2017年有所降低,但2018年年度銷售量總體升高,說明商品的單一品種高銷售量化程度有所降低,從側(cè)面反映出商家產(chǎn)品結(jié)構(gòu)越發(fā)多樣化,這也從與商家的交流中得到了驗(yàn)證.
銷售量前十名的商品都是以餐具和杯子為主,這也顯示市場對餐具和杯子需求量巨大,商家可以通過提升這兩種陶瓷產(chǎn)品的質(zhì)量,同時(shí)降低生產(chǎn)成本,來獲取更高的商業(yè)利潤.
從上文已知2017、2018兩年的月銷售量存在高度相關(guān)性,除去2月份的數(shù)據(jù),計(jì)算出2018 年1、3-5月份相對于2017年1、3-5月份平均月銷售量增長率為47.03%,2019 年1、3-5 月份相對于2018 年1、3-5 月份的月銷售量增長率為43.51%.這兩年的平均增長率基本不變,這啟發(fā)我們使用2018年(除2 月份)銷售量平均增長率來對2019年的銷售量平均增長率進(jìn)行估計(jì),通過簡單的計(jì)算,可以得到2018 年相對于2017 年的月銷售量(除2月份)平均增長率約為107.25%.基于此可以對2019年6-12月份的銷售量進(jìn)行預(yù)測,得到圖6.
圖6 2017年至2019年5月份月銷售量及2019年6月至12月銷售量預(yù)測值(單位:件)
從圖6可以看出,若按照往年增長趨勢,6月份及11月份的銷售量都會再創(chuàng)新高.由于該旗艦店銷售量前十名的商品以馬克杯和餐具為主(由表3、表4可見),考慮6月份高考結(jié)束,大量高中畢業(yè)生買杯子的需求增加,再加上天貓年中大促,同京東商城店慶日“618”競爭流量,從而導(dǎo)致了6月份的高銷售量.天貓“雙十一”購物節(jié)是11月份銷量巨大的最主要原因,2019年11月份銷售量可能達(dá)到47 145件.因此,根據(jù)數(shù)據(jù)可相應(yīng)增加庫存,為迎接銷售高峰期做準(zhǔn)備.
通過對2017至2019年5月份佰潤居旗艦店的年銷量、月銷量、產(chǎn)品銷售區(qū)域、產(chǎn)品結(jié)構(gòu)等幾個(gè)方面進(jìn)行統(tǒng)計(jì)分析.從分析中得出,不同年份產(chǎn)品數(shù)據(jù)在相同月份的銷售量有強(qiáng)的正相關(guān)關(guān)系.通過python軟件進(jìn)行分詞及統(tǒng)計(jì),發(fā)現(xiàn)佰潤居旗艦店的產(chǎn)品在廣東、江蘇、浙江三省持續(xù)暢銷.在成本允許的情況下,商家可以考慮在這三個(gè)省建立相應(yīng)的倉庫,方便銷售及快速發(fā)貨.同時(shí),商家可以考慮使用天貓直通車推薦系統(tǒng),為前十名城市的消費(fèi)者設(shè)置推送權(quán)重,保持銷售量前十名的城市的銷售情況.最后,通過平均值預(yù)測,2019年11月份商家銷售量可能達(dá)到47 145件,商家可以事先庫存相應(yīng)的商品,為天貓“雙十一”購物節(jié)做準(zhǔn)備.