黃港作 張小慧 牛薌潔
摘要:隨著信息科技的日益進步,手機、電腦集成了越來越多簡單實用的程序與工具。而使用這些程序的同時產(chǎn)生了豐富的數(shù)據(jù),因此研究這些數(shù)據(jù)對于電商平臺以及分析人類的行為趨勢有著非常重要的意義。因此數(shù)據(jù)分析成為時下的熱門話題,而由于Python其本身語言的簡潔性,成為眾多數(shù)據(jù)分析科學家所使用的工具。
關(guān)鍵詞:數(shù)據(jù)可視化;消費者行為;python
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2021)15-0248-03
1 數(shù)據(jù)分析為何使用Python?
1.1簡單易學
學習過其他語言如C++、C、JAVA的人應該知道,相較于其他語言Python的語法簡單、門檻低,代碼通俗易懂,并且擁有十分龐大的庫基本涵蓋了各個領(lǐng)域,只需要上網(wǎng)查詢調(diào)用即可。
并且Python特別適合剛剛?cè)腴T的人去學習,當我們需要處理數(shù)據(jù)時,處理數(shù)據(jù)的速度非常重要并且往往需要對大批量的數(shù)據(jù)集進行可視化處理,而Python的學習人員只需要入門即可處理大量簡單的數(shù)據(jù)。
1.2 強大的編程能力
Python不同于R語言以及Matlab,Python具備非常強大的數(shù)據(jù)分析能力,同時Python還可以用于爬蟲、游戲編寫,以及自動化運維,因此Python有利于多學科、多業(yè)務之間的融合,盡量減少一個項目中使用過多的語言造成不兼容的情況,所以Python可以大大地提高工作效率,而Python在運算效率上的缺失也可以通過提升機器硬件來彌補,畢竟時間成本有時遠大于硬件成本。
1.3 Python——一門面向世界的編程語言
隨著大數(shù)據(jù)、數(shù)據(jù)分析、人工智能的火熱,Python在語言排行榜中的地位迅速上升,因為人工智能需要的是即時性、邏輯性,而Python作為一門簡潔的語言同時擁有豐富的社區(qū)以及大量人員在使用,能產(chǎn)生豐富的數(shù)據(jù)以及相應的接口。因此操作人員無需再操心沒有豐富的數(shù)據(jù),節(jié)省了大量的時間以及相關(guān)功能的編程。
2 數(shù)據(jù)分析
數(shù)據(jù)分析作為大數(shù)據(jù)的一種必不可少的技能,只有明確分析概念、分析工具、分析流程等相關(guān)知識才能更好地去分析數(shù)據(jù)。
2.1數(shù)據(jù)分析概念
數(shù)據(jù)分析是指在分析大批量數(shù)據(jù)研究時運用合理、適當、可行的方法對需要分析的數(shù)據(jù)進行分析,提取其背后的信息,形成結(jié)論。這是一個數(shù)據(jù)研究和總結(jié)的過程[1],隨著信息技術(shù)的發(fā)展與迭代,企業(yè)生產(chǎn)、收集、存儲和處理數(shù)據(jù)的能力有了質(zhì)的飛躍,每天的數(shù)據(jù)吞吐量達到了驚人的地步。因此,利用數(shù)據(jù)分析方法對復雜的數(shù)據(jù)進行細化,研究數(shù)據(jù)的發(fā)展規(guī)律并預測趨勢,進而幫助企業(yè)的管理層進行決策[2]。
2.2 數(shù)據(jù)分析的流程
(1)明確分析目的提出問題
首先明確項目分析的目的,才能精準定位分析因子,提出有價值的問題以及清晰的思路。主要內(nèi)容是根據(jù)業(yè)務、生產(chǎn)和財務這些部門的需求,結(jié)合現(xiàn)有數(shù)據(jù)情況[3],對數(shù)據(jù)內(nèi)容進行細化和分析,最終與目的達成一致。
(2)數(shù)據(jù)采集
獲取數(shù)據(jù)的手段有兩種方式:網(wǎng)絡爬蟲與社區(qū)收集。其中爬蟲指的是使用自定義的程序根據(jù)一定的規(guī)則去網(wǎng)頁中獲取特定規(guī)則的數(shù)據(jù)但需要注意的是通常有些數(shù)據(jù)是違法的。社區(qū)收集是指數(shù)據(jù)分析者通過去熱門的社區(qū)如阿里天池等社區(qū)具有豐富的電商資料以及各式各樣的數(shù)據(jù)內(nèi)容。收集到的原始數(shù)據(jù)還需要進行數(shù)據(jù)加工,主要包括數(shù)據(jù)清洗、數(shù)據(jù)分組、數(shù)據(jù)檢索、數(shù)據(jù)抽取等處理方法。
其中數(shù)據(jù)清洗涉及數(shù)據(jù)的格式、字體等相統(tǒng)一,同時需要對重復、異常的數(shù)據(jù)進行清洗,保證數(shù)據(jù)的干凈以免在繪制可視圖以及分析時出現(xiàn)誤差。
數(shù)據(jù)分組是指將數(shù)據(jù)根據(jù)需求分成對應的數(shù)據(jù)組。數(shù)據(jù)檢索以及數(shù)據(jù)抽取分別指的是在收集的數(shù)據(jù)中搜索目標內(nèi)容,以及在數(shù)據(jù)源抽取數(shù)據(jù)的過程。
(3)分析建模
分析建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關(guān)聯(lián)規(guī)則、智能推薦等模型和算法,發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,并得出結(jié)論的過程[4]。
(4)優(yōu)化數(shù)據(jù)模型
模型優(yōu)化是指模型的性能經(jīng)過模型的評估,但當前模型在實際生產(chǎn)環(huán)境下的性能并不理想,然后對模型進行重構(gòu)和優(yōu)化[4]。
(5)應用部署
應用部署是指在具體環(huán)境中根據(jù)不同的應用場景使用合適的數(shù)據(jù)分析模型。同時項目的進度不同其表現(xiàn)的形式也不盡相同,在項目的部署階段可以通過數(shù)據(jù)分析對整個項目進行評估,也可以是將模型部署在生產(chǎn)系統(tǒng)的解決方案[4]。通常情況下數(shù)據(jù)分析員可以通過根據(jù)項目方提供的對應數(shù)據(jù),最終提供需求方的解決報告。
3 常見的四種數(shù)據(jù)分析方法
當開始數(shù)據(jù)分析項目時,通常首先分別分析每個變量,以描述擁有的數(shù)據(jù)并評估其質(zhì)量,接下來的步驟是探索變量之間存在的關(guān)系。這些關(guān)系可能會導致對數(shù)據(jù)所代表的總體得出某些推論或結(jié)論。結(jié)論將會分析出數(shù)據(jù)集中并不存在的數(shù)據(jù)。但是,在導致決策或行動步驟之前,數(shù)據(jù)分析無效。
3.1 描述性分析
在四種數(shù)據(jù)分析方法中最簡單的則是描述性分析,描述性分析通過總結(jié)數(shù)據(jù)集中的變量值。例如,調(diào)查者對一些特定的問題進行1至10的評分,那么描述性分析可以通過總結(jié)受訪者的中位數(shù)、百分比或者數(shù)量,以及特定評分的一個趨勢變化。描述性分析需要熟悉數(shù)據(jù)集并識別數(shù)據(jù)問題。
3.2 探索性分析
在進行數(shù)據(jù)分析之前,需要了解項目所擁有的數(shù)據(jù),然后尋找數(shù)據(jù)元素之間的關(guān)系,這被稱為探索性數(shù)據(jù)分析,一般側(cè)重于變量之間的相關(guān)性。
3.2 推理分析
以制定消費者對市場經(jīng)濟恢復的信心指數(shù)為例,調(diào)查員無需向每一個消費者去調(diào)查他關(guān)于市場經(jīng)濟的信心。只需要按一定比例在人口中進行調(diào)研即可得出指數(shù)結(jié)果。理解推理分析是非常重要的,因為可以通過選擇不同的樣本從數(shù)據(jù)集中得出大相徑庭的結(jié)論[7]。所以消費者信心指數(shù)需要在數(shù)據(jù)集中隨機選擇樣本,才能保證無論選擇何種樣本結(jié)論是一致的。
3.3 預測分析
預測分析在當前商業(yè)智能程序中應用非常廣泛??梢酝ㄟ^使用目前擁有的數(shù)據(jù)來預測將來的結(jié)果。例如,保險公司可以根據(jù)用戶的身體健康、性別、年齡等數(shù)據(jù)來預測客戶屬于哪一種群體,進而提高相應的保費。分析人員通過在已知結(jié)果的數(shù)據(jù)集上使用神經(jīng)網(wǎng)絡等數(shù)據(jù)挖掘手段訓練模型,然后將模型接入App中。
4 數(shù)據(jù)分析常用的工具
主流的數(shù)據(jù)分析語言包括Python、R和MAT-LAB。其中,Python擁有豐富而強大的函式庫,通常被稱為膠水語言,可以輕松地使各種以其他語言制作的模組。
合在一起,它是一種更容易學習和嚴謹?shù)木幊陶Z言,常用于數(shù)據(jù)分析、機器學習、矩陣運算、科學數(shù)據(jù)可視化、數(shù)字圖像處理、網(wǎng)絡爬蟲、網(wǎng)絡應用[6]。
R語言常用于統(tǒng)計分析、機器學習、科學數(shù)據(jù)可視化等,MAT-LAB用于矩陣運算、數(shù)值分析、科學數(shù)據(jù)可視化、機器學習、符號運算、數(shù)字圖像處理和信號處理。因此以上三種語言均可進行數(shù)據(jù)處理分析。
5 大閘蟹銷售數(shù)據(jù)分析
本次收集數(shù)據(jù)共5090組,數(shù)據(jù)來源于天元數(shù)據(jù)網(wǎng)收集的于2018年9月份,天貓商城中關(guān)于大閘蟹的各個店鋪銷售數(shù)據(jù)。其中收集數(shù)據(jù)項包括:商品id、商品名稱、品牌名稱、價格、商品原價、商品銷售量、商品銷售額、商品url、類目id、類目、商品評價數(shù)、商品收藏數(shù)、商品庫存、商品發(fā)貨地、商品產(chǎn)地國家、商品參數(shù)、店鋪id、店鋪名稱、店鋪省份、店鋪城市、店鋪開店時間、店鋪開店年數(shù)。同時使用numpy以及pandas中含有的數(shù)據(jù)分析包,來對其中的數(shù)據(jù)進行可視化分析。
在進行數(shù)據(jù)分析前,先需要對數(shù)據(jù)進行清洗,可以通過Jupyter進行數(shù)據(jù)分析時使用is_null()方法來找出異常的空值。
5.1 店鋪分布
通過使用Python繪圖統(tǒng)計分析如圖一所示,所收集的數(shù)據(jù)中有售賣大閘蟹的店鋪共計5089家,分布在全國60個省市。其中江蘇蘇州店鋪最多3822家,廈門、??凇②M州這三個城市最少各僅有1家。位列第二、第三的分別是上海與北京,分別為366與133家。
可以看出店鋪多的地方,均為發(fā)達一線城市,而店鋪少的基本為沿海城市。
5.2 店鋪總銷售額情況
要獲取總銷售額的情況可以通過pandas先獲取表格數(shù)據(jù),然后再使用sort_values()函數(shù)對現(xiàn)有的數(shù)據(jù)進行排序最終再獲取前10的排名,如圖1所示。
從最終獲取的數(shù)據(jù),我們不難分析出,占據(jù)銷售前十的商品,天貓超市生鮮店占據(jù)頭部位置。其余的店鋪與天貓旗艦商店的銷售額差距還是非常大的。
具體代碼如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from pylab import *
mpl.rcParams['font.sans-serif'] =['SimHei']
#設定繪圖風格
plt.style.use('ggplot') df=pd.read_csv(r'C:\Users\***\2020\sell_dazhaxie.csv',engine='python')
x=df[['商品名稱','店鋪名稱','商品銷售額(元)']].sort_values(by=['商品銷售額(元)'],ascending=False).head(25)
5.3 商品價格與商品銷售量
通過排列、篩查等手段洗去極端值后,建立價格范圍為(0-1000元)所對應的商品銷售量數(shù)據(jù)可視化圖形如圖2所示。
從圖形上來看洗去極端值與空值后的4491組數(shù)據(jù),不難發(fā)現(xiàn)它們之間所對應的數(shù)據(jù)沒有一個明顯的、平滑的規(guī)律,這是由于商品的銷售量可能是由多重因素決定的而不是簡單地與商品的價格相聯(lián)系。如從5.2中的結(jié)論可以看出天貓旗艦店本身也是一個極端值,其店鋪所銷售的商品銷售額遠大于其他的店鋪,這為得出商品價格與銷售額之間的關(guān)系產(chǎn)生了干擾。
但從圖中也可以明顯的發(fā)現(xiàn)隨著價格的提升銷售量(只)以肉眼可見的速度下降。
5.4 開店年數(shù)與商品銷售量
經(jīng)過數(shù)據(jù)清洗完極端值與空值后,以店鋪開店年數(shù)為x軸間隔一年與商品銷售量(只)為y軸使用python繪圖工具進行數(shù)據(jù)可視化如圖3。
從圖中可以發(fā)現(xiàn),虹吸效應在每個區(qū)間分外明顯,如[3-4]、[4-6]每個區(qū)間只有一家店鋪的銷量會遙遙領(lǐng)先于其他店鋪,并且在經(jīng)過數(shù)據(jù)清洗后剩下的3677家店鋪中,僅有不到3家達到了2018年9月份銷售20000只以上的大閘蟹。
同時也可以從圖中得出,店鋪開店時間為一年或者多年,幾乎每一年都有接近2萬銷售量的店鋪誕生。
5.5 商品收藏數(shù)與商品銷售量
該圖4經(jīng)過數(shù)據(jù)清洗后,剩余3677家店鋪,以每家店鋪大閘蟹商品收藏數(shù)(個)為x軸,商品銷售量(只)為Y軸,經(jīng)過數(shù)據(jù)可視化處理。
不難發(fā)現(xiàn),當商品收藏數(shù)處于較大時仍有銷售量低迷的情況,而收藏量處于(0-10000條)銷售量分布比較均勻,同時也可以發(fā)現(xiàn),只有當收藏量大時才有銷售量超高的存在。當收藏量處于(0-10000條)時銷售量與商品收藏數(shù)有著明顯的正相關(guān)性。
6 結(jié)語
大數(shù)據(jù)影響各行各業(yè)的發(fā)展,農(nóng)產(chǎn)品的銷售也不例外,首先從5.4的結(jié)論來看,只要用心做店鋪,即便開店年數(shù)不高仍有機會做爆款大閘蟹的潛力,其次從5.5中的結(jié)論可以發(fā)現(xiàn),商品收藏數(shù)與商品銷售量有著明顯的正相關(guān)性,說明要提高銷售量可以適當從打開店鋪知名度上入手,如提高收藏量至[5000-15000]之間。
綜上所述,商品的銷售量與店鋪的開店年數(shù)沒有明顯的正相關(guān)性,而與店鋪的知名度有著明顯的正相關(guān)性,所以大閘蟹商家如果需要提高店鋪銷售量,可以從提高店鋪的收藏量入手。
參考文獻:
[1] 翟高粵.基于Python的數(shù)據(jù)分析概述[J].甘肅科技縱橫,2018,47(11):5-7,26.
[2] 劉熠.基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實現(xiàn)[D].荊州:長江大學,2018.
[3] 顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京:南京大學,2016.
[4] 郭雷風.面向農(nóng)業(yè)領(lǐng)域的大數(shù)據(jù)關(guān)鍵技術(shù)研究[D].北京:中國農(nóng)業(yè)科學院,2016.
[5] 吳瑕.大數(shù)據(jù)分析在農(nóng)產(chǎn)品電商中的應用研究[J].現(xiàn)代營銷(下旬刊),2020(6):196-197.
[6] 趙書慧.電商市場中大數(shù)據(jù)挖掘的分析以及決策探究[J].中國新通信,2020,22(12):66.
[7] 李海英.大數(shù)據(jù)在跨境電商產(chǎn)業(yè)鏈中的應用對策探討[J].電子商務,2020(5):28-29.
【通聯(lián)編輯:梁書】