陳岳軍 毛水凌
摘 要:在大數(shù)據(jù)時代,企業(yè)掌握了大量用戶信息。為了能夠讓這些海量信息以一種直觀的方式展現(xiàn)在企業(yè)管理者面前,從一個數(shù)據(jù)分析人員的視角,研究基于Apache Superset的商務(wù)智能數(shù)據(jù)可視化問題,并以某手機品牌線上銷售數(shù)據(jù)為例,從不同維度對銷售數(shù)據(jù)進行選擇、過濾與轉(zhuǎn)換,最終以適當方式將結(jié)果呈現(xiàn)出來,從而達到以可視化方式展示數(shù)據(jù)的目的。利用Superset可視化工具,不僅為數(shù)據(jù)分析人員帶來了極大便利,而且普通用戶也能通過連接數(shù)據(jù)庫自主選擇數(shù)據(jù)可視化操作,從而提高企業(yè)整體工作效率。
關(guān)鍵詞:商務(wù)智能;數(shù)據(jù)可視化;數(shù)據(jù)分析;管理決策
DOI:10. 11907/rjdk. 182465
中圖分類號:TP319
文獻標識碼:A文章編號:1672-7800(2019)006-0115-06
Abstract: In the era of big data, the enterprises have a large amount of user information. In order to make this massive amount of information presented to enterprise managers in an intuitive way, this paper studies the visualization of business intelligence data based on Apache Superset from the perspective of a data analyst. Taking the online sales data of a mobile phone brand as an example, the sales data is selected, filtered and converted from different dimensions, and finally the results are presented in an appropriate manner, thereby achieving the purpose of visualizing the data. By using Superset as an efficient visualization tool, it not only brings great convenience to data analysts, but also ordinary users can choose the visualization operation of data by connecting the database, and improve the overall work efficiency of the enterprise.
Key Words: business intelligence; data visualization; data analysis; management decision
0 引言
在如今的大數(shù)據(jù)時代,企業(yè)數(shù)據(jù)出現(xiàn)爆發(fā)式增長,利用大數(shù)據(jù)分析技術(shù)實現(xiàn)對數(shù)據(jù)的精細化運用,從而驅(qū)動業(yè)務(wù)增長已成為大部分企業(yè)的共識。將大數(shù)據(jù)技術(shù)與可視化技術(shù)相結(jié)合,可為數(shù)據(jù)分析人員提供一種強大、高效的數(shù)據(jù)分析工具,其能以一種更加直觀的方式揭示數(shù)據(jù)背后隱藏的商業(yè)價值。
國外自建立可視化學(xué)科以來,經(jīng)過幾十年的發(fā)展,在數(shù)據(jù)可視化研究方面已取得了很大進展,推出了很多可視化工具。我國近年來針對可視化技術(shù)也進行了大量研究,在可視化算法、可視化工具開發(fā)等方面也取得了一定成果[1-3]。Tableau[4]是源于斯坦福大學(xué)的商業(yè)智能軟件,其將數(shù)據(jù)運算與圖表完美地嫁接在一起,可幫助用戶分析各類數(shù)據(jù),其功能強大,且注重細節(jié),但使用者多為專業(yè)的數(shù)據(jù)分析師;QilkView[5]是瑞典的一家商業(yè)智能公司推出的集ETL、OLAP分析與數(shù)據(jù)展示為一體的數(shù)據(jù)分析工具,該工具比較靈活,展示樣式多樣,但利用其構(gòu)建報表對開發(fā)人員的技能水平要求很高,且維護成本較高,并不適合大多數(shù)企業(yè);FineBI[6]是國內(nèi)帆軟公司研發(fā)的一款自主BI工具,其面向企業(yè)各個部門提供一套企業(yè)數(shù)據(jù)化管理與可視化BI方案,可有效支持企業(yè)對業(yè)務(wù)數(shù)據(jù)的應(yīng)用。
本文研究基于Apache Superset[7]的商務(wù)智能數(shù)據(jù)可視化問題,并以某手機品牌線上銷售數(shù)據(jù)為例,從不同維度對銷售數(shù)據(jù)進行選擇、過濾與轉(zhuǎn)換,最終以適當方式將結(jié)果呈現(xiàn)出來,從而達到以可視化方式展示數(shù)據(jù)的目的。主要工作分為以下幾個階段:
(1)數(shù)據(jù)準備階段:明確需要哪些商品信息,以及如何獲取真實、有效的商品銷售數(shù)據(jù)。
(2)數(shù)據(jù)提取階段:對于第一步獲取的原始數(shù)據(jù),其格式、結(jié)構(gòu)參差不齊,因此如何對這些數(shù)據(jù)進行清洗、轉(zhuǎn)換并從中提取有效信息,是最為關(guān)鍵,也較為復(fù)雜的一步。
(3)數(shù)據(jù)存儲階段:對提取的原始數(shù)據(jù)進行數(shù)據(jù)清洗處理及格式轉(zhuǎn)換,針對有效數(shù)據(jù)設(shè)計數(shù)據(jù)庫結(jié)構(gòu),建立相應(yīng)數(shù)據(jù)庫,并且能對數(shù)據(jù)庫中存取的數(shù)據(jù)表進行查詢、更新等操作。
(4)數(shù)據(jù)可視化階段:對于不同維度甚至多維度數(shù)據(jù),選擇高效、靈活的可視化方式進行展示,并且在可視化圖表中實現(xiàn)交互,用戶可通過圖表透視數(shù)據(jù)庫具體內(nèi)容。最后,將多個數(shù)據(jù)切片整合到一個可視化儀表盤中。
(5)數(shù)據(jù)分析總結(jié)階段:可視化圖表將數(shù)據(jù)以直觀的方式展現(xiàn)出來,管理者可通過對圖表信息的對照分析,總結(jié)產(chǎn)品銷售情況,并對未來作出合理預(yù)測。
1 相關(guān)技術(shù)基礎(chǔ)
1.1 多維數(shù)據(jù)分析
多維分析是指分析數(shù)據(jù)時將數(shù)據(jù)分為兩種類型:維度與度量[8]。維度即數(shù)據(jù)分析的各個出發(fā)角度,度量即數(shù)據(jù)在各維度上的某類屬性值。對數(shù)據(jù)進行多維分析,第一步要對數(shù)據(jù)進行多維建模,創(chuàng)建多維數(shù)據(jù)庫模型。構(gòu)建多維模型的過程即構(gòu)建多維數(shù)據(jù)庫,多維數(shù)據(jù)庫包括兩類數(shù)據(jù)表:事實表和維度表。例如:查詢公司某產(chǎn)品在某地區(qū)某個時點的銷售額,構(gòu)建多維模型,在其維度產(chǎn)品、地區(qū)與時間的交匯處會有一個度量值銷售額。在圖1中,事實表帶有3個外關(guān)鍵字(FK標記),外關(guān)鍵字即外碼,連接維度表的主關(guān)鍵字。3個維度表可理解為事實表的分割部分,每個維度表都是對一個維度細節(jié)的描述,包含多個維度屬性,并具備較強的維度分析能力。
多維數(shù)據(jù)庫構(gòu)建成功后,必須在該數(shù)據(jù)庫基礎(chǔ)上建立多維視圖,以實現(xiàn)對數(shù)據(jù)的查詢與分析,而數(shù)據(jù)cube (數(shù)據(jù)立方體)提供了數(shù)據(jù)的多維視圖。常見的多維數(shù)據(jù)分析方法包括:數(shù)據(jù)切片/切塊、數(shù)據(jù)鉆取、數(shù)據(jù)旋轉(zhuǎn),可從多個層次對數(shù)據(jù)進行剖析。
1.2 Python網(wǎng)絡(luò)爬蟲
為獲取較大規(guī)模且結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù),可采用爬蟲技術(shù)。若用戶想要獲取網(wǎng)絡(luò)上的數(shù)據(jù),可利用代碼程序模擬瀏覽器請求網(wǎng)絡(luò)站點,站點返回網(wǎng)頁上的html代碼或Json數(shù)據(jù)到本地,根據(jù)需要提取有用的數(shù)據(jù)信息,并存放到數(shù)據(jù)庫中。
Python解析網(wǎng)頁數(shù)據(jù)時,根據(jù)不同數(shù)據(jù)形式選擇不同方法,解析html數(shù)據(jù)采用re模塊的正則表達式或調(diào)用第三方解析庫,解析二進制數(shù)據(jù)可直接以Web方式寫入文件,解析JSON數(shù)據(jù)則調(diào)用JSON模塊。
1.3 Superset可視化
Superset是由Airbnb公司研發(fā)的開源數(shù)據(jù)分析平臺,是一款現(xiàn)代化的企業(yè)級商業(yè)智能Web應(yīng)用程序,其具有十分強大的可視化功能。Superset通過直觀的界面,提供多種可視化方法進行數(shù)據(jù)分析,并創(chuàng)建交互式儀表盤,用戶可深入挖掘與剖析儀表盤中的數(shù)據(jù)。同時,該平臺還集成了一個SQL編輯器,支持多種數(shù)據(jù)庫連接,能夠?qū)Υ笮蛯崟r數(shù)據(jù)集進行快速切片與切割。
Superset可通過連接數(shù)據(jù)庫對數(shù)據(jù)庫中的單個表進行配置,選擇可視化樣式,如基礎(chǔ)的柱狀圖等統(tǒng)計圖樣式,以及詞匯云圖、地圖、熱力圖、樹狀圖等。Superset為數(shù)據(jù)分析人員提供了豐富的可視化圖表,在最新版本中其支持的圖表類型已達到36種,而且在選擇圖表時還可看到每種圖表的縮略圖。圖2展示了部分圖表樣式。
當Superset成功連接數(shù)據(jù)庫后,需要定義可視化所需的表字段信息,Superset對表的定義主要是通過選擇指標(Metric)信息實現(xiàn)的。指標是指對某個字段的統(tǒng)計結(jié)果,如求和、均值、最值等。對數(shù)據(jù)分析人員而言,不是直接在Superset上編輯SQL語句,而是通過選擇指標(Metric)、分組條件(Group)與過濾條件(Filter)制作圖表。在對數(shù)據(jù)庫中的表數(shù)據(jù)進行可視化并形成可視化圖表后,將其保存為切片(Slice)。創(chuàng)建多個用戶切片后,可將多個可視化切片展現(xiàn)在一個儀表盤(Dashboard)上,通過調(diào)整各切片大小和位置,構(gòu)造一個分布合理、外表美觀的儀表盤。每個儀表盤上展示的圖表都對應(yīng)一個數(shù)據(jù)分析主題,如圖3中的世界銀行數(shù)據(jù)統(tǒng)計儀表盤展示了可進行交互式計算的數(shù)據(jù)透視表、時序線型圖、時序面積圖、旭日圖、箱型圖及樹狀圖等。該圖表不僅多層次地展示了數(shù)據(jù)背后隱含的實際意義,同時也極大地豐富了視覺效果,使原本枯燥繁瑣的數(shù)據(jù)變得清晰明了。
2 需求分析
2.1 功能需求分析
2.1.1 產(chǎn)品價格對銷售額的影響
一般而言,影響銷售量的一個重要因素是產(chǎn)品價格,但產(chǎn)品價格對產(chǎn)品銷售量的影響并不是簡單的線性關(guān)系,不是價格越低用戶購買量越高、價格越高購買量越低,消費者追求的通常為性價比。但是針對不同層次的消費者而言,性價比的定義又存在差異。因此,在分析產(chǎn)品價格因素的同時,應(yīng)當綜合考慮定位于不同消費層次產(chǎn)品的購買者因素[10],從這兩個維度進行分析將更為合理。
2.1.2 產(chǎn)品銷售額時序分析
每個產(chǎn)品都存在生命周期,由于消費者消費需求、消費方式、消費心理的變化以及影響市場其它因素導(dǎo)致的商品由盛轉(zhuǎn)衰周期綜短,使得產(chǎn)品銷售額分析變動更加復(fù)雜。產(chǎn)品周期通常分為進入期、成長期、成熟期和衰退期[11]。在生命周期的不同階段,企業(yè)可采取不同措施,以實現(xiàn)產(chǎn)品銷售額最大化。
如在產(chǎn)品進入期,可通過加強新產(chǎn)品宣傳力度,告知消費者該產(chǎn)品優(yōu)勢,以便在產(chǎn)品投入市場時能夠吸引消費者注意;在每年的購物狂歡節(jié)推出產(chǎn)品優(yōu)惠活動,從而提高產(chǎn)品銷售額的飽和度;在產(chǎn)品衰退期分析產(chǎn)品衰退原因或性能缺陷,以便更好地在開發(fā)新產(chǎn)品時對其進行改進。綜合分析華為幾種不同系列手機上市至今的銷售額,并針對店鋪采取的不同措施,分析相關(guān)措施產(chǎn)生的效果,從而為產(chǎn)品未來發(fā)展作好規(guī)劃。
2.1.3 產(chǎn)品配置對銷售額的影響
電子產(chǎn)品最吸引消費者的通常是其硬件條件,對于手機而言主要包括兩個方面:性能和外觀。智能手機性能主要通過以下幾個數(shù)據(jù)指標值體現(xiàn):內(nèi)核數(shù)、運行內(nèi)存、存儲容量、分辨率與攝像頭像素等。同時,外觀也是消費者購買產(chǎn)品時考慮的重要因素之一,不同性別、年齡層次的消費者對于外觀的選擇通常有所區(qū)別,應(yīng)當考慮在同一類型消費群體中消費者更偏愛哪種外型。此外,在購買手機時往往還會涉及一個附加增值保障服務(wù),即手機保險,如全保修兩年、一年碎屏保險等,由于青年消費者往往容易發(fā)生手機碎屏事故,如提前購買碎屏保險,相比更換原裝手機屏幕要劃算很多。所以針對特定消費群體的手機推出此類增值保障服務(wù),一方面考慮了消費者實際需求,另一方面也能夠帶來增值消費,從而使雙方受益。
2.1.4 用戶評價內(nèi)容分析
在信息化時代,各種信息充斥著人們眼球,網(wǎng)購消費者在選購商品時通常會參考其他顧客的評價信息。同樣,對于品牌商家而言,對評論信息進行深入挖掘與分析,一方面可以了解顧客對商品的真實感受,另一方面,評論內(nèi)容在一定程度上可以反映用戶需求,從而使商家能夠更好地把握市場趨勢,生產(chǎn)出令顧客滿意的產(chǎn)品[12]。評論信息往往能反映出用戶對商品、服務(wù)的關(guān)注點及不滿意之處,從情感分析角度可將其分為正面和負面,還可對用戶負面評價信息從細節(jié)粒度上進行分類,例如是對商品某方面不滿意,還是對物流、店鋪服務(wù)態(tài)度等不滿意,從而更加精準地定位需要改進與優(yōu)化之處。但是用戶評價內(nèi)容往往多且雜,如何在相關(guān)數(shù)據(jù)中準確挖掘出有效信息,最直接的方法就是提取關(guān)鍵詞,并統(tǒng)計不同關(guān)鍵詞重復(fù)出現(xiàn)的次數(shù)。某關(guān)鍵詞出現(xiàn)次數(shù)越多,表明用戶對該商品某個屬性或性能關(guān)注度很高,并且針對不同系列商品,相應(yīng)消費群體對商品的關(guān)注點也不同,所以找出這些關(guān)注點是用戶評論內(nèi)容分析的關(guān)鍵。
2.1.5 產(chǎn)品銷售地域數(shù)據(jù)分析
通過對商品訂單地域數(shù)據(jù)進行分析,可以得到不同地域銷售特點,從而實施不同銷售策略。分析該品牌商家在不同城市的訂單金額和訂單數(shù)目,一方面,商品訂單金額可直觀反映某區(qū)域人群的消費水平,訂單金額越大的城市往往消費水平越高,消費者購買能力越強,其在購物時往往很少將價格作為首要考慮因素,而是更加注重商品質(zhì)量與售后服務(wù),因此這類消費者群體通常追求高質(zhì)量的商品。另一方面,電子商務(wù)都涉及產(chǎn)品運輸問題,通過分析商品訂單的地域數(shù)據(jù),有利于品牌商家針對不同地域設(shè)置不同條件以解決物流問題。對于訂單交易額大的區(qū)域,可根據(jù)實際情況合理選擇商品倉庫地點,針對該區(qū)域用戶還可選擇包郵策略或多買多降策略,以此吸引顧客,提高訂單量和消費金額。
2.2 可視化需求分析
2.2.1 氣泡圖
氣泡圖類似散點圖,但與散點圖的不同之處在于氣泡圖中的氣泡有大小和顏色之分,氣泡顏色可以代表一個維度(Series),而氣泡實體(Entity)可以代表該維度下的某個屬性,氣泡大小(Bubble_Size)代表該屬性度量值大小,并且度量值越大,氣泡顏色越深。氣泡圖適用于表述某品牌不同類或不同系列商品的屬性值差異,并且品牌商品越多,數(shù)值型差異越大,氣泡圖中的區(qū)別也更加清晰可見。
2.2.2 南丁格爾玫瑰圖
南丁格爾玫瑰圖將不同顏色的餅狀圖與直方圖相結(jié)合,外形就像一朵綻放的玫瑰,因此稱為“玫瑰圖”。在分析不同系列手機在不同月份的銷售額變化情況時,普通柱狀圖無法給人以直觀感受。南丁格爾玫瑰圖用扇形面積大小代替柱形長度,同時結(jié)合不同月份購物平臺節(jié)日活動對不同消費群體的影響對比,能更好地分析消費者心理,針對不同消費群體開展促銷活動,從而吸引更多消費者。
2.2.3 旭日圖
旭日圖是一種現(xiàn)代餅圖,其超越了傳統(tǒng)餅圖和環(huán)圖,能明確表達層級與歸屬關(guān)系,并以父子結(jié)構(gòu)顯示數(shù)據(jù)構(gòu)成情況,又稱為“太陽圖”。越靠近圖中心則表示范圍更大、等級更高,通常相鄰兩層是內(nèi)層包含外層的關(guān)系。在很多實際應(yīng)用場景中都適合使用旭日圖,如在銷售匯總中展示不同區(qū)域各種產(chǎn)品的銷售信息等。
在分析消費者對手機性能與外觀的喜好時,由于涉及兩個類別,而這兩個類別又存在相互包含的關(guān)系,手機內(nèi)存屬性下包含各種不同顏色,同時也可以理解為各顏色都配有不同內(nèi)存大小的手機。由于手機內(nèi)存大小通常只包括32G、64G、128G,故選擇手機內(nèi)存大小為內(nèi)環(huán)數(shù)據(jù),外環(huán)數(shù)據(jù)表示手機顏色屬性。此外,不同系列手機通常針對不同消費群體,對不同系列手機通過旭日圖進行分析對比,可看出不同消費群體對手機性能配置與手機外觀的喜好,從而可根據(jù)消費群體的不同特點考慮兩者之間的取舍,使手機的設(shè)計更加個性化。旭日圖不僅能清晰、明確地表達數(shù)據(jù)結(jié)構(gòu),同時相比于傳統(tǒng)餅圖與環(huán)形圖,其圖表效果更加美觀。
2.2.4 詞云圖
詞云圖也稱為文字云,用于處理復(fù)雜的文本數(shù)據(jù),并對其中的關(guān)鍵詞按詞頻高低進行可視化展示。詞云分析可過濾掉大量低頻且無關(guān)的信息,使用戶能夠清晰看到文本數(shù)據(jù)主要傳達的信息。詞云圖最常用于對大量文本信息的發(fā)掘分析,如對熱門文章進行分類統(tǒng)計,通過詞云圖可以看出近期文章的熱點話題,或?qū)δ尘W(wǎng)站購物平臺的產(chǎn)品名詞匯總后進行詞云分析,可以得出熱銷商品等。詞云中詞匯有大小與顏色兩個特征屬性,關(guān)鍵詞的詞頻越高,顏色越醒目、詞匯越大。
詞云圖也可適用于分析手機用戶評價信息,用戶更多的是關(guān)心該款手機運行速度、內(nèi)存大小,還是外觀形狀,對手機的使用評價是正面肯定還是缺點吐槽等,相關(guān)信息有助于品牌商家未來對產(chǎn)品的改進與優(yōu)化。
2.2.5 國家地圖
分析商品在不同城市的銷售額,人們大多數(shù)時候最先考慮的是柱狀圖,由柱形長度表示銷售額高低,能直觀地看出不同區(qū)域的銷售差異。但是數(shù)據(jù)可視化并不僅是統(tǒng)計圖表,可視化是借助圖形方式展現(xiàn)某一事物的邏輯規(guī)律[13],分析商品銷往地更重要的是了解某區(qū)域銷售情況,如國內(nèi)的沿海城市、中部地區(qū)、西北地區(qū)等區(qū)域,商品在不同地區(qū)的銷售額一定程度上反映了該地區(qū)經(jīng)濟水平。Superset提供了國家地圖圖表功能,地圖上的顏色深淺代表商品度量值大小,由于在地圖上數(shù)據(jù)指標(Metric)可以根據(jù)需要進行選擇,指標為訂單數(shù)目時為不同地區(qū)銷售額差異,國家地圖在分析此類區(qū)域性數(shù)據(jù)時更為清晰、直觀。
3 可視化過程設(shè)計與實現(xiàn)
3.1 概述
本文基于ubuntu系統(tǒng)進行設(shè)計,利用Python獲取并處理網(wǎng)絡(luò)訂單交易數(shù)據(jù)后存入MySQL數(shù)據(jù)庫,將數(shù)據(jù)庫與Superset可視化工具連接,從而在Superset上實現(xiàn)對數(shù)據(jù)庫表的可視化投影,最終得到儀表盤如圖4所示。
3.2 數(shù)據(jù)獲取與處理
本文的數(shù)據(jù)可視化研究以華為手機線上銷售數(shù)據(jù)為例,由數(shù)據(jù)信息可知,華為手機分為4個系列:Mate系列、P系列、暢想系列以及Nova系列,4個系列又分別包含不同機型,如P系列的P10、P20等機型共18種,可以通過數(shù)據(jù)統(tǒng)計、網(wǎng)絡(luò)爬蟲及商家訂單報表等途徑獲取18種手機的銷售信息。
獲取源數(shù)據(jù)后,在其中提取所需信息,如在進行銷售額時序分析時,通過對訂單時間的統(tǒng)計,以月份為單位觀察銷售額變化情況,再存入相應(yīng)數(shù)據(jù)庫中用于可視化。
3.3 可視化實現(xiàn)及結(jié)果分析
3.3.1 商品價格對銷售額影響氣泡圖
根據(jù)氣泡圖的3個屬性Series、Entity、Bubble_Size,建立bubble數(shù)據(jù)庫,3個列屬性分別對應(yīng)手機系列、手機名稱、銷售額。將價格—銷售額數(shù)據(jù)表導(dǎo)入Superset后進入可視化界面,選擇可視化圖表類型(Visualization Type)為氣泡圖,設(shè)置Series屬性為手機系列,Entity為手機具體機型,氣泡尺寸表示總銷售額,同時設(shè)置x軸為商品價格,y軸為銷售額,點擊查詢即可生成氣泡圖,如圖7所示。
華為品牌旗下手機分為4個系列:Mate系統(tǒng)、P系列、Nova系列以及暢想系列[14],其中Mate系列主攻高端、商務(wù)續(xù)航,屏幕大,續(xù)航時間長,目標群體為中年商務(wù)人士;P系列稍遜于Mate系列,主攻拍照技術(shù)以及創(chuàng)新軟件,以吸引年輕消費者,目標群體為年輕商務(wù)人士;Nova系列價格中等,主攻拍照技術(shù)與外型設(shè)計,目標群體為普通年輕群體;暢想系列價格實惠、性價比高,適用于中老年群體。
結(jié)合上述信息分析氣泡圖可得出,對于不同消費群體,銷售額隨價格變化情況也不同,有的價格高購買量多,有的價格低反而購買量多,這是由于不同消費習(xí)慣與消費心理決定的。因此,面對不同消費群體,應(yīng)當采取不同策略,以推出最適合該群體的消費產(chǎn)品。
3.3.2 商品銷售額時序分析玫瑰圖
南丁格爾玫瑰圖中列出了3款手機在2017年3月~2018年3月期間不同月份的銷售額,因此需要分別獲取3款手機的銷售數(shù)據(jù)。網(wǎng)購商品銷售額即商品用戶評價數(shù)目,只有用戶購買并使用了該款產(chǎn)品才能夠作出評價。在用戶評價頁面有購買時間記錄,該數(shù)據(jù)類型為datetime,格式為年-月-日-時-分-秒,因此一個購買時間記錄可以代表一個訂單,只要統(tǒng)計出不同月份的購買時間記錄數(shù)量總和即為該月銷售額。
玫瑰圖展示的是2017年3月~2018年3月期間3款手機的銷售額變化情況,這3款手機都是2017年3月上市,從圖中可得出以下信息:首先從整體上看,在2017年11月、2018年2月以及2018年3月銷售額較高,而這3個月份剛好是雙11和春節(jié)期間,春節(jié)期間銷售額達到最高,反而在新品上市期間銷售量較少。同時,圖中深藍色部分面積最大,表示Mate9型號手機銷量最高。華為手機給大眾的感覺是“沉穩(wěn)、低調(diào)”,這也符合其主要目標群體中年商務(wù)人士的形象定位。對于Pro10和暢想6s兩款手機,銷售額一直保持平穩(wěn),但Pro10在11月份銷量出現(xiàn)大幅增長,主要由于雙11活動期間最活躍的消費群體是年輕消費者;暢想6s手機僅在春節(jié)期間銷量增長,符合中老年群體的消費習(xí)慣。根據(jù)以上信息,商家可以在不同節(jié)日有針對性地開展促銷活動,才能實現(xiàn)銷售額最大化。
3.3.3 商品銷售額配置分析旭日圖
旭日圖對應(yīng)數(shù)據(jù)表信息包括手機顏色、內(nèi)存大小與銷售額。圖9中的3張旭日圖分別是Mate9、Pro10以及暢想6s手機的購買量分布情況。從內(nèi)存大小維度看,Mate系列手機的128G大內(nèi)存機型購買量較多,Pro系列中64G機型占絕大多數(shù),而暢想系列幾乎都為普通版(32G);從外觀顏色維度看,Mate系列主流顏色為金色和灰色,Pro系列手機顏色較為豐富,藍色、黑色、金色等5種顏色銷量分布均勻,而暢想系列金色手機的銷量占絕大部分。從上述數(shù)據(jù)可以看出,Mate系列手機用戶多選擇內(nèi)存大、顏色大氣的機型,Pro系列手機用戶追求時尚、配置要求中等,暢想系列手機用戶大多追求性價比,對外型和內(nèi)存要求不高。
3.3.4 商品評論內(nèi)容詞云圖
從源數(shù)據(jù)圖可以看出,用戶評論信息內(nèi)容多且詞匯多樣,需對詞匯進行中文分詞。中文分詞是將漢字序列切分為一個個單獨詞匯,Python提供jieba模塊用于對文本數(shù)據(jù)進行分詞[15],但該分詞方式效果不佳,分詞結(jié)果中會出現(xiàn)部分無用信息,且有些特定詞組被拆分,故需要為jieba模板加載自定義詞典和停用詞表。自定義詞典包含jieba詞庫中不存在的詞,如“創(chuàng)新軟件”、“指紋解鎖”等新詞匯,以保證分詞準確率。停用詞是指在分詞過程中希望能自動過濾掉的詞匯,如“一天”、“時間”等無實際意義的詞匯,以確保分詞得出的關(guān)鍵詞更加符合需求。
采用Superset分別對3款手機的評論信息進行詞云圖可視化,對比圖11中的3張圖,可看出用戶的不同需求與使用產(chǎn)品的真實感受。從圖中可以看出,Mate手機用戶對手機續(xù)航、拍照、質(zhì)量要求較高,手機使用評價為“大氣”、“流暢”,還可以看到“老公”詞匯頻率也較高,表明多數(shù)情況是女性為其工作的丈夫選購;Pro手機云圖中,“外觀”、“時尚”、“指紋解鎖”字眼醒目,符合年輕消費者對手機的需求,Pro系列手機的“指紋解鎖”、“創(chuàng)新軟件”等特點也得到了用戶的重點關(guān)注;由暢想系列手機詞云圖可以看到,“性價比”是用戶關(guān)心的主要方面,其次“質(zhì)量”、“實惠”符合中老年群體消費特點。從用戶評價信息可以得出未來產(chǎn)品的發(fā)展定位,以及不同系列產(chǎn)品的優(yōu)化重點。
3.3.5 商品銷售城市分布圖
Superset提供的城市分布圖可更直觀地反應(yīng)不同區(qū)域銷售額,從商家報表中的用戶地址中提取省份名稱,并將其轉(zhuǎn)換為對應(yīng)序列號,最后生成城市地圖。
從銷售額城市分布圖可以得出,沿海地區(qū)的浙江、江蘇、上海、廣東以及北京5個省份(城市)的訂單數(shù)量最多,其次是福建、四川、重慶以及東北地區(qū),中部地區(qū)訂單數(shù)量一般,最少的是西北地區(qū),因此可根據(jù)不同地域的銷售特點實施不同銷售策略。發(fā)達城市客戶購買能力強,可以針對相關(guān)群體采取網(wǎng)購包郵策略,以進一步提高訂單數(shù)量;對于其它城市,則可以通過降低商品價格以吸引客流。這里的降低商品價格并不是單純降低單個商品價格,而是可以采取多買多降策略,以提高消費總量。網(wǎng)購平臺并不能只依靠一線城市的消費群體支撐,其它城市的銷量也是需要重點關(guān)注的,所以應(yīng)當針對不同區(qū)域消費者特點實施差異化的銷售策略。
4 結(jié)語
商務(wù)智能在如今的商業(yè)決策領(lǐng)域發(fā)揮著越來越重要的作用,繼數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘等技術(shù)的廣泛應(yīng)用之后,數(shù)據(jù)可視化技術(shù)也開始應(yīng)用于商務(wù)智能領(lǐng)域。數(shù)據(jù)可視化技術(shù)可幫助企業(yè)管理者更加清晰、直觀地理解企業(yè)數(shù)據(jù),掌握企業(yè)發(fā)展趨勢,以便作出關(guān)鍵決策。
本文的數(shù)據(jù)可視化研究是基于Apache Superset這一強大的可視化工具完成的,但Superset在處理結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)信息方面仍存在一些不足,其提供的可視化模型并不能完全滿足商業(yè)數(shù)據(jù)信息可視化需求。同時,在數(shù)據(jù)可視化過程中,從數(shù)據(jù)信息的采集、存儲,到分析、處理及可視化,每個階段都需要人工進行處理,無疑大大增加了數(shù)據(jù)分析人員的工作量。因此,針對特定的數(shù)據(jù)分析工作,應(yīng)當將相關(guān)大數(shù)據(jù)技術(shù)進行系統(tǒng)化,建立智能化的信息集成控制平臺,將數(shù)據(jù)處理工作全部交由系統(tǒng)完成,從而提高數(shù)據(jù)管理工作效率,實現(xiàn)企業(yè)信息數(shù)據(jù)資源利用的最大化。
參考文獻:
[1] 史啟民,李東輝,何鵬. 大數(shù)據(jù)可視化技術(shù)在智能化行業(yè)中的應(yīng)用[J].軟件應(yīng)用,2017(30): 19-21.
[2] 陳紅軍. 商務(wù)智能基于大數(shù)據(jù)的有效決策[J]. 企業(yè)管理,2018(4):101-103.
[3] 陸遙. 數(shù)據(jù)可視化探索系統(tǒng)的設(shè)計和實現(xiàn)[D]. 杭州:浙江大學(xué),2016.
[4] 蔣曉宇. 基于Tableau的可視化業(yè)務(wù)報表的設(shè)計與實現(xiàn)[J]. 數(shù)字通信世界,2017(2):230-231.
[5] 畢萬林. 基于BI的電信經(jīng)營分析系統(tǒng)報表工具[D]. 大連:大連交通大學(xué),2013.
[6] 柏茂源,代福平. 數(shù)據(jù)可視化在電子商務(wù)大數(shù)據(jù)領(lǐng)域的應(yīng)用研究[J]. 藝術(shù)與設(shè)計:理論, 2017(3):76-78.
[7] 何雪瑩. 探索性數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 成都:西南交通大學(xué),2017.
[8] 楊倩雯. 商務(wù)智能主要技術(shù)的發(fā)展和應(yīng)用[J]. 信息技術(shù),2015(8):24-25.
[9] 郝希亮,張海鵬. 基于Web的多維數(shù)據(jù)可視化系統(tǒng)設(shè)計[J]. 軟件導(dǎo)刊,2018,17 (8): 133-136.
[10] 劉志超,陳勇,姚志立. 大數(shù)據(jù)時代的電子商務(wù)服務(wù)模式革新[J]. 科技管理研究, 2014, 34(1):31-34.
[11] 王茜, 錢力. 大數(shù)據(jù)環(huán)境下電子商務(wù)個性化推薦服務(wù)發(fā)展動向探析[J]. 商業(yè)研究, 2014(8):150-154.
[12] 董艷,高健飛. 大數(shù)據(jù)時代下如何打造個性化的商務(wù)智能實踐[J]. 科技資訊,2015,27(18):18-19.
[13] 崔迪,郭小燕,陳為. 大數(shù)據(jù)可視化的挑戰(zhàn)與最新進展[J]. 計算機應(yīng)用, 2017(7):226-231,238.
[14] 籍瑞華. 華為手機的定價戰(zhàn)略簡析[J]. 新商務(wù)周刊,2018(7):151.
[15] 林川,王小華. 基于ERP的商務(wù)智能系統(tǒng)設(shè)計與應(yīng)用[J]. 航空制造技術(shù),2014(8):113-117.
(責(zé)任編輯:黃 健)