国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的電商大數(shù)據(jù)可視化設(shè)計(jì)與實(shí)現(xiàn)

2023-10-27 00:50:27李威邱永峰
現(xiàn)代信息科技 2023年17期
關(guān)鍵詞:可視化分析

李威 邱永峰

摘? 要:為滿足眾多電商對(duì)電商大數(shù)據(jù)可視化的迫切需求,基于Hadoop開(kāi)源大數(shù)據(jù)處理平臺(tái),依托FineBi大數(shù)據(jù)分析工具設(shè)計(jì)一款大數(shù)據(jù)可視化分析系統(tǒng),該系統(tǒng)可提供數(shù)據(jù)預(yù)處理、存儲(chǔ)、分析、可視化等一整套流程。測(cè)試結(jié)果表明,該系統(tǒng)能夠?qū)崿F(xiàn)電商大數(shù)據(jù)的可視化分析,可為用戶提供高效、實(shí)用的信息處理,為其未來(lái)的業(yè)務(wù)經(jīng)營(yíng)指明方向,提高店鋪運(yùn)營(yíng)效率。

關(guān)鍵詞:Hadoop;Hive;HDFS;可視化分析;電商大數(shù)據(jù)

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)17-0046-04

Design and Implementation of E-commerce Big Data Visualization Based on Hadoop

LI Wei1, QIU Yongfeng2

(1.College of Computer Science, Hunan University of Technology, Zhuzhou? 412007, China;

2.Hunan Tianqiao Jiacheng Intelligent Technology Co., Ltd., Zhuzhou? 412007, China)

Abstract: To meet the urgent demand for E-commerce big data visualization in many E-commerce platforms, a big data visualization analysis system is designed based on the Hadoop open-source big data processing platform and FineBi big data analysis tool. The system can provide a complete set of processes such as data preprocessing, storage, analysis, and visualization. The test results indicate that the system can achieve visual analysis of E-commerce big data, provide efficient and practical information processing for users, point out the direction for their future business operations, and improve store operation efficiency.

Keywords: Hadoop; Hive; HDFS; visualization analysis; E-commerce big data

0? 引? 言

隨著信息技術(shù)的快速發(fā)展,目前的數(shù)據(jù)量呈幾何級(jí)增長(zhǎng)[1]。中國(guó)信息通信研究院于2023年1月4日發(fā)布的《大數(shù)據(jù)白皮書(shū)》中顯示,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模高速增長(zhǎng),2021年增加到了1.3萬(wàn)億元,復(fù)合增長(zhǎng)率超過(guò)30%。與此同時(shí),電商領(lǐng)域產(chǎn)生的數(shù)據(jù)也不斷增長(zhǎng)[2],越來(lái)越多的電商企業(yè)和組織意識(shí)到大數(shù)據(jù)的重要性。然而,電商大數(shù)據(jù)的處理和分析面臨著諸多挑戰(zhàn),其中迫切需要解決的問(wèn)題是如何將復(fù)雜海量的電商大數(shù)據(jù)通過(guò)可視化的方式進(jìn)行呈現(xiàn)和分析。大數(shù)據(jù)可視化是一種通過(guò)圖形化方式呈現(xiàn)大數(shù)據(jù)的技術(shù),幫助用戶發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律和趨勢(shì)[3],文章使用此技術(shù)提高電商領(lǐng)域數(shù)據(jù)分析的準(zhǔn)確性和效率。

在大數(shù)據(jù)可視化方面,Hadoop分布式計(jì)算平臺(tái)[4,5]是最近興起的熱門(mén)工具,具有高效率、高可靠性和可擴(kuò)展性的特點(diǎn)[6,7],同時(shí)支持大規(guī)模的數(shù)據(jù)挖掘和分析[8]。因此,文章基于Hadoop分布式計(jì)算平臺(tái),設(shè)計(jì)和實(shí)現(xiàn)了一種電商大數(shù)據(jù)可視化分析方案。

1? 技術(shù)分析

1.1? Hadoop平臺(tái)核心技術(shù)

Hadoop是一個(gè)開(kāi)源的分布式計(jì)算框架,旨在處理大規(guī)模數(shù)據(jù)集,其核心是分布式文件系統(tǒng) (Hadoop Distributed File System, HDFS)和Map Reduce(并行處理架構(gòu))。要實(shí)現(xiàn)電商數(shù)據(jù)可視化,除了Hadoop本身的核心框架(HDFS+Map Reduce),還需要Hive數(shù)據(jù)倉(cāng)庫(kù)工具和FineBi大數(shù)據(jù)分析工具的協(xié)同配合。

1.2? FineBi數(shù)據(jù)分析工具

FineBi是一款國(guó)產(chǎn)的數(shù)據(jù)分析工具,能夠?qū)υ紨?shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、加載,通過(guò)豐富的圖表進(jìn)行展示,并且能為用戶提供可交互的處理模式。本系統(tǒng)將根據(jù)應(yīng)用場(chǎng)景,將前期電商大數(shù)據(jù)處理的結(jié)果,采用FineBi進(jìn)行可視化展示,以直觀、易懂的方式展示這些信息。

本系統(tǒng)中電商大數(shù)據(jù)可視化的處理流程如下:第一,采集數(shù)據(jù)并導(dǎo)入到HDFS中;第二,通過(guò)Hive數(shù)據(jù)倉(cāng)庫(kù)工具進(jìn)行數(shù)據(jù)處理;第三,對(duì)數(shù)據(jù)進(jìn)行篩選、預(yù)處理等,并將結(jié)果數(shù)據(jù)存入數(shù)據(jù)庫(kù);第四,對(duì)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),導(dǎo)入到FineBi大數(shù)據(jù)分析工具中實(shí)現(xiàn)電商大數(shù)據(jù)的圖表或動(dòng)畫(huà)模式呈現(xiàn)。

2? 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2.1? 系統(tǒng)設(shè)計(jì)流程與核心需求

電商大數(shù)據(jù)可視化是基于電商企業(yè)的業(yè)務(wù)數(shù)據(jù)構(gòu)建的,需要先將數(shù)據(jù)進(jìn)行采集和處理,存儲(chǔ)到分布式數(shù)據(jù)庫(kù)中,再把分散的數(shù)據(jù)集成到Hadoop集群中,完成初始數(shù)據(jù)收集。根據(jù)可視化需求構(gòu)建數(shù)據(jù)空間,并以此搭建Hive預(yù)處理數(shù)據(jù)庫(kù),將數(shù)據(jù)加載到便于檢索、查詢的Hive數(shù)據(jù)庫(kù)中,然后利用類(lèi)SQL語(yǔ)句對(duì)數(shù)據(jù)進(jìn)行查詢分析,并將查詢結(jié)果存入HBase數(shù)據(jù)庫(kù)中,接下來(lái)將相應(yīng)的查詢結(jié)果與可視化的設(shè)計(jì)主題相結(jié)合,構(gòu)造相應(yīng)的數(shù)據(jù)庫(kù)、數(shù)據(jù)表以便展示,最后使用FineBi可視化分析工具對(duì)分析模型進(jìn)行圖形可視化呈現(xiàn)。

2.2? Hadoop平臺(tái)的搭建及處理

采用集群模式安裝部署Hadoop,這種模式也叫作分布式模式,具體的工作流程如下:

1)集群角色規(guī)劃。根據(jù)軟件工作特性和服務(wù)器硬件資源情況合理分配,比如依賴內(nèi)存工作的NameNode應(yīng)該部署在大內(nèi)存機(jī)器上;資源上有搶奪沖突的,盡量不要部署在一起;工作上需要互相配合的,盡量部署在一起。

2)服務(wù)器基礎(chǔ)環(huán)境準(zhǔn)備。多臺(tái)機(jī)器構(gòu)成的集群,相互之間的防火墻應(yīng)該關(guān)閉,因?yàn)樵趦?nèi)網(wǎng)或者局域網(wǎng)環(huán)境當(dāng)中,如果將防火墻打開(kāi),許多端口將會(huì)被屏蔽,分布式軟件之間通信會(huì)中斷,為了防止通信中斷,我們需要將每個(gè)節(jié)點(diǎn)的防火墻都關(guān)閉。除此之外,還需要對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行時(shí)間同步,如果節(jié)點(diǎn)之間時(shí)間不同將會(huì)導(dǎo)致一些不必要的錯(cuò)誤。至此完成服務(wù)器基礎(chǔ)環(huán)境準(zhǔn)備。

3)上傳安裝包,配置環(huán)境變量。本系統(tǒng)選擇的是JDK 1.8版本的安裝包,上傳之后配置好環(huán)境變量,使得在任何環(huán)境下都可以使用相關(guān)命令。之后上傳、解壓Hadoop安裝包,選擇的是Hadoop 3.3.0版本的安裝包,解壓完之后編輯、配置Hadoop環(huán)境變量。

當(dāng)配置好之后,輸入命令start-all.sh,啟動(dòng)Hadoop集群,一個(gè)命令即可啟動(dòng)DataNode、NodeManager、NameNode和ResourceManager,這樣Hadoop集群就啟動(dòng)成功了。使用jps命令驗(yàn)證Hadoop集群是否成功啟動(dòng),如圖1所示,Hadoop集群運(yùn)行成功。

2.3? Hive數(shù)據(jù)倉(cāng)庫(kù)的搭建及處理

Hive是一款基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)軟件,通常部署運(yùn)行在Linux系統(tǒng)之上,在啟動(dòng)Hive之前必須先啟動(dòng)Hadoop集群。

1)安裝MySQL數(shù)據(jù)庫(kù)。因?yàn)檫@里采用遠(yuǎn)程模式,不再使用內(nèi)置的Derby,而是使用數(shù)據(jù)庫(kù)進(jìn)行元數(shù)據(jù)的存儲(chǔ)。在這里MySQL只需要在一臺(tái)機(jī)器中安裝即可,不需要每臺(tái)機(jī)器都安裝,通過(guò)Hadoop集群共享資源。安裝好MySQL之后,就可以上傳解壓Hive安裝包。

2)安裝Hive。同樣的,Hive不需要在每臺(tái)機(jī)器中都安裝,只需要在集群當(dāng)中挑選一臺(tái)安裝即可,因?yàn)镠ive雖然本身不是分布式的軟件,但是卻具有分布式的能力。

3)啟動(dòng)Hive。當(dāng)配置好Hive之后,啟動(dòng)Hive,這里使用遠(yuǎn)程模式,不能自動(dòng)啟動(dòng),需要單獨(dú)啟動(dòng),Hadoop官方提供了兩種啟動(dòng)方式,一種為前臺(tái)啟動(dòng),另一種為后臺(tái)啟動(dòng)。所謂前臺(tái)啟動(dòng),啟動(dòng)之后進(jìn)程會(huì)一直占據(jù)終端,使用“ctrl+c”可以結(jié)束進(jìn)程、關(guān)閉服務(wù),使用此種方法可以獲取詳細(xì)日志信息,便于排錯(cuò)。后臺(tái)啟動(dòng)不會(huì)占據(jù)終端,啟動(dòng)方式也更加簡(jiǎn)單,在一般情況下使用后臺(tái)啟動(dòng)的方式來(lái)啟動(dòng)Hive,其命令為:

nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore&

nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &

4)對(duì)數(shù)據(jù)進(jìn)行操作。在Hive數(shù)據(jù)倉(cāng)庫(kù)中,最底層便是每個(gè)數(shù)據(jù)表中的記錄,比如訂單記錄、消費(fèi)記錄等,在數(shù)據(jù)表的上面便是數(shù)據(jù)庫(kù)。啟動(dòng)Hive后,使用Hive對(duì)各個(gè)數(shù)據(jù)庫(kù)進(jìn)行增刪改查。雖然可以直接在Hive自帶的客戶端beeline中對(duì)數(shù)據(jù)進(jìn)行操作,但在實(shí)際的開(kāi)發(fā)環(huán)境當(dāng)中,一般會(huì)選擇Hive的第三方可視化客戶端,主流的有DataGrip、Dbeaver、SQL Client等,這些軟件都可以在Windows、Mac平臺(tái)上運(yùn)行,通過(guò)JDBC協(xié)議訪問(wèn)HiveServer2服務(wù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的操作。這類(lèi)第三方可視化客戶端相比于Hive自帶的客戶端beeline,操作更加簡(jiǎn)潔,智能化程度更高。

2.4? 上傳數(shù)據(jù)至HDFS

開(kāi)啟Hadoop集群后,在瀏覽器中輸入node1:9870,即可打開(kāi)HDFS的Web界面,從而可以上傳符合要求的輸入數(shù)據(jù)。

2.5? 數(shù)據(jù)可視化分析

本文使用FineBi可視化分析工具進(jìn)行圖像繪制。同時(shí),為了滿足某些特殊需求,在可視化工具無(wú)法實(shí)現(xiàn)的情況下,可以采用自定義的可視化算法去實(shí)現(xiàn)。其中大數(shù)據(jù)分析流程部分如圖2所示。

整個(gè)可視化分析具體步驟如下:

1)鏈接Hive,并獲取數(shù)據(jù),根據(jù)具體可視化需求,通過(guò)類(lèi)SQL語(yǔ)句查詢數(shù)據(jù)。

2)根據(jù)可視化需求,利用相關(guān)數(shù)據(jù)庫(kù)表和數(shù)據(jù)集得到樣本相關(guān)信息并繪制圖表,從而進(jìn)行可視化展示。

下面分析某電商網(wǎng)站數(shù)據(jù):

1)每年的下單總金額分析,操作原理是從eCommerce_msg.tb_msg_etl表中選取每天的下單金額,以年為分組進(jìn)行求和,其命令操作如下所示:

create table if not exists tb_rs_total_amount_sum

comment "每年總下單金額"

as

select

yearInfo,

sum(order_amount) as order_amount_sum

from eCommerce_msg.tb_msg_etl

group by yearInfo;

分析結(jié)果如圖3所示。

從圖中可以看出,該網(wǎng)站在19年下單總金額暴增,大約是18年的三倍,到了20年銷(xiāo)量較為平緩,且有輕微下降趨勢(shì)。

2)每月客單價(jià)分析,操作原理是從eCommerce_msg.tb_msg_etl表中選取每天的客單價(jià),以月為分組求平均值,選取數(shù)據(jù)的年份為2020年,其命令操作如下:

create table if not exists per_ticket_2020

comment "2020年每月的客單價(jià)"

as

select

monthInfo,

round(avg(per_ticket),2) as per_ticket_month

from eCommerce_msg.tb_msg_etl

where (yearInfo) = "2020"

group by monthInfo;

分析結(jié)果如圖4所示。

從圖中可以看到,客單價(jià)在第一個(gè)月是最高的,后續(xù)較為平緩,且在年末有回升跡象。

3)每月的成交金額統(tǒng)計(jì),操作原理是從eCommerce_msg.tb_msg_etl表中選取每天的成交金額,以月為分組求和,選取數(shù)據(jù)的年份為2020年,關(guān)鍵代碼為:round(sum(amount),2) as amount_month_sum

分析結(jié)果如圖5所示。從圖中可以看出,銷(xiāo)售金額在第一個(gè)月也是最高的,并且遠(yuǎn)遠(yuǎn)高于其他月份的銷(xiāo)量。

4)商品銷(xiāo)售種類(lèi)分析,操作原理是從eCommerce_msg.tb_msg_etl表中選取每天銷(xiāo)售商品的類(lèi)型和數(shù)量求和,利用FineBi設(shè)置銷(xiāo)售量多的商品類(lèi)型進(jìn)行放大顯示,銷(xiāo)售量少的商品類(lèi)型縮小顯示。選取的年份為2020年。詞云圖如圖6所示。

從商品銷(xiāo)售種類(lèi)詞云圖中可以直觀地看出,“食品”“家電”“內(nèi)衣”“家居”和“男裝”等詞語(yǔ)最為突出,表明用戶在該電商網(wǎng)站最喜歡購(gòu)置這些物品。結(jié)合每年下單總金額、客單價(jià)以及每月成交金額的可視化分析,買(mǎi)方和賣(mài)方可以實(shí)時(shí)監(jiān)控產(chǎn)品情況,商家可以根據(jù)清晰的可視化圖像和曲線,適時(shí)制定促銷(xiāo)活動(dòng)或優(yōu)惠政策,消費(fèi)者也可以根據(jù)這些可視化圖表,在合適的時(shí)機(jī)購(gòu)買(mǎi)所需商品。

3? 結(jié)? 論

本論文研究基于Hadoop的電商大數(shù)據(jù)可視化設(shè)計(jì)與實(shí)現(xiàn)。提出了一種基于Hadoop的電商大數(shù)據(jù)可視化分析框架,并在實(shí)驗(yàn)中對(duì)該框架進(jìn)行了驗(yàn)證。使用Hadoop技術(shù)框架及其組件對(duì)大規(guī)模的電商數(shù)據(jù)集進(jìn)行了處理和分析,并使用了FineBi可視化工具將數(shù)據(jù)可視化。結(jié)果顯示,本論文設(shè)計(jì)的框架可以有效地幫助用戶從大量的電商數(shù)據(jù)中挖掘出有價(jià)值的信息,并以直觀、易懂的圖表方式展示。

參考文獻(xiàn):

[1] 李大洲.基于大數(shù)據(jù)的用戶行為日志系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].南京:南京郵電大學(xué),2020.

[2] 陳娥祥.基于Hadoop電商大數(shù)據(jù)的挖掘與分析技術(shù)研究 [J].科技經(jīng)濟(jì)市場(chǎng),2021(1):7-9.

[3] 張晴峰.基于Hadoop的大學(xué)圖書(shū)館服務(wù)平臺(tái)設(shè)計(jì) [J].科學(xué)技術(shù)創(chuàng)新,2021(23):83-84.

[4] 袁愛(ài)平,陶志勇,鄧河,等.云計(jì)算環(huán)境中HDFS數(shù)據(jù)塊存儲(chǔ)策略研究 [J].電腦知識(shí)與技術(shù),2020(26):33-35.

[5] 秦東旭,徐瑾,呂明,等.基于 Hadoop 的用戶行為數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì) [J].工業(yè)控制計(jì)算機(jī),2019(10):137-138.

[6] COHEN J,DOLAN B,DUNLAP M,et al. MAD skills: new analysis practices for big data [J].Proceedings of the VlDB Endowment,2009,2(2):1481-1492.

[7] 王電輕.基于hadoop的網(wǎng)站用戶行為分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].北京:中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2016.

[8] 童瑩,楊貞卓.Hadoop和Spark在Web系統(tǒng)推薦功能中的應(yīng)用 [J].現(xiàn)代信息科技,2020,4(19):87-89.

作者簡(jiǎn)介:李威(1999—),男,漢族,湖南岳陽(yáng)人,研究生在讀,研究方向:工業(yè)大數(shù)據(jù);通訊作者:邱永峰(1985—),男,漢族,湖南婁底人,高級(jí)工程師,博士,研究方向:工業(yè)大數(shù)據(jù)、控制系統(tǒng)、智能制造等。

猜你喜歡
可視化分析
高校學(xué)生管理法治化研究:基于CiteSpace的可視化分析
高校學(xué)生管理法治化研究:基于CiteSpace的可視化分析
我國(guó)職業(yè)教育師資研究熱點(diǎn)可視化分析
職教論壇(2016年26期)2017-01-06 19:04:59
聲波吹灰技術(shù)在SCR中的應(yīng)用研究
科技傳播(2016年19期)2016-12-27 16:18:28
可視化分析技術(shù)在網(wǎng)絡(luò)輿情研究中的應(yīng)用
國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
肥东县| 沽源县| 萝北县| 泽州县| 林周县| 江永县| 泰宁县| 合作市| 洮南市| 罗山县| 额尔古纳市| 新野县| 武定县| 八宿县| 武胜县| 九龙县| 犍为县| 自贡市| 綦江县| 海口市| 绥化市| 吴旗县| 龙州县| 昌黎县| 绿春县| 赣榆县| 内江市| 论坛| 沂南县| 凯里市| 河津市| 即墨市| 万源市| 兴隆县| 宝应县| 进贤县| 阜阳市| 惠来县| 宁远县| 南平市| 徐水县|