国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在跨境電商客戶特征分析中的應用

2021-07-19 21:41:44孫海波
電腦知識與技術(shù) 2021年15期
關(guān)鍵詞:跨境電子商務(wù)特征分析數(shù)據(jù)挖掘

孫海波

摘要:近些年來,經(jīng)濟全球化程度逐步加深,互聯(lián)網(wǎng)信息技術(shù)迅速發(fā)展,跨境電子商務(wù)已然變成了中外貿(mào)易的新增長點。同時,在跨境電商平臺上,銷售的商品日益豐富。對于消費者來說,要在這么海量的商品里面,選擇符合他需求的商品是一個普遍存在的問題困境。通過統(tǒng)計分析和挖掘跨境電商客戶自身的一些屬性特征和其購買的商品的一些屬性特征,為跨境電商企業(yè)的營銷策略和物流布局提供參考,幫助消費者快速挑選到滿意的商品。

關(guān)鍵詞:數(shù)據(jù)挖掘; 跨境電子商務(wù); 特征分析; Hadoop; FP-Growth算法

中圖分類號:F272.3? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)15-0239-03

Abstract:In recent years, with the deepening of economic globalization and the rapid development of Internet information technology, cross-border e-commerce has become a new growth point of Sino foreign trade. At the same time, on the cross-border e-commerce platform, more and more goods are sold. It is a common problem for consumers to choose the products that meet their needs in such a large number of commodities. Through statistical analysis and mining some attribute characteristics of cross-border e-commerce customers and their purchased goods, this paper provides reference for marketing strategy and logistics layout of cross-border e-commerce enterprises, and helps consumers quickly select satisfactory goods.。

Key words:data mining; cross border e-commerce; feature analysis; hadoop;? fp-growth algorithm

1 引言

11月4日晚,第三屆中國國際進口博覽會開幕式在上海舉行,盡管受到疫情影響,今年中國擴大開放的步伐仍在加快。對企業(yè)來說,跨境電子商務(wù)構(gòu)建的開放、多維、立體的多邊經(jīng)貿(mào)合作模式,極大地拓寬了進入國際市場的路徑,大大促進了多邊資源的優(yōu)化配置與企業(yè)間的互利共贏[1];對于消費者來說,跨境電子商務(wù)使他們非常容易地獲取其他國家的信息并買到物美價廉的商品。通過數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法分析以往的跨境電商業(yè)務(wù)數(shù)據(jù)來分析跨境電商客戶的特征,給出對于企業(yè)的一個更好的營銷策略和消費者更好的一個消費體驗。

2 算法及數(shù)據(jù)預處理

2.1 算法

在本研究中,我們采用FP-Growth算法挖掘頻繁項集,F(xiàn)P-Growth算法的主要思想是:將代表頻繁項集的數(shù)據(jù)庫壓縮存儲在頻繁模式樹中,每條事務(wù)數(shù)據(jù)中的項之間的關(guān)系被保留在頻發(fā)模式樹中。然后,將頻繁模式樹按照條件模式基拆分成一組條件FP樹,并分別挖掘這些條件FP樹[2]。

FP-Growth算法的步驟:

1) 第一次掃描數(shù)據(jù)庫,尋找頻繁1-項集,并按照由大到小的順序排序;

2) 創(chuàng)建FP模式樹的根結(jié)點,記為“null”;

3) 根據(jù)頻繁1-項集的順序?qū)?shù)據(jù)庫中的每條事務(wù)數(shù)據(jù)進行排序,并存儲在FP模式樹中,并建立項頭表;

4) 為每一個頻繁1-項集尋找前綴路徑,組成條件模式基,并建立條件FP樹;

5) 遞歸挖掘條件FP樹,獲得頻繁項集。

2.2 數(shù)據(jù)預處理

由于跨境電商業(yè)務(wù)的多年開展,其中的數(shù)據(jù)庫中存儲著大量的數(shù)據(jù)包括商品的物流信息、商品信息、訂單信息、報關(guān)信息等[3]。這些信息中很大程度上可以代表了消費者的消費習慣,但這些數(shù)據(jù)中同時也包含了大量對本次實驗無用的數(shù)據(jù)和噪音,因此要再分析數(shù)據(jù)的構(gòu)成和意義,篩選其中有用的數(shù)據(jù),并預處理后作為本次實驗的分析對象[4],本文從存儲在SqlServer數(shù)據(jù)庫中的物流信息表、商品信息明細表等四張表中獲取實驗所需的數(shù)據(jù)進行數(shù)據(jù)的預處理。以下是對于各表的介紹。

在物流信息表(Tbl_ImportLogisticsInfo)中包含了很多消費者購買物品后的物流相關(guān)信息,但是本次實驗所需字段僅兩個即省份ConsigneeProvince和城市ConsingeeCity字段。省份字段可以根據(jù)省份代碼對照表找出消費者所在省份,根據(jù)城市字段和城市等級劃分表得出消費者所在城市的等級 。 在商品信息明細表(Tbl_IDX_CUSTOM_IE_DETAILS)中,選取CreateTime(下單時間)、ORIGIN_COUNTRY(原產(chǎn)國)、DECL_PRICE(商品單價)、DECL_TOTAL(商品總價)、CODE_TS(商品編碼) 作為實驗的數(shù)據(jù)。根據(jù)下單時間劃分出下單時間范圍區(qū)間,根據(jù)商品原產(chǎn)國代碼和國家代碼對照表找出商品的原產(chǎn)國家,根據(jù)商品的單價和商品的總價分別處理,得到消費者的消費金額區(qū)間。報關(guān)信息表(Tbl_IDX_CUSTOM_IE_HEADER)中包含的是通關(guān)過程中所需的一些信息,其中本文只獲取公司代碼CompanyID這一字段,根據(jù)公司代碼字段判斷出消費者所在的消費平臺。(訂單信息表)Tbl_ImportOrder中選取ConsigneeCard身份證號字段,根據(jù)身份證的編碼規(guī)則判斷出訂單消費的性別信息,以及年齡段信息

據(jù)上述的數(shù)據(jù)進行處理得出表1客戶及其購買商品屬性維度及維度值,該圖表從多個維度出發(fā)用于描述出跨境電商客戶所可能具有的一些特征。

3 實驗

由于本次實驗的數(shù)據(jù)倉庫采用的Hadoop集群,程序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

3.1 Hadoop集群環(huán)境搭建

由于本次實驗所采用的Hadoop集群采用的是主從結(jié)構(gòu),slave1、slave2做兩條從機,master服務(wù)器作為主機。三臺服務(wù)器的IP地址如圖1所示。在實驗中各服務(wù)器所需要安裝的軟件如圖2所示。

在圖3中是將SqlServer數(shù)據(jù)經(jīng)過處理后存儲在Hive中的部分數(shù)據(jù)。

3.2 Maven框架項目搭建

實驗的相關(guān)業(yè)務(wù)是在Maven框架下采用Java語言進行實現(xiàn)的,故首先需要搭建一個Maven項目然后進行實際的業(yè)務(wù)處理。相關(guān)業(yè)務(wù)模塊包括,源數(shù)據(jù)處理模塊、源數(shù)據(jù)分析模塊和Hadoop數(shù)據(jù)挖掘分析模塊。

項目框架搭建之后進行各模塊的編碼工作,在源數(shù)據(jù)處理模塊中首先需要進行SqlServer數(shù)據(jù)庫的連接,程序采用JDBC的連接方式獲取到程序所需的源數(shù)據(jù),在獲取到源數(shù)據(jù)之后進行源數(shù)據(jù)的一個數(shù)據(jù)預處理的工作,數(shù)據(jù)的預處理包括根據(jù)物流信息表中的城市字段判斷出用戶所在的城市等級和所在區(qū)域,根據(jù)商品信息中的商品編碼判斷出商品的類別,根據(jù)訂單表中的身份證信息判斷出客戶的年齡信息和性別信息。在源數(shù)據(jù)分析模塊中將上一步獲取的源數(shù)據(jù)根據(jù)客戶的年齡、客戶所在區(qū)域和客戶購物的時間統(tǒng)計分析各個節(jié)點的單量,從而判斷出客戶購買跨境電商商品的一些特征。在Hadoop數(shù)據(jù)挖掘分析模塊中利用Maven中的相關(guān)依賴將預處理過后的數(shù)據(jù)導入到Hive中,并采用FP-Growth算法對數(shù)據(jù)進行挖掘分析,找出頻繁項集。序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

3.3 實驗結(jié)果

1)在挖掘出的頻繁項集中可以發(fā)現(xiàn),little、f、SZBH出現(xiàn)多次,其中l(wèi)ittle代表是購買少量商品,f代表的女性客戶,SZBH代表的是一家跨境電商公司。從頻繁項集中可以分析得出,大部分人還是購買跨境電商的貨物都是少量并且女性購買者居多,這也符合跨境電子商務(wù)小包裹數(shù)量少的特點,同時結(jié)合日常生活經(jīng)驗,相比男性可能女性更熱衷于網(wǎng)上購物。通過程序運行后的實際情況如圖4所示。

2)在根據(jù)下單時間進行單量的統(tǒng)計是發(fā)現(xiàn)跨境電商消費者在購買時間上的特征比如在凌晨5點的時候訂單量是最少的而上午10點的時候是訂單最多的時候,分析原因也合乎邏輯,上午5點的時候大部分人還在休息自然下單量最少,而上午10點單量最多,說明大家更加傾向于在這個時間段進行消費。根據(jù)下單時間統(tǒng)計的實際單量統(tǒng)計如圖5所示。

3)在根據(jù)年齡段的分析中發(fā)現(xiàn),90后是購買的主力,而00后或更小60后或更大的年齡群體購買力下降明顯。分析原因可能是00后或更小的經(jīng)濟實力較差,而60后或更大的年齡層消費者對于跨境電商業(yè)務(wù)可能不是太感興趣,而90后消費者從經(jīng)濟方面和新業(yè)務(wù)的了解和接受方面分析都優(yōu)于其他年齡層次消費者。根據(jù)年齡段統(tǒng)計的實際單量統(tǒng)計如圖6所示。

4)在購買區(qū)域上統(tǒng)計分析中發(fā)現(xiàn)發(fā)達城市是購買主力,比如深圳、上海,而在寧夏是最少的,這也符合人們合理的預期。在發(fā)達城市消費的經(jīng)濟能力較好,而且發(fā)達城市的物流也比較有優(yōu)勢,更適合業(yè)務(wù)的開展。而在發(fā)展較為落后地區(qū)則有消費者購買力不足,物流成本高等問題。

根據(jù)購買區(qū)域統(tǒng)計的實際單量統(tǒng)計如圖7所示。

4 結(jié)論

本文實驗采用Maven框架,運用Java語言進行編碼實現(xiàn)了FP-Growth算法并將該算法運用于處理后的數(shù)據(jù)進行了分析。在搭建好的hadoop集群平臺上以及預處理過的數(shù)據(jù)和跨境電商客戶特征分析系統(tǒng)的設(shè)計的基礎(chǔ),上針對實際的情況進行了測試。分析了實驗所產(chǎn)生的頻繁項集以及數(shù)據(jù)本身的一些特性并得出符合邏輯的結(jié)論。根據(jù)實驗結(jié)果可以得出,一些跨境電商客戶的消費特征,從而滿足企業(yè)的營銷效果,將相應的跨境電商商品推薦給滿足該特征的跨境電商客戶,另一方面也給跨境電商客戶購買跨境電商商品帶來了方便,使得他們可以快速地購買到自己想要的商品。

參考文獻:

[1] 李延光.基于Hadoop的海量工程數(shù)據(jù)處理技術(shù)研究[D].北京:北京交通大學,2013.

[2] 周詩慧.基于Hadoop的改進的并行Fp-Growth算法[D].濟南:山東大學,2013.

[3] 馬盈.基于MapReduce構(gòu)造多維數(shù)據(jù)及關(guān)聯(lián)規(guī)則挖掘算法的研究與應用[D].長春:東北師范大學,2013.

[4] 李明江,盧玉.基于數(shù)據(jù)挖掘的電商中貴州茶葉產(chǎn)品分類分析[J].黔南民族師范學院學報,2015,35(4):78-82.

[5] 王海青,呂曉安.數(shù)據(jù)挖掘在網(wǎng)購商品特征分析中的應用[J].廊坊師范學院學報(自然科學版),2015,15(2):35-37.

[6] 黃雅萍,馬可辛,周余洪,等.面向中小企業(yè)的電商平臺挖掘系統(tǒng)設(shè)計[J].計算機時代,2015(4):18-20.

[7] 雷玄.服裝篇:發(fā)貨延遲退貨率高[J].中國質(zhì)量萬里行,2014(12):12-13.

[8] 楊欣,呂本富,彭賡,等.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的突發(fā)事件對股票市場影響分析[J].數(shù)學的實踐與認識,2013,43(23):17-28.

[9] 羅紅梅.電商企業(yè)基于數(shù)據(jù)進行精準營銷的探討[J].武漢商業(yè)服務(wù)學院學報,2013,27(3):46-48.

【通聯(lián)編輯:李雅琪】

猜你喜歡
跨境電子商務(wù)特征分析數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
2012 年南海夏季風特征分析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于專業(yè)群建設(shè)背景下高職國際貿(mào)易專業(yè)發(fā)展的探討
文教資料(2016年20期)2016-11-07 12:04:28
中小企業(yè)發(fā)展跨境電子商務(wù)的SWOT分析
科技視界(2016年18期)2016-11-03 23:20:37
國外跨境電子商務(wù)稅收發(fā)展經(jīng)驗對我國的啟示
中國市場(2016年36期)2016-10-19 04:36:03
我國跨境電商貿(mào)易平臺商業(yè)模式探析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應用
基于PowerPC的脈內(nèi)特征分析算法的工程實現(xiàn)
雷達與對抗(2015年3期)2015-12-09 02:38:53
不良汽車駕駛行為特征分析
河南科技(2014年16期)2014-02-27 14:13:27
呼伦贝尔市| 延吉市| 邯郸县| 商丘市| 双牌县| 东安县| 同德县| 绥滨县| 津南区| 洪雅县| 扬州市| 内乡县| 乳山市| 临沧市| 克什克腾旗| 四川省| 神池县| 财经| 吴桥县| 东海县| 德清县| 新绛县| 巴林右旗| 松溪县| 温泉县| 海丰县| 太和县| 阿图什市| 轮台县| 绍兴县| 奉节县| 柯坪县| 石首市| 洛南县| 海淀区| 永新县| 江陵县| 尤溪县| 宿州市| 丹东市| 太仆寺旗|