国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中小企業(yè)的電商平臺(tái)挖掘系統(tǒng)設(shè)計(jì)

2015-05-30 10:48:04黃雅萍馬可辛周余洪劉曉強(qiáng)
計(jì)算機(jī)時(shí)代 2015年4期
關(guān)鍵詞:海量數(shù)據(jù)電商平臺(tái)數(shù)據(jù)挖掘

黃雅萍 馬可辛 周余洪 劉曉強(qiáng)

摘 要: 中小企業(yè)電商平臺(tái)在資金和技術(shù)不足的情況下,難以快速有效的構(gòu)建簡(jiǎn)單而實(shí)用的電商數(shù)據(jù)挖掘系統(tǒng)。文章從分析電商海量數(shù)據(jù)資源的來(lái)源、提取方法及其流程入手,提出了一個(gè)基本的數(shù)據(jù)挖掘系統(tǒng)方案架構(gòu),從而實(shí)現(xiàn)為中小企業(yè)電商平臺(tái)服務(wù)的一整套數(shù)據(jù)挖掘系統(tǒng)。該系統(tǒng)架構(gòu)簡(jiǎn)單實(shí)用、易搭建、易整合,可以為中小企業(yè)提供更好的服務(wù)支持。

關(guān)鍵詞: 中小企業(yè); 電商平臺(tái); 數(shù)據(jù)挖掘; 海量數(shù)據(jù)

中圖分類號(hào):TP311.132.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)04-18-03

Abstract: Under the situation that the SME (small and medium-sized enterprises) e-commerce platforms are lack of fund and technology, it 's very difficult to build a simple and practical e-commerce data mining system quickly and effectively. This article analyses the e-commerce mass data resources, its origin, and the process of how to get it. Besides, The article draws a basic data mining system architecture to achieve a set of data for the service of e-commerce platform for small and medium enterprises mining system. The system structure is simple, practical and easy to build. It can provide a better support for SME's improvement and product sales.

Key words: SME; E-Commerce platform; data mining; mass data

1 電商平臺(tái)和數(shù)據(jù)挖掘

隨著網(wǎng)絡(luò)的高速發(fā)展,傳統(tǒng)的銷售模式已經(jīng)越來(lái)越跟不上社會(huì)發(fā)展的節(jié)奏。企業(yè)需要一個(gè)網(wǎng)絡(luò)在線平臺(tái),能夠跨地域和時(shí)間進(jìn)行商品銷售和交易,這個(gè)平臺(tái)被稱為電商平臺(tái)。目前電商平臺(tái)在各個(gè)領(lǐng)域的應(yīng)用得到很大發(fā)展,尤其是與中小企業(yè)的發(fā)展緊密結(jié)合。中小企業(yè)的電商平臺(tái)面臨著越來(lái)越激烈的競(jìng)爭(zhēng),紛紛以先進(jìn)技術(shù)為功底吸引用戶,促進(jìn)商品的銷售以達(dá)到利潤(rùn)的最大化。

數(shù)據(jù)挖掘技術(shù)在電商平臺(tái)中獲得了很好的應(yīng)用,有效地應(yīng)對(duì)在激烈的競(jìng)爭(zhēng)中獲取利潤(rùn)最大化的問(wèn)題。電商平臺(tái)的應(yīng)用主要概括為:產(chǎn)品搜索,產(chǎn)品推薦,欺詐檢測(cè),商業(yè)智能[1]。

2 電商數(shù)據(jù)挖掘的資源及其流程

電商數(shù)據(jù)挖掘是一個(gè)將信息、數(shù)據(jù)轉(zhuǎn)化為促進(jìn)電商平臺(tái)的瀏覽量和購(gòu)買(mǎi)行為的過(guò)程。電商數(shù)據(jù)挖掘的資源主要包括第三方平臺(tái)、互聯(lián)網(wǎng)上各種形式的文檔和用戶訪問(wèn)信息/訪問(wèn)行為的追蹤三種。

數(shù)據(jù)挖掘流程包含五個(gè)過(guò)程,分別為:設(shè)定數(shù)據(jù)挖掘方向、整理可利用數(shù)據(jù)源、構(gòu)建數(shù)據(jù)挖掘模型、集成數(shù)據(jù)挖掘模型到電商平臺(tái)管理后臺(tái)和相應(yīng)外部API接口的開(kāi)發(fā)及維護(hù)。電商數(shù)據(jù)挖掘過(guò)程如圖1所示。

3 面向中小企業(yè)的電商平臺(tái)挖掘系統(tǒng)設(shè)計(jì)

3.1 面向電商平臺(tái)的數(shù)據(jù)挖掘系統(tǒng)功能分析

面向電商平臺(tái)的數(shù)據(jù)挖掘系統(tǒng)主要完成客戶信息、商品信息及物流信息的分析等功能。圖2詳細(xì)構(gòu)建了適合中小企業(yè)的簡(jiǎn)單并且易于構(gòu)建的面向電商平臺(tái)的數(shù)據(jù)挖掘系統(tǒng)(SME-EMS, Small and Medium-sized Enterprises E-Commerce Mining System)的具體實(shí)現(xiàn)過(guò)程。

3.2 基本數(shù)據(jù)導(dǎo)入

⑴ 用戶信息導(dǎo)入。利用數(shù)據(jù)挖掘的分類技術(shù)對(duì)用戶信息進(jìn)行分析歸類,主要的依據(jù)有用戶的地域、 愛(ài)好、用戶登錄時(shí)間、用戶支付和配送習(xí)慣、用戶年齡等。不同的公共屬性可以生成不同的分類,從而發(fā)現(xiàn)潛在客戶,并對(duì)有目的性的目標(biāo)群體進(jìn)行技術(shù)營(yíng)銷和推送。

⑵ 用戶訂單信息導(dǎo)入。用戶的訂單直接影響庫(kù)存信息,庫(kù)存決定產(chǎn)品的需求和配送。通過(guò)挖掘逐月逐日的數(shù)據(jù)獲取產(chǎn)品的數(shù)量以及客戶對(duì)產(chǎn)品的顏色偏好、規(guī)格偏好、款式偏好等,對(duì)于企業(yè)安排生產(chǎn)計(jì)劃提供技術(shù)支持。

⑶ 導(dǎo)入訂單配送信息。電商平臺(tái)企業(yè)需要緊密結(jié)合物流行業(yè),其訂單配送的年/月/日信息可以很直觀地預(yù)測(cè)不同地點(diǎn)的配送量,優(yōu)化配送結(jié)構(gòu),縮短配送時(shí)間,節(jié)約壓貨和庫(kù)存費(fèi)用。

⑷ 導(dǎo)入用戶評(píng)論打分信息。通過(guò)分析用戶的評(píng)論和打分信息知道用戶所喜好的產(chǎn)品,差評(píng)的產(chǎn)品,喜歡的顏色以及款式等。

⑸ 導(dǎo)入用戶收藏信息。通過(guò)收入用戶收藏的信息,分析預(yù)知用戶想購(gòu)買(mǎi)的潛在產(chǎn)品。

⑹ 第三方平臺(tái)數(shù)據(jù)導(dǎo)入。將第三方平臺(tái)提供的一些具有參考價(jià)值的數(shù)據(jù)導(dǎo)入到系統(tǒng)自定義的數(shù)據(jù)庫(kù)中。

3.3 日志處理

3.3.1 日志收集

日志數(shù)據(jù)收集包括服務(wù)器節(jié)點(diǎn)的日志數(shù)據(jù)收集以及客戶端數(shù)據(jù)采集。

⑴ 服務(wù)器節(jié)點(diǎn)的信息。訪問(wèn)電商平臺(tái)網(wǎng)頁(yè)產(chǎn)生的請(qǐng)求無(wú)論是提交POST還是獲取GET甚至PUT都在服務(wù)器節(jié)點(diǎn)端產(chǎn)生大量的訪問(wèn)日志。服務(wù)器節(jié)點(diǎn)端可以通過(guò)配置獲取服務(wù)器端運(yùn)行的錯(cuò)誤信息以及可以設(shè)置年/月/日/周等不同格式儲(chǔ)存這些文件。同時(shí)大多數(shù)電商平臺(tái),還增加額外的后臺(tái)SHELL程序去追蹤記錄用戶瀏覽和購(gòu)買(mǎi)過(guò)程中的信息。

⑵ 客戶端信息??梢栽O(shè)置不同的用戶操作節(jié)點(diǎn)增加JavaScript或第三方插件對(duì)用戶不同的行為進(jìn)行追蹤和記錄,一般可以獲取更為真實(shí)的直觀的瀏覽行為路徑,與⑴比較,其優(yōu)勢(shì)在于可以直接儲(chǔ)存在數(shù)據(jù)庫(kù)中,便于直觀的查看數(shù)據(jù)記錄系統(tǒng),有些第三方系統(tǒng)還可以生成不同的數(shù)據(jù)和報(bào)表。

3.3.2 日志處理分析

海量的數(shù)據(jù)信息在實(shí)際應(yīng)用中需要?jiǎng)h除大量無(wú)用信息,必須進(jìn)行數(shù)據(jù)清理,根據(jù)不同的需求清理出不同類別的信息。其處理步驟如下。

⑴ 查找用戶行為的日志。對(duì)用戶行為的日志進(jìn)行采集。

⑵ 根據(jù)用戶行為日志,進(jìn)行2次歸類分析。主要獲取用戶訪問(wèn)IP、訪問(wèn)路徑和訪問(wèn)時(shí)間。

⑶ 對(duì)2次數(shù)據(jù)進(jìn)行再次處理。主要對(duì)用戶訪問(wèn)路徑進(jìn)行分析,獲取用戶訪問(wèn)的頁(yè)面、產(chǎn)品和購(gòu)買(mǎi)流程。對(duì)用戶訪問(wèn)IP進(jìn)行分析,獲知用戶所在的區(qū)域,通過(guò)用戶訪問(wèn)時(shí)間獲取用戶的訪問(wèn)習(xí)慣,最后對(duì)這些進(jìn)行不同的歸類持久化。

3.3.3 根據(jù)規(guī)則導(dǎo)入日志分析結(jié)果

在電商平臺(tái)數(shù)據(jù)挖掘系統(tǒng)中,采用路徑分析技術(shù)和關(guān)聯(lián)規(guī)則分別對(duì)用戶訪問(wèn)情況和商品訪問(wèn)情況進(jìn)行分析。

⑴ 用戶訪問(wèn)情況分析。從用戶訪問(wèn)日志獲取用戶的訪問(wèn)路徑,從訪問(wèn)路徑可以獲知用戶查看的頁(yè)面和產(chǎn)品,對(duì)于一些常訪問(wèn)的頁(yè)面可以總結(jié)其中的布局樣式描述圖片,而對(duì)不被經(jīng)常訪問(wèn)的頁(yè)面,可以對(duì)頁(yè)面進(jìn)行優(yōu)化調(diào)整,提高網(wǎng)站整體的PV值。通過(guò)路徑獲知如下信息:產(chǎn)品銷售狀況,從而實(shí)現(xiàn)產(chǎn)品的調(diào)整優(yōu)化;頁(yè)面是否存在安全漏洞,從而通過(guò)代碼調(diào)整,防止注入和攻擊;用戶的訪問(wèn)區(qū)域和用戶喜好,適當(dāng)?shù)耐扑拖嚓P(guān)聯(lián)的產(chǎn)品,為用戶提供人性化的服務(wù),同時(shí)提高用戶的訪問(wèn)時(shí)間。

⑵ 商品訪問(wèn)情況分析。首先從整體的用戶訪問(wèn)情況分析,設(shè)定一定的規(guī)則。然后基于這個(gè)規(guī)則進(jìn)行分析。通過(guò)路徑關(guān)聯(lián)分析, 可以獲知大部分用戶的訪問(wèn)習(xí)慣并適時(shí)推薦相關(guān)聯(lián)的產(chǎn)品,以增加促銷的效果。

3.4 SME-EMS系統(tǒng)設(shè)計(jì)

由于海量的日志文件和用戶數(shù)據(jù)處理需要消耗大量的系統(tǒng)資源,在系統(tǒng)中對(duì)數(shù)據(jù)處理過(guò)程進(jìn)行了前、后端分開(kāi)處理的設(shè)計(jì)。為了不影響前端挖掘系統(tǒng)的體驗(yàn)度,在前、后端系統(tǒng)中間加入了挖掘系統(tǒng)數(shù)據(jù)同步的機(jī)制。在日常使用的時(shí)候,不進(jìn)行導(dǎo)入同步,所有信息同步的機(jī)制在每天晚上3點(diǎn)左右進(jìn)行,這個(gè)時(shí)間段用戶訪問(wèn)最少,生成的日志最少,能保證數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性。為了和電商平臺(tái)系統(tǒng)進(jìn)行交互并達(dá)到實(shí)時(shí)推薦和促銷的目的,數(shù)據(jù)挖掘系統(tǒng)也需提供接口給電商平臺(tái)系統(tǒng)。中小企業(yè)電商平臺(tái)挖掘系統(tǒng)SME-EMS的整體架構(gòu)如圖3所示。

⑴ 后端定時(shí)任務(wù)。采用PERL+MYSQL+CRON+LOADBLANCE+HEARTBEAT技術(shù)[2],實(shí)現(xiàn)后端定時(shí)任務(wù)。 PERL技術(shù)在文本的分析匹配時(shí)速度和效率是最高的。鑒于低成本運(yùn)行,系統(tǒng)主要采用MYSQL數(shù)據(jù)庫(kù)主從結(jié)構(gòu)。海量數(shù)據(jù)的處理服務(wù)器使用兩臺(tái)或N臺(tái)并做服務(wù)器的負(fù)載均衡,保證數(shù)據(jù)正常處理。CRON任務(wù)可以通過(guò)設(shè)置時(shí)間自動(dòng)運(yùn)行相應(yīng)的任務(wù)。此過(guò)程主要根據(jù)規(guī)則實(shí)現(xiàn)用戶數(shù)據(jù)、日志數(shù)據(jù)、第三方平臺(tái)數(shù)據(jù)的分析處理生成元數(shù)據(jù),需要消耗大量的時(shí)間和系統(tǒng)資源。HEARTBEAT主要防止MYSQL服務(wù)器宕機(jī)時(shí)候的數(shù)據(jù)丟失。

⑵ 挖掘數(shù)據(jù)再次分析處理同步。采用RSYNC+PERL+MYSQL+CRON技術(shù)[3,4],實(shí)現(xiàn)服務(wù)器之間的數(shù)據(jù)同步。為保證電商平臺(tái)數(shù)據(jù)挖掘系統(tǒng)前端的正常工作,保證服務(wù)器不受影響,系統(tǒng)特別增加了挖掘數(shù)據(jù)同步服務(wù)器。在適當(dāng)?shù)臅r(shí)候系統(tǒng)可以進(jìn)行聚類分析、語(yǔ)義分析、模式匹配分析、行為模式分析。根據(jù)相應(yīng)的規(guī)則定義以及前端生成的元數(shù)據(jù)分析二次生成需要的數(shù)據(jù),增加數(shù)據(jù)挖掘的精準(zhǔn)度。對(duì)于中小企業(yè)來(lái)言,就是根據(jù)不同需求提出對(duì)產(chǎn)品銷售有促進(jìn)作用的有用的數(shù)據(jù)信息。

⑶ 前端任務(wù)。采用PHP+MYSQL+REDIS+MEMCACHE+HEARTBEAT+LOADBLANCE技術(shù)[5],實(shí)現(xiàn)前端任務(wù)。PHP主要實(shí)現(xiàn)生成元數(shù)據(jù)的查詢展示修正功能,REDIS+MEMCACHE實(shí)現(xiàn)數(shù)據(jù)的緩存。用戶可以根據(jù)自己的需求生成不同的報(bào)表和圖表,查詢不同條件的電商平臺(tái)數(shù)據(jù),增加用戶的體驗(yàn)度。系統(tǒng)增加了一臺(tái)緩存服務(wù)器,并特別增加數(shù)據(jù)庫(kù)集群通信服務(wù),防止MYSQL服務(wù)器宕機(jī)而影響正常的日常工作。

⑷ 同步電商接口實(shí)現(xiàn)。采用 MYSQL+PHP+REDIS+MEMCACHE技術(shù)[6],實(shí)現(xiàn)同步電商接口。用PHP或PERL實(shí)現(xiàn)定制生成不同類型的接口,實(shí)現(xiàn)和其他平臺(tái)的對(duì)接。系統(tǒng)除了生成報(bào)表、分析數(shù)據(jù)以及推動(dòng)線下的活動(dòng),還需要做到跟電商系統(tǒng)進(jìn)行實(shí)時(shí)對(duì)接,精準(zhǔn)地提供商品的轉(zhuǎn)化購(gòu)買(mǎi)力和用戶的體驗(yàn)度,并同時(shí)預(yù)留接口給倉(cāng)儲(chǔ)(WMS)、物流(Logistics)、郵件服務(wù)(EDM)、庫(kù)存(IMS)、客戶管理(CRM)、客戶管理系統(tǒng)的客服中心(Call Center)以及集團(tuán)管理系統(tǒng)(ERP)等。

4 SME-EMS系統(tǒng)實(shí)施分析

4.1 SME-EMS與傳統(tǒng)電商平臺(tái)挖掘架構(gòu)的比較

⑴ 實(shí)現(xiàn)費(fèi)用低。SME-EMS采用開(kāi)源的開(kāi)發(fā)環(huán)境和技術(shù),軟件成本幾乎接近零。具體成本分析如表1所示。對(duì)于中小企業(yè)而言,低成本、系統(tǒng)易維護(hù)、團(tuán)隊(duì)易組建是基本的要求和目標(biāo),本系統(tǒng)則是一個(gè)很好的選擇。

⑵ 易與其他系統(tǒng)集成。 SME-EMS便于與其他電商平臺(tái)配套系統(tǒng)集成。很多電商企業(yè)自身有WMS,EDM,IMS,Logistics,CRM,CALL Center以及定制化的ERP系統(tǒng),這些系統(tǒng)大部分都是獨(dú)立的一套系統(tǒng),并且在選擇和定制化使用上存在多樣性,這導(dǎo)致與數(shù)據(jù)挖掘系統(tǒng)的接口集成很復(fù)雜,可變性很強(qiáng)。采用PHP開(kāi)發(fā)接口定制化很強(qiáng)并且容易開(kāi)發(fā)維護(hù),而大部分中小企業(yè)電商平臺(tái)是采用PHP+MYSQL的B/S結(jié)構(gòu)免費(fèi)系統(tǒng),所以易于集成。

4.2 SME-EMS的系統(tǒng)實(shí)施可行性分析

從體系架構(gòu)和技術(shù)實(shí)現(xiàn)的角度分析,SME-EMS需要若干服務(wù)器,分別作為存儲(chǔ)服務(wù)器、同步服務(wù)器、調(diào)度服務(wù)器和數(shù)據(jù)服務(wù)器,各類服務(wù)器的角色及其在整個(gè)電商平臺(tái)數(shù)據(jù)挖掘體系的功能明確。開(kāi)發(fā)人員可以選擇PERL,PHP,PYTHON等腳本語(yǔ)言,根據(jù)確定的需求,開(kāi)發(fā)相應(yīng)的數(shù)據(jù)分析挖掘任務(wù)。

5 結(jié)論

本文將數(shù)據(jù)挖掘技術(shù)和電商平臺(tái)兩者有機(jī)結(jié)合起來(lái),為中小企業(yè)快速實(shí)現(xiàn)電商平臺(tái)挖掘系統(tǒng)提供了有效的實(shí)現(xiàn)方案。整個(gè)系統(tǒng)成本低、易于搭建、易于開(kāi)發(fā)維護(hù),適合幫助中小企業(yè)電商根據(jù)客戶的消費(fèi)趨勢(shì)和市場(chǎng)走向,調(diào)整市場(chǎng)策略,進(jìn)行正確的決策,提高利潤(rùn)率。系統(tǒng)不足之處在于,對(duì)于龐大的電商系統(tǒng)和大數(shù)據(jù)增長(zhǎng)級(jí)的平臺(tái),系統(tǒng)的穩(wěn)定性存在不足,需要改進(jìn)調(diào)度算法,優(yōu)化分析查詢處理方法等。

參考文獻(xiàn):

[1] 李楠.電子商務(wù)中的數(shù)據(jù)挖掘[J].中國(guó)城市經(jīng)濟(jì),2011.12:378-379

[2] 門(mén)伯里,豪斯,普拉奇.實(shí)用負(fù)載均衡技術(shù):網(wǎng)站性能優(yōu)化攻略[M].人民郵電出版社,2013.

[3] 施瓦茨,扎伊采夫,特卡琴科.高性能MySQL[M].電子工業(yè)出版社,2013.

[4] 施瓦茨,福瓦,菲尼克斯.Perl語(yǔ)言入門(mén)(中文版)[M].東南大學(xué)出版社,2012.

[5] 基恩,席卡里爾.Pro JPA2中文版:精通Java持久化API[M].清華大學(xué)出版社,2011.

[6] 趙麗芬.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中應(yīng)用研究[J].信息與電腦(理論版),2011.4:174

猜你喜歡
海量數(shù)據(jù)電商平臺(tái)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于HADOOP集群的數(shù)據(jù)采集和清洗
軟件工程(2016年11期)2017-01-17 17:05:51
商業(yè)銀行海量金融數(shù)據(jù)分析中數(shù)據(jù)分析技術(shù)的實(shí)踐探究
海量數(shù)據(jù)庫(kù)的設(shè)計(jì)與優(yōu)化
基于電商平臺(tái)的大學(xué)生互聯(lián)網(wǎng)創(chuàng)業(yè)經(jīng)濟(jì)研究
試析我國(guó)個(gè)人消費(fèi)信貸領(lǐng)域發(fā)展面臨的主要挑戰(zhàn)
基于hadoop平臺(tái)海量數(shù)據(jù)的快速查詢與實(shí)現(xiàn)
基于用戶體驗(yàn)的電商平臺(tái)界面管理影響因素研究
科技視界(2016年20期)2016-09-29 11:07:22
試論電商平臺(tái)主導(dǎo)的供應(yīng)鏈融資
黄平县| 崇仁县| 孟州市| 综艺| 彩票| 社会| 蓬安县| 南康市| 西畴县| 福清市| 平安县| 厦门市| 扶风县| 永修县| 长顺县| 晋州市| 大悟县| 黑水县| 清水河县| 东明县| 华坪县| 隆林| 龙胜| 盐源县| 通海县| 当雄县| 临桂县| 许昌市| 高安市| 怀宁县| 普洱| 常德市| 蛟河市| 雷山县| 丽水市| 南江县| 太仓市| 兰考县| 北海市| 夏河县| 宜君县|