国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PMML的電子商務(wù)數(shù)據(jù)挖掘研究

2015-12-14 01:51:08劉曉云焦亞琴張銀葉
現(xiàn)代情報 2015年8期
關(guān)鍵詞:跨平臺電子商務(wù)

劉曉云++焦亞琴++張銀葉

〔摘要〕隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)進(jìn)入了海量數(shù)據(jù)時代,從這些海量數(shù)據(jù)里挖掘出有用的模式具有非常高的商業(yè)價值。常規(guī)的數(shù)據(jù)挖掘模型會依賴于特定的數(shù)據(jù)挖掘平臺,而目前的數(shù)據(jù)挖掘平臺并不能做到隨時隨地跨平臺交換數(shù)據(jù)挖掘模型。文章提出基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法,只要數(shù)據(jù)挖掘平臺兼容了PMML規(guī)范就可以真正做到跨臺平交換數(shù)據(jù)挖掘模型。文章重點研究了PMML語言是如何表示完整數(shù)據(jù)挖掘模型,并就某電商平臺挖掘潛在客戶的數(shù)據(jù)進(jìn)行實驗并分析實驗結(jié)果,從而驗證了方案的有效性。

〔關(guān)鍵詞〕電子商務(wù);數(shù)據(jù)挖掘模型;PMML;跨平臺

DOI:10.3969/j.issn.1008-0821.2015.08.012

〔中圖分類號〕F71336〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2015)08-0057-04

電子商務(wù)是互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的必然產(chǎn)物,伴隨著電子商務(wù)的快速發(fā)展,隨之而來的是電子商務(wù)、網(wǎng)絡(luò)日志、社交網(wǎng)絡(luò)以及互聯(lián)網(wǎng)搜索引擎等每天都在各類平臺上產(chǎn)生大量的數(shù)據(jù)信息。IDC最新的數(shù)字宇宙研究結(jié)果表明,預(yù)計到2020年,世界上的數(shù)據(jù)存儲總額將達(dá)到35ZB(1ZB等于1萬億GB字節(jié))。信息爆炸帶來的是無限的商機(jī),目前無論是國內(nèi)企業(yè)(例如淘寶),還是國外公司(例如Amazon、Ebay等)均已通過分析客戶購買行為并利用分析結(jié)果提高了企業(yè)的服務(wù)質(zhì)量,通過對客戶購買行為的數(shù)據(jù)進(jìn)行挖掘和分析可以幫助我們更好地理解客戶的行為模式,進(jìn)而對客戶進(jìn)行分類,從而制定更為精準(zhǔn)的營銷策略以及提高利潤率和網(wǎng)絡(luò)購物的滲透率。在這樣的大環(huán)境下數(shù)據(jù)挖掘技術(shù)得到了迅速的發(fā)展。

數(shù)據(jù)挖掘技術(shù)自20世紀(jì)90年代被提出以來一直在電子商務(wù)領(lǐng)域得到了重點研究,對于如何定義數(shù)據(jù)挖掘概念目前有很多版本,本文認(rèn)為數(shù)據(jù)挖掘(又稱KDD,即數(shù)據(jù)庫知識發(fā)現(xiàn))是針對數(shù)據(jù)的一種提取隱含在其中的信息的操作,目的是為了將數(shù)據(jù)庫中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)提取出來,使之變?yōu)榭衫?、有?guī)律、能為決策提供支持的有價值的信息。目前國內(nèi)外對數(shù)據(jù)挖掘的研究主要集中在數(shù)據(jù)挖掘領(lǐng)域的關(guān)鍵技術(shù)、關(guān)鍵算法研究,數(shù)據(jù)挖掘的實際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面研究,發(fā)掘方法與用戶交互問題等。盡管數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用由來已久,但它依然存在一些亟待解決的問題。主要表現(xiàn)在數(shù)據(jù)量巨大,數(shù)據(jù)變化速度快,數(shù)據(jù)挖掘模型中數(shù)據(jù)屬性的選擇十分關(guān)鍵;對數(shù)據(jù)變化的預(yù)測至今還沒有非常成熟的技術(shù);挖掘模型的可靠性與挖掘結(jié)果的準(zhǔn)確性還沒有統(tǒng)一的標(biāo)準(zhǔn);在挖掘用戶信息的前提下如何保護(hù)客戶隱私的安全性也是一個亟待解決的問題[3]。本文主要針對海量電子商務(wù)數(shù)據(jù)的跨機(jī)構(gòu)、跨平臺數(shù)據(jù)挖掘進(jìn)行研究。

傳統(tǒng)的小規(guī)模數(shù)據(jù)集的數(shù)據(jù)挖掘很容易在獨立平臺實現(xiàn),然而電子商務(wù)數(shù)據(jù)面臨海量、異構(gòu)、多樣、動態(tài)等問題,特別是當(dāng)前互聯(lián)網(wǎng)發(fā)展迅速,服務(wù)器會異地部署,數(shù)據(jù)分散導(dǎo)致處理過程非常復(fù)雜,在這種情況下,跨機(jī)構(gòu)、跨平臺進(jìn)行數(shù)據(jù)挖掘交互十分頻繁也十分必要。與此同時,傳統(tǒng)的數(shù)據(jù)挖掘算法面臨海量數(shù)據(jù)時需要進(jìn)行改進(jìn),實際建模過程中可能出現(xiàn)重復(fù)執(zhí)行同一個數(shù)據(jù)處理操作,在帶有參數(shù)的情況下,手工執(zhí)行會比較麻煩,必須借助腳本實現(xiàn);在常規(guī)數(shù)據(jù)挖掘模型執(zhí)行過程中,默認(rèn)數(shù)據(jù)流是順序執(zhí)行,倘若存在改變執(zhí)行順序的需求,則需要使用腳本實現(xiàn);傳統(tǒng)的數(shù)據(jù)挖掘平臺是用戶首先在人機(jī)界面上調(diào)試好執(zhí)行順序,可以通過腳本語言來實現(xiàn)模型節(jié)點的自動執(zhí)行、自動更新和導(dǎo)出執(zhí)行結(jié)果;實際實施過程中可能面臨批量修改現(xiàn)有的數(shù)據(jù),為提高構(gòu)建模型效率,需要采用腳本語言[4]實現(xiàn)。

實際上,傳統(tǒng)的數(shù)據(jù)挖掘平臺都有各自的一套處理流程標(biāo)準(zhǔn),要想實現(xiàn)同一數(shù)據(jù)挖掘模型的跨平臺運行給數(shù)據(jù)挖掘研究帶來了巨大的挑戰(zhàn)。目前國內(nèi)外關(guān)于數(shù)據(jù)挖掘在跨平臺交換數(shù)據(jù)挖掘模型方面的研究還比較稀少,更沒有形成統(tǒng)一的標(biāo)準(zhǔn),即在一個平臺上運行的數(shù)據(jù)挖掘模型還不能很輕易地遷移到另外一個平臺。IBM公司的SPSS Modeler實現(xiàn)了用腳本語言定制一些數(shù)據(jù)挖掘過程的功能,但是定制的模型有限,而且模型僅僅適用與其系列數(shù)據(jù)挖掘工具。RapidMiner開發(fā)了適用其平臺定制數(shù)據(jù)挖掘流程的腳本語言,但是這種腳本語言沒有得到業(yè)界的認(rèn)可[5],不利于推廣。VMStudio實現(xiàn)了用S語言來實現(xiàn)數(shù)據(jù)過濾與統(tǒng)計的功能,但是該平臺沒有開放源碼,不利于二次開發(fā)。跨平臺的重要性不言而喻,例如在一個平臺進(jìn)行的數(shù)據(jù)挖掘結(jié)果可以遷移到另外一個平臺進(jìn)行效果評估。所以本文提出基于跨平臺的PMML語言來定制數(shù)據(jù)挖掘模型,實現(xiàn)數(shù)據(jù)挖掘模型的真正跨平臺運行。

11PMML概述

1999年DMG(Data Mining Group)在XML的基礎(chǔ)上制定出了預(yù)測模型標(biāo)記語言PMML(Predictive Model Markup Language)。PMML是一種與平臺無關(guān)的統(tǒng)計和數(shù)據(jù)挖掘(Data Mining,DM)模型表示規(guī)范,它以XML為基準(zhǔn)將數(shù)據(jù)挖掘任務(wù)規(guī)范化,可以把某平臺所創(chuàng)建的數(shù)據(jù)挖掘模型遷移到其它任何滿足PMML標(biāo)準(zhǔn)的系統(tǒng)或者產(chǎn)品中。通過定義統(tǒng)一的以及標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘模型表達(dá)方式,PMML分離了模型的構(gòu)造與應(yīng)用。PMML使得數(shù)據(jù)挖掘模型的部署不再束縛于模型開發(fā)和產(chǎn)品整合,其框架結(jié)構(gòu)圖見圖1,從而為將來的數(shù)據(jù)挖掘應(yīng)用提供了一種創(chuàng)新的方法。PMML擺脫了模型開發(fā)和部署局限于某一個特定的數(shù)據(jù)挖掘平臺,從而為電子商務(wù)系統(tǒng)、數(shù)據(jù)倉庫和云計算中的數(shù)據(jù)挖掘應(yīng)用提供了一種新的方法。目前已有許多公司或組織加入了PMML規(guī)范的制定,便于其推廣。需要PMML語言的主要原因可以簡要歸納[6]為以下3點。

111模型交換的需要

數(shù)據(jù)處理的任務(wù)非常復(fù)雜,有時候甚至需要不同的數(shù)據(jù)處理工具,這些不同的數(shù)據(jù)處理工具之間必須能交換處理的結(jié)果。

112模型部署的需要

PMML使得模型部署跨越Internet更加容易,軟件提供商能更加容易的將數(shù)據(jù)處理結(jié)果導(dǎo)入到支持PMML標(biāo)準(zhǔn)的平臺里。endprint

113跨平臺需要

PMML提供了一種不定義模型的執(zhí)行方法,只定義模型的描述跨平臺方案,使得數(shù)據(jù)挖掘更具有開放性。

12PMML結(jié)構(gòu)與模型表示

怎樣從海量數(shù)據(jù)挖掘到事先未知具有潛在價值的信息,然后依據(jù)商業(yè)目的進(jìn)行預(yù)測和評估,是數(shù)據(jù)挖掘研究亟待解決的主要問題之一[7],PMML標(biāo)準(zhǔn)是描述數(shù)據(jù)挖掘過程的一個規(guī)范,它按照數(shù)據(jù)挖掘任務(wù)處理步驟,定義了數(shù)據(jù)挖掘各個階段的處理描述信息[8],主要包括頭部信息、數(shù)據(jù)詞典、數(shù)據(jù)預(yù)處理、模型表示、模型輸出和預(yù)測評價等部分。PMML是用XML來表示數(shù)據(jù)挖掘流程的,整個PMML文檔都是用XML的DTD進(jìn)行描述的,一個根元素為PMML類型的XML元素的文檔可以包含多個模型部分,其中數(shù)據(jù)詞典和模型表示是PMML文檔的核心部分。PMML規(guī)范里的元素主要分為兩類:描述元素和模型元素,結(jié)構(gòu)見圖2,描述元素主要用來描述一些流程基本信息,例如元素的一些屬性定義等,模型元素主要用來描述數(shù)據(jù)處理流程算法相關(guān)信息的。

14基于PMML的可視化

可視化就是利用簡單界面的方式來顯示數(shù)據(jù),把用戶需要的數(shù)據(jù)進(jìn)行可視化呈現(xiàn),增加了用戶對數(shù)據(jù)的掌握程度,進(jìn)而可以透徹的分析與挖掘信息的關(guān)系。PMML包含數(shù)據(jù)字典、預(yù)處理、模型等部分,非常適合進(jìn)行可視化展示[10]。目前42版本支持?jǐn)?shù)據(jù)可視化、模型可視化和驗證結(jié)果可視化功能。其中數(shù)據(jù)可視化部分是對數(shù)據(jù)集信息的可視化,PMML文件中元素MiningSchema的屬性Importance表示數(shù)據(jù)變量的重要性,可以作為可視化的數(shù)據(jù)源。模型可視化是指利用PMML文件的信息將其結(jié)構(gòu)可視化顯示出來,方便挖掘模式進(jìn)行顯示。驗證可視化是指對模型驗證的結(jié)果以可視化的形式展示,例如,當(dāng)預(yù)測分類數(shù)據(jù)時,混淆矩陣能夠用來說明預(yù)測精確度,PMML規(guī)范提供了ConfusionMatrix元素來配置混淆矩陣可視化信息。

2實驗分析

為了驗證本文提出的基于PMML跨平臺電子商務(wù)數(shù)據(jù)挖掘研究方法,采用某電商平臺為了挖掘潛在用戶的數(shù)據(jù)進(jìn)行驗證,實際選取了2 000個樣本,其中每一位用戶為一個樣本點,非潛在用戶為負(fù)樣本,用0表示,潛在用戶為正樣本,用1表示,數(shù)據(jù)存儲在數(shù)據(jù)庫的表結(jié)構(gòu)見圖3。從數(shù)據(jù)集合里隨機(jī)抽取1 500個充當(dāng)訓(xùn)練樣本,500個充當(dāng)測試樣本,實現(xiàn)對決策樹算法、貝葉斯算法、支持向量機(jī)和其改進(jìn)算法(LIBSVM)[11]進(jìn)行驗證,實驗結(jié)果見表1。PMML規(guī)范里的Model Explanation元素提供了一系列的評價指標(biāo)來評價模型的結(jié)果,主要有針對分類模型的Predictive Model Quality元素和針對聚類模型的Clustering Model Quality元素。本文引入可視化技術(shù)把模型評價的結(jié)果進(jìn)行顯示,主要的形式有ROC曲線和混淆矩陣。ROC曲線是把分類模型靈敏度和特異性按照可視化方式顯示,分類模型的優(yōu)劣可以通過曲線下方的面積來評價,好的分類模型應(yīng)該最大可能的靠近圖形的左上角,簡單的隨機(jī)猜測模型應(yīng)位于主對角線附件?;煜仃囍饕脕肀容^實際值與分類結(jié)果,可以把分類精度顯示在一個矩陣?yán)?,矩陣的每一行代表了分類信息,每一列代表了實際的測得信息。其中部分字段的ROC曲線見圖4。

根據(jù)圖4的實驗效果可知,屬性Co16、Co14具有很好的預(yù)測性能,屬性Co13、Co11和Co15具有很好的隨機(jī)預(yù)測性能,屬性Co17和Co18并不適合用來預(yù)測。根據(jù)表1可知,貝葉斯和決策樹算法隨著樣本數(shù)量的增加,訓(xùn)練時間也上升得很快,然而分類準(zhǔn)確率并沒有隨著上升,LIBSVM單次訓(xùn)練時間線性度要好很多,顯然SVM改進(jìn)以后隨著樣本數(shù)據(jù)的遞增,訓(xùn)練時間得到了很好的改善,而且分類準(zhǔn)確率得到了很好的提升。

3總結(jié)

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)進(jìn)入了海量數(shù)據(jù)時代,現(xiàn)有的數(shù)據(jù)挖掘平臺在跨機(jī)構(gòu)、跨平臺進(jìn)行數(shù)據(jù)挖掘時存在很大困難,本文提出基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法,分析了PMML如何描述數(shù)據(jù)挖掘流程與其跨平臺優(yōu)點,在研究的基礎(chǔ)上利用某電商平臺挖掘潛在客戶數(shù)據(jù)設(shè)計了實驗進(jìn)行驗證,并對結(jié)果進(jìn)行了分析,從而證明了本文提出的基于PMML的電子商務(wù)數(shù)據(jù)挖掘方法具有很好的跨平臺交換模型的功能,結(jié)合可視化技術(shù)可以把挖掘結(jié)果以更加直觀的方式展現(xiàn)給用戶。

參考文獻(xiàn)

陳發(fā)鴻.電子商務(wù)發(fā)展與政府應(yīng)對策略[J].管理科學(xué)研究,2011,12(5):3-4.

Turban E,King D.Electronic Commerce:A Managerial Perspective[J].Prentice Hall,2006,4(7):11-16.

[3]李桂華,姚唐.影響企業(yè)購買行為因素的概念化模型及其分析[J].現(xiàn)代財經(jīng),2007,11(27):110-129.

[4]趙文,胡文蕙,張世琨,等.工作流元模型的研究與應(yīng)用[J].軟件學(xué)報,2003,6(14):53-59.

[5]方駿,方云,肖杰.數(shù)據(jù)挖掘的工業(yè)標(biāo)準(zhǔn)的現(xiàn)狀和展望[J].計算機(jī)應(yīng)用研究,2004,12(6):8-10.

[6]Raspl S.PMML Version 30 Overview and Status[C].Seattle,WA,2004.

[7]Haym Hirsh.Data Mining Research:Current Status and Future Opportunities[J].Statistical Analysis and Data Mining,2008,2(1).

[8]汪加才,朱藝華.基于PMML的自組織神經(jīng)網(wǎng)絡(luò)元模型[J].計算機(jī)應(yīng)用與軟件,2006,23(11).

[9]Wang Chao,Zhou Nan,Qiu Li-juan.Based on the java support PMML code three layer data mining systems[J].Agriculture Information Network,2004,15(8).

[10]Donald Heam,等.計算機(jī)圖形學(xué)[M].蔡士杰,等譯.北京:電子工業(yè)出版社,2007.

[11]Lee Y C.Application of Support Vector Machines to Corporate Credit Rating Prediction[J].Expert Systems with Applications,2007,33(1):67-74.

(本文責(zé)任編輯:孫國雷)endprint

猜你喜歡
跨平臺電子商務(wù)
跨層級網(wǎng)絡(luò)、跨架構(gòu)、跨平臺的數(shù)據(jù)共享交換關(guān)鍵技術(shù)研究與系統(tǒng)建設(shè)
2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
一款游戲怎么掙到全平臺的錢?
電腦報(2021年11期)2021-07-01 08:10:05
跨平臺APEX接口組件的設(shè)計與實現(xiàn)
《電子商務(wù)法》如何助力直銷
電子商務(wù)
關(guān)于加快制定電子商務(wù)法的議案
電子商務(wù)人的核心能力
基于QT的跨平臺輸電鐵塔監(jiān)控終端軟件設(shè)計與實現(xiàn)
基于OPC跨平臺通信的電機(jī)監(jiān)測與診斷系統(tǒng)
乐至县| 樟树市| 出国| 合山市| 黔西| 界首市| 泉州市| 陇南市| 新龙县| 长子县| 秭归县| 芦山县| 收藏| 定襄县| 上思县| 玉门市| 阿荣旗| 福鼎市| 仁化县| 德钦县| 信宜市| 台州市| 罗山县| 镇安县| 旺苍县| 蒙城县| 巍山| 广饶县| 通州区| 三门峡市| 侯马市| 义马市| 沽源县| 博乐市| 东明县| 遂宁市| 井研县| 新化县| 平舆县| 漯河市| 安化县|