郭澤穎 張斐斐
【摘要】電子商務(wù)是時(shí)下熱門(mén)的現(xiàn)代商業(yè)模式,數(shù)據(jù)挖掘是大數(shù)據(jù)背景下先進(jìn)的信息處理技術(shù)。隨著用戶信息和商業(yè)需求的急劇增加,個(gè)性化服務(wù)的需求與日俱增。本文基于現(xiàn)今電子商務(wù)領(lǐng)域特別是客戶關(guān)系管理中對(duì)數(shù)據(jù)挖掘的應(yīng)用情況進(jìn)行了研究與總結(jié),并分析了數(shù)據(jù)挖掘的功能和應(yīng)用流程,探討了數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用中可能存在的一些問(wèn)題及其發(fā)展前景。
【關(guān)鍵詞】數(shù)據(jù)挖掘;電子商務(wù);客戶關(guān)系管理
1.引言
現(xiàn)代化科技飛速發(fā)展,商業(yè)模式也在不斷融入新技術(shù)以擴(kuò)大企業(yè)盈利。因此具備智能化需求的電子商務(wù)也應(yīng)運(yùn)而生。對(duì)電商企業(yè)而言,用戶的消費(fèi)行為、購(gòu)買(mǎi)習(xí)慣等信尤為重要的。在大量的用戶信息中抽取出隱含的、具有潛在價(jià)值的規(guī)律,分析用戶對(duì)產(chǎn)品的潛在偏好,這是數(shù)據(jù)挖掘的研究目的。如今,電子商務(wù)與數(shù)據(jù)挖掘的結(jié)合應(yīng)用已成為一大研究熱點(diǎn)。本文針對(duì)數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用情況,對(duì)相關(guān)技術(shù)進(jìn)行介紹,分析其可行性,討論發(fā)展過(guò)程存在的一些問(wèn)題,并闡述數(shù)據(jù)挖掘在該領(lǐng)域的發(fā)展前景。
2.電子商務(wù)與客戶關(guān)系管理
電子商務(wù)是傳統(tǒng)商業(yè)活動(dòng)各環(huán)節(jié)的電子化、網(wǎng)絡(luò)化。交易雙方不需要見(jiàn)面就能夠進(jìn)行各種商貿(mào)活動(dòng)、交易活動(dòng)、金融活動(dòng)和相關(guān)的綜合服務(wù)活動(dòng)。其中,客戶關(guān)系管理(簡(jiǎn)稱(chēng) CRM)是企業(yè)活動(dòng)面向長(zhǎng)期的客戶關(guān)系,以求提升企業(yè)成功的管理方式,其目的之一是要協(xié)助企業(yè)管理銷(xiāo)售循環(huán)。
3.數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫(kù)中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價(jià)值的)信息或模式的過(guò)程。它融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的研究?jī)?nèi)容。目前與商業(yè)問(wèn)題相關(guān)的數(shù)據(jù)挖掘算法很多,比較典型的有關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、時(shí)間序列模式分析、回歸分析等。
4.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
4.1 電子商務(wù)中數(shù)據(jù)挖掘過(guò)程
數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用過(guò)程中大致需要以下幾個(gè)階段:
4.1.1 業(yè)務(wù)對(duì)象的確定與問(wèn)題定義
在電子商務(wù)領(lǐng)域中運(yùn)用數(shù)據(jù)挖掘技術(shù),首先企業(yè)應(yīng)聯(lián)系實(shí)際,準(zhǔn)確定義業(yè)務(wù)中存在的問(wèn)題,確定在客戶關(guān)系管理(CRM)中的操作對(duì)象和所期望的商業(yè)目標(biāo),在此基礎(chǔ)上收集數(shù)據(jù),進(jìn)行預(yù)處理工作,為后期建立預(yù)測(cè)模型夯實(shí)基礎(chǔ)。
4.1.2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是非常重要的一步,數(shù)據(jù)質(zhì)量至關(guān)重要。這個(gè)過(guò)程包括數(shù)據(jù)收集、處理及轉(zhuǎn)換。1)數(shù)據(jù)收集:數(shù)據(jù)的選取階段目的是確定業(yè)務(wù)問(wèn)題所涉及的操作數(shù)據(jù)對(duì)象。根據(jù)用戶需要從原始數(shù)據(jù)庫(kù)抽取與業(yè)務(wù)對(duì)象相關(guān)的數(shù)據(jù),并能夠及時(shí)和完整的訪問(wèn)來(lái)自多個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)對(duì)象。2)數(shù)據(jù)預(yù)處理:消除噪音,遺漏數(shù)據(jù)處理,重復(fù)數(shù)據(jù)刪除,目的是為了克服現(xiàn)有的數(shù)據(jù)挖掘技術(shù)和工具的局限性,對(duì)信息過(guò)濾清理和規(guī)范化,驗(yàn)證其真實(shí)性、有效性及完整性。3)數(shù)據(jù)轉(zhuǎn)換:從初始特征中篩選出真正與挖掘任務(wù)相關(guān)聯(lián)的特征,將數(shù)據(jù)轉(zhuǎn)換成元數(shù)據(jù)模型。一個(gè)針對(duì)數(shù)據(jù)的數(shù)據(jù)挖掘算法建立的元數(shù)據(jù)模型決定了數(shù)據(jù)挖掘的成功與否。
4.1.3 建立數(shù)據(jù)挖掘模型
這是數(shù)據(jù)挖掘操作的核心步驟,包括學(xué)習(xí)算法的選擇,建立適當(dāng)?shù)臄?shù)據(jù)挖掘模型等。企業(yè)根據(jù)業(yè)務(wù)需求和結(jié)構(gòu)、數(shù)據(jù)特點(diǎn)等綜合考慮多方面的因素以有效達(dá)到商業(yè)目標(biāo)。通過(guò)選擇合適的挖掘算法、預(yù)測(cè)實(shí)例和訓(xùn)練數(shù)據(jù),確定數(shù)據(jù)分析工具,應(yīng)用統(tǒng)計(jì)、事例推理、決策樹(shù),甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法等不同方法處理信息,得出有用的分析結(jié)果。
4.1.4 解釋和評(píng)價(jià)模型
這個(gè)過(guò)程是將數(shù)據(jù)挖掘的結(jié)果以易理解、執(zhí)行的方式展示,并評(píng)判該數(shù)據(jù)挖掘的質(zhì)量。通常用支持度和可信度做為評(píng)估指標(biāo),前者驗(yàn)證實(shí)用性,后者驗(yàn)證準(zhǔn)確性。若評(píng)估結(jié)果不佳則可能需要重新進(jìn)行模型的訓(xùn)練和測(cè)試,整合數(shù)據(jù)或重新修正原有的模型,直至得到令人滿意的挖掘模型及測(cè)試集為止。
數(shù)據(jù)挖掘是不斷循環(huán)的動(dòng)態(tài)過(guò)程,需要反復(fù)修正。原先建立的模型可能由于數(shù)據(jù)變動(dòng)和系統(tǒng)等原因失效,需要重新建立。另外,電商企業(yè)商業(yè)目標(biāo)的變化可能會(huì)產(chǎn)生新的數(shù)據(jù)挖掘應(yīng)用,因此數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用會(huì)根據(jù)客戶信息和業(yè)務(wù)需求的變動(dòng)而改變。
4.2 數(shù)據(jù)挖掘在電子商務(wù)中的模式
4.2.1 關(guān)聯(lián)分析(Association)
關(guān)聯(lián)分析就是從大量數(shù)據(jù)中發(fā)現(xiàn)其間的聯(lián)系。在客戶關(guān)系管理的應(yīng)用中,它通過(guò)發(fā)現(xiàn)消費(fèi)者消費(fèi)的不同商品之間的聯(lián)系來(lái)分析其購(gòu)買(mǎi)習(xí)慣,了解商品的購(gòu)買(mǎi)頻率,這種關(guān)聯(lián)的發(fā)現(xiàn)與分析可以幫助賣(mài)家制定營(yíng)銷(xiāo)策略。如在美國(guó),年輕的父親去超市為嬰兒購(gòu)買(mǎi)尿布時(shí),總會(huì)順便為自己購(gòu)買(mǎi)啤酒,這就出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。而沃爾瑪超市通過(guò)發(fā)現(xiàn)這一規(guī)律來(lái)改變商品銷(xiāo)售策略,從而獲得了很好的商品銷(xiāo)售收入。這就是著名的“啤酒與尿布”的故事。
4.2.2 聚類(lèi)分析(Clustering)
從統(tǒng)計(jì)學(xué)的角度講,聚類(lèi)分析是一種通過(guò)數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的方法;從機(jī)器學(xué)習(xí)的觀點(diǎn)看,簇相當(dāng)于隱藏模式。聚類(lèi)是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程。這種探索性分析在分類(lèi)的過(guò)程中,無(wú)需事先人為地給出分類(lèi)的標(biāo)準(zhǔn),它能夠以樣本數(shù)據(jù)為基礎(chǔ),自動(dòng)進(jìn)行分類(lèi)。而這個(gè)過(guò)程中使用方法的不同也會(huì)得到不同的結(jié)論,因而所得到的聚類(lèi)數(shù)未必一致。
聚類(lèi)分析在客戶關(guān)系管理的應(yīng)用中,需要根據(jù)目標(biāo)群體的年齡、消費(fèi)水平和地區(qū)等來(lái)區(qū)分不同層次的目標(biāo)群體,提高用戶體驗(yàn)的針對(duì)性,以便于開(kāi)展“一對(duì)一”營(yíng)銷(xiāo)和個(gè)性化服務(wù)。
4.2.3 分類(lèi)分析(Classification)
分類(lèi)分析不同于聚類(lèi)分析的觀察式學(xué)習(xí)過(guò)程,它的實(shí)例和操作的數(shù)據(jù)對(duì)象是有事先定義好的類(lèi)別標(biāo)記的。這種有監(jiān)督的學(xué)習(xí)過(guò)程,通過(guò)分析已有數(shù)據(jù)來(lái)為每個(gè)類(lèi)作出準(zhǔn)確描述并建立數(shù)據(jù)分析模型,總結(jié)出分類(lèi)規(guī)則,并將這個(gè)規(guī)則用到其他數(shù)據(jù)庫(kù)中。這些數(shù)據(jù)庫(kù)中的記錄都有一個(gè)類(lèi)別的標(biāo)記。
用于分類(lèi)分析的技術(shù)有很多,典型方法有統(tǒng)計(jì)方法的貝葉斯分類(lèi)、機(jī)器學(xué)習(xí)的決策樹(shù)歸納分類(lèi)、神經(jīng)網(wǎng)絡(luò)的后向傳播分類(lèi)等。
4.3 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)的應(yīng)用現(xiàn)狀
在電子商務(wù)的運(yùn)用中,各種不同的分析方法互相支持、融合運(yùn)用便能夠獲得系統(tǒng)中數(shù)據(jù)的分布狀況和特征,并可集中做進(jìn)一步地分析。在電商企業(yè)對(duì)用戶的個(gè)性化需求管理中,它能分析客戶瀏覽和購(gòu)物等習(xí)慣,這樣可以幫助電商企業(yè)及時(shí)調(diào)整企業(yè)網(wǎng)站的頁(yè)面展示及服務(wù)策略。同時(shí),這也有利于對(duì)客戶更有效提供智能服務(wù)。
4.4 電子商務(wù)中數(shù)據(jù)挖掘應(yīng)用中可能存在的弊端、缺陷
4.4.1 數(shù)據(jù)挖掘涉及私有數(shù)據(jù)與信息安全
在大量的用戶數(shù)據(jù)中進(jìn)行分析則必然存在著數(shù)據(jù)私有性與信息安全性的問(wèn)題。電子商務(wù)領(lǐng)域中的信息包括了用戶消費(fèi)、支付等相關(guān)數(shù)據(jù),這給數(shù)據(jù)挖掘中的信息處理帶來(lái)一定的困難,也要求數(shù)據(jù)分析人員應(yīng)當(dāng)具備必要的職業(yè)操守,以防用戶信息的泄露。
4.4.2 數(shù)據(jù)趨勢(shì)的預(yù)測(cè)隱含不確定性
數(shù)據(jù)庫(kù)中的記錄到達(dá)一定的數(shù)量級(jí)時(shí),就會(huì)顯露出其中隱含的變化趨勢(shì)。對(duì)電商企業(yè)而言,把握趨勢(shì)的預(yù)測(cè)即掌握了市場(chǎng)的先機(jī)。但現(xiàn)在并沒(méi)有為這些趨勢(shì)定義一個(gè)標(biāo)準(zhǔn)來(lái)準(zhǔn)確的判斷某個(gè)趨勢(shì)的合理性,數(shù)據(jù)挖掘過(guò)程中大量的數(shù)據(jù)信息格式未被標(biāo)準(zhǔn)化,這些都是應(yīng)用過(guò)程中存在的問(wèn)題。
針對(duì)這一問(wèn)題,可以應(yīng)用前文提到的聚類(lèi)分析方法,把相似行為的用戶集中成簇進(jìn)行詳細(xì)分析,為不同特點(diǎn)的用戶簇進(jìn)行業(yè)務(wù)、站點(diǎn)的動(dòng)態(tài)改變,從而更靈活準(zhǔn)確地預(yù)測(cè)數(shù)據(jù)趨勢(shì)。
4.4.3 數(shù)據(jù)模型的可靠性尚未成熟
數(shù)據(jù)模型包括概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型,目前數(shù)據(jù)挖掘的模型也玲瑯滿目,但這些模型均并不成熟。上文討論過(guò),數(shù)據(jù)模型相異、應(yīng)用方式的不同都可能產(chǎn)生截然不同的結(jié)果,這就涉及到數(shù)據(jù)可靠性的問(wèn)題。因此,我們需要確保數(shù)據(jù)在處理過(guò)程中的準(zhǔn)確性與實(shí)時(shí)性,從而保障挖掘結(jié)果的準(zhǔn)確度。
5.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中應(yīng)用的前景
現(xiàn)在的數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)時(shí)代的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中已經(jīng)進(jìn)入切實(shí)可用的階段,并在完善中走向成熟。其中,客戶關(guān)系管理顯得格外重要。
強(qiáng)烈的市場(chǎng)需求是數(shù)據(jù)挖掘技術(shù)在電子商務(wù)應(yīng)用中的必然結(jié)果,隨著Web技術(shù)的發(fā)展,各類(lèi)電子商務(wù)網(wǎng)站風(fēng)起云涌,電子商務(wù)業(yè)務(wù)的激烈競(jìng)爭(zhēng)也與日俱增。每天電商網(wǎng)站用戶的在線交易量呈爆炸式增長(zhǎng),產(chǎn)生了大量數(shù)據(jù)記錄。要提高企業(yè)的競(jìng)爭(zhēng)力,就要進(jìn)行相關(guān)的數(shù)據(jù)挖掘與分析,為客戶提供周到的個(gè)性化服務(wù),這要求企業(yè)不斷完善自身網(wǎng)站建設(shè)與應(yīng)用的優(yōu)化。由此,電子商務(wù)中數(shù)據(jù)挖掘的應(yīng)用地位就變得舉足輕重。
6.結(jié)束語(yǔ)
良好的客戶關(guān)系管理是電子商務(wù)活動(dòng)能夠更好地進(jìn)行的基礎(chǔ),通過(guò)選擇恰當(dāng)?shù)臄?shù)據(jù)挖掘技術(shù)和建立合適的數(shù)據(jù)模型來(lái)獲取有價(jià)值的信息,可建立企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì),取得商業(yè)先機(jī)。同時(shí),數(shù)據(jù)挖掘帶來(lái)的極大便利也使客戶稱(chēng)為最大的贏家。隨著數(shù)據(jù)挖掘技術(shù)在電子商務(wù)應(yīng)用領(lǐng)域的不斷發(fā)展與完善,將會(huì)使得電商的用戶體驗(yàn)越來(lái)越完美,對(duì)企業(yè)而言也意味著更為可觀的發(fā)展。
參考文獻(xiàn)
[1]王劍.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2).
[2]曹先明.WEB數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].科技傳播,2012(14).
[3]曹麗君.基于電子商務(wù)的數(shù)據(jù)挖掘探究[J].商場(chǎng)現(xiàn)代化,2008(5).
[4]魏宏昌.淺析Web數(shù)據(jù)挖掘在現(xiàn)代企業(yè)中的應(yīng)用[J].世界家苑,2012(10).
[5]Weiyang Lin,Sergio A.Alvarez.Carolina Ruiz,Efficient Adaptive-Support Association Rule Mining for Recommender Systems Data Mining and Knowledge Discovery.2002,1,1:45-78.
[6]劉三榮.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].科技信息,2006(4).
作者簡(jiǎn)介:
郭澤穎,(1993—),女,大學(xué)本科,現(xiàn)就讀于四川大學(xué)軟件學(xué)院。
張斐斐(1994—),女,大學(xué)本科,現(xiàn)就讀于四川大學(xué)計(jì)算機(jī)學(xué)院。