冷旭峰
引言:在電子商務中對數(shù)據(jù)挖掘技術進行應用,能夠有效地組織利用豐富的數(shù)據(jù)源信息,挖掘出對電子商務有重要價值的信息。本文對電子商務中的數(shù)據(jù)挖掘技術進行了詳細的研究,分析了電子商務中對數(shù)據(jù)挖掘技術的應用,然后從數(shù)據(jù)信息與挖掘任務兩個角度指出了數(shù)據(jù)挖掘技術的適用場合。
當前,數(shù)據(jù)庫技術和網(wǎng)絡技術的發(fā)展日趨成熟,世界上傳統(tǒng)商務也正在經(jīng)歷一次重大的改革,電子商務成為發(fā)展重點。電子商務的一個重要應用技術就是數(shù)據(jù)挖掘技術,并且數(shù)據(jù)挖掘技術可以給正確的商業(yè)決定提供可靠的保證和強有力的支持,因此,數(shù)據(jù)挖掘技術被認為是電子商務中必不可少的工具。
一、數(shù)據(jù)挖掘技術的概念和應用
數(shù)據(jù)挖掘就是對數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù)進行挖掘,來找出有意義的新的關聯(lián)趨勢和關聯(lián)模式的過程。從商業(yè)的角度看,數(shù)據(jù)挖掘技術是一個對商業(yè)信息進行處理的新技術,具有能夠分析、轉換、抽取和其他模型化處理商業(yè)數(shù)據(jù)庫中大量業(yè)務數(shù)據(jù),從中提取出能夠輔助商業(yè)決定的關鍵性數(shù)據(jù)的特點。
因為數(shù)據(jù)挖掘可以給電子商務帶來顯著的經(jīng)濟效益,所以其在電子商務中也有越來越廣泛的應用。
數(shù)據(jù)挖掘應用于零售業(yè),能夠幫助商家識別顧客的購買行為,發(fā)現(xiàn)顧客的購買趨勢和模式,從而可以幫助商家有針對性的提高服務質量,獲得更好的顧客滿意度與顧客保持力,提高貨物的銷量,設計出更好的貨物分銷與運輸方法,降低商業(yè)成本。
數(shù)據(jù)挖掘應用于金融領域,能夠幫助管理者分析客戶的信用情況與償還能力,并對其進行分類和評級,從而降低放貸的錯誤率,提升資金的使用效率。通過數(shù)據(jù)挖掘,還可以找到在償還中有決定作用的主導因素,制定相應的金融策略,還能夠發(fā)現(xiàn)洗黑錢和其它金融犯罪活動。
二、如何選擇正確的數(shù)據(jù)挖掘技術
數(shù)據(jù)庫方法、神經(jīng)網(wǎng)絡方法、機器學習方法和統(tǒng)計方法都是數(shù)據(jù)挖掘所使用的技術。本文將從可獲得的數(shù)據(jù)與數(shù)據(jù)挖掘任務兩個方面來說明如何選擇正確的數(shù)據(jù)挖掘技術。
2.1 可獲得的數(shù)據(jù)
數(shù)據(jù)挖掘可獲得的數(shù)據(jù)信息主要是內(nèi)容、記錄和字段類型之間的關系,并且對數(shù)據(jù)挖掘技術的選擇有影響的數(shù)據(jù)性質有以下幾個:
第一,數(shù)值字段:聚集檢測和MBR使用距離函數(shù)對數(shù)值字段進行處理;神經(jīng)元網(wǎng)絡把所有的輸入轉化到0-1之間;決策樹使用splitter數(shù)值對數(shù)值字段進行處理;關聯(lián)分析需要把數(shù)值變量區(qū)間轉化為種類變量區(qū)間,但是區(qū)間的選擇十分困難。
第二,種類字段:決策樹、連接分析、關聯(lián)分析都很適用于種類字段。
第三,多個非獨立的目標字段:神經(jīng)元網(wǎng)絡可以很好地應用于存在多個依賴變量的情況。
第四,自由文本數(shù)據(jù):采用MBR技術是最佳選擇。
第五,具有時間順序的數(shù)據(jù):關聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡對有時間順序的數(shù)據(jù)有比較好的處理能力。時間順序也可以用決策樹處理,但是需要準備較多的數(shù)據(jù)。
第六,每條記錄都有大量獨立的字段:關聯(lián)規(guī)則挖掘、MBR技術、神經(jīng)元網(wǎng)絡都會受到記錄中字段多的影響。但是決策樹就會受到程度較小的影響。
第七,變長的記錄:只有連接分析和關聯(lián)規(guī)則能夠對變長的記錄進行處理,而如果使用其它技術,就需要對數(shù)據(jù)進行預處理:把一條記錄拆分為幾條記錄,每個都含有記錄號;能夠生成一些統(tǒng)計字段。
2.2 數(shù)據(jù)挖掘任務
從數(shù)據(jù)中發(fā)現(xiàn)模式是數(shù)據(jù)挖掘的任務。在對某種數(shù)據(jù)挖掘技術進行選擇之前,第一,要把需要解決的商業(yè)問題轉化成正確的數(shù)據(jù)挖掘任務;第二,依照數(shù)據(jù)挖掘的任務來決定使用幾種或者是哪一種數(shù)據(jù)挖掘技術。以下將以聚集和概念描述為例,對挖掘任務需要使用哪些挖掘技術進行分析。
(1)聚集。聚集就是把整個數(shù)據(jù)庫分為不同的群組。其目的是使同一個群之間的數(shù)據(jù)盡量相似,而不同的群之間要有很明顯的差別。協(xié)助市場分析人員在客戶基本信息庫中找出不同的客戶群,并用購買模式對不同客戶群的特征進行刻畫是電子商務中對聚集的典型應用。另外,聚類分析也能作為分類、特征等其他算法的預處理步驟,這些算法可以再在生成的簇上進行處理。聚集與分類不同的是,在開始之前一般不知道該把數(shù)據(jù)分成幾組和怎樣分,所以要有一個對業(yè)務特別熟悉的人在聚集之后對這樣分群的意義進行解釋。一般情況下,需要經(jīng)過幾次反復的增加或刪除變量才能得到理想的結果。
(2)概念描述。描述式數(shù)據(jù)挖掘的最基本形式就是概念描述。概念描述以簡潔匯總的形式對給定的任務的相關數(shù)據(jù)集進行描述,提供數(shù)據(jù)的一般特征。一般,通過數(shù)據(jù)庫來查詢收集用戶指定類的數(shù)據(jù)。有兩種概念特征化的一般方法:面向屬性歸納的方法和基于數(shù)據(jù)立方體OLAP的方法,這兩種方法都是基于維或屬性的概念化方法。一般使用面向數(shù)據(jù)庫的方法實行概念描述挖掘,并且還能夠采用機器學習方法中的基于范例學習的技術來進行。
三、小結
選擇能夠解決電子商務中一些問題的數(shù)據(jù)挖掘技術的時候,需要根據(jù)具體問題的特點來選擇合適的技術方法,在選擇了符合數(shù)據(jù)模型的算法之后,就要確定正確的模型與參數(shù)。并且要想很好的發(fā)揮數(shù)據(jù)挖掘能夠幫助企業(yè)在激烈的競爭中做出正確決定的作用,就必須選對合適的數(shù)據(jù)挖掘工具。
參考文獻
[1]胡永祥.電子商務系統(tǒng)中的數(shù)據(jù)挖掘技術研究[J].電子世界,2013,(24):25-25.
[2]徐羨文,鄭廈君.數(shù)據(jù)挖掘技術在電子商務推薦中的應用[J].電腦知識與技術,2011,07(27):65-66.
[3]楊波.淺談數(shù)據(jù)挖掘技術應用[J].電腦知識與技術,2010,06(24):82-83.
(作者單位:江西經(jīng)濟管理干部學院)