王艷
摘要:數(shù)據(jù)挖掘是當前數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿研究方向之一。該文從知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的概念出發(fā),總結(jié)了數(shù)據(jù)挖掘常采用的技術(shù)方法,同時對數(shù)據(jù)挖掘的應用及發(fā)展進行了闡述。該文以一個淘寶網(wǎng)行業(yè)的數(shù)據(jù)挖掘案例探討了數(shù)據(jù)挖掘在網(wǎng)絡經(jīng)濟下工商的應用;從技術(shù)和商業(yè)需求兩個方面分別研究了數(shù)據(jù)挖掘商務應用的可行性,并指出因競爭戰(zhàn)略的細化導致了對數(shù)據(jù)挖掘的商業(yè)需求。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡經(jīng)濟;序列模式
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)21-5261-03
隨著數(shù)據(jù)庫和網(wǎng)絡等技術(shù)的迅速發(fā)展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高,大量的數(shù)據(jù)儲存在數(shù)據(jù)庫和數(shù)據(jù)倉庫中,我們已被淹沒在數(shù)據(jù)和信息的汪洋大海中。這項以數(shù)據(jù)庫技術(shù)、網(wǎng)絡技術(shù)、統(tǒng)計分析、人工智能等為依托的綜合性運用技術(shù)的出現(xiàn)有其必然性和可行性。人們需要有新的、更有效的手段地各種大量數(shù)據(jù)進行挖掘以發(fā)揮其潛能,數(shù)據(jù)挖掘正是在這樣的應用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來的,它的出現(xiàn)為自動和智能地把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識提供了手段。
1網(wǎng)絡經(jīng)濟
網(wǎng)絡經(jīng)濟,一種建立在計算機網(wǎng)絡基礎(chǔ)之上,以現(xiàn)代信息技術(shù)為核心的新的經(jīng)濟形態(tài)。它以信息為基礎(chǔ),以計算機網(wǎng)絡為依托,以生產(chǎn)、分配、交換和消費網(wǎng)絡產(chǎn)品為主要內(nèi)容,以高科技為支持,以知識和技術(shù)創(chuàng)新為靈魂。它不僅是指以計算機為核心的信息技術(shù)產(chǎn)業(yè)的興起和快速增長,也包括以現(xiàn)代計算機技術(shù)為基礎(chǔ)的整個高新技術(shù)產(chǎn)業(yè)的崛起和迅猛發(fā)展,更包括由于高新技術(shù)的推廣和運用所引起的傳統(tǒng)產(chǎn)業(yè)、傳統(tǒng)經(jīng)濟部門的深刻的革命性變化和飛躍性發(fā)展。它實際上是一種在傳統(tǒng)經(jīng)濟基礎(chǔ)上產(chǎn)生的、經(jīng)過以計算機為核心的現(xiàn)代信息技術(shù)提升的高級經(jīng)濟發(fā)展形態(tài)。
2數(shù)據(jù)挖掘商網(wǎng)絡經(jīng)濟的案例
2.1電子商務行業(yè)概況
隨著電子商務行業(yè)不斷發(fā)展,新的供應商仍在進人市場與傳統(tǒng)企業(yè)競爭。電子商務行業(yè)促使雜貨、藥品、玩具零售商提供更低的價格和更全的商品。電子商務正以低成本、高效率、覆蓋廣、協(xié)調(diào)性強、透明度高等一系列明顯的交易優(yōu)勢席卷經(jīng)濟的各個層面。
2011年中國移動互聯(lián)網(wǎng)市場規(guī)模達393.1億元,同比增長97.5%,移動電子商務的飛速發(fā)展正是中國移動互聯(lián)網(wǎng)市場快速增長的主要推動力。2011年,移動電商在移動互聯(lián)網(wǎng)市場中的占比已接近三成,預計在2012年末可以達到57%以上。傳統(tǒng)互聯(lián)網(wǎng)電商企業(yè)在發(fā)展到一定規(guī)模后,有足夠的經(jīng)驗和資本向移動終端轉(zhuǎn)移,是移動電商快速增長的主要原因。
2.2數(shù)據(jù)挖掘分析過程
上面面用一個針對淘寶網(wǎng)滁州店鋪采集的樣本數(shù)據(jù),進行挖掘的例子來說明數(shù)據(jù)挖掘的具體應用。表1給出了數(shù)據(jù)源的部分字段格式。表2、表3給出了經(jīng)過整理和轉(zhuǎn)換后的適用于挖掘工具的數(shù)據(jù)樣本。在本案例中,我們自行編寫挖掘工具。限于篇幅,具體數(shù)據(jù)挖掘過程省略。
2.3數(shù)據(jù)挖掘應用分析結(jié)論
從上面電子商務行業(yè)數(shù)據(jù)挖掘后分析可以得出:
電子商務銷售的主體:我們找到進行網(wǎng)絡銷售的主體人(店鋪)及相關(guān)個人店鋪信息;
電子商務銷售的內(nèi)容:我們可以查詢店鋪所銷售的商品信息,對銷售商品是否違規(guī)進行監(jiān)管;
電子商務市場行為分析:特定范圍內(nèi)市場消費傾向是什么,以便引導,制定銷售、決策方案;
監(jiān)管范圍的擴展:傳統(tǒng)工商監(jiān)管只對實體店鋪進行監(jiān)管,通過對網(wǎng)絡的市場監(jiān)管,可以擴大工商管理監(jiān)管范圍,更加規(guī)范的市場。
3網(wǎng)絡數(shù)據(jù)挖掘的分析方法
針對網(wǎng)絡經(jīng)濟形態(tài)下的數(shù)據(jù)挖掘,我們主要采用以下三種方式進行數(shù)據(jù)挖掘:
3.1關(guān)聯(lián)分析
利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘研究領(lǐng)域,對于關(guān)聯(lián)分析的研究開展得比較深入,人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如APRIORI、STEM、AIS、DHP等算法。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。關(guān)聯(lián)分析就是生成所有具有用戶指定的最小置信度和最小支持度的關(guān)聯(lián)規(guī)則。
3.2分類分析
設有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。
3.3序列模式分析
序列模式分析和關(guān)聯(lián)分析法相似,其目的也是為了采掘出數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后(因果)關(guān)系。運用序列模式分析銷售記錄,零售商則可以發(fā)現(xiàn)客戶潛在的購物模式,例如客戶在購買微波爐前常購買何種商品。
3.4數(shù)據(jù)挖掘與信息過濾技術(shù)的結(jié)合
網(wǎng)絡的迅速發(fā)展導致了“信息過載”、“信息超載”現(xiàn)象,利用網(wǎng)絡數(shù)據(jù)挖掘中得到的數(shù)據(jù)進行信息過濾機制就是為了克服上述現(xiàn)象,減少用戶在獲得信息過程中的負擔,同時向用戶提供數(shù)量適宜、質(zhì)量優(yōu)良的信息應運而生的。比如在網(wǎng)絡內(nèi)容挖掘之前對網(wǎng)絡文檔中包含的信息進行過濾、篩選、分類和歸檔等操作,使網(wǎng)絡內(nèi)容挖掘所要處理的數(shù)據(jù)量得以減少,使輸入數(shù)據(jù)的質(zhì)量、網(wǎng)絡內(nèi)容挖掘的信息挖掘速度及精確度和用戶所得信息的時效性得以提高。
4網(wǎng)絡數(shù)據(jù)挖掘步驟
1)確定應用領(lǐng)域:包括此領(lǐng)域的基本知識和目標。
2)建立目標數(shù)據(jù)集:選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
3)數(shù)據(jù)預處理:在大數(shù)據(jù)集中,根據(jù)需求,利用數(shù)據(jù)凈化和整合技術(shù),選擇與任務相關(guān)數(shù)據(jù),在不降低其準確度的狀況下減少處理數(shù)據(jù)量。
4)數(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征進行編碼,減少有效變量的數(shù)目。
5)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)和所要發(fā)現(xiàn)知識的種類來確定相應的挖掘算法。
6)數(shù)據(jù)評價:將挖掘出的知識和數(shù)據(jù)以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進一步挖掘,直至滿意為止。
7)實施和應用:利用數(shù)據(jù)挖掘技術(shù)所建立模型在實際項目中的應用,包括數(shù)據(jù)庫的構(gòu)建,個性化用戶服務、基于知識的企業(yè)信息管理(MIS)、企業(yè)目標管理、決策支持等等。
5網(wǎng)絡數(shù)據(jù)挖掘的未來展望
以上數(shù)據(jù)時網(wǎng)絡經(jīng)濟形態(tài)下,在工商管理部分的應用,實際的工商管理目標是為工商管理與決策提供服務,未來的數(shù)據(jù)挖掘?qū)纬蓸藴实臄?shù)據(jù)挖掘語言或其他方面的標準化工作的數(shù)據(jù)挖掘系統(tǒng)。
數(shù)據(jù)挖掘能發(fā)現(xiàn)網(wǎng)絡中隱含的有價值的信息和知識,從而提高標引、自動摘要、自動分類和自動聚類等的準確率;能促進用戶興趣模型的構(gòu)建,從而為用戶提供更好的個性化信息,難以滿足網(wǎng)絡信息用戶的動態(tài)需求。在網(wǎng)絡信息檢索的實際應用中,往往不是單一地運用數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘需和其他相關(guān)技術(shù)結(jié)合,才能發(fā)揮出更大的效用。
參考文獻:
[1]劉彩虹,楊玉紅.論圖書館文獻信息服務的創(chuàng)新[J].圖書館工作與研究,2002 (1):59-61.
[2]王振強.用知識管理思想建設企業(yè)競爭情報——通過信息綜合利用實現(xiàn)企業(yè)競爭智能[EB/OL].(2004-12-15). http://www.vsharing. com/k/KM/2002-10/A453297.html.
[3]周黎明,邱均平.基于網(wǎng)絡的內(nèi)容分析法[J].情報學報,2005 (5):594-599.
[4]羅春榮,曹樹金.因特網(wǎng)的信息資源評價[J].中國圖書館學報,2001 (3):45-52.
[5]苗杰,倪波.面向集成競爭情報系統(tǒng)的數(shù)據(jù)挖掘應用研究[J].情報學報,2001 (8):443—450.
[6]翁燁.知識管理系統(tǒng)與市場數(shù)據(jù)挖掘的融合[J].中國信息導報,2003 (7):52-53.
[7]鄭宏珍,韓靜萍.異構(gòu)平臺數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[J].中國信息導報,2003 (2):53-55.