安 康,韓兆洲
(暨南大學(xué)a.經(jīng)濟(jì)學(xué)院;b.教育學(xué)院,廣州 510632)
數(shù)據(jù)挖掘的正式研究始于1995年在加拿大召開的第一屆“知識發(fā)現(xiàn)和數(shù)據(jù)挖掘”國際學(xué)術(shù)會議,由此,數(shù)據(jù)挖掘一詞很快流傳開來。數(shù)據(jù)挖掘是一門交叉學(xué)科,它匯聚了統(tǒng)計學(xué)、數(shù)據(jù)庫、人工智能、計算科學(xué)等不同學(xué)科和領(lǐng)域,近年來受到各界的廣泛關(guān)注。
數(shù)據(jù)挖掘與統(tǒng)計學(xué)有著密切的關(guān)系。數(shù)據(jù)挖掘的出現(xiàn)為統(tǒng)計學(xué)提供了一個新的應(yīng)用領(lǐng)域,同時也對統(tǒng)計學(xué)的理論研究提出了挑戰(zhàn),數(shù)據(jù)挖掘的出現(xiàn)無疑將推動統(tǒng)計學(xué)的發(fā)展。近年來,國內(nèi)的許多統(tǒng)計學(xué)者從統(tǒng)計學(xué)視角對數(shù)據(jù)挖掘進(jìn)行了理論及應(yīng)用研究,取得了一定的研究成果。
研究現(xiàn)狀,涉及數(shù)據(jù)挖掘在統(tǒng)計學(xué)界的研究成果、研究階段和研究內(nèi)容三個方面。
2009年cssci收錄統(tǒng)計學(xué)專業(yè)期刊共4類,分別為《統(tǒng)計研究》、《統(tǒng)計與決策》、《統(tǒng)計與信息論壇》、《數(shù)理統(tǒng)計與管理》。從研究成果看,就筆者所能收集到的資料以及期刊網(wǎng)統(tǒng)計,至少有:關(guān)于譯著1部——《統(tǒng)計學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測》,專著6部,核心期刊文章85篇,其中發(fā)表在權(quán)威期刊《統(tǒng)計研究》上的文章14篇,發(fā)表在期刊《統(tǒng)計與決策》上的文章45篇,發(fā)表在期刊《統(tǒng)計與信息論壇》上的文章15篇,發(fā)表在期刊《數(shù)理統(tǒng)計與管理》上的文章11篇。歷史地看,這些成果對于數(shù)據(jù)挖掘在統(tǒng)計學(xué)中的研究都發(fā)揮著不同的作用。韓明2001年在《統(tǒng)計研究》上發(fā)文《數(shù)據(jù)挖掘及其對統(tǒng)計學(xué)的挑戰(zhàn)》,文章第一次指出數(shù)據(jù)挖掘?qū)y(tǒng)計學(xué)提出新問題,正式吹響了數(shù)據(jù)挖掘進(jìn)駐統(tǒng)計學(xué)研究領(lǐng)域的號角。張堯庭教授和謝邦昌教授是真正將數(shù)據(jù)挖掘引入統(tǒng)計學(xué)研究的引路人,2002~2003年他們合作的3篇文章發(fā)表于 《統(tǒng)計研究》上,此時的研究仍是將數(shù)據(jù)挖掘引入統(tǒng)計學(xué)的階段,以他們?yōu)楹诵牡膶W(xué)術(shù)團(tuán)隊對于數(shù)據(jù)挖掘在統(tǒng)計研究的貢獻(xiàn)體現(xiàn)在兩方面:一是明晰了數(shù)據(jù)挖掘的概念;二是介紹了數(shù)據(jù)挖掘的簡單規(guī)則和方法。薛薇2002年也在《統(tǒng)計研究》上發(fā)文《基于統(tǒng)計數(shù)據(jù)的OLAP數(shù)據(jù)挖掘技術(shù)》,目的是介紹數(shù)據(jù)挖掘的基本方法。朱建平教授是數(shù)據(jù)挖掘在統(tǒng)計研究方面的主力軍,朱建平教授及其團(tuán)隊一直以數(shù)據(jù)挖掘作為研究方向,在2004~2008年間,共發(fā)表數(shù)據(jù)挖掘研究方面相關(guān)文章15篇,其中6篇發(fā)表于權(quán)威期刊《統(tǒng)計研究》,建立了較完整的數(shù)據(jù)挖掘的方法和知識體系。文章不僅包括了對數(shù)據(jù)挖掘的理論介紹,而且還探討了對數(shù)據(jù)挖掘技術(shù)的統(tǒng)計學(xué)改進(jìn)。
從發(fā)展時期上來看,數(shù)據(jù)挖掘研究在統(tǒng)計學(xué)中的應(yīng)用也經(jīng)歷了以下幾個階段。(1)初始階段(2001~2003年)。在這個階段國內(nèi)數(shù)據(jù)挖掘初露端倪,這段時間相關(guān)研究論文不多,僅有10篇研究文章刊發(fā),研究內(nèi)容主要從宏觀上對數(shù)據(jù)挖掘技術(shù)進(jìn)行描述。(2)激增階段(2004~2005年)。這階段研究論文有顯著增長,有33篇研究文章刊發(fā)。2003年的發(fā)文量比前3年的發(fā)文量總和還要多,2004年發(fā)文量達(dá)到了20篇,這說明學(xué)術(shù)界開始重視數(shù)據(jù)挖掘的研究。研究內(nèi)容也呈現(xiàn)出多樣性,既包括數(shù)據(jù)挖掘技術(shù)方法研究,也包括數(shù)據(jù)挖掘的應(yīng)用研究。(3)應(yīng)用階段(2006~2007年)。這階段共有18篇研究文章刊發(fā)。從學(xué)術(shù)研究的角度分析,數(shù)據(jù)挖掘的研究正逐漸走向成熟并開始向其他領(lǐng)域滲透。
從研究內(nèi)容看,迄今為止有關(guān)數(shù)據(jù)挖掘的研究,內(nèi)容主要集中在以下四個方面。
第一,對數(shù)據(jù)挖掘概念的界定。數(shù)據(jù)挖掘的概念在表述上雖仍存有不同,但是內(nèi)涵上基本達(dá)成一致。對數(shù)據(jù)挖掘通行的定義是:數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。
第二,數(shù)據(jù)挖掘的功能和任務(wù)。數(shù)據(jù)挖掘的程序及功能已基本達(dá)成共識,可概括如下:(1)數(shù)據(jù)總結(jié)。通過對數(shù)據(jù)的總結(jié),實現(xiàn)對原始數(shù)據(jù)的總體把握;(2)分類。找出一個類別的概念描述,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中;(3)關(guān)聯(lián)分析。對兩個或多個取值重復(fù)出現(xiàn)且概率很高的數(shù)據(jù)項建立起關(guān)聯(lián)規(guī)則;(4)聚類分析。按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合;(5)預(yù)測。利用歷史數(shù)據(jù)找出變化規(guī)律并用此模型來預(yù)測未來數(shù)據(jù)的種類特征等;(6)序列發(fā)現(xiàn)。從與學(xué)習(xí)任務(wù)相關(guān)的一組數(shù)據(jù)中提取出表達(dá)該數(shù)據(jù)集總體特征的特征式。
第三,對數(shù)據(jù)挖掘的方法技術(shù)改進(jìn)。數(shù)據(jù)挖掘的傳統(tǒng)方法技術(shù)包括了關(guān)聯(lián)規(guī)則挖掘、神經(jīng)網(wǎng)絡(luò)方法、可視化技術(shù)、粗糙集方法等,許多統(tǒng)計學(xué)者從統(tǒng)計學(xué)的視角對這些數(shù)據(jù)挖掘方法提出改進(jìn)。劉云霞、曾五一提出一種基于可辨識矩陣的離散化方法,該方法既能夠反映“區(qū)間內(nèi)的一致性和區(qū)間之間的差異性”的原則又能夠較好地克服Chi2算法的不足。朱建平、謝邦昌從統(tǒng)計學(xué)的角度對數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘進(jìn)行了剖析,并利用相應(yīng)分析方法,對關(guān)聯(lián)規(guī)則A—>B進(jìn)行了“提升”。來升強(qiáng)、朱建平提出用粗糙集方法選擇出最優(yōu)子空間,并利用等價關(guān)系的屬性集產(chǎn)生分類的大型數(shù)據(jù)聚類方法。朱建平、張潤楚在探討事務(wù)性數(shù)據(jù)庫的壓縮問題時,將統(tǒng)計思想與Rough集理論相結(jié)合,提出了一些新方法以達(dá)到數(shù)據(jù)庫壓縮的目的。殷瑞飛、朱建平基于Q型因子分析的基本思想,結(jié)合對應(yīng)分析方法,建立了一種適用于大型數(shù)據(jù)庫聚類的方法。李金昌、徐雪琪在提出數(shù)據(jù)挖掘存在質(zhì)量問題時,提出了處理數(shù)據(jù)挖掘質(zhì)量問題的一系列方法。朱梅紅提出了數(shù)據(jù)挖掘中抽樣技術(shù)方法的應(yīng)用。劉云霞提出了基于似然比假設(shè)檢驗的連續(xù)屬性離散化方法。謝佳斌、金勇進(jìn)提出采用放回的、與樣本單元權(quán)數(shù)大小成比例的再抽樣方法實現(xiàn)“事后”自加權(quán)設(shè)計,以使得后的子樣本可以直接采用數(shù)據(jù)挖掘算法進(jìn)行分析。
第四,對數(shù)據(jù)挖掘應(yīng)用技術(shù)的研究。數(shù)據(jù)挖掘的應(yīng)用研究是最活躍的研究領(lǐng)域之一。目前,數(shù)據(jù)挖掘的研究領(lǐng)域已遍及包括金融業(yè)、電信業(yè)、營銷業(yè)、零售商、制造業(yè)、醫(yī)療保健、制藥業(yè)等各行業(yè)。朱順泉對房地產(chǎn)業(yè)上市公司的統(tǒng)計數(shù)據(jù)進(jìn)行挖掘,不僅輔助企業(yè)透視企業(yè)財務(wù)狀況,做出合理的投資決策,而且各上市公司可以根據(jù)自己的營運(yùn)等級,找出問題所在,修正自己公司的經(jīng)營模式;王維佳應(yīng)用數(shù)據(jù)挖掘?qū)﹄娦趴蛻袅魇нM(jìn)行分析預(yù)測,及時的給電信運(yùn)營商提供決策依據(jù),保障電信服務(wù)業(yè)達(dá)到以客戶為中心;劉京軍在信用管理領(lǐng)域應(yīng)用數(shù)據(jù)挖掘,不僅對信用申請者申請的接受與否進(jìn)行分類和判斷,而且對顧客的行為計分以及利潤模型進(jìn)行了研究;張俊妮采用某個給顧客直郵產(chǎn)品目錄的公司的真實數(shù)據(jù),討論了如何使用數(shù)據(jù)挖掘方法對歷史數(shù)據(jù)進(jìn)行分析,從而提高直郵的營銷效率;丁文捷應(yīng)用數(shù)據(jù)挖掘技術(shù)研究分析服裝企業(yè)生產(chǎn)過程形成的近百萬條人體量體數(shù)據(jù)、銷售數(shù)據(jù),從而為服裝投產(chǎn)號型決策提供依據(jù);高雷使用數(shù)據(jù)挖掘的方法,在歷史數(shù)據(jù)中探討了政策和股市走勢之間的深層關(guān)系。王建仁通過建立銀行數(shù)據(jù)倉庫,運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行銀行客戶關(guān)系管理。
社會經(jīng)濟(jì)的向前發(fā)展使得統(tǒng)計學(xué)領(lǐng)域呼喚數(shù)據(jù)挖掘。傳統(tǒng)的統(tǒng)計分析技術(shù)都基于較完善的數(shù)學(xué)和統(tǒng)計理論,預(yù)測的準(zhǔn)確度較高,但傳統(tǒng)的統(tǒng)計方法對統(tǒng)計數(shù)據(jù)要有規(guī)模限制,而且對數(shù)據(jù)的質(zhì)量要求比較嚴(yán)格,如果數(shù)據(jù)不滿足這些條件,則需要運(yùn)用一些方法進(jìn)行相應(yīng)處理。但隨著社會的進(jìn)步,社會經(jīng)濟(jì)出現(xiàn)了一些新現(xiàn)象,我們在信息社會中面臨著浩如煙海的數(shù)據(jù),這些數(shù)據(jù)數(shù)量龐大,而且分布狀態(tài)難以把握,因此在對這些數(shù)據(jù)處理時,很難預(yù)先假定好試驗方法和抽樣方法,傳統(tǒng)的統(tǒng)計學(xué)顯得無所適從,因此傳統(tǒng)的統(tǒng)計學(xué)呼喚著數(shù)據(jù)挖掘。數(shù)據(jù)挖掘針對的正是這些大量、巨量、超巨量的數(shù)據(jù),正如數(shù)據(jù)挖掘定義的那樣,數(shù)據(jù)挖掘是從大規(guī)模數(shù)據(jù)中找出隱藏其中的有意義、重要的信息或模式的探索過程。數(shù)據(jù)挖掘技術(shù)的目標(biāo)就是從大量的數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,從而服務(wù)于決策。
數(shù)據(jù)挖掘的興起還同計算機(jī)硬件、軟件的發(fā)展與數(shù)據(jù)庫技術(shù)的推進(jìn)密不可分。計算機(jī)硬件的高速發(fā)展給數(shù)據(jù)挖掘研究的推進(jìn)提供了技術(shù)上的可能性,統(tǒng)計軟件的發(fā)展也促進(jìn)了數(shù)據(jù)挖掘研究在統(tǒng)計領(lǐng)域的崛起,SAS、MATLAB等主流統(tǒng)計軟件都包含有數(shù)據(jù)挖掘功能,國內(nèi)馬克威軟件、Qstat軟件也都將數(shù)據(jù)挖掘功能融入其中。這些都為數(shù)據(jù)挖掘在統(tǒng)計領(lǐng)域的展開提供技術(shù)支撐。數(shù)據(jù)庫技術(shù)的發(fā)展是數(shù)據(jù)挖掘研究興起的另一主要原因。通常大規(guī)模的數(shù)據(jù)是以數(shù)據(jù)庫形式保存的,因此可以認(rèn)為數(shù)據(jù)庫技術(shù)是數(shù)據(jù)挖掘的起點。自20世紀(jì)80年代中期以來,數(shù)據(jù)庫技術(shù)的特點是廣泛接受關(guān)系技術(shù),研究和開發(fā)新的、功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)。這些推動諸如擴(kuò)充關(guān)系模型、面向?qū)ο竽P?、對?關(guān)系模型和演繹模型等先進(jìn)的數(shù)據(jù)模型的發(fā)展。包括空間的、時間的、多媒體的、主動的、流的和知識庫在內(nèi)的數(shù)據(jù)庫系統(tǒng)百花齊放,同數(shù)據(jù)的分布、多樣性和共享有關(guān)的問題被廣泛研究,異構(gòu)數(shù)據(jù)庫系統(tǒng)和基于WEB的全球信息系統(tǒng)也已出現(xiàn),并成為信息產(chǎn)業(yè)的主力軍。
社會的發(fā)展和技術(shù)的進(jìn)步促進(jìn)數(shù)據(jù)挖掘研究的展開和深入。國內(nèi)漸漸形成了數(shù)據(jù)挖掘研究的良好學(xué)術(shù)氛圍,具體表現(xiàn)為:(1)數(shù)據(jù)挖掘已成為我國統(tǒng)計學(xué)科的一個新的生長點,許多大學(xué)在本科階段開設(shè)了相關(guān)課程,在碩士階段設(shè)立了相關(guān)研究方向;(2)統(tǒng)計學(xué)研究的兩個主要學(xué)術(shù)陣地中國人民大學(xué)和廈門大學(xué)建立了專門針對數(shù)據(jù)挖掘的學(xué)術(shù)機(jī)構(gòu),2001年中國人民大學(xué)統(tǒng)計學(xué)院成立了數(shù)據(jù)挖掘中心,這是國內(nèi)較早開展數(shù)據(jù)挖掘應(yīng)用和理論探索的團(tuán)隊,也是在統(tǒng)計學(xué)領(lǐng)域較早研究數(shù)據(jù)挖掘應(yīng)用的組織。2007年廈門大學(xué)計劃統(tǒng)計系成立數(shù)據(jù)挖掘中心(簡稱DMC),推進(jìn)了數(shù)據(jù)挖掘在統(tǒng)計領(lǐng)域的研究發(fā)展;(3)一些著名的統(tǒng)計學(xué)者開始表現(xiàn)出對數(shù)據(jù)挖掘的持續(xù)關(guān)注,尤其值得一提的是朱建平教授和謝邦昌教授。朱建平教授及其領(lǐng)導(dǎo)的團(tuán)隊培養(yǎng)了大批的博士、碩士研究生,謝邦昌教授是統(tǒng)計領(lǐng)域數(shù)據(jù)挖掘的引路人,他對國內(nèi)統(tǒng)計領(lǐng)域的數(shù)據(jù)挖掘一直保持高度關(guān)注;(4)學(xué)術(shù)雜志開辟的專欄與學(xué)術(shù)研討會進(jìn)一步推動了數(shù)據(jù)挖掘的研究。廈門大學(xué)計劃統(tǒng)計系主辦的國際金融數(shù)據(jù)挖掘研討會和中國人民大學(xué)統(tǒng)計學(xué)院主辦的中國數(shù)據(jù)挖掘與商業(yè)智能研討會已經(jīng)形成一種長效機(jī)制,一些雜志也開辟了相關(guān)的研究專欄,這些都有利于統(tǒng)計學(xué)領(lǐng)域中對數(shù)據(jù)挖掘的研究。按照特里·庫珀的觀點,判斷一個學(xué)術(shù)領(lǐng)域研究是否成熟的標(biāo)準(zhǔn)主要有三條:存在著一個對該領(lǐng)域長期感興趣的學(xué)者群體、有連續(xù)性的出版物來推動理論的發(fā)展、在大學(xué)職業(yè)教育課程中設(shè)立學(xué)術(shù)性的課程。以這三個標(biāo)準(zhǔn)衡量,盡管數(shù)據(jù)挖掘的研究在我國還有很大差距,但已有了長足進(jìn)展。
在統(tǒng)計領(lǐng)域開展數(shù)據(jù)挖掘研究,我們先要回答兩個關(guān)鍵問題,第一個關(guān)鍵問題是:“數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計學(xué)的聯(lián)系何在?”它們之間的聯(lián)系非常明顯,統(tǒng)計學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。正因為目標(biāo)上的相似,因此,統(tǒng)計學(xué)和數(shù)據(jù)挖掘的研究內(nèi)涵也體現(xiàn)出了諸多相似性。在傳統(tǒng)統(tǒng)計學(xué)研究中,雖然統(tǒng)計學(xué)基于的正統(tǒng)的理論基礎(chǔ)無可替代,但傳統(tǒng)統(tǒng)計學(xué)可以為數(shù)據(jù)挖掘提供非常有參考價值的框架,很多數(shù)據(jù)挖掘的算法原理都是統(tǒng)計學(xué)中相關(guān)方法的影子,數(shù)據(jù)挖掘在延伸和擴(kuò)展傳統(tǒng)統(tǒng)計學(xué)方法基礎(chǔ)之上,融入了多領(lǐng)域的思想、工具和方法,這些領(lǐng)域包括數(shù)據(jù)庫管理、計算機(jī)科學(xué)、人工智能、模式識別、運(yùn)籌學(xué)等。統(tǒng)計學(xué)和數(shù)據(jù)挖掘內(nèi)涵上的相似難以掩蓋內(nèi)涵上的一些細(xì)微差別,事實上,數(shù)據(jù)挖掘所關(guān)注的某些領(lǐng)域和統(tǒng)計學(xué)家所關(guān)注的還存有很大不同。數(shù)據(jù)挖掘關(guān)注的是積累大規(guī)模的數(shù)據(jù),以方便從數(shù)據(jù)中有效地找出關(guān)系,挖掘出所含有的“有意義的信息”,而統(tǒng)計學(xué)關(guān)注的如何模擬出數(shù)據(jù)的結(jié)構(gòu),從而進(jìn)行準(zhǔn)確的統(tǒng)計推斷。
我們面臨的第二個關(guān)鍵問題是:“數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計學(xué)的區(qū)別何在?”,這便涉及到數(shù)據(jù)挖掘的研究對象。統(tǒng)計學(xué)和數(shù)據(jù)挖掘研究目標(biāo)的相似使得有些統(tǒng)計學(xué)家擔(dān)憂數(shù)據(jù)挖掘時代的到來會不會使得傳統(tǒng)的統(tǒng)計學(xué)面臨危機(jī),這樣的想法其實大可不必。事實上,雖然它們的目標(biāo)相似,但研究對象卻不盡相同。如上文所言,傳統(tǒng)的統(tǒng)計學(xué)以概率論為基礎(chǔ),主要通過預(yù)先設(shè)計的試驗方法或抽樣方法獲得數(shù)據(jù),以保證這些數(shù)據(jù)滿足一定的概率模型,然后再根據(jù)數(shù)據(jù)進(jìn)行統(tǒng)計推斷。數(shù)據(jù)挖掘恰恰相反,它常??梢缘玫綌?shù)據(jù)總體,在這種情形下,統(tǒng)計學(xué)的推斷就沒有價值了,數(shù)據(jù)挖掘的本質(zhì)是從總體中通過技術(shù)和實驗方法發(fā)現(xiàn)非預(yù)期但很有價值的信息,數(shù)據(jù)挖掘過程的本質(zhì)是實驗性的。這與確定性的統(tǒng)計分析和統(tǒng)計推斷是不同的。
在研究方法上,統(tǒng)計學(xué)和數(shù)據(jù)挖掘也不盡相同,統(tǒng)計學(xué)在采用一個方法之前先要證明,而不是象計算機(jī)科學(xué)與機(jī)器學(xué)習(xí)那樣注重經(jīng)驗。有時候同一問題的其它領(lǐng)域的研究者提出一個很明顯有用的方法,但若不能被統(tǒng)計學(xué)家證明(或者現(xiàn)在還沒有證明),統(tǒng)計學(xué)界將不會采用,統(tǒng)計雜志也傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法,簡言之,統(tǒng)計學(xué)需要的是確定的方法。而數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實驗的態(tài)度,數(shù)據(jù)挖掘更多的是利用先進(jìn)的工具進(jìn)行試探發(fā)現(xiàn),方法上的不同并不意味著數(shù)據(jù)挖掘工作者不注重精確,其實數(shù)據(jù)挖掘非常注重精確,只不過精確產(chǎn)生于實驗之上,產(chǎn)生于實驗準(zhǔn)則之中。正是由于統(tǒng)計學(xué)的方法先驗和準(zhǔn)確性,而且其對推理的側(cè)重,統(tǒng)計學(xué)的核心問題仍是在觀察了解樣本的情況下去推斷總體。而數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),它不關(guān)心統(tǒng)計學(xué)領(lǐng)域中的在回答一個特定的問題之前,如何很好的搜集數(shù)據(jù),數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密??傊?,統(tǒng)計學(xué)的核心是模型,數(shù)據(jù)挖掘的更重要的是準(zhǔn)則。
數(shù)據(jù)挖掘真正引起人們的普遍關(guān)注應(yīng)該起始于該技術(shù)在各種行業(yè)領(lǐng)域中的應(yīng)用,盡管數(shù)據(jù)挖掘應(yīng)用方面的論文統(tǒng)計數(shù)相當(dāng)可觀,涉及領(lǐng)域相當(dāng)廣泛,但我國的數(shù)據(jù)挖掘應(yīng)用尚處于起步階段,大規(guī)模地運(yùn)用數(shù)據(jù)挖掘技術(shù)尚不普遍,只是個別企業(yè)或部門零星地運(yùn)用數(shù)據(jù)挖掘技術(shù)。在國外,數(shù)據(jù)挖掘技術(shù)已經(jīng)在金融、電信、零售、醫(yī)療、科研等行業(yè)領(lǐng)域內(nèi)發(fā)揮了巨大的作用。一些世界著名的廠商也紛紛致力于數(shù)據(jù)挖掘工具的開發(fā),這其中既有統(tǒng)計軟件界元老SAS、PSS,也有數(shù)據(jù)庫巨頭Oracle、IBM。數(shù)據(jù)挖掘技術(shù)與各個行業(yè)的有機(jī)結(jié)合體現(xiàn)了其蓬勃的生命力,且這種趨勢正在以前所未有的速度繼續(xù)向前發(fā)展。而我國對數(shù)據(jù)挖掘技術(shù)的應(yīng)用仍處于起步階段,即使有少量行業(yè)、企業(yè)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到生產(chǎn)生活之中,也只是局限于數(shù)據(jù)挖掘中最基本的幾項功能,大規(guī)模、深層次的應(yīng)用數(shù)據(jù)挖掘技術(shù)的時代還沒有到來,因此,筆者認(rèn)為,未來數(shù)據(jù)挖掘研究的一個著重點便是應(yīng)用領(lǐng)域的研究。
空間數(shù)據(jù)挖掘是近幾年興起的交叉邊緣研究學(xué)科,它把數(shù)據(jù)挖掘研究的視域擴(kuò)大到空間數(shù)據(jù)庫,這也使得數(shù)據(jù)挖掘技術(shù)更加貼近于應(yīng)用。因為空間數(shù)據(jù)具有的獨特特點使得空間數(shù)據(jù)挖掘比傳統(tǒng)數(shù)據(jù)挖掘更為困難,因此研發(fā)高效的空間數(shù)據(jù)挖掘技術(shù)是當(dāng)前空間數(shù)據(jù)挖掘面臨的主要挑戰(zhàn),筆者認(rèn)為這也是未來數(shù)據(jù)挖掘的熱點之一。
萬維網(wǎng)是一個巨大的、分布廣泛的全球性信息服務(wù)中心,它包括新聞、廣告、消費(fèi)信息、金融管理、電子商務(wù)等各種各樣的信息。不僅如此,還包含著豐富的結(jié)構(gòu)化數(shù)據(jù),如動態(tài)變化的超鏈接信息以及對于Web頁面的訪問和使用的信息等,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,與傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)相比,作為數(shù)據(jù)挖掘數(shù)據(jù)源的Web數(shù)據(jù)有著自身顯明的特點,諸如超大的數(shù)據(jù)規(guī)模;復(fù)雜的數(shù)據(jù)結(jié)構(gòu);動態(tài)的數(shù)據(jù)形態(tài);擴(kuò)大的數(shù)據(jù)干擾等,這也對基于Web的數(shù)據(jù)挖掘方法研究也提出了新的要求。筆者認(rèn)為這也是數(shù)據(jù)挖掘未來的研究方向。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和計算機(jī)性能的提高,數(shù)碼相機(jī)、監(jiān)視相機(jī)、衛(wèi)星遙感系統(tǒng)的應(yīng)用越來越廣泛,涌現(xiàn)出大量的圖像數(shù)據(jù)和視頻數(shù)據(jù)。從數(shù)據(jù)的轉(zhuǎn)化、同步、連續(xù)數(shù)據(jù)流的管理到圖像數(shù)據(jù)的檢索受到普遍關(guān)注,如何用數(shù)據(jù)挖掘的方法智能地從圖像和視頻數(shù)據(jù)庫中挖掘出盡可能多的有用信息也是學(xué)界探討的一個熱點,但圖像數(shù)據(jù)挖掘不同于普通數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,挖掘?qū)ο蟮膹?fù)雜性使得圖像數(shù)據(jù)挖掘理論和技術(shù)發(fā)展緩慢。因此,筆者認(rèn)為圖像數(shù)據(jù)挖掘必將成為研究的一個方向。
數(shù)據(jù)挖掘研究至今,仍沒有一套標(biāo)準(zhǔn)化的語言,這使得在進(jìn)行數(shù)據(jù)挖掘研究時,不兼容的現(xiàn)象頻繁出現(xiàn),因此,對數(shù)據(jù)挖掘語言進(jìn)行標(biāo)準(zhǔn)化也是當(dāng)務(wù)之急,在未來的數(shù)據(jù)挖掘研究中,也應(yīng)當(dāng)作為重點內(nèi)容。
Web上存在著大量電子形式的個人信息,加上數(shù)據(jù)挖掘工作能力的不斷增強(qiáng),對隱私和數(shù)據(jù)安全構(gòu)成了威脅,保護(hù)隱私的數(shù)據(jù)挖掘方法的進(jìn)一步發(fā)展是顯而易見的。這需要技術(shù)專家、社會專家和法律專家的共同協(xié)作,提出隱私的嚴(yán)格定義和形式機(jī)制,以證明數(shù)據(jù)挖掘中的隱私保護(hù)性。
[1]朱世武,崔嵬,張堯庭,謝邦昌.數(shù)據(jù)挖掘運(yùn)用的理論與技術(shù)[J].統(tǒng)計研究,2003,(8).
[2]朱建平,張潤楚.數(shù)據(jù)挖掘中事務(wù)性數(shù)據(jù)庫的壓縮及其應(yīng)用[J].統(tǒng)計研究,2004,(1).
[3]劉云霞,曾五一.數(shù)據(jù)挖掘中基于可辨識矩陣的連續(xù)屬性離散化方法[J].統(tǒng)計研究,2007,(4).
[4]韓明.數(shù)據(jù)挖掘及其對統(tǒng)計學(xué)的挑戰(zhàn)[J].統(tǒng)計研究,2001,(8).
[5]來升強(qiáng),朱建平.數(shù)據(jù)挖掘中高維定性數(shù)據(jù)的粗糙集聚類[J].統(tǒng)計研究,2005,(8).
[6]朱建平,謝邦昌.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的提升及其應(yīng)用[J].統(tǒng)計研究,2004,(12).
[7]李金昌,徐雪琪. 數(shù)據(jù)挖掘質(zhì)量問題探討[J].統(tǒng)計研究,2004,(7).
[8]劉云霞.數(shù)據(jù)挖掘中基于似然比假設(shè)檢驗的連續(xù)屬性離散化方法[J].統(tǒng)計與決策,2007,(4).
[9]朱梅紅.數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用[J].統(tǒng)計與決策,2007,(8).
[10]丁文捷.基于量體數(shù)據(jù)挖掘的服裝投產(chǎn)號型決策[J].統(tǒng)計與決策,2007,(9).
[11]王建仁,高海燕,董琳.數(shù)據(jù)挖掘在銀行CRM中的應(yīng)用[J].統(tǒng)計與決策,2007,(5).
[12]劉京軍.數(shù)據(jù)挖掘技術(shù)和信用風(fēng)險管理[J].統(tǒng)計與決策,2007,(1).