數(shù)據(jù)挖掘綜述

2012-10-10 07:32:06汪明

河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2012年1期

汪明

（中國礦業(yè)大學(xué) 管理學(xué)院，江蘇徐州 221116）

0 引言

在當(dāng)今信息爆炸的時(shí)代，人類正面臨著“被信息所淹沒，但卻饑渴于知識(shí)”[1]的困境。隨著計(jì)算機(jī)硬件技術(shù)的快速發(fā)展、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫技術(shù)的日臻完善，人類積累的數(shù)據(jù)量正以指數(shù)方式增長[2]。面對(duì)海量的、雜亂無序的數(shù)據(jù)，人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真，提取有用的信息，并將其轉(zhuǎn)換成知識(shí)。

數(shù)據(jù)挖掘技術(shù)可以用來支持商業(yè)智能應(yīng)用和決策分析，例如顧客細(xì)分、交叉銷售、欺詐檢測(cè)、顧客流失分析、商品銷量預(yù)測(cè)等等，目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來說，都具有重要的現(xiàn)實(shí)意義。

1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)中，自動(dòng)地發(fā)現(xiàn)有用信息的過程。在國外，數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融、零售業(yè)、電信、保險(xiǎn)、醫(yī)療服務(wù)、體育和政府管理等領(lǐng)域。國內(nèi)對(duì)數(shù)據(jù)挖掘的研究起步稍晚，近年來對(duì)數(shù)據(jù)挖掘的研究發(fā)展較快，所涉及的領(lǐng)域集中在學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的應(yīng)用和相關(guān)數(shù)據(jù)挖掘理論的研究。然而，目前關(guān)于數(shù)據(jù)挖掘的論文雖多，但與企業(yè)結(jié)合較少?？梢哉f，目前國內(nèi)的數(shù)據(jù)挖掘應(yīng)用仍停留在初級(jí)階段，行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時(shí)日。

將數(shù)據(jù)挖掘技術(shù)應(yīng)用于實(shí)際項(xiàng)目中，一般都遵循“跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”（如圖1所示）。該流程是數(shù)據(jù)挖掘業(yè)界通用推行的標(biāo)準(zhǔn)之一，它強(qiáng)調(diào)將數(shù)據(jù)挖掘用來解決商業(yè)實(shí)際問題，而不是將數(shù)據(jù)挖掘限定在研究領(lǐng)域。它是一個(gè)不斷迭代的過程。

圖1 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程（CRISP-DM）

2 數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘從一個(gè)新的視角將數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來，它能組合各個(gè)領(lǐng)域的優(yōu)點(diǎn)，從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)。這里從數(shù)據(jù)挖掘任務(wù)這一視角來闡述數(shù)據(jù)挖掘的方法。

2.1 預(yù)測(cè)建模方法

預(yù)測(cè)建模分為兩大類：分類和回歸?；貧w模型一般分為線性回歸和非線性回歸，很多非線性模型都可以經(jīng)過適當(dāng)?shù)淖儞Q轉(zhuǎn)化為線性回歸模型[4]。分類模型可以作為解釋性的工具，用于區(qū)分不同類中的個(gè)體，同時(shí)也可以用來預(yù)測(cè)記錄的類別。常用的分類技術(shù)有：

（1）決策樹方法

決策樹方法是一種歸納學(xué)習(xí)算法[3]。在構(gòu)造的樹中，每個(gè)葉結(jié)點(diǎn)都賦予一個(gè)類標(biāo)識(shí)。非葉結(jié)點(diǎn)包含屬性的測(cè)試條件，用于區(qū)分具有不同特征的記錄。主要的決策樹算法有：ID3、C4．5、CART 和CHAID。

（2）基于規(guī)則的分類方法

基于規(guī)則的分類方法是使用一組“如果…那么…”規(guī)則來對(duì)記錄進(jìn)行分類的技術(shù)。順序覆蓋算法通常被用來從數(shù)據(jù)集中直接提取分類規(guī)則。另一種更廣泛使用的直接規(guī)則提取算法叫RIPPER算法。該算法特別適合類分布失衡的數(shù)據(jù)集，它對(duì)噪聲數(shù)據(jù)有很好的容忍度。

（3）支持向量機(jī)

支持向量機(jī)已成為一種熱門的分類技術(shù)，它能很好地處理高維數(shù)據(jù)集，避免維災(zāi)難。它可以將分類模型表示為凸優(yōu)化問題，從而可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最優(yōu)點(diǎn)，而其他分類算法一般都采用貪心學(xué)習(xí)的策略來搜索，往往只能發(fā)現(xiàn)局部最優(yōu)解。

（4）神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征，進(jìn)行分布式并行處理的算法。反向傳播算法是神經(jīng)網(wǎng)絡(luò)中采用最多的方法。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是：分類的準(zhǔn)確度高，并行分布處理能力強(qiáng)，對(duì)噪聲數(shù)據(jù)有較強(qiáng)的魯棒性和容錯(cuò)能力等。但該方法比較耗時(shí)，不適于處理大數(shù)據(jù)量的數(shù)據(jù)集。

（5）貝葉斯分類方法

在很多實(shí)際應(yīng)用中，類別屬性和其他屬性之間的關(guān)系是不確定的。貝葉斯分類方法是一種對(duì)數(shù)據(jù)集中屬性集和類別變量概率關(guān)系建模的方法。貝葉斯分類方法主要有：樸素貝葉斯分類方法和貝葉斯網(wǎng)絡(luò)方法。

樸素貝葉斯方法假設(shè)在估計(jì)類條件概率時(shí)，屬性之間是條件獨(dú)立的，它對(duì)孤立的噪聲數(shù)據(jù)和無關(guān)屬性具有很好的分類效果。但是現(xiàn)實(shí)中，很多情況下獨(dú)立分布的屬性關(guān)系是不成立的。貝葉斯網(wǎng)絡(luò)不要求類的屬性是條件獨(dú)立的，很適合處理不完整的數(shù)據(jù)集，但是構(gòu)建合理的網(wǎng)絡(luò)可能很繁瑣。

（6）組合分類方法

組合分類方法由訓(xùn)練集構(gòu)建多個(gè)基分類器，然后通過對(duì)每個(gè)基分類器的預(yù)測(cè)進(jìn)行投票來進(jìn)行分類的方法，從而提高分類的準(zhǔn)確度。實(shí)踐表明，組合方法往往比單個(gè)分類器的效果好。

比較常用的組合方法有：bagging方法、boosting方法和隨機(jī)森林方法。AdaBoost算法就是一種常用的boosting方法實(shí)現(xiàn)。隨機(jī)森林方法是一種專門為決策樹分類器設(shè)計(jì)的組合方法，它組合了多種決策樹的預(yù)測(cè)。研究表明，隨機(jī)森林方法在準(zhǔn)確度方面可以和AdaBoost相媲美，另外，其運(yùn)行速度比AdaBoost快。

（7）最近鄰分類方法

最近鄰分類方法記住整個(gè)訓(xùn)練集數(shù)據(jù)，當(dāng)測(cè)試記錄的屬性與某個(gè)訓(xùn)練集記錄完全匹配時(shí)才進(jìn)行分類。在實(shí)際應(yīng)用中，往往找出與測(cè)試集的屬性相對(duì)接近的所有訓(xùn)練集記錄即可，這些記錄被稱為最近鄰。記錄r的k-最近鄰是指與r距離最近的k個(gè)數(shù)據(jù)記錄。合理選取k的值很重要，其值太大，最近鄰分類器可能會(huì)誤分測(cè)試集記錄；其值太小，最近鄰分類器易受訓(xùn)練集中噪聲的影響而產(chǎn)生過擬合的問題。

2.2 關(guān)聯(lián)分析方法

關(guān)聯(lián)分析方法可以發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系。這種聯(lián)系可以用關(guān)聯(lián)規(guī)則來表示。在使用關(guān)聯(lián)規(guī)則時(shí)，需要考慮兩個(gè)問題：一是從大數(shù)據(jù)集中發(fā)現(xiàn)模式可能效率很低；二是所發(fā)現(xiàn)的某些關(guān)聯(lián)可能是毫無意義的。支持度這一度量可以刪除那些毫無意義的關(guān)聯(lián)規(guī)則，置信度可以度量規(guī)則的可能性大小。關(guān)聯(lián)分析的算法主要有：Apriori算法、DHP算法、DIC算法和 FP-增長算法等。

2.3 聚類分析方法

聚類分析是將數(shù)據(jù)劃分成具有意義的組。聚類算法的選擇應(yīng)由數(shù)據(jù)類型、聚類目的和應(yīng)用決定。主要的聚類方法有：

（1）劃分方法

給定一個(gè)有N條記錄的數(shù)據(jù)集，以及要生成簇的數(shù)目K。劃分方法首先給出一個(gè)初始的分組方法，然后通過反復(fù)迭代的方式改變分組，使得每一次改進(jìn)之后的分組方案都比前一次好。該方法常用的算法有：K-Means算法、K-MEDOIDS算法和CLARANS算法等。

（2）層次方法

層次方法是對(duì)給定的數(shù)據(jù)對(duì)象集合進(jìn)行層次分解，層次方法可以分為凝聚和分裂[5]。該方法在合并、分裂的時(shí)候要檢測(cè)大量的記錄和簇，因而伸縮性比較差。比較常見的方法有四種：BIRCH、CURE、ROCK 和 Chameleon[5]。

（3）基于密度的方法

基于密度的方法與其他方法的一個(gè)本質(zhì)區(qū)別是：它不是基于距離作為相似性度量的，而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)類球狀聚類的缺點(diǎn)。最具代表性的是DBSCAN算法、OPTICS算法和DENCLUE算法[5]。

（4）基于網(wǎng)格的方法

這種方法首先將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu)，所有的處理都是以單個(gè)的單元為對(duì)象。這么處理的一個(gè)明顯優(yōu)點(diǎn)就是處理速度很快，通常這是與目標(biāo)數(shù)據(jù)集中記錄的個(gè)數(shù)無關(guān)的，它只與把數(shù)據(jù)空間劃分的單元數(shù)量有關(guān)。代表算法有：STING 算法、CLIQUE 算法、WAVE-CLUSTER算法[5]。

（5）基于模型的方法

基于模型的方法給每一個(gè)聚類假定一個(gè)模型，然后尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。這樣的一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。通常有兩種方案：統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案。

2.4 異常檢測(cè)方法

異常檢測(cè)，也稱偏差檢測(cè)。異常檢測(cè)的目標(biāo)就是發(fā)現(xiàn)與其它大部分?jǐn)?shù)據(jù)點(diǎn)不同的數(shù)據(jù)點(diǎn)。不平凡的事物往往都具有異乎尋常的重要性。異常檢測(cè)的方法主要有：

（1）基于鄰近度的技術(shù)

很多異常檢測(cè)都是基于鄰近度這一度量，通過比較不同對(duì)象之間的距離，就可以判斷異常對(duì)象。異常對(duì)象往往是遠(yuǎn)離其他大部分對(duì)象的對(duì)象。

（2）基于模型的方法

很多異常檢測(cè)方法是通過建立一個(gè)數(shù)據(jù)模型，然后用數(shù)據(jù)去擬合模型，異常點(diǎn)往往是那些同模型不能很好地進(jìn)行擬合的點(diǎn)。由于異常對(duì)象和正常對(duì)象可以看成是兩個(gè)類別，這樣也可以用分類技術(shù)進(jìn)行異常檢測(cè)。

（3）基于密度的技術(shù)

對(duì)象的密度可以通過計(jì)算進(jìn)行估計(jì)，低密度區(qū)域的對(duì)象相對(duì)遠(yuǎn)離近鄰對(duì)象，可以將其視為異常對(duì)象。更嚴(yán)格來講，僅當(dāng)一個(gè)對(duì)象的局部密度明顯地小于它的大部分近鄰對(duì)象局部密度時(shí)，才將其視為異常對(duì)象。

3 數(shù)據(jù)挖掘應(yīng)用

數(shù)據(jù)挖掘是面向?qū)嶋H應(yīng)用的技術(shù)，現(xiàn)在已經(jīng)廣泛應(yīng)用于金融、銀行、農(nóng)業(yè)、制造業(yè)、零售業(yè)、電信、醫(yī)療衛(wèi)生、教育和生物科學(xué)等領(lǐng)域。

在信息技術(shù)方面，文獻(xiàn)[6]將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域，從而產(chǎn)生智能搜索引擎，將會(huì)給用戶提供一個(gè)高效、準(zhǔn)確的Web檢索工具。

在醫(yī)療衛(wèi)生方面，文獻(xiàn)[7]探討了各種數(shù)據(jù)挖掘方法在生物醫(yī)學(xué)研究領(lǐng)域中的應(yīng)用，可以用分類方法對(duì)疾病進(jìn)行診斷，用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等數(shù)據(jù)挖掘方法對(duì)某些疾病進(jìn)行預(yù)測(cè)，研究表明，預(yù)測(cè)效果良好。文獻(xiàn)[8]在研究MRI乳腺非腫塊樣強(qiáng)化病灶對(duì)乳腺癌的診斷時(shí)，發(fā)現(xiàn)決策樹模型的靈敏度、特異性和準(zhǔn)確率等性能均優(yōu)于傳統(tǒng)統(tǒng)計(jì)學(xué)中的logistic回歸模型。

在零售業(yè)方面，文獻(xiàn)[9]利用SPSSClementine數(shù)據(jù)挖掘工具，對(duì)超市顧客進(jìn)行分析研究，并提出衡量超市客戶忠誠度的忠誠度系數(shù)指標(biāo)，建立忠誠度—盈利性顧客細(xì)分模型，運(yùn)用k-均值算法對(duì)超市顧客進(jìn)行聚類分析，幫助超市準(zhǔn)確識(shí)別不同類型的顧客群，尤其是忠誠的高盈利顧客。再利用序列分析模型分析顧客類別變化路徑，及早發(fā)現(xiàn)潛在價(jià)值顧客，實(shí)現(xiàn)超市利潤的有效提升。

在農(nóng)業(yè)建設(shè)方面，文獻(xiàn)[10]將數(shù)據(jù)挖掘技術(shù)應(yīng)用于農(nóng)村建設(shè)中，為我國農(nóng)村信息化建設(shè)提供了解決方案，有效解決了農(nóng)村信息服務(wù)“最初一公里”信息采集難和“最后一公里”信息進(jìn)村入戶難的問題，研究表明，這種思路具有很好的推廣應(yīng)用價(jià)值。

在電信方面，文獻(xiàn)[11]采用數(shù)據(jù)挖掘技術(shù)分析電信客戶以往的行為特征來洞察客戶的潛在需求，從而有針對(duì)性地進(jìn)行套餐的設(shè)計(jì)和定價(jià)，在風(fēng)險(xiǎn)可控的范圍內(nèi)最大限度地提高客戶對(duì)套餐的接受度，為客戶提供最需要的產(chǎn)品及產(chǎn)品組合，吸引新的客戶入網(wǎng)，減少老客戶的流失，同時(shí)實(shí)現(xiàn)電信企業(yè)的業(yè)務(wù)量和收入提升。

在教育方面，文獻(xiàn)[12]在分析了當(dāng)前遠(yuǎn)程教育網(wǎng)站的不足之處后，將數(shù)據(jù)挖掘技術(shù)應(yīng)用于遠(yuǎn)程教育系統(tǒng)中，通過分析大量在線用戶信息，提出個(gè)性化的教育服務(wù)，進(jìn)而提高遠(yuǎn)程教學(xué)質(zhì)量。

在金融方面，文獻(xiàn)[13]提出了基于數(shù)據(jù)挖掘的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)級(jí)體系，在此基礎(chǔ)上，構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)的評(píng)級(jí)模型和基于多種數(shù)據(jù)挖掘技術(shù)的分類結(jié)果細(xì)化可視化模塊，結(jié)果表明，數(shù)據(jù)挖掘技術(shù)可以很好地應(yīng)用于風(fēng)險(xiǎn)評(píng)估中。

4 數(shù)據(jù)挖掘發(fā)展趨勢(shì)

目前數(shù)據(jù)挖掘技術(shù)的研究已成為國內(nèi)外研究的熱點(diǎn)，最近幾年在國內(nèi)發(fā)展迅速，今后該領(lǐng)域發(fā)展的趨勢(shì)可能主要表現(xiàn)在以下幾方面：

（1）隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，網(wǎng)絡(luò)上的資源越來越多，如何通過數(shù)據(jù)挖掘技術(shù)對(duì)互聯(lián)網(wǎng)上的資源進(jìn)行挖掘，并從中發(fā)現(xiàn)有用的信息，將成為一個(gè)熱點(diǎn)問題。Web數(shù)據(jù)挖掘目前的研究雖然比較多，但是還有很多不足，需要進(jìn)一步研究完善。

（2）數(shù)據(jù)挖掘算法的改進(jìn)和數(shù)據(jù)挖掘可視化。數(shù)據(jù)挖掘算法一般要處理海量的數(shù)據(jù)，如何在算法效率和算法準(zhǔn)確度之間尋找平衡點(diǎn)，是一個(gè)值得研究的課題。另外，數(shù)據(jù)挖掘結(jié)果的友好可視化展現(xiàn)也是一個(gè)重要的研究課題。

（3）多媒體數(shù)據(jù)挖掘。多媒體包含視頻、音頻、圖像等，這些數(shù)據(jù)的結(jié)構(gòu)往往比較復(fù)雜，傳統(tǒng)的數(shù)據(jù)挖掘算法處理多媒體數(shù)據(jù)效果比較差。為了挖掘多媒體資源，需要設(shè)計(jì)和開發(fā)更好的數(shù)據(jù)挖掘算法。

（4）數(shù)據(jù)挖掘和隱私保護(hù)。數(shù)據(jù)挖掘的個(gè)人隱私與信息安全問題備受人們關(guān)注。誤用和濫用數(shù)據(jù)挖掘可能導(dǎo)致用戶數(shù)據(jù)特別是敏感信息的泄露，越來越多的人對(duì)此表示擔(dān)憂，如何在不暴露用戶隱私的前提下進(jìn)行數(shù)據(jù)挖掘，將成為非常值得關(guān)注的研究課題[14]。

（5）數(shù)據(jù)挖掘技術(shù)與其他系統(tǒng)的集成。數(shù)據(jù)挖掘應(yīng)該是一個(gè)完整的過程，不單單是一個(gè)算法，為了將數(shù)據(jù)挖掘技術(shù)更好地應(yīng)用于現(xiàn)實(shí)生活中，需要研究如何將數(shù)據(jù)挖掘與其他系統(tǒng)有機(jī)地集成，從而最大化地發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢(shì)。

（6）空間和時(shí)序數(shù)據(jù)挖掘?？臻g數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同，空間數(shù)據(jù)庫具有豐富的數(shù)據(jù)類型，帶有拓?fù)?、距離信息，空間數(shù)據(jù)有很強(qiáng)的局部相關(guān)性等特點(diǎn)。挖掘空間數(shù)據(jù)庫需要特殊的數(shù)據(jù)挖掘方法。另外，有一類數(shù)據(jù)集的數(shù)據(jù)之間存在著時(shí)間上的關(guān)系，這類數(shù)據(jù)被稱為時(shí)序數(shù)據(jù)。在對(duì)時(shí)列數(shù)據(jù)進(jìn)行挖掘的過程中，必須考慮數(shù)據(jù)集數(shù)據(jù)間存在時(shí)間上的關(guān)系[15]，如何高效地處理空間和時(shí)序數(shù)據(jù)，仍有大量問題需要解決。

（7）流數(shù)據(jù)挖掘。由于數(shù)據(jù)流實(shí)時(shí)、連續(xù)、有序、快速到達(dá)的特點(diǎn)以及在線分析的應(yīng)用需求，對(duì)流數(shù)據(jù)挖掘算法提出了很多挑戰(zhàn)。目前也有一些流數(shù)據(jù)挖掘方法，這些方法主要包括概要數(shù)據(jù)結(jié)構(gòu)、滑動(dòng)窗口技術(shù)、多窗口技術(shù)、衰減因子和近似技術(shù)等[16]。

（8）適合中小企業(yè)使用的數(shù)據(jù)挖掘系統(tǒng)。目前國外著名的數(shù)據(jù)挖掘軟件有：SAS Enterprise Miner、SPSS Clementine（現(xiàn)被IBM收購并改名為IBM SPSS Modeler）和 RapidMiner（開源）等。除開源軟件外，數(shù)據(jù)挖掘軟件一般價(jià)格昂貴，中小企業(yè)往往望而卻步。針對(duì)我國中小企業(yè)的特點(diǎn)，開發(fā)一套適合我國國情的數(shù)據(jù)挖掘軟件具有重要的現(xiàn)實(shí)意義。

總之，數(shù)據(jù)挖掘目前已成為一個(gè)熱點(diǎn)研究課題。研究數(shù)據(jù)挖掘具有重要的現(xiàn)實(shí)意義。需要注意的是，數(shù)據(jù)挖掘技術(shù)僅僅是一個(gè)數(shù)據(jù)分析工具和方法，得到的結(jié)果不是完全正確的，需要結(jié)合具體的專業(yè)知識(shí)和社會(huì)大環(huán)境等因素分析，才能正確地利用數(shù)據(jù)挖掘技術(shù)來輔助制定決策。

［1］Na isbitt J．Megatrends：Ten new directions transforming our lives［M］．New York： Warner Books，1982：16-17．

［2］王光宏，蔣平．?dāng)?shù)據(jù)挖掘綜述［J］．同濟(jì)大學(xué)學(xué)報(bào)，2004，32（4）：246-251．

［3］張君楓．?dāng)?shù)據(jù)挖掘算法綜述［J］．電腦學(xué)習(xí)，2010（4）：120-121．

［4］孟曉東，袁道華，等．基于回歸模型的數(shù)據(jù)挖掘研究［J］．計(jì)算機(jī)與現(xiàn)代化，2010（1）：26-27．

［5］劉克準(zhǔn)，廖志芳．?dāng)?shù)據(jù)挖掘中聚類算法綜述［J］．福建電腦，2008（8）：5-6．

［6］楊占華，楊燕．?dāng)?shù)據(jù)挖掘在智能搜索引擎中的應(yīng)用［J］．微計(jì)算機(jī)信息，2006，22（4-3）：244-246．

［7］龔著琳，陳瑛，等．?dāng)?shù)據(jù)挖掘在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用［J］．上海交通大學(xué)學(xué)報(bào)（醫(yī)學(xué)版），2010，30（11）：1420-1423．

［8］譚紅娜，蘇懿，等．?dāng)?shù)據(jù)挖掘技術(shù)判定MRI乳腺非腫塊樣強(qiáng)化病灶的初步研究［J］．中華放射學(xué)雜志，2009，43（5）：455-459．

［9］肖生苓，牟娌娜，等．基于數(shù)據(jù)挖掘技術(shù)的超市顧客群研究［J］．資源開發(fā)與市場(chǎng)，2011，27（08）：683-685．

［10］張偉，歐吉順，等．利用數(shù)據(jù)挖掘技術(shù)建設(shè)農(nóng)業(yè)智能綜合信息服務(wù)平臺(tái)［J］．農(nóng)業(yè)網(wǎng)絡(luò)信息，2011（8）：34-36．

［11］潘宇曦，葉宇航，等．基于數(shù)據(jù)挖掘的電信行業(yè)精確化套餐設(shè)計(jì)方法研究［J］．情報(bào)雜志，2011（30）：123-125．

［12］王嵐，王萍．?dāng)?shù)據(jù)挖掘在遠(yuǎn)程教育系統(tǒng)中個(gè)性化教育的應(yīng)用研究［J］．計(jì)算機(jī)工程與科學(xué)，2008，3（10）：93-95．

［13］蔡皎潔，張玉峰．基于數(shù)據(jù)挖掘銀行客戶信用風(fēng)險(xiǎn)評(píng)級(jí)體系研究［J］．情報(bào)雜志，2010，29（2）：47-50．

［14］錢萍，吳蒙．同態(tài)加密隱私保護(hù)數(shù)據(jù)挖掘方法綜述［J］．計(jì)算機(jī)應(yīng)用研究，2011，28（5）：1614-1617．

［15］賈澎濤，何華燦，等．時(shí)間序列數(shù)據(jù)挖掘綜述［J］．計(jì)算機(jī)應(yīng)用研究，2007，24（11）：15-17．

［16］孫玉芬，盧炎生．流數(shù)據(jù)挖掘綜述［J］．計(jì)算機(jī)科學(xué)，2007，34（1）：1-5．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡