汪明
(中國礦業(yè)大學(xué) 管理學(xué)院,江蘇 徐州 221116)
在當(dāng)今信息爆炸的時(shí)代,人類正面臨著“被信息所淹沒,但卻饑渴于知識(shí)”[1]的困境。隨著計(jì)算機(jī)硬件技術(shù)的快速發(fā)展、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫技術(shù)的日臻完善,人類積累的數(shù)據(jù)量正以指數(shù)方式增長[2]。面對(duì)海量的、雜亂無序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識(shí)。
數(shù)據(jù)挖掘技術(shù)可以用來支持商業(yè)智能應(yīng)用和決策分析,例如顧客細(xì)分、交叉銷售、欺詐檢測(cè)、顧客流失分析、商品銷量預(yù)測(cè)等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來說,都具有重要的現(xiàn)實(shí)意義。
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)中,自動(dòng)地發(fā)現(xiàn)有用信息的過程。在國外,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融、零售業(yè)、電信、保險(xiǎn)、醫(yī)療服務(wù)、體育和政府管理等領(lǐng)域。國內(nèi)對(duì)數(shù)據(jù)挖掘的研究起步稍晚,近年來對(duì)數(shù)據(jù)挖掘的研究發(fā)展較快,所涉及的領(lǐng)域集中在學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的應(yīng)用和相關(guān)數(shù)據(jù)挖掘理論的研究。然而,目前關(guān)于數(shù)據(jù)挖掘的論文雖多,但與企業(yè)結(jié)合較少??梢哉f,目前國內(nèi)的數(shù)據(jù)挖掘應(yīng)用仍停留在初級(jí)階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時(shí)日。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于實(shí)際項(xiàng)目中,一般都遵循“跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”(如圖1所示)。該流程是數(shù)據(jù)挖掘業(yè)界通用推行的標(biāo)準(zhǔn)之一,它強(qiáng)調(diào)將數(shù)據(jù)挖掘用來解決商業(yè)實(shí)際問題,而不是將數(shù)據(jù)挖掘限定在研究領(lǐng)域。它是一個(gè)不斷迭代的過程。
圖1 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)
數(shù)據(jù)挖掘從一個(gè)新的視角將數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來,它能組合各個(gè)領(lǐng)域的優(yōu)點(diǎn),從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)。這里從數(shù)據(jù)挖掘任務(wù)這一視角來闡述數(shù)據(jù)挖掘的方法。
預(yù)測(cè)建模分為兩大類:分類和回歸?;貧w模型一般分為線性回歸和非線性回歸,很多非線性模型都可以經(jīng)過適當(dāng)?shù)淖儞Q轉(zhuǎn)化為線性回歸模型[4]。分類模型可以作為解釋性的工具,用于區(qū)分不同類中的個(gè)體,同時(shí)也可以用來預(yù)測(cè)記錄的類別。常用的分類技術(shù)有:
(1)決策樹方法
決策樹方法是一種歸納學(xué)習(xí)算法[3]。在構(gòu)造的樹中,每個(gè)葉結(jié)點(diǎn)都賦予一個(gè)類標(biāo)識(shí)。非葉結(jié)點(diǎn)包含屬性的測(cè)試條件,用于區(qū)分具有不同特征的記錄。主要的決策樹算法有 :ID3、C4.5、CART 和CHAID。
(2)基于規(guī)則的分類方法
基于規(guī)則的分類方法是使用一組“如果…那么…”規(guī)則來對(duì)記錄進(jìn)行分類的技術(shù)。順序覆蓋算法通常被用來從數(shù)據(jù)集中直接提取分類規(guī)則。另一種更廣泛使用的直接規(guī)則提取算法叫RIPPER算法。該算法特別適合類分布失衡的數(shù)據(jù)集,它對(duì)噪聲數(shù)據(jù)有很好的容忍度。
(3)支持向量機(jī)
支持向量機(jī)已成為一種熱門的分類技術(shù),它能很好地處理高維數(shù)據(jù)集,避免維災(zāi)難。它可以將分類模型表示為凸優(yōu)化問題,從而可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最優(yōu)點(diǎn),而其他分類算法一般都采用貪心學(xué)習(xí)的策略來搜索,往往只能發(fā)現(xiàn)局部最優(yōu)解。
(4)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行處理的算法。反向傳播算法是神經(jīng)網(wǎng)絡(luò)中采用最多的方法。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是:分類的準(zhǔn)確度高,并行分布處理能力強(qiáng),對(duì)噪聲數(shù)據(jù)有較強(qiáng)的魯棒性和容錯(cuò)能力等。但該方法比較耗時(shí),不適于處理大數(shù)據(jù)量的數(shù)據(jù)集。
(5)貝葉斯分類方法
在很多實(shí)際應(yīng)用中,類別屬性和其他屬性之間的關(guān)系是不確定的。貝葉斯分類方法是一種對(duì)數(shù)據(jù)集中屬性集和類別變量概率關(guān)系建模的方法。貝葉斯分類方法主要有:樸素貝葉斯分類方法和貝葉斯網(wǎng)絡(luò)方法。
樸素貝葉斯方法假設(shè)在估計(jì)類條件概率時(shí),屬性之間是條件獨(dú)立的,它對(duì)孤立的噪聲數(shù)據(jù)和無關(guān)屬性具有很好的分類效果。但是現(xiàn)實(shí)中,很多情況下獨(dú)立分布的屬性關(guān)系是不成立的。貝葉斯網(wǎng)絡(luò)不要求類的屬性是條件獨(dú)立的,很適合處理不完整的數(shù)據(jù)集,但是構(gòu)建合理的網(wǎng)絡(luò)可能很繁瑣。
(6)組合分類方法
組合分類方法由訓(xùn)練集構(gòu)建多個(gè)基分類器,然后通過對(duì)每個(gè)基分類器的預(yù)測(cè)進(jìn)行投票來進(jìn)行分類的方法,從而提高分類的準(zhǔn)確度。實(shí)踐表明,組合方法往往比單個(gè)分類器的效果好。
比較常用的組合方法有:bagging方法、boosting方法和隨機(jī)森林方法。AdaBoost算法就是一種常用的boosting方法實(shí)現(xiàn)。隨機(jī)森林方法是一種專門為決策樹分類器設(shè)計(jì)的組合方法,它組合了多種決策樹的預(yù)測(cè)。研究表明,隨機(jī)森林方法在準(zhǔn)確度方面可以和AdaBoost相媲美,另外,其運(yùn)行速度比AdaBoost快。
(7)最近鄰分類方法
最近鄰分類方法記住整個(gè)訓(xùn)練集數(shù)據(jù),當(dāng)測(cè)試記錄的屬性與某個(gè)訓(xùn)練集記錄完全匹配時(shí)才進(jìn)行分類。在實(shí)際應(yīng)用中,往往找出與測(cè)試集的屬性相對(duì)接近的所有訓(xùn)練集記錄即可,這些記錄被稱為最近鄰。記錄r的k-最近鄰是指與r距離最近的k個(gè)數(shù)據(jù)記錄。合理選取k的值很重要,其值太大,最近鄰分類器可能會(huì)誤分測(cè)試集記錄;其值太小,最近鄰分類器易受訓(xùn)練集中噪聲的影響而產(chǎn)生過擬合的問題。
關(guān)聯(lián)分析方法可以發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系。這種聯(lián)系可以用關(guān)聯(lián)規(guī)則來表示。在使用關(guān)聯(lián)規(guī)則時(shí),需要考慮兩個(gè)問題:一是從大數(shù)據(jù)集中發(fā)現(xiàn)模式可能效率很低;二是所發(fā)現(xiàn)的某些關(guān)聯(lián)可能是毫無意義的。支持度這一度量可以刪除那些毫無意義的關(guān)聯(lián)規(guī)則,置信度可以度量規(guī)則的可能性大小。關(guān)聯(lián)分析的算法主要有:Apriori算法、DHP算法、DIC算法和 FP-增長算法等。
聚類分析是將數(shù)據(jù)劃分成具有意義的組。聚類算法的選擇應(yīng)由數(shù)據(jù)類型、聚類目的和應(yīng)用決定。主要的聚類方法有:
(1)劃分方法
給定一個(gè)有N條記錄的數(shù)據(jù)集,以及要生成簇的數(shù)目K。劃分方法首先給出一個(gè)初始的分組方法,然后通過反復(fù)迭代的方式改變分組,使得每一次改進(jìn)之后的分組方案都比前一次好。該方法常用的算法有:K-Means算法、K-MEDOIDS算法和CLARANS算法等。
(2)層次方法
層次方法是對(duì)給定的數(shù)據(jù)對(duì)象集合進(jìn)行層次分解,層次方法可以分為凝聚和分裂[5]。該方法在合并、分裂的時(shí)候要檢測(cè)大量的記錄和簇,因而伸縮性比較差。比較常見的方法有四種:BIRCH、CURE、ROCK 和 Chameleon[5]。
(3)基于密度的方法
基于密度的方法與其他方法的一個(gè)本質(zhì)區(qū)別是:它不是基于距離作為相似性度量的,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)類球狀聚類的缺點(diǎn)。最具代表性的是DBSCAN算法、OPTICS算法和DENCLUE算法[5]。
(4)基于網(wǎng)格的方法
這種方法首先將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象。這么處理的一個(gè)明顯優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)集中記錄的個(gè)數(shù)無關(guān)的,它只與把數(shù)據(jù)空間劃分的單元數(shù)量有關(guān)。代表算法有:STING 算法、CLIQUE 算法、WAVE-CLUSTER算法[5]。
(5)基于模型的方法
基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。這樣的一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。通常有兩種方案:統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案。
異常檢測(cè),也稱偏差檢測(cè)。異常檢測(cè)的目標(biāo)就是發(fā)現(xiàn)與其它大部分?jǐn)?shù)據(jù)點(diǎn)不同的數(shù)據(jù)點(diǎn)。不平凡的事物往往都具有異乎尋常的重要性。異常檢測(cè)的方法主要有:
(1)基于鄰近度的技術(shù)
很多異常檢測(cè)都是基于鄰近度這一度量,通過比較不同對(duì)象之間的距離,就可以判斷異常對(duì)象。異常對(duì)象往往是遠(yuǎn)離其他大部分對(duì)象的對(duì)象。
(2)基于模型的方法
很多異常檢測(cè)方法是通過建立一個(gè)數(shù)據(jù)模型,然后用數(shù)據(jù)去擬合模型,異常點(diǎn)往往是那些同模型不能很好地進(jìn)行擬合的點(diǎn)。由于異常對(duì)象和正常對(duì)象可以看成是兩個(gè)類別,這樣也可以用分類技術(shù)進(jìn)行異常檢測(cè)。
(3)基于密度的技術(shù)
對(duì)象的密度可以通過計(jì)算進(jìn)行估計(jì),低密度區(qū)域的對(duì)象相對(duì)遠(yuǎn)離近鄰對(duì)象,可以將其視為異常對(duì)象。更嚴(yán)格來講,僅當(dāng)一個(gè)對(duì)象的局部密度明顯地小于它的大部分近鄰對(duì)象局部密度時(shí),才將其視為異常對(duì)象。
數(shù)據(jù)挖掘是面向?qū)嶋H應(yīng)用的技術(shù),現(xiàn)在已經(jīng)廣泛應(yīng)用于金融、銀行、農(nóng)業(yè)、制造業(yè)、零售業(yè)、電信、醫(yī)療衛(wèi)生、教育和生物科學(xué)等領(lǐng)域。
在信息技術(shù)方面,文獻(xiàn)[6]將數(shù)據(jù)挖掘技術(shù)應(yīng)用到搜索引擎領(lǐng)域,從而產(chǎn)生智能搜索引擎,將會(huì)給用戶提供一個(gè)高效、準(zhǔn)確的Web檢索工具。
在醫(yī)療衛(wèi)生方面,文獻(xiàn)[7]探討了各種數(shù)據(jù)挖掘方法在生物醫(yī)學(xué)研究領(lǐng)域中的應(yīng)用,可以用分類方法對(duì)疾病進(jìn)行診斷,用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等數(shù)據(jù)挖掘方法對(duì)某些疾病進(jìn)行預(yù)測(cè),研究表明,預(yù)測(cè)效果良好。文獻(xiàn)[8]在研究MRI乳腺非腫塊樣強(qiáng)化病灶對(duì)乳腺癌的診斷時(shí),發(fā)現(xiàn)決策樹模型的靈敏度、特異性和準(zhǔn)確率等性能均優(yōu)于傳統(tǒng)統(tǒng)計(jì)學(xué)中的logistic回歸模型。
在零售業(yè)方面,文獻(xiàn)[9]利用SPSSClementine數(shù)據(jù)挖掘工具,對(duì)超市顧客進(jìn)行分析研究,并提出衡量超市客戶忠誠度的忠誠度系數(shù)指標(biāo),建立忠誠度—盈利性顧客細(xì)分模型,運(yùn)用k-均值算法對(duì)超市顧客進(jìn)行聚類分析,幫助超市準(zhǔn)確識(shí)別不同類型的顧客群,尤其是忠誠的高盈利顧客。再利用序列分析模型分析顧客類別變化路徑,及早發(fā)現(xiàn)潛在價(jià)值顧客,實(shí)現(xiàn)超市利潤的有效提升。
在農(nóng)業(yè)建設(shè)方面,文獻(xiàn)[10]將數(shù)據(jù)挖掘技術(shù)應(yīng)用于農(nóng)村建設(shè)中,為我國農(nóng)村信息化建設(shè)提供了解決方案,有效解決了農(nóng)村信息服務(wù)“最初一公里”信息采集難和“最后一公里”信息進(jìn)村入戶難的問題,研究表明,這種思路具有很好的推廣應(yīng)用價(jià)值。
在電信方面,文獻(xiàn)[11]采用數(shù)據(jù)挖掘技術(shù)分析電信客戶以往的行為特征來洞察客戶的潛在需求,從而有針對(duì)性地進(jìn)行套餐的設(shè)計(jì)和定價(jià),在風(fēng)險(xiǎn)可控的范圍內(nèi)最大限度地提高客戶對(duì)套餐的接受度,為客戶提供最需要的產(chǎn)品及產(chǎn)品組合,吸引新的客戶入網(wǎng),減少老客戶的流失,同時(shí)實(shí)現(xiàn)電信企業(yè)的業(yè)務(wù)量和收入提升。
在教育方面,文獻(xiàn)[12]在分析了當(dāng)前遠(yuǎn)程教育網(wǎng)站的不足之處后,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于遠(yuǎn)程教育系統(tǒng)中,通過分析大量在線用戶信息,提出個(gè)性化的教育服務(wù),進(jìn)而提高遠(yuǎn)程教學(xué)質(zhì)量。
在金融方面,文獻(xiàn)[13]提出了基于數(shù)據(jù)挖掘的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)級(jí)體系,在此基礎(chǔ)上,構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)的評(píng)級(jí)模型和基于多種數(shù)據(jù)挖掘技術(shù)的分類結(jié)果細(xì)化可視化模塊,結(jié)果表明,數(shù)據(jù)挖掘技術(shù)可以很好地應(yīng)用于風(fēng)險(xiǎn)評(píng)估中。
目前數(shù)據(jù)挖掘技術(shù)的研究已成為國內(nèi)外研究的熱點(diǎn),最近幾年在國內(nèi)發(fā)展迅速,今后該領(lǐng)域發(fā)展的趨勢(shì)可能主要表現(xiàn)在以下幾方面:
(1)隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的資源越來越多,如何通過數(shù)據(jù)挖掘技術(shù)對(duì)互聯(lián)網(wǎng)上的資源進(jìn)行挖掘,并從中發(fā)現(xiàn)有用的信息,將成為一個(gè)熱點(diǎn)問題。Web數(shù)據(jù)挖掘目前的研究雖然比較多,但是還有很多不足,需要進(jìn)一步研究完善。
(2)數(shù)據(jù)挖掘算法的改進(jìn)和數(shù)據(jù)挖掘可視化。數(shù)據(jù)挖掘算法一般要處理海量的數(shù)據(jù),如何在算法效率和算法準(zhǔn)確度之間尋找平衡點(diǎn),是一個(gè)值得研究的課題。另外,數(shù)據(jù)挖掘結(jié)果的友好可視化展現(xiàn)也是一個(gè)重要的研究課題。
(3)多媒體數(shù)據(jù)挖掘。多媒體包含視頻、音頻、圖像等,這些數(shù)據(jù)的結(jié)構(gòu)往往比較復(fù)雜,傳統(tǒng)的數(shù)據(jù)挖掘算法處理多媒體數(shù)據(jù)效果比較差。為了挖掘多媒體資源,需要設(shè)計(jì)和開發(fā)更好的數(shù)據(jù)挖掘算法。
(4)數(shù)據(jù)挖掘和隱私保護(hù)。數(shù)據(jù)挖掘的個(gè)人隱私與信息安全問題備受人們關(guān)注。誤用和濫用數(shù)據(jù)挖掘可能導(dǎo)致用戶數(shù)據(jù)特別是敏感信息的泄露,越來越多的人對(duì)此表示擔(dān)憂,如何在不暴露用戶隱私的前提下進(jìn)行數(shù)據(jù)挖掘,將成為非常值得關(guān)注的研究課題[14]。
(5)數(shù)據(jù)挖掘技術(shù)與其他系統(tǒng)的集成。數(shù)據(jù)挖掘應(yīng)該是一個(gè)完整的過程,不單單是一個(gè)算法,為了將數(shù)據(jù)挖掘技術(shù)更好地應(yīng)用于現(xiàn)實(shí)生活中,需要研究如何將數(shù)據(jù)挖掘與其他系統(tǒng)有機(jī)地集成,從而最大化地發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢(shì)。
(6)空間和時(shí)序數(shù)據(jù)挖掘??臻g數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫不同,空間數(shù)據(jù)庫具有豐富的數(shù)據(jù)類型,帶有拓?fù)?、距離信息,空間數(shù)據(jù)有很強(qiáng)的局部相關(guān)性等特點(diǎn)。挖掘空間數(shù)據(jù)庫需要特殊的數(shù)據(jù)挖掘方法。另外,有一類數(shù)據(jù)集的數(shù)據(jù)之間存在著時(shí)間上的關(guān)系,這類數(shù)據(jù)被稱為時(shí)序數(shù)據(jù)。在對(duì)時(shí)列數(shù)據(jù)進(jìn)行挖掘的過程中,必須考慮數(shù)據(jù)集數(shù)據(jù)間存在時(shí)間上的關(guān)系[15],如何高效地處理空間和時(shí)序數(shù)據(jù),仍有大量問題需要解決。
(7)流數(shù)據(jù)挖掘。由于數(shù)據(jù)流實(shí)時(shí)、連續(xù)、有序、快速到達(dá)的特點(diǎn)以及在線分析的應(yīng)用需求,對(duì)流數(shù)據(jù)挖掘算法提出了很多挑戰(zhàn)。目前也有一些流數(shù)據(jù)挖掘方法,這些方法主要包括概要數(shù)據(jù)結(jié)構(gòu)、滑動(dòng)窗口技術(shù)、多窗口技術(shù)、衰減因子和近似技術(shù)等[16]。
(8)適合中小企業(yè)使用的數(shù)據(jù)挖掘系統(tǒng)。目前國外著名的數(shù)據(jù)挖掘軟件有:SAS Enterprise Miner、SPSS Clementine(現(xiàn)被IBM收購并改名為IBM SPSS Modeler)和 RapidMiner(開源)等。除開源軟件外,數(shù)據(jù)挖掘軟件一般價(jià)格昂貴,中小企業(yè)往往望而卻步。針對(duì)我國中小企業(yè)的特點(diǎn),開發(fā)一套適合我國國情的數(shù)據(jù)挖掘軟件具有重要的現(xiàn)實(shí)意義。
總之,數(shù)據(jù)挖掘目前已成為一個(gè)熱點(diǎn)研究課題。研究數(shù)據(jù)挖掘具有重要的現(xiàn)實(shí)意義。需要注意的是,數(shù)據(jù)挖掘技術(shù)僅僅是一個(gè)數(shù)據(jù)分析工具和方法,得到的結(jié)果不是完全正確的,需要結(jié)合具體的專業(yè)知識(shí)和社會(huì)大環(huán)境等因素分析,才能正確地利用數(shù)據(jù)挖掘技術(shù)來輔助制定決策。
[1]Na isbitt J.Megatrends:Ten new directions transforming our lives[M].New York: Warner Books,1982:16-17.
[2]王光宏,蔣平.?dāng)?shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào),2004,32(4) :246-251.
[3]張君楓.?dāng)?shù)據(jù)挖掘算法綜述[J].電腦學(xué)習(xí),2010(4):120-121.
[4]孟曉東,袁道華,等.基于回歸模型的數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)與現(xiàn)代化,2010(1):26-27.
[5]劉克準(zhǔn),廖志芳.?dāng)?shù)據(jù)挖掘中聚類算法綜述[J].福建電腦,2008(8):5-6.
[6]楊占華,楊燕.?dāng)?shù)據(jù)挖掘在智能搜索引擎中的應(yīng)用[J].微計(jì)算機(jī)信息,2006,22(4-3):244-246.
[7]龔著琳,陳瑛,等.?dāng)?shù)據(jù)挖掘在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用[J].上海交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2010,30(11):1420-1423.
[8]譚紅娜,蘇懿,等.?dāng)?shù)據(jù)挖掘技術(shù)判定MRI乳腺非腫塊樣強(qiáng)化病灶的初步研究[J].中華放射學(xué)雜志,2009,43(5):455-459.
[9]肖生苓,牟娌娜,等.基于數(shù)據(jù)挖掘技術(shù)的超市顧客群研究[J].資源開發(fā)與市場(chǎng),2011,27(08):683-685.
[10]張偉,歐吉順,等.利用數(shù)據(jù)挖掘技術(shù)建設(shè)農(nóng)業(yè)智能綜合信息服務(wù)平臺(tái)[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2011(8):34-36.
[11]潘宇曦,葉宇航,等.基于數(shù)據(jù)挖掘的電信行業(yè)精確化套餐設(shè)計(jì)方法研究[J].情報(bào)雜志,2011(30):123-125.
[12]王嵐,王萍.?dāng)?shù)據(jù)挖掘在遠(yuǎn)程教育系統(tǒng)中個(gè)性化教育的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2008,3(10):93-95.
[13]蔡皎潔,張玉峰.基于數(shù)據(jù)挖掘銀行客戶信用風(fēng)險(xiǎn)評(píng)級(jí)體系研究[J].情報(bào)雜志,2010,29(2):47-50.
[14]錢萍,吳蒙.同態(tài)加密隱私保護(hù)數(shù)據(jù)挖掘方法綜述[J].計(jì)算機(jī)應(yīng)用研究,2011,28(5):1614-1617.
[15]賈澎濤,何華燦,等.時(shí)間序列數(shù)據(jù)挖掘綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(11):15-17.
[16]孫玉芬,盧炎生.流數(shù)據(jù)挖掘綜述[J].計(jì)算機(jī)科學(xué),2007,34(1) :1-5.