曾磊
摘要:該文基于交互式、多層次挖掘、復(fù)雜數(shù)據(jù)類型——時(shí)間序列相似挖掘,集成化挖掘,從數(shù)據(jù)挖掘平臺的構(gòu)建以及行業(yè)應(yīng)用的角度,對數(shù)據(jù)挖掘中的相關(guān)算法進(jìn)行研究,并且在此基礎(chǔ)上,探討了數(shù)據(jù)挖掘算法在實(shí)際應(yīng)用中應(yīng)該如何實(shí)現(xiàn)。
關(guān)鍵詞:數(shù)據(jù)挖掘算法;數(shù)據(jù)倉庫;時(shí)間序列;實(shí)現(xiàn)方式
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2012)36-8589-02
隨著計(jì)算機(jī)信息技術(shù)的飛速發(fā)展,大容量的存儲技術(shù)以及條形碼等數(shù)據(jù)獲取設(shè)備在生活中得到的廣泛的應(yīng)用,我們在生活中也在與不同類型的數(shù)據(jù)打交道,這些數(shù)據(jù)背后隱藏著巨大的價(jià)值信息,如何深入挖掘數(shù)據(jù)有效利用數(shù)據(jù)是當(dāng)前我們關(guān)注的主要問題。數(shù)據(jù)倉庫是面向主題的,集成化的,并且隨著時(shí)間不短變化的數(shù)據(jù)集合,通過對不同的數(shù)據(jù)源進(jìn)行轉(zhuǎn)化和繼承能夠?qū)v史數(shù)據(jù)和現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)的綜合管理,從而為進(jìn)一步分析挖掘數(shù)據(jù)提供基礎(chǔ)。筆者在下文中主要首先分析了當(dāng)前數(shù)據(jù)挖掘的現(xiàn)狀,探討數(shù)據(jù)挖掘的基本技術(shù)和算法,最終研究基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析挖掘平臺的實(shí)現(xiàn)。
1數(shù)據(jù)挖掘的現(xiàn)狀
隨著數(shù)據(jù)庫技術(shù)以及數(shù)據(jù)處理的人工智能haunted發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,數(shù)據(jù)挖掘技術(shù)旨在從大量的隱藏?cái)?shù)據(jù)中挖掘出切實(shí)可用的信息,從而更好地服務(wù)與我們?nèi)粘Ia(chǎn)和生活的各個(gè)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)具有構(gòu)筑企業(yè)競爭優(yōu)勢的特點(diǎn),從而為其帶來經(jīng)濟(jì)效益,因此當(dāng)前許多知名企業(yè)和大型公司也紛紛加大了對數(shù)據(jù)挖掘的研究和應(yīng)用。數(shù)據(jù)挖掘從不同的劃分標(biāo)準(zhǔn)可以分為不同的類型,例如根據(jù)數(shù)據(jù)模型來劃分;可以將數(shù)據(jù)挖掘劃分為如下幾類:關(guān)系的、事務(wù)的、面向?qū)ο蟮?、對?關(guān)系的等,從特定類型來劃分,可以分為空間的、時(shí)間序列的。文本的、多媒體的等。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)一般會采用多種數(shù)據(jù)挖掘技術(shù)相結(jié)合,以集成化的數(shù)據(jù)挖掘系統(tǒng)支持毒品抽象層的知識發(fā)現(xiàn)。從應(yīng)用的角度來劃分,數(shù)據(jù)挖掘系統(tǒng)可以分類特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具,其中特定領(lǐng)域的數(shù)據(jù)挖掘工具主要是指針對某一特定領(lǐng)域的數(shù)據(jù)挖掘,在設(shè)計(jì)中針對數(shù)據(jù)的特殊性做了系統(tǒng)的進(jìn)一步優(yōu)化。相比較國外,我國對數(shù)據(jù)挖掘的研究起步還較晚,但經(jīng)過長期大量的研究,已經(jīng)開發(fā)出了一系列數(shù)據(jù)挖掘的工具,雖然還不完美,但總的來說取得了滿意的效果。
2數(shù)據(jù)挖掘算法的內(nèi)容
數(shù)據(jù)挖掘算法是對數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn),主要包括了以下三個(gè)部分主要內(nèi)容,分別是模型表示、模型評價(jià)標(biāo)準(zhǔn)、發(fā)現(xiàn)方法。
1)模型表示:要提高模型的表達(dá)力,模型語言的恰當(dāng)運(yùn)用發(fā)揮著重要作用。語言的描述強(qiáng)度對模型的精準(zhǔn)性產(chǎn)生著重大的影響,當(dāng)語言表達(dá)能力過強(qiáng)的時(shí)候,可能會使得模型過分一般化,其精度也會相對下降,因此合理恰當(dāng)把握模型表示的語言強(qiáng)度對于保證模型精準(zhǔn)性具有重要意義。
2)模型評價(jià)標(biāo)準(zhǔn):模型評價(jià)標(biāo)準(zhǔn)主要是指對一個(gè)模型的最終發(fā)現(xiàn)結(jié)果和具體的要求之間做出量化評價(jià)。針對預(yù)測類的模型,為了提高預(yù)測的精準(zhǔn)度,可以利用測試數(shù)據(jù)集來進(jìn)行評價(jià)。具體的評價(jià)內(nèi)容可以從模型的精確度、新穎度以及實(shí)用價(jià)值來進(jìn)行綜合評價(jià)。
3)發(fā)現(xiàn)方法:數(shù)據(jù)挖掘的發(fā)現(xiàn)方法可以分類兩類:參量發(fā)現(xiàn)、模型發(fā)現(xiàn),發(fā)現(xiàn)方法是在完成模型表示和模型評價(jià)后,進(jìn)行模型的最終優(yōu)化數(shù)據(jù)挖掘。發(fā)現(xiàn)過程是一個(gè)嘗試和探索相結(jié)合的過程,需要不斷嘗試和改變參量來尋找最適合模型評價(jià)標(biāo)準(zhǔn)的參量,最終確定出最優(yōu)的模型。
總的來說,對于數(shù)據(jù)挖掘算法不存在一個(gè)普遍使用的算法,算法的適用性和有效性主要是表現(xiàn)在某一個(gè)領(lǐng)域,在實(shí)際的算法運(yùn)用中,需要選擇最恰當(dāng)適用的數(shù)據(jù)挖掘算法,也就是說不能將已有的算法普遍運(yùn)用于所有的領(lǐng)域中,是需要從新的領(lǐng)域的具體需求出發(fā)制定最優(yōu)的數(shù)據(jù)挖掘算法。
3數(shù)據(jù)挖掘算法與實(shí)現(xiàn)
根據(jù)數(shù)據(jù)挖掘的不同角度可以將數(shù)據(jù)挖掘技術(shù)劃分為不同的種類,例如從發(fā)現(xiàn)的知識種類來劃分?jǐn)?shù)據(jù)挖掘技術(shù),或者從挖掘方法分類,再者是根據(jù)挖掘的途徑來分類。筆者在此主要從技術(shù)的角度來進(jìn)行分類,對數(shù)據(jù)挖掘技術(shù)中的幾個(gè)重要的方法做了如下詳細(xì)闡述:
1)決策樹方法:決策樹方法是數(shù)據(jù)挖掘算法中的一個(gè)重要方法,決策樹下的每一個(gè)分支是一個(gè)決策過程,每一個(gè)過程中涉及唯一一個(gè)數(shù)據(jù)的屬性,然后通過不斷滿足決策條件得到最終的決策結(jié)果。決策樹的構(gòu)造中蘊(yùn)含著分類規(guī)則,其核心內(nèi)容在于構(gòu)造精度高、規(guī)模小的決策樹,具體來說決策樹的構(gòu)造可以分兩個(gè)主要步驟進(jìn)行。首先是決策樹的生成,其生成過程是由訓(xùn)練樣本集生成決策樹的過程,數(shù)據(jù)集一般來說應(yīng)該是具有現(xiàn)實(shí)意義,有一定的綜合程度并且用于數(shù)據(jù)分析處理的。其次是要進(jìn)行數(shù)據(jù)集的剪枝,是指對上一步驟中構(gòu)造的決策樹進(jìn)行檢驗(yàn)、校正和修正。具體來說也就是要運(yùn)用新的樣本數(shù)據(jù)集來作為測試數(shù)據(jù)集中的數(shù)據(jù)檢驗(yàn)決策樹生成中產(chǎn)生的初步規(guī)則,將分支中阻礙預(yù)測準(zhǔn)確性的部分剪除。
2)遺傳算法:基于遺傳算法的數(shù)據(jù)挖掘技術(shù)是一個(gè)模擬生物進(jìn)化遺傳的過程,是在生物進(jìn)化的思想啟發(fā)下得出的算法,遺傳算法相比較其他優(yōu)化算法,主要有以下提出特點(diǎn):一是遺傳算法將變量的編碼作為運(yùn)算的對象,傳統(tǒng)的優(yōu)化算法一般來說是直接利用決策變量的實(shí)際值來進(jìn)行優(yōu)化的計(jì)算,而遺傳算法引入例如遺傳操作的算子,采用決策變量的某種形式編碼;二是通過概率搜索技術(shù),以概率的方式進(jìn)行搜索,從而增加了整個(gè)搜索過程的適用性和靈活性。遺傳算法在當(dāng)前的數(shù)據(jù)挖掘中得到了較為廣泛的應(yīng)用,在作業(yè)調(diào)度、自動(dòng)控制方面發(fā)揮著重要的作用。遺傳算法主要由三個(gè)基本的算子組成,分別是繁殖、交叉和變異。繁殖是指從一個(gè)舊的父代中選出生命力強(qiáng)的個(gè)體從而繁衍出后代;交叉是一個(gè)重組的過程,模擬生物遺傳中的基因交換部分,通過模擬染色體的交叉組合過程,不斷的嘗試最優(yōu)組合,最終形成一個(gè)新的組合結(jié)果。遺傳算法是一個(gè)不斷優(yōu)化的過程,在優(yōu)化計(jì)算中具有明顯的優(yōu)勢。
3)神經(jīng)網(wǎng)絡(luò)方法:神經(jīng)網(wǎng)絡(luò)方法是模擬生物的有一個(gè)方法,是對人腦神經(jīng)元結(jié)構(gòu)的模擬。神經(jīng)網(wǎng)絡(luò)是由大量的并行分布式的處理單元組成的簡單處理單元,基于神經(jīng)網(wǎng)絡(luò)方法的數(shù)據(jù)挖掘主要由兩個(gè)階段組成,分別是網(wǎng)絡(luò)構(gòu)造、訓(xùn)練、剪枝以及規(guī)則提取和評估。網(wǎng)絡(luò)構(gòu)造、訓(xùn)練和剪枝是選擇擬采用的網(wǎng)絡(luò)模型,選擇或者設(shè)計(jì)一種網(wǎng)絡(luò)訓(xùn)練的算法。通過尋亂后的網(wǎng)絡(luò)略顯臃腫,因此就需要在保持準(zhǔn)確性的基礎(chǔ)下,剪掉網(wǎng)絡(luò)中的多余的節(jié)點(diǎn),最終產(chǎn)生精煉的簡易的網(wǎng)絡(luò)。規(guī)則的提取和評估階段主要是經(jīng)過上一步驟以后已經(jīng)相對簡單的網(wǎng)絡(luò)提取分類規(guī)則,最終轉(zhuǎn)化為更加易于理解的形式表達(dá)出來,例如決策樹、模糊邏輯等方法。最后再通過測試樣本對規(guī)則進(jìn)行評估。在實(shí)際應(yīng)用中是和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘問題主要有分類問題、時(shí)序預(yù)測、聚類等。相比較其他的數(shù)據(jù)挖掘算法神經(jīng)網(wǎng)絡(luò)具有如下優(yōu)勢:一是挖掘的層次更深,能夠處理的變量更多,具有分布記憶性和快速計(jì)算的優(yōu)勢。但同時(shí)神經(jīng)網(wǎng)絡(luò)算法也具有一些不足之處,例如在非數(shù)值型數(shù)據(jù)的處理和數(shù)據(jù)質(zhì)量方面相對較弱。
4)基于粗糙集的數(shù)據(jù)挖掘算法:粗糙集理論是針對不完整和不確定信息的數(shù)學(xué)工具,它能夠分析數(shù)據(jù)中的不精確和不一致信息。在現(xiàn)實(shí)應(yīng)用中,我們常會遇到許多粗糙數(shù)據(jù)的整理,如何在最短時(shí)間內(nèi)找到有用信息,進(jìn)行數(shù)據(jù)處理是當(dāng)前面臨的主要問題,而粗糙集的數(shù)據(jù)挖掘方法在處理這一問題方面發(fā)揮著重要的作用?;诖植诩臄?shù)據(jù)挖掘處理過程一般來說包括了以下幾個(gè)步驟:初始數(shù)據(jù)集、預(yù)處理、不可分辨矩陣、約減集、規(guī)則。預(yù)處理階段是指把數(shù)據(jù)庫中的初始數(shù)據(jù)信息轉(zhuǎn)化為粗糙集形式,明確其條件屬性和決策屬性;接下來再進(jìn)行屬性約減,生成不可分辨據(jù)稱,從而形成約減性屬性集;最后在約減信息中去發(fā)現(xiàn)規(guī)則。在粗糙集的數(shù)據(jù)處理中,對象是行元素,屬性是列元素,條件屬性上的等價(jià)類和決策屬性上的等價(jià)類存在以下三種情況:一種是下近似即決策屬性上的等價(jià)類包含條件屬性上的等價(jià)類;一種是上近似決策屬性的等價(jià)類和條件屬性的等價(jià)類之間有交集;還有一種是無關(guān)即決策屬性的等價(jià)類和條件屬性的等價(jià)類不想交。在具體的規(guī)則上,采用針對下近似建立確定性的谷子額而對上近似建立不確定的規(guī)則。
5)模糊集方法:針對實(shí)際運(yùn)用中的模糊判斷通常采用模糊集的方法,尤其是在系統(tǒng)復(fù)雜的數(shù)據(jù)庫中期精確化的能力就越低,模糊性的就越強(qiáng)?;谀:哪:P(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法具體如下所示:首先輸入數(shù)據(jù)庫T={t1,…,tn},輸出:模糊觀念規(guī)則1.采用FCM算法將數(shù)量型屬性離散化,把取值劃分成不同的模糊等級;2.將數(shù)據(jù)庫T引入,加入數(shù)據(jù),形成新的數(shù)據(jù)庫,根據(jù)上一步驟中劃分的模糊等級,賦予數(shù)據(jù)庫新的模糊屬性;3.計(jì)算并且得出所有的1-模糊頻繁屬性集,再對這些屬性集進(jìn)行組合,其中不包含同一個(gè)IK標(biāo)記的1-模糊頻繁屬性集,最終將包含相同IK標(biāo)記的1-模糊頻繁屬性集作為2-模糊候選屬性集,以此類推,再將第一個(gè)模糊屬性相同的2-模糊頻繁屬性集進(jìn)行組合,一直組合下去,直到發(fā)現(xiàn)所有模糊頻繁屬性集,最終從所用的模糊頻繁屬性集中生成不小于用戶級給定的最小信任的模糊關(guān)聯(lián)規(guī)則。
綜上所述,數(shù)據(jù)挖掘算法是多種多樣的,要根據(jù)確定的領(lǐng)域?qū)ふ易顑?yōu)的算法,從而提高數(shù)據(jù)挖掘的準(zhǔn)確性,更好地服務(wù)于現(xiàn)代生產(chǎn)和生活。
參考文獻(xiàn):
[1]李海濱.基于Web的數(shù)據(jù)挖掘[J].桂林工學(xué)院學(xué)報(bào),2003,23(2):222-225.
[2]陳莉,李焦成.Internet/Web數(shù)據(jù)挖掘研究現(xiàn)狀及其最新進(jìn)展[J].西安電子科技大學(xué)學(xué)報(bào),2001,28(1):114-119.
[3]LawrenceS,LeeGilesC.AccessibilityofInformationontheWeb[J].Nature,1999,400(3):107-109.
[4]秦紅.基于Web的數(shù)據(jù)挖掘[J].電子科技大學(xué)學(xué)報(bào),2002,31(7):56-59.
[5]JiaweiHan,MichelineKamber.名數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001:14-22,149-159,290-295,301-304.
[6]Kantardzic.數(shù)據(jù)挖掘概念、模型、方法和算法[M].閃四清,陳茵,譯.北京:清華大學(xué)出版社,2003:156-161.