郭佳
(蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程系,甘肅 蘭州 730060)
數(shù)據(jù)挖掘作為近年來新興的一種數(shù)據(jù)處理技術(shù),不僅被許多研究人員看作是數(shù)據(jù)庫系統(tǒng)和機器學(xué)習(xí)方面一個重要的研究課題,而且已經(jīng)被工商界人士看作是一個能帶來巨大回報的重要領(lǐng)域。
目前有關(guān)數(shù)據(jù)挖掘的定義有很多,一種比較公認(rèn)的定義如下:
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中抽取隱含的、不為人知的、有用的信息。數(shù)據(jù)挖掘被描述為從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。試圖創(chuàng)建一個數(shù)據(jù)庫中描述的復(fù)雜世界的簡單模型,因而我們也可以說數(shù)據(jù)挖掘是處理大量信息的方法,并且它有助于以比人更快的速度發(fā)現(xiàn)有用的信息。
數(shù)據(jù)挖掘的任務(wù)就是從數(shù)據(jù)集中發(fā)現(xiàn)模式。模式可以有很多種,按功能可分為兩大類:預(yù)測型(Predictive)模式和描述型(Descriptive)模式。具體任務(wù)主要有以下幾種:
2.1 分類:用于預(yù)測事件所屬的類別,其中樣本數(shù)據(jù)中包含標(biāo)識樣本事件所屬類別的數(shù)據(jù)項,類別是已知的,由數(shù)據(jù)挖掘根據(jù)樣本數(shù)據(jù)構(gòu)建對這些類別的模式的描述,再利用所發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的特征變量,將其映射入已知類別中。
2.2 聚類:用于描述和發(fā)現(xiàn)數(shù)據(jù)庫中以前未知的數(shù)據(jù)類型,其中樣本數(shù)據(jù)中不包含類別變量,數(shù)據(jù)挖掘?qū)⒕哂泄餐厔莺湍J降臄?shù)據(jù)元組聚集為一類,使類內(nèi)各元組相似程度最高,類間差異最大。
2.3 關(guān)聯(lián)規(guī)則:用于發(fā)現(xiàn)給定事件或紀(jì)錄中經(jīng)常一起發(fā)生的項目,由此推斷事件間潛在的關(guān)聯(lián),識別有可能重復(fù)發(fā)生的模式。
2.4 序列模式:與關(guān)聯(lián)分析相似,只是擴展為一段時間的項目集間的關(guān)系。常把序列模式看作由時間變量連接起來的關(guān)聯(lián)。序列分析可分析長時間的相關(guān)紀(jì)錄,發(fā)現(xiàn)經(jīng)常發(fā)生的模式。
數(shù)據(jù)挖掘中采用的方法綜合了數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)、模式識別、機器學(xué)習(xí)、數(shù)據(jù)分析等領(lǐng)域的研究成果。下面我們給出主要數(shù)據(jù)挖掘方法:
決策樹的每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分支表示一個測試的輸出,每個樹葉節(jié)點表示類和類的分布。構(gòu)造一個決策樹分類器通常分為兩步:樹的生成和剪枝。樹的生成采用自上而下的遞歸分治法。剪枝就是使用統(tǒng)計度量,剪去那些不可靠的分枝。ID3及其后續(xù)版本C4.5,C5是使用最為廣泛的決策樹方法,采用信息嫡增益及其改進增益率進行屬性選擇。
關(guān)聯(lián)規(guī)則挖掘需要找出的是支持率和置信度分別大于或等于用戶指定的臨界值的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘過程分為兩步:首先找出所有的頻繁項目集及其支持率;然后根據(jù)找到的頻繁項目集導(dǎo)出所有的置信度大于或等于用戶指定的最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的研究一般都在尋找頻繁項目集上。
聚類是按照某個特定標(biāo)準(zhǔn) (通常是某種距離)把一個數(shù)據(jù)集分割成不同的類,使得類內(nèi)相似性盡可能的大;同時,類間的區(qū)別性也盡可能的大。聚類方法可以劃分為以下幾類:①劃分方法;②層次方法;③基于密度的方法;④基于網(wǎng)格的方法;⑤基于模型的方法等。
遺傳算法是Holland于1967年提出的[1],模擬生物進化過程的計算模型,是自然遺傳學(xué)和計算機科學(xué)相互結(jié)合滲透而形成的新的計算方法。遺傳算法由3個基本算子組成:繁殖、交叉和變異。遺傳算法已在優(yōu)化計算和分類機器學(xué)習(xí)方面顯示了明顯的優(yōu)勢。
粗糙集理論是上世紀(jì)八十年代初Z.Pawlak針對G.Firege的邊界域思想提出的[2],基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價類,用上、下近似集合來逼近數(shù)據(jù)庫中的不精確概念。用于分類,可以發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系;用于屬性約簡,可以識別和刪除無助于給定訓(xùn)練數(shù)據(jù)分類的屬性;用于相關(guān)分析,可以根據(jù)分類任務(wù)評估每個屬性的貢獻或意義。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則。
支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的一種新的學(xué)習(xí)方法,是根據(jù)有限的樣本信息在模型復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的泛化能力。它是Vapnik于1995年提出的,近年受到國際學(xué)術(shù)界的高度重視。
數(shù)據(jù)挖掘算法是對數(shù)據(jù)挖掘方法的具體實現(xiàn),其好壞將直接影響到所發(fā)現(xiàn)知識的好壞,因此選取適當(dāng)?shù)乃惴ɑ蛩惴ńM合至關(guān)重要,目前對數(shù)據(jù)挖掘的研究也主要集中在算法及其應(yīng)用方面。一般來說,不存在一個普遍適用的算法,一個算法在某個領(lǐng)域非常有效,但在另一個領(lǐng)域卻可能不太合適。因此,在實際應(yīng)用中要針對具體應(yīng)用的目標(biāo)和情況,精心選擇有效的數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘的實施大體可分為以下三步:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達和解釋,其中數(shù)據(jù)準(zhǔn)備又可以劃分為數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)處理三個階段,結(jié)果表達和解釋包含模式評估和知識表示的內(nèi)容。
數(shù)據(jù)準(zhǔn)備的過程是整理原始數(shù)據(jù),給數(shù)據(jù)挖掘過程提供可供挖掘的材料。數(shù)據(jù)準(zhǔn)備過程按照數(shù)據(jù)的處理順序可以細(xì)分為若干個階段,數(shù)據(jù)集成是將多種數(shù)據(jù)源組合在一起,開始著手提供發(fā)現(xiàn)任務(wù)的操作對象,這個過程中也進行數(shù)據(jù)清理工作,對各個數(shù)據(jù)源中的噪音數(shù)據(jù)和不一致數(shù)據(jù)進行處理,可能包括補充殘缺值、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等內(nèi)容。數(shù)據(jù)選擇從完成數(shù)據(jù)集成后的數(shù)據(jù)庫中檢索和分析任務(wù)相關(guān)的數(shù)據(jù)作為發(fā)現(xiàn)任務(wù)的操作對象,形成目標(biāo)數(shù)據(jù)。數(shù)據(jù)預(yù)處理將數(shù)據(jù)變換為適合挖掘的形式,如匯總或聚集操作、屬性量化或數(shù)據(jù)降維等。
數(shù)據(jù)挖掘階段首先要確定挖掘任務(wù)中要找的模式類型,也就是要確定挖掘的任務(wù)和目的,數(shù)據(jù)挖掘任務(wù)一般可以分為兩類:描述和預(yù)測。描述性任務(wù)刻劃數(shù)據(jù)集中數(shù)據(jù)的一般特征,預(yù)測性任務(wù)在當(dāng)前數(shù)據(jù)集上進行推斷,以進行預(yù)測。其次還要考慮采用什么樣的挖掘算法,對于同樣的任務(wù)類型可能存在多種算法實現(xiàn),此時要考慮數(shù)據(jù)集的具體特點和表現(xiàn)形式,對比各種挖掘算法,對各種算法的要求和前提假設(shè)要有充分的理解,然后最終確定合適的算法類型。
數(shù)據(jù)挖掘系統(tǒng)具有產(chǎn)生數(shù)以千計、甚至上萬的模式或規(guī)則的潛在能力。在這些模式中,用戶只對其中的一小部分模式感興趣,這就需要數(shù)據(jù)挖掘系統(tǒng)能提供對各種模式的評估能力,依據(jù)用戶對模式的興趣度進行評估,剔除掉大多數(shù)無關(guān)模式,把能夠表示知識的有趣模式提交給用戶。知識發(fā)現(xiàn)由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進行可視化,或把結(jié)果轉(zhuǎn)換為用戶易于理解的另一種表示方式。
[1]Holland J H.Adaptation in natural and artificialsystems [M].Univ of Michigan Press,Ann Arbor Mich,1975
[2]Pawlak Z.Rough sets[J].International journal of computer & information sciences.1982,11(5):341-356