淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預處理技術

2017-12-21 22:22張治斌劉威

數(shù)字技術與應用 2017年10期

張治斌++劉威

摘要：無論在數(shù)據(jù)分析還是數(shù)據(jù)挖掘過程中，數(shù)據(jù)預處理都處于重要的地位和作用，占據(jù)數(shù)據(jù)挖掘過程總工作量的60-80%，數(shù)據(jù)預處理過程決定著數(shù)據(jù)挖掘結果的準確性和有效性，本文主要針對數(shù)據(jù)預處理的基本工作內容進行介紹。

關鍵詞：數(shù)據(jù)預處理；數(shù)據(jù)挖掘；過程；數(shù)據(jù)清洗

中圖分類號：TP39 文獻標識碼：A 文章編號：1007-9416（2017）10-0216-02

現(xiàn)實世界的數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)量迅速膨脹，目前數(shù)據(jù)存儲的數(shù)量級已經達到G-T-P的級別，由于用戶輸入、數(shù)據(jù)庫設計與界面設計等各種原因，在海量的數(shù)據(jù)中難免會出現(xiàn)各種不符合分析需求的噪聲數(shù)據(jù)、空缺值、缺失值；有些數(shù)據(jù)描述不完整；在進行數(shù)據(jù)整合與合并時，不同數(shù)據(jù)源的統(tǒng)一屬性字段存在不一致性的情況，為了使數(shù)據(jù)挖掘的結果能夠可觀、真實反映歷史數(shù)據(jù)的情況，為用戶提供精確的指導建議，所以在數(shù)據(jù)挖掘之前進行數(shù)據(jù)預處理工作，改善和提高數(shù)據(jù)質量非常必要。

1 數(shù)據(jù)挖掘過程介紹

數(shù)據(jù)挖掘也叫做資料勘探或數(shù)據(jù)采礦，從宏觀上定義為從海量的各類數(shù)據(jù)中通過某種算法探索隱匿的信息和知識的過程，許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)（KDD）的同義詞，知識發(fā)現(xiàn)的過程如圖1所示。

在上述數(shù)據(jù)挖掘工作中的數(shù)據(jù)清理與集成、數(shù)據(jù)選取與變換過程就是數(shù)據(jù)預處理過程，所謂數(shù)據(jù)預處理指的是在進行挖掘前對數(shù)據(jù)進行一些必要的處理，其主要過程包括：數(shù)據(jù)選取、數(shù)據(jù)轉換和數(shù)據(jù)加載的過程，這一過程也被稱作ETL，數(shù)據(jù)預處理是數(shù)據(jù)挖掘的基礎，通過研究發(fā)現(xiàn)，數(shù)據(jù)預處理過程要花費整個挖掘過程的60-80%左右的時間和精力。在挖掘前進行有效的數(shù)據(jù)預處理工作，既可以節(jié)省大量時間和空間，更能確保數(shù)據(jù)挖掘結果得到更好的決策和預測作用。

假設有這樣一個需求：某公司要對歷史銷售的數(shù)據(jù)進行挖掘分析，以為后期的銷售提供指導，我們指導銷售數(shù)據(jù)通常包括諸如商品名稱、產地、經銷地、生產時間、銷售量與銷售時間等信息，這樣，我們通常首先選取能夠獲得以上數(shù)據(jù)的數(shù)據(jù)庫和數(shù)據(jù)倉庫內容，進一步挑選與挖掘任務相關的數(shù)據(jù)對象的屬性特征與記錄。但是，我們會發(fā)現(xiàn)在數(shù)據(jù)庫中有些數(shù)據(jù)存在一些錯誤和不正常與不一致的情況；有些記錄屬性值不是我們所關心的；有些數(shù)據(jù)屬性之間的值存在較大的偏差，那么在數(shù)據(jù)挖掘前就有必要將這些噪聲數(shù)據(jù)以及不一致的屬性進行預先的處理。

我們通常把數(shù)據(jù)中存在的錯誤或異?；蚱x期望值的數(shù)據(jù)成為噪聲數(shù)據(jù)；把有些在挖掘中需要或感興趣但其屬性卻沒有值的數(shù)據(jù)稱為不完整數(shù)據(jù)；把數(shù)據(jù)庫中具有相同屬性意義，但表現(xiàn)字段屬性不同的情況稱為不一致的數(shù)據(jù)，例如：同一部門的編號在數(shù)據(jù)庫中表現(xiàn)為不同的值，或者性別字段的記錄值表現(xiàn)形式不同等。

2 數(shù)據(jù)預處理技術解析

數(shù)據(jù)預處理技術主要由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等四部分工作組成。所謂數(shù)據(jù)清洗，是指將數(shù)據(jù)中存在的噪聲數(shù)據(jù)進行消除，糾正數(shù)據(jù)庫中數(shù)據(jù)不一致的情況；數(shù)據(jù)集成比較容易理解與實現(xiàn)，指的是將不同數(shù)據(jù)源的數(shù)據(jù)通過橫向合并或縱向追加等形式重新構成一個新的數(shù)據(jù)集合；數(shù)據(jù)變換的目的是為了數(shù)據(jù)格式的統(tǒng)一而進行的將一種格式的數(shù)據(jù)轉換為另一種規(guī)范統(tǒng)一并能夠易于分析處理的數(shù)據(jù)格式；最后，由于我們處理的是海量數(shù)據(jù)，為了能夠提高挖掘效率，需要將與挖掘業(yè)務無關的冗余特征進行刪除，再通過聚類等方式消除多余數(shù)據(jù)，這個過程就是數(shù)據(jù)歸約。下面針對數(shù)據(jù)預處理的四個過程進行詳細介紹。

（1）數(shù)據(jù)清理：數(shù)據(jù)清理是完成格式的標準化、對空缺值進行處理、清除重復的數(shù)據(jù)以及對異常數(shù)據(jù)進行錯誤糾正和清除等操作；例如在分析一個學生家庭基本信息的數(shù)據(jù)時，發(fā)現(xiàn)有好多記錄中的屬性值為空：例如：“家庭年收入”屬性；還有一些屬性值為異常狀況，例如 “家庭年收入”屬性值為負數(shù)；當數(shù)據(jù)庫中出現(xiàn)空的屬性值或異常的屬性值時，如果對于挖掘結果影響不大，可以將其忽略；如果不完整數(shù)量不多，可以根據(jù)需要進行手動填補空缺值或替換異常值；此外，如果對于數(shù)據(jù)量較大，對數(shù)據(jù)質量要求較高的時候，也可以利用缺省值、可能出現(xiàn)的值、平均值進行填補的方法。相對來說利用最可能出現(xiàn)的值填補遺漏值是一種比較普遍使用的方法，能夠最大程度上確保信息符合當前數(shù)據(jù)所包含的特征，幫助預測所遺漏的數(shù)據(jù)。

（2）數(shù)據(jù)集成：數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)合并為統(tǒng)一一致的數(shù)據(jù)存儲中，這種數(shù)據(jù)存儲可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫；數(shù)據(jù)集成主要包括：包含相同字段屬性的縱向追加和具有相關屬性疊加的橫向合并。在進行數(shù)據(jù)橫向合并時，會出現(xiàn)同一對象的一些屬性字段在不同數(shù)據(jù)庫或數(shù)據(jù)倉庫中的名稱不同或屬性值不同，這樣就容易造成合成后的數(shù)據(jù)出現(xiàn)不一致性或者數(shù)據(jù)的冗余性。例如：在學生成績的數(shù)據(jù)庫中，學生的學號字段表示為“Student_ID”，學生性別的屬性取值為（0，1），在另一個學生基本信息的數(shù)據(jù)庫中，學生的學號字段表示為“ID”，學生性別的屬性取值為（‘男，‘女）；這樣兩個數(shù)據(jù)庫的信息在進行集成的時候，就會出現(xiàn)性別字段的屬性取值不一致，學號字段的信息存在冗余的情況，這樣進一步大大降低數(shù)據(jù)挖掘的效率，而且會誤導挖掘的過程，所以在數(shù)據(jù)集成過程的一項重要工作是消減數(shù)據(jù)的冗余。

（3）數(shù)據(jù)歸約：數(shù)據(jù)歸約是針對原始數(shù)據(jù)集中地屬性和記錄，實現(xiàn)有效的數(shù)據(jù)采樣與對應屬性選擇，進一步降低數(shù)據(jù)規(guī)模，在數(shù)據(jù)歸約過程可以采用聚集、聚類以及將冗余特征值刪除等形式，達到既能最大限度的保持數(shù)據(jù)的原有特征，又能夠有效的精簡數(shù)據(jù)量的目的。數(shù)據(jù)歸約的前提是保持原有數(shù)據(jù)的完整性和有效性的基礎上，在龐大的數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中抽取出具有特征性的精簡的數(shù)據(jù)集合。數(shù)據(jù)歸約主要通過數(shù)據(jù)立方體技術、維消減、數(shù)據(jù)壓縮、數(shù)據(jù)塊消減、離散化和概念層次生成等方法實現(xiàn)。

（4）數(shù)據(jù)變換：數(shù)據(jù)變換是根據(jù)需要將數(shù)據(jù)壓縮到較小的區(qū)間中，也就是對數(shù)據(jù)進行規(guī)格化處理，將數(shù)據(jù)壓縮到特定的范圍之內，例如【0，1】之間。例如對于學生基本信息中的成績屬性和家庭年收入屬性，由于家庭年收入屬性比成績屬性的值大得多，如果不進行規(guī)范化處理，在進行類似神經網絡等挖掘方法處理時，家庭年收入的距離計算值會遠遠大于學生成績的距離計算值，這就將家庭年收入的屬性作用在整個數(shù)據(jù)對象的距離計算中被遠遠放大。

以上所提到的幾種數(shù)據(jù)預處理方法，相互之間不僅關聯(lián)而且是獨立的，各個預處理方法的實施并沒有先后順序的嚴格制約，并且相互貫通，例如消除數(shù)據(jù)冗余的過程既可以看做是數(shù)據(jù)清洗過程的一項工作，也可以認為是數(shù)據(jù)歸約工作中的一種方法。

數(shù)據(jù)預處理無論在數(shù)據(jù)挖掘或數(shù)據(jù)分析過程中，都被視為是一項重要的工作，特別隨著海量數(shù)據(jù)的逐漸龐大，各類噪聲數(shù)據(jù)與不完整數(shù)據(jù)的層出不窮，每一項數(shù)據(jù)挖掘工作中都要對數(shù)據(jù)質量進行嚴格的預處理工作，以提高數(shù)據(jù)挖掘結果的準確與真實性，達到提高數(shù)據(jù)挖掘所獲模式知識質量的目的。

參考文獻

[1]薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國人民大學出版社，2014.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預處理技術