趙一凡+卞良+叢昕
摘要:數(shù)據(jù)是數(shù)據(jù)挖掘和應(yīng)用的重要保證,“臟數(shù)據(jù)”會(huì)導(dǎo)致不可靠輸出,這種輸出導(dǎo)致的結(jié)果有可能難以彌補(bǔ)。因此,數(shù)據(jù)清洗方法研究意義重大。闡述了數(shù)據(jù)預(yù)處理過(guò)程中的數(shù)據(jù)清洗方法,介紹了缺失值填充及去除數(shù)據(jù)噪聲的常用方法,總結(jié)了數(shù)據(jù)挖掘的應(yīng)用前景,展望了數(shù)據(jù)清洗研究方向。
關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;缺失值
DOIDOI:10.11907/rjdk.172093
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)012-0222-03
Abstract:Data is an important guarantee for data mining and application, “Dirty Data” can lead to unreliable output, the result of this output may be difficult to make up, therefore, the data cleaning method has important research significance. Aiming at the data preprocessing process data cleaning is surveyed in this paper, clarifying the missing values and removing the noise in the data method, comparison of the advantage and disadvantage of commonly used methods, summarize the shortcoming of data cleaning research and the application of data mining.
Key Words:data preprocessing;data cleaning;data quality; missing value
0 引言
不同的數(shù)據(jù)清洗方法有各自的優(yōu)缺點(diǎn)。大數(shù)據(jù)開(kāi)發(fā)、挖掘和應(yīng)用越來(lái)越廣泛,但臟數(shù)據(jù)卻普遍存在。臟數(shù)據(jù)指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi),或?qū)τ跇I(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼或含糊的業(yè)務(wù)邏輯[1]。挖掘的數(shù)據(jù)基本上是來(lái)自生產(chǎn)、生活、商業(yè)中的實(shí)際數(shù)據(jù),各種原因都可能導(dǎo)致缺失某些重要數(shù)據(jù)、采集到的數(shù)據(jù)不正確或含有噪聲、不一致等問(wèn)題。數(shù)據(jù)質(zhì)量是數(shù)據(jù)挖掘效果的重要保證,因此,數(shù)據(jù)清洗方法研究意義重大,也面臨很多亟待解決的問(wèn)題。
1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)質(zhì)量,提高挖掘過(guò)程的準(zhǔn)確率和效率。數(shù)據(jù)預(yù)處理分為數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換[2]幾方面。數(shù)據(jù)清洗是通過(guò)填寫(xiě)缺失值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)等方法,解決不一致性問(wèn)題[3]。本文主要闡述了數(shù)據(jù)預(yù)處理過(guò)程中數(shù)據(jù)的清洗方法,數(shù)據(jù)清洗的主要任務(wù)就是填充缺失值和去除數(shù)據(jù)噪聲。
2 缺失值處理
(1)缺失值處理最原始的方法就是刪除法,數(shù)據(jù)在數(shù)據(jù)庫(kù)中以表的形式存在,將存在缺失值的記錄刪除,解決數(shù)據(jù)缺失問(wèn)題。
(2)插補(bǔ)法。通常數(shù)據(jù)挖掘?yàn)榇笮蛿?shù)據(jù)庫(kù),屬性成百上千,因一個(gè)值的缺失而舍棄一條記錄,會(huì)造成極大浪費(fèi)。因此,一般用最可能的值來(lái)填補(bǔ)缺失值,常用的插補(bǔ)方法如下:①均值插補(bǔ)。數(shù)據(jù)分?jǐn)?shù)值型與非數(shù)值型,當(dāng)缺失值為數(shù)值型(可進(jìn)行加減運(yùn)算的數(shù)據(jù)),就用平均值插補(bǔ)缺失值,當(dāng)缺失值是非數(shù)值型時(shí),就用眾數(shù)插補(bǔ)缺失值,如果數(shù)據(jù)符合較規(guī)范的分布規(guī)律,還可用中值插補(bǔ);②回歸插補(bǔ)。回歸法可以用于數(shù)據(jù)缺失問(wèn)題,Rubin[4]用貝葉斯Logistic回歸法進(jìn)行多重插補(bǔ)。于力超、金勇進(jìn)[5]利用回歸插補(bǔ)法對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)。戴明鋒等[6]在分析數(shù)據(jù)缺失機(jī)制前提下,通過(guò)二分類Logistic回歸插補(bǔ)法,根據(jù)發(fā)生概率大小確定插補(bǔ)值。劉燕[7]提出了基于Logistic回歸的近鄰擇優(yōu)補(bǔ)差法。通過(guò)模擬比較發(fā)現(xiàn),基于回歸的近鄰擇優(yōu)插補(bǔ)法的均方誤差最小,波動(dòng)性最小,插補(bǔ)效果較好;③極大似然估計(jì)。極大似然估計(jì)(Max Likelihood)是指在缺失類型為隨機(jī)缺失條件下,通過(guò)觀測(cè)數(shù)據(jù)的邊際分布推出未知參數(shù),此方法又稱忽略缺失值的極大似然估計(jì)。極大似然估計(jì)實(shí)際上是一種數(shù)學(xué)期望,已知某參數(shù)能使樣本出現(xiàn)的概率最大,就當(dāng)然會(huì)忽略小概率的樣本。因此,實(shí)際中常采用期望值最大化EM(Expectation Maximization)的計(jì)算方法;④其它插補(bǔ)方法。關(guān)聯(lián)規(guī)則插補(bǔ):Ragel等[8]提出RAR(Robust Association Rules)方法,充分利用有效數(shù)據(jù),減少數(shù)據(jù)信息的浪費(fèi); MVC(Missing Value Completion)方法,首次提到用關(guān)聯(lián)規(guī)則對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)[9]。Shen等[10]提出了 FRCAR(Fast Recycle Combined Association Rules)方法,結(jié)合非頻繁項(xiàng)信息對(duì)缺失值進(jìn)行插補(bǔ),解決了生成規(guī)則少、不足以對(duì)所有缺失值進(jìn)行插補(bǔ)的情況。Leila等[11-12]提出GBARMVC(Generic Basis of Association Rules),解決了存在多條規(guī)則時(shí)對(duì)同一缺失值進(jìn)行插補(bǔ)問(wèn)題。于力超等[13]提出了基于最近鄰插補(bǔ)法和關(guān)聯(lián)規(guī)則法,采用屬性之間關(guān)聯(lián)規(guī)則的支持度和提升度,計(jì)算樣本單元間加權(quán)距離,用加權(quán)距離最小確定唯一插補(bǔ)值。
3 噪聲過(guò)濾
噪聲是數(shù)據(jù)中存在的隨機(jī)誤差,由于隨機(jī)誤差產(chǎn)生的噪聲數(shù)據(jù)是正常的,影響變量真值,所以也需要對(duì)這些噪聲數(shù)據(jù)進(jìn)行過(guò)濾。常用的噪聲過(guò)濾法有回歸法、均值平滑法、離群點(diǎn)分析及小波去噪法。
(1)回歸法?;貧w法是用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù),去除數(shù)據(jù)中的噪聲,即用回歸后的函數(shù)值代替原始數(shù)據(jù),從而避免噪聲數(shù)據(jù)的干擾。回歸法依賴數(shù)據(jù)趨勢(shì)的判斷,符合線性趨勢(shì)的才用回歸法,所以往往需要先對(duì)數(shù)據(jù)進(jìn)行可視化,判斷數(shù)據(jù)的趨勢(shì)及規(guī)律,然后再確定是否可用回歸法進(jìn)行去噪。endprint
(2)均值平滑法。均值平滑法是對(duì)具有序列特征的變量,用鄰近的若干數(shù)據(jù)均值來(lái)替換原始數(shù)據(jù),對(duì)于具有正弦時(shí)序特征的數(shù)據(jù),利用均值平滑法對(duì)其噪聲進(jìn)行過(guò)濾,去噪效果顯著。
(3)離群點(diǎn)分析。離群點(diǎn)分析是用聚類等方法來(lái)檢測(cè)離群點(diǎn)。由聚類生成一組數(shù)據(jù)對(duì)象集合稱為簇,同一簇中的數(shù)據(jù)對(duì)象相似程度較高,其它簇中的數(shù)據(jù)對(duì)象相似程度較低(常用距離來(lái)度量相似度),落在簇集合之外的值稱為離群點(diǎn),將其刪除,從而實(shí)現(xiàn)去噪。
(4)小波法。小波去噪屬于音頻處理,具有較好的時(shí)頻特性。從數(shù)學(xué)角度分析,小波去噪本質(zhì)是函數(shù)逼近問(wèn)題,根據(jù)衡量標(biāo)準(zhǔn)找出對(duì)原信號(hào)的“最佳”逼近,區(qū)別原信號(hào)與噪聲信號(hào),找到實(shí)際信號(hào)空間到小波函數(shù)空間的最佳映射,便于恢復(fù)最佳的原信號(hào)[14]。從信號(hào)學(xué)角度分析,小波去噪是信號(hào)濾波問(wèn)題,雖然小波去噪很大程度上可看作低通濾波,但它優(yōu)于傳統(tǒng)低通濾波器的地方是去噪后還能成功保留信號(hào)特征,小波去噪可看作是特征提取和低通濾波功能的綜合。輸入帶噪信號(hào)后,經(jīng)過(guò)特征提取與低通濾波可得到重建信號(hào)。
4 常用方法優(yōu)缺點(diǎn)比較
目前,數(shù)據(jù)預(yù)處理過(guò)程中的數(shù)據(jù)清洗方法很多,且不同數(shù)據(jù)清洗方法都有優(yōu)點(diǎn)與局限性:刪除或忽略缺失值雖簡(jiǎn)單易行,但小樣本時(shí)會(huì)損失樣本量,統(tǒng)計(jì)功效弱,且當(dāng)每個(gè)屬性缺失值百分比變化巨大時(shí)性能較差;相比刪除法,插補(bǔ)法產(chǎn)生的信息丟失要少很多。常用的缺失值處理方法如表1所示。
常用的噪聲過(guò)濾方法有回歸、均值平滑、離群點(diǎn)分析、小波法。常用的去噪處理方法如表2所示。
在某些情況下,缺失值并不代表數(shù)據(jù)有誤。數(shù)據(jù)庫(kù)中,有些屬性值允許為空值NULL,得到這樣的數(shù)據(jù)后要盡力清洗數(shù)據(jù)。在數(shù)據(jù)庫(kù)輸入設(shè)計(jì)階段給出空值應(yīng)如何處理或轉(zhuǎn)換的說(shuō)明,就能大大降低缺失值或錯(cuò)誤的數(shù)量,降低數(shù)據(jù)清洗難度。
5 結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于醫(yī)療、能源、零售、汽車、金融等諸多領(lǐng)域,通過(guò)挖掘有價(jià)值的信息,提供決策和建議。對(duì)醫(yī)學(xué)數(shù)據(jù)的挖掘能給患者提供有針對(duì)性的指導(dǎo)意見(jiàn),預(yù)測(cè)身體健康狀況的改變及發(fā)展趨勢(shì),防患于未然。精準(zhǔn)分析能減少過(guò)度治療及治療不足;利用大數(shù)據(jù)分析能源購(gòu)買量,從而預(yù)測(cè)能源消費(fèi),通過(guò)管理能源用戶來(lái)提高能源效率、降低成本;對(duì)于零售企業(yè),數(shù)據(jù)挖掘技術(shù)能很好地整合各類信息,幫助企業(yè)掌握客戶需求,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷和個(gè)性化服務(wù);借助數(shù)據(jù)挖掘技術(shù)能幫助保險(xiǎn)公司全面了解駕駛者的駕駛習(xí)慣和駕駛行為,提供不同類型的保險(xiǎn)產(chǎn)品,等等。臟數(shù)據(jù)的普遍存在,導(dǎo)致數(shù)據(jù)挖掘過(guò)程中可利用數(shù)據(jù)有限,數(shù)據(jù)清洗顯得尤為重要,不同的數(shù)據(jù)清洗方法各有優(yōu)缺點(diǎn),對(duì)數(shù)據(jù)清洗方法的研究也將更加深入。
參考文獻(xiàn):
[1] 張興華.數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究[D].蘭州:蘭州理工大學(xué),2011.
[2] 羅艷霞,王庭熙,駱紹曄.數(shù)據(jù)預(yù)處理在圖書(shū)借閱中的應(yīng)用[J].莆田學(xué)院學(xué)報(bào),2016(2):50-53.
[3] 周健昌,劉波.一種條件函數(shù)依賴挖掘算法的分析與實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2012(9):8-11.
[4] RUBIN D B. Statistical analysis with missing data[M].New York: John Wiley & Sons,2002:59-75.
[5] 于力超,金勇進(jìn).美國(guó)縱向調(diào)查中缺失數(shù)據(jù)的應(yīng)對(duì)方法及對(duì)我國(guó)的啟示[J].現(xiàn)代管理科學(xué),2015(9):33-35.
[6] 戴明鋒,金勇進(jìn),查奇芬,等.二分類Logistic回歸插補(bǔ)法及其應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013(21):162-167.
[7] 劉燕.基于Logistic回歸的近鄰擇優(yōu)插補(bǔ)法[D].天津:天津財(cái)經(jīng)大學(xué), 2013.
[8] RAGEL A, CREMILLEUX B. Treatment of missing values for association rules[C]. Proceedings of the Second Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD-98), Melbourne, Australia, Lecture Notes in Artificial Intelligence 1394, Berlin: Springer, 1998.
[9] RAGEL A, CREMILLEUX B. MVC-A reprocessing method to deal with missing values[J]. Knowledge-Based System Journal, 1999,12(5/6):158-163.
[10] SHEN J J, CHANG C C, LI Y C. Combined association rules for dealing with missing values[J]. Journal of Information Science, 2007,33(4):246-254.
[11] LEILA BEN OTHMAN, SADOK BEN YAHIA. GBARMVC: generic basis of association rules based approach for missing values completion[J]. International Journal of Computing & Information Sciences, 2011,9(1):16-22.
[12] LEILA BEN OTHMAN, SADOK BEN YAHIA. Yet another approach for completing missing values[C]. Springer-Verlag Berlin Heidelberg, CLA 2006, LNAI 4923, 2008.
[13] 于力超,金勇進(jìn),王俊.缺失數(shù)據(jù)插補(bǔ)方法探討-基于最近領(lǐng)插補(bǔ)法和關(guān)聯(lián)規(guī)則法[J].統(tǒng)計(jì)與信息論壇,2015(1):35-39.
[14] 王藝龍,楊守志.基于連續(xù)閾值函數(shù)的小波去噪方法[J].汕頭大學(xué)學(xué)報(bào):自然科學(xué)版,2014(4):66-67.
(責(zé)任編輯:杜能鋼)endprint