摘要:數(shù)據(jù)預(yù)處理是提升數(shù)據(jù)質(zhì)量的重要方法,它主要涉及到數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、其他預(yù)處理方法等多個(gè)方面,本文主要研究數(shù)據(jù)清洗中的缺失數(shù)據(jù)處理方法。本文主要闡述了缺失數(shù)據(jù)的類型、缺失數(shù)據(jù)處理所面臨的主要問題和挑戰(zhàn)、填補(bǔ)缺失數(shù)據(jù)的方法及數(shù)據(jù)缺失處理最新的研究趨勢(shì),通過分析得出今后對(duì)于缺失數(shù)據(jù)的研究將會(huì)逐步回到該數(shù)據(jù)所屬的特定領(lǐng)域,充分結(jié)合該領(lǐng)域的特點(diǎn)與規(guī)律來對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),而不僅僅針對(duì)數(shù)據(jù)本身或基于其統(tǒng)計(jì)學(xué)上的特征進(jìn)行填補(bǔ)。
關(guān)鍵詞:數(shù)據(jù)預(yù)處理;缺失數(shù)據(jù)處理;缺失數(shù)據(jù)填補(bǔ)
1 引言
數(shù)據(jù)預(yù)處理是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理[1]。現(xiàn)如今,數(shù)據(jù)的數(shù)量越來越龐大,且來來源多種多樣,因此出現(xiàn)數(shù)據(jù)異常(也稱為臟數(shù)據(jù))的可能性不斷增加。這些臟數(shù)據(jù)不能直接用于數(shù)據(jù)分析和數(shù)據(jù)挖掘,或數(shù)據(jù)分析和數(shù)據(jù)挖掘的結(jié)果不夠理想。為了提升數(shù)據(jù)分析和數(shù)據(jù)挖掘的質(zhì)量,數(shù)據(jù)預(yù)處理的重要性與日俱增,并且已經(jīng)成為數(shù)據(jù)科學(xué)中的基本步驟。其中,數(shù)據(jù)預(yù)處理主要包含以下幾個(gè)方面:數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、其他預(yù)處理方法等。本文將主要針對(duì)數(shù)據(jù)清洗中的缺失數(shù)據(jù)處理進(jìn)行展開。
真實(shí)數(shù)據(jù)集中通常都含有缺失數(shù)據(jù),缺失數(shù)據(jù)的存在會(huì)明顯地降低算法或模型的有效性,因此,缺失數(shù)據(jù)處理是一個(gè)不可或缺的數(shù)據(jù)預(yù)處理過程。
在處理缺失數(shù)據(jù)前,了解缺失數(shù)據(jù)的類型是非常有必要的。缺失數(shù)據(jù)類型根據(jù)缺失隨機(jī)程度的不同分為完全隨機(jī)缺失(Missing Completely at Random,MCAR)、隨機(jī)缺失(Missing at Random,MAR)、非隨機(jī)缺失(Missing not at Random,NMAR)[2]。這三種類型的缺失數(shù)據(jù)特征及示例如表1所示。
在現(xiàn)實(shí)生活中,雖然非隨機(jī)缺失相對(duì)于其它兩種缺失類型來說更加常見,但是處理起來卻是最麻煩的。處理非隨機(jī)缺失時(shí)必須遵循一定的假設(shè),即把它先轉(zhuǎn)化成隨機(jī)缺失,然后再按照隨機(jī)缺失的機(jī)制進(jìn)行處理[3]。數(shù)據(jù)集的缺失類型也會(huì)影響填充算法的選擇及填充的最終效果[4]。
2 主要研究問題
為了盡可能減少缺失數(shù)據(jù)對(duì)算法或模型的有效性的影響,我們必須要針對(duì)這些缺失數(shù)據(jù)進(jìn)行一定的處理。
針對(duì)缺失數(shù)據(jù)的處理一般分為兩類:一類是直接刪除含有缺失值的數(shù)據(jù)點(diǎn),這種方法簡(jiǎn)單易操作,但缺點(diǎn)是在缺失比例較高時(shí),該方法會(huì)造成信息的大量流失從而降低有效性。另一類是缺失值填補(bǔ)方法,用估計(jì)值來代替缺失值。
因此,對(duì)于缺失數(shù)據(jù)的處理主要問題與挑戰(zhàn)是:當(dāng)缺失比例較大時(shí),如何對(duì)缺失值進(jìn)行填補(bǔ)可以達(dá)到最好的效果,即對(duì)缺失值進(jìn)行填補(bǔ)要盡量讓填補(bǔ)值接近真實(shí)值,以避免對(duì)經(jīng)填補(bǔ)后的數(shù)據(jù)集在分析時(shí)與原始數(shù)據(jù)集分析結(jié)果產(chǎn)生偏差。
3 缺失數(shù)據(jù)填補(bǔ)方法
一般情況,缺失數(shù)據(jù)填補(bǔ)方法主要分為基于統(tǒng)計(jì)學(xué)的填補(bǔ)方法和基于機(jī)器學(xué)習(xí)的填補(bǔ)方法[5]。
3.1 基于統(tǒng)計(jì)學(xué)的填補(bǔ)方法
基于統(tǒng)計(jì)學(xué)的重構(gòu)方法有均值填補(bǔ)法、中位數(shù)填補(bǔ)法、眾數(shù)填補(bǔ)法、多項(xiàng)式擬合法、級(jí)比生成法、三次樣條插值法和遞推式非鄰均值補(bǔ)全法等。
基于統(tǒng)計(jì)學(xué)的重構(gòu)方法較為簡(jiǎn)便快速,但是填補(bǔ)的數(shù)據(jù)偏差較大,且忽略了數(shù)據(jù)之間相關(guān)性等[6]。
3.2 基于機(jī)器學(xué)習(xí)的填補(bǔ)方法
機(jī)器學(xué)習(xí)技術(shù)包括:K近鄰、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹和隨機(jī)森林等。
這些算法都是根據(jù)已有數(shù)據(jù)建立相應(yīng)模型,然后使用模型來估計(jì)該樣本的缺失數(shù)據(jù)。
3.3 填補(bǔ)方法對(duì)比
在廖祥超[3]的研究中,他固定樣本缺失率為10%,以單個(gè)變量隨機(jī)缺失和多個(gè)變量隨機(jī)缺失兩種模式生成相應(yīng)的缺失數(shù)據(jù)集,在此基礎(chǔ)上用均值、隨機(jī)、線性回歸、多重填補(bǔ)、KNN、決策樹、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)這九個(gè)方法進(jìn)行填補(bǔ),并從填補(bǔ)誤差和建模效果的角度對(duì)不同填補(bǔ)結(jié)果進(jìn)行比較。從填補(bǔ)誤差的角度看:在個(gè)體方面,回歸填補(bǔ)法和神經(jīng)網(wǎng)絡(luò)填補(bǔ)法得到的值與真實(shí)值相等的個(gè)數(shù)要多于其它的填補(bǔ)方法;但是從整體來看,支持向量機(jī)填補(bǔ)法和KNN填補(bǔ)法的平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)要優(yōu)于其他方法。在缺失率相同的3個(gè)多個(gè)變量缺失的數(shù)據(jù)中,他經(jīng)過對(duì)比發(fā)現(xiàn)多重填補(bǔ)法、KNN填補(bǔ)法、隨機(jī)森林填補(bǔ)法的填補(bǔ)效果要明顯高于其它填補(bǔ)方法。
楊弘[7]研究團(tuán)隊(duì)針對(duì)混合型缺失數(shù)據(jù)(即同時(shí)存在連續(xù)變量和分類變量),模擬四種缺失比例(10%、20%、30%、50%)的測(cè)試數(shù)據(jù),在隨機(jī)缺失(MAR)假設(shè)下采用MissForest(缺失森林算法,一種基于隨機(jī)森林的一種迭代填補(bǔ)算法)、因子分析(factorial analysis for mixed data,F(xiàn)AMD,基于主成分分析法)、KNN填補(bǔ)法和基于參數(shù)調(diào)整的鏈?zhǔn)椒匠潭嘀靥钛a(bǔ)(multivariate imputation by chained equations,MICE)對(duì)測(cè)試數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。經(jīng)過對(duì)比發(fā)現(xiàn):FAMD與MissForest相比,對(duì)分類變量填補(bǔ)表現(xiàn)優(yōu)越;缺失比例為10%時(shí),F(xiàn)AMD與MissForest表現(xiàn)優(yōu)于KNN和MICE;缺失比例達(dá)到20%時(shí),F(xiàn)AMD明顯優(yōu)于其它三種方法,但是MissForest表現(xiàn)亦可;缺失比例達(dá)到30%時(shí),四種模型表現(xiàn)明顯下降,處理效果均不太理想;缺失比例達(dá)到50%時(shí),雖然FAMD仍有兩個(gè)變量符合優(yōu)良標(biāo)準(zhǔn),但對(duì)某些變量估計(jì)誤差較大,其它三種方法填補(bǔ)均失效。
因此,在對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)時(shí),我們需要結(jié)合實(shí)際的缺失數(shù)據(jù)類型、缺失比例、是否為多變量缺失等多方面因素進(jìn)行綜合考慮,然后選取合適的填補(bǔ)方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)以期望達(dá)到最優(yōu)的效果。
4 最新研究
4.1 研究趨勢(shì)
在中國(guó)知網(wǎng)總庫(含中文和英文)中檢索“缺失數(shù)據(jù)”或“缺失值”(使用“中英文擴(kuò)展”),并篩選出與缺失數(shù)據(jù)處理相關(guān)的主要主題,總共檢索到5945篇論文,結(jié)合中國(guó)知網(wǎng)的結(jié)果分析功能可以得到關(guān)于該研究的一個(gè)總體趨勢(shì)(圖1),并結(jié)合學(xué)科進(jìn)行分別統(tǒng)計(jì)可以得到針對(duì)缺失數(shù)據(jù)在學(xué)科上的一個(gè)分布情況(圖2),最后選取前十分布的學(xué)科進(jìn)行一個(gè)趨勢(shì)統(tǒng)計(jì)(圖3)。
從圖1中可以看出,與缺失數(shù)據(jù)處理相關(guān)的研究論文呈快速上升趨勢(shì)。這主要是因?yàn)榻鼛啄暾麄€(gè)大數(shù)據(jù)行業(yè)的興起,使得人們對(duì)數(shù)據(jù)處理的關(guān)注度日漸提升,為了能夠更加有效地分析與挖掘數(shù)據(jù)中的規(guī)律與價(jià)值,人們對(duì)數(shù)據(jù)質(zhì)量的要求也日益增高,而研究缺失數(shù)據(jù)處理方法是其中非常重要的一個(gè)環(huán)節(jié)。結(jié)合圖2可以看出,雖然在數(shù)學(xué)或計(jì)算機(jī)領(lǐng)域仍有大量的研究工作以改進(jìn)各種算法來提升缺失數(shù)據(jù)填補(bǔ)的效果,但是整體趨勢(shì)開始一點(diǎn)下降。而在圖3中可以看出,在其他學(xué)科領(lǐng)域中,針對(duì)缺失數(shù)據(jù)填補(bǔ)方法的研究呈逐年上升的趨勢(shì)。
4.2 結(jié)合特定領(lǐng)域規(guī)律的填補(bǔ)方法
通過圖3可以發(fā)現(xiàn)其他的學(xué)科領(lǐng)域在進(jìn)行數(shù)據(jù)分析與挖掘時(shí)對(duì)缺失數(shù)據(jù)處理的方法越來越重視,且其處理方法并不局限于統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)等方法,有很多研究者開始從其數(shù)據(jù)所屬專業(yè)領(lǐng)域本身出發(fā),結(jié)合其領(lǐng)域中的特定規(guī)律與特點(diǎn)以及統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)等方法來進(jìn)行缺失數(shù)據(jù)的填補(bǔ)。
武佳卉[6]研究團(tuán)隊(duì)提出了一種基于物理特性的新能源電力數(shù)據(jù)填補(bǔ)方法,其主要思想是充分利用新能源出力的物理特性,實(shí)現(xiàn)通過已知的新能源場(chǎng)站輸出功率求得待填補(bǔ)電場(chǎng)的輸出功率,有效改善了數(shù)據(jù)填補(bǔ)效果。
在姚小龍[8]的研究中,在分析光伏出力特性的基礎(chǔ)上,提出了一種基于光伏出力相關(guān)性的缺失數(shù)據(jù)填補(bǔ)方法,在其研究中發(fā)現(xiàn)該預(yù)測(cè)方法能夠顯著減小預(yù)測(cè)誤差并提升預(yù)測(cè)精度。
5 總結(jié)與展望
現(xiàn)如今大家都是基于當(dāng)前一些統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)算法進(jìn)行改進(jìn)以期望得到更優(yōu)的一種缺失數(shù)據(jù)填補(bǔ)方法。這些改進(jìn)算法確實(shí)在一定程度上提升了數(shù)據(jù)填補(bǔ)的效果,但是提升的空間有限。結(jié)合第四節(jié)的分析,可以得出今后對(duì)于缺失數(shù)據(jù)的研究將會(huì)逐步回到該數(shù)據(jù)所屬的特定領(lǐng)域,充分結(jié)合該領(lǐng)域的特點(diǎn)與規(guī)律來對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),深入挖掘分析數(shù)據(jù)與數(shù)據(jù)之間或數(shù)據(jù)集之間的內(nèi)在規(guī)律,并結(jié)合這些規(guī)律去進(jìn)行缺失數(shù)據(jù)的填補(bǔ),這樣所獲得的填補(bǔ)效果將會(huì)更加貼合真實(shí)情況。
參考文獻(xiàn)
[1] 百度百科.數(shù)據(jù)預(yù)處理[EB/OL].https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86,2020-12-13.
[2] Wikipedia. Missing data [EB/OL]. https://en.wikipedia.org/wiki/Missing_data,2020-12-13.
[3] 廖祥超.九種常用缺失值插補(bǔ)方法的比較[D].云南師范大學(xué),2017.
[4] 金連.不完全數(shù)據(jù)中缺失值填充關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2013.
[5] 劉莎,楊有龍.基于灰色關(guān)聯(lián)分析的類中心缺失值填補(bǔ)方法[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,57(05):871-878.
[6] 武佳卉,邵振國(guó),楊少華,肖頌勇 ,吳國(guó)昌.數(shù)據(jù)清洗在新能源功率預(yù)測(cè)中的研究綜述和展望[J].電氣技術(shù),2020,21(11):1-6.
[7] 楊弘,田晶,王可,張青,韓清華,張巖波.混合型缺失數(shù)據(jù)填補(bǔ)方法比較與應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2020,37(03):395-399.
[8] 姚小龍.分布式光伏發(fā)電全氣象系統(tǒng)及區(qū)域出力預(yù)測(cè)方法研究[D].浙江工業(yè)大學(xué),2019.
作者簡(jiǎn)介:
姚超(1987-),男,湖北武漢人,工程師,碩士,主要研究方向?yàn)榇髷?shù)據(jù)和軟件技術(shù)。