国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

構(gòu)造性覆蓋下不完整數(shù)據(jù)修正填充方法

2019-02-28 04:24:34嚴(yán)遠(yuǎn)亭吳亞亞趙姝張燕平
智能系統(tǒng)學(xué)報(bào) 2019年6期
關(guān)鍵詞:集上鄰域修正

嚴(yán)遠(yuǎn)亭,吳亞亞,趙姝,張燕平

(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)

機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)在諸如生物特征識別、文本分類和醫(yī)學(xué)診斷等領(lǐng)域得到了廣泛應(yīng)用[1-6]。近年來,隨著傳感器技術(shù)、信息技術(shù)等科學(xué)技術(shù)的迅猛發(fā)展,數(shù)據(jù)獲取的途徑日益豐富,這給機(jī)器學(xué)習(xí)等技術(shù)帶來了極大的發(fā)展機(jī)遇。然而在實(shí)踐中,通常會(huì)因?yàn)榇鎯υO(shè)備損壞、數(shù)據(jù)采集設(shè)備能力有限等多種因素導(dǎo)致數(shù)據(jù)出現(xiàn)缺失的情況,我們稱其為不完整數(shù)據(jù)問題。此類問題普遍存在于眾多領(lǐng)域中,如:微陣列數(shù)據(jù)[7-8]、移動(dòng)電話數(shù)據(jù)[9]、可視化數(shù)據(jù)[10]、工業(yè)數(shù)據(jù)[11]、軟件項(xiàng)目數(shù)據(jù)[12]等。然而,傳統(tǒng)機(jī)器學(xué)習(xí)的方法往往都是針對完整數(shù)據(jù)而設(shè)計(jì)的,因此缺失數(shù)據(jù)給這些方法帶來了極大挑戰(zhàn)。

目前已有不少學(xué)者針對不完整數(shù)據(jù)提出了一些解決策略,大致可以分為三類,其一為替代法,即用同一數(shù)據(jù)集內(nèi)其他樣本的完整部分替代缺失值,有時(shí)甚至?xí)⒈姸嗳笔傩匝a(bǔ)以統(tǒng)一的固定值。這種策略雖然簡單,但眾多研究表明,絕大多數(shù)原始數(shù)據(jù)集的樣本屬性間都不是相互獨(dú)立的,因此單一的替換策略直接忽略了屬性間的關(guān)系,并不可??;其二為刪除法,例如在許多統(tǒng)計(jì)軟件如:SPSS、SAS 中,默認(rèn)采用Listwise deletion(LD)策略處理缺失值,直接刪除帶有缺失項(xiàng)的樣本。然而,這種策略是以減少原始數(shù)據(jù)為代價(jià)換取數(shù)據(jù)完整,在信息獲取代價(jià)較大時(shí)會(huì)造成嚴(yán)重的資源浪費(fèi)和重要信息的損失。因此,解決不完整數(shù)據(jù)問題的第3 種策略,即在多數(shù)現(xiàn)有的機(jī)器學(xué)習(xí)算法被應(yīng)用到實(shí)際問題之前,將缺失數(shù)據(jù)填充完整的策略更為主流一些。

當(dāng)前的缺失值填充方法大多運(yùn)用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)技術(shù),對不完整數(shù)據(jù)的剩余部分進(jìn)行建模和分析,從而產(chǎn)生較為合適的值用以填充。最常用的統(tǒng)計(jì)學(xué)填充法是均值填充[13],它簡單快速,但是無法較好地?cái)M合原始數(shù)據(jù),因此通常適用于快速填充或者只有極少數(shù)屬性缺失的情況;同樣基于統(tǒng)計(jì)學(xué)的回歸填充通?;跀?shù)據(jù)的完整部分來建立回歸模型,對于包含缺失值的樣本,將已知屬性值代入方程來估計(jì)未知屬性值。除此以外,在過去的十年里,許多機(jī)器學(xué)習(xí)填充方法也被相繼提出,在機(jī)器學(xué)習(xí)填充法中,缺失的屬性通常被視為一個(gè)訓(xùn)練模型的目標(biāo)輸出,剩余其他完整屬性是用于訓(xùn)練和測試的輸入特性,算法通常根據(jù)數(shù)據(jù)集的完備部分使用一些諸如KNN、決策樹(DT)、多層感知器(MLP)、自組織映射(SOM)等機(jī)器學(xué)習(xí)方法來訓(xùn)練相關(guān)模型,在模型中對不完整屬性進(jìn)行估計(jì)。

當(dāng)前最常用的機(jī)器學(xué)習(xí)填充方法有K 最近鄰填充(KNNI)[14]、聚類填充(CKNNI[15])等。其中,K 最近鄰填充的一個(gè)最大的特點(diǎn)在于KNN 是一種懶惰式的學(xué)習(xí)方法,在應(yīng)用到缺失值填充問題時(shí)不需要建立明確的模型(如決策樹模型或諸多其他繁瑣的填充規(guī)則),無論使用何種方法對數(shù)據(jù)進(jìn)行分析,總能找到距缺失樣本最近的若干個(gè)樣本用于填充。因此,基于該方法的很多改進(jìn)方法也被相繼提出,如WKNNI[16]等,它們通常使用某種度量指標(biāo)(如皮爾遜相關(guān)系數(shù)、距離函數(shù)等)來衡量樣本間的相似度大小或采用特征提取等手段來對重要屬性進(jìn)行加權(quán)后再進(jìn)行填充,取得了較好的填充效果;聚類填充方法如:CKNNI[15]根據(jù)樣本間的相似度大小將所有樣本聚類得到若干個(gè)簇,簇內(nèi)樣本間的相似度較高,再針對缺失樣本,利用其所在簇內(nèi)的其他樣本對缺失部分進(jìn)行填充。雖然這類方法也在一定程度上考慮了樣本在空間分布中的信息,但由于聚類是無監(jiān)督的,因此無法知悉經(jīng)過聚類操作后會(huì)得到怎樣的聚類結(jié)果,同時(shí)聚類算法初始中心個(gè)數(shù)也很難確定。此外,還有一些其他的機(jī)器學(xué)習(xí)算法被應(yīng)用于缺失值填充領(lǐng)域,如結(jié)合期望最大化方法(EM)用于最大似然估計(jì)的方法、基于支持向量機(jī)的填充方法等,但是這些方法在時(shí)間復(fù)雜度方面都非常龐大,收斂速度極慢,對于某些數(shù)據(jù)集甚至達(dá)到了指數(shù)級別。

上述所提方法大多為單一填充法(如均值填充、KNN 填充等),往往會(huì)降低估計(jì)量的方差。針對這一缺陷,Rubin 在1987 年提出了多重填充的思想。單一填充往往針對每個(gè)缺失值產(chǎn)生一個(gè)可能的值用以填充,而多重填充(如MICE[17]、MILC[18-19])是指在對填充值的預(yù)測分布中,通過一組(m>1)合理的值來替代所有缺失值的過程[5,20]。數(shù)據(jù)經(jīng)過多重填充處理后,會(huì)得到m個(gè)完整的數(shù)據(jù)集,每一個(gè)數(shù)據(jù)集都可以運(yùn)用分析完整數(shù)據(jù)的方法對其分析,然后再融合這些不同數(shù)據(jù)集的分析結(jié)果,給出綜合估計(jì),顯著縮小了由單一填充所導(dǎo)致的偏差,可獲得更好的填充效果。

盡管現(xiàn)有的這些填充方法都具有各自的優(yōu)勢,某些方法能較好地實(shí)現(xiàn)對缺失數(shù)據(jù)的恢復(fù)。但是研究表明,目前還沒有哪一種填充方法可以在任意給定的數(shù)據(jù)集和所有場景下都取得最佳的填充效果[21]。此外,現(xiàn)有的絕大多數(shù)方法仍缺乏對樣本空間分布信息的考慮,忽略了空間鄰域信息對數(shù)據(jù)恢復(fù)的影響。因此,本文提出了一種新的框架,可用于諸多現(xiàn)有的填充方法以進(jìn)一步提升填充效果。框架由3 部分組成,分別為預(yù)填充、空間鄰域信息挖掘和修正填充。首先利用傳統(tǒng)的填充方法對數(shù)據(jù)集進(jìn)行預(yù)填充,得到完整數(shù)據(jù);然后構(gòu)造性的對預(yù)填充后的數(shù)據(jù)集構(gòu)造覆蓋,挖掘樣本的空間鄰域信息;最后利用鄰域內(nèi)樣本的有效信息對預(yù)填充的結(jié)果進(jìn)行修正,從而得到最終的完整數(shù)據(jù)集。

1 相關(guān)工作

1.1 缺失機(jī)制和缺失模式

根據(jù)Rubin 的總結(jié),共有3 種類型的缺失機(jī)制會(huì)導(dǎo)致一個(gè)不完整數(shù)據(jù)集的產(chǎn)生,分別為完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失。

完全隨機(jī)缺失:樣本的某一屬性出現(xiàn)缺失的概率和其他樣本以及該屬性本身的值無關(guān)。即當(dāng)某屬性值發(fā)生缺失的可能性與其他樣本無關(guān)且與該樣本屬性自身也無關(guān)時(shí)稱作完全隨機(jī)缺失。

隨機(jī)缺失:當(dāng)某樣本屬性缺失的可能性與模型中某些觀測樣本有關(guān)而與該樣本自身無關(guān)時(shí)稱其為隨機(jī)缺失。

非隨機(jī)缺失:當(dāng)樣本屬性中存在缺失值的可能性僅與其自身相關(guān)時(shí)則稱為非隨機(jī)缺失。

除此之外,還有兩種缺失模式,分別為單調(diào)缺失和非單調(diào)缺失。前者指的是針對同一個(gè)記錄或者變量的缺失,后者指的是針對任何記錄、任何變量的缺失,本文的實(shí)驗(yàn)是以非單調(diào)缺失模式為前提進(jìn)行的。

1.2 構(gòu)造性覆蓋算法

張鈴等[22]提出的基于覆蓋的構(gòu)造性機(jī)器學(xué)習(xí)方法主要是以M-P 模型的幾何表示為理論基礎(chǔ),針對樣本自身的特點(diǎn)來構(gòu)造神經(jīng)網(wǎng)絡(luò)。構(gòu)造性覆蓋算法可以看作一個(gè)3 層網(wǎng)絡(luò)分類器。

輸入層:共n個(gè)神經(jīng)元,每個(gè)(神經(jīng)元對應(yīng)樣)本的一維,即樣本的特征屬性,xi=xi1,xi2,···,xin,該層神經(jīng)元只負(fù)責(zé)接收外部信息,自身無信息處理能力。

隱藏層:共s個(gè)神經(jīng)元。初始時(shí),隱層神經(jīng)元為0 個(gè),每求得一個(gè)球形覆蓋,增加一個(gè)神經(jīng)元,直到將所有的樣本都被覆蓋,從而求得一組覆蓋:其中表示第i類樣本的第j個(gè)覆蓋,是隱層中的一個(gè)神經(jīng)元,隱層共有個(gè)覆蓋,第i類有ni個(gè)覆蓋,i=1,2,···m。神經(jīng)元的權(quán)值是覆蓋的中心,閾值為覆蓋的半徑。

輸出層:共m個(gè)神經(jīng)元,第t個(gè)神經(jīng)元的輸入為同類的一組覆蓋,輸出為該覆蓋的類別。表 示 第t類樣本的輸出。該層神經(jīng)元向外部輸出處理信息。構(gòu)造性覆蓋算法屬于有監(jiān)督學(xué)習(xí)。

構(gòu)造性覆蓋算法針對樣本自身的特點(diǎn),根據(jù)學(xué)習(xí)樣本的特征用超平面切割球面形成“球形領(lǐng)域”作為神經(jīng)元來構(gòu)造神經(jīng)網(wǎng)絡(luò),基于超球面上的樣本來構(gòu)造每個(gè)類別的覆蓋。該算法可以處理海量樣本,適用于多分類問題且分類能力強(qiáng)、運(yùn)算速度快[23]。

2 基于空間鄰域信息的修正填充方法

2.1 預(yù)填充

給定不完整數(shù)據(jù)集 D S=(xi,yi|i=1,2,···,m),令其中,m表示的是樣本個(gè)數(shù);F表示的是輸入空間的特征集合;表示的是第i個(gè)樣本的第j維屬性,若第i個(gè)樣本的第j維缺失,則記定義所有缺失值的集合:

利用經(jīng)典的填充算法對DS 進(jìn)行填充,在本文中稱為預(yù)填充。預(yù)填充后得到完整數(shù)據(jù)集DSc。分別選用以下7 種填充方法實(shí)現(xiàn)預(yù)填充:

1) 均值填充(MEI)[13]

式中:I(comp) 表示的是所有第j維屬性不缺失的屬性索引集合;而nI(comp)表示的是所有第j維屬性不缺失的樣本總數(shù)。

2) 中值填充(MEDI)[13]

3) KNNI[14]

4) WKNNI[16]

式中:Ni表示距離第i個(gè)樣本最近的k個(gè)第j維屬性不缺失的樣本集合; ωt表示第t個(gè)樣本的權(quán)值;表示第i個(gè)樣本和第j個(gè)樣本之間的歐式距離;k表示最近鄰的個(gè)數(shù)。

5) Soft-impute(SoftI)[24]:通過對SVD 分解的迭代軟閾值處理來填充不完整數(shù)據(jù)。

6) Matrix-Factorization-impute(MFI)[25]:將不完整數(shù)據(jù)用矩陣形式表示并直接將其分解為低秩的U和V,然后對U中的元素采用L1 稀疏懲罰,對V中的元素采用L2 稀疏懲罰,通過梯度下降法求解。

7) MICE[20]:利用鏈?zhǔn)椒匠虒?shí)現(xiàn)多重填充。

2.2 挖掘空間鄰域信息

在對不完整數(shù)據(jù)進(jìn)行填充的過程中,最關(guān)鍵的問題在于如何通過對數(shù)據(jù)集中樣本的剩余完整信息進(jìn)行分析。在這一節(jié)中,我們利用一種有監(jiān)督的空間鄰域信息挖掘方法,挖掘與缺失樣本具有更高相似性的某鄰域內(nèi)樣本的有效信息。

1)通過式(2)變換將 D Sc中的樣本點(diǎn)投射到Sn+1球面上并使得投影后的樣本向量等長。

式中R≥max{|x|,x∈DSc}

2)隨機(jī)選取一個(gè)未被標(biāo)記的樣本xk作為覆蓋中心并計(jì)算覆蓋半徑R。

式中: <xk,xi> 表示樣本xk與xi之間的內(nèi)積;d1表示異類樣本間的最小距離,等價(jià)于最大內(nèi)積;d2

表示同類樣本間的最大距離,等價(jià)于最小內(nèi)積;R表示覆蓋半徑。

3)構(gòu)造一個(gè)以xk為球形領(lǐng)域的中心,R為半徑的球形領(lǐng)域Cv,其中表示第v類樣本的第k個(gè)覆蓋,并將該領(lǐng)域內(nèi)的所有樣本都標(biāo)記成“已學(xué)習(xí)”。若全部已被標(biāo)記則會(huì)得到一組覆蓋集合否則返回2)。

經(jīng)過1)~3)得到的覆蓋集合C能夠很好地刻畫樣本空間的空間鄰域信息。

2.3 利用空間鄰域信息修正預(yù)填充結(jié)果

為方便起見,本文以二分類問題為例,描述如何利用空間鄰域信息進(jìn)行缺失值的填充。

令C1和C2為經(jīng)過2.2 節(jié)所得到的兩類樣本的覆蓋集合為

式中:k1表示第一類樣本的覆蓋的個(gè)數(shù),k2表示第二類樣本的覆蓋的個(gè)數(shù)。

式中:ψ表示在覆蓋集合內(nèi),除樣本xi以外的所有第j維不缺失的屬性值集合。 |ψ| 為滿足條件(14)的所有屬性的數(shù)量。

在極少數(shù)情況下會(huì)出現(xiàn)覆蓋內(nèi)除xi以外,其他所有樣本對應(yīng)的第j維屬性在預(yù)填充步驟前均是缺失的,即出現(xiàn)式(13)中的 | ψ| 值為零的情況,這表明這些屬性在預(yù)填充階段都已被填充,算法采用預(yù)填充的結(jié)果替代其中 (p,j)∈IND。

算法針對所有的缺失屬性依次進(jìn)行判斷和修正填充,最終得到修正填充后的完整數(shù)據(jù)集DSfc。修正填充方法的流程圖如圖1 所示,其中,MR 表示缺失率。

圖1 算法流程圖Fig.1 The flow chart of the proposed method

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

本小節(jié)中,本文提出的框架分別與2.1 節(jié)提出的7 種當(dāng)前已有的缺失值填充方法對比。由于本文的方法是對已有填充方法得到的填充結(jié)果進(jìn)一步的修正。因此,這7 種經(jīng)典的方法也是本文預(yù)填充階段所選取的填充方法。另外,本文使用一種常見的度量缺失值填充效果的指標(biāo)(NRMSE)來量化填充效果,進(jìn)一步驗(yàn)證方法的有效性。

實(shí)驗(yàn)首先在UCI 上的完整數(shù)據(jù)集上,以隨機(jī)缺失的方式得到不完整數(shù)據(jù),缺失率從小到大依次為0.01、0.02、0.03、0.04、0.05、0.10、0.15 和0.20;然后用現(xiàn)有的填充方法與本文提出的框架結(jié)合后對得到的不完整數(shù)據(jù)進(jìn)行處理;最后根據(jù)修正填充前的原始數(shù)據(jù)集和修正填充后得到的最終完整集得出不同缺失率下的NRMSE 值及其變化趨勢。為了避免因單次填充而導(dǎo)致的誤差對實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)在每種缺失率下均重復(fù)隨機(jī)缺失多次,最終得到的NRMSE 值為多次重復(fù)缺失后得到的均值。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文從UCI 中選取了8 個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)的比較和分析,表1 給出了8 個(gè)數(shù)據(jù)集的基本信息,包括數(shù)據(jù)集名稱、樣本個(gè)數(shù)、屬性個(gè)數(shù)以及類別個(gè)數(shù),其中balance-s、BCC、dba 和lym 分別是balance-scale、Breast Cancer Coimbra、data_banknote_authentication 和lymphography 數(shù)據(jù)集的簡寫。

表1 數(shù)據(jù)集簡介Table 1 The introduction of the datasets

3.3 不完整數(shù)據(jù)填充性能的評價(jià)標(biāo)準(zhǔn)

本文采用的評價(jià)不完整數(shù)據(jù)填充性能的指標(biāo)是歸一化均方根誤差,定義如下:

式中:xguess和xori分別代表填充后的屬性值以及在原始數(shù)據(jù)集中被填充前的屬性值; std(xori) 表示的是被填充前的所有屬性值的標(biāo)準(zhǔn)差。NRMSE值越小,意味著填充后的值與填充前的值差異越小,即填充效果越好。

3.4 實(shí)驗(yàn)結(jié)果與分析

本小節(jié)中,通過NRMSE 度量指標(biāo)對本文所提框架與當(dāng)前已有的缺失值填充方法所產(chǎn)生的結(jié)果進(jìn)行對比和分析,研究在不同的缺失率下,框架對于現(xiàn)有填充方法的提升效果呈現(xiàn)出何種趨勢。圖2 分別展示了7 組填充方法在不同數(shù)據(jù)集上以及不同缺失率下對應(yīng)的NRMSE 值的變化趨勢。

圖2 7 組填充方法在8 個(gè)數(shù)據(jù)集上以及在不同缺失率下對應(yīng)的NRMSE 值Fig.2 The NRMSE values corresponding to 7 groups of imputation methods on 8 datasets and at different missing rates

除此之外,圖3 更為直觀地展示了7 種現(xiàn)有填充方法分別在與本文所提框架結(jié)合后填充效果的提升。其中,MR 表示的是缺失率。從實(shí)驗(yàn)結(jié)果中不難發(fā)現(xiàn),由于數(shù)據(jù)的隨機(jī)缺失導(dǎo)致缺失值的分布具有一定的隨機(jī)性,同時(shí)因缺失場景的不同和缺失數(shù)據(jù)本身的特點(diǎn)共同決定了沒有任何一種現(xiàn)有的填充方法可以在所有數(shù)據(jù)集上都能取得最好的填充效果。但是本文所提框架應(yīng)用于多數(shù)現(xiàn)有填充方法和數(shù)據(jù)集上所呈現(xiàn)出來的填充效果均優(yōu)于對比算法,如haberman、BCC 等數(shù)據(jù)集。從總體上來看,針對一些特征(維)數(shù)較少而樣本數(shù)較多的數(shù)據(jù)集而言,當(dāng)缺失率較小時(shí),對應(yīng)的N R M S E 值也較小,當(dāng)缺失率達(dá)到最小時(shí),NRMSE 值往往也達(dá)到最小,意味著填充效果最好,但是隨著缺失率的不斷增大,對應(yīng)的NRMSE逐漸呈現(xiàn)出增長的趨勢。這是因?yàn)槿笔试叫?,出現(xiàn)缺失的屬性數(shù)就越少,而當(dāng)樣本數(shù)遠(yuǎn)大特征(維)數(shù)時(shí),例如dba 數(shù)據(jù)集的特征(維)數(shù)是5,但卻擁有1 372 個(gè)樣本,當(dāng)缺失率為1%時(shí),出現(xiàn)缺失的屬性數(shù)是13,而該數(shù)據(jù)本身具有1 372 個(gè)樣本,故可用于填充的剩余完整樣本數(shù)還有很多,這對于數(shù)據(jù)的恢復(fù)十分有利。隨著缺失率的增長,剩余完整樣本逐漸變少,對應(yīng)的NRMSE 值也呈現(xiàn)出上升的趨勢。當(dāng)然,也會(huì)出現(xiàn)極少數(shù)的特殊情況,如:MEI 方法在haberman 數(shù)據(jù)集上當(dāng)缺失率為2%時(shí),對應(yīng)的NRMSE 值略小于缺失率等于1%時(shí)對應(yīng)的值,即隨著缺失率的增大,NRMSE值卻在減小,類似的情況還有MEDI 方法在glass 數(shù)據(jù)集上以及SoftI 方法在balance-s 數(shù)據(jù)集上等。這種情況出現(xiàn)的原因是實(shí)驗(yàn)所得的不完整數(shù)據(jù)是通過隨機(jī)缺失的方式得到的,且在挖掘空間鄰域信息的過程中也采用了多次覆蓋,因此具有一定的隨機(jī)性,盡管重復(fù)隨機(jī)缺失了很多次,最后取多次實(shí)驗(yàn)所得的NRMSE 度量值的均值為最終結(jié)果,但也只能在一定程度上較為穩(wěn)定地反映出NRMSE 值的總體變化趨勢,此外,針對一些數(shù)據(jù)樣本較少的數(shù)據(jù)集而言,當(dāng)缺失率較小時(shí),對應(yīng)缺失率下的缺失屬性的數(shù)量也十分接近,在這種情況下,可能會(huì)出現(xiàn)缺失率略大反而填充效果略好的情況,但從經(jīng)過多次重復(fù)實(shí)驗(yàn)的結(jié)果來看可知NRMSE 指標(biāo)的總體變化呈上升趨勢。

從BCC 和balance-s 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果中可以看出,盡管有少數(shù)對比算法在缺失率較小的時(shí)候呈現(xiàn)出的填充效果要優(yōu)于本文的方法,但是,隨著缺失率的不斷增長,本文方法所展現(xiàn)出來的優(yōu)勢逐漸明顯。如MICE+CCA 在balance-s數(shù)據(jù)集上,當(dāng)缺失率達(dá)到5%以及在glass 數(shù)據(jù)集上達(dá)到10%以后,填充效果開始逐漸優(yōu)于對比算法。此外,我們發(fā)現(xiàn)一些現(xiàn)有的單一填充方法在用本文框架修正填充后,填充效果更加逼近效果較好的多元填充方法,如:WKNNI+CCA 在lenses 數(shù)據(jù)集上當(dāng)缺失率達(dá)到20%時(shí),幾乎取得了等同于MICE 的填充效果。這表明了通過和本文所提框架結(jié)合后可以更加有效地提升現(xiàn)有填充方法所產(chǎn)生的效果。

當(dāng)然,也有方法與框架結(jié)合后的提升效果不佳,如:MICE+CCA 在dba 和wine 數(shù)據(jù)集上的填充效果較對比方法差。這是因?yàn)镸ICE 本身就運(yùn)用了多重填充的思想,已經(jīng)在一定程度上規(guī)避了因單一填充而引入的誤差,因此,在通常情況下都會(huì)取得十分不錯(cuò)的填充效果。但是,MICE+CCA 在BCC、glass、haberman 和lym 等數(shù)據(jù)集上隨著缺失率的不斷增大,對于MICE 方法的提升效果逐漸明顯。此外,同樣是在dba 和wine 數(shù)據(jù)集上,本文所提出的用于修正填充其他現(xiàn)有方法的效果相對于對比算法的效果而言仍具有較大優(yōu)勢,如:KNNI+CCA、MFI+CCA 等。

從lenses 數(shù)據(jù)集和lym 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來看,一方面,除了MICE 方法在lenses 上的填充效果比MICE+ CCA 好以外,其他幾組對比算法的效果均沒有本文提出的方法好,尤其是SoftI+CCA 在lenses 數(shù)據(jù)集上以及KNNI+CCA、MFI+CCA 等方法在lym 數(shù)據(jù)集上的填充效果均顯著優(yōu)于對比算法;另一方面,盡管MICE 在lenses 上的效果更好一些,但是與本文提出的MICE+CCA 的效果相比較,差距并不是很大,而后者表現(xiàn)出的算法穩(wěn)定性更高。

圖3 7 組現(xiàn)有填充方法經(jīng)修正后的填充效果提升圖Fig.3 The improvement of the imputation effect by using proposed method

4 結(jié)束語

針對當(dāng)前已有的大多數(shù)填充方法忽視了樣本空間分布信息對數(shù)據(jù)恢復(fù)的影響,本文提出了一種可廣泛應(yīng)用于現(xiàn)有填充方法的框架,旨在對利用現(xiàn)有方法得到的填充結(jié)果進(jìn)行修正,從而提升填充效果。該框架由預(yù)填充、空間鄰域信息挖掘和修正填充3 部分構(gòu)成,首先利用現(xiàn)有填充方法對樣本進(jìn)行預(yù)填充;再通過引入一種空間鄰域信息挖掘方法來找到與待填樣本具有更高相似度的若干個(gè)空間鄰域;最后利用待填樣本的空間鄰域內(nèi)的有效信息對現(xiàn)有填充方法產(chǎn)生的填充結(jié)果進(jìn)行修正。

實(shí)驗(yàn)選取了7 種經(jīng)典的填充方法(包括單一填充和多重填充),在8 個(gè)UCI 數(shù)據(jù)集上進(jìn)行了對比。結(jié)果表明,本文提出的框架確實(shí)能夠在大多數(shù)數(shù)據(jù)集上有效提升現(xiàn)有填充方法的填充效果。盡管在少數(shù)數(shù)據(jù)集上的提升效果不佳,但是從實(shí)驗(yàn)所得的不同缺失率下的NRMSE 度量值的變化趨勢來看,多數(shù)與框架結(jié)合后的填充方法通常呈現(xiàn)出較為平穩(wěn)的填充趨勢,不會(huì)隨著缺失率的不斷增長而出現(xiàn)較大波動(dòng),而且在某些數(shù)據(jù)集上呈現(xiàn)出一個(gè)重要規(guī)律,即隨著缺失率的不斷增大,框架對于現(xiàn)有填充方法的提升效果逐漸明顯。除此之外,本文所提框架還可以將一些效果較差的單一填充方法的填充效果提升至更好的多重填充方法所取得的效果。

猜你喜歡
集上鄰域修正
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正這一天
快樂語文(2021年35期)2022-01-18 06:05:30
Cookie-Cutter集上的Gibbs測度
稀疏圖平方圖的染色數(shù)上界
鏈完備偏序集上廣義向量均衡問題解映射的保序性
合同解釋、合同補(bǔ)充與合同修正
法律方法(2019年4期)2019-11-16 01:07:28
基于鄰域競賽的多目標(biāo)優(yōu)化算法
復(fù)扇形指標(biāo)集上的分布混沌
軟件修正
關(guān)于-型鄰域空間
苍梧县| 仙游县| 舞阳县| 扬中市| 西吉县| 益阳市| 门头沟区| 基隆市| 平舆县| 扎赉特旗| 当雄县| 霍城县| 常山县| 潢川县| 南川市| 韩城市| 丘北县| 新兴县| 井研县| 紫金县| 淮阳县| 慈溪市| 博客| 霍城县| 黄冈市| 三门县| 两当县| 张家港市| 陕西省| 盐城市| 吉木萨尔县| 平罗县| 济南市| 彭阳县| 丹阳市| 九龙县| 新巴尔虎左旗| 宜川县| 理塘县| 白玉县| 衡阳县|