朱林杰
摘要:丟失值填補(bǔ)在數(shù)據(jù)挖掘領(lǐng)域是非常重要的。針對(duì)數(shù)據(jù)集中出現(xiàn)屬性丟失值的情況,本論述提出了一種屬性丟失值分塊填補(bǔ)(ABNS)的方法。首先對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,然后將其數(shù)據(jù)分成相等的 n 個(gè)塊,接著驗(yàn)證每一塊來(lái)獲取相對(duì)應(yīng)的最優(yōu)的 K 值,最后使用最優(yōu)的 K 值進(jìn)行數(shù)據(jù)填補(bǔ)來(lái)得到相應(yīng)的數(shù)據(jù)。實(shí)驗(yàn)采用公開(kāi)數(shù)據(jù)集 Horse Colic、Vote 和Diabe? tes進(jìn)行實(shí)驗(yàn),并且在使用貝葉斯、KNN 和 SMO 算法進(jìn)行分類(lèi)評(píng)估的情況下,對(duì)所提出的方法與傳統(tǒng)均值填補(bǔ)方法和概率填補(bǔ)方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果分析表明,所提方法的填補(bǔ)效果較對(duì)比的方法具有一定優(yōu)勢(shì)。
關(guān)鍵詞:分類(lèi);KNN;屬性丟失值
中圖分類(lèi)號(hào):TP391????????????????????????????????????????? 文獻(xiàn)標(biāo)志碼:A
0 引言
隨著信息技術(shù)的迅速發(fā)展,相應(yīng)的伴隨著大量數(shù)據(jù)的產(chǎn)生。由于各種原因,數(shù)據(jù)處理有時(shí)會(huì)出現(xiàn)屬性丟失值的結(jié)果,屬性丟失值能影響分類(lèi)器的性能,影響數(shù)據(jù)分析的情況。因此,提高數(shù)據(jù)質(zhì)量很有必要。例如:水污染數(shù)據(jù)和風(fēng)力發(fā)電數(shù)據(jù)都會(huì)存在屬性丟失值的現(xiàn)象,尤其在醫(yī)學(xué)數(shù)據(jù)研究中,對(duì)屬性丟失值的處理顯得更加重要。在處理數(shù)據(jù)集的過(guò)程中,發(fā)現(xiàn)屬性丟失值的情況比較常見(jiàn),數(shù)據(jù)集的各個(gè)屬性都可能會(huì)出現(xiàn)丟失值的情況。在數(shù)據(jù)集中,當(dāng)有些數(shù)據(jù)字段為空,或者是出現(xiàn)“?”號(hào)以及出現(xiàn)“N/A”和“Not Available”等值的時(shí)候,就表明這是一個(gè)不正常的屬性值。還有一些情況,有時(shí)會(huì)因?yàn)槟骋恍傩灾档膩G失,將直接導(dǎo)致整個(gè)數(shù)據(jù)集不可用。
屬性丟失值處理是數(shù)據(jù)挖掘領(lǐng)域重要的研究方向之一。近年來(lái),幾個(gè)處理方法已經(jīng)被提出用于屬性丟失值填補(bǔ),因此就如何對(duì)屬性丟失值進(jìn)行處理也是非常重要的。同時(shí),該問(wèn)題在諸多領(lǐng)域中受到廣泛的關(guān)注,許多研究人員對(duì)丟失值進(jìn)行相關(guān)的理論研究,提出解決方法并且進(jìn)行了相關(guān)的實(shí)驗(yàn)。隨后,在所有提出的解決方法中,發(fā)現(xiàn)采用填補(bǔ)方法對(duì)屬性丟失值進(jìn)行處理的方法具有更大的優(yōu)勢(shì)。該方法從如何利用現(xiàn)有的數(shù)據(jù)進(jìn)行填補(bǔ)屬性丟失值,使得數(shù)據(jù)更加完整,依照丟失的重要性和類(lèi)型進(jìn)行區(qū)域填補(bǔ),在數(shù)據(jù)合理性上有一定的優(yōu)勢(shì)。
K 最近鄰(KNN,K- NearestNeighbor)算法一直是機(jī)器學(xué)習(xí)領(lǐng)域研究的焦點(diǎn)。但是 K 值有著不同的選擇,K 值選擇也比較重要,因?yàn)?K 值的不同會(huì)使得同樣的數(shù)據(jù)有著不同的結(jié)果。尤其是對(duì)于稀疏數(shù)據(jù)來(lái)說(shuō),由于數(shù)據(jù)的相異性,當(dāng)使用 KNN 算法做數(shù)據(jù)分析時(shí),不同的 K 值可能會(huì)出現(xiàn)信息檢測(cè)時(shí)丟失信息的情況。
本論述在使用 KNN 算法基礎(chǔ)上,提出了一種 ABNS 填補(bǔ)方法,并將它與均值填補(bǔ)和概率填補(bǔ)方法在 Horse Colic、Vote 和 Diabetes 數(shù)據(jù)集上進(jìn)行了比較。
1 相關(guān)工作
屬性丟失值近年來(lái)一直被人們關(guān)注,為了解決屬性丟失值問(wèn)題,研究者也提出了許多處理丟失值的方法,加深了丟失值處理的進(jìn)一步研究。文獻(xiàn)[1 ]回顧了由于分析儀器產(chǎn)生的數(shù)據(jù)受各種因素影響,需要預(yù)處理數(shù)據(jù),同時(shí)分析了化學(xué)計(jì)量學(xué)的預(yù)處理融合的集成方法,表明預(yù)處理集成允許幾種技術(shù)選擇和它們的組合,以一種互補(bǔ)的方式,進(jìn)而來(lái)改進(jìn)模型。文獻(xiàn)[2 ]使用沒(méi)有缺失值的訓(xùn)練數(shù)據(jù)對(duì)自編碼器進(jìn)行訓(xùn)練,使其更好地預(yù)測(cè)缺失值的能力,利用自動(dòng)編碼神經(jīng)網(wǎng)絡(luò)去重建自己,并做了進(jìn)一步估計(jì),將丟失值最小化。數(shù)據(jù)不平衡問(wèn)題一直是研究的焦點(diǎn)之一。文獻(xiàn)[3]通過(guò)研究信用風(fēng)險(xiǎn)評(píng)估,針對(duì)不平衡數(shù)據(jù)學(xué)習(xí)問(wèn)題提出了一種新型的組合動(dòng)態(tài)集合選擇(DES,dynamic ensemble selection) 模型,并且采用 DES-KNN 的兩步選擇策略來(lái)對(duì)于分類(lèi)的能力和多樣性進(jìn)行權(quán)衡。
高維數(shù)據(jù)經(jīng)常造成嚴(yán)重的計(jì)算復(fù)雜度,對(duì)它進(jìn)行分析和學(xué)習(xí)一直是一個(gè)挑戰(zhàn)。文獻(xiàn)[4 ]提出了一種新的監(jiān)督差異性降維方法,通過(guò)優(yōu)化新設(shè)計(jì)的有效目標(biāo)函數(shù)來(lái)學(xué)習(xí)每個(gè)類(lèi)別的變化。與單一變化的情況相比,所提方法可以從每個(gè)單一類(lèi)別的數(shù)據(jù)中捕捉到更多的有用信息。醫(yī)學(xué)數(shù)據(jù)集在醫(yī)學(xué)領(lǐng)域是非常重要的,文獻(xiàn)[5]討論了一個(gè)新的丟失值填補(bǔ)框架,采用基于類(lèi)的聚類(lèi)方法來(lái)填補(bǔ)丟失值,本質(zhì)上,這可以降低醫(yī)療數(shù)據(jù)的維度。由于丟失值會(huì)對(duì)分類(lèi)精度產(chǎn)生影響,文獻(xiàn)[6]利用貝葉斯附加回歸樹(shù)提出了一種自動(dòng)刪除不相關(guān)變量的方法。所提模型方法可以對(duì)不完整數(shù)據(jù)集進(jìn)行分類(lèi)的精度提高,同時(shí)避免了一些不必要的步驟。
特征選擇是機(jī)器學(xué)習(xí)中的一個(gè)非常重要過(guò)程,文獻(xiàn)[7 ]引入一種相容類(lèi)的概念,以減少原始數(shù)據(jù)中不必要的相容類(lèi)。同時(shí)為了更有效地處理高維數(shù)據(jù)集,在每個(gè)循環(huán)后確定冗余的特征,并將其從候選特征子集中刪除,設(shè)計(jì)一個(gè)有效的啟發(fā)式算法以找到比較小的約簡(jiǎn)集。文獻(xiàn)[8]驗(yàn)證特征選擇對(duì)醫(yī)學(xué)數(shù)據(jù)集丟失值填充的影響,實(shí)驗(yàn)結(jié)果表明,對(duì)于許多醫(yī)療數(shù)據(jù)集來(lái)說(shuō),為了產(chǎn)生最好的結(jié)果,應(yīng)該謹(jǐn)慎選擇特征選擇算法。遺傳算法和信息增益模型適用于低維數(shù)據(jù)集,而決策樹(shù)模型則是高維數(shù)據(jù)集的更好選擇。文獻(xiàn)[9]介紹了數(shù)據(jù)挖掘中處理缺失屬性值的方法,方法主要分為順序法和平行法兩種,并且重點(diǎn)強(qiáng)調(diào)了規(guī)則歸納原則。另外,在醫(yī)療數(shù)據(jù)方面,因?yàn)獒t(yī)療數(shù)據(jù)經(jīng)常有丟失值,使用丟失值填補(bǔ)方式進(jìn)行提高研究結(jié)果也是比較有效的。 Huang 等提出了醫(yī)療數(shù)據(jù)安全區(qū)域填補(bǔ)方法,填補(bǔ)結(jié)果有所提高。因此,利用屬性丟失值填補(bǔ)的方法會(huì)取得比較好的結(jié)果,它們是非常必要的填補(bǔ)方法,在提高分類(lèi)性能方面也是非常有用的[10-12] 。294FC53E-C618-4B3C-9018-E7D2C95232C9
2 方法及步驟
數(shù)據(jù)填補(bǔ)是一種比較有效能夠減少對(duì)原有數(shù)據(jù)集的影響的一種方式。由于對(duì)于全部數(shù)據(jù)集,使用傳統(tǒng)算法計(jì)算樣本會(huì)增加復(fù)雜性,選擇數(shù)據(jù)填補(bǔ)方法是非常重要的,因此本論述提出了一種基于 KNN 算法的數(shù)據(jù)分塊填補(bǔ)屬性丟失值方法。這種方法將會(huì)提高分類(lèi)的結(jié)果,提高分類(lèi)的精度,該方法先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后把它分成 n 個(gè)塊,分別為 b1 , b2 , …, bn? ,然后為每個(gè)塊選擇最適合本塊的最優(yōu) K 值,接著使用這個(gè) K 值對(duì)相應(yīng)的數(shù)據(jù)進(jìn)行填補(bǔ),從而達(dá)到最優(yōu)填補(bǔ)的效果。
所提方法的流程如圖1 所示。
ABNS 方法詳細(xì)的算法步驟:
步驟1 給定數(shù)據(jù)集 D ={(x1 ,y1),(x2 ,y2), …,(xn ,yn)} ,n 為樣本的數(shù)量,xi 為每個(gè)實(shí)例,yi為每個(gè)實(shí)例的標(biāo)簽。
步驟2 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化。
步驟3將數(shù)據(jù)集隨機(jī)劃分成 n 個(gè)塊,分別標(biāo)注為 b1 , b2 , …, bn? 。對(duì)于每一個(gè)塊,分別計(jì)算當(dāng) K 取為2、3、4和 5時(shí)的情況,并與分塊前采用 KNN 分類(lèi)算法比較,從而來(lái)確定每一塊最優(yōu)的 K 值。
步驟4 使用最優(yōu) K 值填補(bǔ)數(shù)據(jù),對(duì)填補(bǔ)的數(shù)據(jù)集進(jìn)行分類(lèi),驗(yàn)證所得的結(jié)果。
3 實(shí)驗(yàn)結(jié)果與分析
為了提高分類(lèi)的精度,評(píng)估所提出方法的性能,將所提方法與傳統(tǒng)的均值填補(bǔ)方法和概率填補(bǔ)方法在貝葉斯,KNN 和 SMO 分類(lèi)算法進(jìn)行比較分析,采用精度、召回率和 F- score 度量方式。使用公開(kāi)數(shù)據(jù)集 Horse? Colic、Vote 和 Diabetes 進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)平臺(tái) Intel Core, i5-9400F,CPU 2.90GHz,8G 內(nèi)存,編程語(yǔ)言 Python 3.7,Windows10操作系統(tǒng)。
數(shù)據(jù)集見(jiàn)表1 所列,包括數(shù)據(jù)集的名稱,數(shù)據(jù)集的屬性,數(shù)據(jù)集的數(shù)量以及類(lèi)型。
精度、召回率與 F-score 如下圖所示。
從圖2、3、4中可以看出,在 Horse-colic 數(shù)據(jù)集中, ABNS 填補(bǔ)方法精確度分別為91%、92.9%和97.3%,遠(yuǎn)優(yōu)于對(duì)比的填補(bǔ)方法;在Vote 數(shù)據(jù)集上,ABNS 填補(bǔ)方法精確度略優(yōu)于均值填補(bǔ)方法,遠(yuǎn)好于概率填補(bǔ)方法;在 Diabetes 數(shù)據(jù)集中,用貝葉斯算法進(jìn)行分類(lèi),ABNS 填補(bǔ)方法精確度最高。用 KNN 進(jìn)行分類(lèi)時(shí)候,均值填補(bǔ)方法的精確度最好。ABNS 填補(bǔ)的精確略低于均值填補(bǔ),優(yōu)于概率填補(bǔ)方法。用 SMO 進(jìn)行分類(lèi)時(shí),概率填補(bǔ)最好,ABNS 次之,兩種方法優(yōu)于均值填補(bǔ)的精確度。所以,就從精確度方面而言,所提出的方法在大部分情況下對(duì)于屬性丟失值填補(bǔ)會(huì)優(yōu)于其他兩種方法。
從圖5、6、7中可以看出,與表2 類(lèi)似,與其他兩種方法對(duì)比,ABNS 填補(bǔ)方法在Horse-colic 和Vote 數(shù)據(jù)集上,表現(xiàn)都是最優(yōu)的。在 Diabetes 數(shù)據(jù)集上,僅僅采用 KNN 分類(lèi)時(shí),結(jié)果不是最優(yōu)的,其他的情況下,都是最優(yōu)的。
F-score 指標(biāo)是用來(lái)綜合權(quán)衡精確率和召回率的評(píng)價(jià)指標(biāo)。從圖8、9、10可以發(fā)現(xiàn),對(duì)于 Horse- colic 和 Vote 數(shù)據(jù)集,ABNS 填補(bǔ)方法的F-score 都是最高的,均值填補(bǔ)次之,概率填充結(jié)果最差。但是對(duì)于 Diabetes 數(shù)據(jù)集時(shí),只有使用 KNN 分類(lèi)時(shí),ABNS 填補(bǔ)方法的 F- score 不是最高的,其他分類(lèi)條件時(shí),ABNS 填補(bǔ)方法的 F-score 都是最高的。即在綜合權(quán)衡精確率和召回率的條件下,所提方法的填補(bǔ)性能與對(duì)比方法相比具有一定的優(yōu)勢(shì)。
4 結(jié)論
在高速發(fā)展的信息時(shí)代,數(shù)據(jù)是非常重要的,要從數(shù)據(jù)中發(fā)現(xiàn)有用的信息,對(duì)數(shù)據(jù)集中的屬性丟失值進(jìn)行處理很有必要。通過(guò)分析數(shù)據(jù)集中屬性丟失值的情況,分析了屬性丟失值的相關(guān)技術(shù)研究,針對(duì)數(shù)據(jù)集數(shù)據(jù)的特點(diǎn),討論采用分塊的方法的可行性,隨后提出了一種屬性丟失值分塊填補(bǔ)(ABNS)的方法,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)集中屬性丟失值的填補(bǔ)。這種方法把數(shù)據(jù)集劃分為 n 個(gè)子塊,每個(gè)子塊各自選擇最優(yōu)的 K 值,接著利用最優(yōu)的 K 值對(duì)于屬性丟失值進(jìn)行填補(bǔ),進(jìn)而改善了屬性丟失值的情況。并且通過(guò)實(shí)驗(yàn)結(jié)果表明了在部分?jǐn)?shù)據(jù)集上,所提方法填補(bǔ)后的數(shù)據(jù)在精確度、召回率和 F- score 指標(biāo)上具有一定的優(yōu)勢(shì)。所提方法與傳統(tǒng)的方法相比,處理部分丟失值的效果明顯提升,也為屬性丟失值填補(bǔ)提供一種新的思路。面對(duì)深度學(xué)習(xí)的廣泛應(yīng)用,屬性丟失值研究對(duì)于深度學(xué)習(xí)也有重要的的影響,下一步工作將進(jìn)一步探索新的方法,把該方法用于如何與深度學(xué)習(xí)結(jié)合來(lái)提高分類(lèi)能力等方面做更深入的研究。
參考文獻(xiàn):
[1 ]?? Mishra P,Roger J M,Rutledge D N,et al. New data prepro?cessing trends based on ensemble of multiple preprocessing techniques[J]. TrAC Trends in Analytical Chemistry,2020,132.
[2 ]?? Choudhury S J,Pal N R. Imputation of missing data with neu?ral networks for classification[J]. Knowledge-Based Systems,2019,182(C):104838.
[3 ]?? Hou W H,Wang X K,Zhang H Y,et al. A novel dynamic ensemble selection classifier for an imbalanced data set:An application for credit risk assessment[J]. Knowledge- Based Systems,2020,208:106462.294FC53E-C618-4B3C-9018-E7D2C95232C9
[4 ]?? Rajabzadeh H,Jahromi M Z,Ghodsi A. Supervised discrimi ?native dimensionality reduction by learning multiple transfor? mation? operators [J].? Expert? Systems? with? Applications,2021,164:113958.
[5]?? Yelipe U,Sammulal P. A Novel Approach for Imputation ofMissing Attribute Values for Efficient Mining of Medical Data? sets - Class Based Cluster Approach[J].Revista Técnica De La Facultad De Ingeniería Universidad Del Zulia,2016,39( 2):184-196.
[6]?? Mehrabani- Zeinabad K,Doostfatemeh M ,Ayatollahi T. AnEfficient and Effective Model to Handle Missing Data in Clas ? sification[J]. BioMed Research International,2020:8810143.
[7 ]?? Thuy? N? N,Wongthanavasu? S. A? Novel? Feature? Selection Method? for? High- Dimensional? Mixed? Decision? Tables [J]. IEEE? Transactions? on? Neural? Networks? and? Learning? Sys ? tems,2021(99):1-14.
[8]?? Liu C H,Tsai C F,Sue K L,et al. The Feature Selection Ef?fect on Missing Value Imputation of Medical Datasets[J]. Ap? plied Sciences,2020,10(7):1-12.
[9]?? Grzymala- Busse J W,Grzymala- Busse W J. Handling Miss ?ing Attribute Values[ M ].2005.
[10]?? Huang S F,Cheng C H. A Safe- Region Imputation Methodfor Handling Medical Data with Missing Values[J]. Symme? try,2020,12( 11):1792.
[11]?? N. S.Altman. An Introduction to Kernel and Nearest- Neigh ?bor? Nonparametric? Regression [J].The? American? Statisti? cian,2012,46(3):175-185.
[12]?? Jones P J,James M K,Davies M J,et al. FilterK:A new out?lier detection method for k- means clustering of physical ac ? tivity[J]. Journal of Biomedical Informatics,2020,104(9):1-10.294FC53E-C618-4B3C-9018-E7D2C95232C9