国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于類的余弦距離聚類缺失值填補(bǔ)方法研究

2024-06-21 22:00:30夏婷婷林康張瀟予劉海忠
河南科技 2024年8期
關(guān)鍵詞:聚類

夏婷婷 林康 張瀟予 劉海忠

摘 要:【目的】為了解決歐氏距離計(jì)算相似性帶來的高維度問題,提出了基于類的余弦距離聚類缺失值填補(bǔ)方法?!痉椒ā渴紫葘⒉煌暾麛?shù)據(jù)集分為兩個(gè)不同的組(G1和GIM);其次通過聚類中心對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ);再次利用余弦距離計(jì)算相關(guān)性;最后選擇與G1組中距離最小的數(shù)據(jù)來填補(bǔ)缺失值?!窘Y(jié)果】實(shí)驗(yàn)結(jié)果表明,該方法在類別和混合數(shù)據(jù)集上均優(yōu)于其他插補(bǔ)方法。【結(jié)論】該方法顯著提高了準(zhǔn)確率、召回率、F1-score及插補(bǔ)效果。

關(guān)鍵詞:不完整數(shù)據(jù);缺失值插補(bǔ);聚類;余弦距離

中圖分類號(hào):TP181;TP311.13? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1003-5168(2024)08-0028-08

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.08.006

A Study of Missing Value Imputation Methods for Class-based Cosine Distance Clustering

XIA Tingting1 LIN Kang2 ZHANG Xiaoyu3 LIU Haizhong1

(1.Lanzhou Jiaotong University, Lanzhou 730070, China; 2.Beijing Normal University, Zhuhai 519087, China;3.School of Social and Behavioral Sciences, City University of Hong Kong, Lanzhou 730070, China)

Abstract: [Purposes] In order to solve the high dimension problem caused by the similarity of Euclidean distance calculation, a class-based cosine distance clustering missing value imputation approach is proposed. [Methods] Firstly, the incomplete data set is divided into two different groups (G1 and GIM); secondly, the missing data in the GIM group is pre-filled by the clustering center; the cosine distance is used again to calculate the correlation ; finally, the data with the smallest distance from the G1 group is selected to fill the missing values. [Findings] The experimental results show that the proposed method outperforms other imputation methods for both categorical and mixed datasets. [Conclusions] The CBC-IM-COS method significantly improves accuracy, recall and F1-score and imputationperformance.

Keywords: incomplete data; missing value imputation; clustering; cosine distance

0 引言

缺失值的挑戰(zhàn)是數(shù)據(jù)科學(xué)中最普遍的問題之一[1]。在醫(yī)療數(shù)據(jù)中尤其如此,由于某些指標(biāo)難以衡量、數(shù)據(jù)采集不及時(shí)、數(shù)據(jù)存儲(chǔ)不當(dāng)、醫(yī)療信息難以跨平臺(tái)共享等因素,導(dǎo)致醫(yī)療數(shù)據(jù)中往往存在許多缺失值[2-3],直接影響疾病診斷、治療選擇、出院評(píng)估、預(yù)后評(píng)估等臨床決策。如果不及時(shí)處理大量缺失的數(shù)據(jù),往往會(huì)導(dǎo)致嚴(yán)重的偏差,從而得出錯(cuò)誤的結(jié)論。因此,有必要對(duì)缺失數(shù)據(jù)進(jìn)行有效處理,以提高醫(yī)療數(shù)據(jù)的質(zhì)量和臨床決策的準(zhǔn)確性。處理缺失數(shù)據(jù)方法大致可分為2類:刪除法和插補(bǔ)法。根據(jù)Strike等[4]和Raymond等[5]的研究,當(dāng)數(shù)據(jù)集包含非常少量的缺失數(shù)據(jù)時(shí),如缺失率小于10%或15%,采用刪除法刪除缺失數(shù)據(jù),不會(huì)對(duì)最終挖掘或分析的結(jié)果產(chǎn)生顯著影響。但是,當(dāng)缺失率較大時(shí),該方法則會(huì)導(dǎo)致有價(jià)值的信息丟失。與刪除策略不同,缺失值插入(MVI)是處理不完整數(shù)據(jù)集問題最常用的解決方法,插補(bǔ)法是從可利用的數(shù)據(jù)中估計(jì)出的數(shù)值去替換缺失的值。

目前,缺失值插補(bǔ)法可分為兩種類型[6-7],即基于統(tǒng)計(jì)的方法和基于機(jī)器學(xué)習(xí)的方法。基于統(tǒng)計(jì)的方法主要有均值、中值、眾數(shù)以及期望最大化和多重填補(bǔ)技術(shù)。Tsai等[8]的研究提出了基于類中心的缺失值插補(bǔ)(CCMVI)方法,該方法通過類中心、標(biāo)準(zhǔn)差、歐式距離來填補(bǔ)缺失值,但是該算法不適用于高缺失率的情況;因此劉莎等[9]改進(jìn)了類中心、標(biāo)準(zhǔn)差、閾值的計(jì)算,并使用灰色關(guān)聯(lián)度計(jì)算實(shí)例間的相關(guān)性,提出了灰色類中心的缺失插補(bǔ)方法,實(shí)驗(yàn)結(jié)果表明,該方法提供了分類精度和插補(bǔ)效果;朱榮慧等[10]和唐健元等[11]分別介紹了多重填補(bǔ)技術(shù)醫(yī)學(xué)研究中和臨床研究中的基本思想和步驟;Sefidian等[12]結(jié)合灰色關(guān)聯(lián)分析、模糊C均值、互信息、回歸模型提出了一種新缺失值填補(bǔ)方法,實(shí)驗(yàn)結(jié)果表明,提出的方法在RMSE、MAE、決定系數(shù)方面優(yōu)于其他5種填補(bǔ)方法?;跈C(jī)器學(xué)習(xí)的方法主要有k近鄰(KNN)、支持向量機(jī)(SVM)、聚類、隨機(jī)森林技術(shù)。李琳等[13]和白洪濤等[14]證明了隨機(jī)森林插補(bǔ)具有較好的插補(bǔ)效果;Vazifehdan等[15]使用貝葉斯網(wǎng)絡(luò)和張量因式分解相結(jié)合的方法預(yù)測(cè)乳腺癌復(fù)發(fā)的可能性,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提高數(shù)據(jù)質(zhì)量和預(yù)測(cè)質(zhì)量;Batra等[16]提出集成填補(bǔ)模型,并與均值填補(bǔ)、K近鄰填補(bǔ)、迭代填補(bǔ)等方法進(jìn)行比較,對(duì)比結(jié)果表明所提出的方法在準(zhǔn)確性方面優(yōu)于其他幾種缺失值填補(bǔ)方法。

由于現(xiàn)實(shí)世界中的許多函數(shù)問題都是高維的,為了克服現(xiàn)有的填補(bǔ)技術(shù)和應(yīng)用的距離函數(shù)具有高維的問題,Yelipe等[17]提出了基于類的歐式距離聚類缺失值填補(bǔ)(CBC-IM-EUC)方法,較好地解決了這一問題。但該算法的主要缺點(diǎn)是:①隨著維度的增加,歐幾里得距離的作用就越??;②在計(jì)算相似度時(shí),忽略了GIM組中缺失數(shù)據(jù)的不完整屬性值對(duì)應(yīng)的平均向量元素值。邵俊健[18]在不同的大規(guī)模高維數(shù)據(jù)集中,比較了4種不同的距離度量函數(shù),結(jié)果表明,余弦距離與歐式距離相比可以得到較好的結(jié)果。針對(duì)上述問題,本研究提出了基于類的余弦距離聚類缺失值填補(bǔ)(CBC-IM-COS)方法,通過利用余弦距離代替歐式距離來計(jì)算實(shí)例間的相關(guān)性,并且在計(jì)算相關(guān)性時(shí)對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ)。

1 相關(guān)工作

1.1 缺失機(jī)制

Little和Rubin[19]將缺失機(jī)制分為3種,分別為完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)、非隨機(jī)缺失(MNAR)。

假設(shè)Y為整個(gè)數(shù)據(jù)集的矩陣,該矩陣分解為y0和ym,y0表示數(shù)據(jù)集Y中沒有缺失的數(shù)據(jù),ym表示數(shù)據(jù)集Y中的缺失數(shù)據(jù)。R是指示變量矩陣,其中0表示數(shù)據(jù)缺失,1表示數(shù)據(jù)未缺失,定義見式(1)。

[R=1????? yij∈y00????? yij∈ym] (1)

①完全隨機(jī)缺失(MCAR):表示缺失數(shù)據(jù)不依賴于其本身和其他未缺失的數(shù)據(jù)。MCAR的概率定義見式(2)。

[PRym, y0=PR] (2)

②隨機(jī)缺失(MAR):表示缺失數(shù)據(jù)獨(dú)立于任何缺失值但與其他未缺失的數(shù)據(jù)有關(guān)。在這種機(jī)制下,缺失值可以通過觀察到的預(yù)測(cè)變量進(jìn)行處理[20]。MAR的概率定義見式(3)。

[PRym, y0=PRy0] (3)

③非隨機(jī)缺失(MNAR):表示缺失數(shù)據(jù)依賴于其本身和其他未缺失的數(shù)據(jù)。MNAR概率定義見式(4)。

[PRym, y0=PRy0, ym] (4)

1.2 缺失值方法

通過介紹和描述用于估算原始不完整數(shù)據(jù)集的方法,介紹了4種應(yīng)用的插補(bǔ)技術(shù)。

①統(tǒng)計(jì)方法包括均值/眾數(shù)法和多重插補(bǔ)(Multiple imputation)

②基于機(jī)器學(xué)習(xí)的方法包括支持向量機(jī)(SVM)和多層感知機(jī)(MLP)。

1.2.1 統(tǒng)計(jì)方法。統(tǒng)計(jì)填補(bǔ)方法包括均值/眾數(shù)法和多重插補(bǔ)(MI)。

均值/眾數(shù)法(Mean/Mode method),均值法和眾數(shù)法分別是數(shù)值屬性值和分類屬性值最簡(jiǎn)便的插補(bǔ)方法。當(dāng)數(shù)據(jù)發(fā)生缺失時(shí),均值/眾數(shù)法是使用未缺失數(shù)據(jù)的平均值/眾數(shù)來代替缺失的數(shù)據(jù)。此方法簡(jiǎn)單易行,但是忽略了屬性之間的依賴關(guān)系。

多重插補(bǔ)(Multiple imputation,MI),是由Rubin于20世紀(jì)70年代末首次提出,其核心思想認(rèn)為缺失數(shù)據(jù)都是隨機(jī)的[21]。將MI描述為3個(gè)步驟。首先,使用適當(dāng)?shù)哪P蛠韯?chuàng)建缺失觀測(cè)的合理值(通常為5-10個(gè)),該模型反映了由缺失數(shù)據(jù)造成的不確定性。每一組合理的值都可以用來“填充”缺失的值,并創(chuàng)建一個(gè)“完整的”數(shù)據(jù)集;其次,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行分析;最后,將結(jié)果進(jìn)行綜合,進(jìn)而產(chǎn)生最終的預(yù)測(cè)結(jié)果。該方法適用于填補(bǔ)任何類型的數(shù)據(jù)。MI反映了缺失數(shù)據(jù)的不確定性,并解決了單一插補(bǔ)[22]的局限性。于是在多重插值方法中,我們選擇了鏈?zhǔn)椒匠潭嘣獨(dú)w算(multiple imputation by chained equations)(MICE)。

1.2.2 機(jī)器學(xué)習(xí)方法。基于機(jī)器學(xué)習(xí)的估算方法是一個(gè)復(fù)雜的過程,通常包括創(chuàng)建一個(gè)預(yù)測(cè)模型來估計(jì)將替代缺失的值。基于機(jī)器學(xué)習(xí)方法包括支持向量機(jī)(SVM)和多層感知機(jī)(MLP)。

支持向量機(jī)(SVM),是一種有監(jiān)督學(xué)習(xí)模型,支持向量機(jī)插補(bǔ)缺失數(shù)據(jù)的原理是先利用不完整數(shù)據(jù)集中的未缺失數(shù)據(jù)來訓(xùn)練支持向量機(jī)模型,再利用訓(xùn)練好的模型去預(yù)測(cè)缺失數(shù)據(jù)。SVM與SVR分別用于離散/類別與連續(xù)/數(shù)值缺失數(shù)據(jù)的填補(bǔ)。該方法的優(yōu)點(diǎn)是無論自變量的維度如何,都能表現(xiàn)出優(yōu)異的性能。但是,該方法的準(zhǔn)確性會(huì)隨著樣本數(shù)量的增加而降低。

多層感知機(jī)(MLP),是由輸入層、隱藏層、輸出層組成的前饋神經(jīng)網(wǎng)絡(luò)。首先,自變量的值通過輸入層進(jìn)入MLP,并利用隱含層的輸入值生成權(quán)值的和;其次,通過多個(gè)隱藏層重復(fù)生成加權(quán)和的過程后,利用輸出層生成因變量的值并輸出;再次,使用反向傳播學(xué)習(xí)算法對(duì)構(gòu)成MLP的神經(jīng)元進(jìn)行訓(xùn)練,并在此過程中更新權(quán)重;最后,將更新的權(quán)重存儲(chǔ)在MLP的神經(jīng)元中,并使用存儲(chǔ)的權(quán)重定義自變量和因變量之間的非線性關(guān)系。

2 總體設(shè)計(jì)

2.1 整體工作流程

本研究提出的CBC-IM-COS方法的整體工作流程包括4個(gè)步驟,如圖1所示。

步驟1:數(shù)據(jù)劃分。數(shù)據(jù)集被劃分為2組。G1組(不包含缺失值)和GIM組(包含缺失值)。

步驟2:插補(bǔ)過程。利用CBC-IM-COS方法,進(jìn)行缺失值插補(bǔ)。

步驟3:合并數(shù)據(jù)集。把G1組的數(shù)據(jù)和填補(bǔ)后的GIM組的數(shù)據(jù)合并在一起,形成一個(gè)完整的數(shù)據(jù)集。

步驟4:評(píng)價(jià)過程。使用支持向量機(jī)分類器,衡量插補(bǔ)的性能。

2.2 CBC-IM-COS方法步驟

首先,將數(shù)據(jù)分為不包含缺失值(G1)組和包含缺失值(GIM)組,其目的是先考慮G1組的數(shù)據(jù);其次,采用Kmeans聚類算法,獲得與決策標(biāo)簽數(shù)量相等的聚類,并使用所獲得的聚類信息去實(shí)現(xiàn)降維;再次,通過分析在G1組得到的集群,從而得到每個(gè)集群的聚類中心和偏差;然后,利用從G1組得到的聚類中心,對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ);最后,使用余弦距離計(jì)算缺失的屬性值數(shù)據(jù)和G1組中每個(gè)數(shù)據(jù)之間的距離(或相似度),并選擇與G1組中距離最小(或相似度最大)的數(shù)據(jù)來進(jìn)行填補(bǔ)。

如果是數(shù)字屬性,則填寫屬性值的平均值;如果是名義屬性,則選擇并替換類似記錄的相應(yīng)屬性值。填補(bǔ)完成后,可以得到最終的完整數(shù)據(jù)集。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

從UCI機(jī)器學(xué)習(xí)庫(kù)中選擇了3種不同類型的數(shù)據(jù)集,分別為數(shù)值型、字符型、混合型數(shù)據(jù)集。數(shù)據(jù)樣本和屬性的數(shù)量分別為132到5 000和4到36。數(shù)據(jù)集的基本信息見表1。

3.2 實(shí)驗(yàn)設(shè)計(jì)

本研究基于完全隨機(jī)缺失(MCAR)機(jī)制,實(shí)驗(yàn)所用的缺失率為20%、30%、40%。在缺失值插補(bǔ)過程中,將本研究所提出的CBC-IM-COS方法與其他5種插補(bǔ)方法進(jìn)行了比較,分別是Mean/Mode、MICE、SVM、MLP、CBC-IM-EUC。

首先,基于10倍交叉驗(yàn)證方法,將每個(gè)數(shù)據(jù)集分為90%的訓(xùn)練集和10%的測(cè)試集;然后,使用SVM分類器對(duì)插補(bǔ)后的數(shù)據(jù)集進(jìn)行評(píng)估;最后,為了避免由MCAR獲得的偏差結(jié)果,對(duì)每個(gè)缺失率執(zhí)行10次驗(yàn)證。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

為了評(píng)估提出的CBC-IM-COS方法,將從插補(bǔ)后數(shù)據(jù)集的準(zhǔn)確率、召回率、F1-score方面出發(fā),對(duì)插補(bǔ)結(jié)果進(jìn)行評(píng)價(jià)。準(zhǔn)確率、召回率、F1-score的計(jì)算公式見式(5)至式(7)。這些評(píng)價(jià)測(cè)量是根據(jù)混淆矩陣計(jì)算的見表2。

[Accuracy=TP+TNTP+FP+TN+FN] (5)

[Recall=TPTP+FN] (6)

[F1-score=TPTP+FP+FN2] (7)

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 數(shù)值型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在數(shù)值型數(shù)據(jù)集上不同的MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score見表3。由表3可知,平均來說,CBC-IM-COS方法在召回率上表現(xiàn)最好,在準(zhǔn)確率和F1-score上取得了次最優(yōu)的結(jié)果。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率和召回率分別增加了0.26%和0.13%。

不同的MVI方法在數(shù)值型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖2所示。由圖2可知,當(dāng)缺失率為20%時(shí),CBC-IM-COS方法在準(zhǔn)確率方面略低于Mice;當(dāng)缺失率為20%和40%時(shí),CBC-IM-COS方法在召回率方面優(yōu)于其他填補(bǔ)方法;當(dāng)缺失率為20%,CBC-IM-COS方法在F1-score表現(xiàn)最好。

3.4.2 字符型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在字符型數(shù)據(jù)集上不同MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score結(jié)果見表4。由表4可知,在F1-score上,眾數(shù)法的效果最好,但是,由于眾數(shù)法沒有考慮到數(shù)據(jù)之間的相關(guān)性,所以認(rèn)為CBC-IM-COS方法較好。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率、召回率、F1-score分別增加了0.25%、0.22%、0.16%。

不同MVI方法在字符型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖3所示。由圖3可知,對(duì)于不同的MVI方法,隨著缺失率的增加,準(zhǔn)確率、召回率、F1-score逐漸下降。當(dāng)缺失率為20%和30%時(shí),眾數(shù)法是最佳選擇;當(dāng)缺失率為40%時(shí),CBC-IM-COS方法表現(xiàn)最好。

3.4.3 混合型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在混合型數(shù)據(jù)集上不同MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score結(jié)果見表5。由表5可知,CBC-IM-COS方法與MLP取得了相同的Accuracy,在召回率和F1-score上,CBC-IM-COS方法表現(xiàn)最好;在Recall上CBC-IM-COS方法取得了次最優(yōu)的結(jié)果。并且,CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率、召回率、F1-score分別增加了0.27%、0.24%、0.27%。

不同MVI方法在混合型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖4所示。由圖4可知,對(duì)于不同的MVI方法,隨著缺失率的增加,準(zhǔn)確率、召回率、F1-score先下降再上升。當(dāng)缺失率為20%和40%時(shí),Mice優(yōu)于其他的填補(bǔ)方法;當(dāng)缺失率為30%時(shí),CBC-IM-COS方法表現(xiàn)最好。

4 結(jié)論

本研究針對(duì)高維數(shù)據(jù)的缺失值問題,提出了基于類的余弦距離聚類缺失值填補(bǔ)(CBC-IM-COS)方法,使用了3種不同類型的數(shù)據(jù)集,即數(shù)值型、字符型、混合型數(shù)據(jù)集,將CBC-IM-COS方法與5種常用方法(Mean/Mode、MICE、SVM、MLP及CBC-IM-EUC方法)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,對(duì)于數(shù)值型數(shù)據(jù)集,CBC-IM-COS方法在召回率上取得了較好的結(jié)果;對(duì)于分類型數(shù)據(jù)集,CBC-IM-COS方法在準(zhǔn)確率、召回率、F1-score上均優(yōu)于其他填補(bǔ)方法;對(duì)于混合型數(shù)據(jù)集,CBC-IM-COS方法在準(zhǔn)確率和F1-score上取得了較好的結(jié)果。并且,對(duì)于字符型和混合型數(shù)據(jù)集,CBC-IM-COS方法相較于CBC-IM-EUC均能在一定程度上提高準(zhǔn)確率、召回率、F1-score。除此之外,對(duì)于字符型和混合型數(shù)據(jù)集,CBC-IM-COS方法分別在缺失率為30%和40%時(shí)獲得最優(yōu)的結(jié)果。

本研究?jī)H基于MCAR機(jī)制對(duì)缺失數(shù)據(jù)進(jìn)行模擬,未考慮其他2種(MAR和MNAR)缺失機(jī)制,并且僅使用了SVM分類器衡量插補(bǔ)效果,在未來研究中可使用多種分類器進(jìn)行綜合比較。

參考文獻(xiàn):

[1]ZHANG Z H.Missing data imputation:focusing on single imputation[J]. Ann Transl Med, 2016,4(1):9.

[2]STONKO D P,BETZOLD R D,ABDOU H,et al.In-hospital outcomes in autogenous vein versus synthetic graft interposition for traumatic arterial injury:a propensity-matched cohort from proovit[J]. Journal of Vascular Surgery,2022,75(5):1787-1788.

[3]PURRUCKER J C,HAAS K,RIZOS T,et al.Early clinical and radiological course,management,and outcome of intracerebral hemorrhage related to new oral anticoagulants[J]. JAMA Neurology,2016,73(2):169-177.

[4]STRIKE K,EL E K,MADHAVJI N. Software cost estimation with incomplete data[J]. IEEE Transactions on Software Engineering,2001,27(10):890-908.

[5]RAYMOND M R,ROBERTS D M.A comparison of methods for treating incomplete data in selection research[J].Educational and Psychological Measurement,1987,47(1):13-26.

[6]AITTOKALLIO T.Dealing with missing values in large-scale studies:microarray data imputation and beyond[J].Briefings in Bioinformatics,2010,11(2):253-264.

[7]GARCIA-LAENCINA P J, SANCHO-GOMEZ J L,F(xiàn)igueiras-Vidal A R.Pattern classification with missing data:a review[J]. Neural Computing and Applications,2010,19(2):263-282.

[8]TSAI C F,LI M L,LIN W C. A class center based approach for missing value imputation[J]. Knowledge-Based Systems,2018,151:124-135.

[9]劉莎,楊有龍.基于灰色關(guān)聯(lián)分析的類中心缺失值填補(bǔ)方法[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,57(5):871-878.

[10]朱榮慧,許金芳,王睿,等.多重填補(bǔ)技術(shù)在醫(yī)學(xué)研究缺失值處理中的應(yīng)用及發(fā)展[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2022,39(2):293-295,298.

[11]唐健元,楊志敏,楊進(jìn)波,等.臨床研究中缺失值的類型和處理方法研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(3):338-341,343.

[12]SEFIDIAN A M,DANESHPOUR N. Missing value imputation using a novel grey based fuzzy c-means,mutual information based feature selection,and regression model[J]. Expert Systems with Applications,2019,115:68-94.

[13]李琳,楊紅梅,楊日東,等.基于臨床數(shù)據(jù)集的缺失值處理方法比較[J].中國(guó)數(shù)字醫(yī)學(xué),2018,13(4):8-10,80.

[14]白洪濤,欒雪,何麗莉,等.基于缺失森林的醫(yī)療大數(shù)據(jù)缺失值插補(bǔ)[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2022,40(4):616-620.

[15]VAZIFEHDAN M,MOATTAR M H,JALALI M.A hybridbayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction[J]. Journal of King Saud University-Computer and Information Sciences,2019,31(2):175-184.

[16]BATRA S,KHURANA R,KHAN M Z,et al.A pragmatic ensemble strategy for missing values imputation in health records[J]. Entropy,2022,24(4):533.

[17]YELIPE U R,PORIKA S,GOLLA M.An efficient approach for imputation and classification of medical data values using class-based clustering of medical records[J]. Computers and Electrical Engineering,2018,66:487-504.

[18]邵俊健.高維數(shù)據(jù)的聚類算法及其距離度量的研究[D].無錫:江南大學(xué),2019.

[19]LITTLE R J A,RUBIN D B. Statistical Analysis with Missing Data[M]. John Wiley and Sons,2019.

[20]GOMEZ-CARRACEDO M P,ANDRADE J M,LOPEZ-MAHIA P,et al.A practical comparison of single and multiple imputation methods to handle complex missing data in air quality datasets[J]. Chemometrics and Intelligent Laboratory Systems,2014,134:23-33.

[21]RUBIN D B. Multiple imputation after 18+ years[J]. Journal of the American statistical Association,1996,91(434):473-489.

[22]UUSITALO L,LEHIKOINEN A,HELLE I,et al.An overview of methods to evaluate uncertainty of deterministic models in decision support[J]. Environmental Modelling and Software,2015,63:24-31.

收稿日期:2023-10-18

作者簡(jiǎn)介:夏婷婷(1997—),女,碩士生,研究方向:缺失值插補(bǔ)。

通信作者:劉海忠(1969—),男,碩士,研究方向:數(shù)據(jù)科學(xué)與時(shí)空預(yù)測(cè)決策。

猜你喜歡
聚類
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
條紋顏色分離與聚類
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
局部子空間聚類
基于加權(quán)模糊聚類的不平衡數(shù)據(jù)分類方法
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
基于熵權(quán)和有序聚類的房地產(chǎn)周期分析
河南科技(2014年23期)2014-02-27 14:19:14
阳信县| 绥宁县| 清涧县| 息烽县| 高青县| 交城县| 上思县| 江阴市| 徐闻县| 若羌县| 高安市| 湛江市| 陆良县| 托克托县| 纳雍县| 读书| 峨山| 阿瓦提县| 西乌珠穆沁旗| 随州市| 屯昌县| 华池县| 秦安县| 高雄市| 裕民县| 麟游县| 梁平县| 澄迈县| 壶关县| 礼泉县| 张家港市| 区。| 康保县| 商丘市| 尼玛县| 武川县| 文登市| 合川市| 东平县| 闽清县| 西丰县|