基于類的余弦距離聚類缺失值填補(bǔ)方法研究

2024-06-21 22:00:30夏婷婷林康張瀟予劉海忠

河南科技 2024年8期

關(guān)鍵詞：聚類

夏婷婷林康張瀟予劉海忠

摘要：【目的】為了解決歐氏距離計(jì)算相似性帶來的高維度問題，提出了基于類的余弦距離聚類缺失值填補(bǔ)方法?！痉椒ā渴紫葘⒉煌暾麛?shù)據(jù)集分為兩個(gè)不同的組（G1和GIM）；其次通過聚類中心對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ)；再次利用余弦距離計(jì)算相關(guān)性；最后選擇與G1組中距離最小的數(shù)據(jù)來填補(bǔ)缺失值?！窘Y(jié)果】實(shí)驗(yàn)結(jié)果表明，該方法在類別和混合數(shù)據(jù)集上均優(yōu)于其他插補(bǔ)方法。【結(jié)論】該方法顯著提高了準(zhǔn)確率、召回率、F1-score及插補(bǔ)效果。

關(guān)鍵詞：不完整數(shù)據(jù)；缺失值插補(bǔ)；聚類；余弦距離

中圖分類號(hào)：TP181；TP311.13? 文獻(xiàn)標(biāo)志碼：A??? 文章編號(hào)：1003-5168（2024）08-0028-08

DOI：10.19968/j.cnki.hnkj.1003-5168.2024.08.006

A Study of Missing Value Imputation Methods for Class-based Cosine Distance Clustering

XIA Tingting1 LIN Kang2 ZHANG Xiaoyu3 LIU Haizhong1

（1.Lanzhou Jiaotong University， Lanzhou 730070， China; 2.Beijing Normal University， Zhuhai 519087， China;3.School of Social and Behavioral Sciences， City University of Hong Kong， Lanzhou 730070， China）

Abstract： [Purposes] In order to solve the high dimension problem caused by the similarity of Euclidean distance calculation， a class-based cosine distance clustering missing value imputation approach is proposed. [Methods] Firstly， the incomplete data set is divided into two different groups （G1 and GIM）; secondly， the missing data in the GIM group is pre-filled by the clustering center; the cosine distance is used again to calculate the correlation ; finally， the data with the smallest distance from the G1 group is selected to fill the missing values. [Findings] The experimental results show that the proposed method outperforms other imputation methods for both categorical and mixed datasets. [Conclusions] The CBC-IM-COS method significantly improves accuracy， recall and F1-score and imputationperformance.

Keywords： incomplete data; missing value imputation; clustering; cosine distance

0 引言

缺失值的挑戰(zhàn)是數(shù)據(jù)科學(xué)中最普遍的問題之一［1］。在醫(yī)療數(shù)據(jù)中尤其如此，由于某些指標(biāo)難以衡量、數(shù)據(jù)采集不及時(shí)、數(shù)據(jù)存儲(chǔ)不當(dāng)、醫(yī)療信息難以跨平臺(tái)共享等因素，導(dǎo)致醫(yī)療數(shù)據(jù)中往往存在許多缺失值［2-3］，直接影響疾病診斷、治療選擇、出院評(píng)估、預(yù)后評(píng)估等臨床決策。如果不及時(shí)處理大量缺失的數(shù)據(jù)，往往會(huì)導(dǎo)致嚴(yán)重的偏差，從而得出錯(cuò)誤的結(jié)論。因此，有必要對(duì)缺失數(shù)據(jù)進(jìn)行有效處理，以提高醫(yī)療數(shù)據(jù)的質(zhì)量和臨床決策的準(zhǔn)確性。處理缺失數(shù)據(jù)方法大致可分為2類：刪除法和插補(bǔ)法。根據(jù)Strike等［4］和Raymond等［5］的研究，當(dāng)數(shù)據(jù)集包含非常少量的缺失數(shù)據(jù)時(shí)，如缺失率小于10%或15%，采用刪除法刪除缺失數(shù)據(jù)，不會(huì)對(duì)最終挖掘或分析的結(jié)果產(chǎn)生顯著影響。但是，當(dāng)缺失率較大時(shí)，該方法則會(huì)導(dǎo)致有價(jià)值的信息丟失。與刪除策略不同，缺失值插入（MVI）是處理不完整數(shù)據(jù)集問題最常用的解決方法，插補(bǔ)法是從可利用的數(shù)據(jù)中估計(jì)出的數(shù)值去替換缺失的值。

目前，缺失值插補(bǔ)法可分為兩種類型［6-7］，即基于統(tǒng)計(jì)的方法和基于機(jī)器學(xué)習(xí)的方法。基于統(tǒng)計(jì)的方法主要有均值、中值、眾數(shù)以及期望最大化和多重填補(bǔ)技術(shù)。Tsai等［8］的研究提出了基于類中心的缺失值插補(bǔ)（CCMVI）方法，該方法通過類中心、標(biāo)準(zhǔn)差、歐式距離來填補(bǔ)缺失值，但是該算法不適用于高缺失率的情況；因此劉莎等［9］改進(jìn)了類中心、標(biāo)準(zhǔn)差、閾值的計(jì)算，并使用灰色關(guān)聯(lián)度計(jì)算實(shí)例間的相關(guān)性，提出了灰色類中心的缺失插補(bǔ)方法，實(shí)驗(yàn)結(jié)果表明，該方法提供了分類精度和插補(bǔ)效果；朱榮慧等［10］和唐健元等［11］分別介紹了多重填補(bǔ)技術(shù)醫(yī)學(xué)研究中和臨床研究中的基本思想和步驟；Sefidian等［12］結(jié)合灰色關(guān)聯(lián)分析、模糊C均值、互信息、回歸模型提出了一種新缺失值填補(bǔ)方法，實(shí)驗(yàn)結(jié)果表明，提出的方法在RMSE、MAE、決定系數(shù)方面優(yōu)于其他5種填補(bǔ)方法?；跈C(jī)器學(xué)習(xí)的方法主要有k近鄰（KNN）、支持向量機(jī)（SVM）、聚類、隨機(jī)森林技術(shù)。李琳等［13］和白洪濤等［14］證明了隨機(jī)森林插補(bǔ)具有較好的插補(bǔ)效果；Vazifehdan等［15］使用貝葉斯網(wǎng)絡(luò)和張量因式分解相結(jié)合的方法預(yù)測(cè)乳腺癌復(fù)發(fā)的可能性，實(shí)驗(yàn)結(jié)果表明，該方法能夠有效地提高數(shù)據(jù)質(zhì)量和預(yù)測(cè)質(zhì)量；Batra等［16］提出集成填補(bǔ)模型，并與均值填補(bǔ)、K近鄰填補(bǔ)、迭代填補(bǔ)等方法進(jìn)行比較，對(duì)比結(jié)果表明所提出的方法在準(zhǔn)確性方面優(yōu)于其他幾種缺失值填補(bǔ)方法。

由于現(xiàn)實(shí)世界中的許多函數(shù)問題都是高維的，為了克服現(xiàn)有的填補(bǔ)技術(shù)和應(yīng)用的距離函數(shù)具有高維的問題，Yelipe等［17］提出了基于類的歐式距離聚類缺失值填補(bǔ)（CBC-IM-EUC）方法，較好地解決了這一問題。但該算法的主要缺點(diǎn)是：①隨著維度的增加，歐幾里得距離的作用就越??；②在計(jì)算相似度時(shí)，忽略了GIM組中缺失數(shù)據(jù)的不完整屬性值對(duì)應(yīng)的平均向量元素值。邵俊健［18］在不同的大規(guī)模高維數(shù)據(jù)集中，比較了4種不同的距離度量函數(shù)，結(jié)果表明，余弦距離與歐式距離相比可以得到較好的結(jié)果。針對(duì)上述問題，本研究提出了基于類的余弦距離聚類缺失值填補(bǔ)（CBC-IM-COS）方法，通過利用余弦距離代替歐式距離來計(jì)算實(shí)例間的相關(guān)性，并且在計(jì)算相關(guān)性時(shí)對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ)。

1 相關(guān)工作

1.1 缺失機(jī)制

Little和Rubin［19］將缺失機(jī)制分為3種，分別為完全隨機(jī)缺失（MCAR）、隨機(jī)缺失（MAR）、非隨機(jī)缺失（MNAR）。

假設(shè)Y為整個(gè)數(shù)據(jù)集的矩陣，該矩陣分解為y0和ym，y0表示數(shù)據(jù)集Y中沒有缺失的數(shù)據(jù)，ym表示數(shù)據(jù)集Y中的缺失數(shù)據(jù)。R是指示變量矩陣，其中0表示數(shù)據(jù)缺失，1表示數(shù)據(jù)未缺失，定義見式（1）。

[R=1????? yij∈y00????? yij∈ym] （1）

①完全隨機(jī)缺失（MCAR）：表示缺失數(shù)據(jù)不依賴于其本身和其他未缺失的數(shù)據(jù)。MCAR的概率定義見式（2）。

[PRym， y0=PR] （2）

②隨機(jī)缺失（MAR）：表示缺失數(shù)據(jù)獨(dú)立于任何缺失值但與其他未缺失的數(shù)據(jù)有關(guān)。在這種機(jī)制下，缺失值可以通過觀察到的預(yù)測(cè)變量進(jìn)行處理［20］。MAR的概率定義見式（3）。

[PRym， y0=PRy0] （3）

③非隨機(jī)缺失（MNAR）：表示缺失數(shù)據(jù)依賴于其本身和其他未缺失的數(shù)據(jù)。MNAR概率定義見式（4）。

[PRym， y0=PRy0， ym] （4）

1.2 缺失值方法

通過介紹和描述用于估算原始不完整數(shù)據(jù)集的方法，介紹了4種應(yīng)用的插補(bǔ)技術(shù)。

①統(tǒng)計(jì)方法包括均值/眾數(shù)法和多重插補(bǔ)（Multiple imputation）

②基于機(jī)器學(xué)習(xí)的方法包括支持向量機(jī)（SVM）和多層感知機(jī)（MLP）。

1.2.1 統(tǒng)計(jì)方法。統(tǒng)計(jì)填補(bǔ)方法包括均值/眾數(shù)法和多重插補(bǔ)（MI）。

均值/眾數(shù)法（Mean/Mode method），均值法和眾數(shù)法分別是數(shù)值屬性值和分類屬性值最簡(jiǎn)便的插補(bǔ)方法。當(dāng)數(shù)據(jù)發(fā)生缺失時(shí)，均值/眾數(shù)法是使用未缺失數(shù)據(jù)的平均值/眾數(shù)來代替缺失的數(shù)據(jù)。此方法簡(jiǎn)單易行，但是忽略了屬性之間的依賴關(guān)系。

多重插補(bǔ)（Multiple imputation，MI），是由Rubin于20世紀(jì)70年代末首次提出，其核心思想認(rèn)為缺失數(shù)據(jù)都是隨機(jī)的［21］。將MI描述為3個(gè)步驟。首先，使用適當(dāng)?shù)哪Ｐ蛠韯?chuàng)建缺失觀測(cè)的合理值（通常為5-10個(gè)），該模型反映了由缺失數(shù)據(jù)造成的不確定性。每一組合理的值都可以用來“填充”缺失的值，并創(chuàng)建一個(gè)“完整的”數(shù)據(jù)集；其次，對(duì)每個(gè)數(shù)據(jù)集進(jìn)行分析；最后，將結(jié)果進(jìn)行綜合，進(jìn)而產(chǎn)生最終的預(yù)測(cè)結(jié)果。該方法適用于填補(bǔ)任何類型的數(shù)據(jù)。MI反映了缺失數(shù)據(jù)的不確定性，并解決了單一插補(bǔ)［22］的局限性。于是在多重插值方法中，我們選擇了鏈?zhǔn)椒匠潭嘣獨(dú)w算（multiple imputation by chained equations）（MICE）。

1.2.2 機(jī)器學(xué)習(xí)方法。基于機(jī)器學(xué)習(xí)的估算方法是一個(gè)復(fù)雜的過程，通常包括創(chuàng)建一個(gè)預(yù)測(cè)模型來估計(jì)將替代缺失的值。基于機(jī)器學(xué)習(xí)方法包括支持向量機(jī)（SVM）和多層感知機(jī)（MLP）。

支持向量機(jī)（SVM），是一種有監(jiān)督學(xué)習(xí)模型，支持向量機(jī)插補(bǔ)缺失數(shù)據(jù)的原理是先利用不完整數(shù)據(jù)集中的未缺失數(shù)據(jù)來訓(xùn)練支持向量機(jī)模型，再利用訓(xùn)練好的模型去預(yù)測(cè)缺失數(shù)據(jù)。SVM與SVR分別用于離散/類別與連續(xù)/數(shù)值缺失數(shù)據(jù)的填補(bǔ)。該方法的優(yōu)點(diǎn)是無論自變量的維度如何，都能表現(xiàn)出優(yōu)異的性能。但是，該方法的準(zhǔn)確性會(huì)隨著樣本數(shù)量的增加而降低。

多層感知機(jī)（MLP），是由輸入層、隱藏層、輸出層組成的前饋神經(jīng)網(wǎng)絡(luò)。首先，自變量的值通過輸入層進(jìn)入MLP，并利用隱含層的輸入值生成權(quán)值的和；其次，通過多個(gè)隱藏層重復(fù)生成加權(quán)和的過程后，利用輸出層生成因變量的值并輸出；再次，使用反向傳播學(xué)習(xí)算法對(duì)構(gòu)成MLP的神經(jīng)元進(jìn)行訓(xùn)練，并在此過程中更新權(quán)重；最后，將更新的權(quán)重存儲(chǔ)在MLP的神經(jīng)元中，并使用存儲(chǔ)的權(quán)重定義自變量和因變量之間的非線性關(guān)系。

2 總體設(shè)計(jì)

2.1 整體工作流程

本研究提出的CBC-IM-COS方法的整體工作流程包括4個(gè)步驟，如圖1所示。

步驟1：數(shù)據(jù)劃分。數(shù)據(jù)集被劃分為2組。G1組（不包含缺失值）和GIM組（包含缺失值）。

步驟2：插補(bǔ)過程。利用CBC-IM-COS方法，進(jìn)行缺失值插補(bǔ)。

步驟3：合并數(shù)據(jù)集。把G1組的數(shù)據(jù)和填補(bǔ)后的GIM組的數(shù)據(jù)合并在一起，形成一個(gè)完整的數(shù)據(jù)集。

步驟4：評(píng)價(jià)過程。使用支持向量機(jī)分類器，衡量插補(bǔ)的性能。

2.2 CBC-IM-COS方法步驟

首先，將數(shù)據(jù)分為不包含缺失值（G1）組和包含缺失值（GIM）組，其目的是先考慮G1組的數(shù)據(jù)；其次，采用Kmeans聚類算法，獲得與決策標(biāo)簽數(shù)量相等的聚類，并使用所獲得的聚類信息去實(shí)現(xiàn)降維；再次，通過分析在G1組得到的集群，從而得到每個(gè)集群的聚類中心和偏差；然后，利用從G1組得到的聚類中心，對(duì)GIM組中的缺失數(shù)據(jù)進(jìn)行預(yù)填補(bǔ)；最后，使用余弦距離計(jì)算缺失的屬性值數(shù)據(jù)和G1組中每個(gè)數(shù)據(jù)之間的距離（或相似度），并選擇與G1組中距離最小（或相似度最大）的數(shù)據(jù)來進(jìn)行填補(bǔ)。

如果是數(shù)字屬性，則填寫屬性值的平均值；如果是名義屬性，則選擇并替換類似記錄的相應(yīng)屬性值。填補(bǔ)完成后，可以得到最終的完整數(shù)據(jù)集。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

從UCI機(jī)器學(xué)習(xí)庫(kù)中選擇了3種不同類型的數(shù)據(jù)集，分別為數(shù)值型、字符型、混合型數(shù)據(jù)集。數(shù)據(jù)樣本和屬性的數(shù)量分別為132到5 000和4到36。數(shù)據(jù)集的基本信息見表1。

3.2 實(shí)驗(yàn)設(shè)計(jì)

本研究基于完全隨機(jī)缺失（MCAR）機(jī)制，實(shí)驗(yàn)所用的缺失率為20%、30%、40%。在缺失值插補(bǔ)過程中，將本研究所提出的CBC-IM-COS方法與其他5種插補(bǔ)方法進(jìn)行了比較，分別是Mean/Mode、MICE、SVM、MLP、CBC-IM-EUC。

首先，基于10倍交叉驗(yàn)證方法，將每個(gè)數(shù)據(jù)集分為90%的訓(xùn)練集和10%的測(cè)試集；然后，使用SVM分類器對(duì)插補(bǔ)后的數(shù)據(jù)集進(jìn)行評(píng)估；最后，為了避免由MCAR獲得的偏差結(jié)果，對(duì)每個(gè)缺失率執(zhí)行10次驗(yàn)證。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

為了評(píng)估提出的CBC-IM-COS方法，將從插補(bǔ)后數(shù)據(jù)集的準(zhǔn)確率、召回率、F1-score方面出發(fā)，對(duì)插補(bǔ)結(jié)果進(jìn)行評(píng)價(jià)。準(zhǔn)確率、召回率、F1-score的計(jì)算公式見式（5）至式（7）。這些評(píng)價(jià)測(cè)量是根據(jù)混淆矩陣計(jì)算的見表2。

[Accuracy=TP+TNTP+FP+TN+FN] （5）

[Recall=TPTP+FN] （6）

[F1-score=TPTP+FP+FN2] （7）

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 數(shù)值型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在數(shù)值型數(shù)據(jù)集上不同的MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score見表3。由表3可知，平均來說，CBC-IM-COS方法在召回率上表現(xiàn)最好，在準(zhǔn)確率和F1-score上取得了次最優(yōu)的結(jié)果。并且，CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率和召回率分別增加了0.26%和0.13%。

不同的MVI方法在數(shù)值型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖2所示。由圖2可知，當(dāng)缺失率為20%時(shí)，CBC-IM-COS方法在準(zhǔn)確率方面略低于Mice；當(dāng)缺失率為20%和40%時(shí)，CBC-IM-COS方法在召回率方面優(yōu)于其他填補(bǔ)方法；當(dāng)缺失率為20%，CBC-IM-COS方法在F1-score表現(xiàn)最好。

3.4.2 字符型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在字符型數(shù)據(jù)集上不同MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score結(jié)果見表4。由表4可知，在F1-score上，眾數(shù)法的效果最好，但是，由于眾數(shù)法沒有考慮到數(shù)據(jù)之間的相關(guān)性，所以認(rèn)為CBC-IM-COS方法較好。并且，CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率、召回率、F1-score分別增加了0.25%、0.22%、0.16%。

不同MVI方法在字符型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖3所示。由圖3可知，對(duì)于不同的MVI方法，隨著缺失率的增加，準(zhǔn)確率、召回率、F1-score逐漸下降。當(dāng)缺失率為20%和30%時(shí)，眾數(shù)法是最佳選擇；當(dāng)缺失率為40%時(shí)，CBC-IM-COS方法表現(xiàn)最好。

3.4.3 混合型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析。在混合型數(shù)據(jù)集上不同MVI方法對(duì)不同缺失率下SVM的平均準(zhǔn)確率、召回率、F1-score結(jié)果見表5。由表5可知，CBC-IM-COS方法與MLP取得了相同的Accuracy，在召回率和F1-score上，CBC-IM-COS方法表現(xiàn)最好；在Recall上CBC-IM-COS方法取得了次最優(yōu)的結(jié)果。并且，CBC-IM-COS方法相較于CBC-IM-EUC方法的準(zhǔn)確率、召回率、F1-score分別增加了0.27%、0.24%、0.27%。

不同MVI方法在混合型數(shù)據(jù)集上的不同缺失率下的準(zhǔn)確率、召回率、F1-score如圖4所示。由圖4可知，對(duì)于不同的MVI方法，隨著缺失率的增加，準(zhǔn)確率、召回率、F1-score先下降再上升。當(dāng)缺失率為20%和40%時(shí)，Mice優(yōu)于其他的填補(bǔ)方法；當(dāng)缺失率為30%時(shí)，CBC-IM-COS方法表現(xiàn)最好。

4 結(jié)論

本研究針對(duì)高維數(shù)據(jù)的缺失值問題，提出了基于類的余弦距離聚類缺失值填補(bǔ)（CBC-IM-COS）方法，使用了3種不同類型的數(shù)據(jù)集，即數(shù)值型、字符型、混合型數(shù)據(jù)集，將CBC-IM-COS方法與5種常用方法（Mean/Mode、MICE、SVM、MLP及CBC-IM-EUC方法）進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明，對(duì)于數(shù)值型數(shù)據(jù)集，CBC-IM-COS方法在召回率上取得了較好的結(jié)果；對(duì)于分類型數(shù)據(jù)集，CBC-IM-COS方法在準(zhǔn)確率、召回率、F1-score上均優(yōu)于其他填補(bǔ)方法；對(duì)于混合型數(shù)據(jù)集，CBC-IM-COS方法在準(zhǔn)確率和F1-score上取得了較好的結(jié)果。并且，對(duì)于字符型和混合型數(shù)據(jù)集，CBC-IM-COS方法相較于CBC-IM-EUC均能在一定程度上提高準(zhǔn)確率、召回率、F1-score。除此之外，對(duì)于字符型和混合型數(shù)據(jù)集，CBC-IM-COS方法分別在缺失率為30%和40%時(shí)獲得最優(yōu)的結(jié)果。

本研究?jī)H基于MCAR機(jī)制對(duì)缺失數(shù)據(jù)進(jìn)行模擬，未考慮其他2種（MAR和MNAR）缺失機(jī)制，并且僅使用了SVM分類器衡量插補(bǔ)效果，在未來研究中可使用多種分類器進(jìn)行綜合比較。

參考文獻(xiàn)：

［1］ZHANG Z H.Missing data imputation：focusing on single imputation［J］. Ann Transl Med， 2016，4（1）：9.

［2］STONKO D P，BETZOLD R D，ABDOU H，et al.In-hospital outcomes in autogenous vein versus synthetic graft interposition for traumatic arterial injury：a propensity-matched cohort from proovit［J］. Journal of Vascular Surgery，2022，75（5）：1787-1788.

［3］PURRUCKER J C，HAAS K，RIZOS T，et al.Early clinical and radiological course，management，and outcome of intracerebral hemorrhage related to new oral anticoagulants［J］. JAMA Neurology，2016，73（2）：169-177.

［4］STRIKE K，EL E K，MADHAVJI N. Software cost estimation with incomplete data［J］. IEEE Transactions on Software Engineering，2001，27（10）：890-908.

［5］RAYMOND M R，ROBERTS D M.A comparison of methods for treating incomplete data in selection research［J］.Educational and Psychological Measurement，1987，47（1）：13-26.

［6］AITTOKALLIO T.Dealing with missing values in large-scale studies：microarray data imputation and beyond［J］.Briefings in Bioinformatics，2010，11（2）：253-264.

［7］GARCIA-LAENCINA P J， SANCHO-GOMEZ J L，F(xiàn)igueiras-Vidal A R.Pattern classification with missing data：a review［J］. Neural Computing and Applications，2010，19（2）：263-282.

［8］TSAI C F，LI M L，LIN W C. A class center based approach for missing value imputation［J］. Knowledge-Based Systems，2018，151：124-135.

［9］劉莎，楊有龍.基于灰色關(guān)聯(lián)分析的類中心缺失值填補(bǔ)方法［J］.四川大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，57（5）：871-878.

［10］朱榮慧，許金芳，王睿，等.多重填補(bǔ)技術(shù)在醫(yī)學(xué)研究缺失值處理中的應(yīng)用及發(fā)展［J］.中國(guó)衛(wèi)生統(tǒng)計(jì)，2022，39（2）：293-295，298.

［11］唐健元，楊志敏，楊進(jìn)波，等.臨床研究中缺失值的類型和處理方法研究［J］.中國(guó)衛(wèi)生統(tǒng)計(jì)，2011，28（3）：338-341，343.

［12］SEFIDIAN A M，DANESHPOUR N. Missing value imputation using a novel grey based fuzzy c-means，mutual information based feature selection，and regression model［J］. Expert Systems with Applications，2019，115：68-94.

［13］李琳，楊紅梅，楊日東，等.基于臨床數(shù)據(jù)集的缺失值處理方法比較［J］.中國(guó)數(shù)字醫(yī)學(xué)，2018，13（4）：8-10，80.

［14］白洪濤，欒雪，何麗莉，等.基于缺失森林的醫(yī)療大數(shù)據(jù)缺失值插補(bǔ)［J］.吉林大學(xué)學(xué)報(bào)（信息科學(xué)版），2022，40（4）：616-620.

［15］VAZIFEHDAN M，MOATTAR M H，JALALI M.A hybridbayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction［J］. Journal of King Saud University-Computer and Information Sciences，2019，31（2）：175-184.

［16］BATRA S，KHURANA R，KHAN M Z，et al.A pragmatic ensemble strategy for missing values imputation in health records［J］. Entropy，2022，24（4）：533.

［17］YELIPE U R，PORIKA S，GOLLA M.An efficient approach for imputation and classification of medical data values using class-based clustering of medical records［J］. Computers and Electrical Engineering，2018，66：487-504.

［18］邵俊健.高維數(shù)據(jù)的聚類算法及其距離度量的研究［D］.無錫：江南大學(xué)，2019.

［19］LITTLE R J A，RUBIN D B. Statistical Analysis with Missing Data［M］. John Wiley and Sons，2019.

［20］GOMEZ-CARRACEDO M P，ANDRADE J M，LOPEZ-MAHIA P，et al.A practical comparison of single and multiple imputation methods to handle complex missing data in air quality datasets［J］. Chemometrics and Intelligent Laboratory Systems，2014，134：23-33.

［21］RUBIN D B. Multiple imputation after 18+ years［J］. Journal of the American statistical Association，1996，91（434）：473-489.

［22］UUSITALO L，LEHIKOINEN A，HELLE I，et al.An overview of methods to evaluate uncertainty of deterministic models in decision support［J］. Environmental Modelling and Software，2015，63：24-31.

收稿日期：2023-10-18

作者簡(jiǎn)介：夏婷婷（1997—），女，碩士生，研究方向：缺失值插補(bǔ)。

通信作者：劉海忠（1969—），男，碩士，研究方向：數(shù)據(jù)科學(xué)與時(shí)空預(yù)測(cè)決策。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于類的余弦距離聚類缺失值填補(bǔ)方法研究