面向不均衡數(shù)據(jù)集的過抽樣算法

2020-06-21 00:33:22崔鑫，徐華，宿晨

計(jì)算機(jī)應(yīng)用 2020年6期

崔鑫，徐華，宿晨

（江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122）

（?通信作者電子郵箱1525754926@qq.com）

0 引言

不均衡數(shù)據(jù)，即各類別樣本數(shù)量分布嚴(yán)重不平衡的數(shù)據(jù)。對于均衡數(shù)據(jù)，傳統(tǒng)分類算法可以取得良好的分類效果，但在實(shí)際問題中，如人臉年齡估計(jì)、異常檢測、軟件缺陷預(yù)測、圖像標(biāo)注等，需要分類的數(shù)據(jù)通常是不均衡的。而傳統(tǒng)分類方法用以解決不均衡數(shù)據(jù)分類問題，往往在少數(shù)類上的分類效果并不能讓人滿意。這是由于不均衡數(shù)據(jù)中少數(shù)類數(shù)量過少，導(dǎo)致數(shù)據(jù)集并沒有包含足夠的分類信息。此外傳統(tǒng)分類方法追求整體的正確率最大化導(dǎo)致分類結(jié)果更傾向于多數(shù)類，而可能誤分類人們更關(guān)注的少數(shù)類。所以針對不均衡分類問題，學(xué)術(shù)界有必要去尋找一種行之有效的算法。

對于不均衡數(shù)據(jù)分類問題有一系列方法陸續(xù)被提出，這些方法可以分為算法層面和數(shù)據(jù)層面。算法層面包括代價(jià)敏感［1］、特征選擇［2］和集成學(xué)習(xí)方法。在不均衡分類問題中人們通常更關(guān)注少數(shù)類，因此少數(shù)類才是不均衡分類的關(guān)鍵。針對不均衡數(shù)據(jù)中樣本重要性不同的特點(diǎn)，代價(jià)敏感學(xué)習(xí)給予各類別不同的錯(cuò)分代價(jià)。例如在二分類問題中給予少數(shù)類更高的錯(cuò)分代價(jià)，迫使分類器對少數(shù)類取得較好的識別效果。特征選擇方法在用于不均衡分類問題同樣取得較好的效果。如果數(shù)據(jù)集中不同類別樣本分布不均衡，則特征分布也可能會不均衡。因此選取最具有區(qū)分度的特征不僅可以降低復(fù)雜度，還有助于提高少數(shù)類的識別精度。集成學(xué)習(xí)即組合多個(gè)弱分類器得到一個(gè)強(qiáng)分器，由于其獨(dú)立性，集成學(xué)習(xí)常與抽樣方法、特征選擇方法相結(jié)合，例如：Guo等［3］提出了集成學(xué)習(xí)方法BAK（BPSO-Adaboost-KNN），該算法將基于簡化粒子群優(yōu)化（Simple Particle Swarm Optimization，BPSO）的特征選擇方法與Adaboost相結(jié)合；Liu 等［4］提出了集成算法GU-MOACOFS（Genetic Under-sampling and MultiObjectiveAnt Colony Optimization based Feature Selection），該算法更是同時(shí)使用了欠抽樣、特征選擇和集成方法。

數(shù)據(jù)層面的方法是采用重抽樣方法均衡數(shù)據(jù)集中樣本分布，重抽樣分為過抽樣和欠抽樣。例如較為簡單的過抽樣方法是隨機(jī)過抽樣（Random OverSampling，ROS），該算法隨機(jī)復(fù)制少數(shù)類樣本以增加少數(shù)類樣本的數(shù)量。由于該算法實(shí)現(xiàn)簡單且性能良好，隨機(jī)過抽樣算法經(jīng)常在研究中被用作基準(zhǔn)算法進(jìn)行比較。Ha 等［5］提出了基于遺傳算法的欠抽樣（Genetic Algorithm based Under-Sampling，GAUS），通過對損失函數(shù)尋找最優(yōu)解得到最佳數(shù)據(jù)子集。與遺傳算法一樣，聚類算法也被用于提高抽樣算法的性能，例如：Rayhan 等［6］提出的欠抽樣算法（Clustering based Under-Sampling approach with BOOSTing algorithm，CUSBOOST），該算法在聚類所得簇中隨機(jī)選擇部分樣本；Lin 等［7］提出了兩種基于聚類的欠抽樣方法，則直接使用簇心或最接近簇心的樣本來代替原數(shù)據(jù)。過抽樣和欠抽樣雖然可以平衡數(shù)據(jù)分布，但欠抽樣可能會刪除對分類有價(jià)值的數(shù)據(jù)，過抽樣則會增加過擬合的風(fēng)險(xiǎn)而且可能引入不合理的樣本數(shù)據(jù)。針對過抽樣會引起過擬合的缺點(diǎn)，Chawla 等［8］提出了合成少數(shù)類過抽樣技術(shù)（Synthetic Minority Over-sampling TEchnique，SMOTE）算法，其思想是用少數(shù)類與其近鄰的少數(shù)類合成新樣本；但噪聲樣本可能參與合成新樣本，模糊多數(shù)類和少數(shù)類間的邊界。

針對上述SMOTE 的不足，許多研究人員提出了SMOTE的改進(jìn)算法［9-11］。Bastista 等［12］提出了將SMOTE 算法和數(shù)據(jù)清洗方法相結(jié)合的方法SMOTE+ENN（Edited Nearest Neighbor）和SMOTE+Tomek links，在一定程度上保證了多數(shù)類和少數(shù)類的可分性。Han 等［13］提出Borderline-SMOTE 算法，該算法只對邊界附近的少數(shù)類進(jìn)行抽樣。袁銘［14］提出了R-SMOTE 算法，在2個(gè)少數(shù)類樣本上使用N維球體，使生成的樣本在分布球體之內(nèi)。R-SMOTE 算法消除了生成少數(shù)類實(shí)例分布的限制，提高了少數(shù)類的分類精度。趙清華等［15］提出了最遠(yuǎn)點(diǎn)算法（Max Distance SMOTE，MDSMOTE），摒棄了傳統(tǒng)SMOTE 算法將正類樣本點(diǎn)分組的思想，只關(guān)注少數(shù)類樣本質(zhì)心點(diǎn)和距離樣本質(zhì)心點(diǎn)最遠(yuǎn)距離的樣本點(diǎn)。

以上算法的性能與SMOTE 算法相比得到了一定程度的提高，但總體分類性能還是稍顯不足。為了進(jìn)一步提高SMOTE 算法的性能，避免噪聲樣本參與合成樣本，提高新樣本的合理性，本文結(jié)合聚類算法提出了SMOTE 的改進(jìn)算法

CSMOTE （Clustered Synthetic Minority Over-sampling TEchnique）。CSMOTE算法拋棄SMOTE在最近鄰間線性插值合成樣本的思想，使用少數(shù)類的簇心與其對應(yīng)簇中樣本進(jìn)行線性插值合成樣本，并根據(jù)簇心和樣本間的歐氏距離只選用了部分樣本。由于對參與合成的樣本進(jìn)行了篩選，所以可以一定程度避免使用噪聲數(shù)據(jù)合成新樣本，同時(shí)保證多數(shù)類與少數(shù)類間邊界的明確性。最后在多個(gè)實(shí)際數(shù)據(jù)上，與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠采樣方法相比較，CSMOTE 算法具有更好的分類效果，說明該算法可以有效解決不均衡數(shù)據(jù)分類問題。

1 CSMOTE算法

1.1 CSMOTE算法設(shè)計(jì)思想

在不均衡數(shù)據(jù)集中，SMOTE 算法雖然可以平衡類分布，卻可能會模糊多數(shù)類和少數(shù)類的邊界。如圖1（a）所示。假設(shè)SMOTE 對圖1（a）中的少數(shù)類A 進(jìn)行過抽樣，在樣本A 的最近鄰中隨機(jī)選擇一個(gè)樣本，假設(shè)選擇了樣本B，樣本A 和B 的線性插值可以合成樣本C。樣本C 因?yàn)榍终级鄶?shù)類的樣本空間，所以合成的樣本C 是一個(gè)不合理的樣本數(shù)據(jù)。在這種情況下，合成的樣本C并不會有助于分類器的訓(xùn)練，反而由于樣本C 的存在會使得數(shù)據(jù)變得更加難以區(qū)分，同時(shí)會影響分類器的性能，所以保證新樣本的合理性是十分有必要的。

針對上述問題，本文提出了CSMOTE算法，該算法在少數(shù)類數(shù)據(jù)集的各個(gè)簇的范圍內(nèi)合成新樣本。CSMOTE 算法的基本思想是對于簇中的一個(gè)少數(shù)類樣本minority，計(jì)算minority與其對應(yīng)簇的中心點(diǎn)center的歐氏距離dis，如果不存在某個(gè)多數(shù)類樣本majority與center的距離d小于dis，則使用minority和center進(jìn)行線性插值生成新的少數(shù)類樣本，否則放棄使用樣本minority。如圖1（b）所示，在少數(shù)類集合上使用k-means 算法得到了簇A 和B。圖中圓形表示多數(shù)類，矩形表示少數(shù)類，星型代表簇的中心點(diǎn)。在簇A中，由于多數(shù)類樣本D 與簇A 中心點(diǎn)的距離小于簇A 中所有少數(shù)類樣本與簇A 中心點(diǎn)的距離，所以CSMOTE 放棄在簇A 的范圍內(nèi)合成新的樣本數(shù)據(jù)。簇B 中心點(diǎn)與最近的多數(shù)類樣本的距離大于簇B 中心點(diǎn)與簇中少數(shù)類樣本的距離，所以簇B 中的少數(shù)類均可參與新樣本的合成。綜上所述，CSMOTE 在簇B 中使用簇中心點(diǎn)和少數(shù)類樣本合成新樣本，且放棄了在簇A中合成新樣本，從而避免了合成的樣本點(diǎn)落入多數(shù)類的樣本空間，保證了新樣本的合理性。此外，CSMOTE 將簇的中心點(diǎn)加入到少數(shù)類數(shù)據(jù)集中，這可以豐富數(shù)據(jù)集中少數(shù)類的樣本分布。

1.2 CSMOTE算法流程

CSMOTE 算法流程如圖2 所示，首先將不均衡數(shù)據(jù)集分為少數(shù)類和多數(shù)類，在少數(shù)類上使用k-means聚類獲得多個(gè)子簇。依次在每個(gè)子簇中進(jìn)行過抽樣，在子簇中隨機(jī)選擇參與合成的樣本，并根據(jù)所選樣本與對應(yīng)簇心的歐氏距離判斷其是否可以參與合成。然后將簇心與所選樣本進(jìn)行線性插值獲得新樣本。最后將合成的新樣本、簇心以及原少數(shù)類樣本與多數(shù)類相結(jié)合獲得均衡的數(shù)據(jù)集，將均衡數(shù)據(jù)集作為訓(xùn)練集用于訓(xùn)練分類器。算法具體步驟如下所示：

輸入多數(shù)類集合maj={x1，x2，…，xm}，少數(shù)類集合min={x1，x2，…，xn}，聚類的個(gè)數(shù)k，過抽樣的倍數(shù)Rate，重復(fù)選擇的次數(shù)T。

輸出合成的少數(shù)類集合newMin。

1）首先對少數(shù)類集合使用k-means 聚類，生成k個(gè)簇{C1，C2，…，Ck}，其對應(yīng)的聚類中心為{u1，u2，…，uk}，初始化newMin={u1，u2，…，uk}。

2）如果所有的簇都已遍歷，則轉(zhuǎn)到步驟6），否則依次遍歷簇集合{C1，C2，…，Ck}取得簇Ci。

3）在簇Ci中隨機(jī)選擇一個(gè)樣本xj，如果isUse(xj)==True，轉(zhuǎn)到步驟4）；否則重新選擇樣本xj，如果重新選擇T次均沒有選擇到樣本滿足isUse(xj)==True，則轉(zhuǎn)到步驟5）。

4）生成一個(gè)0到1之間的隨機(jī)數(shù)Rate，利用簇Ci中心點(diǎn)ui和xj合成一個(gè)新樣本xnew：

5）重復(fù)步驟3)Rate*|Ci|次，然后轉(zhuǎn)到步驟2）。

6）輸出合成的少數(shù)類newMin。

isUse(xj)：

a）計(jì)算xj和聚類中心點(diǎn)ui的歐氏距離dis。

b）遍歷maj集合中樣本xt，計(jì)算xt和聚類中心點(diǎn)ui的歐氏距離d。如果存在xt使得d＜dis，則返回False；否則返回True。

CSMOTE 算法中的子步驟isUse(xj)是用于判斷選中的樣本xj是否可以參與合成新樣本。步驟1）對少數(shù)類集合進(jìn)行kmeans聚類獲得k個(gè)簇，并將所有的簇心加入到合成的少數(shù)類集合。步驟2）對簇集合進(jìn)行遍歷，步驟3）在當(dāng)前簇中隨機(jī)選擇樣本，并用子步驟isUse(xj)來判斷該樣本是否可以參與合成，如果不滿足條件則重新選取；否則跳轉(zhuǎn)步驟4）使用選中的樣本和對應(yīng)的簇心合成新樣本并加入到合成的少數(shù)類集合。步驟5）控制合成的樣本數(shù)量，每個(gè)簇合成的樣本數(shù)量為對應(yīng)簇中樣本數(shù)量的Rate倍。步驟6）輸出合成的少數(shù)類集合。

圖2 CSMOTE算法流程Fig.2 Flowchart of CSMOTE algorithm

1.3 CSMOTE算法復(fù)雜度分析

定義n為少數(shù)類樣本數(shù)量，m為多數(shù)類樣本數(shù)量，樣本屬性個(gè)數(shù)為b。子步驟isUse(xj) 的時(shí)間復(fù)雜度為O(m)。CSMOTE 算法流程中，步驟1）中，對少數(shù)類集合使用k-means聚類的時(shí)間復(fù)雜度為O(bfkn)，其中，f為迭代次數(shù)，k為k-means 算法的分類數(shù)，由于f和k一般遠(yuǎn)小于n，所以k-means算法的時(shí)間復(fù)雜度可簡化為O(n)。在步驟2）到步驟5）中，算法的時(shí)間復(fù)雜度為O(kn(Tm+d))，T為重復(fù)選擇的次數(shù)，本文中將其設(shè)為當(dāng)前簇的樣本數(shù)，所以時(shí)間復(fù)雜度為O(kn(nm+d))=O(n2m)。綜上，CSMOTE算法時(shí)間復(fù)雜度為O(n2m)。

CSMOTE 算法空間復(fù)雜度取決于子步驟isUse(xj)中存儲簇心與所有多數(shù)類樣本的距離，因此，CSMOTE 算法空間復(fù)雜度為O(kn(nm+d))=O(n2m)。CSMOTE 算法的時(shí)間和空間復(fù)雜度均高于SMOTE 算法，可知CSMOTE 通過犧牲時(shí)間和空間上的效率獲得了分類性能的提高。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集和評價(jià)指標(biāo)

本文實(shí)驗(yàn)選用了六個(gè)數(shù)據(jù)集分別為pimax、german3、horseM、breastM、ilpdM、transfusionM。這六個(gè)數(shù)據(jù)集源于不同的實(shí)際應(yīng)用領(lǐng)域，數(shù)據(jù)集的詳細(xì)信息見表1，其中樣本比率表示多數(shù)類與少數(shù)類的數(shù)目之比，數(shù)值越大表明該數(shù)據(jù)集的不均衡程度越大。在實(shí)驗(yàn)中曾嘗試在輸入數(shù)據(jù)時(shí)采用歸一化處理，但是與未采用歸一化處理相比較，除了在transfusionM 數(shù)據(jù)集上分類性能略有提升之外，其他數(shù)據(jù)集上所得分類性能均有較為嚴(yán)重的下降。此外，嘗試在子步驟isUse(xj)計(jì)算歐氏距離時(shí)采用歸一化處理，分類性能卻略有下降?；诜诸愋阅芤约皬?fù)雜度的考慮，實(shí)驗(yàn)中將不再對數(shù)據(jù)進(jìn)行歸一化處理。

表1 數(shù)據(jù)集詳細(xì)信息Tab.1 Details of datasets

在不均衡分類分類器的評估中，因?yàn)榉诸惥葻o法反映少數(shù)類的分類效果，所以分類精度將不再適用。為此，研究人員提出了許多基于混淆矩陣的評價(jià)指標(biāo)，例如recall、sensitivity、F-measure 以及GM（Geometric Mean prediction accuracy）。混淆矩陣如表2 所示，少數(shù)類為正類，多數(shù)類為負(fù)類，列表示預(yù)測類別，而行表示真實(shí)類別。

表2 混淆矩陣Tab.2 Confusion matrix

TP表示正類樣本被正確分類的數(shù)量，TN表示負(fù)類樣本被正確分類的數(shù)量；FN表示正類樣本被錯(cuò)誤分類為負(fù)類的數(shù)量，F(xiàn)P表示負(fù)類樣本被錯(cuò)誤分類為正類的數(shù)量。本文實(shí)驗(yàn)采用接受者操作特性曲線（Receiver Operating Characteristic curve，ROC）下的面積（Area Under the Curve，AUC）［16］來定量比較不同分類模型的性能，越大的AUC 代表分類的效果越好，AUC 為1 表示達(dá)到了最理想的分類效果，而AUC 為0.5 表示是隨機(jī)猜測。AUC的計(jì)算式如下：

式中：TPrate表示少數(shù)類中被正確分類的比率，其取值范圍為［0，1］；FPrate表示多數(shù)類中被錯(cuò)誤分類的比率，其取值范圍為［0，1］。TPrate、FPrate計(jì)算式如下：

2.2 實(shí)驗(yàn)步驟

圖3 展示了實(shí)驗(yàn)流程，實(shí)驗(yàn)流程描述如下：給定一個(gè)二分類的不均衡數(shù)據(jù)集，第一步基于K折交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測試集。第二步將訓(xùn)練集分為多數(shù)類子集和和少數(shù)類子集，然后使用過抽樣方法增加少數(shù)類子集中樣本數(shù)量，將過抽樣后的少數(shù)類子集和多數(shù)類子集相結(jié)合獲得均衡數(shù)據(jù)集。最后，分類器在均衡的訓(xùn)練集和測試集分別進(jìn)行訓(xùn)練和測試。

圖3 實(shí)驗(yàn)流程Fig.3 Flowchart of experiment

2.3 CSMOTE算法聚類參數(shù)k的確定

聚類參數(shù)k會影響合成少數(shù)類的分布情況，所以參數(shù)k的確定對CSMOTE 算法的性能十分重要。因此本文將選擇1、3、5、7、9、11 這6個(gè)1～11 之間的奇數(shù)作為k的值，通過對比CSMOTE 算法在不同參數(shù)k下過采樣后分類器所得的AUC 值來確定最佳的k值。不同k值的CSMOTE 算法在pimax、german3、horseM、breastM、ilpdM、transfusionM 數(shù)據(jù)集上的分類結(jié)果如圖4所示。

由圖4 可以看出，在german3、ilpdM 和transfusionM 數(shù)據(jù)集上CSMOTE 在k=7 時(shí)獲得了最大的AUC 值。而在pimax、horseM 和breastM 數(shù)據(jù)集上，k=7 時(shí)CSMOTE 雖然并未取得最優(yōu)的AUC，但是與最優(yōu)的AUC 值相比差距較小。其中在horseM 數(shù)據(jù)集上k=9 時(shí)取得最優(yōu)值0.926，k=7 時(shí)則取得了僅次于最優(yōu)的AUC 值0.925 8，k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 2。在pimax 數(shù)據(jù)集，k=3 時(shí)取得最優(yōu)值0.820 5，k=7 時(shí)取得的AUC 值為0.819，k=7 時(shí)AUC 值僅比最優(yōu)值低了0.001 5。在breastM 數(shù)據(jù)集，k=3 和k=9 時(shí)取得最優(yōu)值0.994 8，k=7 時(shí)取得的AUC 值為0.994 2，k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 6。從六個(gè)數(shù)據(jù)集的均值來看，CSMOTE 在k=1，3，5，7，9，11 時(shí)獲得的平均AUC 值分別為0.822 5、0.823 8、0.824 0、0.828 5、0.823 0、0.821 7，k=7 時(shí)AUC 值比k=1，3，5，9，11 時(shí)分別高出0.006、0.004 7、0.004 5、0.005 5、0.006 8，由此可知k=7 與其他k值相比具有一定優(yōu)勢。綜上所述，在下文的實(shí)驗(yàn)中CSMOTE 的聚類個(gè)數(shù)k選擇為7。聚類參數(shù)k取決于數(shù)據(jù)集自身的特點(diǎn)，即樣本的分布情況。由于本文選用的數(shù)據(jù)集均為不均衡數(shù)據(jù)集，少數(shù)類可能被多數(shù)類分割為多個(gè)子區(qū)域，所以經(jīng)過實(shí)驗(yàn)確定的聚類參數(shù)k較大為7。除了通過多次實(shí)驗(yàn)確定k值之外，在實(shí)際應(yīng)用中確定k值的方法有：1）數(shù)據(jù)可視化，通過觀察數(shù)據(jù)的聚合程度確定參數(shù)k；2）手肘法；3）輪廓系數(shù)法。

圖4 不同k值的分類效果Fig.4 Classification effects of different k values on different datasets

2.4 不同算法的性能比較

為了進(jìn)一步研究CSMOTE 算法的性能，在六個(gè)數(shù)據(jù)集上將CSMOTE 與Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE［17］和文獻(xiàn)［7］所提出的兩種欠抽樣方法（分別簡記為UC和UCN）進(jìn)行比較。除了transfusionM 數(shù)據(jù)集之外，實(shí)驗(yàn)所采用的數(shù)據(jù)集的不均衡比均為2 左右，且考慮到CSMOTE 算法選擇參與合成樣本的條件過于苛刻，如果過抽樣的倍數(shù)Rate設(shè)置過大可能會產(chǎn)生冗余樣本降低算法的效率，所以過抽樣的倍數(shù)Rate設(shè)置為1。CSMOTE在簇中隨機(jī)選擇參與合成新樣本，但是難以保證一次就選到符合條件的樣本，為了合成足夠的新樣本，同時(shí)考慮到時(shí)間成本，文中實(shí)驗(yàn)將重復(fù)選擇的次數(shù)T設(shè)置為當(dāng)前簇中樣本個(gè)數(shù)。CSMOTE 聚類參數(shù)為2.3節(jié)調(diào)優(yōu)所得k=7，實(shí)驗(yàn)所采用的分類器是以決策樹為基分類器的bagging。實(shí)驗(yàn)中為保證結(jié)果的準(zhǔn)確性，采用十折交叉驗(yàn)證法，將數(shù)據(jù)集平均分為10 份，然后依次選擇其中1 份作為測試集，其余9 份作為訓(xùn)練集，該過程重復(fù)10 次。實(shí)驗(yàn)結(jié)果如圖5 所示，不同算法在6 個(gè)數(shù)據(jù)集上AUC 的均值如表3所示。

圖5 不同數(shù)據(jù)集上七種算法分類性能對比Fig.5 Classification performance comparison of seven algorithms on different datasets

表3 七種算法的分類效果（AUC）對比Tab.3 Classification effect（AUC）comparison of seven algorithms

從圖5和表3可以看出，在所有數(shù)據(jù)集上CSMOTE均取得了比其他算法更高的AUC，說明CSMOTE 的分類效果更好。其中，在german3 數(shù)據(jù)集上CSMOTE 的優(yōu)勢最為明顯，可以比其他算法平均高出0.030 1。在pimax、horseM、ilpdM 和transfusionM 數(shù)據(jù)集上，CSMOTE 可以比其他算法平均高出約0.013 6。從均值來看，CSMOTE 依然具有優(yōu)勢，CSMOTE 比Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE、UC 和UCN 分別高出了0.011 6、0.012 1、0.009 6、0.013 9、0.025 0、0.017 5。在horseM 數(shù)據(jù)集上所有算法均取得了0.9以上的AUC，在數(shù)據(jù)集breastM 上更是達(dá)到了0.99 以上的AUC，這表明所有算法在這兩個(gè)數(shù)據(jù)集上均取得了較可靠的效果。

CSMOTE 算法與對比算法相比：1）避免了噪聲數(shù)據(jù)樣本參與合成新樣本；2）利用簇心和樣本間的歐氏距離實(shí)現(xiàn)了對少數(shù)類的區(qū)別對待；3）根據(jù)樣本間的距離只選用了部分少數(shù)類參與合成新樣本，所以新樣本不會模糊多數(shù)類與少數(shù)類的邊界。綜上所述，通過了一系列的實(shí)驗(yàn)驗(yàn)證表明，針對不均衡數(shù)據(jù)分類問題，提出的CSMOTE算法是有效的。

3 結(jié)語

針對不均衡數(shù)據(jù)分類問題，本文從數(shù)據(jù)層面的方法出發(fā)提出了CSMOTE 算法。在實(shí)際數(shù)據(jù)集上，CSMOTE 與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠抽樣算法的分類性能進(jìn)行了比較，結(jié)果表明CSMOTE 算法在處理不均衡數(shù)據(jù)集時(shí)具有更好的分類效果。該算法解決了已有算法中的不足，利用簇心和樣本間的歐氏距離選擇部分少數(shù)類樣本參與合成新樣本，既避免了噪聲數(shù)據(jù)樣本參與合成新樣本，又解決了SMOTE 算法模糊多數(shù)類與少數(shù)類間邊界的問題，從而提高了不均衡數(shù)據(jù)的整體分類性能。由于CSMOTE選擇少數(shù)類樣本參與合成樣本過程的條件較為苛刻，所以對于某些數(shù)據(jù)分布，參與合成的少數(shù)類數(shù)量過少導(dǎo)致合成的樣本分布過于集中。故下一階段研究工作就是解決CSMOTE在某些數(shù)據(jù)集中合成的新樣本分布過于集中的問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡