国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向不均衡數(shù)據(jù)集的過抽樣算法

2020-06-21 00:33:22鑫,徐華,宿
計(jì)算機(jī)應(yīng)用 2020年6期
關(guān)鍵詞:中心點(diǎn)集上復(fù)雜度

崔 鑫,徐 華,宿 晨

(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)

(?通信作者電子郵箱1525754926@qq.com)

0 引言

不均衡數(shù)據(jù),即各類別樣本數(shù)量分布嚴(yán)重不平衡的數(shù)據(jù)。對于均衡數(shù)據(jù),傳統(tǒng)分類算法可以取得良好的分類效果,但在實(shí)際問題中,如人臉年齡估計(jì)、異常檢測、軟件缺陷預(yù)測、圖像標(biāo)注等,需要分類的數(shù)據(jù)通常是不均衡的。而傳統(tǒng)分類方法用以解決不均衡數(shù)據(jù)分類問題,往往在少數(shù)類上的分類效果并不能讓人滿意。這是由于不均衡數(shù)據(jù)中少數(shù)類數(shù)量過少,導(dǎo)致數(shù)據(jù)集并沒有包含足夠的分類信息。此外傳統(tǒng)分類方法追求整體的正確率最大化導(dǎo)致分類結(jié)果更傾向于多數(shù)類,而可能誤分類人們更關(guān)注的少數(shù)類。所以針對不均衡分類問題,學(xué)術(shù)界有必要去尋找一種行之有效的算法。

對于不均衡數(shù)據(jù)分類問題有一系列方法陸續(xù)被提出,這些方法可以分為算法層面和數(shù)據(jù)層面。算法層面包括代價(jià)敏感[1]、特征選擇[2]和集成學(xué)習(xí)方法。在不均衡分類問題中人們通常更關(guān)注少數(shù)類,因此少數(shù)類才是不均衡分類的關(guān)鍵。針對不均衡數(shù)據(jù)中樣本重要性不同的特點(diǎn),代價(jià)敏感學(xué)習(xí)給予各類別不同的錯(cuò)分代價(jià)。例如在二分類問題中給予少數(shù)類更高的錯(cuò)分代價(jià),迫使分類器對少數(shù)類取得較好的識別效果。特征選擇方法在用于不均衡分類問題同樣取得較好的效果。如果數(shù)據(jù)集中不同類別樣本分布不均衡,則特征分布也可能會不均衡。因此選取最具有區(qū)分度的特征不僅可以降低復(fù)雜度,還有助于提高少數(shù)類的識別精度。集成學(xué)習(xí)即組合多個(gè)弱分類器得到一個(gè)強(qiáng)分器,由于其獨(dú)立性,集成學(xué)習(xí)常與抽樣方法、特征選擇方法相結(jié)合,例如:Guo等[3]提出了集成學(xué)習(xí)方法BAK(BPSO-Adaboost-KNN),該算法將基于簡化粒子群優(yōu)化(Simple Particle Swarm Optimization,BPSO)的特征選擇方法與Adaboost相結(jié)合;Liu 等[4]提出了集成算法GU-MOACOFS(Genetic Under-sampling and MultiObjectiveAnt Colony Optimization based Feature Selection),該算法更是同時(shí)使用了欠抽樣、特征選擇和集成方法。

數(shù)據(jù)層面的方法是采用重抽樣方法均衡數(shù)據(jù)集中樣本分布,重抽樣分為過抽樣和欠抽樣。例如較為簡單的過抽樣方法是隨機(jī)過抽樣(Random OverSampling,ROS),該算法隨機(jī)復(fù)制少數(shù)類樣本以增加少數(shù)類樣本的數(shù)量。由于該算法實(shí)現(xiàn)簡單且性能良好,隨機(jī)過抽樣算法經(jīng)常在研究中被用作基準(zhǔn)算法進(jìn)行比較。Ha 等[5]提出了基于遺傳算法的欠抽樣(Genetic Algorithm based Under-Sampling,GAUS),通過對損失函數(shù)尋找最優(yōu)解得到最佳數(shù)據(jù)子集。與遺傳算法一樣,聚類算法也被用于提高抽樣算法的性能,例如:Rayhan 等[6]提出的欠抽樣算法(Clustering based Under-Sampling approach with BOOSTing algorithm,CUSBOOST),該算法在聚類所得簇中隨機(jī)選擇部分樣本;Lin 等[7]提出了兩種基于聚類的欠抽樣方法,則直接使用簇心或最接近簇心的樣本來代替原數(shù)據(jù)。過抽樣和欠抽樣雖然可以平衡數(shù)據(jù)分布,但欠抽樣可能會刪除對分類有價(jià)值的數(shù)據(jù),過抽樣則會增加過擬合的風(fēng)險(xiǎn)而且可能引入不合理的樣本數(shù)據(jù)。針對過抽樣會引起過擬合的缺點(diǎn),Chawla 等[8]提出了合成少數(shù)類過抽樣技術(shù)(Synthetic Minority Over-sampling TEchnique,SMOTE)算法,其思想是用少數(shù)類與其近鄰的少數(shù)類合成新樣本;但噪聲樣本可能參與合成新樣本,模糊多數(shù)類和少數(shù)類間的邊界。

針對上述SMOTE 的不足,許多研究人員提出了SMOTE的改進(jìn)算法[9-11]。Bastista 等[12]提出了將SMOTE 算法和數(shù)據(jù)清洗方法相結(jié)合的方法SMOTE+ENN(Edited Nearest Neighbor)和SMOTE+Tomek links,在一定程度上保證了多數(shù)類和少數(shù)類的可分性。Han 等[13]提出Borderline-SMOTE 算法,該算法只對邊界附近的少數(shù)類進(jìn)行抽樣。袁銘[14]提出了R-SMOTE 算法,在2個(gè)少數(shù)類樣本上使用N維球體,使生成的樣本在分布球體之內(nèi)。R-SMOTE 算法消除了生成少數(shù)類實(shí)例分布的限制,提高了少數(shù)類的分類精度。趙清華等[15]提出了最遠(yuǎn)點(diǎn)算法(Max Distance SMOTE,MDSMOTE),摒棄了傳統(tǒng)SMOTE 算法將正類樣本點(diǎn)分組的思想,只關(guān)注少數(shù)類樣本質(zhì)心點(diǎn)和距離樣本質(zhì)心點(diǎn)最遠(yuǎn)距離的樣本點(diǎn)。

以上算法的性能與SMOTE 算法相比得到了一定程度的提高,但總體分類性能還是稍顯不足。為了進(jìn)一步提高SMOTE 算法的性能,避免噪聲樣本參與合成樣本,提高新樣本的合理性,本文結(jié)合聚類算法提出了SMOTE 的改進(jìn)算法

CSMOTE (Clustered Synthetic Minority Over-sampling TEchnique)。CSMOTE算法拋棄SMOTE在最近鄰間線性插值合成樣本的思想,使用少數(shù)類的簇心與其對應(yīng)簇中樣本進(jìn)行線性插值合成樣本,并根據(jù)簇心和樣本間的歐氏距離只選用了部分樣本。由于對參與合成的樣本進(jìn)行了篩選,所以可以一定程度避免使用噪聲數(shù)據(jù)合成新樣本,同時(shí)保證多數(shù)類與少數(shù)類間邊界的明確性。最后在多個(gè)實(shí)際數(shù)據(jù)上,與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠采樣方法相比較,CSMOTE 算法具有更好的分類效果,說明該算法可以有效解決不均衡數(shù)據(jù)分類問題。

1 CSMOTE算法

1.1 CSMOTE算法設(shè)計(jì)思想

在不均衡數(shù)據(jù)集中,SMOTE 算法雖然可以平衡類分布,卻可能會模糊多數(shù)類和少數(shù)類的邊界。如圖1(a)所示。假設(shè)SMOTE 對圖1(a)中的少數(shù)類A 進(jìn)行過抽樣,在樣本A 的最近鄰中隨機(jī)選擇一個(gè)樣本,假設(shè)選擇了樣本B,樣本A 和B 的線性插值可以合成樣本C。樣本C 因?yàn)榍终级鄶?shù)類的樣本空間,所以合成的樣本C 是一個(gè)不合理的樣本數(shù)據(jù)。在這種情況下,合成的樣本C并不會有助于分類器的訓(xùn)練,反而由于樣本C 的存在會使得數(shù)據(jù)變得更加難以區(qū)分,同時(shí)會影響分類器的性能,所以保證新樣本的合理性是十分有必要的。

針對上述問題,本文提出了CSMOTE算法,該算法在少數(shù)類數(shù)據(jù)集的各個(gè)簇的范圍內(nèi)合成新樣本。CSMOTE 算法的基本思想是對于簇中的一個(gè)少數(shù)類樣本minority,計(jì)算minority與其對應(yīng)簇的中心點(diǎn)center的歐氏距離dis,如果不存在某個(gè)多數(shù)類樣本majority與center的距離d小于dis,則使用minority和center進(jìn)行線性插值生成新的少數(shù)類樣本,否則放棄使用樣本minority。如圖1(b)所示,在少數(shù)類集合上使用k-means 算法得到了簇A 和B。圖中圓形表示多數(shù)類,矩形表示少數(shù)類,星型代表簇的中心點(diǎn)。在簇A中,由于多數(shù)類樣本D 與簇A 中心點(diǎn)的距離小于簇A 中所有少數(shù)類樣本與簇A 中心點(diǎn)的距離,所以CSMOTE 放棄在簇A 的范圍內(nèi)合成新的樣本數(shù)據(jù)。簇B 中心點(diǎn)與最近的多數(shù)類樣本的距離大于簇B 中心點(diǎn)與簇中少數(shù)類樣本的距離,所以簇B 中的少數(shù)類均可參與新樣本的合成。綜上所述,CSMOTE 在簇B 中使用簇中心點(diǎn)和少數(shù)類樣本合成新樣本,且放棄了在簇A中合成新樣本,從而避免了合成的樣本點(diǎn)落入多數(shù)類的樣本空間,保證了新樣本的合理性。此外,CSMOTE 將簇的中心點(diǎn)加入到少數(shù)類數(shù)據(jù)集中,這可以豐富數(shù)據(jù)集中少數(shù)類的樣本分布。

1.2 CSMOTE算法流程

CSMOTE 算法流程如圖2 所示,首先將不均衡數(shù)據(jù)集分為少數(shù)類和多數(shù)類,在少數(shù)類上使用k-means聚類獲得多個(gè)子簇。依次在每個(gè)子簇中進(jìn)行過抽樣,在子簇中隨機(jī)選擇參與合成的樣本,并根據(jù)所選樣本與對應(yīng)簇心的歐氏距離判斷其是否可以參與合成。然后將簇心與所選樣本進(jìn)行線性插值獲得新樣本。最后將合成的新樣本、簇心以及原少數(shù)類樣本與多數(shù)類相結(jié)合獲得均衡的數(shù)據(jù)集,將均衡數(shù)據(jù)集作為訓(xùn)練集用于訓(xùn)練分類器。算法具體步驟如下所示:

輸入 多數(shù)類集合maj={x1,x2,…,xm},少數(shù)類集合min={x1,x2,…,xn},聚類的個(gè)數(shù)k,過抽樣的倍數(shù)Rate,重復(fù)選擇的次數(shù)T。

輸出 合成的少數(shù)類集合newMin。

1)首先對少數(shù)類集合使用k-means 聚類,生成k個(gè)簇{C1,C2,…,Ck},其對應(yīng)的聚類中心為{u1,u2,…,uk},初始化newMin={u1,u2,…,uk}。

2)如果所有的簇都已遍歷,則轉(zhuǎn)到步驟6),否則依次遍歷簇集合{C1,C2,…,Ck}取得簇Ci。

3)在簇Ci中隨機(jī)選擇一個(gè)樣本xj,如果isUse(xj)==True,轉(zhuǎn)到步驟4);否則重新選擇樣本xj,如果重新選擇T次均沒有選擇到樣本滿足isUse(xj)==True,則轉(zhuǎn)到步驟5)。

4)生成一個(gè)0到1之間的隨機(jī)數(shù)Rate,利用簇Ci中心點(diǎn)ui和xj合成一個(gè)新樣本xnew:

5)重復(fù)步驟3)Rate*|Ci|次,然后轉(zhuǎn)到步驟2)。

6)輸出合成的少數(shù)類newMin。

isUse(xj):

a)計(jì)算xj和聚類中心點(diǎn)ui的歐氏距離dis。

b)遍歷maj集合中樣本xt,計(jì)算xt和聚類中心點(diǎn)ui的歐氏距離d。如果存在xt使得d<dis,則返回False;否則返回True。

CSMOTE 算法中的子步驟isUse(xj)是用于判斷選中的樣本xj是否可以參與合成新樣本。步驟1)對少數(shù)類集合進(jìn)行kmeans聚類獲得k個(gè)簇,并將所有的簇心加入到合成的少數(shù)類集合。步驟2)對簇集合進(jìn)行遍歷,步驟3)在當(dāng)前簇中隨機(jī)選擇樣本,并用子步驟isUse(xj)來判斷該樣本是否可以參與合成,如果不滿足條件則重新選取;否則跳轉(zhuǎn)步驟4)使用選中的樣本和對應(yīng)的簇心合成新樣本并加入到合成的少數(shù)類集合。步驟5)控制合成的樣本數(shù)量,每個(gè)簇合成的樣本數(shù)量為對應(yīng)簇中樣本數(shù)量的Rate倍。步驟6)輸出合成的少數(shù)類集合。

圖2 CSMOTE算法流程Fig.2 Flowchart of CSMOTE algorithm

1.3 CSMOTE算法復(fù)雜度分析

定義n為少數(shù)類樣本數(shù)量,m為多數(shù)類樣本數(shù)量,樣本屬性個(gè)數(shù)為b。子步驟isUse(xj) 的時(shí)間復(fù)雜度為O(m)。CSMOTE 算法流程中,步驟1)中,對少數(shù)類集合使用k-means聚類的時(shí)間復(fù)雜度為O(bfkn),其中,f為迭代次數(shù),k為k-means 算法的分類數(shù),由于f和k一般遠(yuǎn)小于n,所以k-means算法的時(shí)間復(fù)雜度可簡化為O(n)。在步驟2)到步驟5)中,算法的時(shí)間復(fù)雜度為O(kn(Tm+d)),T為重復(fù)選擇的次數(shù),本文中將其設(shè)為當(dāng)前簇的樣本數(shù),所以時(shí)間復(fù)雜度為O(kn(nm+d))=O(n2m)。綜上,CSMOTE算法時(shí)間復(fù)雜度為O(n2m)。

CSMOTE 算法空間復(fù)雜度取決于子步驟isUse(xj)中存儲簇心與所有多數(shù)類樣本的距離,因此,CSMOTE 算法空間復(fù)雜度為O(kn(nm+d))=O(n2m)。CSMOTE 算法的時(shí)間和空間復(fù)雜度均高于SMOTE 算法,可知CSMOTE 通過犧牲時(shí)間和空間上的效率獲得了分類性能的提高。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集和評價(jià)指標(biāo)

本文實(shí)驗(yàn)選用了六個(gè)數(shù)據(jù)集分別為pimax、german3、horseM、breastM、ilpdM、transfusionM。這六個(gè)數(shù)據(jù)集源于不同的實(shí)際應(yīng)用領(lǐng)域,數(shù)據(jù)集的詳細(xì)信息見表1,其中樣本比率表示多數(shù)類與少數(shù)類的數(shù)目之比,數(shù)值越大表明該數(shù)據(jù)集的不均衡程度越大。在實(shí)驗(yàn)中曾嘗試在輸入數(shù)據(jù)時(shí)采用歸一化處理,但是與未采用歸一化處理相比較,除了在transfusionM 數(shù)據(jù)集上分類性能略有提升之外,其他數(shù)據(jù)集上所得分類性能均有較為嚴(yán)重的下降。此外,嘗試在子步驟isUse(xj)計(jì)算歐氏距離時(shí)采用歸一化處理,分類性能卻略有下降?;诜诸愋阅芤约皬?fù)雜度的考慮,實(shí)驗(yàn)中將不再對數(shù)據(jù)進(jìn)行歸一化處理。

表1 數(shù)據(jù)集詳細(xì)信息Tab.1 Details of datasets

在不均衡分類分類器的評估中,因?yàn)榉诸惥葻o法反映少數(shù)類的分類效果,所以分類精度將不再適用。為此,研究人員提出了許多基于混淆矩陣的評價(jià)指標(biāo),例如recall、sensitivity、F-measure 以及GM(Geometric Mean prediction accuracy)。混淆矩陣如表2 所示,少數(shù)類為正類,多數(shù)類為負(fù)類,列表示預(yù)測類別,而行表示真實(shí)類別。

表2 混淆矩陣Tab.2 Confusion matrix

TP表示正類樣本被正確分類的數(shù)量,TN表示負(fù)類樣本被正確分類的數(shù)量;FN表示正類樣本被錯(cuò)誤分類為負(fù)類的數(shù)量,F(xiàn)P表示負(fù)類樣本被錯(cuò)誤分類為正類的數(shù)量。本文實(shí)驗(yàn)采用接受者操作特性曲線(Receiver Operating Characteristic curve,ROC)下的面積(Area Under the Curve,AUC)[16]來定量比較不同分類模型的性能,越大的AUC 代表分類的效果越好,AUC 為1 表示達(dá)到了最理想的分類效果,而AUC 為0.5 表示是隨機(jī)猜測。AUC的計(jì)算式如下:

式中:TPrate表示少數(shù)類中被正確分類的比率,其取值范圍為[0,1];FPrate表示多數(shù)類中被錯(cuò)誤分類的比率,其取值范圍為[0,1]。TPrate、FPrate計(jì)算式如下:

2.2 實(shí)驗(yàn)步驟

圖3 展示了實(shí)驗(yàn)流程,實(shí)驗(yàn)流程描述如下:給定一個(gè)二分類的不均衡數(shù)據(jù)集,第一步基于K折交叉驗(yàn)證將數(shù)據(jù)集分為訓(xùn)練集和測試集。第二步將訓(xùn)練集分為多數(shù)類子集和和少數(shù)類子集,然后使用過抽樣方法增加少數(shù)類子集中樣本數(shù)量,將過抽樣后的少數(shù)類子集和多數(shù)類子集相結(jié)合獲得均衡數(shù)據(jù)集。最后,分類器在均衡的訓(xùn)練集和測試集分別進(jìn)行訓(xùn)練和測試。

圖3 實(shí)驗(yàn)流程Fig.3 Flowchart of experiment

2.3 CSMOTE算法聚類參數(shù)k的確定

聚類參數(shù)k會影響合成少數(shù)類的分布情況,所以參數(shù)k的確定對CSMOTE 算法的性能十分重要。因此本文將選擇1、3、5、7、9、11 這6個(gè)1~11 之間的奇數(shù)作為k的值,通過對比CSMOTE 算法在不同參數(shù)k下過采樣后分類器所得的AUC 值來確定最佳的k值。不同k值的CSMOTE 算法在pimax、german3、horseM、breastM、ilpdM、transfusionM 數(shù)據(jù)集上的分類結(jié)果如圖4所示。

由圖4 可以看出,在german3、ilpdM 和transfusionM 數(shù)據(jù)集上CSMOTE 在k=7 時(shí)獲得了最大的AUC 值。而在pimax、horseM 和breastM 數(shù)據(jù)集上,k=7 時(shí)CSMOTE 雖然并未取得最優(yōu)的AUC,但是與最優(yōu)的AUC 值相比差距較小。其中在horseM 數(shù)據(jù)集上k=9 時(shí)取得最優(yōu)值0.926,k=7 時(shí)則取得了僅次于最優(yōu)的AUC 值0.925 8,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 2。在pimax 數(shù)據(jù)集,k=3 時(shí)取得最優(yōu)值0.820 5,k=7 時(shí)取得的AUC 值為0.819,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.001 5。在breastM 數(shù)據(jù)集,k=3 和k=9 時(shí)取得最優(yōu)值0.994 8,k=7 時(shí)取得的AUC 值為0.994 2,k=7 時(shí)AUC 值僅比最優(yōu)值低了0.000 6。從六個(gè)數(shù)據(jù)集的均值來看,CSMOTE 在k=1,3,5,7,9,11 時(shí)獲得的平均AUC 值分別為0.822 5、0.823 8、0.824 0、0.828 5、0.823 0、0.821 7,k=7 時(shí)AUC 值比k=1,3,5,9,11 時(shí)分別高出0.006、0.004 7、0.004 5、0.005 5、0.006 8,由此可知k=7 與其他k值相比具有一定優(yōu)勢。綜上所述,在下文的實(shí)驗(yàn)中CSMOTE 的聚類個(gè)數(shù)k選擇為7。聚類參數(shù)k取決于數(shù)據(jù)集自身的特點(diǎn),即樣本的分布情況。由于本文選用的數(shù)據(jù)集均為不均衡數(shù)據(jù)集,少數(shù)類可能被多數(shù)類分割為多個(gè)子區(qū)域,所以經(jīng)過實(shí)驗(yàn)確定的聚類參數(shù)k較大為7。除了通過多次實(shí)驗(yàn)確定k值之外,在實(shí)際應(yīng)用中確定k值的方法有:1)數(shù)據(jù)可視化,通過觀察數(shù)據(jù)的聚合程度確定參數(shù)k;2)手肘法;3)輪廓系數(shù)法。

圖4 不同k值的分類效果Fig.4 Classification effects of different k values on different datasets

2.4 不同算法的性能比較

為了進(jìn)一步研究CSMOTE 算法的性能,在六個(gè)數(shù)據(jù)集上將CSMOTE 與Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE[17]和文獻(xiàn)[7]所提出的兩種欠抽樣方法(分別簡記為UC和UCN)進(jìn)行比較。除了transfusionM 數(shù)據(jù)集之外,實(shí)驗(yàn)所采用的數(shù)據(jù)集的不均衡比均為2 左右,且考慮到CSMOTE 算法選擇參與合成樣本的條件過于苛刻,如果過抽樣的倍數(shù)Rate設(shè)置過大可能會產(chǎn)生冗余樣本降低算法的效率,所以過抽樣的倍數(shù)Rate設(shè)置為1。CSMOTE在簇中隨機(jī)選擇參與合成新樣本,但是難以保證一次就選到符合條件的樣本,為了合成足夠的新樣本,同時(shí)考慮到時(shí)間成本,文中實(shí)驗(yàn)將重復(fù)選擇的次數(shù)T設(shè)置為當(dāng)前簇中樣本個(gè)數(shù)。CSMOTE 聚類參數(shù)為2.3節(jié)調(diào)優(yōu)所得k=7,實(shí)驗(yàn)所采用的分類器是以決策樹為基分類器的bagging。實(shí)驗(yàn)中為保證結(jié)果的準(zhǔn)確性,采用十折交叉驗(yàn)證法,將數(shù)據(jù)集平均分為10 份,然后依次選擇其中1 份作為測試集,其余9 份作為訓(xùn)練集,該過程重復(fù)10 次。實(shí)驗(yàn)結(jié)果如圖5 所示,不同算法在6 個(gè)數(shù)據(jù)集上AUC 的均值如表3所示。

圖5 不同數(shù)據(jù)集上七種算法分類性能對比Fig.5 Classification performance comparison of seven algorithms on different datasets

表3 七種算法的分類效果(AUC)對比Tab.3 Classification effect(AUC)comparison of seven algorithms

從圖5和表3可以看出,在所有數(shù)據(jù)集上CSMOTE均取得了比其他算法更高的AUC,說明CSMOTE 的分類效果更好。其中,在german3 數(shù)據(jù)集上CSMOTE 的優(yōu)勢最為明顯,可以比其他算法平均高出0.030 1。在pimax、horseM、ilpdM 和transfusionM 數(shù)據(jù)集上,CSMOTE 可以比其他算法平均高出約0.013 6。從均值來看,CSMOTE 依然具有優(yōu)勢,CSMOTE 比Borderline-SMOTE、R-SMOTE、MDSMOTE、improvedSMOTE、UC 和UCN 分別高出了0.011 6、0.012 1、0.009 6、0.013 9、0.025 0、0.017 5。在horseM 數(shù)據(jù)集上所有算法均取得了0.9以上的AUC,在數(shù)據(jù)集breastM 上更是達(dá)到了0.99 以上的AUC,這表明所有算法在這兩個(gè)數(shù)據(jù)集上均取得了較可靠的效果。

CSMOTE 算法與對比算法相比:1)避免了噪聲數(shù)據(jù)樣本參與合成新樣本;2)利用簇心和樣本間的歐氏距離實(shí)現(xiàn)了對少數(shù)類的區(qū)別對待;3)根據(jù)樣本間的距離只選用了部分少數(shù)類參與合成新樣本,所以新樣本不會模糊多數(shù)類與少數(shù)類的邊界。綜上所述,通過了一系列的實(shí)驗(yàn)驗(yàn)證表明,針對不均衡數(shù)據(jù)分類問題,提出的CSMOTE算法是有效的。

3 結(jié)語

針對不均衡數(shù)據(jù)分類問題,本文從數(shù)據(jù)層面的方法出發(fā)提出了CSMOTE 算法。在實(shí)際數(shù)據(jù)集上,CSMOTE 與四個(gè)SMOTE 的改進(jìn)算法以及兩種欠抽樣算法的分類性能進(jìn)行了比較,結(jié)果表明CSMOTE 算法在處理不均衡數(shù)據(jù)集時(shí)具有更好的分類效果。該算法解決了已有算法中的不足,利用簇心和樣本間的歐氏距離選擇部分少數(shù)類樣本參與合成新樣本,既避免了噪聲數(shù)據(jù)樣本參與合成新樣本,又解決了SMOTE 算法模糊多數(shù)類與少數(shù)類間邊界的問題,從而提高了不均衡數(shù)據(jù)的整體分類性能。由于CSMOTE選擇少數(shù)類樣本參與合成樣本過程的條件較為苛刻,所以對于某些數(shù)據(jù)分布,參與合成的少數(shù)類數(shù)量過少導(dǎo)致合成的樣本分布過于集中。故下一階段研究工作就是解決CSMOTE在某些數(shù)據(jù)集中合成的新樣本分布過于集中的問題。

猜你喜歡
中心點(diǎn)集上復(fù)雜度
Cookie-Cutter集上的Gibbs測度
Scratch 3.9更新了什么?
鏈完備偏序集上廣義向量均衡問題解映射的保序性
如何設(shè)置造型中心點(diǎn)?
電腦報(bào)(2019年4期)2019-09-10 07:22:44
一種低復(fù)雜度的慣性/GNSS矢量深組合方法
復(fù)扇形指標(biāo)集上的分布混沌
求圖上廣探樹的時(shí)間復(fù)雜度
某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
尋找視覺中心點(diǎn)
大眾攝影(2015年9期)2015-09-06 17:05:41
白玉县| 安吉县| 北流市| 若羌县| 泊头市| 白玉县| 区。| 南康市| 房山区| 济源市| 龙胜| 屯留县| 灌云县| 宁陵县| 姚安县| 略阳县| 汉沽区| 灌南县| 桦川县| 遂昌县| 宝山区| 关岭| 吴堡县| 荔浦县| 利辛县| 吉林省| 安泽县| 班玛县| 永新县| 灵台县| 武夷山市| 阳原县| 吴旗县| 准格尔旗| 长寿区| 农安县| 左贡县| 迁西县| 柳河县| 东光县| 吉木乃县|