董明剛,劉 明,敬 超+
1.桂林理工大學(xué)信息科學(xué)與工程學(xué)院,廣西桂林 541004
2.廣西嵌入式技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004
近年來,多類不平衡問題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,如癌癥檢測、故障檢查等。多類不平衡問題指的是個(gè)別類(小類)的樣本數(shù)量比其他類(大類)要少得多,并且小類更加重要,這對于傳統(tǒng)分類算法來說是一個(gè)巨大的挑戰(zhàn)[1-2];因?yàn)閭鹘y(tǒng)分類算法都是針對平衡數(shù)據(jù)集或以誤判代價(jià)相等為前提的,因此它往往偏向于大類,這就導(dǎo)致了算法整體分類效果的下降[3]。
多類不平衡學(xué)習(xí)問題主要有兩大類解決方法[1-2]:(1)算法級,例如代價(jià)敏感學(xué)習(xí)算法[3]、集成學(xué)習(xí)算法[4];(2)數(shù)據(jù)級,例如欠采樣算法[5](減少大類樣本的數(shù)量)、過采樣算法[6-14](增加小類樣本的數(shù)量)。盡管欠采樣和過采樣方法對解決多類不平衡問題都具有較好的效果,但欠采樣方法在刪除樣本時(shí)可能會(huì)損失重要的樣本信息,而過采樣算法不會(huì)遇到這種問題[9]。
2002年,Chawla等提出了合成少數(shù)過采樣技術(shù)[6](synthetic minority oversampling technique,SMOTE)算法,通過在小類樣本點(diǎn)和同類近鄰之間合成樣本點(diǎn)來生成平衡數(shù)據(jù)集,取得了較好的效果,但它沒有對小類樣本點(diǎn)進(jìn)行區(qū)分性選擇,從而會(huì)出現(xiàn)過度泛化和加重類別邊界的重疊等問題。針對上述不足,學(xué)者們提出了大量的改進(jìn)算法。自適應(yīng)合成過采樣[7](adaptive synthetic sampling,ADASYN)通過學(xué)習(xí)難度來自適應(yīng)決定合成樣本點(diǎn)的數(shù)量,從而避免出現(xiàn)過度泛化問題。Han等提出的邊界線合成少數(shù)過采樣技術(shù)[8](borderline synthetic minority over-sampling technique,BSMOTE)只著重于決策邊界的小類樣本點(diǎn),其他小類樣本點(diǎn)不合成樣本點(diǎn)。嚴(yán)遠(yuǎn)亭等提出了一種構(gòu)造性覆蓋算法的SMOTE過采樣方法[9],認(rèn)為被孤立的少數(shù)類樣本點(diǎn)也很重要,提出了基于覆蓋內(nèi)樣本點(diǎn)個(gè)數(shù)與基于覆蓋密度這兩種選擇關(guān)鍵樣本的方法來有效地選取典型的少數(shù)類樣本點(diǎn)進(jìn)行過采樣,從而有效地防止過度泛化。黃海松等提出了一種基于樣本特性的新型過采樣方式[10],它綜合考慮了數(shù)據(jù)集中不同類別的類內(nèi)距離、類間距離與不平衡度之間的關(guān)系,對數(shù)據(jù)集進(jìn)行距離帶劃分,可以很好地區(qū)分開不同類別,從而有效地防止了類別重疊問題。很多研究也將選擇權(quán)重與過采樣算法相結(jié)合,Barua等在2014年提出了大類加權(quán)小類過采樣技術(shù)[11](majority weighted minority oversampling technique,MWMOTE),該算法根據(jù)學(xué)習(xí)難度來計(jì)算權(quán)重,并且只在同一個(gè)聚類簇的范圍內(nèi)生成新的樣本點(diǎn),可以有效地避免邊界重疊問題。Zhu等提出的多類不平衡過采樣[12](synthetic minority oversampling for multiclass,SMOM)技術(shù)則是考慮到了過度泛化問題,首先利用聚類方法對樣本點(diǎn)進(jìn)行劃分,再計(jì)算每個(gè)鄰域方向的權(quán)重,從而避免了過度泛化。
綜上所述,盡管在多類不平衡學(xué)習(xí)上已經(jīng)取得了大量的優(yōu)異成果,但過度泛化問題和多類不平衡問題中更嚴(yán)重的類別重疊問題仍然沒有得到很好的解決,總體的分類性能還是稍顯不足,因此本文提出了一種利用采樣安全系數(shù)的多類不平衡過采樣(sampling safety coefficient for multi-class imbalance oversampling,SSCMIO)算法。首先利用樣本點(diǎn)的局部特性,本文提出了近鄰采樣安全系數(shù),為那些會(huì)產(chǎn)生過度泛化的鄰域方向分配較小的選擇權(quán)重,選擇那些較為安全的鄰域方向合成樣本點(diǎn),從而避免過度泛化??紤]到多類不平衡問題更加嚴(yán)重的類別重疊問題,本文提出了反向近鄰采樣安全系數(shù),為那些異常的樣本點(diǎn)分配一個(gè)較小的選擇權(quán)重,從而避免合成樣本點(diǎn)侵入到其他類別區(qū)域,減輕多類不平衡數(shù)據(jù)集中更為嚴(yán)重的類別重疊問題。最后將SSCMIO算法與7種典型的過采樣算法對來自KEEL[15]和UCI[16]機(jī)器學(xué)習(xí)數(shù)據(jù)庫上的16個(gè)數(shù)據(jù)集進(jìn)行了預(yù)處理,使用基于C4.5決策樹的RIPPER[17]分類器進(jìn)行分類,結(jié)果表明經(jīng)過SSCMIO算法預(yù)處理過的數(shù)據(jù)集有更好的分類效果。
MWMOTE[11]算法主要是考慮到某些小類樣本點(diǎn)難以學(xué)習(xí)和類別邊界重疊問題,首先它重新定義了邊界點(diǎn),將邊界點(diǎn)作為難以學(xué)習(xí)的小類樣本點(diǎn),再與聚類方法結(jié)合。算法的主要描述如下:
(1)首先找出大類的邊界點(diǎn),再根據(jù)大類邊界點(diǎn)定義出小類的邊界點(diǎn),這些小類的邊界點(diǎn)就是難以學(xué)習(xí)的小類樣本點(diǎn)。
(2)根據(jù)密度因子和靠近因子每個(gè)樣本點(diǎn)計(jì)算選擇權(quán)重,詳細(xì)信息參見文獻(xiàn)[11]。
(3)根據(jù)選擇權(quán)重在同一個(gè)聚類簇的范圍內(nèi)合成新的樣本點(diǎn)。
Nekooeimehr等在2016年提出了自適應(yīng)半監(jiān)督加權(quán)過采樣[13](adaptive semi-unsupervised weighted oversampling,A-SUWO)算法。首先,為了防止過度重疊,該算法使用半監(jiān)督聚類算法對小類樣本點(diǎn)進(jìn)行聚類,為同一簇內(nèi)的樣本點(diǎn)計(jì)算選擇權(quán)重,并且在聚類過程中對小類樣本的簇邊界進(jìn)行嚴(yán)格限制,從而避免重疊樣本的產(chǎn)生。同時(shí)對原始的數(shù)據(jù)集先進(jìn)行一次分類,根據(jù)分類錯(cuò)誤率和混淆矩陣來自適應(yīng)確定每個(gè)樣本點(diǎn)所需要的合成樣本點(diǎn)數(shù)量。在合成樣本點(diǎn)的時(shí)候,只有在同一簇內(nèi)的小類樣本點(diǎn)才能合成樣本點(diǎn),減少合成樣本點(diǎn)侵入到其他類區(qū)域,降低了生成重疊樣本的機(jī)會(huì)。
SMOM[12]算法是Zhu等在2017年提出來的,與SMOTE算法的隨機(jī)合成新的樣本點(diǎn)不同,SMOM將選擇權(quán)重分配給每個(gè)鄰域方向,對于可以產(chǎn)生過度泛化的鄰域方向賦予較小的選擇權(quán)重,從而避免過度泛化。算法主要描述如下:
(1)使用聚類算法將小類樣本點(diǎn)劃分為優(yōu)秀樣本點(diǎn)和被困樣本點(diǎn)。
(2)對于每個(gè)被困樣本點(diǎn),根據(jù)過度泛化因子和復(fù)雜因子來計(jì)算其選擇權(quán)重,對于那些優(yōu)秀樣本點(diǎn)則賦予一個(gè)定值權(quán)重,詳細(xì)信息參見文獻(xiàn)[12]。
(3)若樣本點(diǎn)為被困樣本點(diǎn),則根據(jù)選擇權(quán)重來選擇近鄰,運(yùn)用式(1)來合成樣本點(diǎn),否則隨機(jī)選擇近鄰,運(yùn)用式(1)來合成樣本點(diǎn)。
其中,Xnew表示新合成的樣本點(diǎn),X和Xneighbor分別表示某一樣本點(diǎn)和它的任意一個(gè)近鄰,rand為隨機(jī)函數(shù),可以產(chǎn)生一個(gè)[0,1]之間的隨機(jī)數(shù)。
如今多類不平衡問題已經(jīng)引起了廣泛的關(guān)注,但現(xiàn)有的過采樣算法有可能會(huì)導(dǎo)致過度泛化問題,使得算法整體的分類性能下降[12]。并且多類不平衡問題相較于兩類不平衡問題擁有更加復(fù)雜的類別邊界,從而導(dǎo)致了不同類別之間會(huì)出現(xiàn)更加嚴(yán)重的類別重疊現(xiàn)象,增加了分類難度。針對以上兩個(gè)問題,本文提出了利用采樣安全系數(shù)的多類不平衡過采樣算法。首先為了防止過度泛化,提出了近鄰采樣安全系數(shù),為那些過度泛化的鄰域分配一個(gè)較小的選擇權(quán)重,然后運(yùn)用反向近鄰采樣安全系數(shù)來防止合成樣本點(diǎn)侵入到其他類別區(qū)域,從而降低了類的識(shí)別難度,提升了算法的整體性能。
現(xiàn)有的過采樣方法在處理多類不平衡這一更具挑戰(zhàn)性的問題時(shí),往往會(huì)導(dǎo)致過度泛化??紤]到數(shù)據(jù)集中的每個(gè)樣本點(diǎn)的近鄰對分類結(jié)果的貢獻(xiàn)都不同,這意味著一些近鄰更重要,對分類結(jié)果影響更大,故本文提出了近鄰采樣安全系數(shù),它考慮了樣本點(diǎn)的局部特性,為那些會(huì)產(chǎn)生過度泛化的鄰域方向分配較小的選擇權(quán)重,選擇那些較為安全的鄰域方向合成樣本點(diǎn),從而避免過度泛化,提升算法的整體性能。
如圖1所示,以二維數(shù)據(jù)為例,圖中有3類數(shù)據(jù),圓形樣本點(diǎn)表示當(dāng)前需要過采樣的小類,其他為大類。小類中任意樣本點(diǎn)Xi的k1個(gè)近鄰分布在虛線圓內(nèi),虛線圓被相互垂直的兩條實(shí)線分成了A、B、C、D四部分。將Xi點(diǎn)的右上區(qū)域按圖中的垂直虛線分為3個(gè)區(qū)域A1、A2、A3。由于SMOTE方法是在樣本點(diǎn)Xi和其近鄰Yj之間隨機(jī)合成樣本點(diǎn),由圖可知,在區(qū)域A2和A3內(nèi)存在其他類別樣本點(diǎn)對合成樣本點(diǎn)的影響遠(yuǎn)比區(qū)域A1要小得多,故選定區(qū)域A1作為鄰域。在區(qū)域D中樣本點(diǎn)Xn,鄰域內(nèi)其他類別的樣本點(diǎn)相對而言較少,分配較高的選擇權(quán)重,并且為其他鄰域方向分配一個(gè)較小的權(quán)重,可以很好地避免過度泛化問題,提高了算法的總體分類性能。
Fig.1 Neighbor sampling safety coefficient圖1 近鄰采樣安全系數(shù)
近鄰安全系數(shù)很好地反映了樣本點(diǎn)的局部特性,用來衡量樣本點(diǎn)Xi和其近鄰Yj之間的泛化程度,對于那些會(huì)產(chǎn)生嚴(yán)重過度泛化的鄰域方向分配較小的選擇權(quán)重,從而提升合成樣本點(diǎn)的質(zhì)量,降低類的識(shí)別難度。它可以表示為:
其中,MaxNumc表示Xc內(nèi)其他類別樣本點(diǎn)的最大數(shù)量,Num(Xi,Yj)表示Xj i鄰域內(nèi)其他類別樣本點(diǎn)的數(shù)量,NeiSafe(Xi,Yj)表示樣本點(diǎn)Xi和其第j個(gè)近鄰Yj之間的采樣安全系數(shù)。
近鄰采樣安全系數(shù)的偽代碼如算法1所示。
算法1近鄰采樣安全系數(shù)
相較于兩類不平衡問題,多類不平衡問題中不同類別之間重疊現(xiàn)象更加嚴(yán)重,類別邊界更加模糊??紤]到不同類別之間的重疊問題,防止合成樣本點(diǎn)侵入到其他類別區(qū)域,故采用了反向近鄰采樣安全系數(shù),從而避免合成侵入到其他類別區(qū)域的樣本點(diǎn)。它的定義如下:
其中,max、mean分別表示最大值函數(shù)和平均值函數(shù);RN表示同一類別所有樣本的反向近鄰數(shù)量的集合;NeiSafe表示樣本點(diǎn)的反向近鄰與該樣本點(diǎn)的近鄰安全系數(shù)的集合。
反向近鄰安全系數(shù)很好地反映了樣本點(diǎn)的全局特性,若樣本點(diǎn)的反向近鄰安全系數(shù)很小,那么該樣本點(diǎn)很可能是潛在的異常樣本點(diǎn),并且侵入了其他類別區(qū)域,因此為此類樣本點(diǎn)分配一個(gè)較小的權(quán)重,可以很好地減輕多類不平衡中更嚴(yán)重的類別重疊問題,提高了類的識(shí)別度。如圖2所示,給出了小類樣本點(diǎn)X1、X2、X3和X4的近鄰虛線圓,由圖可知樣本點(diǎn)X1的反向近鄰有X2、X3和X4,其反向近鄰采樣安全系數(shù)很小,故該樣本點(diǎn)是異常的樣本點(diǎn),存在于重疊的邊界區(qū)域,若對其合成大量樣本就會(huì)加重類別重疊問題,使得分類性能大大降低,故采用反向近鄰采樣安全系數(shù)為此類樣本點(diǎn)分配一個(gè)較小的選擇權(quán)重,減輕類別重疊問題。
Fig.2 Reverse neighbor sampling safety coefficient圖2 反向近鄰采樣安全系數(shù)
反向近鄰采樣安全系數(shù)的偽代碼如算法2所示。
算法2反向近鄰采樣安全系數(shù)
采樣安全系數(shù)決定應(yīng)該選擇哪些樣本點(diǎn)來合成樣本點(diǎn)。更高的安全系數(shù)意味著其合成樣本點(diǎn)不會(huì)導(dǎo)致過度泛化,也能避免侵入到其他類別區(qū)域,減輕類別重疊,提升了合成樣本點(diǎn)的質(zhì)量,因此將這些合成樣本添加到數(shù)據(jù)集中可以獲得更高的分類精度。采樣安全系數(shù)的定義如下:
SSCMIO算法主框架偽代碼如算法3所示。首先為了防止過度泛化,利用樣本點(diǎn)的局部特性,采用近鄰采樣安全系數(shù)為小類樣本點(diǎn)的每個(gè)鄰域分配選擇權(quán)重,并且若該近鄰采樣安全系數(shù)為0,則不在該鄰域內(nèi)合成樣本點(diǎn);考慮到不同類別之間的重疊問題,利用樣本點(diǎn)的全局特性,計(jì)算出樣本點(diǎn)的反向近鄰采樣安全系數(shù),從而避免合成的樣本點(diǎn)侵入到其他類別區(qū)域,利用式(4)為每個(gè)樣本點(diǎn)分配采樣安全系數(shù)。
算法3SSCMIO算法主框架
假定數(shù)據(jù)集中的第c個(gè)小類數(shù)量為Nc,設(shè)所有的小類點(diǎn)的數(shù)量為n,即n=,計(jì)算一個(gè)樣本點(diǎn)的近鄰采樣安全系數(shù)和反向近鄰采樣安全系數(shù)的時(shí)間復(fù)雜度均為O(logn+k1),其中k1為計(jì)算安全系數(shù)時(shí)的近鄰和反向近鄰數(shù)量,O(logn)為計(jì)算一個(gè)樣本點(diǎn)的k1個(gè)近鄰的時(shí)間復(fù)雜度,且k1遠(yuǎn)小于n,故SSCMIO算法時(shí)間復(fù)雜度為O(nlogn)。
本文是在Windows 8系統(tǒng)下實(shí)現(xiàn)的,使用了WEKA平臺(tái)[18]中基于C4.5決策樹的RIPPER分類器[17]進(jìn)行分類,分類器參數(shù)使用了WEKA平臺(tái)下算法的默認(rèn)值,并且采用5折交叉驗(yàn)證,獨(dú)立運(yùn)行10次,取平均值作為最終結(jié)果。對比算法有SMOTE[6]、ADASYN[7]、BSMOTE[8],基于分類超平面的混合采樣算法(hybrid sampling algorithm based on support vector machine,SVM_HS)[19]、MWMOTE[11]、SMOM[12]、ASUWO[13],這些算法的參數(shù)均采用算法的默認(rèn)參數(shù),經(jīng)過實(shí)驗(yàn)對比,發(fā)現(xiàn)算法中的k1取值為4可以取得最好的性能,具體的實(shí)驗(yàn)對比見4.4節(jié)。
為了驗(yàn)證算法的有效性,本文采用了來自KEEL[15]和UCI[16]機(jī)器學(xué)習(xí)數(shù)據(jù)庫的16個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證,將過采樣后得到的平衡數(shù)據(jù)集用基于C4.5決策樹的RIPPER[17]分類器進(jìn)行分類,文中的數(shù)據(jù)集在不平衡率(imbalance rate,IR)大于1.45時(shí)判定為小類,IR為最大類與最小類的數(shù)量比值,數(shù)據(jù)集的基本信息如表1所示。
Table 1 Basic information of datasets表1 數(shù)據(jù)集的基本信息
采用多類不平衡數(shù)據(jù)集中常用的Precision[1,20-21]、Recall[1,20-21]、F-measure[22]、MG[23]、MAUC[24]這5個(gè)指標(biāo)來評價(jià)算法的優(yōu)劣性。其定義如式(5)~式(9)所示:
其中,TP表示正類樣本預(yù)測為正類的數(shù)量;FN表示正類樣本預(yù)測為負(fù)類的數(shù)量;FP表示負(fù)類樣本預(yù)測為正類的數(shù)量;β一般設(shè)置為1;A(ci,cj)=表示類i和類j的AUC面積,且A(ci|cj)與A(cj|ci)不相等。
Precision、Recall和F-measure僅計(jì)算最小的類,其中MG和MAUC分別是在二類評價(jià)指標(biāo)G-mean[25]和AUC[26-27](area under ROC curve)的基礎(chǔ)上擴(kuò)展的多類不平衡學(xué)習(xí)的評價(jià)指標(biāo),可以很好地評價(jià)算法的整體性能[20]。
Table 2 Comparison of Precision表2 Precision 的對比
表2到表6給出了SSCMIO算法和其他7種算法在16個(gè)數(shù)據(jù)集上的5種評價(jià)指標(biāo)對比結(jié)果,加粗表示當(dāng)前數(shù)據(jù)集的最優(yōu)值。
Table 3 Comparison of Recall表3 Recall的對比
Table 4 Comparison of F-measure表4 F-measure的對比
表2展示了8個(gè)算法在評價(jià)指標(biāo)Precision上的結(jié)果,從表中可以看出在16個(gè)數(shù)據(jù)集中,SSCMIO算法取得了11個(gè)最優(yōu)值,相比于SMOTE、BSMOTE、SVM_HS、ADASYN、MWMOTE、SMOM、A-SUWO平均提升了0.066 5、0.030 4、0.108 6、0.059 8、0.069 2、0.091 2、0.025 5,16個(gè)數(shù)據(jù)集中相比表現(xiàn)最差的算法提升最多的是voice96,提升了0.481 8。
表3展示了8個(gè)算法在評價(jià)指標(biāo)Recall上的結(jié)果,從表中可以看出在16個(gè)數(shù)據(jù)集中,SSCMIO算法取得了11個(gè)最優(yōu)值,相比于SMOTE、BSMOTE、SVM_HS、ADASYN、MWMOTE、SMOM、A-SUWO平均提升了0.085 8、0.044 6、0.008 4、0.101 2、0.123 3、0.125 3、0.073 9,16個(gè)數(shù)據(jù)集中相比表現(xiàn)最差的算法提升最多的是voice9,提升了0.305 3。
Table 5 Comparison of MG表5 MG 的對比
Table 6 Comparison of MAUC表6 MAUC 的對比
表4展示了8個(gè)算法在評價(jià)指標(biāo)F-measure上的結(jié)果,從表中可以看出在16個(gè)數(shù)據(jù)集中,SSCMIO算法取得了11個(gè)最優(yōu)值,相比于SMOTE、BSMOTE、SVM_HS、ADASYN、MWMOTE、SMOM、A-SUWO平均提升了0.080 9、0.038 8、0.057 0、0.087 4、0.104 6、0.116 0、0.056 0,16個(gè)數(shù)據(jù)集中相比表現(xiàn)最差的算法提升最多的是voice96,提升了0.342 0。
Fig.3 Comparison of k1 value圖3 k1值對比
表5展示了8個(gè)算法在評價(jià)指標(biāo)MG上的結(jié)果,從表中可以看出在16個(gè)數(shù)據(jù)集中,SSCMIO算法取得了11個(gè)最優(yōu)值,其中數(shù)據(jù)集ERA有個(gè)別類別被全部分錯(cuò),故MG值均為0。相比于SMOTE、BSMOTE、SVM_HS、ADASYN、MWMOTE、SMOM、A-SUWO平均提升了0.096 4、0.054 5、0.073 3、0.098 8、0.113 1、0.101 2、0.070 9,16個(gè)數(shù)據(jù)集中相比表現(xiàn)最差的算法提升最多的是voice96,提升了0.266 4。
表6展示了8個(gè)算法在評價(jià)指標(biāo)MAUC上的結(jié)果,從表中可以看出在16個(gè)數(shù)據(jù)集中,SSCMIO算法取得了12個(gè)最優(yōu)值,相比于SMOTE、BSMOTE、SVM_HS、ADASYN、MWMOTE、SMOM、A-SUWO平均提升了0.038 8、0.024 0、0.056 2、0.042 6、0.045 4、0.042 6、0.029 6,16個(gè)數(shù)據(jù)集中相比表現(xiàn)最差的算法提升最多的是ERA,提升了0.130 7。
表2到表6的實(shí)驗(yàn)結(jié)果可以表明SSCMIO算法的有效性,這是因?yàn)镾SCMIO算法考慮了樣本點(diǎn)的局部特性,為樣本點(diǎn)的每一個(gè)鄰域計(jì)算選擇權(quán)重,從而有效避免了過度泛化;再從全局特性出發(fā),采用反向近鄰安全系數(shù)減少了噪聲和離群點(diǎn)的影響,也減輕了類別邊界的重疊問題,使得合成的樣本點(diǎn)更加合理,降低了分類器的分類難度,從而提升了算法的總體性能。
如圖3所示,本文給出了SSCMIO算法在k1取不同值時(shí)的折線圖,圖中縱坐標(biāo)分別表示在16個(gè)數(shù)據(jù)集上的MG和MAUC這兩個(gè)指標(biāo)上的百分比之和,橫坐標(biāo)表示不同的k1值。MG和MAUC均是由二類評價(jià)指標(biāo)拓展而來,能夠很好地描述算法的總體性能。從圖中可以看出當(dāng)k1取值為4時(shí),SSCMIO算法的效果是最佳的。相比k1的其他取值,在MG上,16個(gè)數(shù)據(jù)集總的最大提升為0.413 0,在MAUC上的最大提升為0.071 7,故本文將k1的值設(shè)置為4。
本文提出了一種利用采樣安全系數(shù)的多類不平衡過采樣算法(SSCMIO)來處理多類不平衡問題。首先為了防止過度泛化,充分利用樣本點(diǎn)的局部特性,提出了近鄰采樣安全系數(shù);然后利用樣本點(diǎn)的全局特性,提出了反向近鄰采樣安全系數(shù),防止合成樣本點(diǎn)侵入到其他類別區(qū)域,很好地減輕了不同類別之間的重疊問題。將SSCMIO算法與7種典型的過采樣算法在16種不同平衡度的真實(shí)數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明在大多數(shù)的數(shù)據(jù)集上SSCMIO算法表現(xiàn)得更優(yōu)。
下一步工作將從以下兩方面開展:(1)用于實(shí)驗(yàn)的數(shù)據(jù)集都是數(shù)值型的,未來將研究SSCMIO算法應(yīng)用到非數(shù)值型數(shù)據(jù)集和混合型數(shù)據(jù)集;(2)可以研究如何將采樣安全系數(shù)和聚類方法相結(jié)合,以便更好地防止過度泛化和重疊問題。