羅少甫
(重慶航天職業(yè)技術(shù)學(xué)院 智能信息學(xué)院,重慶 400021)
不平衡數(shù)據(jù)集的類別呈偏態(tài)分布[1]。在不平衡數(shù)據(jù)集中,會(huì)存在一個(gè)樣本數(shù)量較少的類,學(xué)者們通常把這個(gè)類稱為少數(shù)類。同時(shí),學(xué)者們把具有較多樣本數(shù)量的類稱為多數(shù)類。由于不平衡數(shù)據(jù)集的偏態(tài)分布,因此從不平衡數(shù)據(jù)集上學(xué)習(xí)一個(gè)有效的分類器(即不平衡分類)是一個(gè)挑戰(zhàn)[2]。在不平衡分類中,盡管分類模型能取得較高的分類正確率,但是他們難以正確地分類少數(shù)類。相比于多數(shù)類,少數(shù)類更具有實(shí)際意義。
欠抽樣方法和過抽樣方法能夠改進(jìn)不平衡分類[3—8]。欠抽樣方法會(huì)去除多數(shù)類中的冗余樣本,直到樣本的類別分布平衡。過抽樣方法生成少數(shù)類的合成樣本去擴(kuò)充少數(shù)類。SMOTE(Synthetic Minority Over-sampling Technique)[9]是最流行的過抽樣方法。它用少數(shù)類樣本的k近鄰[10]插值結(jié)果去生成合成樣本;然后,用生成的合成樣本去擴(kuò)充少數(shù)類。到目前為止,SMOTE 具有巨大的實(shí)際應(yīng)用價(jià)值和許多改進(jìn)算法。例如,Boderline-SMOTE[11]、ADASYN[12]、RSMOTE[13]、Adaptive-SMOTE[14]等。
研究發(fā)現(xiàn),大多數(shù)過抽樣方法容易生成噪聲[9,11—15]。這是因?yàn)樗麄冇迷肼暬颍ê停┎话踩倪吔鐦颖救ド珊铣蓸颖?。最近,基于噪聲過濾的過抽樣方法能解決噪聲生成問題。SMOTE-TL[16]、SMOTE-ENN[16]和SMOTE-IPF[17]是基于噪聲過濾的過抽樣方法。SMOTE-TL 用托梅克鏈接(Tome Link,TL)去移除合成樣本和原始數(shù)據(jù)中的噪聲。SMOTE-ENN 用k 近鄰分類器去識(shí)別和過濾噪聲。SMOTE-IPF 用一個(gè)迭代的隨機(jī)森林分類器來(lái)去除合成樣本和原始數(shù)據(jù)中的噪聲。盡管大量的實(shí)驗(yàn)[15—17]證明了基于噪聲過濾的過抽樣方法的有效性,但是他們?nèi)匀挥幸韵虏蛔悖海?)在大多數(shù)基于噪聲過濾的過抽樣方法(如SMOTE-TL、SMOTE-ENN 和SMOTE-IPF)中,噪聲偵察技術(shù)依賴于參數(shù),這導(dǎo)致算法表現(xiàn)不穩(wěn)定和應(yīng)用困難。(2)全部的基于噪聲過濾的過抽樣方法均用k 近鄰的插值結(jié)果去生成合成樣本。因此,生成合成樣本的過程依賴于近鄰參數(shù)k。(3)基于噪聲過濾的過抽樣方法均會(huì)移除過多的少數(shù)類樣本。這是因?yàn)榛谠肼曔^濾的過抽樣方法用有監(jiān)督分類器(如TL[15]、k 近鄰[16]和隨機(jī)森林[17])作為噪聲過濾器。由于不平衡數(shù)據(jù)的影響(沒有考慮不平衡數(shù)據(jù)的特性),這些有監(jiān)督分類器容易錯(cuò)誤地預(yù)測(cè)少數(shù)類樣本。從而,噪聲過濾器會(huì)錯(cuò)誤地識(shí)別大量的少數(shù)類樣本為噪聲;并且,他們會(huì)直接移除可疑的噪聲,而不是更正或優(yōu)化,這最終會(huì)導(dǎo)致信息損失。
為了克服噪聲生成和上述基于噪聲過濾的過抽樣方法的缺陷,本文提出了一種基于局部集合和差分進(jìn)化的過抽樣方法(Oversampling Method based on Local Sets and Differential Evolution,OMLSDE)。首先,該方法計(jì)算每個(gè)樣本的局部集合[18];其次,該方法用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本,這提高了少數(shù)類的泛化性;然后,該方法用差分進(jìn)化[19]去優(yōu)化可疑的噪聲(迭代地改變?cè)肼暤膶傩曰蛭恢茫?,而不是直接移除他們;最后,該方法用局部集合?nèi)的隨機(jī)樣本去生成少數(shù)類的合成樣本。
設(shè)訓(xùn)練集X={x1,x2,…,xnmin,xnmin+1,…,xn},X?RD。其中,D為屬性的個(gè)數(shù),n為訓(xùn)練集樣本的個(gè)數(shù)。設(shè)少數(shù)類樣本集合Smin={x1,x2,…,xnmin},其中,nmin為少數(shù)類樣本的個(gè)數(shù)。設(shè)多數(shù)類樣本集合Smaj={xnmin+1,xnmin+2,…,xn}。其中,nmaj為多數(shù)類樣本的個(gè)數(shù),nmaj=nnmin。
Brighton 和Mellish(2002)[19]提出了局部集合(Local Sets,LS)的概念。局部集合受敵最近鄰(Nearest Enemy,NE)的啟發(fā)。一個(gè)樣本xi的局部集合包含一些特定的樣本,這些特定樣本到xi的距離小于xi到xi的敵最近鄰的距離。由于概念上的優(yōu)越性和簡(jiǎn)單性,實(shí)例約簡(jiǎn)和多標(biāo)簽學(xué)習(xí)已經(jīng)用到了局部集合的概念[8]。本文把NN(xi)定義為樣本xi的最近鄰,并定義敵最近鄰如下:
定義1(敵最近鄰):一個(gè)樣本xi的敵最近鄰是離xi最近的不同類的樣本。本文把樣本xi的敵最近鄰記為NE(xi)。
在式(1)中,數(shù)據(jù)集X包含少數(shù)類(Smin)和多數(shù)類(Smaj)。
基于敵最近鄰的概念,本文定義局部集合如下:
定義2(局部集合):一個(gè)樣本xi的局部集合(Local Set,LS)包含一些特定的樣本xj。這些特定樣本xj到xi的距離小于xi到其敵最近鄰NE(xi)的距離。
在式(2)中,dist(xi,xj)或dist(xi,NE(xi))代表兩個(gè)樣本的歐氏距離。
進(jìn)一步,本文定義局部集合基數(shù)如下:
定義3(局部集合基數(shù)):一個(gè)樣本xi的局部集合基數(shù)(Local Set Cardinality,LSC)是局部集合LS(xi)中的樣本個(gè)數(shù)。
在式(3)中,|·|代表數(shù)量。
圖1 用一個(gè)人工例子去可視化局部集合。在圖1 中,圓圈代表少數(shù)類,三角形代表多數(shù)類。并且,部分樣本指向它的敵最近鄰。從圖1 可以發(fā)現(xiàn),NE(A)=F,NE(C)=G,NE(B)=H,NE(E)=I,LS(A)={A,D},LS(B)={A,B,C,D},LS(C)={C},LS(E)={E}。局部集合有如下特性:
(1)一個(gè)局部集合中的樣本有相同的類標(biāo)號(hào)。
(2)如果樣本xi更接近邊界,則這個(gè)樣本xi有更小的LSC(xi)值。在圖1 中,LSC(A)=2,LSC(B)=4 和LSC(C)=1。樣本C更靠近邊界。
(3)如果越多的局部集合包含樣本xi,則樣本xi越安全。在圖1 中,噪聲樣本E位于LS(E)中,更安全的樣本C位于LS(C)和LS(B)中,更安全的樣本D位于LS(A)和LS(B)中。
(4)如果越多的樣本xj視樣本xi為敵最近鄰,則樣本xi越靠近其他類別。在圖1中,大量的樣本視噪聲樣本E和邊界樣本C為敵最近鄰
OMLSDE 的目標(biāo)是防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷,即:(1)噪聲偵察技術(shù)依賴于參數(shù);(2)合成樣本的過程依賴于參數(shù)k(c),他們會(huì)移除大量的少數(shù)類樣本,造成信息損失。
圖2 用一個(gè)人工例子來(lái)展示OMLSDE 的主要思想。首先,本文用局部集合和不平衡比去發(fā)現(xiàn)可疑的噪聲(見圖2(b))。在圖2(b)中,本文用五角星標(biāo)出被識(shí)別的可疑的噪聲樣本。其次,本文用差分進(jìn)化去優(yōu)化可疑的噪聲(即改變?cè)肼暤奈恢没驅(qū)傩裕?,而不是直接刪除他們,這防止了大量樣本信息的丟失(見圖2(b)和圖2(c),OMLSDE優(yōu)化了可疑噪聲的屬性或位置)。再次,本文用局部集合內(nèi)的隨機(jī)樣本去生成合成的少數(shù)類樣本(見圖2(d))。最后,本文用這些合成的少數(shù)類樣本來(lái)擴(kuò)充少數(shù)類樣本集。因此,本文能用這個(gè)優(yōu)化的訓(xùn)練集去改進(jìn)傳統(tǒng)的分類器。
圖2 用一個(gè)人工例子去說(shuō)明OMLSDE
現(xiàn)有的基于噪聲過濾的過抽樣方法[15—17]依賴于噪聲偵察技術(shù)的參數(shù)。而且,由于沒有考慮不平衡數(shù)據(jù)的特性,他們會(huì)誤識(shí)別大量的少數(shù)類樣本。在這個(gè)部分,用局部集合和不平衡比去偵察可疑的噪聲。
由前文的分析可知,如果越多的局部集合包含樣本xi,則樣本xi就越安全;如果越多的樣本xj視樣本xi為敵最近鄰,則樣本xi就越靠近其他類別。因此,本文定義樣本xi的有用性和有害性如下:
定義4(樣本xi的有用性):樣本xi的有用性(Useful?nes(sxi))是包含樣本xi的局部集合的個(gè)數(shù)。
定義5(樣本xi的有害性):樣本xi的有害性(Harm?fulness(x)i)是把樣本xi視為敵最近鄰的樣本個(gè)數(shù)。
在式(4)和式(5)中,樣本xi的有用性Usefulnes(sx)i代表樣本xi的安全性。樣本xi的有用害Harmfulness(x)i代表樣本xi的反常性。基于這個(gè)理解,本文用如下公式去偵察可疑噪聲。
在式(6)中,IR代表不平衡比,IR的值等于nmaj除以nmin;nmaj代表多數(shù)類樣本的個(gè)數(shù),nmin代表少數(shù)類樣本的個(gè)數(shù)。
在不平衡數(shù)據(jù)中,當(dāng)本文計(jì)算有用性和有害性的時(shí)候,少數(shù)類樣本的有用性相比于它的有害性會(huì)較小。這是因?yàn)槎鄶?shù)類的樣本數(shù)目(產(chǎn)生有害性)大于少數(shù)類的樣本數(shù)目(產(chǎn)生有用性)。同理,多數(shù)類樣本的有害性相比于它的有用性會(huì)較小。通過考慮不平衡比IR,式(6)能發(fā)現(xiàn)更多的多數(shù)類樣本的噪聲。而且,式(6)也能保留更多的少數(shù)類樣本,從而提高少數(shù)類的泛化性。
圖2(b)展示了用式(6)去發(fā)現(xiàn)可疑噪聲的結(jié)果。從圖2 中可以發(fā)現(xiàn),算法能發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本。并且,式(6)不需要任何參數(shù)。
大多數(shù)基于噪聲過濾的過抽樣方法[15—17]會(huì)直接去除可疑噪聲,這會(huì)導(dǎo)致信息損失。在這個(gè)部分,本文用差分進(jìn)化去優(yōu)化可疑噪聲的屬性(位置)。設(shè)可疑噪聲集合和安全樣本集合分別為SuspiciousSet和SafeSet,X=SuspiciousSet∪SafeSet。
差分進(jìn)化[19]是一個(gè)迭代的優(yōu)化算法。它包括初始步驟、變異步驟、交叉步驟和選擇步驟。
在初始步驟中,本文把每一個(gè)可疑噪聲xi?SuspiciousSet視為一個(gè)目標(biāo)向量ti,g。設(shè)目標(biāo)向量集合為Tg={t1,g,…,ti,g,…},其中:
在式(7)中,g代表迭代次數(shù),設(shè)Gmax為最大迭代次數(shù),則g?{1,2,…,Gmax};d代表第d個(gè)屬性,d?{1,2,…,D};ωi代表目標(biāo)向量ti,g的類標(biāo)號(hào)。
變異步驟為每一個(gè)目標(biāo)向量ti,g生成一個(gè)變異向量vi,g。本文使用DE/Rand/1[19]策略去生成變異向量vi,g。設(shè)變異向量集合為Vg={v1,g,…,vi,g,…},其中:
在式(8)中,本文從安全樣本集合SafeSet中隨機(jī)地選取3 個(gè)樣本xr1、xr2和xr3;Fi是用于控制變異程度的縮放因子。
在交叉步驟中,本文會(huì)用目標(biāo)向量ti,g和變異向量vi,g去生成一個(gè)測(cè)試向量ui,g。本文用DE/CurrentToRand/1策略去生成測(cè)試向量ui,g。設(shè)測(cè)試向量集合為Ug={u1,g,…,ui,g,…},其中:
在式(9)中,K是0到1之間的隨機(jī)值。在式(7)至式(9)中,差分進(jìn)化用目標(biāo)向量ti,g和變異向量vi,g的線性組合來(lái)生成測(cè)試向量ui,g。值得注意的是,測(cè)試向量ui,g和目標(biāo)向量ti,g具有相同的類別ωi。
在選擇步驟中,本文用式(10)去決定是否用測(cè)試向量集合Ug更新目標(biāo)向量集合Tg+1。
在式(10)中,C代表一個(gè)特定的分類器。在實(shí)驗(yàn)中,本文用最近鄰分類器[10]作為這個(gè)特定的分類器C。本文用安全樣本集合SafeSet去訓(xùn)練分類器C。accuracy(C,Ug)代表分類器C在Ug上的分類正確率,accuracy(C,Tg)同理。如果分類器C在Ug上的分類正確率大于或等于分類器C在Tg上的分類正確率,那么本文就用Ug更新目標(biāo)向量集合Tg+1。差分進(jìn)化的停止條件是accuracy(C,Tg)等于1。換言之,當(dāng)分類器C能正確分類所有的(被優(yōu)化后的)可疑噪聲時(shí),差分進(jìn)化停止。
差分進(jìn)化算法有一個(gè)參數(shù)Fi。本文用文獻(xiàn)[19]的方法去設(shè)置參數(shù)Fi。
其中,rand2和rand3是0到1之間的隨機(jī)值。文獻(xiàn)[19]建議,SFGSS=8,SFHC=20,F(xiàn)l=0.1,F(xiàn)u=0.9,τ1=0.1,τ2=0.03,τ3=0.07。
本文用差分進(jìn)化算法去迭代地改變目標(biāo)向量(可疑噪聲)的屬性和位置,直到一個(gè)特定的分類器C能正確地分類所有的目標(biāo)向量(可疑噪聲)。如圖2(b)和圖2(c)所示,當(dāng)差分進(jìn)化停止的時(shí)候,本文能將所有的可疑噪聲優(yōu)化到正確的位置,從而防止信息損失,也能改進(jìn)其分布。差分進(jìn)化的偽代碼如下頁(yè)表1所示。
表1 差分進(jìn)化算法(DE)
設(shè)分類器C的時(shí)間復(fù)雜度為O(C),可疑的噪聲集合SuspiciousSet的樣本數(shù)為NSE。如文獻(xiàn)[19]推導(dǎo),差分進(jìn)化的時(shí)間復(fù)雜度為O(Gmax×NSE×C)。
OMLSDE 算法有兩個(gè)參數(shù),即參數(shù)N和參數(shù)Fi。參數(shù)N指的是,基于每個(gè)少數(shù)類樣本需要生成的合成樣本數(shù)目[9]。參數(shù)Fi用于調(diào)整差分進(jìn)化。
下頁(yè)表2中,算法的第1至第3步用于搜索局部集合。算法的第4 和第5 步用局部集合和不平衡比發(fā)現(xiàn)可疑噪聲。算法的第6和第7步用差分進(jìn)化去優(yōu)化可疑噪聲。算法的第8 至第19 步用每個(gè)少數(shù)類樣本和其局部集合中的隨機(jī)樣本去產(chǎn)生合成的少數(shù)類樣本(見圖2(d))。在第8和第9步中,本文僅把局部集合基數(shù)大于1的樣本作為基樣本去生成合成樣本。在第14步中,用rand(0,1)產(chǎn)生0到1的隨機(jī)值。
表2 基于局部集合和差分進(jìn)化的過抽樣方法(OMLSDE)
由于使用kd 樹,因此第2 步的時(shí)間復(fù)雜度是O(nlogn)。第3至第5步的時(shí)間復(fù)雜度是O(n)。第6和第7步(差分進(jìn)化)的時(shí)間復(fù)雜度是O(Gmax×NSE×C)。第8至第19步的時(shí)間復(fù)雜度是O(N×D×nmin)。這是因?yàn)樗c少數(shù)類樣本數(shù)目nimn、參數(shù)N和屬性D有關(guān)。因此,OMLSDE 算法的時(shí)間復(fù)雜度是O(Gmax×NSE×C)+O(N×D×nmin)。
本文從UCI數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.php)上選出15個(gè)實(shí)驗(yàn)所需的真實(shí)數(shù)據(jù)集。表3給出了這15 個(gè)真實(shí)數(shù)據(jù)集的具體信息。這些信息包括樣本數(shù)、屬性數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)、不平衡比和數(shù)據(jù)集縮寫。在表3 中,如果一個(gè)真實(shí)數(shù)據(jù)集是二類數(shù)據(jù)集,本文把樣本數(shù)量較少的類作為少數(shù)類,同時(shí)把樣本數(shù)量較多的類作為多數(shù)類;如果一個(gè)真實(shí)數(shù)據(jù)集是多類數(shù)據(jù)集,本文選擇數(shù)量最少的類作為少數(shù)類,并將其他類合并為一個(gè)大的多數(shù)類。
表3 實(shí)驗(yàn)的數(shù)據(jù)集
本文用十折交叉驗(yàn)證把每個(gè)數(shù)據(jù)集劃分為測(cè)試集和訓(xùn)練集。十折交叉驗(yàn)證會(huì)重復(fù)運(yùn)行實(shí)驗(yàn)10次。在每一次實(shí)驗(yàn)中,十折交叉驗(yàn)證把每個(gè)數(shù)據(jù)集劃分為10等份,訓(xùn)練集包含9份,測(cè)試集包含1份。
在本文的實(shí)驗(yàn)中,本文把少數(shù)類看作正例,把多數(shù)類看作負(fù)例。另外,本文選取AUC、F-measure 和G-mean 作為評(píng)價(jià)指標(biāo)。AUC 值越高,代表算法的總體性能越好。F-measure 線性地結(jié)合了召回率Recall 和精確度Precision。F-measure 值越高,代表算法能把正例分類得越準(zhǔn)確。G-mean 的公式包含了正例的正確率和負(fù)例的正確率。G-mean在保持正、負(fù)例分類精度平衡的情況下,最大化這兩類的精度。假定對(duì)負(fù)例的分類精度很高,而對(duì)正例的分類精度很低,則會(huì)導(dǎo)致低的G-mean值;而只有當(dāng)兩者都較高時(shí),才會(huì)得到高的G-mean 值。因此,G-mean 能衡量數(shù)據(jù)的整體分類性能。
下頁(yè)表4展示了實(shí)驗(yàn)的對(duì)比算法。ADASYN、SMOTEENN、SMOTE-IPF、k-means SMOTE[20]、RSMOTE 和Adaptive-SMOTE 是流行的過抽樣方法。表4 也給出了對(duì)比算法的參數(shù)。注意,本文把對(duì)比方法的參數(shù)設(shè)置為他們的標(biāo)準(zhǔn)版本。在提出的OMLSDE 中,本文需要去設(shè)置兩個(gè)參數(shù),即N和Fi。本文取N=2。本文采用文獻(xiàn)[19]的建議來(lái)設(shè)置參數(shù)Fi(具體見式(11))。
表4 對(duì)比方法
在實(shí)驗(yàn)中,本文把k 近鄰分類器(KNN,k=3)用作測(cè)試的分類器。本文用對(duì)比的過抽樣方法(見表4)去改進(jìn)不平衡的真實(shí)數(shù)據(jù)集(見表3)。然后,本文用KNN去測(cè)試對(duì)比方法的性能。
圖3和圖4展示了對(duì)比算法在人工數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。其中,噪聲與周圍多數(shù)樣本有不同的類標(biāo)號(hào)。在圖3和圖4中,三角形的周圍包含一些圓圈噪聲。
圖3 對(duì)比算法在人工數(shù)據(jù)集1上的結(jié)果
圖4 對(duì)比算法在人工數(shù)據(jù)集2上的結(jié)果
在圖3和圖4中,ADASYN和Adaptive-SMOTE會(huì)生成噪聲。ADASYN會(huì)在更難學(xué)習(xí)的區(qū)域生成更多的少數(shù)類的合成樣本(即邊界上)。因此,在ADASYN中,原始數(shù)據(jù)集中的噪聲會(huì)降低合成樣本的質(zhì)量。Adaptive-SMOTE用inner子集和danger子集去產(chǎn)生少數(shù)類的合成樣本。但是原始數(shù)據(jù)集中的噪聲和不安全的邊界樣本會(huì)降低inner 子集和danger子集的質(zhì)量,從而使Adaptive-SMOTE生成噪聲。
在圖3 和圖4 中,盡管k-means SMOTE 和RSMOTE 生成了相對(duì)安全的少數(shù)類的合成樣本,但是他們不能去除原始數(shù)據(jù)集中的噪聲。另外,SMOTE-ENN和SMOTE-IPF用噪聲過濾器去移除原始數(shù)據(jù)集和合成樣本中的噪聲。但是,他們的噪聲偵察技術(shù)依賴于參數(shù),這導(dǎo)致表現(xiàn)不穩(wěn)定。而且,他們會(huì)移除大量的少數(shù)類樣本(即被識(shí)別的少數(shù)類的可疑噪聲),這會(huì)造成信息損失。
圖3 和圖4 也顯示,OMLSDE 能改變和優(yōu)化噪聲的位置和屬性,而不是直接刪除他們,這防止了信息損失。并且,OMLSDE用局部集合內(nèi)的插值去生成安全的少數(shù)類的合成樣本。
下頁(yè)表5至表7展示了對(duì)比算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。在每一行中,本文用下劃線來(lái)標(biāo)出最高的值。
表5 對(duì)比算法在UCI數(shù)據(jù)集上的平均AUC結(jié)果(單位:%)
表5 展示了對(duì)比算法在真實(shí)數(shù)據(jù)集上的平均AUC值。OMLSDE 在10 個(gè)數(shù)據(jù)集上取得了最高的平均AUC值。在“平均值”行中,OMLSDE也取得了最高的所有數(shù)據(jù)集的平均AUC值。
表6展示了對(duì)比算法在真實(shí)數(shù)據(jù)集上的平均F-mea-sure 值。OMLSDE 在9 個(gè)數(shù)據(jù)集上取得了最高的平均F-measure值。在“平均值”行中,OMLSDE也取得了最高的所有數(shù)據(jù)集的平均F-measure值。
表6 對(duì)比算法在UCI數(shù)據(jù)集上的平均F-measure結(jié)果(單位:%)
表7展示了對(duì)比算法在真實(shí)數(shù)據(jù)集上的平均G-mean值。OMLSDE在11個(gè)數(shù)據(jù)集上取得了最高的平均G-mean 值。在“平均值”行中,OMLSDE 也取得了最高的所有數(shù)據(jù)集的平均G-mean值。
表7 對(duì)比算法在UCI數(shù)據(jù)集上的平均G-mean結(jié)果(單位:%)
本文也采用Friedmen檢驗(yàn)來(lái)分析表5至表7的數(shù)據(jù)。本文設(shè)置Friedmen檢驗(yàn)的顯著性水平為0.05。表5 至表7 的“平均秩”行展示了Friedmen檢驗(yàn)的平均秩的結(jié)果。如果一個(gè)算法性越好,那么它應(yīng)該具有越高的平均秩的值。從表5至表7中可以看出,OMLSDE具有最高的平均秩。
另外,從表5 至表7 中還可以發(fā)現(xiàn),OMLSDE 在German(D3)、Abalone(D6)、Spambase(D8)、Wisconsin Diagnostic Breast Cancer(D10)上表現(xiàn)一般。這是因?yàn)?,沒有一個(gè)算法能適應(yīng)所有的數(shù)據(jù)分布。OMLSDE可能會(huì)在一些包含更多噪聲的數(shù)據(jù)集明顯地優(yōu)于對(duì)比算法。
Friedmen檢驗(yàn)結(jié)果顯示,表5至表7的數(shù)據(jù)存在顯著差別。因此,本文又使用Wilcoxon 符號(hào)秩檢驗(yàn)來(lái)分析OMLSDE 是否與對(duì)比方法存在顯著差別。本文設(shè)置Wilcoxon 符號(hào)秩檢驗(yàn)的顯著水平為0.05。如果OMLSDE顯著優(yōu)于對(duì)比方法,那么用符號(hào)“+”標(biāo)記;如果OMLSDE顯著劣于對(duì)比方法,那么用符號(hào)“-”標(biāo)記;如果OMLSDE 與對(duì)比方法沒有顯著差別,那么用符號(hào)“~”標(biāo)記。從表5 至表7 中“Wilcoxon”行的“+”可以看出,OMLSDE顯著優(yōu)于對(duì)比方法。
總的來(lái)說(shuō),表5至表7的數(shù)據(jù)證明,在改進(jìn)少數(shù)類的分類正確率和總的分類效果上,OMLSDE 顯著優(yōu)于對(duì)比方法。這是因?yàn)镺MLSDE具有如下優(yōu)勢(shì):(1)噪聲偵察技術(shù)是無(wú)參數(shù)化的;(2)合成樣本的過程是無(wú)參化的;(3)OMLSDE能夠去優(yōu)化可疑的噪聲,而不是直接刪除他們,這防止了信息損失和改進(jìn)了原始數(shù)據(jù)的分布。
為了防止噪聲生成和解決基于噪聲過濾的過抽樣方法的缺陷(噪聲偵察技術(shù)和合成樣本的過程依賴于參數(shù);并且,他們會(huì)移除大量的少數(shù)類樣本,造成信息損失),本文提出了一種基于局部集合和差分進(jìn)化的過抽樣方法OMLSDE。OMLSDE 的主要思路如下:首先,OMLSDE 計(jì)算每個(gè)樣本的局部集合;其次,用局部集合和不平衡比去發(fā)現(xiàn)更多的多數(shù)類噪聲,并且保留更多的少數(shù)類樣本,以提高少數(shù)類的泛化性;然后,用差分進(jìn)化去迭代地改變?cè)肼暤膶傩曰蛭恢?,而不是直接移除他們;最后,用局部集合?nèi)的隨機(jī)樣本去生成少數(shù)類的合成樣本。OMLSDE的時(shí)間復(fù)雜度是O(Gmax×NSE×C)+O(N×D×nmin)。
在仿真實(shí)驗(yàn)中,本文用2 個(gè)人工數(shù)據(jù)集、15 個(gè)真實(shí)數(shù)據(jù)集和6 個(gè)流行的過抽樣方法來(lái)驗(yàn)證OMLSDE。結(jié)果顯示:(1)OMLSDE 的噪聲偵察技術(shù)不需要參數(shù);(2)OMLSDE能有效防止噪聲生成,優(yōu)化噪聲的屬性,且避免信息損失;(3)就AUC、F-measure 和G-mean 指標(biāo)而言,在訓(xùn)練KNN 分類器上,OMLSDE 明顯優(yōu)于6 個(gè)先進(jìn)的過抽樣方法。