国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對(duì)不平衡數(shù)據(jù)的PSO-DEC-IFSVM分類算法

2019-09-06 11:42:54魏建安黃海松康佩棟
數(shù)據(jù)采集與處理 2019年4期
關(guān)鍵詞:超平面信息量向量

魏建安 黃海松 康佩棟

(貴州大學(xué)現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng),550025)

引 言

隨著大數(shù)據(jù)時(shí)代的到來(lái),信息量激增,由此產(chǎn)生大量的不平衡數(shù)據(jù)集,即數(shù)據(jù)集中某類樣本數(shù)遠(yuǎn)小于其他類的樣本數(shù),其中樣本數(shù)較少的類叫做正類,樣本數(shù)較多的類稱為負(fù)類。不平衡數(shù)據(jù)的分類作為數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的重要研究?jī)?nèi)容,近年來(lái)越來(lái)越多的國(guó)內(nèi)外學(xué)者對(duì)其進(jìn)行了大量的研究[1-3],并將其廣泛應(yīng)用于故障診斷、醫(yī)療診斷及信用卡欺詐[4-8]等領(lǐng)域。

在眾多機(jī)器學(xué)習(xí)算法中,支持向量機(jī)(Support vector machine,SVM)算法是依據(jù)統(tǒng)計(jì)學(xué)習(xí)中VC維理論以及結(jié)構(gòu)風(fēng)險(xiǎn)最小化等原則而提出的一種學(xué)習(xí)方法,能夠有效地處理小樣本、非線性與高維度等問(wèn)題,且作為一種有效的分類算法,已經(jīng)獲得廣泛的應(yīng)用。但傳統(tǒng)SVM對(duì)原始數(shù)據(jù)的處理是基于樣本集是平衡的,即正負(fù)類樣本的數(shù)目相同。顯然,對(duì)于不平衡數(shù)據(jù)傳統(tǒng)SVM算法的分類效果并不理想,這是因?yàn)楫?dāng)數(shù)據(jù)集不平衡時(shí)實(shí)際分類超平面會(huì)向少數(shù)類方向偏移,從而導(dǎo)致少數(shù)類樣本的識(shí)別率變低。目前,對(duì)于傳統(tǒng)SVM算法可以從以下兩個(gè)方面進(jìn)行改進(jìn)以獲得更加理想的分類效果:(1)重構(gòu)原始數(shù)據(jù)集,即通過(guò)過(guò)(欠)采樣方式分別對(duì)正負(fù)類樣本集進(jìn)行重構(gòu),常見(jiàn)的方式有:對(duì)于過(guò)采樣有基于SMOTE(Synthetic minority oversampling technique)的過(guò)采樣方式及其改進(jìn)算法等[9-10],對(duì)于欠采樣方式有隨機(jī)欠采樣以及基于樣本特性的欠采樣等[11-12]。但是實(shí)際上以上方法是通過(guò)一定的準(zhǔn)則通過(guò)增加或者減少原始數(shù)據(jù)集的樣本數(shù)來(lái)調(diào)節(jié)數(shù)據(jù)集本身的不平衡性,具有隨機(jī)性較大、盲目性較高、穩(wěn)定性較差等缺點(diǎn),且當(dāng)數(shù)據(jù)集嚴(yán)重失衡時(shí),所利用的采樣方法可能效果不佳。(2)改進(jìn)的SVM算法,即針對(duì)正負(fù)類樣本數(shù)目上的差異,通對(duì)算法本身的改進(jìn),以增強(qiáng)算法本身對(duì)不平衡數(shù)據(jù)的適應(yīng)性。常見(jiàn)的改進(jìn)算法有:不同懲罰因子(Different error costs,DEC)算法及其改進(jìn)算法通過(guò)正負(fù)類樣本賦予不同的懲罰因子以提高分類的準(zhǔn)確性[13-14];模糊支持向量機(jī)(Fuzzy support vector machine,FSVM)及其改進(jìn)算法通過(guò)將模糊數(shù)學(xué)和支持向量機(jī)相結(jié)合以克服噪聲或野點(diǎn)對(duì)支持向量的影響來(lái)提高分類的準(zhǔn)確性[15-17];此外,還有在賦予不同的懲罰因子的同時(shí),增加新的約束條件的近支持向量機(jī)法等[18]。

因模糊支持向量機(jī)在處理不平衡數(shù)據(jù)時(shí)有較好的表現(xiàn),故本文選取FSVM進(jìn)行不平衡數(shù)據(jù)的分類。現(xiàn)階段比較典型的模糊支持向量機(jī)的改進(jìn)方式有:李苗苗等[19]在設(shè)計(jì)模糊隸屬度函數(shù)時(shí)考慮了每個(gè)樣本點(diǎn)到類型中心距離的同時(shí)還考慮到了該樣本點(diǎn)最鄰近的K個(gè)其他樣本點(diǎn)的距離。Batuwita等[20]將模糊支持向量機(jī)與DEC算法進(jìn)行結(jié)合提出一種FSVM-CIL算法,用于處理不平衡數(shù)據(jù)以及噪聲樣本,該算法在設(shè)計(jì)模糊隸屬函數(shù)時(shí)與傳統(tǒng)FSVM類似,僅考慮樣本到類中心的距離;鞠哲等[21]在設(shè)計(jì)FSVM的模糊隸屬度函數(shù)時(shí)考慮樣本到類中心距離的同時(shí)還考慮到了樣本周圍的緊密度,并將FSVM與DEC有機(jī)地結(jié)合,即DEC-FSVM-Ju算法。但是鞠哲等的算法存在以下缺點(diǎn):(1)算法復(fù)雜程度增加,同時(shí)未對(duì)增加的參數(shù)合理優(yōu)化;(2)沒(méi)有考慮到樣本特性的影響;(3)優(yōu)化效果不明顯。針對(duì)上述算法的缺點(diǎn),本文在設(shè)計(jì)模糊隸屬度函數(shù)時(shí)考慮樣本到類中心距離以及樣本周圍緊密度的同時(shí),還考慮到了樣本信息量特性的影響并賦予不同樣本不同的權(quán)值,此外將改進(jìn)的FSVM算法(Improved fuzzy support vector machine,IFSVM)與DEC算法進(jìn)行結(jié)合,并應(yīng)用粒子群算法(Particle swarm optimization,PSO)對(duì)該改進(jìn)算法引入的參數(shù)進(jìn)行尋優(yōu),得到PSO-DEC-IFSVM算法。最后將PSO-DEC-IFSVM算法應(yīng)用于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的6類不同的不平衡數(shù)據(jù)集中。實(shí)驗(yàn)證明:本文所提算法相對(duì)于已有算法在處理含有噪聲的不平衡數(shù)據(jù)集分類時(shí)具有更好的分類效果。本文結(jié)果為不平衡數(shù)據(jù)的分類提供了一個(gè)有效的理論模型。

1 算法簡(jiǎn)介

1.1 傳統(tǒng)SVM算法

以傳統(tǒng)二分類為例,SVM的基本原理為:從樣本(或者核)空間內(nèi)尋求一個(gè)最優(yōu)分類超平面,使得正負(fù)類樣本分隔間距達(dá)到最大化。假定給定訓(xùn)練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,其中:xi,yi分別為訓(xùn)練集的第i個(gè)樣本以及樣本的標(biāo)簽。在SVM算法中引入核函數(shù)(K)將訓(xùn)練集引入高維空間,即K(x,y)=φ(x)Tφ(y),其中φ(x)為非線性映射;同時(shí)引入松弛變量ξi≥0,i=1,2,3,…,n與懲罰因子C,綜上,給出標(biāo)準(zhǔn)的支持向機(jī)一般形式為

對(duì)于式(1)的優(yōu)化求解,可引入Largrandge乘子法轉(zhuǎn)化為對(duì)偶形式,即

假定對(duì)偶問(wèn)題的最優(yōu)解為α*,則可反求出數(shù)據(jù)集最優(yōu)分類超平面的法向量ω*與截距b*,其解法如式(3,4)所示,最終利用傳統(tǒng)SVM方法構(gòu)造出如式(5)所示的決策函數(shù)。

1.2 FSVM算法與DEC算法的結(jié)合算法

事實(shí)上,實(shí)際生產(chǎn)生活中的數(shù)據(jù)集往往是不平衡的,相比傳統(tǒng)SVM算法分配給每一個(gè)樣本相同的權(quán)值,F(xiàn)SVM算法和DEC算法相結(jié)合的DEC-FSVM算法根據(jù)樣本的不平衡性以及重要性分配不同的權(quán)值,以提高分類的準(zhǔn)確率。同上,對(duì)于二分類而言,假定給定訓(xùn)練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,另假定原始數(shù)據(jù)集中有m個(gè)樣本為正類樣本(即yi=1,i=1,2,3,…,m),則剩余的n-m個(gè)樣本為負(fù)類樣本(即yi=-1,i=m+1,m+2,m+3,…,n),則用于不平衡數(shù)據(jù)分類的模糊支持向量機(jī)的一般形式如式(6)所示。

式中:Cp,Cn分別代表正負(fù)類樣本的懲罰因子,以表示兩類間的不平衡性;,分別代表正負(fù)類樣本的隸屬度函數(shù),以反映該樣本在其所屬類別中的重要性。從式(6)可以看出相對(duì)于傳統(tǒng)SVM算法,DEC-FSVM從懲罰因子與隸屬度函數(shù)的引入方向作了改進(jìn),這將更有利于不平衡數(shù)據(jù)的分類。

2 改進(jìn)的模糊支持向量機(jī)(IFSVM)工作機(jī)理

2.1 模糊隸屬度函數(shù)的設(shè)計(jì)

Lin等[15]提出將樣本到其類中心的距離作為衡量樣本重要性的指標(biāo)。即將模糊隸屬度函數(shù)定義為

式中:,分別代表正負(fù)類的第i個(gè)樣本到其類中心的距離;δ為引入的一個(gè)非常小的正數(shù),用來(lái)保證隸屬度為正。但是當(dāng)數(shù)據(jù)集分布不規(guī)則時(shí),運(yùn)用該方式很可能將噪聲或野點(diǎn)作為正常的正負(fù)類樣本進(jìn)行訓(xùn)練,最終導(dǎo)致算法的整體分類精度降低。如圖1(a)數(shù)據(jù)集1所示,假設(shè)P1為一噪聲點(diǎn),對(duì)于正常樣本集(以負(fù)類為例)來(lái)說(shuō)僅考慮樣本到類中心的距離時(shí)P1將被當(dāng)做正常點(diǎn)進(jìn)行訓(xùn)練賦予正常隸屬度函數(shù)值,顯然是不合理的。

圖1 不同數(shù)據(jù)集下噪聲點(diǎn)與正常樣本的位置關(guān)系Fig.1 Relationship between the noise points and the normal samples under different data sets

針對(duì)上述問(wèn)題,文獻(xiàn)[21]中提出在設(shè)計(jì)模糊隸屬度函數(shù)時(shí)需綜合考慮樣本到類中心的間距及其周圍的緊密度,且其緊密度的衡量方式應(yīng)用K-近鄰域準(zhǔn)則,即如圖1(a)所示:在圖中擬取K=3,對(duì)于負(fù)類樣本來(lái)說(shuō)對(duì)于噪聲點(diǎn)P1的距離最近的3-近鄰域點(diǎn)集為{P2,P3,P4},負(fù)類樣本的任一正常樣本P5的距離最近的 3-近鄰域點(diǎn)集為{P6,P7,P8}。顯然,負(fù)類的正常樣本點(diǎn)P5的3-近鄰域點(diǎn)集的距離均值大于噪聲點(diǎn)P1的3-近鄰域點(diǎn)集的距離均值,故文獻(xiàn)[21]引入式(10,11)定義樣本周圍的緊密度為

式中:(xi)為正(負(fù))類的第i個(gè)樣本的K-近鄰域的集合,顯然如果某樣本的值越小則該樣本屬于該正(負(fù))類可能性越大。反之如果該樣本為噪聲或者野點(diǎn)的值將會(huì)較大,故將模糊隸屬度函數(shù)定義如下

式中:α為一個(gè)權(quán)值,用于均衡樣本到類中心與樣本的近鄰域密度重要性,故對(duì)于不同數(shù)據(jù)集,α(α∈{0,0.1,0.2,…,1})值合理的選取極為重要;δ的意義同上;M(M∈{0.1,0.2,0.3,…,1})用于調(diào)整所有樣本模糊隸屬度函數(shù)的范圍,故值的選取亦較為重要;此外,對(duì)于樣本K-近鄰域中的K值,為了簡(jiǎn)單起見(jiàn),文獻(xiàn)[21]在隸屬度函數(shù)設(shè)計(jì)時(shí)將所有樣本取為同一值,但是由圖1(a,b)可以看出,對(duì)于1,2兩種不同的數(shù)據(jù)集,如果K值同時(shí)取為一定值是不合理的,對(duì)于數(shù)據(jù)集1來(lái)說(shuō)K取為3是合理的,但對(duì)于數(shù)據(jù)集2,假設(shè)P13為一噪聲點(diǎn),對(duì)于負(fù)類樣本來(lái)說(shuō)距離噪聲點(diǎn)P13最近的3-近鄰域點(diǎn)集為{P14,P15,P16},距離負(fù)類樣本的一正常樣本P9最近的3-近鄰域點(diǎn)集為{P10,P11,P12}。顯然,負(fù)類的正常樣本點(diǎn)P5的3-近鄰域點(diǎn)集的距離均值小于噪聲點(diǎn)P13的3-近鄰域點(diǎn)集的距離均值,在這種情況下,噪聲樣本P13會(huì)被當(dāng)作正常的負(fù)類樣本進(jìn)行處理,這將會(huì)在較大程度上影響分類精度。

綜上,對(duì)于以上所提的α,M,K等參數(shù)在利用DEC-IFSVM進(jìn)行分類時(shí)均要進(jìn)行優(yōu)化,參數(shù)優(yōu)化將于2.4節(jié)進(jìn)行介紹。

2.2 FSVM算法的改進(jìn)

當(dāng)樣本分布不規(guī)則時(shí),前文提到文獻(xiàn)[21]對(duì)FSVM算法改進(jìn)時(shí)僅考慮到引入樣本的緊密度來(lái)設(shè)計(jì)模糊隸屬度函數(shù),而沒(méi)有考到樣本本身的特性。眾所周知:在運(yùn)用傳統(tǒng)SVM分類器進(jìn)行分類時(shí),分類超平面的確定只與支持向量有關(guān),且SVM算法是通過(guò)分類間隙的最大化來(lái)設(shè)計(jì)分類超平面,以期獲取較好的推廣能力。同時(shí)文獻(xiàn)[12]中提到:樣本的信息量,即樣本點(diǎn)到?jīng)Q策面的距離是判斷該點(diǎn)性質(zhì)的主要因素,且距離越近對(duì)分類超平面的影響越大。故本文在設(shè)計(jì)模糊隸屬度函數(shù)時(shí)需要對(duì)信息量大的樣本點(diǎn)賦予較大的隸屬度函數(shù)值。據(jù)此,本文引入如式(14)所示的樣本信息量的評(píng)價(jià)方式。

式中φ(xi

p(n))為第i個(gè)正(負(fù))類樣本信息量。圖2為某數(shù)據(jù)不平衡下的理想超平面與實(shí)際超平面的位置示意圖。從圖2可以看出:對(duì)于理想分類超平面,正負(fù)類樣本中的支持向量都是距離超平面很近的的點(diǎn),故擁有最大的信息量;而對(duì)于偏移過(guò)后的分類超平面,正類樣本的支持向量為距離分類超平面較遠(yuǎn)的樣本點(diǎn),負(fù)類的支持向量不變?nèi)匀粸榫嚯x超平面較近的點(diǎn)。故運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行分類時(shí),由于分類超平面發(fā)生嚴(yán)重偏移,正類樣本φ(xip)信息量越小,相應(yīng)的樣本信息量越大;反之負(fù)類樣本φ(xin)信息量越大時(shí)相應(yīng)的樣本信息量越大。另ω*與b分別代表傳統(tǒng)SVM的分類平類超平面的法向量與閾值,故改進(jìn)后的FSVM的隸屬度函數(shù)如式(15,16)所示。

圖2 數(shù)據(jù)不平衡下的理想超平面與實(shí)際超平面的位置Fig.2 Ideal hyperplane and the position of actual hyperplane under data imbanlance

式(15)中:φip為第i個(gè)正類樣本的信息量,乘號(hào)(*)右邊部分考慮了樣本到類中心的距離及樣本緊密度兩個(gè)因素,而乘號(hào)(*)左邊為正類樣本信息量影響的表達(dá)式。上文提到運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行不平衡數(shù)據(jù)分類時(shí),由于分類超平面發(fā)生嚴(yán)重偏移,正類樣本φ(xip)信息量的值越小相應(yīng)的樣本信息量越大,故引入式(15)用于滿足此規(guī)律,最終Sip即為正類樣本基于改進(jìn)的模糊支持向量機(jī)的隸屬度。同樣地,在式(16)中:φin為第i個(gè)負(fù)類樣本的信息量,乘號(hào)(*)右邊部分亦考慮了樣本到類中心的距離及樣本緊密度兩個(gè)因素,乘號(hào)(*)左邊為負(fù)類樣本信息量影響的表達(dá)式。同樣上文提到運(yùn)用傳統(tǒng)支持向量機(jī)進(jìn)行不平衡數(shù)據(jù)分類時(shí),由于分類超平面發(fā)生嚴(yán)重偏移,負(fù)類樣本φ(xip)信息量的值越大時(shí)相應(yīng)的樣本信息量越大,故引入式(16)用于滿足此規(guī)律,最終Sin即為負(fù)類樣本基于改進(jìn)的模糊支持向量機(jī)的隸屬度。

另外,由于利用式(15,16)求正負(fù)類樣本隸屬度時(shí),兩式信息量影響的表達(dá)式不同,所以需引入平衡因子Q來(lái)保證正負(fù)類隸屬度值范圍一致。其算法為:正類所有訓(xùn)練樣本的信息量影響值的均值除以負(fù)類所有訓(xùn)練樣本的信息量影響值的均值所得到,表達(dá)式為

2.3 DEC-IFSVM懲罰因子的設(shè)置

眾所周知,DEC算法通過(guò)賦予正負(fù)類樣本不同的懲罰因子來(lái)提高SVM算法對(duì)不平衡數(shù)據(jù)適應(yīng)性,對(duì)于正類樣本賦予較大的懲罰因子,而負(fù)類樣本賦予較小的懲罰因子。故本文提出DEC協(xié)同IFSVM優(yōu)化算法,既有模糊支持向量機(jī)處理噪聲(野點(diǎn))的優(yōu)勢(shì),又可以容易應(yīng)對(duì)不平衡數(shù)據(jù)?;跇颖咎匦缘腎FSVM的基本原理與算法上文已作闡述,對(duì)于懲罰因子的確定,文獻(xiàn)[21-22]采取正負(fù)類樣本比值的設(shè)定方式,且有較好分類效果,故本文亦采取此方式,即正負(fù)類的懲罰因子的算法為:Cp=C(nm)/m,Cn=C,其中:Cp為正類的懲罰因子;Cn為負(fù)類的懲罰因子;n為訓(xùn)練樣本總數(shù);m為訓(xùn)練樣本中正類樣本的個(gè)數(shù);C為懲罰因子的初始參數(shù)且C>0。

綜上,改進(jìn)的DEC-IFSVM算法的對(duì)偶形式為

2.4 基于PSO算法的DEC-IFSVM參數(shù)優(yōu)化

綜合分析上文可知,運(yùn)用DEC-IFSVM算法進(jìn)行不平衡數(shù)據(jù)分類時(shí),在算法復(fù)雜度增加的同時(shí),為了得到更加良好的分類效果,需要對(duì)引入的α,δ,M,C,K等參數(shù)進(jìn)行優(yōu)化以及初值賦予。此外本文采用徑向基(Radial basis function,RBF)核函數(shù),故核函數(shù)中的參數(shù)g亦需要進(jìn)行優(yōu)化。

在上述需要進(jìn)行優(yōu)化的參數(shù)中:δ的初值賦予需要多次實(shí)驗(yàn)進(jìn)行擇優(yōu)選取,而K,α,M,C,g五個(gè)參數(shù)擬利用PSO算法進(jìn)行優(yōu)化。

2.4.1 PSO算法簡(jiǎn)介

PSO算法是受鳥(niǎo)類捕食時(shí)搜索附近食物區(qū)域行為的啟發(fā),將問(wèn)題的潛在解用不同的粒子來(lái)表示,尋找合適的適應(yīng)度函數(shù)來(lái)確定各粒子的適應(yīng)度。另外,PSO算法是一種并行的隨機(jī)搜索算法,可以實(shí)現(xiàn)對(duì)解空間的搜索,同時(shí),PSO算法具有控制參數(shù)最少、算法簡(jiǎn)單等優(yōu)點(diǎn),一經(jīng)提出便得到廣泛應(yīng)用[7]。

2.4.2 參數(shù)優(yōu)化

本文以不平衡數(shù)據(jù)分類效果的評(píng)價(jià)機(jī)制作為目標(biāo)函數(shù),K,α,M,C,g作為待求粒子,本文實(shí)驗(yàn)中采取十折交叉驗(yàn)證,對(duì)每一折的參數(shù)均進(jìn)行優(yōu)化。假定待求解的種群大小為N,迭代代數(shù)為G,Pi(i∈ 1,2,3,…,N)表示種群中i個(gè)體的位置,Vi(i∈ 1,2,3,…,N)與 fitnessi(i∈ 1,2,3,…,N)分別最終的則決策函數(shù)為代表i個(gè)體的速度與適應(yīng)度值,故本文所采用的粒子群算法的求解步驟如下:(1)算法開(kāi)始;(2)種群的初始化:包括粒子的位置Pi與速度Vi的隨機(jī)初始化;(3)個(gè)體適應(yīng)度值:根據(jù)目標(biāo)函數(shù)來(lái)計(jì)算粒子的適應(yīng)度值fitnessi;(4)循環(huán)迭代:在循環(huán)迭代過(guò)程中,尋找個(gè)體的極值Pbest以及整個(gè)群的極值Gbest;(5)算法終止:在滿足最優(yōu)解的條件下,終止循環(huán)。

2.4.3 優(yōu)化結(jié)果

由上文可知,DEC-IFSVM引入的參數(shù)值需要進(jìn)行優(yōu)化,本文選取UCI數(shù)據(jù)集中的Pima等6種數(shù)據(jù)集,每個(gè)數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證,由于每一折正負(fù)類樣本數(shù)目不同,故需要對(duì)每一折的參數(shù)進(jìn)行優(yōu)化。最終,經(jīng)粒子群算法優(yōu)化后的K,α,M,C,g五個(gè)參數(shù)在不同數(shù)據(jù)集的最優(yōu)參數(shù)如表1所示。

表1 PSO優(yōu)化后DEC-IFSVM的最優(yōu)參數(shù)Tab.1 Optimized parameters of DEC-IFSVM after PSO optimization

3 實(shí)驗(yàn)與結(jié)果分析

3.1 不平衡數(shù)據(jù)分類評(píng)價(jià)機(jī)制的引入

在數(shù)據(jù)集平衡的條件下,一般用數(shù)據(jù)集分類的總準(zhǔn)確率對(duì)其分類效果進(jìn)行評(píng)判,即:分類的總準(zhǔn)確率越高,則分類器的分類效果越好;但是當(dāng)數(shù)據(jù)集不平衡時(shí),特別是不平衡比較大時(shí),存在即使正類樣本具有很低的辨識(shí)率的情況下,整體的分類準(zhǔn)確率很高的情況,故該方式對(duì)于不平衡數(shù)據(jù)的分類準(zhǔn)確率的評(píng)判是不準(zhǔn)確的。為了克服單一分類準(zhǔn)確率評(píng)價(jià)方式不令人信服的弊端,一些學(xué)者又提出了一些更加合理的評(píng)價(jià)機(jī)制:靈敏度(Sensitivity,SEN),即正類樣本的分類準(zhǔn)確率的評(píng)價(jià)機(jī)制;特異性(Specificity,SPE),即負(fù)類樣本的分類準(zhǔn)確率的評(píng)價(jià)機(jī)制;幾何平均值(G-mean),即分類器的綜合評(píng)價(jià)機(jī)制。各評(píng)價(jià)機(jī)制的算法表達(dá)式為

式中:TP(++)為分類正確的正類樣本的數(shù)目;FN(+-)為分類錯(cuò)誤的正類樣本的數(shù)目;FP(-+)為分類錯(cuò)誤的負(fù)類樣本的數(shù)目,TN(--)為分類正確的負(fù)類樣本的數(shù)目,構(gòu)成的混淆矩陣如表2所示。

分析上述3種評(píng)價(jià)機(jī)制可知:SEN的值越大正類樣本的辨識(shí)率就越高;同樣SPE的值越大負(fù)類樣本的辨識(shí)率就越高;當(dāng)SEN與SPE都較大時(shí)G-mean值就越大,反之G-mean值就越小。故對(duì)于不平衡數(shù)據(jù)選取G-mean值進(jìn)行分類器的評(píng)價(jià)更加合理。

表2 混淆矩陣Tab.2 Confusion matrix

3.2 實(shí)驗(yàn)數(shù)據(jù)以及實(shí)驗(yàn)環(huán)境

為了突出本文所提算法在不平衡數(shù)據(jù)下分類的優(yōu)越性,將所提算法(PSO-DEC-IFSVM)與現(xiàn)有算法進(jìn)行對(duì)比,即:支持向量機(jī)(SVM)算法、模糊支持向量機(jī)(FSVM)算法、DEC算法、DEC結(jié)合FSVM的算法(DEC-FSVM)、DEC-FSVM-Ju算法以及利用PSO算法參數(shù)尋優(yōu)前的DEC-IFSVM算法。同時(shí),為了使實(shí)驗(yàn)結(jié)果更加具有說(shuō)服力,本文在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)中選取6種不同空間結(jié)構(gòu)以及不同維度的不平衡數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,且這些不平衡數(shù)據(jù)必定會(huì)含一些噪聲或野點(diǎn)個(gè)體。此外,為了減少訓(xùn)練的時(shí)間,每種不平衡數(shù)據(jù)集均隨機(jī)選擇部分作為實(shí)驗(yàn),選取的6種不平衡數(shù)據(jù)集的基本特征如表3所示。

表3 實(shí)驗(yàn)中的6種不平衡數(shù)據(jù)集的特征Tab.3 Characteristics of the six unbalanced data sets in the experiment

本文所涉及的所有算法均采取十折交叉驗(yàn)證,且為了減少隨機(jī)影響,每折運(yùn)行十次,即對(duì)于一個(gè)不平衡數(shù)據(jù)將產(chǎn)生100組數(shù)據(jù),最終將所得的100組數(shù)據(jù)的均值作為每種評(píng)價(jià)機(jī)制的最終值。本文所有算法的初始參數(shù)均為:δ=10-13,α=0.5,m=0.5,C=2,g=0.01以及K=3。此外,本文所有結(jié)果均是在3.20 GHz/4.0 GB的PC機(jī)上利用MATLAB2012a軟件編程實(shí)現(xiàn)。

3.3 結(jié)果與分析

對(duì)于6種不同不平衡數(shù)據(jù)集的3種評(píng)價(jià)機(jī)制的實(shí)驗(yàn)對(duì)比效果如表4所示。分析表4可知:(1)在不平衡數(shù)據(jù)集下,傳統(tǒng)的SVM算法效果最差,甚至有的數(shù)據(jù)集中G-mean的值為0,特別是樣本集嚴(yán)重失衡時(shí),這是因?yàn)榉诸惓矫嫦蛘悩颖痉较虬l(fā)生了嚴(yán)重的偏移,其他算法作為SVM算法的改進(jìn)形式,使分類超平面偏回負(fù)類樣本方向,使得分類效果獲得提升。(2)傳統(tǒng)的DEC算法僅考慮到了樣本平衡性的影響,沒(méi)有考慮樣本中噪聲或野點(diǎn)影響;相反傳統(tǒng)的FSVM算法僅考慮到了樣本噪聲或野點(diǎn)影響,而忽略了樣本平衡性的影響。故在不平衡數(shù)據(jù)集中傳統(tǒng)的DEC與FSVM算法的分類效果提升不是很明顯,特別是SEN與G-mean兩個(gè)評(píng)價(jià)機(jī)制較低,即這兩種算法對(duì)于分類超平面的向負(fù)類偏移影響較小。(3)DEC-FSVM算法將傳統(tǒng)的DEC與FSVM方式相結(jié)合,融合了兩種算法的優(yōu)點(diǎn),分類效果得到進(jìn)一步提升,尤其是SEN或G-mean。(4)DEC-FSVM-Ju算法是在DEC-FSVM算法基礎(chǔ)上進(jìn)行改進(jìn),相比DEC-FSVM算法,其分類效果亦有提升,這是因?yàn)樵谠O(shè)置模糊隸屬度函數(shù)時(shí)DEC-FSVM算法僅考慮了樣本到達(dá)類中心的距離,而DEC-FSVM-Ju算法考慮樣本到類中心距離的同時(shí)還考慮了樣本的K-近鄰域的密度。(5)同樣地,DEC-IFSVM作為DEC-FSVM-Ju的改進(jìn)算法,分類效果亦有提升,這是因?yàn)镈EC-IFSVM算法除了考慮樣本到類中心的距離以及樣本的K-近鄰域密度外,還考慮到了樣本的信息量,在設(shè)計(jì)模糊隸屬度函數(shù)時(shí)給予樣本不同的權(quán)值,這樣可以賦予支持向量較大的權(quán)值,故分類效果進(jìn)一步提升。(6)對(duì)比PSO優(yōu)化前后的DEC-IFSVM算法可知,經(jīng)過(guò)PSO參數(shù)優(yōu)化后的DEC-IFSVM算法,相比優(yōu)化前的算法對(duì)6種不平衡數(shù)據(jù)集在分類器的分類效果均有較大提升。

綜上,本文所提的算法在綜合考慮樣本到類中心距離、K-近鄰域密度以及樣本的信息量設(shè)計(jì)模糊隸屬度函數(shù),并將其與DEC算法相結(jié)合,最終引入的參數(shù)經(jīng)過(guò)PSO算法優(yōu)化,與現(xiàn)有的算法相比在不同空間結(jié)構(gòu)以及不同維度的不平衡數(shù)據(jù)集中具有更好的分類性能。

4 分類器魯棒性的對(duì)比

為了進(jìn)一步說(shuō)明本文所提算法的優(yōu)越性,對(duì)本文所有算法的魯棒性進(jìn)行比較。本文采用文獻(xiàn)[23]中所提算法魯棒性的評(píng)價(jià)方式,即算法m在某一特定數(shù)據(jù)集上的魯棒性為用該算法求解目標(biāo)問(wèn)題時(shí)的相對(duì)性能,文中選取G-mean值作為不平衡數(shù)據(jù)分類效果魯棒性的比較值,求解文中所有算法G-mean值的相對(duì)性能,此相對(duì)性能的求解算法為

式中:Rm為算法m在某一數(shù)據(jù)集的Adjusted rand index值;bm為算法m魯棒性的相對(duì)性能。由式(23)可知,當(dāng)某一算法在特定數(shù)據(jù)集上表現(xiàn)最好時(shí)bm的值即為1,而其他算法bm≤1,且bm的值越大,算法的相對(duì)性能就越好。故算法m在不同數(shù)據(jù)集的魯棒性可以利用表示,其中l(wèi)為算法的總數(shù),且本文的算法總數(shù)為7。同樣的值越大代表該算法的綜合魯棒性越強(qiáng)。利用上述方法求解本文7種算法在6種平衡數(shù)據(jù)集上G-mean值的魯棒性,其結(jié)果如圖3所示。

分析圖3可知:(1)傳統(tǒng)的SVM算法S-ARI的值遠(yuǎn)小于其余算法,證明SVM算法的魯棒性最差;

(2)分析FSVM與DEC算法的S-ARI值可知:FSVM與DEC算法分類器的總體效果不是很理想,DEC-FSVM算法相比FSVM與DEC算法魯棒性進(jìn)一步增強(qiáng),顯示了綜合考慮樣本距離以及不平衡度的優(yōu)勢(shì);(3)DEC-IFSVM作為DEC-FSVM-Ju的改進(jìn)算法,其S-ARI值有所增加,證明魯棒性增強(qiáng)不夠明顯,這是由于算法引入?yún)?shù)增加時(shí),算法復(fù)雜度增加且初始參數(shù)不是最優(yōu)值,導(dǎo)致結(jié)果不明顯;(4)本文所提的PSO-DEC-IFSVM算法對(duì)DEC-IFSVM算法引入的參數(shù)進(jìn)行優(yōu)化,其S-ARI值最大為6,明顯大于DEC-IFSVM算法以及其他算法,故在不同的不平衡數(shù)據(jù)集上均有最好的魯棒性。

表4 6種不平衡數(shù)據(jù)集下運(yùn)用各類算法分類的效果Tab.4 Classification effect of different algorithms in the six kinds of unbalanced data sets

圖3 不平衡數(shù)據(jù)集下7種算法G-mean值的魯棒性比較Fig.3 Robustness comparison of G-mean value of seven algorithms under Unbalanced data sets

5 結(jié)束語(yǔ)

針對(duì)傳統(tǒng)的模糊支持向量機(jī)在不平衡數(shù)據(jù)集下分類效果不夠明顯、引入的參數(shù)未做優(yōu)化等缺點(diǎn),本文提出一種新型的基于粒子群優(yōu)化的改進(jìn)支持向量機(jī)算法(PSO-DEC-IFSVM)。該算法在設(shè)計(jì)模糊隸屬函數(shù)時(shí),綜合考慮訓(xùn)練樣本到期類中心的間距與樣本周圍的緊密度以及樣本的信息量,并將其與DEC算法相結(jié)合,最后利用粒子群算法對(duì)DEC-IFSVM算法引入的K,α,M,C以及g五個(gè)參數(shù)進(jìn)行優(yōu)化。實(shí)驗(yàn)證明:本文算法相比已有的FSVM算法,正負(fù)類的分類精度進(jìn)一步增加,且此算法擁有更好的魯棒性。結(jié)果證明:本文算法可以更好地降低樣本集中含有噪聲或野點(diǎn)影響,同時(shí),可以更好地應(yīng)對(duì)數(shù)據(jù)集不平衡問(wèn)題。故此算法為不平衡數(shù)據(jù)的分類問(wèn)題提供了一個(gè)重要的理論模型,該模型可以應(yīng)用于機(jī)械故障診斷、醫(yī)療診斷等異常診斷領(lǐng)域,因?yàn)樵谶@些領(lǐng)域中故障數(shù)據(jù)收集相對(duì)困難,極易形成不平衡數(shù)據(jù)集,且數(shù)據(jù)集中很可能含有噪聲或者野點(diǎn)。

本文在利用粒子群算法對(duì)DEC-IFSVM分類器進(jìn)行參數(shù)尋優(yōu)時(shí),僅將分類器的綜合評(píng)價(jià)機(jī)制(G-mean)作為優(yōu)化目標(biāo),這可能會(huì)導(dǎo)致正負(fù)類分類準(zhǔn)確率(SEN,SPE)不一定同時(shí)比優(yōu)化前效果理想,所以將SEN,SPE,G-mean同時(shí)作為優(yōu)化目標(biāo)進(jìn)行協(xié)同優(yōu)化,即:尋求一種適用于多目標(biāo)尋優(yōu)的智能算法,將是課題組下一步的研究重點(diǎn)。

猜你喜歡
超平面信息量向量
向量的分解
全純曲線的例外超平面
涉及分擔(dān)超平面的正規(guī)定則
聚焦“向量與三角”創(chuàng)新題
以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問(wèn)題
基于信息理論的交通信息量度量
如何增加地方電視臺(tái)時(shí)政新聞的信息量
新聞傳播(2016年11期)2016-07-10 12:04:01
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
阜南县| 墨玉县| 安仁县| 阿克苏市| 芮城县| 丹东市| 成都市| 珲春市| 乌兰察布市| 伊金霍洛旗| 安塞县| 崇义县| 平塘县| 新昌县| 青川县| 财经| 长汀县| 莎车县| 涿鹿县| 肥西县| 鄱阳县| 邵阳县| 宜宾县| 北流市| 盱眙县| 赤壁市| 九江市| 左云县| 元谋县| 潍坊市| 华安县| 满城县| 泾阳县| 和平县| 高阳县| 胶南市| 白银市| 海林市| 阜阳市| 海宁市| 桦川县|