蔡靜
摘要:針對(duì)不均衡數(shù)據(jù)處理問題,提出一種AdaBoost與在線連續(xù)極限學(xué)習(xí)機(jī)的集成算法。用在線連續(xù)極限學(xué)習(xí)機(jī)(OSELM)作為基分類器,根據(jù)AdaBoost集成各個(gè)基分類器,用AdaBoost集成分類器的權(quán)值,得出最終結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率。關(guān)鍵詞:AdaBoost;在線連續(xù)極限學(xué)習(xí)機(jī);集成算法DOI:10.11907/rjdk.162759中圖分類號(hào):TP312文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):16727800(2017)004004902
0引言 隨著不均衡數(shù)據(jù)不斷涌現(xiàn),針對(duì)不均衡數(shù)據(jù)分類算法的研究方興未艾。針對(duì)數(shù)據(jù)分類的主要有基于支持向量機(jī)(SVM)[1]、BP神經(jīng)網(wǎng)絡(luò)[2]、K最近鄰算法[3]、決策樹、貝葉樹等算法的單分類器模型和多分類器模型。實(shí)驗(yàn)過程中往往會(huì)忽略少數(shù)類、重視多數(shù)類。針對(duì)這些問題,很多學(xué)者對(duì)傳統(tǒng)算法進(jìn)行了改進(jìn),以提高整體的分類精度。如有采樣的方法、代價(jià)敏感學(xué)習(xí)、裝袋[4]和提升[5]集成算法等,集成分類器是解決不均衡數(shù)據(jù)的分類方法。本文提出一種基于Adaboost與在線連續(xù)極限學(xué)習(xí)機(jī)的集成算法。
1相關(guān)概念
1.1極限學(xué)習(xí)機(jī)極限學(xué)習(xí)機(jī)由輸入層、隱含層及輸出層3部分構(gòu)成。其中輸入層與隱含層之間有隨機(jī)產(chǎn)生的連接權(quán)值ω、隱含層與輸入層之間有隨機(jī)產(chǎn)生的連接權(quán)值β,隱含層輸入矩陣為H,輸出矩陣為T。具有N個(gè)不同訓(xùn)練樣本N(Xi,Yj),如矩陣形式Hβ=T,神經(jīng)網(wǎng)絡(luò)模型為:
1.3Adaboost
Adaboost是Boosting的一種進(jìn)化算法。Adaboost主要解決某種算法的學(xué)習(xí)率,對(duì)每個(gè)訓(xùn)練樣本取相同的權(quán)值1/d。對(duì)于誤分類樣本其權(quán)重會(huì)增加,相反分類正確的樣本權(quán)重會(huì)減少,Adaboost更加關(guān)注誤分類或難以分類的樣本??倶颖炯殖蒼個(gè)訓(xùn)練集Ni,Adaboost將N個(gè)分類器Hi合并成強(qiáng)分類器Y(X),使預(yù)測(cè)結(jié)果更加理想。
2本文算法本文實(shí)驗(yàn)數(shù)據(jù)集來自UCI庫。實(shí)驗(yàn)主要針對(duì)二類不平衡數(shù)據(jù)問題進(jìn)行研究,選取數(shù)據(jù)集具有兩個(gè)類標(biāo)簽。Adaboost可在保證準(zhǔn)確率的情況下很好地處理不平衡問題。K選5,即有5個(gè)弱分類器。算法步驟如下:①初始化OSELM權(quán)值、閾值。選取m組訓(xùn)練數(shù)據(jù),賦予相同的權(quán)值Dt(i)=1/m;②根據(jù)公式(4)計(jì)算初始權(quán)值β0,設(shè)置m=0;③數(shù)據(jù)更新得到新訓(xùn)練集后,更新部分隱含層的輸出矩陣,計(jì)算矩陣βm+1;④根據(jù)步驟③,更新分類器βm+1權(quán)值;⑤對(duì)弱分類器進(jìn)行預(yù)測(cè)。訓(xùn)練第t個(gè)弱分類器,用訓(xùn)練數(shù)據(jù)訓(xùn)練OSELM并預(yù)測(cè)輸出的值,得到預(yù)測(cè)序列g(shù)(t)的預(yù)測(cè)誤差和et;⑥計(jì)算預(yù)測(cè)序列權(quán)重。根據(jù)預(yù)測(cè)序列g(shù)(t)的預(yù)測(cè)誤差et計(jì)算序列權(quán)重at。權(quán)重計(jì)算公式為:at=1/2ln(1-et/et);⑦強(qiáng)分類函數(shù)。訓(xùn)練T輪后得到T組弱分類函數(shù)f(gt,at),由T組弱分類器f(gt,at)得到強(qiáng)分類器h(x)。h(x)公式為:
3結(jié)果與分析不均衡數(shù)據(jù)中存在類不平衡現(xiàn)象,最能引起關(guān)注的是少數(shù)類。然而在實(shí)驗(yàn)過程中,關(guān)注的少數(shù)類即正類分布的很少,而相對(duì)較多的多數(shù)類即負(fù)類分布卻很多。本文對(duì)初始權(quán)值與閾值進(jìn)行隨機(jī)分配,將強(qiáng)類器結(jié)果與弱分類器結(jié)果進(jìn)行比較,對(duì)比AdaBoost與ELM集成算法。
其中TP代表真正例,TN代表真負(fù)例,F(xiàn)P代表假正例,F(xiàn)N代表假負(fù)例。表1、圖1為AdaBoost與OSELM集成算法中強(qiáng)分類器與弱分類器的準(zhǔn)確率;表2、圖2為AdaBoost與ELM集成算法中強(qiáng)分類器與弱分類器的準(zhǔn)確率;表3、圖3為AdaBoost與OSELM、AdaBoost與ELM集成算法強(qiáng)分類器的準(zhǔn)確率。
根據(jù)圖表對(duì)比準(zhǔn)確率,可以清楚看出本文提出的AdaBoost與OSELM集成算法中強(qiáng)分類器的準(zhǔn)確率明顯高于弱分類器,然而在AdaBoost與ELM集成算法對(duì)比中,隱含層結(jié)點(diǎn)數(shù)目逐漸減少,AdaBoost與OSELM集成算法的準(zhǔn)確率明顯上升,但是在隱含層結(jié)點(diǎn)相對(duì)較多時(shí),較AdaBoost與ELM集成算法的準(zhǔn)確率不相上下,尤其在隱含層結(jié)點(diǎn)數(shù)為250時(shí),明顯低于AdaBoost與ELM集成算法。
4結(jié)語 本文將在線連續(xù)極限學(xué)習(xí)機(jī)作為基分類器,AdaBoost集成各個(gè)基分類器,采用AdaBoost集成分類器權(quán)值計(jì)算得出最終結(jié)果。與AdaBoost集成極限學(xué)習(xí)機(jī)作為基分類器的結(jié)果進(jìn)行對(duì)比,評(píng)估了各種方法的準(zhǔn)確率。實(shí)驗(yàn)還存在不足之處,如當(dāng)隱含層節(jié)點(diǎn)增加時(shí)會(huì)出現(xiàn)準(zhǔn)確率不理想情況。今后要進(jìn)行大量的對(duì)比試驗(yàn),以得到更優(yōu)效果。
參考文獻(xiàn):[1]G M FUNG,O L MANGASARIAN.Incremental support vector machine classification[M].SIGKDD,2001:7786.
[2]Z H ZHOU,X Y LIU.Training costsensitive neural networks with methods addressing the class imbalance problem[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(1):6377.
[3]S TAN.Neighborweighted knearest neighbor for unbalanced text corpus[J].Expert System and Applications,2005,28(4):667671.
[4]J BASZCZY′NSKI,JERZY STEFANOWSKI,UKASZ IDKOWIAK.Institute of computing science[Z].Pozna′n University of Technology,ul.Piotrowo,2011(2):60965.
[5]M FERNANDEZ,GALAR,A BARRENECHEA,et al.A review on ensembles for class imbalance problem:bagging,boosting and hybrid based approaches[J].IEEE Transactions on Systems,Man,and CyberneticsPart C ,2011,42(4):463484.(責(zé)任編輯:杜能鋼)