摘 要:文章分析了基于Stacking的算法框架,提出了一種基于Stacking的集成學(xué)習(xí)算法,在兩種疾病數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明,該方法性能良好。
關(guān)鍵詞:集成學(xué)習(xí);隨機(jī)森林;堆棧
1 ? ?分類挖掘技術(shù)在疾病輔助診斷上的應(yīng)用
近年來,越來越多的學(xué)者將分類挖掘技術(shù)應(yīng)用于疾病的輔助診斷上,如劉文博等[1]提出了一種迭代隨機(jī)森林算法,對(duì)糖尿病數(shù)據(jù)進(jìn)行預(yù)測(cè)。金強(qiáng)等[2]提出,應(yīng)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法,提高乳腺癌診斷準(zhǔn)確率。本文提出了一種基于堆棧的集成學(xué)習(xí)算法,應(yīng)用于肝臟疾病和皮膚疾病數(shù)據(jù)的分類預(yù)測(cè),為臨床診斷、個(gè)人健康提供有效的決策依據(jù)與幫助。
2 ? ?基于Stacking的集成學(xué)習(xí)算法
Stacking通常是一個(gè)兩層結(jié)構(gòu):0層和1層。0層在底層,選擇訓(xùn)練多個(gè)不同類型的基礎(chǔ)分類器生成元級(jí)數(shù)據(jù);1層應(yīng)用元級(jí)數(shù)據(jù)訓(xùn)練形成元分類器。元數(shù)據(jù)通過K折交叉驗(yàn)證的過程生成,由基礎(chǔ)分類器對(duì)輸入實(shí)例的預(yù)測(cè)結(jié)果和實(shí)例的真實(shí)類標(biāo)號(hào)組成。其中,基礎(chǔ)分類器的輸出有兩種方式:類標(biāo)號(hào)、類概率分布。研究證明,基于類概率分布的Stacking算法性能比較好。學(xué)者們提出了許多基于類概率分布的Stacking算法,如Stacking-MLR等[3]和Stacking-MDT等[4]。本文選擇基礎(chǔ)分類器輸出的類概率分布作為元數(shù)據(jù)的組成部分,并選擇Randomforest(RF)作為元分類器,構(gòu)建集成算法Stacking-RF。
3 ? ?數(shù)據(jù)集與評(píng)價(jià)準(zhǔn)則
實(shí)驗(yàn)在兩個(gè)公共數(shù)據(jù)集上進(jìn)行,包括肝臟疾病數(shù)據(jù)集(Hepatitis)和皮膚疾病數(shù)據(jù)集(Dermatology)。兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集信息如表1所示。
實(shí)驗(yàn)采用準(zhǔn)確率衡量集成算法的性能。準(zhǔn)確率表示正確分類實(shí)例數(shù)與全體實(shí)例數(shù)的比值。
4 ? ?實(shí)驗(yàn)與分析
實(shí)驗(yàn)選擇的3個(gè)基礎(chǔ)分類器:NaiveBasye(NB),SimpleLogistic(SL)和J48,元分類器為Randomforest(RF),實(shí)驗(yàn)數(shù)據(jù)如表2所示。
從表2可以看出,本文提出的集成算法Stacking-RF在準(zhǔn)確率性能指標(biāo)上,均優(yōu)于3個(gè)個(gè)體分類器NaiveBasye,SimpleLogistic和J48。如在Hepatitis,Stacking-RF優(yōu)于準(zhǔn)確率最高的個(gè)體分類器SimpleLogistic 0.8%。同樣,在數(shù)據(jù)集Dermatology,Stacking-RF均優(yōu)于3個(gè)個(gè)體分類器。因此,本文提出的集成算法Stacking-RF在兩種疾病數(shù)據(jù)集上表現(xiàn)了良好的性能。
5 ? ?結(jié)語
首先,本文詳細(xì)分析了基于Stacking的算法框架;其次,提出了一種基于Stacking的集成學(xué)習(xí)算法;最后,在兩種疾病數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文提出的集成算法性能表現(xiàn)良好。
[參考文獻(xiàn)]
[1]劉文博,梁盛楠,秦喜文,等.基于迭代隨機(jī)森林算法的糖尿病預(yù)測(cè)[J].長春工業(yè)大學(xué)學(xué)報(bào),2019(6):604-611
[2]金強(qiáng),高普中.人工神經(jīng)網(wǎng)絡(luò)在乳腺癌診斷中的應(yīng)用[J].中國普外基礎(chǔ)與臨床雜志,2019(5):625-630.
[3]TING K M,WITTEN I H.Issues in stacked generalization[J].Journal of Artificial Intelligence Research,1999(10):271-289.
[4]TODOROVSKI L,DZEROSKI S.Combining multiple models with meta decision trees[C].Paris:4th European Conference on Principles of Data Mining and Knowledge Discovery,2000.
[6]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2010.
作者簡(jiǎn)介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。