国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Stacking算法在醫(yī)療健康數(shù)據(jù)中的應(yīng)用研究

2020-07-18 11:28丁偉民
科學(xué)大眾 2020年5期
關(guān)鍵詞:堆棧隨機(jī)森林

摘 要:文章分析了基于Stacking的算法框架,提出了一種基于Stacking的集成學(xué)習(xí)算法,在兩種疾病數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明,該方法性能良好。

關(guān)鍵詞:集成學(xué)習(xí);隨機(jī)森林;堆棧

1 ? ?分類挖掘技術(shù)在疾病輔助診斷上的應(yīng)用

近年來,越來越多的學(xué)者將分類挖掘技術(shù)應(yīng)用于疾病的輔助診斷上,如劉文博等[1]提出了一種迭代隨機(jī)森林算法,對(duì)糖尿病數(shù)據(jù)進(jìn)行預(yù)測(cè)。金強(qiáng)等[2]提出,應(yīng)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法,提高乳腺癌診斷準(zhǔn)確率。本文提出了一種基于堆棧的集成學(xué)習(xí)算法,應(yīng)用于肝臟疾病和皮膚疾病數(shù)據(jù)的分類預(yù)測(cè),為臨床診斷、個(gè)人健康提供有效的決策依據(jù)與幫助。

2 ? ?基于Stacking的集成學(xué)習(xí)算法

Stacking通常是一個(gè)兩層結(jié)構(gòu):0層和1層。0層在底層,選擇訓(xùn)練多個(gè)不同類型的基礎(chǔ)分類器生成元級(jí)數(shù)據(jù);1層應(yīng)用元級(jí)數(shù)據(jù)訓(xùn)練形成元分類器。元數(shù)據(jù)通過K折交叉驗(yàn)證的過程生成,由基礎(chǔ)分類器對(duì)輸入實(shí)例的預(yù)測(cè)結(jié)果和實(shí)例的真實(shí)類標(biāo)號(hào)組成。其中,基礎(chǔ)分類器的輸出有兩種方式:類標(biāo)號(hào)、類概率分布。研究證明,基于類概率分布的Stacking算法性能比較好。學(xué)者們提出了許多基于類概率分布的Stacking算法,如Stacking-MLR等[3]和Stacking-MDT等[4]。本文選擇基礎(chǔ)分類器輸出的類概率分布作為元數(shù)據(jù)的組成部分,并選擇Randomforest(RF)作為元分類器,構(gòu)建集成算法Stacking-RF。

3 ? ?數(shù)據(jù)集與評(píng)價(jià)準(zhǔn)則

實(shí)驗(yàn)在兩個(gè)公共數(shù)據(jù)集上進(jìn)行,包括肝臟疾病數(shù)據(jù)集(Hepatitis)和皮膚疾病數(shù)據(jù)集(Dermatology)。兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集信息如表1所示。

實(shí)驗(yàn)采用準(zhǔn)確率衡量集成算法的性能。準(zhǔn)確率表示正確分類實(shí)例數(shù)與全體實(shí)例數(shù)的比值。

4 ? ?實(shí)驗(yàn)與分析

實(shí)驗(yàn)選擇的3個(gè)基礎(chǔ)分類器:NaiveBasye(NB),SimpleLogistic(SL)和J48,元分類器為Randomforest(RF),實(shí)驗(yàn)數(shù)據(jù)如表2所示。

從表2可以看出,本文提出的集成算法Stacking-RF在準(zhǔn)確率性能指標(biāo)上,均優(yōu)于3個(gè)個(gè)體分類器NaiveBasye,SimpleLogistic和J48。如在Hepatitis,Stacking-RF優(yōu)于準(zhǔn)確率最高的個(gè)體分類器SimpleLogistic 0.8%。同樣,在數(shù)據(jù)集Dermatology,Stacking-RF均優(yōu)于3個(gè)個(gè)體分類器。因此,本文提出的集成算法Stacking-RF在兩種疾病數(shù)據(jù)集上表現(xiàn)了良好的性能。

5 ? ?結(jié)語

首先,本文詳細(xì)分析了基于Stacking的算法框架;其次,提出了一種基于Stacking的集成學(xué)習(xí)算法;最后,在兩種疾病數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文提出的集成算法性能表現(xiàn)良好。

[參考文獻(xiàn)]

[1]劉文博,梁盛楠,秦喜文,等.基于迭代隨機(jī)森林算法的糖尿病預(yù)測(cè)[J].長春工業(yè)大學(xué)學(xué)報(bào),2019(6):604-611

[2]金強(qiáng),高普中.人工神經(jīng)網(wǎng)絡(luò)在乳腺癌診斷中的應(yīng)用[J].中國普外基礎(chǔ)與臨床雜志,2019(5):625-630.

[3]TING K M,WITTEN I H.Issues in stacked generalization[J].Journal of Artificial Intelligence Research,1999(10):271-289.

[4]TODOROVSKI L,DZEROSKI S.Combining multiple models with meta decision trees[C].Paris:4th European Conference on Principles of Data Mining and Knowledge Discovery,2000.

[6]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2010.

作者簡(jiǎn)介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。

猜你喜歡
堆棧隨機(jī)森林
基于SpringBoot結(jié)果集序列化過濾插件的研究與實(shí)現(xiàn)
集成學(xué)習(xí)算法在疾病預(yù)測(cè)中的應(yīng)用研究
基于生成語法的句子理解機(jī)制
Windows棧緩沖區(qū)溢出攻擊原理及其防范
緩沖區(qū)溢出安全編程教與學(xué)
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)