国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)隨機(jī)森林算法綜述

2019-10-21 06:52:08孫明喆畢瑤家孫馳
現(xiàn)代信息科技 2019年20期
關(guān)鍵詞:集成學(xué)習(xí)隨機(jī)森林機(jī)器學(xué)習(xí)

孫明喆 畢瑤家 孫馳

摘? 要:隨機(jī)森林是一種靈活且易于使用的機(jī)器學(xué)習(xí)算法,因?yàn)樗芎?jiǎn)易,既可用于分類也能用于回歸任務(wù)。在醫(yī)學(xué)、生物信息、環(huán)境預(yù)測(cè)檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用。為此,本文介紹了隨機(jī)森林原理及其相關(guān)性質(zhì),以及它的改進(jìn)情況及應(yīng)用,并討論了以后的改進(jìn)趨勢(shì)和方向。

關(guān)鍵詞:隨機(jī)森林;決策樹;集成學(xué)習(xí);機(jī)器學(xué)習(xí)

中圖分類號(hào):TP311.13;TP181? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)20-0028-03

Abstract:Random forest is a flexible and easy-to-use machine learning algorithm,because it is very simple and can be used for both classification and regression tasks. It has been widely used in the fields of medicine,bioinformatics,environmental prediction and detection. In this paper,the principle of random forest and its related properties,its improvement and application are introduced,and the future improvement trend and direction are discussed.

Keywords:random forest;decision tree;integrated learning;machine learning

0? 引? 言

隨機(jī)森林(Random Forest)是一種比較新的機(jī)器學(xué)習(xí)模型。近十幾年來(lái),隨機(jī)森林得到了迅速的發(fā)展,在生物信息領(lǐng)域,Chen等[1]利用隨機(jī)森林算法蛋白質(zhì)的相互作用進(jìn)行了研究;Smith等[2]利用判別分析法與隨機(jī)森林算法對(duì)細(xì)菌源追蹤數(shù)據(jù)進(jìn)行了對(duì)比研究。在經(jīng)濟(jì)管理領(lǐng)域,Ying等以銀行客戶的數(shù)據(jù)為例,運(yùn)用隨機(jī)森林算法研究了客戶流失情況。此外,隨機(jī)森林在生態(tài)學(xué)、經(jīng)濟(jì)學(xué)[3]、醫(yī)學(xué)領(lǐng)域[4]、刑偵領(lǐng)域[5]和模式識(shí)別領(lǐng)域取得了較好的效果。

隨機(jī)森林算法存在先天性不足主要表現(xiàn)在對(duì)數(shù)據(jù)分類的性能不足。黃衍等人[6]對(duì)比隨機(jī)森林和支持向量機(jī)在處理非平衡數(shù)據(jù)時(shí)的性能之后,得出了隨機(jī)森林算法在處理非平衡分類數(shù)據(jù)時(shí)其性能顯著遜色于支持向量機(jī)的結(jié)論。目前,中國(guó)對(duì)隨機(jī)森林的改進(jìn)研究還是非常少,因此,系統(tǒng)的整理總結(jié)隨機(jī)森林最新的改進(jìn)與應(yīng)用情況對(duì)接下來(lái)的改進(jìn)很有意義。

1? 隨機(jī)森林原理與性質(zhì)

1.1? 原理

隨機(jī)森林通過(guò)Bootstrap技術(shù),從原始訓(xùn)練集樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,根據(jù)樣本集生成k個(gè)決策樹,并且隨機(jī)組合得到隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按決策樹投票多少形成的分?jǐn)?shù)而定;D是樣本集,D1,D2,Dk分別是每次隨機(jī)抽樣后生成的決策樹。隨機(jī)森林示意圖如圖1所示。

隨機(jī)森林算法的實(shí)質(zhì)是對(duì)決策樹算法的一種改進(jìn),將多棵決策樹排列組合,每棵樹依賴于一個(gè)獨(dú)立抽取的樣品來(lái)建立,森林中的每棵樹具有相同的分布,分類誤差取決于每一棵樹的分類能力以及各棵樹之間的相關(guān)性。采用隨機(jī)的方法分裂每一個(gè)節(jié)點(diǎn),比較各種分裂情況下產(chǎn)生的誤差。少量的決策樹的分類能力有限,只有產(chǎn)生大量的決策樹才有可能得到有效的分類效果。

提高組合分類模型的外推預(yù)測(cè)能力對(duì)最終的結(jié)果至關(guān)重要,因此需要生成不同的訓(xùn)練集來(lái)增加分類模型間的差異,通過(guò)k輪的訓(xùn)練,得到一個(gè)序列{h1(X),h2(X),h3(X), …,hk(X)},再經(jīng)過(guò)簡(jiǎn)單的多數(shù)投票法,最終的分類決策:

其中,H(x)表示組合分類的模型,hi是單個(gè)決策樹的分類結(jié)果,Y表示輸出目標(biāo)變量,I(·)是示性函數(shù)。余量函數(shù)用于度量平均正確分類數(shù)超過(guò)平均錯(cuò)誤分類數(shù)的程度。式(1)說(shuō)明了使用多數(shù)投票決策的方式來(lái)決定最終的分類。

1.2? 計(jì)算變量的重要性

隨機(jī)森林有一個(gè)特點(diǎn),可以在訓(xùn)練過(guò)程中輸出變量的重要性,即哪個(gè)特征分量對(duì)分類更有用。實(shí)現(xiàn)的方法是置換法。它的原理是如果某個(gè)特征分量對(duì)分類很重要,那么改變樣本的該特征分量的值,樣本的預(yù)測(cè)結(jié)果就容易出現(xiàn)錯(cuò)誤。也就是說(shuō)這個(gè)特征值對(duì)分類結(jié)果很敏感。反之,如果一個(gè)特征對(duì)分類不重要,隨便改變它對(duì)分類結(jié)果沒(méi)多大影響。

對(duì)于分類問(wèn)題,訓(xùn)練某決策樹時(shí),在包外樣本集中隨機(jī)挑選兩個(gè)樣本,如果要計(jì)算某一變量的重要性,則置換這兩個(gè)樣本的這個(gè)特征值。統(tǒng)計(jì)置換前和置換后的分類準(zhǔn)確率。變量重要性的計(jì)算公式為:

OOB樣本為原始樣本集中接近37%沒(méi)出現(xiàn)在Bootstrap樣本中的數(shù)據(jù),上面定義的是單棵決策樹的變量重要性,計(jì)算出每棵樹的變量重要性之后,對(duì)該值取平均就得到隨機(jī)森林的變量重要性。計(jì)算出每個(gè)變量的重要性之后,將該值歸一化得到最終的重要性值。

2? 隨機(jī)森林的改進(jìn)及應(yīng)用

許多學(xué)者提出了一些隨機(jī)森林的改進(jìn)方法,現(xiàn)有國(guó)內(nèi)外對(duì)隨機(jī)森林算法的改進(jìn)可以分為3類,如下所述。

2.1? 將新的理論引入隨機(jī)森林

由于隨機(jī)森林算法本身就是Bagging算法與Random Subaspace算法結(jié)合而得到的新的算法,因此在隨機(jī)森林的基礎(chǔ)上再增加新的算法一直是許多專家學(xué)者研究的重點(diǎn)。謝曉龍等利用梯度提升算法對(duì)隨機(jī)森林進(jìn)行了模型的提升,提出了梯度提升隨機(jī)森林模型及其在日前出清電價(jià)預(yù)測(cè)中的應(yīng)用[7],使用集成學(xué)習(xí)的方法,在隨機(jī)森林的基礎(chǔ)上應(yīng)用梯度提升算法,有效結(jié)合Bagging與Boosting兩種集成算法策略的優(yōu)勢(shì),從而提高模型預(yù)測(cè)的準(zhǔn)確性。

邢江寬[8]等基于大量已發(fā)表的生物質(zhì)熱解實(shí)驗(yàn)數(shù)據(jù),采用數(shù)值方法擬合全局反應(yīng)熱解模型的動(dòng)力學(xué)參數(shù),建立生物質(zhì)熱解的訓(xùn)練和驗(yàn)證數(shù)據(jù)庫(kù),利用隨機(jī)森林算法研究生物質(zhì)熱解動(dòng)力學(xué)參數(shù)與生物質(zhì)種類和各種加熱條件之間的非線性關(guān)系,提出了預(yù)測(cè)生物質(zhì)熱解動(dòng)力學(xué)參數(shù)的隨機(jī)森林模型,訓(xùn)練結(jié)果表明,隨機(jī)森林模型能夠較好地預(yù)測(cè)不同加熱條件下生物質(zhì)熱解的動(dòng)力學(xué)參數(shù)。

2.2? 數(shù)據(jù)預(yù)處理與隨機(jī)森林相結(jié)合

數(shù)據(jù)的好壞決定了分類的結(jié)果,因此將數(shù)據(jù)預(yù)處理之后再利用隨機(jī)森林進(jìn)行分類??梢杂行嵘S機(jī)森林對(duì)非平衡數(shù)據(jù)的敏感度。魏正韜[9]等在基于非平衡數(shù)據(jù)的隨機(jī)森林算法的改進(jìn)中,通過(guò)對(duì)抽樣結(jié)果增加約束條件來(lái)改進(jìn)Bootstrap重抽樣方法,削弱抽樣對(duì)非平衡性的影響,并且盡可能保證算法的隨機(jī)性,之后再利用生成的非平衡系數(shù)給每個(gè)決策樹進(jìn)行加權(quán)處理,提高對(duì)非平衡數(shù)據(jù)敏感的決策樹在投票環(huán)節(jié)的話語(yǔ)權(quán),從而加強(qiáng)了整個(gè)算法對(duì)非平衡數(shù)據(jù)的分類能力。

孫悅等針對(duì)基于單機(jī)的經(jīng)典隨機(jī)森林算法無(wú)法滿足海量數(shù)據(jù)處理需求的問(wèn)題,采用Spark分布式存儲(chǔ)計(jì)算技術(shù)設(shè)計(jì)并實(shí)現(xiàn)了改進(jìn)隨機(jī)森林算法,提出基于Spark的改進(jìn)隨機(jī)森林算法[10],首先計(jì)算特征的重要程度,將特征分為公共特征、獨(dú)有特征和非重要特征;然后按順序和比例分別在各個(gè)特征子空間中隨機(jī)選擇特征;最后通過(guò)Spark集群進(jìn)行實(shí)驗(yàn),分析改進(jìn)的隨機(jī)森林算法的分類性能、加速比和效率。結(jié)果證實(shí),改進(jìn)的算法提高了隨機(jī)森林構(gòu)建效率,可以用來(lái)解決海量數(shù)據(jù)挖掘問(wèn)題,具有良好的可擴(kuò)展性。

為了提高育種領(lǐng)域選種的準(zhǔn)確率,同時(shí)縮短品種培育年限,鄒永潘等利用改進(jìn)的隨機(jī)森林算法根據(jù)小麥育種歷史數(shù)據(jù)構(gòu)建評(píng)價(jià)模型,提出了隨機(jī)森林算法在小麥育種輔助評(píng)價(jià)中的應(yīng)用[11],在訓(xùn)練分類器之前,利用改進(jìn)的SMOTE算法來(lái)改善訓(xùn)練樣本集中的非平衡現(xiàn)象;在基分類器訓(xùn)練完成后,測(cè)試單個(gè)分類器的性能并剔除性能較差的基分類器,實(shí)現(xiàn)隨機(jī)森林中基分類器的篩選。實(shí)驗(yàn)結(jié)果表明,文中提出的算法在小麥種質(zhì)評(píng)價(jià)方面取得了不錯(cuò)的效果,可以輔助育種工作者進(jìn)行品種選育。

2.3? 對(duì)隨機(jī)森林構(gòu)建過(guò)程進(jìn)行優(yōu)化

在區(qū)域泥石流易發(fā)性研究中,科學(xué)確定泥石流易發(fā)性主控因子及其貢獻(xiàn)率既是關(guān)鍵科學(xué)問(wèn)題,也是區(qū)域泥石流預(yù)警預(yù)報(bào)和風(fēng)險(xiǎn)管理的重要基礎(chǔ)。劉永垚等提出了基于隨機(jī)森林模型的泥石流易發(fā)性評(píng)價(jià)——以汶川地震重災(zāi)區(qū)為例[12],初選了63項(xiàng)評(píng)價(jià)指標(biāo),以模型AUC值變化為基礎(chǔ),篩選出35項(xiàng)指標(biāo)構(gòu)成易發(fā)性評(píng)價(jià)指標(biāo)體系,并用于區(qū)域內(nèi)泥石流易發(fā)性主控因子的識(shí)別,引入隨機(jī)森林算法,以小流域?yàn)樵u(píng)價(jià)單元,集合多元因子指標(biāo)體系,建立泥石流易發(fā)性評(píng)價(jià)模型,定量分析了汶川地震重災(zāi)區(qū)內(nèi)泥石流關(guān)鍵影響因子及貢獻(xiàn)率,并探討了研究區(qū)泥石流易發(fā)性的空間分布特征。結(jié)果表明機(jī)器學(xué)習(xí)算法結(jié)合小流域?yàn)閱卧姆椒▽?duì)區(qū)域泥石流易發(fā)性評(píng)價(jià)有良好的效果,可為區(qū)域尺度災(zāi)害易發(fā)性及風(fēng)險(xiǎn)評(píng)估提供更為有效的方法參考。

受特征重要性不平衡的影響,隨機(jī)森林可能隨機(jī)抽取到弱特征子集,從而生成“弱決策樹”,進(jìn)而導(dǎo)致模型的收斂速度降低、模型的性能下降。李歡等在融合因子分析的隨機(jī)森林研究[13]中提出融合因子分析的隨機(jī)森林模型,主要?jiǎng)?chuàng)新在于采用因子分析法構(gòu)建特征組,再按特征個(gè)數(shù)比隨機(jī)抽取特征形成每個(gè)分裂節(jié)點(diǎn)的候選子集。提高了模型的準(zhǔn)確率和收斂速度,泛化性更強(qiáng),更加有利于處理高維大數(shù)據(jù)。

針對(duì)線性紅外光譜建模方法會(huì)導(dǎo)致模型的泛化能力受限,而非線性方法隨著光譜特征數(shù)目增多會(huì)導(dǎo)致模型預(yù)測(cè)準(zhǔn)確度下降的問(wèn)題,王凱等基于改進(jìn)特征選擇RF算法的紅外光譜建模方法[14],對(duì)隨機(jī)森林標(biāo)準(zhǔn)算法的特征選擇方法進(jìn)行改進(jìn),據(jù)紅外光譜與待測(cè)組分的相關(guān)性對(duì)光譜特征重要性進(jìn)行度量,采用K-均值聚類算法劃分光譜特征區(qū),按特定比例從各特征區(qū)采樣并建立決策樹,最終構(gòu)造隨機(jī)森林,改后的算法建立較少的決策樹就可以達(dá)到較高的精準(zhǔn)度,也能夠降低模型的復(fù)雜度。

3? 結(jié)? 論

綜上所述,隨機(jī)森林是一種判別模型,既支持分類問(wèn)題,也支持回歸問(wèn)題,并且支持多分類問(wèn)題。它是一種非線性模型,其預(yù)測(cè)函數(shù)為分段常數(shù)函數(shù)。近幾年來(lái),隨機(jī)森林在理論和方法上都越來(lái)越成熟,并被廣泛地應(yīng)用到各個(gè)學(xué)科之中。研究結(jié)果表明,隨機(jī)森林與其他算法相比確實(shí)有較大的優(yōu)勢(shì),結(jié)合其他的算法,可以得到更好的結(jié)果。在之后的改進(jìn)方案中,可以更多地將新的理論引入隨機(jī)森林,結(jié)合不同的算法提升算法的性能。隨機(jī)森林存在的缺點(diǎn):(1)在噪音比較大的樣本集上,該模型容易陷入過(guò)擬合;(2)劃分比較多的特征容易對(duì)隨機(jī)森林的決策產(chǎn)生更大的影響。針對(duì)隨機(jī)森林存在的缺點(diǎn),可以考慮在結(jié)合不同算法的基礎(chǔ)上,優(yōu)化數(shù)據(jù)預(yù)處理或者對(duì)隨機(jī)森林模型進(jìn)行重建,或許可以達(dá)到更好的效果。在即將到來(lái)的5G時(shí)代,引入隨機(jī)森林模型對(duì)于建立駕駛?cè)笋{駛習(xí)性辨識(shí)策略,或者自動(dòng)駕駛技術(shù)都會(huì)是很好的提升。在接下來(lái)的改進(jìn)中,應(yīng)更多地依靠應(yīng)用的需求來(lái)設(shè)計(jì)可實(shí)行性高的方案,讓隨機(jī)森林算法得到更好的優(yōu)化。

參考文獻(xiàn):

[1] CHEN X-W,LIU M. Prediction of protein-protein interactions using random decision forest framework [J].Bioinformatics,2005,21(24):4394-4400.

[2] Smith A,Sterba-Boatwright B,Mott J. Novel application of a statistical technique,Random Forests,in a bacterial source tracking study [J].Water Research,2010,44(14):4067-4076.

[3] 程玉勝,鄒歡.基于隨機(jī)森林的RFM模型對(duì)銀行信用風(fēng)險(xiǎn)的評(píng)估 [J].安慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,24(3):34-37.

[4] 葉雷.機(jī)器學(xué)習(xí)算法在醫(yī)療數(shù)據(jù)分析中的應(yīng)用 [D].武漢:華中師范大學(xué),2017.

[5] 盧睿,李林瑛.基于隨機(jī)森林的犯罪預(yù)測(cè)模型 [J].中國(guó)刑警學(xué)院學(xué)報(bào),2019(3):108-112.

[6] 黃衍,查偉雄.隨機(jī)森林與支持向量機(jī)分類性能比較 [J].軟件,2012,33(6):107-110.

[7] 謝曉龍,葉笑冬,董亞明.梯度提升隨機(jī)森林模型及其 在日前出清電價(jià)預(yù)測(cè)中的應(yīng)用 [J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(9):327-333.

[8] 邢江寬,王海鷗,羅坤,等.預(yù)測(cè)生物質(zhì)熱解動(dòng)力學(xué)參數(shù)的隨機(jī)森林模型 [J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2019,53(3):605-612.

[9] 魏正韜.基于非平衡數(shù)據(jù)的隨機(jī)森林算法研究 [D].西安:西安電子科技大學(xué),2017.

[10] 孫悅,袁健.基于Spark的改進(jìn)隨機(jī)森林算法 [J].電子科技,2019,32(4):60-63+67.

[11] 鄒永潘,王儒敬,李偉.隨機(jī)森林算法在小麥育種輔助評(píng)價(jià)中的應(yīng)用 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):181-185.

[12] 劉永垚,第寶鋒,詹宇,等.Constantine A.Stama-topoulos.基于隨機(jī)森林模型的泥石流易發(fā)性評(píng)價(jià)——以汶川地震重災(zāi)區(qū)為例 [J].山地學(xué)報(bào),2018,36(5):765-773.

[13] 李歡,熊夢(mèng)瑩,聶斌,等.融合因子分析的隨機(jī)森林研究 [J/OL].計(jì)算機(jī)工程與應(yīng)用:1-10.[2019-07-27].http://kns.cnki.net/kcms/detail/11.2127.TP.20190121.1757.009.html.

[14] 王凱,王菊香,邢志娜,等.基于改進(jìn)特征選擇RF算法的紅外光譜建模方法 [J].計(jì)算機(jī)應(yīng)用研究,2018,35(10):3000-3002.

作者簡(jiǎn)介:孫明喆(1997-),男,漢族,山東壽光人,本科,研究方向:信息工程。

猜你喜歡
集成學(xué)習(xí)隨機(jī)森林機(jī)器學(xué)習(xí)
基于稀疏編碼器與集成學(xué)習(xí)的文本分類
基于屬性權(quán)重的Bagging回歸算法研究
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
台山市| 阜城县| 金溪县| 宝坻区| 巨鹿县| 南岸区| 潜山县| 龙胜| 报价| 富锦市| 玉山县| 沁阳市| 建水县| 贺兰县| 巴林左旗| 宜宾县| 甘孜县| 田林县| 潜山县| 兰西县| 五河县| 清水河县| 顺义区| 华蓥市| 通州市| 昂仁县| 揭西县| 东城区| 都匀市| 沭阳县| 犍为县| 瓦房店市| 麻栗坡县| 奉化市| 开平市| 邻水| 水城县| 德保县| 无为县| 山西省| 开远市|