国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成學(xué)習(xí)方法與模型效果

2019-07-01 09:51
福建質(zhì)量管理 2019年13期
關(guān)鍵詞:權(quán)值方差偏差

(廣東工業(yè)大學(xué)自動化學(xué)院 廣東 廣州 510000)

一、概述

機(jī)器學(xué)習(xí)的求解過程可以看作是在假設(shè)空間中搜索一個具有強(qiáng)泛化能力和高魯棒性的學(xué)習(xí)模型,而在假設(shè)空間中尋找合適模型的過程是較為困難的。然而,集成學(xué)習(xí)作為一類組合優(yōu)化的學(xué)習(xí)方法,不僅能通過組合多個簡單模型以獲得一個性能更優(yōu)的組合模型,而且允許研究者可以針對具體的機(jī)器學(xué)習(xí)問題設(shè)計(jì)組合方案以得到更為強(qiáng)大的解決方案。回顧了集成學(xué)習(xí)的發(fā)展歷史,并著重對集成學(xué)習(xí)中多樣性的產(chǎn)生、模型訓(xùn)練和模型組合這三大策略進(jìn)行歸納,然后對集成學(xué)習(xí)在現(xiàn)階段的相關(guān)應(yīng)用場景進(jìn)行了描述,并在最后對集成學(xué)習(xí)的未來研究方向進(jìn)行了分析和展望[1]。

近幾十年以來,由于集成學(xué)習(xí)能高效地解決實(shí)際應(yīng)用問題,所以在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)備受關(guān)注。最初,集成學(xué)習(xí)旨在提高自動決策系統(tǒng)的準(zhǔn)確性,而現(xiàn)如今此方法已經(jīng)能夠成功解決各種機(jī)器學(xué)習(xí)問題。本文概述集成學(xué)習(xí)的發(fā)展歷史,并且回顧現(xiàn)有的集成學(xué)習(xí)方法,能夠?yàn)樽x者提供集成學(xué)習(xí)系統(tǒng)的構(gòu)造理論和集成學(xué)習(xí)方法。

實(shí)際上,通過集成學(xué)習(xí)思想進(jìn)行決策在文明社會開始時就已經(jīng)存在了,例如:在民主社會中,公民們通過投票來選舉官員或制定法律,對于個人而言,在重大醫(yī)療手術(shù)前通常咨詢多名醫(yī)生。這些例子表明,人們需要權(quán)衡并組合各種意見來做出最終的決定。其實(shí),研究人員使用集成學(xué)習(xí)的最初目的和人們在日常生活中使用這些機(jī)制的原因相似。Dietterich[2]從數(shù)學(xué)角度解釋了集成方法成功的 3個基本原因:統(tǒng)計(jì)、計(jì)算和代表性。此外,亦可通過偏差方差分解[3]對集成學(xué)習(xí)的有效性進(jìn)行分析。

二、模型效果的評判標(biāo)準(zhǔn)

對于機(jī)器學(xué)習(xí)算法而言,偏差和方差是衡量模型效果優(yōu)劣關(guān)鍵指標(biāo)。

偏差越小,一定程度模型擬合能力越強(qiáng),模型越復(fù)雜;方差越小,一定程度模型抗擾動能力越強(qiáng),模型越簡單。

偏差指的是算法的期望預(yù)測與真實(shí)預(yù)測之間的偏差程度,反應(yīng)了模型本身的擬合能力;方差度量了同等大小的訓(xùn)練集的變動導(dǎo)致學(xué)習(xí)性能的變化,刻畫了數(shù)據(jù)擾動所導(dǎo)致的影響。在一個模型中,偏差和方差是一對相互制約的關(guān)系,具體如圖所示:

三、兩種集成學(xué)習(xí)方法

Bagging和boosting是兩種經(jīng)典的集成學(xué)習(xí)方法。

Bagging和boosting的主要區(qū)別有樣本的選擇、樣本權(quán)值、預(yù)測函數(shù)、和并行計(jì)算等幾個方面。

1.樣本選擇

Bagging:訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的。

Boosting:每一輪的訓(xùn)練集是不變的,但是數(shù)據(jù)的權(quán)重發(fā)生了改變,前一棵樹的結(jié)果會影響下一棵樹。

2.樣本權(quán)重

Bagging:每個樣本的權(quán)重相等。

Boosting:根據(jù)錯誤率不斷對每一個樣本的權(quán)重進(jìn)行調(diào)整,上一輪被錯誤分類的樣本在下一輪的樣本權(quán)重會變大,讓下一輪模型把更多的精力放在預(yù)測這些錯誤的樣本上。

3.預(yù)測函數(shù)

Bagging:所有預(yù)測函數(shù)的樣本權(quán)值相等

Boosting:每個弱分類器都有相應(yīng)的權(quán)值,分類誤差越小的分類器權(quán)值越大

4.并行計(jì)算

Bagging:可以并行計(jì)算

Boosting:整體模型的生成是串行的,但對于串行的某些過程是可以實(shí)現(xiàn)并行的,比如xgboost對增益計(jì)算就采用并行計(jì)算。

Bagging的經(jīng)典算法有隨機(jī)森林等,Boosting的經(jīng)典算法有GBDT等。

四、Bagging和Boosting對偏差和方差的影響

以下,本文解釋為何Bagging算法通過降低方差提高模型性能,而Boosting算法通過降低模型偏差提高性能。

Bagging對樣本有放回地重采樣,對于每一次采樣訓(xùn)練得到的模型,其偏差和方差是差不多近似相等,假設(shè)bias=E[Xi],var=Var(Xi)。

因?yàn)锽oosting算法框架,其子模型之間是有強(qiáng)相關(guān)性的,無法顯著降低模型方差。

猜你喜歡
權(quán)值方差偏差
一種融合時間權(quán)值和用戶行為序列的電影推薦模型
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
CONTENTS
如何走出文章立意偏差的誤區(qū)
兩矩形上的全偏差
方差越小越好?
計(jì)算方差用哪個公式
方差生活秀
基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
基于多維度特征權(quán)值動態(tài)更新的用戶推薦模型研究
垦利县| 淮滨县| 宁晋县| 怀柔区| 敦煌市| 确山县| 洛宁县| 鸡西市| 昭平县| 襄垣县| 绥宁县| 油尖旺区| 德庆县| 南木林县| 友谊县| 中方县| 芒康县| 高淳县| 怀化市| 云浮市| 金溪县| 海口市| 成武县| 宁武县| 民勤县| 石嘴山市| 永登县| 张家港市| 阿坝| 梁平县| 桦甸市| 金昌市| 滨海县| 南溪县| 库尔勒市| 武陟县| 长沙县| 济阳县| 宜州市| 儋州市| 夏津县|