国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用

2018-11-19 06:47:10吳嘉樂
中國設(shè)備工程 2018年20期
關(guān)鍵詞:集上異質(zhì)類別

吳嘉樂

1 引言

分類模型的研究在機(jī)器學(xué)習(xí)中具有重要意義。而集成學(xué)習(xí)作為提高分類模型性能的方法也廣泛被使用。集成學(xué)習(xí)又分為同質(zhì)集成學(xué)習(xí)與異質(zhì)集成學(xué)習(xí),目前在機(jī)器學(xué)習(xí)界,大多數(shù)采用同質(zhì)集成學(xué)習(xí),包括一些主流的機(jī)器學(xué)習(xí)框架,如sklearn,都只實(shí)現(xiàn)了同質(zhì)集成學(xué)習(xí)。因此,對于異質(zhì)集成學(xué)習(xí)進(jìn)行探索就有了重要意義。研究依據(jù)具體的Iris鳶尾花卉識別實(shí)例,探究異質(zhì)集成學(xué)習(xí)的方法。

1.1 數(shù)據(jù)集特征

Iris是機(jī)器學(xué)習(xí)中一個常見的數(shù)據(jù)集,其用于鳶尾花卉分類,數(shù)據(jù)集共包含150個樣本,每個樣本包括花瓣長度、花瓣寬度、花萼長度、花萼寬度4個特征,樣本共具有3個花卉類別,分別為Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)。研究將根據(jù)該數(shù)據(jù)集,探究異質(zhì)集成學(xué)習(xí)的方法。

1.2 數(shù)據(jù)集預(yù)處理

我們的Iris數(shù)據(jù)集的預(yù)處理一共包含2個步驟,第一個步驟需要將Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),以及Iris Virginica(維吉尼亞鳶尾)這3種類別的花卉映射成0、1和2共3個類別數(shù)字,映射后的數(shù)據(jù)才能參與模型的訓(xùn)練。另一方面,由于Iris數(shù)據(jù)集的前100個數(shù)據(jù)只包含0、1共2個類別的花卉,后50個數(shù)據(jù)全部為第2個類別的花卉。所以我們需要對150個數(shù)據(jù)進(jìn)行隨機(jī)打亂后才能進(jìn)行訓(xùn)練。

1.3 數(shù)據(jù)集劃分

為了模型的訓(xùn)練與模型的性能檢驗(yàn),我們需要把數(shù)據(jù)集分為訓(xùn)練集和測試集2個部分。對于我們的Iris數(shù)據(jù)集,一共具有150個樣本。我們隨機(jī)挑選出100個數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練模型。剩下50個數(shù)據(jù)作為測試集,用于檢驗(yàn)訓(xùn)練出的模型的性能好壞。

2 構(gòu)建分類模型

2.1 構(gòu)建kNN模型

(1)基本原理。kNN模型是機(jī)器學(xué)習(xí)中一種比較簡單的分類模型。在訓(xùn)練階段,模型通過將所有的訓(xùn)練集映射在一個特征空間內(nèi)。在預(yù)測階段,模型將所有待分類的樣本,通過計算與訓(xùn)練集的距離,挑選出最近的k個距離,在這k個訓(xùn)練集樣本中,通過簡單的投票原則,來決定待分類樣本的預(yù)測類別。

(2)在Iris數(shù)據(jù)集上應(yīng)用kNN模型。在我們的Iris數(shù)據(jù)集上,我們通過將訓(xùn)練集的100個樣本映射在一個四維特征空間內(nèi)來實(shí)現(xiàn)kNN模型的訓(xùn)練。在預(yù)測過程,我們計算測試集的50個樣本與訓(xùn)練集的100個樣本的距離,從中挑選出最近的k個距離,然后采用投票原則來確定測試集樣本的花卉種類。

(3)結(jié)果分析。我們通過sklearn中的kNN模型包,在Iris數(shù)據(jù)集上運(yùn)用了kNN模型。通過改變不同的k取值,觀察在測試集上的準(zhǔn)確率。經(jīng)過測試,當(dāng)k= 2,3,4,5時,模型在測試集上的準(zhǔn)確率分別為86%,92%,88%,92%。當(dāng)k = 3或5時,在測試集上的準(zhǔn)確率達(dá)到最高92%。

(4) kNN模型的優(yōu)缺點(diǎn)分析。kNN模型的優(yōu)點(diǎn)在于模型比較簡單,結(jié)果也比較直觀。但是缺點(diǎn)是當(dāng)訓(xùn)練集樣本非常大時,由于要計算每個測試集樣本與整個訓(xùn)練集的距離,所以速度會明顯的降低。但是由于我們的樣本數(shù)目只有150個,因此采用kNN模型一方面計算速度很快,另一方面在測試集上能夠取得不錯的性能。

2.2 構(gòu)建邏輯回歸模型

(1)基本原理。邏輯回歸模型是機(jī)器學(xué)習(xí)中一種常見的分類模型,其主要運(yùn)用在二分類中。在多分類問題中,可以運(yùn)用ovr或者ovo等策略將多分類問題轉(zhuǎn)化為多個二分類問題來使用邏輯回歸。邏輯回歸的基本原理是采用sigmoid函數(shù)來作為我們的預(yù)測函數(shù)。在我們的鳶尾花卉分類問題中,sigmoid函數(shù)的輸出就是屬于每一類花卉的概率,范圍在[0,1]之間。邏輯回歸在訓(xùn)練的過程中,通過不斷的最小化交叉熵代價函數(shù),來尋求一個合適的學(xué)習(xí)參數(shù)θ向量,來使模型在訓(xùn)練集上的誤差相對較小,同時在訓(xùn)練的過程中,通過加入一定的正則化項(xiàng),來緩解模型的過擬合。

(2)假設(shè)函數(shù)。邏輯回歸采用sigmoid作為假設(shè)函數(shù),如式2.1所示。假設(shè)函數(shù)的值域?yàn)閇0,1],對應(yīng)了事件發(fā)生的概率。其中z = θTxX,θ是模型需要學(xué)習(xí)的參數(shù),X在該問題中對應(yīng)每個花卉樣本的特征向量。即z是每個花卉樣本所有特征的線性組合。

(3)交叉熵代價函數(shù)。為了衡量模型的性能,需要在訓(xùn)練的過程中引入代價函數(shù)。對于機(jī)器學(xué)習(xí)中的分類問題而言,最常用的代價函數(shù)是交叉熵代價函數(shù),如式2.2所示。其中yi為樣本的真實(shí)分布,g(θ)為模型給出的預(yù)測值,即預(yù)測屬于每一種花卉的概率值。模型在訓(xùn)練的過程中通過梯度下降法,不斷的調(diào)整θ的值,來使模型在訓(xùn)練集上的代價函數(shù)不斷降低,不斷對模型進(jìn)行優(yōu)化。

(4)邏輯回歸的正則化。在訓(xùn)練的過程中,代價函數(shù)會隨著迭代次數(shù)的增加而不斷降低,最終穩(wěn)定在一個比較小的值。代價函數(shù)越小,說明對訓(xùn)練集擬合得越好,但是會帶來機(jī)器學(xué)習(xí)中一個常見的問題,即模型陷入過擬合。雖然此時的模型能夠很好的擬合訓(xùn)練集,但是對于未知數(shù)據(jù)的泛化能力會比較低,也就是說,模型在測試集上的準(zhǔn)確率會比較低。對于機(jī)器學(xué)習(xí)中出現(xiàn)的過擬合問題,不可能完全解決,但可以在一定程度上緩解。緩解過擬合的常用手段有2種。一種是增加訓(xùn)練集樣本的數(shù)量,當(dāng)訓(xùn)練集樣本的數(shù)量增加時,模型可在一定程度上緩解過擬合,但是通常在實(shí)際情況下,我們很難去獲取到更多的樣本,或者說是獲取更多樣本的成本太高。所以我們一般采用第二種手段,即正則化,來緩解模型的過擬合。正則化的基本思想是通過在代價函數(shù)的基礎(chǔ)上,對學(xué)習(xí)到的參數(shù)向量進(jìn)行一定的限制,使學(xué)習(xí)到的參數(shù)向量不會很大,從而能得到一個相對比較簡單的機(jī)器學(xué)習(xí)模型,提高了模型的泛化能力。常用的正則化手段有L1正則化和L2正則化,L1正則化是在代價函數(shù)的基礎(chǔ)上,對學(xué)習(xí)參數(shù)進(jìn)行L1范數(shù)限制,L2正則化則是對學(xué)習(xí)參數(shù)進(jìn)行L2范數(shù)限制。L1正則化相對于L2正則化更容易產(chǎn)生稀疏解,偏向于得到一個更簡單的模型。

(5)在Iris數(shù)據(jù)集上應(yīng)用邏輯回歸模型。在我們的Iris鳶尾花分類問題中,由于花卉種類共有3類。因此我們無法直接應(yīng)用邏輯回歸。但是我們可以采用ovr手段,將1個三分類問題轉(zhuǎn)化為3個二分類問題。也就是分別把每種花卉作為一類,把剩下的2種花卉作為另外一類。在這種劃分下,在每2個類別之間訓(xùn)練一個二分類器,也就得到了相應(yīng)的3個判別函數(shù)。在預(yù)測階段,我們將未知類別的花卉特征分別代入3個分類器中,然后取最大概率分類器的類別,作為未知花卉的類別。同時,在訓(xùn)練的過程中,我們加入了L2正則化項(xiàng),來緩解模型的過擬合問題。加入了正則化項(xiàng)的代價函數(shù),如式(3)所示。

(6)結(jié)果分析。在經(jīng)過若干時間的訓(xùn)練后,模型最終在測試集上達(dá)到了80%的準(zhǔn)確率,這個準(zhǔn)確率相對于kNN模型來講,性能相差很大。其主要原因在于一般邏輯回歸模型通常適用于二分類,在我們采用ovr手段把三分類問題轉(zhuǎn)換為多個二分類問題的同時,會引入機(jī)器學(xué)習(xí)中另外一個比較常見的“偏斜類”問題,即不同類別的樣本數(shù)目相差比較大,會使訓(xùn)練出的模型性能不佳。

2.3 構(gòu)建SVM模型

(1) SVM模型基本原理。支持向量機(jī)(support vector machine,SVM),它最初于20世紀(jì)90年代由Vapnik提出,是機(jī)器學(xué)習(xí)中一種十分強(qiáng)大的分類模型。與數(shù)據(jù)挖掘中的其他分類模型相比,具有較好的泛化能力。而且針對非線性可分?jǐn)?shù)據(jù),擁有一套先進(jìn)的理論方法來處理。由于其優(yōu)秀的分類性能,在機(jī)器學(xué)習(xí)領(lǐng)域成為了研究的熱點(diǎn)。在學(xué)術(shù)界,不斷有新的理論被提出。近年來,與SVM相關(guān)的方法,在人臉識別、手寫識別、文本分類中得到了廣泛的應(yīng)用,并且取得了很好的效果。SVM可以簡單的理解為是對邏輯回歸模型的改進(jìn),對于邏輯回歸來講,是尋找一個超平面,把2類數(shù)據(jù)在特征空間中劃分開來,對于線性可分的數(shù)據(jù)集來講,可能存在無數(shù)個超平面將數(shù)據(jù)劃分開來,而邏輯回歸只是尋找到其中的某一個超平面。而對于SVM來講,則是在這眾多的超平面中,尋找到最優(yōu)的一個超平面,這里的最優(yōu)是指到2類樣本點(diǎn)的間隔都相對較大。這個最優(yōu)的分隔超平面可以使模型的泛化能力更強(qiáng)。

(2)核函數(shù)。在實(shí)際的數(shù)據(jù)集中,最常見的還是線性不可分的數(shù)據(jù)集,此時SVM無法直接使用,需要引入帶核函數(shù)的SVM。核函數(shù)的作用主要是將在低維特征空間中線性不可分的數(shù)據(jù)映射到高維特征空間中,在高緯空間中,原本線性不可分的數(shù)據(jù)就有可能成為線性可分的數(shù)據(jù)。

(3)結(jié)果分析。我們最終在Iris花卉數(shù)據(jù)集上嘗試使用不同的核函數(shù),如線性核函數(shù)、高斯核函數(shù)、多項(xiàng)式核函數(shù)等。在經(jīng)過多輪迭代之后,最終在測試集上得到了92%的準(zhǔn)確率。由此可見,SVM是泛化能力比較強(qiáng)的一種分類模型。

2.4 構(gòu)建集成學(xué)習(xí)器

(1)集成學(xué)習(xí)的基本原理。在人工智能的監(jiān)督學(xué)習(xí)中,我們希望學(xué)習(xí)到一個穩(wěn)定、強(qiáng)大的強(qiáng)學(xué)習(xí)器,但是實(shí)際上往往不那么理想,我們可能會得到若干個在不同的方面存在著不同缺陷的弱學(xué)習(xí)器。而集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型,以期得到一個更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)的思想就是綜合多個弱監(jiān)督模型的優(yōu)點(diǎn),根據(jù)多個弱監(jiān)督模型的決策結(jié)果來得到最終的決策結(jié)果。這樣即使某一個弱分類器得到了錯誤的預(yù)測,那么其他的分類器也能將錯誤糾正過來。因此,我們從集成學(xué)習(xí)的基本思想可以知道,集成學(xué)習(xí)共分為2步。第1步是得到多個基本的學(xué)習(xí)器,第2步是采用一定的策略,把第1步得到的學(xué)習(xí)器結(jié)合起來,得到最終的學(xué)習(xí)器。

(2)集成學(xué)習(xí)的個體學(xué)習(xí)器。在機(jī)器學(xué)習(xí)中,通常有2種方式得到個體學(xué)習(xí)器:第一種方式是所有的個體學(xué)習(xí)器來自于同一個模型,即是同質(zhì)學(xué)習(xí)器,例如都來自CART樹,或者都來自神經(jīng)網(wǎng)絡(luò)。第二種方式是所有的個體來自于不同的模型,即是異質(zhì)學(xué)習(xí)器,比如個體學(xué)習(xí)器分別來自kNN、SVM、邏輯回歸等。目前在機(jī)器學(xué)習(xí)領(lǐng)域,一般都采用基于同質(zhì)學(xué)習(xí)器的集成學(xué)習(xí)。我們所說的集成學(xué)習(xí),在默認(rèn)情況下都是指同質(zhì)集成學(xué)習(xí)器。對同質(zhì)學(xué)習(xí)器的研究也比較多,對異質(zhì)學(xué)習(xí)器的研究比較少。但異質(zhì)學(xué)習(xí)器同樣作為一種重要的集成學(xué)習(xí)策略,被廣泛使用。

(3)集成學(xué)習(xí)的結(jié)合法。

①平均法。對于機(jī)器學(xué)習(xí)中的回歸問題,比較常用的方法是將若干個基本學(xué)習(xí)器的輸出求平均值來得到最終分類器的輸出。比較常用的求平均值的方法有算法平均和加權(quán)平均。最簡單的為算法平均,如(4)式所示。如果每個個體學(xué)習(xí)器有一個權(quán)重wi,則最終的預(yù)測如式(5)所示。其中H(x)為集成學(xué)習(xí)器的最終輸出,hi(x)為每個個體學(xué)習(xí)器的輸出,T為集成的個體學(xué)習(xí)器的個數(shù)。②投票法。對于分類問題,一般采用投票法進(jìn)行決策。每個弱分類器給出自己的判別結(jié)果,然后將所有的結(jié)果進(jìn)行綜合得到最終決策。最簡單的投票法是相對多數(shù)的投票法,也就是我們常說的少數(shù)服從多數(shù),也就是T個弱學(xué)習(xí)器對樣本x的預(yù)測結(jié)果中,數(shù)量最多的類別cici為最終的分類類別。如果不止一個類別獲得最高票,則隨機(jī)選擇一個作為最終類別。稍微復(fù)雜的投票法是絕對多數(shù)投票法,也就是我們常說的要票過半數(shù)。在相對多數(shù)投票法的基礎(chǔ)上,不僅要求獲得最高票,還要求票數(shù)過半。否則會拒絕預(yù)測。更加復(fù)雜的是加權(quán)投票法,和加權(quán)平均法一樣,每個弱學(xué)習(xí)器的分類票數(shù)要乘以一個權(quán)重,最終將各個類別的加權(quán)票數(shù)求和,最大的值對應(yīng)的類別為最終類別。

(4)在Iris花卉數(shù)據(jù)集上應(yīng)用異質(zhì)集成學(xué)習(xí)。在Iris花卉數(shù)據(jù)集上,我們采用了3個個體學(xué)習(xí)器,分別是kNN模型、邏輯回歸模型、SVM模型,把這3個學(xué)習(xí)器采用基本投票策略的方式結(jié)合起來,票數(shù)最多的花卉類別作為預(yù)測樣本的類別,最終得到了一個準(zhǔn)確率更高更強(qiáng)大的學(xué)習(xí)器。經(jīng)過在測試集上進(jìn)行測試,最終在測試集上達(dá)到了94%的準(zhǔn)確率,相對于單個個體學(xué)習(xí)器的最高只達(dá)到了92%而言,提升了2%。這充分說明了在采用異質(zhì)集成學(xué)習(xí)后,融合后的模型的性能得到了提升,取得了一定的效果。

3 結(jié)語

本文對Iris鳶尾花卉數(shù)據(jù)集,分別采用了單獨(dú)的個體學(xué)習(xí)器kNN、邏輯回歸、SVM以及異質(zhì)集成學(xué)習(xí),把單獨(dú)的個體學(xué)習(xí)器在測試集地上的準(zhǔn)確率從92%、80%、92%提升到了融合后的94%,充分說明了異質(zhì)集成學(xué)習(xí)在該問題上取得了效果,也證明了異質(zhì)集成學(xué)習(xí)和同質(zhì)學(xué)習(xí)一樣,具有廣泛的應(yīng)用前景。

猜你喜歡
集上異質(zhì)類別
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復(fù)扇形指標(biāo)集上的分布混沌
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
MoS2/ZnO異質(zhì)結(jié)的光電特性
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
幾道導(dǎo)數(shù)題引發(fā)的解題思考
灌阳县| 苏尼特右旗| 定结县| 芷江| 金阳县| 涡阳县| 安达市| 论坛| 华安县| 双柏县| 平安县| 涞源县| 怀远县| 永州市| 墨竹工卡县| 广宗县| 饶河县| 绥中县| 建平县| 苍南县| 新安县| 资溪县| 凤阳县| 南涧| 五指山市| 金寨县| 文化| 中牟县| 峨山| 平和县| 同德县| 绥化市| 都江堰市| 循化| 甘洛县| 吴江市| 武宣县| 元谋县| 赤水市| 增城市| 湘乡市|