国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

特征挖掘算法與不同機(jī)器學(xué)習(xí)方法在回歸問(wèn)題中的應(yīng)用研究

2020-01-01 09:25◆李
關(guān)鍵詞:紅葡萄酒葡萄酒機(jī)器

◆李 科

(安徽理工大學(xué)測(cè)繪學(xué)院 安徽 232001)

1 引言

近年來(lái),隨著大數(shù)據(jù)時(shí)代的來(lái)臨和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,使用特征挖掘方法和機(jī)器學(xué)習(xí)模型相結(jié)合解決實(shí)際問(wèn)題成為了較為熱門(mén)的議題[1]。隨著因變量數(shù)量的增加,會(huì)影響模型的預(yù)測(cè)精度,即出現(xiàn)維度災(zāi)難問(wèn)題[2]。所以在使用機(jī)器學(xué)習(xí)模型時(shí),特征挖掘是一個(gè)十分重要的數(shù)據(jù)預(yù)處理過(guò)程。

本研究基于加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中提供的紅葡萄酒數(shù)據(jù),使用Boruta 算法,結(jié)合四種機(jī)器學(xué)習(xí)模型,探討B(tài)oruta 算法對(duì)于模型解釋的應(yīng)用,對(duì)比不同機(jī)器學(xué)習(xí)模型在回歸問(wèn)題中的應(yīng)用,研究旨在為將特征挖掘和機(jī)器學(xué)習(xí)應(yīng)用于其他實(shí)際問(wèn)題提供經(jīng)驗(yàn)。

2 研究方法

2.1 Boruta 特征挖掘方法

Boruta 算法[3]是一個(gè)基于RF 算法的特征篩選算方法,該算法可以獲得數(shù)據(jù)集中有關(guān)目標(biāo)變量所有特征的重要性,獲取重要特征并刪除多余的特征變量。其特點(diǎn)是不僅僅局限于建立一個(gè)具有良好的預(yù)測(cè)精度的黑盒預(yù)測(cè)模型,還可以獲得與目標(biāo)變量相關(guān)的特征的價(jià)值。

2.2 機(jī)器學(xué)習(xí)方法

(1)隨機(jī)森林

隨機(jī)森林(Random Forest,RF)[4]是由Breinman 提出的一種基于分類(lèi)樹(shù)的集成算法,是一種樹(shù)型分類(lèi)器的集合,采用bootstrap 重復(fù)抽樣的方法從樣本中抽取樣本進(jìn)行建模,最終輸出為簡(jiǎn)單多數(shù)投票法(分類(lèi))或單棵樹(shù)輸出結(jié)果的平均(回歸)。

(2)支持向量機(jī)

支持向量的概念最早在二十世紀(jì)六十年代。1995 年Cortes 和Vapnik 正式提出支持向量機(jī)(Support Vector Machine,SVM)的概念。支持向量機(jī)[5]的求解通常是借助于凸優(yōu)化技術(shù),如何提高效率并且使SVM 模型適用于大規(guī)模數(shù)據(jù)一直是研究的重點(diǎn)。

(3)梯度提升模型

提升方法是一種常用的統(tǒng)計(jì)學(xué)方法,它通過(guò)改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類(lèi)器,并將這些分類(lèi)器進(jìn)行線性組合,提高模型的性能,可以看成一種集成方法。Boosting 方法主要采用基函數(shù)的線性組合與前向分布算法,以決策樹(shù)為基函數(shù)的提升方法稱(chēng)為提升樹(shù)(Booting Tree,BT)。

(4)k 鄰近

k 近鄰(k-Nearest Neighbor,kNN)學(xué)習(xí)[6]是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制為:給定測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k 個(gè)訓(xùn)練樣本,然后基于這k 個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。

2.3 模型評(píng)價(jià)指標(biāo)

模型精度評(píng)定選用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)以及決定系數(shù)(R2)三個(gè)標(biāo)準(zhǔn)。

3 結(jié)果與分析

3.1 紅葡萄酒樣本分析

本文采用樣本數(shù)據(jù)包含1599 個(gè)紅葡萄酒案例以及與其相關(guān)的化學(xué)特征信息。特征信息包括揮發(fā)酸度、酒精、游離二氧化硫、殘?zhí)?、氯化物、密度、檸檬酸、pH 值、總二氧化硫、固定酸度和硫酸鹽。以質(zhì)量尺度 0 到 10 為評(píng)級(jí)指標(biāo),其中質(zhì)量指數(shù)越高代表葡萄酒的品級(jí)越高。為保證建模集、驗(yàn)證集具有相同分布,本文采用分層抽樣。結(jié)果表明總樣本和建模集、驗(yàn)證集的統(tǒng)計(jì)特征基本一致,故可以用建模。

3.2 Boruta 算法結(jié)果分析

基于Boruta 算法對(duì)于影響葡萄酒品質(zhì)的相關(guān)因素的重要性排序,其中shadowMin、shadowMean 和shadowMax 表示特征變量的最小、平均和最大重要性分?jǐn)?shù)。結(jié)果表明所有的變量的重要性評(píng)價(jià)均高于shadowMax,即所有特征均可被認(rèn)為是重要特征。其中揮發(fā)酸度對(duì)于葡萄酒品質(zhì)影響最大,硫酸鹽對(duì)于葡萄酒酒品質(zhì)影響最小,通過(guò)使用該方法可以對(duì)于影響萄酒品質(zhì)的因素進(jìn)行探討。

3.3 不同機(jī)器學(xué)習(xí)方法模型建模結(jié)果精度分析

基于不同機(jī)器學(xué)習(xí)模型的葡萄酒品質(zhì)預(yù)測(cè)精度的結(jié)果,建模集中,SVM 模型解釋度最高,可以解釋葡萄酒質(zhì)量的65%,其余模型精度由高至低分別為RF(RMSE = 0.49,MAE = 0.43,R2= 0.50)、GBM(RMSE = 0.54,MAE = 0.50,R2= 0.42)和k-NN(RMSE = 61,MAE = 0.54,R2= 0.38),除k-NN 模型精度較低之外,其余幾種模型精度相近。

綜上所述,說(shuō)明RF 更適合用于葡萄酒質(zhì)量的預(yù)測(cè)建模。

4 結(jié)論

基于不同機(jī)器學(xué)習(xí)模型的葡萄酒品質(zhì)預(yù)測(cè)精度的結(jié)果,建模集中,SVM 模型解釋度最高,可以解釋葡萄酒品質(zhì),本文基于Boruta 特征篩選算法研究探討了Boruta 算法在解釋模型中的應(yīng)用,對(duì)比了四種機(jī)器學(xué)習(xí)模型的在回歸問(wèn)題中的精度。主要結(jié)論如下:

(1)Boruta 算法可以對(duì)于影響紅葡萄酒的特征因素進(jìn)行重要性排序,使用該方法可以有效地進(jìn)行模型解釋?zhuān)瑢?duì)研究因變量對(duì)自變量的影響具有一定意義;

(2)除k-NN 模型外,RF、SVM 和GBM 均有較高的預(yù)測(cè)精度,其中RF 模型預(yù)測(cè)精度最高,且最為穩(wěn)定,故在紅葡萄酒之類(lèi)評(píng)級(jí)模型中,使用RF 模型可被認(rèn)為是最優(yōu)模型;

綜合而言,本文進(jìn)行特征挖掘和機(jī)器學(xué)習(xí)的研究具有一定意義,并為將兩者結(jié)合應(yīng)用于其他問(wèn)題的研究提供了一定的經(jīng)驗(yàn)。

猜你喜歡
紅葡萄酒葡萄酒機(jī)器
機(jī)器狗
機(jī)器狗
中國(guó)2020葡萄酒消費(fèi)量下降17%
葡萄酒的產(chǎn)區(qū)品牌
發(fā)榜
未來(lái)機(jī)器城
紅葡萄酒,防支架造成再狹窄
法國(guó)葡萄酒何以譽(yù)滿天下
砸酒瓶
喝紅酒防蛀牙
开化县| 新郑市| 共和县| 万盛区| 岳池县| 阿鲁科尔沁旗| 绥芬河市| 花莲县| 大余县| 镇雄县| 定西市| 海林市| 蕉岭县| 日土县| 乐东| 大丰市| 阳春市| 墨玉县| 秦安县| 肇庆市| 龙门县| 耒阳市| 霞浦县| 海盐县| 新昌县| 横山县| 梓潼县| 余姚市| 峨边| 三门峡市| 乾安县| 时尚| 莒南县| 敦煌市| 中阳县| 安义县| 济源市| 西林县| 乐安县| 通榆县| 苏尼特右旗|