特征挖掘算法與不同機(jī)器學(xué)習(xí)方法在回歸問(wèn)題中的應(yīng)用研究

2020-01-01 09:25◆李科

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2020年4期

◆李科

（安徽理工大學(xué)測(cè)繪學(xué)院安徽 232001）

1 引言

近年來(lái)，隨著大數(shù)據(jù)時(shí)代的來(lái)臨和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展，使用特征挖掘方法和機(jī)器學(xué)習(xí)模型相結(jié)合解決實(shí)際問(wèn)題成為了較為熱門(mén)的議題[1]。隨著因變量數(shù)量的增加，會(huì)影響模型的預(yù)測(cè)精度，即出現(xiàn)維度災(zāi)難問(wèn)題[2]。所以在使用機(jī)器學(xué)習(xí)模型時(shí)，特征挖掘是一個(gè)十分重要的數(shù)據(jù)預(yù)處理過(guò)程。

本研究基于加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中提供的紅葡萄酒數(shù)據(jù)，使用Boruta 算法，結(jié)合四種機(jī)器學(xué)習(xí)模型，探討B(tài)oruta 算法對(duì)于模型解釋的應(yīng)用，對(duì)比不同機(jī)器學(xué)習(xí)模型在回歸問(wèn)題中的應(yīng)用，研究旨在為將特征挖掘和機(jī)器學(xué)習(xí)應(yīng)用于其他實(shí)際問(wèn)題提供經(jīng)驗(yàn)。

2 研究方法

2.1 Boruta 特征挖掘方法

Boruta 算法[3]是一個(gè)基于RF 算法的特征篩選算方法，該算法可以獲得數(shù)據(jù)集中有關(guān)目標(biāo)變量所有特征的重要性，獲取重要特征并刪除多余的特征變量。其特點(diǎn)是不僅僅局限于建立一個(gè)具有良好的預(yù)測(cè)精度的黑盒預(yù)測(cè)模型，還可以獲得與目標(biāo)變量相關(guān)的特征的價(jià)值。

2.2 機(jī)器學(xué)習(xí)方法

（1）隨機(jī)森林

隨機(jī)森林（Random Forest，RF）[4]是由Breinman 提出的一種基于分類(lèi)樹(shù)的集成算法，是一種樹(shù)型分類(lèi)器的集合，采用bootstrap 重復(fù)抽樣的方法從樣本中抽取樣本進(jìn)行建模，最終輸出為簡(jiǎn)單多數(shù)投票法（分類(lèi)）或單棵樹(shù)輸出結(jié)果的平均（回歸）。

（2）支持向量機(jī)

支持向量的概念最早在二十世紀(jì)六十年代。1995 年Cortes 和Vapnik 正式提出支持向量機(jī)（Support Vector Machine，SVM）的概念。支持向量機(jī)[5]的求解通常是借助于凸優(yōu)化技術(shù)，如何提高效率并且使SVM 模型適用于大規(guī)模數(shù)據(jù)一直是研究的重點(diǎn)。

（3）梯度提升模型

提升方法是一種常用的統(tǒng)計(jì)學(xué)方法，它通過(guò)改變訓(xùn)練樣本的權(quán)重，學(xué)習(xí)多個(gè)分類(lèi)器，并將這些分類(lèi)器進(jìn)行線性組合，提高模型的性能，可以看成一種集成方法。Boosting 方法主要采用基函數(shù)的線性組合與前向分布算法，以決策樹(shù)為基函數(shù)的提升方法稱(chēng)為提升樹(shù)（Booting Tree，BT）。

（4）k 鄰近

k 近鄰（k-Nearest Neighbor，kNN）學(xué)習(xí)[6]是一種常用的監(jiān)督學(xué)習(xí)方法，其工作機(jī)制為：給定測(cè)試樣本，基于某種距離度量找出訓(xùn)練集中與其最靠近的k 個(gè)訓(xùn)練樣本，然后基于這k 個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。

2.3 模型評(píng)價(jià)指標(biāo)

模型精度評(píng)定選用均方根誤差（RMSE）、平均絕對(duì)誤差（MAE）以及決定系數(shù)（R2）三個(gè)標(biāo)準(zhǔn)。

3 結(jié)果與分析

3.1 紅葡萄酒樣本分析

本文采用樣本數(shù)據(jù)包含1599 個(gè)紅葡萄酒案例以及與其相關(guān)的化學(xué)特征信息。特征信息包括揮發(fā)酸度、酒精、游離二氧化硫、殘?zhí)?、氯化物、密度、檸檬酸、pH 值、總二氧化硫、固定酸度和硫酸鹽。以質(zhì)量尺度 0 到 10 為評(píng)級(jí)指標(biāo)，其中質(zhì)量指數(shù)越高代表葡萄酒的品級(jí)越高。為保證建模集、驗(yàn)證集具有相同分布，本文采用分層抽樣。結(jié)果表明總樣本和建模集、驗(yàn)證集的統(tǒng)計(jì)特征基本一致，故可以用建模。

3.2 Boruta 算法結(jié)果分析

基于Boruta 算法對(duì)于影響葡萄酒品質(zhì)的相關(guān)因素的重要性排序，其中shadowMin、shadowMean 和shadowMax 表示特征變量的最小、平均和最大重要性分?jǐn)?shù)。結(jié)果表明所有的變量的重要性評(píng)價(jià)均高于shadowMax，即所有特征均可被認(rèn)為是重要特征。其中揮發(fā)酸度對(duì)于葡萄酒品質(zhì)影響最大，硫酸鹽對(duì)于葡萄酒酒品質(zhì)影響最小，通過(guò)使用該方法可以對(duì)于影響萄酒品質(zhì)的因素進(jìn)行探討。

3.3 不同機(jī)器學(xué)習(xí)方法模型建模結(jié)果精度分析

基于不同機(jī)器學(xué)習(xí)模型的葡萄酒品質(zhì)預(yù)測(cè)精度的結(jié)果，建模集中，SVM 模型解釋度最高，可以解釋葡萄酒質(zhì)量的65%，其余模型精度由高至低分別為RF（RMSE = 0.49，MAE = 0.43，R2= 0.50）、GBM（RMSE = 0.54，MAE = 0.50，R2= 0.42）和k-NN（RMSE = 61，MAE = 0.54，R2= 0.38），除k-NN 模型精度較低之外，其余幾種模型精度相近。

綜上所述，說(shuō)明RF 更適合用于葡萄酒質(zhì)量的預(yù)測(cè)建模。

4 結(jié)論

基于不同機(jī)器學(xué)習(xí)模型的葡萄酒品質(zhì)預(yù)測(cè)精度的結(jié)果，建模集中，SVM 模型解釋度最高，可以解釋葡萄酒品質(zhì)，本文基于Boruta 特征篩選算法研究探討了Boruta 算法在解釋模型中的應(yīng)用，對(duì)比了四種機(jī)器學(xué)習(xí)模型的在回歸問(wèn)題中的精度。主要結(jié)論如下：

（1）Boruta 算法可以對(duì)于影響紅葡萄酒的特征因素進(jìn)行重要性排序，使用該方法可以有效地進(jìn)行模型解釋?zhuān)瑢?duì)研究因變量對(duì)自變量的影響具有一定意義；

（2）除k-NN 模型外，RF、SVM 和GBM 均有較高的預(yù)測(cè)精度，其中RF 模型預(yù)測(cè)精度最高，且最為穩(wěn)定，故在紅葡萄酒之類(lèi)評(píng)級(jí)模型中，使用RF 模型可被認(rèn)為是最優(yōu)模型；

綜合而言，本文進(jìn)行特征挖掘和機(jī)器學(xué)習(xí)的研究具有一定意義，并為將兩者結(jié)合應(yīng)用于其他問(wèn)題的研究提供了一定的經(jīng)驗(yàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡