劉金燦 田星 周紅彬 尹波
【摘要】? ? 針對(duì)系統(tǒng)性能評(píng)估結(jié)果,分析各類指標(biāo)在本次評(píng)估中的貢獻(xiàn)率,是系統(tǒng)實(shí)現(xiàn)有針對(duì)性優(yōu)化改進(jìn)的重要基礎(chǔ)。基于隨機(jī)森林算法中的變量重要性測量(Variable Importance Measure,VIM),面向指標(biāo)體系與評(píng)估結(jié)果值構(gòu)建隨機(jī)森林模型,設(shè)計(jì)實(shí)現(xiàn)一種系統(tǒng)性能指標(biāo)貢獻(xiàn)率評(píng)估方法,完成系統(tǒng)性能評(píng)價(jià)中指標(biāo)重要程度排序。仿真結(jié)果表明,該方法可以精準(zhǔn)快速地選取對(duì)系統(tǒng)評(píng)估結(jié)果影響較大的指標(biāo),從而為系統(tǒng)性能的提升提供理論支撐。
【關(guān)鍵詞】? ? 性能評(píng)估? ? 隨機(jī)森林? ? 變量重要性測量? ? 指標(biāo)貢獻(xiàn)率? ? 機(jī)器學(xué)習(xí)
引言:
近年來,面向系統(tǒng)性能評(píng)估的研究主要集中在評(píng)估算法的優(yōu)化改進(jìn)及實(shí)現(xiàn)[1],針對(duì)性能評(píng)估結(jié)果的進(jìn)一步分析,以及判斷評(píng)估指標(biāo)對(duì)系統(tǒng)性能評(píng)價(jià)的貢獻(xiàn)程度,在國內(nèi)外尚未開展專門研究。關(guān)于體系貢獻(xiàn)率、節(jié)點(diǎn)重要性分析的相關(guān)研究,目前主要集中在裝備體系貢獻(xiàn)率評(píng)估[2-7],以及復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要性計(jì)算[8-11]中;文獻(xiàn)[12]基于灰靶理論實(shí)現(xiàn)指揮信息系統(tǒng)指標(biāo)體系貢獻(xiàn)度計(jì)算,但未與系統(tǒng)性能評(píng)估相關(guān)聯(lián);文獻(xiàn)[13]提出了一種基于隨機(jī)森林的重要性測度分析方法,從而找出重要特征變量,降低輸入空間的維數(shù),節(jié)約運(yùn)算成本。然而,均未從系統(tǒng)性能評(píng)估的角度,開展指標(biāo)貢獻(xiàn)率分析,無法支撐系統(tǒng)頂層完成“系統(tǒng)設(shè)計(jì)-性能評(píng)估-指標(biāo)貢獻(xiàn)率分析-系統(tǒng)性能優(yōu)化”的閉環(huán)。
隨著機(jī)器學(xué)習(xí)領(lǐng)域相關(guān)研究的不斷深入,關(guān)于隨機(jī)森林算法的優(yōu)化與應(yīng)用迅猛發(fā)展。自Breiman于2001年提出以來[14],該算法憑借其在特征選擇、分類識(shí)別上的獨(dú)特優(yōu)勢(shì),已廣泛應(yīng)用于生態(tài)學(xué)、醫(yī)學(xué)、天文學(xué)、農(nóng)業(yè)等行業(yè)。本文提出的系統(tǒng)性能指標(biāo)貢獻(xiàn)率方法,利用隨機(jī)森林算法在決策樹構(gòu)建過程中變量重要性測量(Variable Importance Measure ,VIM),完成指標(biāo)重要程度的識(shí)別,具有良好效果。
一、系統(tǒng)性能指標(biāo)貢獻(xiàn)率評(píng)估方法
“貢獻(xiàn)率”一詞多出現(xiàn)于經(jīng)濟(jì)領(lǐng)域,用以表示某一經(jīng)濟(jì)形式對(duì)整體經(jīng)濟(jì)增長的作用程度。本文借用該詞表征在系統(tǒng)性能評(píng)估中,參與評(píng)估計(jì)算的各類指標(biāo),對(duì)系統(tǒng)綜合效能評(píng)價(jià)的影響程度。指標(biāo)貢獻(xiàn)率越高,表明該指標(biāo)對(duì)系統(tǒng)性能評(píng)估結(jié)果影響越大,從而可有針對(duì)性地進(jìn)行系統(tǒng)性能提升。
(一)隨機(jī)森林算法與適用性分析
隨機(jī)森林算法是經(jīng)典的數(shù)據(jù)挖掘算法之一,其核心在于決策樹的構(gòu)建,并通過多顆決策樹的組合,完成對(duì)樣本數(shù)據(jù)的特征識(shí)別與提取,提高分類的準(zhǔn)確性。
決策樹采用樹形結(jié)構(gòu),從根節(jié)點(diǎn)出發(fā)自頂向下遞歸構(gòu)建。在構(gòu)建過程中,按照一定的規(guī)則,對(duì)樣本數(shù)據(jù)進(jìn)行特征提取與逐層分類,即將樣本數(shù)據(jù)依次放入下一層的“左”或“右”子節(jié)點(diǎn)中,形成樹的“分裂”。當(dāng)完成所有決策樹的構(gòu)建后,每棵樹最底層的樹節(jié)點(diǎn)共同完成所有樣本數(shù)據(jù)的分類。
隨機(jī)森林算法在實(shí)現(xiàn)過程中的關(guān)注點(diǎn)包含兩個(gè)方面:一是單棵決策樹生成的正確率,也稱為單棵決策樹的強(qiáng)度,即每次樹節(jié)點(diǎn)分裂的正確性,多顆決策樹的強(qiáng)度綜合決定了整體森林的分類性能;二是降低每顆決策樹之間的相關(guān)性,從而“獨(dú)立”地為最終分類結(jié)果負(fù)責(zé),提高整體森林的可信度。
面向系統(tǒng)性能指標(biāo)的貢獻(xiàn)率評(píng)估,可以歸納為指標(biāo)體系(輸入變量X)對(duì)評(píng)估結(jié)果(輸出變量Y)影響程度的問題。其中,針對(duì)復(fù)雜系統(tǒng)的性能評(píng)估,其指標(biāo)體系復(fù)雜、指標(biāo)數(shù)量多,同時(shí)指標(biāo)數(shù)據(jù)的變動(dòng)具有非線性特征,且為多類指標(biāo)共同作用下決定評(píng)估結(jié)果值的大小。也就是說,輸入變量不確定性較強(qiáng)、呈非線性關(guān)系,且多類變量存在相互交叉、共同作用的關(guān)系。
隨機(jī)森林通過構(gòu)建一系列決策樹來解決樣本數(shù)據(jù)高維度處理難題,而決策樹模型本身屬于非線性分類(回歸)模型,最終分類結(jié)果通過每棵樹的結(jié)果進(jìn)行投票獲得,而不依賴于特定的輸入數(shù)據(jù)(單棵決策樹),特別適合解決交叉作用顯著的問題。另外,隨機(jī)森林算法通過統(tǒng)計(jì)學(xué)習(xí)可以自動(dòng)識(shí)別出對(duì)輸出變量影響較大的輸入變量。因此,該算法在解決指標(biāo)貢獻(xiàn)率評(píng)估上具有較強(qiáng)的適用性。
(二)基于隨機(jī)森林的指標(biāo)貢獻(xiàn)率評(píng)估
將隨機(jī)森林算法應(yīng)用于指標(biāo)貢獻(xiàn)率評(píng)估,首先假設(shè)指標(biāo)體系共包含n個(gè)子指標(biāo)X,X,...,X,且改變指標(biāo)數(shù)據(jù)后,進(jìn)行N次性能評(píng)估,將產(chǎn)生的評(píng)估結(jié)果記為Y,Y,...,Y,并將所有變量(包括輸入變量X與輸出變量Y)組成的樣本數(shù)據(jù)集合記為T。則基于隨機(jī)森林的指標(biāo)貢獻(xiàn)率評(píng)估方法,分為以下兩步實(shí)現(xiàn):
1.隨機(jī)森林模型構(gòu)建,即決策樹的構(gòu)建
從總樣本數(shù)據(jù)T中隨機(jī)抽樣組成m個(gè)訓(xùn)練子集,并將第k個(gè)訓(xùn)練子集記為T,其數(shù)據(jù)規(guī)模大小記為N,則有:
對(duì)任意的T,分裂形成單棵決策樹,最終m個(gè)訓(xùn)練子集將形成m個(gè)決策樹,并共同構(gòu)成隨機(jī)森林。
其中,決策樹個(gè)數(shù)m的選擇由樣本數(shù)量多少?zèng)Q定:若樣本數(shù)量充足,m越大,則表明單棵決策樹對(duì)最終結(jié)果影響越小,一定程度上可避免個(gè)別差錯(cuò)數(shù)據(jù)對(duì)整體結(jié)果的影響,而m過大又會(huì)帶來算法時(shí)間和空間上的開銷;若樣本數(shù)據(jù)有限,則可以適當(dāng)減少?zèng)Q策樹的個(gè)數(shù),避免出現(xiàn)不同決策樹使用相同數(shù)據(jù)集的情況,或者通過數(shù)據(jù)隨機(jī)擾動(dòng)的方式,擴(kuò)大樣本規(guī)模。
2.指標(biāo)貢獻(xiàn)率計(jì)算
在每棵決策樹生成的過程中,基于節(jié)點(diǎn)的不確定性下降量,計(jì)算產(chǎn)生該顆決策樹的變量重要性測量(VIM);當(dāng)隨機(jī)森林模型構(gòu)建完畢后,進(jìn)一步計(jì)算得出m個(gè)決策樹的平均重要性測量結(jié)果(PVIM),最終為各指標(biāo)計(jì)算得到貢獻(xiàn)率評(píng)分值。
基于隨機(jī)森林的指標(biāo)貢獻(xiàn)率評(píng)估方法完整流程如圖2所示。
(1) 隨機(jī)森林模型構(gòu)建
如前文所述,在決策樹生成過程中,如何確定節(jié)點(diǎn)分裂準(zhǔn)則,是隨機(jī)森林模型是否可信的關(guān)鍵。目前關(guān)于節(jié)點(diǎn)分裂法則在分類問題中主要使用的有Gini系數(shù)、信息熵;在回歸問題中主要使用的有均方誤差MSE、平均均方差MAE準(zhǔn)則等。由于指標(biāo)體系貢獻(xiàn)率的計(jì)算結(jié)果需由所有決策樹共同決定,本質(zhì)上為回歸問題。因此,本文采用MSE準(zhǔn)則,實(shí)現(xiàn)節(jié)點(diǎn)的分裂。
MSE準(zhǔn)則事實(shí)上是一種二元遞歸分裂法則,它將輸入變量的空間不斷分割,形成越來越多的同類別的小矩形區(qū)域。所建立的決策樹根節(jié)點(diǎn)包含了所有訓(xùn)練樣本,在每一個(gè)分裂節(jié)點(diǎn)(包括根節(jié)點(diǎn))的分裂步驟如下:
1)假設(shè)當(dāng)前節(jié)點(diǎn)在經(jīng)過若干次分裂后,規(guī)模為s,即包含有s組數(shù)據(jù)(X ,Y),其中j=1,...,s。
2)從當(dāng)前節(jié)點(diǎn)中選取一組指標(biāo)數(shù)據(jù)(X,Y),將X 作為候選分裂變量。
3)通過下式計(jì)算使用該分裂變量后,給當(dāng)前節(jié)點(diǎn)s組數(shù)據(jù)均方誤差MSE所帶來的改變量ΔMSE:
ΔMSE=MSE -P*MSE-Pl*MSE
其中, MSEf表示父節(jié)點(diǎn)的MSE值,MSEr、MSEl分別表示分裂后的右節(jié)點(diǎn)與左節(jié)點(diǎn)的MSE值,Pr和Pl分別表示父節(jié)點(diǎn)落入孩子右節(jié)點(diǎn)與孩子左節(jié)點(diǎn)的概率(右/左節(jié)點(diǎn)數(shù)據(jù)量與父節(jié)點(diǎn)數(shù)據(jù)量之比)。均方差MSE是利用組內(nèi)評(píng)估值Yj計(jì)算得到,以當(dāng)前含有s組數(shù)據(jù)的節(jié)點(diǎn)為例,公式如下:
其中,t=1,...,s;為根據(jù)袋外數(shù)據(jù)(Out Of Bag, OOB)重新評(píng)估得到的預(yù)測值。
4)將該節(jié)點(diǎn)s組數(shù)據(jù)全部輪循作為候選分裂變量后,將ΔMSE最大的一組值的X作為分裂閾值。父節(jié)點(diǎn)中的指標(biāo)數(shù)據(jù)小于該閾值的樣本分配到左子節(jié)點(diǎn)中,剩余的樣本分配至右子節(jié)點(diǎn)中,從而完成一次節(jié)點(diǎn)分裂。
按照上述步驟,對(duì)每個(gè)節(jié)點(diǎn)依次進(jìn)行逐層的分裂,直至達(dá)到分裂停止條件。停止條件主要為達(dá)到了預(yù)設(shè)的決策樹高度值,該值的設(shè)置避免了持續(xù)分裂使該節(jié)點(diǎn)VIM為0的情況,防止數(shù)據(jù)出現(xiàn)過擬合現(xiàn)象。
當(dāng)節(jié)點(diǎn)分裂完畢后即形成一棵決策樹,m個(gè)決策樹生成后,共同組成隨機(jī)森林模型,具體實(shí)現(xiàn)流程如圖3所示。
(2)指標(biāo)貢獻(xiàn)率計(jì)算
在隨機(jī)森林模型的構(gòu)建過程中,利用決策樹節(jié)點(diǎn)的ΔMSE進(jìn)行分裂,也就是說該節(jié)點(diǎn)處的MSE值直接決定了每顆決策樹的分裂結(jié)構(gòu)與隨機(jī)森林模型的最終樣式。因此,可以將該節(jié)點(diǎn)處的MSE值作為不確定性下降量,從而進(jìn)一步求取決策樹的變量重要性測量值以及隨機(jī)森林的平均重要性測量值。指標(biāo)貢獻(xiàn)率的計(jì)算步驟如下:
1)計(jì)算某顆決策樹中某個(gè)節(jié)點(diǎn)的不確定性下降量,計(jì)算公式為MSE *N-MSE *N-MSE *N。其中,MSE 表示當(dāng)前節(jié)點(diǎn)的MSE值,MSE、MSE分別表示右子節(jié)點(diǎn)與左子節(jié)點(diǎn)的MSE值,N、N、N分別是當(dāng)前節(jié)點(diǎn)、右子節(jié)點(diǎn)、左子節(jié)點(diǎn)的樣本數(shù)量。
2)遍歷整棵樹中的所有節(jié)點(diǎn),將每個(gè)節(jié)點(diǎn)的不確定性下降值進(jìn)行累計(jì)求和、取平均處理,得到單棵決策樹的變量重要性測量值(VIM),并對(duì)所有VIM進(jìn)行歸一化處理。
3)基于單棵決策樹的VIM結(jié)果,對(duì)隨機(jī)森林所有決策樹求取變量的平均重要性測量值(PVIM),并作為最終結(jié)果。
按照指標(biāo)PVIM計(jì)算值的大小,即可實(shí)現(xiàn)對(duì)指標(biāo)重要程度的排序,完成指標(biāo)貢獻(xiàn)率評(píng)估。
二、指標(biāo)貢獻(xiàn)率評(píng)估方法應(yīng)用仿真
為檢驗(yàn)本文提出的基于隨機(jī)森林的指標(biāo)貢獻(xiàn)率評(píng)估方法,面向衛(wèi)星通信網(wǎng)絡(luò)系統(tǒng),運(yùn)用該方法構(gòu)建隨機(jī)森林模型,并實(shí)現(xiàn)指標(biāo)貢獻(xiàn)率評(píng)估分析,以測試其可行性與有效性。
(一) 指標(biāo)體系與評(píng)估結(jié)果
以衛(wèi)星通信系統(tǒng)的通信組網(wǎng)場景為例,首先為該場景設(shè)置評(píng)估指標(biāo)體系,如圖4所示。
針對(duì)系統(tǒng)的通信組網(wǎng)場景,重點(diǎn)關(guān)注決定用戶服務(wù)質(zhì)量的組網(wǎng)能力與通信能力,分別將兩種能力指標(biāo)具化后,形成2層7個(gè)子指標(biāo),包括網(wǎng)絡(luò)吞吐量、資源利用率、切換時(shí)間、切換成功率、業(yè)務(wù)流量、業(yè)務(wù)時(shí)延、業(yè)務(wù)丟包率。為獲取足夠多的樣本數(shù)據(jù)量,為子指標(biāo)設(shè)置200組不同的數(shù)據(jù)值。
另外,為進(jìn)一步驗(yàn)證本文所提方法的合理性,采用具有主觀因素的層次分析法,對(duì)每組指標(biāo)數(shù)據(jù)值,進(jìn)行系統(tǒng)性能評(píng)估。部分歸一化后的指標(biāo)數(shù)據(jù)與對(duì)應(yīng)的評(píng)估結(jié)果見表1。
在層次分析法的評(píng)估過程中,網(wǎng)絡(luò)吞吐量、資源利用率、切換時(shí)間、切換成功率、業(yè)務(wù)流量、業(yè)務(wù)時(shí)延、業(yè)務(wù)丟包率7類指標(biāo)的權(quán)重分別為[0.24,0.09,0.18,0.09,0.16,0.12,0.12]。
(二)指標(biāo)貢獻(xiàn)率評(píng)估
按照上文所述的指標(biāo)貢獻(xiàn)率評(píng)估方法,為指標(biāo)數(shù)據(jù)值及對(duì)應(yīng)的評(píng)估結(jié)果構(gòu)建500棵決策樹組成的隨機(jī)森林模型。由于參與評(píng)估的指標(biāo)類型較少,將決策樹的高度閾值預(yù)設(shè)為5。
以網(wǎng)絡(luò)吞吐量指標(biāo)為例,根據(jù)MSE 分裂準(zhǔn)則形成的決策樹,其單顆決策樹下的變量重要性測量值(共500個(gè))經(jīng)過計(jì)算后為:[0.388,0.192,0.240,0.219,0.308,0.282,0.271,…]。而對(duì)于隨機(jī)森林模型來說,該指標(biāo)的變量平均重要性測量值為0.282。
按照上述方法,分別對(duì)網(wǎng)絡(luò)吞吐量、資源利用率、切換時(shí)間、切換成功率、業(yè)務(wù)流量、業(yè)務(wù)時(shí)延、業(yè)務(wù)丟包率7類指標(biāo)求取PVIM后,即可得到各指標(biāo)的貢獻(xiàn)率,如圖5所示。
由圖5可看出,在評(píng)估體系的7類指標(biāo)中,網(wǎng)絡(luò)吞吐量、切換時(shí)間兩類指標(biāo)對(duì)系統(tǒng)性能評(píng)估結(jié)果的影響程度最大,在下一步的系統(tǒng)優(yōu)化中應(yīng)重點(diǎn)加以關(guān)注。本例中的計(jì)算結(jié)果與層次分析算法過程中各類指標(biāo)的權(quán)重值相對(duì)應(yīng),從側(cè)面反映出該方法的有效性??梢姡疚奶岢龅幕陔S機(jī)森林算法的指標(biāo)貢獻(xiàn)率評(píng)估方法,能夠?qū)崿F(xiàn)對(duì)參與評(píng)估的各項(xiàng)指標(biāo)進(jìn)行重要程度排序,為系統(tǒng)性能提升提供依據(jù)。
三、結(jié)束語
面向系統(tǒng)性能評(píng)估的指標(biāo)貢獻(xiàn)程度研究,是在系統(tǒng)設(shè)計(jì)與性能優(yōu)化過程中的重要手段。本文在分析隨機(jī)森林算法實(shí)現(xiàn)原理及其在指標(biāo)貢獻(xiàn)率評(píng)估中適用性的基礎(chǔ)上,實(shí)現(xiàn)了針對(duì)性能指標(biāo)與評(píng)估結(jié)果的隨機(jī)森林模型構(gòu)建,最終提出了一種指標(biāo)貢獻(xiàn)率評(píng)估方法。本方法能夠給出各指標(biāo)在性能評(píng)價(jià)中的影響程度,使整個(gè)指標(biāo)體系更加清晰化、層次化;同時(shí)依據(jù)指標(biāo)貢獻(xiàn)率評(píng)估結(jié)果,能夠有針對(duì)性地對(duì)系統(tǒng)設(shè)計(jì)進(jìn)行優(yōu)化改進(jìn),為改善效能評(píng)估結(jié)果提供了可參考的方法與途徑。
作者單位:劉金燦? ? 田星? ? 周紅彬? ? 尹波? ? 中國電子科技集團(tuán)公司第五十四研究所
參? 考? 文? 獻(xiàn)
[1]馬亞龍, 邵秋峰, 孫明, 等. 評(píng)估理論和方法及其軍事應(yīng)用[M]. 北京: 國防工業(yè)出版社, 2013.
[2]陳立新. 一種通用的裝備體系貢獻(xiàn)率評(píng)估框架[J]. 軍事運(yùn)籌與系統(tǒng)工程.2020, 34(2): 33-38.
[3]張博孜, 張國忠, 常華耀. 武器裝備體系貢獻(xiàn)度評(píng)估問題研究[J]. 計(jì)算機(jī)仿真, 2018, 35(2): 397-401.
[4]羅小明, 朱延雷,何榕.基于復(fù)雜網(wǎng)絡(luò)的武器裝備體系貢獻(xiàn)度評(píng)估分析方法[J]. 火力與指揮控制, 2017, 42(2) : 83 - 87.
[5]呂惠文, 武慶春, 張煒. 基于灰色證據(jù)理論的裝備體系貢獻(xiàn)率評(píng)估[J]. 軍事交通學(xué)院學(xué)報(bào), 2017, 19(5):22-27.
[6]何舒, 楊克巍, 梁杰.基于網(wǎng)絡(luò)抗毀性的裝備貢獻(xiàn)度評(píng)價(jià)[J]. 火力與指揮控制,2017,42(8) : 87-91.
[7]趙丹玲,譚躍進(jìn),李際超, 等.基于作戰(zhàn)環(huán)的武器裝備體系貢獻(xiàn)度評(píng)估[J].系統(tǒng)工程與電子技術(shù),2017,39(10) : 2240-2245.
[8]胡鋼, 徐翔, 張維明, 等. 基于主成分分析的網(wǎng)絡(luò)節(jié)點(diǎn)的重要性指標(biāo)貢獻(xiàn)評(píng)價(jià)[J]. 電子學(xué)報(bào), 2019, 47(2): 358-365.
[9]吳果, 房禮國, 李中. 基于多指標(biāo)綜合的復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要性評(píng)估[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(12): 3146-3150.
[10]張喜平, 李永樹, 劉剛, 等. 節(jié)點(diǎn)重要度貢獻(xiàn)的復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要度評(píng)估方法[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2014, 11(3): 26-31.
[11]周漩, 張鳳鳴, 李克武, 等. 利用重要度評(píng)價(jià)矩陣確定復(fù)雜網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)[J]. 物理學(xué)報(bào), 2012, 61(5): 1-7.
[12]孫源澤, 趙東杰. 基于灰靶理論的指揮信息系統(tǒng)性能指標(biāo)貢獻(xiàn)度評(píng)估方法研究[J]. 指揮與控制學(xué)報(bào), 2015, 1(2):228-231.
[13]宋述芳, 何入洋. 基于隨機(jī)森林的重要性測度指標(biāo)體系[J]. 國防科技大學(xué)學(xué)報(bào), 2021, 43(2): 25-32.
[14] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[15] B Gregorutti, B Michel, P Saint-Pierre. Correlation and variable importance in random forests[J]. Statistics & Computing , 2017 , 27 (3) :659-678.
[16] H Hassan, ABadr, MB Abdelhalim. Prediction of O-glycosylation Sites Using Random Forest and GA-Tuned PSO Technique[J]. Bioinformatics & Biology Insights, 2015, 9(9) : 103-109.
[17]張馬蘭, 劉君強(qiáng), 左洪福, 等. 基于區(qū)間數(shù)學(xué)理論和貝葉斯網(wǎng)絡(luò)指標(biāo)靈敏度分析[J]. 武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版), 2015, 39(1):162-165.
[18]劉凱. 隨機(jī)森林自適應(yīng)特征選擇和參數(shù)優(yōu)化算法研究[D]. 長春: 長春工業(yè)大學(xué), 2018.
[19]彭漂. 基于隨機(jī)森林的變量重要性度量和核密度估計(jì)算法研究[D]. 廈門: 廈門大學(xué), 2017.
[20]馬驪. 隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D]. 廣州: 暨南大學(xué), 2016.
[21]張鑫, 吳海濤, 曹雪虹. Hadoop 環(huán)境下基于隨機(jī)森林的特征選擇算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2018, 28(7): 88-92.