国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林的航材不平衡樣本集數(shù)據(jù)分析方法研究

2021-10-21 08:51:30任宇軒
科技信息·學(xué)術(shù)版 2021年15期
關(guān)鍵詞:隨機(jī)森林航材分類器

任宇軒

摘要:不平衡樣本集一般指在多數(shù)類樣本個(gè)數(shù)與少數(shù)類樣本個(gè)數(shù)相差較大的數(shù)據(jù)集合,對這類數(shù)據(jù)進(jìn)行分類時(shí),結(jié)果會偏向于多數(shù)類,導(dǎo)致分類錯(cuò)誤。為解決不平衡樣本集在數(shù)據(jù)分析時(shí)的問題,使用了一種基于代價(jià)敏感的隨機(jī)森林方法,并在飛機(jī)航材保障數(shù)據(jù)分析中應(yīng)用,結(jié)果表明該方法能夠?qū)Σ黄胶鈹?shù)據(jù)進(jìn)行較為準(zhǔn)確的分析。

關(guān)鍵詞:隨機(jī)森林;不平衡數(shù)據(jù);分類器;航材

1 引言

航材保障是為飛機(jī)檢修維修提供所需航材的重要工作,其直接關(guān)系到飛機(jī)能否正常執(zhí)行任務(wù)。缺材停飛指飛機(jī)因缺乏航材導(dǎo)致無法飛行,為掌握航材保障工作規(guī)律,對保障數(shù)據(jù)進(jìn)行分析,預(yù)判缺材停飛事件發(fā)生具有重要的意義。但是航材保障工作中缺材停飛屬于小概率事件,導(dǎo)致缺材停飛的航材占比一般不足百分之五,導(dǎo)致樣本集內(nèi)正樣本與負(fù)樣本比例極不平衡,對這類樣本集進(jìn)行數(shù)據(jù)分析會導(dǎo)致結(jié)果出現(xiàn)偏差,算法會使得分類結(jié)果偏向于樣本容量大的一類,如何解決不平衡樣本集對數(shù)據(jù)分析結(jié)果帶來的影響是當(dāng)前的熱點(diǎn)研究方向。

2 代價(jià)敏感的隨機(jī)森林算法

代價(jià)敏感的思想對于不平衡數(shù)據(jù)分析有很好的效果,在對于不平衡數(shù)據(jù)的分類器中把少數(shù)類錯(cuò)分為多數(shù)類的代價(jià)設(shè)為較大,能夠使得分類器對于少數(shù)類樣本更加關(guān)注。其主要思想與我們對待不平衡樣本集的思想相同,與其他對于不平衡樣本集的處理方法相比較,代價(jià)敏感矩陣擁有更低的時(shí)間復(fù)雜度,更適合大數(shù)據(jù)處理,但大家敏感矩陣的具體值確定較為困難,代價(jià)敏感矩陣方法分類方法一般有三種。

一是將誤分類的代價(jià)以權(quán)重的形式直接作用到數(shù)據(jù)集中,這種方法其實(shí)相當(dāng)于通過改變數(shù)據(jù)權(quán)重的方式來修改數(shù)據(jù)的分布,使分類器朝著誤分類代價(jià)減少的方向?qū)W習(xí)。受到AdaBoost的啟發(fā),有一些用于不平衡數(shù)據(jù)的代價(jià)敏感的Boosting算法已經(jīng)提出,一個(gè)典型的算法就是AdaCost,它是AdaBoost的變種形式,只是將誤分類代價(jià)作為數(shù)據(jù)空間中權(quán)重更新的策略而引入。

二是把代價(jià)最小化技術(shù)同集成方法結(jié)合。先使用傳統(tǒng)的集成學(xué)習(xí)方法訓(xùn)練模型,然后將訓(xùn)練出的傳統(tǒng)模型與代價(jià)最小化技術(shù)相結(jié)合形成代價(jià)敏感模型。MetaCost是一種將傳統(tǒng)的分類器轉(zhuǎn)換為代價(jià)敏感模型的方法,傳統(tǒng)分類器通過一個(gè)“元學(xué)習(xí)”過程,根據(jù)最小期望代價(jià)修改訓(xùn)練樣本的類標(biāo)記,并使用修改后的訓(xùn)練集重新學(xué)習(xí)新的模型。使用 MetaCost 的優(yōu)勢就是它將分類器視為黑箱,不需要知道分類器的內(nèi)部結(jié)構(gòu),同時(shí)可以應(yīng)用到任何個(gè)數(shù)的基分類器上以及任何形式的代價(jià)矩陣上。

三是直接構(gòu)造一個(gè)代價(jià)敏感模型,將代價(jià)敏感函數(shù)或者特征同分類器直接結(jié)合,通過學(xué)習(xí)器的學(xué)習(xí)過程將代價(jià)敏感函數(shù)擬合到分類器中。文獻(xiàn)將代價(jià)敏感方法和決策樹結(jié)合,提出了基于代價(jià)敏感的剪枝方法。該方法將代價(jià)函數(shù)作為剪枝評判的標(biāo)準(zhǔn),對決策樹的過擬合問題起到一定的緩解作用。同時(shí),經(jīng)過剪枝后,分類器泛化能力和分類準(zhǔn)確率得到了一定程度的提高。然而,剪枝操作對閾值的設(shè)定十分敏感,將閾值進(jìn)行少量的變動(dòng),會引起整棵樹很大的變動(dòng)。另外,將剪枝操作加入到分類器的學(xué)習(xí)中,無疑會加大分類器學(xué)習(xí)所需的時(shí)間。

隨機(jī)森林分類器是一種將多個(gè)決策樹組合為一個(gè)算法的機(jī)器學(xué)習(xí)方法,多棵決策樹表示為{h(X,θk),k=1,2,…,k},k表示隨機(jī)森林里基分類器的個(gè)數(shù),決策樹基于Bagging的隨機(jī)有放回抽樣,在隨機(jī)空間進(jìn)行魔性訓(xùn)練,保證了基分類器的多樣性。由于在樣本選擇過程中的隨機(jī)性提高看分類的精準(zhǔn)度,避開了過擬合問題。隨機(jī)森林方法組合多棵決策樹的分類結(jié)果,結(jié)果選擇多數(shù)決策樹的結(jié)果。

式中,hk(x)是決策樹模型,y是決策樹的分類結(jié)果,I(·)為指示器函數(shù)

代價(jià)函數(shù)是根據(jù)數(shù)據(jù)集特征得來,通過計(jì)算樣本分布,構(gòu)造代價(jià)因子,詳細(xì)步驟如下。

第一步,計(jì)算整個(gè)數(shù)據(jù)集、多數(shù)類樣本、少數(shù)類樣本的的數(shù)據(jù)中心。

第二步,計(jì)算各類別數(shù)據(jù)中心到數(shù)據(jù)集數(shù)據(jù)中心的全中距離,在數(shù)據(jù)集中,重要特征相對較少,計(jì)算類別中心到整個(gè)數(shù)據(jù)集中心的歐式距離構(gòu)造代價(jià)對重要特征不公平,本算法引入權(quán)重距離,利用信息增益衡量每個(gè)特征在不同類別中的重要性。

第三步,設(shè)多數(shù)類c1,少數(shù)類c0,其中樣本數(shù)分別為N1,N2,能夠定義γ系數(shù)如下:

3 實(shí)例驗(yàn)證

實(shí)例選擇某保障單位一段時(shí)間內(nèi)的保障數(shù)據(jù)進(jìn)行分析,共1121條數(shù)據(jù)中,缺材數(shù)據(jù)占比約為百分之5,屬于不平衡數(shù)據(jù)集,采用代價(jià)敏感的隨機(jī)森林方法進(jìn)行分析。為消除不同屬性之間量綱不同對結(jié)果的影響對數(shù)據(jù)集采用歸一化處理。

將代價(jià)敏感的隨機(jī)森林算法與普通隨機(jī)森林算法結(jié)果相比較,0表示未發(fā)生缺材,1表示發(fā)生缺材。下表中1/0表示實(shí)際為1算法分類結(jié)果為0,以此類推。是研究過表明傳統(tǒng)隨機(jī)森林算法會將絕大多數(shù)樣本歸類為多數(shù)類,而代價(jià)敏感的隨機(jī)森林算法能提高分類器對少數(shù)類樣本的分類準(zhǔn)確度。

可見代價(jià)敏感隨機(jī)森林算法在處理不平衡數(shù)據(jù)時(shí)總準(zhǔn)確率明顯提高,且將少數(shù)類樣本分類正確率也有極大的提升。

4 結(jié)論

不平衡樣本數(shù)據(jù)集對數(shù)據(jù)分析工作提出了更高的要求,傳統(tǒng)的機(jī)器學(xué)習(xí)算法會受到樣本容量不均的影響,對少數(shù)類樣本的分類能力較差。本文采用了一種代價(jià)敏感的隨機(jī)森林方法,使算法更加關(guān)注少數(shù)類樣本的分類結(jié)果,隨機(jī)森林綜合了多棵決策樹的結(jié)果,實(shí)例驗(yàn)證表明該算法相較于傳統(tǒng)隨機(jī)森林方法,在處理不平衡數(shù)據(jù)時(shí)有著更高的準(zhǔn)確率。

參考文獻(xiàn)

[1]曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

[2]姚登舉.面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D].哈爾濱工程大學(xué),2016.

[3]肖堅(jiān).基于隨機(jī)森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱工業(yè)大學(xué),2013.

[4]尹華,胡玉平.一種代價(jià)敏感隨機(jī)森林算法[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2014,47(05):707-711.

[5]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價(jià)敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J].科學(xué)技術(shù)與工程,2018,18(06):285-290.

[6]高聰.基于隨機(jī)森林的不平衡大數(shù)據(jù)分類算法研究[D].東北電力大學(xué),2018.

[7]王平,單文英.改進(jìn)的隨機(jī)森林算法在乳腺腫瘤診斷中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(04):252-257+264.

猜你喜歡
隨機(jī)森林航材分類器
考慮航材共享的國產(chǎn)民機(jī)航材配置技術(shù)研究
從“人”的角度淺談對航材管理的認(rèn)識
知識文庫(2019年5期)2019-06-11 03:05:11
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
淺談我國通用航空航材共享業(yè)務(wù)
科技傳播(2016年14期)2016-08-11 21:26:33
凤冈县| 周口市| 沂南县| 尚义县| 福建省| 棋牌| 山丹县| 清涧县| 韶山市| 乌兰县| 怀宁县| 浪卡子县| 台山市| 曲麻莱县| 海林市| 湘潭市| 金川县| 小金县| 陇西县| 沭阳县| 永嘉县| 巴林右旗| 射阳县| 庆元县| 沙河市| 吴旗县| 中江县| 靖江市| 永登县| 杂多县| 德化县| 德令哈市| 龙州县| 杭锦旗| 大邑县| 保定市| 临海市| 耒阳市| 长岛县| 吉首市| 鹰潭市|