国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)不平衡樣本集的重采樣方法及應(yīng)用

2018-08-22 01:23:28汪海濤余永奎段春雨
現(xiàn)代計算機(jī) 2018年22期
關(guān)鍵詞:違章類別機(jī)器

汪海濤,余永奎,段春雨

(廣東電網(wǎng)有限責(zé)任公司中山供電局,中山 528400)

0 引言

在電力生產(chǎn)及運行維護(hù)的安全監(jiān)督管理中,將電力事故事件分為設(shè)備事故和人身傷亡事故兩大類。近年來,隨著電力設(shè)備可靠性的不斷提高,人的不安全行為(違章)成為電力事故事件的主要風(fēng)險源。揭示人的不安全行為與電力事故事件的內(nèi)在關(guān)系及規(guī)律,進(jìn)而開發(fā)出電力事故事件的預(yù)控模型,對電力事故事件防范于未然及提高電力企業(yè)安全生產(chǎn)具有重大的意義。

電力生產(chǎn)及運行維護(hù)中人的不安全行為俗稱為違章,而導(dǎo)致違章的因素很多,諸如人員本身因素、自然環(huán)境因素、作業(yè)復(fù)雜程度因素、作業(yè)工器具因素以及安全管理因素等。要從這種數(shù)據(jù)規(guī)模體量巨大以及種類繁多的浩瀚違章大數(shù)據(jù)中去發(fā)現(xiàn)人的不安全行為與電力事故事件的內(nèi)在關(guān)系及規(guī)律,并非一件容易的事??梢哉f,靠傳統(tǒng)的統(tǒng)計分析方法和技術(shù)完成此類工作顯然是力不從心的。因此,探討應(yīng)用大數(shù)據(jù)分析中的數(shù)據(jù)挖掘技術(shù)以及機(jī)器學(xué)習(xí)方法求解這類問題便成為目前的主要研究途徑,其研究價值和意義是顯而易見的。

機(jī)器學(xué)習(xí)方法中具有代表性的方法是聚類和分類,如果提供給機(jī)器學(xué)習(xí)的大數(shù)據(jù)樣本集是不平衡的類樣本,即正類和負(fù)類的比例差距懸殊,則用機(jī)器學(xué)習(xí)算法開發(fā)出來分類模型便會出現(xiàn)偏差和不可用,原因是機(jī)器學(xué)習(xí)算法往往是通過減少誤差來提高準(zhǔn)確率的,而忽視了樣本類別的分布比例及類別平衡。例如,假設(shè)提供給機(jī)器學(xué)習(xí)的大數(shù)據(jù)樣本集規(guī)模為1萬個樣本,正類樣本9900個,而負(fù)類樣本只有100個,則機(jī)器學(xué)習(xí)算法在保證99%的分類準(zhǔn)確率下會對少量的100個負(fù)類樣本視而不見(誤為噪聲),這種在不平衡樣本集下機(jī)器學(xué)習(xí)得到的分類模型是沒有實際應(yīng)用價值的。

本文以筆者承擔(dān)的國內(nèi)某電網(wǎng)公司的“電力事故事件與違章大數(shù)據(jù)分析及預(yù)控模型研究和應(yīng)用”科技項目為例,對從多個渠道收集到的違章大數(shù)據(jù)不平衡的樣本集,提出一個從不平衡樣本集創(chuàng)建一個平衡的類分布樣本集的方法,解決電力違章事故事件機(jī)器學(xué)習(xí)分類算法模型中訓(xùn)練樣本集的不平衡問題。本文研究的內(nèi)容及成果,對解決其他行業(yè)開發(fā)機(jī)器學(xué)習(xí)分類算法模型中碰到的類似問題具有普遍的參考價值和意義。

1 基于增減法的樣本數(shù)據(jù)集重采樣[1]

增減法通過增加少數(shù)類的樣本數(shù)量或減少多數(shù)類的樣本數(shù)量實現(xiàn)數(shù)據(jù)集類別的平衡,平衡分類獲得大致相同數(shù)量的類實例規(guī)模。表1是幾種基于增減法的重采樣方法比較,表2是電力違章事故事件大數(shù)據(jù)樣本集重采樣的實例。

1.1 基于增減法的樣本數(shù)據(jù)集重采樣方法比較

表1 幾種基于增減法的重采樣方法比較

1.2 電力違章大數(shù)據(jù)樣本集重采樣實例

用于“電力事故事件與違章大數(shù)據(jù)分析及預(yù)控模型研究和應(yīng)用”的電力違章大數(shù)據(jù)樣本集共有10300個樣本,其中事故事件違章樣本=300個,非事故事件違章樣本=10000個,事故事件發(fā)生率=300/10300=2.9%。

2 機(jī)器學(xué)習(xí)算法分類模型的評價方法

評價機(jī)器學(xué)習(xí)算法分類模型性能的評價方法一般使用如下的混淆矩陣工具:

表3

混淆矩陣中各元素的定義是:

真_正類(True Positive,TP)是指屬于類別 C 的樣本實例而被分類成類別C;

漏報(False Negative,F(xiàn)N)是指屬于類別C的樣本實例而被分類成非類別C;

誤報(False Positive,F(xiàn)P)是指非類別C的樣本實例被分類成為類別C;

真_負(fù)類(True Negative,TN)是指不屬于類別C的樣本實例而被分類成不屬于類別C。

評價機(jī)器學(xué)習(xí)算法分類模型性能通常使用下述三個指標(biāo):

分類模型的準(zhǔn)確率=(TP+TN)/(TP+FN+FP+TN);

分類模型的精度=TP/(TP+FP);

分類模型的召回率=TP/(TP+FN)。

對于不平衡樣本集的數(shù)據(jù)挖掘,如果不做平衡處理,則使用準(zhǔn)確率指標(biāo)評價分類器模型的性能是不恰當(dāng)?shù)?。例如,決策樹和回歸等分類器模型分類性能會偏向于樣本數(shù)量多的類別,而忽略樣本數(shù)量占少數(shù)的類別,這就會使分類器模型對少數(shù)類的誤判率會較高。當(dāng)樣本集少數(shù)類與多數(shù)類的比例嚴(yán)重不平衡時,例如2%比98%的情形,分類器模型把所有樣本分為多數(shù)類,其準(zhǔn)確率也達(dá)到98%,占2%的少數(shù)類樣本被視為噪聲而忽視。因此,評價分類器模型的性能應(yīng)該綜合考慮準(zhǔn)確率、精度和召回率多個指標(biāo)。

3 結(jié)語

在大數(shù)據(jù)分析研究領(lǐng)域,選擇性能好的機(jī)器學(xué)習(xí)算法設(shè)計分類模型,往往是建立在多個機(jī)器學(xué)習(xí)算法預(yù)測性能的比較分析的基礎(chǔ)上的。對大數(shù)據(jù)不平衡樣本集進(jìn)行平衡處理后,用作多個機(jī)器學(xué)習(xí)算法的訓(xùn)練樣本,使這些機(jī)器學(xué)習(xí)算法的預(yù)測性能可以進(jìn)行比較,從而為選擇機(jī)器學(xué)習(xí)算法設(shè)計分類模型提供輔助決策信息。

我們在“電力事故事件與違章大數(shù)據(jù)分析及預(yù)控模型研究和應(yīng)用”科技項目中,分別應(yīng)用本文討論的5種重采樣方法,對電力事故事件大數(shù)據(jù)不平衡樣本集進(jìn)行平衡處理,并應(yīng)用到目前流行的多個機(jī)器學(xué)習(xí)算法的訓(xùn)練學(xué)習(xí)中,為項目設(shè)計電力事故事件預(yù)控模型提供了有價值的輔助決策信息。本文闡述的研究方法,對大數(shù)據(jù)分析及機(jī)器學(xué)習(xí)算法分類模型的研究及應(yīng)用具有普遍的參考價值和意義。

猜你喜歡
違章類別機(jī)器
機(jī)器狗
由“咬文嚼字”說一說反違章
機(jī)器狗
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
漫畫違章
河南電力(2016年4期)2016-11-30 01:07:08
廣州交警使用無人機(jī)抓拍違章車輛
大社會(2016年3期)2016-05-04 03:40:52
違章樹木,豈能“砍了就跑”
河南電力(2016年5期)2016-03-10 15:57:32
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
無敵機(jī)器蛛
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
察雅县| 平果县| 盐津县| 陇西县| 大渡口区| 莱芜市| 巴林右旗| 横山县| 响水县| 攀枝花市| 朝阳市| 富顺县| 白水县| 社会| 徐汇区| 台山市| 永善县| 雷山县| 眉山市| 广元市| 邵阳县| 安福县| 荆州市| 星子县| 诏安县| 无棣县| 龙口市| 宁蒗| 衡阳市| 宜黄县| 互助| 高密市| 仪陇县| 栾城县| 泸州市| 班戈县| 华亭县| 涟水县| 天台县| 兴和县| 阿勒泰市|