国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

試談大數(shù)據(jù)分析的方法與應(yīng)用

2020-12-02 07:51水冰潔趙思思王碧華
數(shù)碼設(shè)計(jì) 2020年12期
關(guān)鍵詞:大數(shù)據(jù)分析方法

水冰潔 趙思思 王碧華

摘要:本文先從隨機(jī)做減法采樣、隨機(jī)做加法采樣、基于聚類的加法重采樣、合成少數(shù)類的加法采樣、優(yōu)化的合成少數(shù)類加法采樣方法等方面分析大數(shù)據(jù)分析采集不平衡樣本的方法,再分別闡述這些大數(shù)據(jù)分析采集不平衡樣本集在電力企業(yè)中的應(yīng)用,為大數(shù)據(jù)分析人員提供參考。

關(guān)鍵詞:大數(shù)據(jù);分析;方法;應(yīng)用手段

中圖分類號(hào):TP311.13?? 文獻(xiàn)標(biāo)識(shí)碼:A?? 文章編號(hào):1672-9129(2020)12-0032-01

引言:大數(shù)據(jù)分析是互聯(lián)網(wǎng)時(shí)代行業(yè)經(jīng)常使用的技術(shù),大數(shù)據(jù)分析的方法有很多,但是其原理均是通過大量數(shù)據(jù)的采樣得到數(shù)據(jù)的發(fā)展模型,最終為企業(yè)的發(fā)展方向或者危機(jī)預(yù)測(cè)提供參考。而大數(shù)據(jù)分析的第一步是數(shù)據(jù)采集工作,數(shù)據(jù)采樣的精確度會(huì)直接影響大數(shù)據(jù)分析的結(jié)果。

1 大數(shù)據(jù)分析采集不平衡樣本集的方法

1.1隨機(jī)做減法采樣方法。隨機(jī)做減法采樣方法的原理是通過減少較多類型的樣本,從而使不同類型樣本的數(shù)量達(dá)到平衡。該方法的優(yōu)點(diǎn)是可以降低采樣所需要的時(shí)間,因?yàn)榭傮w的采樣數(shù)量減少了;該方法的缺點(diǎn)是在隨機(jī)減少樣本數(shù)量比較多的種類樣本時(shí)可能會(huì)丟失一些關(guān)鍵數(shù)據(jù),最后導(dǎo)致采樣結(jié)果不夠精準(zhǔn)。

1.2隨機(jī)做加法采樣方法。隨機(jī)做加法采樣方法的原理是增加樣本數(shù)量比較少的種類樣本,最終使不同種類的樣本數(shù)量達(dá)到平衡。該方法的優(yōu)點(diǎn)是不會(huì)丟失某些樣本的關(guān)鍵信息,采樣結(jié)果相對(duì)比較精準(zhǔn);該方法的缺點(diǎn)是增加了采樣的總體數(shù)量,導(dǎo)致采樣過程所需要的時(shí)間大大增加,而且還會(huì)由隨機(jī)加樣本的原因造成過擬合風(fēng)險(xiǎn)增加。

1.3基于聚類的加法重采樣方法?;诰垲惖募臃ㄖ夭蓸臃椒ǖ脑硎菍⑺袠颖景凑諗?shù)量的多少分為兩類,然后將樣本數(shù)量較多的一類聚集到一起、將樣本數(shù)量較少的另一類聚集到一起,最后再將隨機(jī)做加法采樣方法與樣本數(shù)量較少的聚集類結(jié)合,將所有樣本的數(shù)量增加到一致,即可得到較為精準(zhǔn)的采樣結(jié)果。該方法的優(yōu)點(diǎn)為能夠克服樣本不平衡帶來的挑戰(zhàn);該方法的缺點(diǎn)與隨機(jī)做加法相同,即容易造成過擬合風(fēng)險(xiǎn)增加。

1.4合成少數(shù)類的加法采樣方法。合成少數(shù)類的加法采樣方法是原理是將樣本數(shù)量較少的一類選擇出來,然后選擇這類數(shù)據(jù)的一部分創(chuàng)建新的數(shù)據(jù)樣本,最終將新創(chuàng)建的樣本與原樣本集整合,即可解決原樣本種類數(shù)量不平衡的問題。該方法的優(yōu)點(diǎn)是不會(huì)丟失樣本中的關(guān)鍵數(shù)據(jù)導(dǎo)致樣本采樣精準(zhǔn)度降低,而且相比隨機(jī)做加法采樣和聚類加法重采樣方法的過擬合風(fēng)險(xiǎn)降低;該方法的缺點(diǎn)是容易由于樣本數(shù)量的額外增加導(dǎo)致負(fù)類樣本的增加,所以該方法采集樣本的適用范圍有限。

1.5優(yōu)化的合成少數(shù)類加法采樣方法。優(yōu)化的合成少數(shù)類加法采樣的原理是將樣本數(shù)量較少的種類進(jìn)行整合,然后按照樣本的不同特征將其分成不同組,最后在這些不同組的樣本數(shù)據(jù)中使用隨機(jī)做法采樣方法即可解決原樣本集中數(shù)量不平衡的問題。該方法的優(yōu)點(diǎn)為不會(huì)導(dǎo)致額外負(fù)類樣本的增加,而且樣本數(shù)據(jù)中的關(guān)鍵信息不會(huì)丟失,采樣精準(zhǔn)度不會(huì)降低;該方法的缺點(diǎn)是大量的數(shù)據(jù)堆疊導(dǎo)致其適應(yīng)范圍有限。

2 大數(shù)據(jù)分析采集不平衡樣本集的應(yīng)用

假設(shè)電力企業(yè) 大數(shù)據(jù)樣本集中電力違章導(dǎo)致的安全事故樣本總數(shù)為10300個(gè),而非電力違章導(dǎo)致的安全事故樣本數(shù)量為10000個(gè)、電力違章導(dǎo)致的安全事故樣本數(shù)量為300個(gè),可知該電力企業(yè)電力違章導(dǎo)致安全事故發(fā)生的幾率為300/10300=2.9%。

2.1隨機(jī)做減法采樣在電力企業(yè)中的應(yīng)用。隨機(jī)做減樣法在電力企業(yè)中采集安全事故樣本需要先從所有非事故樣本中選出1/10數(shù)量的樣本形成樣本集,然后可知樣本集的數(shù)量為10000×10%=1000個(gè),最后結(jié)合電力違章導(dǎo)致的安全事故300個(gè)形成新的樣本集數(shù)量即1300個(gè),該采樣方法計(jì)算出電力違章安全事故發(fā)生幾率為300/1300=23%。

2.2隨機(jī)做加法采樣在電力企業(yè)中的應(yīng)用。隨機(jī)做加法采樣在電力企業(yè)中采集安全事故樣本需要先復(fù)制電力違章安全事故發(fā)生的樣本,假設(shè)復(fù)制15個(gè)電力違章安全事故樣本300次,則現(xiàn)在樣本集中數(shù)量總數(shù)為300×15+10000=14500個(gè),該采樣方法計(jì)算出電力違章安全事故發(fā)生幾率為(300×15)/14500=31%。

2.3基于聚類的加法重采樣在電力企業(yè)中的應(yīng)用?;诰垲惖募臃ㄖ夭蓸釉陔娏ζ髽I(yè)中采集安全事故樣本需要先進(jìn)行聚類,假設(shè)樣本數(shù)量較多的共分為8類且樣本數(shù)量依次為1250、240、980、1380、1520、1050、1230、1350個(gè),而數(shù)量較少的樣本分4類依次為90、89、78、49個(gè),根據(jù)隨機(jī)做加法采樣可以將樣本數(shù)量較多的8類處理為1250個(gè)樣本、樣本數(shù)量較少的樣本處理為750個(gè)樣本,該采樣方法計(jì)算出電力違章安全事故發(fā)生幾率為(750×4)/(1250×8+750×4)=23%。

2.4合成少數(shù)類的加法采樣方法在電力企業(yè)中的應(yīng)用。合成少數(shù)類的加法采樣方法在電力企業(yè)中采集安全事故樣本假設(shè)隨機(jī)復(fù)制15個(gè)違章樣本共250次,該采樣方法計(jì)算出電力違章安全事故發(fā)生幾率為(15×250)/10000=27.3%。

2.5優(yōu)化的合成少數(shù)類加法采樣方法在電力企業(yè)中的應(yīng)用。優(yōu)化的合成少數(shù)類加法采樣方法在電力企業(yè)中采集安全事故樣本將數(shù)量較少的電力違章事故樣本分為數(shù)量為210、60、30的三組,則隨機(jī)取樣本數(shù)量180個(gè)生成電力違章樣本220次,該采樣方法計(jì)算出電力違章安全事故發(fā)生幾率為(180×20)/(180×20+10000)=26%。

結(jié)論:綜上所述,大數(shù)據(jù)分析采集不平衡樣本集的方法有很多種,很多行業(yè)在數(shù)據(jù)采樣時(shí)都可以利用大數(shù)據(jù)分析方法,數(shù)據(jù)采集是大數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)采集得越全面,最后的預(yù)測(cè)結(jié)果就越精準(zhǔn)。而計(jì)算機(jī)大數(shù)據(jù)分析方法中的運(yùn)用可以顯著提高預(yù)測(cè)結(jié)果的準(zhǔn)確率,因此大數(shù)據(jù)分析方法和應(yīng)用無論在哪個(gè)行業(yè)都離不開計(jì)算機(jī)的使用。

參考文獻(xiàn):

[1]黃淼. 公共交通運(yùn)營(yíng)大數(shù)據(jù)聚類分析方法及應(yīng)用研究[D].武漢輕工大學(xué),2018.

[2]汪海濤,余永奎,段春雨.基于大數(shù)據(jù)不平衡樣本集的重采樣方法及應(yīng)用[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(22):26-29.

猜你喜歡
大數(shù)據(jù)分析方法
分析:是誰要過節(jié)
回頭潮
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
用對(duì)方法才能瘦
四大方法 教你不再“坐以待病”!
賺錢方法
捕魚
Units 13—14解題分析