国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于R的過(guò)采樣方法在非平衡數(shù)據(jù)中的應(yīng)用

2012-09-19 03:44蘇加強(qiáng)丁柳云
關(guān)鍵詞:樸素貝葉斯報(bào)表

蘇加強(qiáng) 丁柳云

(1.寧德職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系,福建 寧德 355000;2.寧德職業(yè)技術(shù)學(xué)院教務(wù)處,福建 寧德 355000)

1 背景

R是一個(gè)有著統(tǒng)計(jì)分析功能及強(qiáng)大制圖功能的軟件系統(tǒng),是由奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的Ross Ihaka和Robert Gentleman共同創(chuàng)立的。該軟件屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖。R以包的形式內(nèi)建多種統(tǒng)計(jì)學(xué)及數(shù)字分析功能,透過(guò)安裝套件Packages增強(qiáng)。KDnuggets曾調(diào)查了實(shí)際項(xiàng)目使用了哪些數(shù)據(jù)挖掘軟件,底層語(yǔ)言使用頻率最高的依舊是 R語(yǔ)言、SQL、Java和Python。而從軟件工具角度上看,R、Excel和RapidMiner則名列三甲。

傳統(tǒng)的分類實(shí)驗(yàn)中,都假定學(xué)習(xí)的數(shù)據(jù)集為分布平衡的,即數(shù)據(jù)集中各類樣本的數(shù)目大體一致。但是在現(xiàn)實(shí)情況中平衡數(shù)據(jù)集幾乎是不存在的。在真實(shí)世界中,通常標(biāo)號(hào)不同的類所含有的樣本數(shù)目是不等的,甚至有著很大的差別,這樣的數(shù)據(jù)集為不平衡數(shù)據(jù)集。

在不平衡數(shù)據(jù)集的分類學(xué)習(xí)過(guò)程中,少數(shù)類樣本被誤分的幾率通常要高于多數(shù)類?,F(xiàn)實(shí)應(yīng)用中,少數(shù)類樣本通常比多數(shù)類樣本重要,故少數(shù)類被誤分所帶來(lái)的損失相對(duì)較大。因此,對(duì)不平衡數(shù)據(jù)分類的研究就致力于提高數(shù)據(jù)集中少數(shù)類的識(shí)別效率,以減少少數(shù)類被錯(cuò)分所帶來(lái)的損失。

2 數(shù)據(jù)挖掘任務(wù)和所用數(shù)據(jù)

一些公司售貨員要報(bào)告商品的交易情況,公司需檢測(cè)售貨員所提交的交易情況報(bào)表中的異常值,目的是檢查售貨員所提交的交易報(bào)表中的異?,F(xiàn)象,給出一種異常概率排序,該排序可以讓公司以優(yōu)化的方法應(yīng)用于檢查工作。售貨員出售公司產(chǎn)品,每月末,售貨員需向公司提交交易情況。售貨員可以根據(jù)營(yíng)銷策略和市場(chǎng)情況自由設(shè)定產(chǎn)品的交易價(jià)格。數(shù)據(jù)挖掘應(yīng)用的目的是幫助公司根據(jù)過(guò)去的檢測(cè)錯(cuò)誤和異常交易報(bào)表的經(jīng)驗(yàn)來(lái)核實(shí)報(bào)表的真實(shí)性,提供交易報(bào)表異常概率排序,此排序使公司將有限的檢查資源用于系統(tǒng)給出的可疑報(bào)表。

如,以某公司售貨員提交的交易報(bào)表為分析數(shù)據(jù),數(shù)據(jù)總共401 146行,每行信息包括售貨員ID(ID)、產(chǎn)品 ID(Prod)、產(chǎn)品數(shù)量(Quant)和總價(jià)(Val)。這些數(shù)據(jù)已經(jīng)通過(guò)公司的一些分析,并把分析的結(jié)果顯示在最后一列(Insp)。Insp可能有以下情況:ok,即交易被檢查并認(rèn)為有效;fraud,即交易被發(fā)現(xiàn)是異常的;unkn,即交易未檢查。

R語(yǔ)言中提供一個(gè)包DMwR,里面有需要的數(shù)據(jù)。首先通過(guò)以下命令加載包和數(shù)據(jù)。

然后查看sales數(shù)據(jù)的前6行,如表1所示。

表1 實(shí)驗(yàn)所用數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)集報(bào)表中正常和異常的比例非常不平衡,異常報(bào)表為少數(shù),只有8.1%。在獲取預(yù)測(cè)模型的任務(wù)中,這種類型的問(wèn)題可以導(dǎo)致各種困難。首先,它們需要恰當(dāng)?shù)脑u(píng)定指標(biāo),因?yàn)楸绢I(lǐng)域中標(biāo)準(zhǔn)誤差是明顯不足的。實(shí)際上,應(yīng)用可較易得到大約90%的精確度。類型不平衡的另一問(wèn)題是對(duì)缺少統(tǒng)計(jì)的支持而趨向忽略少數(shù)類的學(xué)習(xí)算法的性能有強(qiáng)烈的影響。應(yīng)用中,重點(diǎn)研究對(duì)象是不平衡數(shù)據(jù)集中的少數(shù)樣本時(shí),就特別成問(wèn)題。

3 樸素貝葉斯和ORh方法

3.1 樸素貝葉斯

樸素貝葉斯(Naive Bayes)是基于貝葉斯定理的概率分類器,其嚴(yán)格限定預(yù)測(cè)器之間的獨(dú)立性。這些限定很少適用于真實(shí)世界的問(wèn)題,所以命名為樸素。

貝葉斯定理:

使用這一定理,樸素貝葉斯分類器用式(2)計(jì)算給定測(cè)試集用例每個(gè)類的概率:

c為一個(gè)類;X1,…,Xp為給定測(cè)試用例預(yù)測(cè)器的觀察值;P(c)的概率可以視為類c的先驗(yàn)期望;P(X1,…,Xp|c)是類c中給定測(cè)試用例的似然;分母是觀察證據(jù)的概率。用式(2)計(jì)算所有可能的類的值來(lái)判定測(cè)試用例的最可能的類,這一判定取決于式(2)的分子,因?yàn)榉帜冈谒械挠美惺浅A?。利用條件概率和預(yù)測(cè)器間樸素的條件獨(dú)立的統(tǒng)計(jì)定義,把分?jǐn)?shù)的分子變?yōu)?

樸素貝葉斯使用相對(duì)頻率評(píng)價(jià)訓(xùn)練樣本的概率,使用這些評(píng)價(jià),根據(jù)式(2)輸出每個(gè)測(cè)試用例的類概率。

R有幾種方法實(shí)現(xiàn)樸素貝葉斯方法,它們分別是:使用包e1071中的函數(shù)Naive Bayes();使用樸素貝葉斯來(lái)獲得報(bào)表測(cè)試集的排序值;使用給定訓(xùn)練樣本中檢查過(guò)的報(bào)表來(lái)建立一個(gè)樸素貝葉斯模型。

從Hold-out程序中調(diào)用函數(shù),獲得樸素貝葉斯預(yù)測(cè)器的選擇評(píng)價(jià)統(tǒng)計(jì)。

最后,調(diào)用holdOut()函數(shù)來(lái)執(zhí)行此模型的實(shí)驗(yàn)。

3.2 ORh方法

基于聚類算法ORh方法,使用層次凝聚聚類算法來(lái)獲得給定數(shù)據(jù)的系統(tǒng)樹圖,系統(tǒng)樹圖是聚類方法融合過(guò)程的可視化表現(xiàn)形式。不同高度等級(jí)的消減樹產(chǎn)生數(shù)據(jù)的不同聚類,在最低等級(jí)有個(gè)解,給定的訓(xùn)練集數(shù)據(jù)中每個(gè)觀察值都是一個(gè)組,這是這個(gè)模型迭代算法的初始解。算法的下一步是決定前面第一步中哪兩組合并成一個(gè)簡(jiǎn)單聚類,這個(gè)融合過(guò)程被試圖把彼此間有相似性放到一起的準(zhǔn)則操縱,直到所有觀察值的最后兩組被合并成一個(gè)簡(jiǎn)單聚類迭代過(guò)程才停止,基本包stats中函數(shù)hclust()實(shí)現(xiàn)了這種類型的聚類方法。

樸素貝葉斯模型對(duì)10%檢查結(jié)果如表2所示。

表2 樸素貝葉斯模型對(duì)10%檢查結(jié)果

與未監(jiān)督式ORh方法獲取的最好的分?jǐn)?shù)相比,就查準(zhǔn)率和查全率而言結(jié)果不理想。圖1清晰地顯示,在本應(yīng)用中,樸素貝葉斯方法劣于ORh方法。

圖1 樸素貝葉斯和ORh性能對(duì)比圖

4SMOTE算法及應(yīng)用

用于幫助學(xué)習(xí)算法克服類型不平衡問(wèn)題的技術(shù)通??蓺w為兩類:一類是傾向于用對(duì)少數(shù)類采樣敏感的特別的評(píng)定指標(biāo)評(píng)定學(xué)習(xí)過(guò)程;另一類是處理訓(xùn)練數(shù)據(jù)來(lái)改變類型分布的采樣方法。在使用監(jiān)督式分類方法的嘗試中,使用第二類方法。

有多種采樣方法可以改變一個(gè)數(shù)據(jù)集的類型不平衡。如,欠采樣方法(Under-sampling methods),即選擇多數(shù)類的一小部分,并添加到少數(shù)類用例中,因此建立一個(gè)平衡類分布的數(shù)據(jù)集;過(guò)采樣(Over-sampling),即用一些方法來(lái)重復(fù)少數(shù)類采樣。然而以上方法的許多變種已經(jīng)存在。由Chawla等人提出的SMOTE(Synthetic Minority O-ver-sampling Technique)算法是一種成功的采樣方法,該方法的主要思想是利用k近鄰和線性插值,在相距較近的兩少數(shù)類樣本間按照一定的規(guī)則人為地插入新的樣本,以達(dá)到使少數(shù)類樣本數(shù)目增加,數(shù)據(jù)集趨于平衡的目的?;舅枷胧怯脴永淖罱従尤藶榈禺a(chǎn)生少數(shù)類的新樣本,而且多數(shù)類樣例也是欠采樣的,產(chǎn)生一個(gè)平衡的數(shù)據(jù)集。

使用函數(shù)SMOTE()實(shí)現(xiàn)這種采樣方法,給定一個(gè)不平衡的采樣,此函數(shù)產(chǎn)生一個(gè)較平衡類分布的新的數(shù)據(jù)集。

用iris創(chuàng)建一個(gè)帶有兩個(gè)預(yù)測(cè)變量和一個(gè)未平衡類分布的目標(biāo)變量的人工數(shù)據(jù)集。調(diào)用函數(shù)SMOTE()時(shí),變量perc.over賦值為600,即在屬于少數(shù)類的初始數(shù)據(jù)集的每個(gè)用例中創(chuàng)建6個(gè)采樣。這些新的用例通過(guò)用例和其最近領(lǐng)域之間的隨機(jī)插值創(chuàng)建。圖2為原始數(shù)據(jù)信和使用SMOTE后的數(shù)據(jù)集。

圖2 原始數(shù)據(jù)集和使用SMOTE后的數(shù)據(jù)集圖

在監(jiān)督式分類算法中,使用此方法的變形。首先用SMOTE方法獲取的訓(xùn)練集來(lái)應(yīng)用樸素貝葉斯分類器,然后用修改后的訓(xùn)練集應(yīng)用于navieBayes()函數(shù)來(lái)獲得異常值排序。

下面的語(yǔ)句獲得SMOTE版本的樸素貝葉斯Hold-out評(píng)價(jià)。

5 結(jié)果評(píng)價(jià)

此版本樸素貝葉斯模型對(duì)10%檢查的結(jié)果如表3所示。

表3 SMOTE方法的樸素貝葉斯模型檢查結(jié)果

此結(jié)果與正常樸素貝葉斯結(jié)果基本相同,結(jié)果稍好,但仍低于未監(jiān)督式方法的最好結(jié)果。盡管SMOTE方法對(duì)少數(shù)類過(guò)采樣,樸素貝葉斯依然不能正確地預(yù)測(cè)哪些是異常的報(bào)表。用圖形方式以全局的視角來(lái)查看此變種方法的性能,如圖3所示。

圖3 性能對(duì)比圖

SMOTE算法提出前,對(duì)非平衡數(shù)據(jù)的處理一般采用隨機(jī)采樣方法,SMOTE算法在相距較近的少數(shù)類之間人為地增加其虛擬樣本,在某種程度上規(guī)避了過(guò)學(xué)習(xí)的問(wèn)題,提高了數(shù)據(jù)集的分類性能。

[1]Chawla N.The Data Mining and Knowledge Discovery Handbook:Data Mining for Imbalanced Datasets[M].Heidelberg:Springer,2005:853 -867.

[2]Seeger M.Technicalreport:Learning With Labeled and Unlabeled Data:Institute for Adaptive and Neural Computation[J].U-niversity of Edinburgh,2002:5 -27.

[3]Sing T,Sander O,Beerenwinkel N.ROCR:Visualizing the Performance of Scoring Classiers.R Package Version 1.0 - 4[J].Heidelberg:Springer,2012:2 - 10.

[4]Breunig M,Kriegel H,NG R.Management of Data:LOF:Identifying Density-based Local Outliers[M].New York ACM,2000:93-104.

[5]Chambers J.Software for Data Analysis:Programming With R[M].Heidelberg:Springer,2008:166 -221.

猜你喜歡
樸素貝葉斯報(bào)表
隔離樸素
樸素的安慰(組詩(shī))
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
LabWindows/CVI中Excel報(bào)表技術(shù)研究
從三大報(bào)表讀懂養(yǎng)豬人的成績(jī)單
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
遂宁市| 新密市| 丰都县| 安化县| 东阳市| 新绛县| 壤塘县| 含山县| 甘肃省| 宁乡县| 石家庄市| 桂东县| 白水县| 尚志市| 尤溪县| 武义县| 弋阳县| 遂宁市| 绵竹市| 儋州市| 重庆市| 临沧市| 渭源县| 房产| 城市| 祥云县| 河源市| 诸城市| 湘西| 湖州市| 鲁甸县| 大石桥市| 巧家县| 旌德县| 当雄县| 新巴尔虎左旗| 定边县| 砚山县| 涟源市| 灌阳县| 那坡县|