基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯算法研究

2018-03-21 10:37楊立洪李瓊陽(yáng)李興耀

統(tǒng)計(jì)與決策 2018年2期

楊立洪，李瓊陽(yáng)，李興耀

（華南理工大學(xué)數(shù)學(xué)學(xué)院，廣州510640）

0 引言

樸素貝葉斯分類(lèi)(Naive Bayes Classification)算法是目前公認(rèn)的一種簡(jiǎn)單有效的分類(lèi)算法，它是一種基于概率的分類(lèi)方法，被廣泛地應(yīng)用于模式識(shí)別、自然語(yǔ)言處理、機(jī)器人導(dǎo)航、機(jī)器學(xué)習(xí)等領(lǐng)域。樸素貝葉斯算法是基于特征項(xiàng)間獨(dú)立、對(duì)目標(biāo)變量影響力一致的假設(shè)，但實(shí)際應(yīng)用中極少數(shù)問(wèn)題能滿(mǎn)足此假設(shè)。為此許多學(xué)者致力于改進(jìn)樸素貝葉斯算法，以期提高算法的普適性和準(zhǔn)確率。改進(jìn)之處主要體現(xiàn)在兩個(gè)方面：一是在屬性選擇上預(yù)把控；二是衡量各屬性對(duì)目標(biāo)變量的影響程度，對(duì)屬性加權(quán)。

在屬性選擇上，Geenen P Ld等[1]提出一種基于互信息選擇特征屬性的方法，并利用樸素貝葉斯算法在二分類(lèi)問(wèn)題上取得了極好的分類(lèi)效果。魏浩和丁要軍[2]提出用屬性關(guān)聯(lián)度表示一個(gè)屬性和類(lèi)屬性間的相關(guān)性，反映這個(gè)屬性對(duì)分類(lèi)結(jié)果影響的程度；用屬性冗余度表示一個(gè)屬性和其他屬性之間相關(guān)性，反映這個(gè)屬性和其他屬性間的依賴(lài)度。王行甫和杜婷[3]提出利用CFS算法選擇特征屬性。焦鵬等[4]提出將屬性先驗(yàn)分布的參數(shù)設(shè)置加入到屬性選擇的過(guò)程中，并研究當(dāng)先驗(yàn)分布服從Dirichlet分布及廣義Dirichlet分布情況下的具體實(shí)踐方案。研究出一種加權(quán)樸素貝葉斯算法，通過(guò)對(duì)不同的特征項(xiàng)提供不同的權(quán)值，削弱特征項(xiàng)之間的相關(guān)性。

在屬性加權(quán)上，饒麗麗等[5]提出在傳統(tǒng)權(quán)重計(jì)算基礎(chǔ)上，考慮到特征項(xiàng)在類(lèi)內(nèi)和類(lèi)間的分布情況，另外還結(jié)合特征項(xiàng)間的相關(guān)度，調(diào)整權(quán)重計(jì)算值，加大最能代表所屬類(lèi)的特征項(xiàng)的權(quán)重。Jiang L等[6]提出在訓(xùn)練集中深度計(jì)算特征加權(quán)頻率，估計(jì)樸素貝葉斯的條件概率。Lungan Zhang等[7]提出了兩種自適應(yīng)特征加權(quán)方法：一是基于樹(shù)的自適應(yīng)特征加權(quán)；二是基于信息增益率的特征加權(quán)。

為了解決樸素貝葉斯算法的兩個(gè)固有缺陷，本文將構(gòu)建基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯模型，有效解決屬性相關(guān)、屬性加權(quán)的問(wèn)題。在判定樣本類(lèi)別歸屬時(shí)，采用自適應(yīng)學(xué)習(xí)選擇合適的閾值，以此削弱不平衡樣本集的影響，提高模型的準(zhǔn)確率。最后在某運(yùn)營(yíng)商提供的垃圾短信用戶(hù)行為消費(fèi)特征樣本數(shù)據(jù)上進(jìn)行實(shí)證分析，結(jié)果表明：基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯較傳統(tǒng)樸素貝葉斯模在模型準(zhǔn)確率上有顯著提升。

1 樸素貝葉斯算法

樸素貝葉斯算法的分類(lèi)原理是通過(guò)某對(duì)象的先驗(yàn)概率，利用貝葉斯公式計(jì)算出其后驗(yàn)概率，具有最大后驗(yàn)概率的類(lèi)則為該對(duì)象所屬的類(lèi)。樸素貝葉斯是在貝葉斯分類(lèi)法的基礎(chǔ)上提出的，該算法滿(mǎn)足一個(gè)簡(jiǎn)單的假定，即在給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。

樸素貝葉斯分類(lèi)算法的工作過(guò)程如下：

（1）設(shè)A表示訓(xùn)練樣本的屬性集，有m個(gè)屬性A1,A2,…,Am；C表示類(lèi)集合，有k個(gè)類(lèi)C1,C2,…,Ck；每個(gè)數(shù)據(jù)樣本X用一個(gè)m維特征向量來(lái)描述m個(gè)屬性的值，即：X=(x1,x2,…,xm)，其中xi∈Ai(1≤i≤m)。

（2）對(duì)訓(xùn)練樣本集進(jìn)行統(tǒng)計(jì),計(jì)算得到每個(gè)特征屬性在各類(lèi)別的條件概率估計(jì)，即：

（3）對(duì)每個(gè)類(lèi)別計(jì)算后驗(yàn)概率，根據(jù)貝葉斯定理及樸素貝葉斯算法的假定可知：

（4）取最大后驗(yàn)概率項(xiàng)作為樣本所屬類(lèi)別：

2 基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯算法

2.1 信息值

信息值簡(jiǎn)稱(chēng)IV，衡量自變量對(duì)目標(biāo)變量的影響程度，是建模時(shí)篩選變量的一個(gè)非常重要的指標(biāo)。它起源于香農(nóng)提出的信息理論，與廣泛應(yīng)用的熵有極大的相似性，主要適用于二分類(lèi)模型。在介紹信息值之前，有必要先引入WOE(weight of evidence)。為方便表述，將二分類(lèi)目標(biāo)變量標(biāo)識(shí)為0、1，其中1表示違約，0表示正常。WOE實(shí)質(zhì)上是表示自變量取某個(gè)值時(shí)對(duì)違約比例的影響，例如當(dāng)自變量取值為i時(shí)對(duì)目標(biāo)變量違約比例的影響woei的計(jì)算公式如下：

其中，Bi指當(dāng)該自變量取值為i時(shí)的違約樣本數(shù)，Gi指該自變量取值為i時(shí)的正常樣本數(shù)。BT指建模樣本數(shù)據(jù)中總的違約樣本數(shù)，GT指建模樣本數(shù)據(jù)中總的正常樣本數(shù)。

信息值衡量一個(gè)變量的信息量，例如對(duì)于一個(gè)有n個(gè)取值的自變量而言，該自變量的信息值計(jì)算公式如下：

當(dāng)層間位移角到達(dá)2%rad，即梁加載中心點(diǎn)位移25.46 mm時(shí)，在梁端位移負(fù)向最大位移時(shí)，發(fā)生一聲巨響，這是用簡(jiǎn)易扳手可擰動(dòng)梁下翼緣與角鋼相連的左排螺栓，但肉眼看不出。當(dāng)層間位移角到達(dá)3%rad(38.19 mm)時(shí)，響聲不間斷的會(huì)發(fā)出，角鋼略微掀起。

從計(jì)算公式上可以看出，信息值是自變量WOE值的一個(gè)加權(quán)組合，其值的大小決定了自變量對(duì)目標(biāo)變量的影響程度。從形式上看來(lái)，信息值與信息熵也是極為相似的。

通常認(rèn)為，0.1≤IV≤0.3時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有中等影響力；0.3≤IV≤0.5時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有較強(qiáng)影響力；IV≥0.5時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有極強(qiáng)的影響力。

2.2 屬性約減

樸素貝葉斯算法要求建模的自變量之間相互獨(dú)立，但在實(shí)際應(yīng)用過(guò)程中，參與建模的變量之間往往會(huì)存在一定程度的相關(guān)性。相關(guān)系數(shù)是反映兩個(gè)變量之間相關(guān)程度的一個(gè)重要度量，計(jì)算公式如下：

一般情況下，0.4≤ρAi,Aj≤0.6，認(rèn)為Ai與Aj之間中等程度相關(guān)；0.6≤ρAi,Aj≤0.8，認(rèn)為Ai與Aj之間強(qiáng)相關(guān)；0.8≤ρAi,Aj≤1，認(rèn)為Ai與Aj之間極強(qiáng)相關(guān)。

為了盡可能滿(mǎn)足樸素貝葉斯算法的假設(shè)條件，有必要對(duì)變量進(jìn)行屬性約減。約減規(guī)則如下：

（1）根據(jù)IV值篩選一批對(duì)目標(biāo)變量影響程度較大的自變量，一般選擇IV值大于0.3的變量。

（2）計(jì)算（1）中篩選出的自變量之間的相關(guān)系數(shù)，一般當(dāng)ρAi,Aj＞0.5時(shí)，即可認(rèn)為Ai與Aj之間有較強(qiáng)的相關(guān)性，不宜全部進(jìn)入模型。

（3）若ρAi,Aj＞0.5，且變量Ai的IV值大于變量Aj的IV值，則只選擇變量Ai參與建模。

2.3 屬性加權(quán)

樸素貝葉斯算法選擇后驗(yàn)概率最大的類(lèi)別作為歸屬，在計(jì)算中默認(rèn)各屬性對(duì)目標(biāo)變量的影響程度一致，但由于信息值已知，各自變量對(duì)目標(biāo)變量的影響程度是有差異的，因此考慮利用各屬性的IV值進(jìn)行屬性加權(quán)。經(jīng)由前文中基于信息值和相關(guān)屬性約減篩選出對(duì)目標(biāo)變量有強(qiáng)影響力的m個(gè)變量，并保證了各變量之間幾乎獨(dú)立。假設(shè)這m個(gè)變量蘊(yùn)含了所有的信息，則屬性j所占的比重ej即為：

信息值的比重越大，該變量對(duì)目標(biāo)比變量的影響力就越大，由于條件概率p(xj|Ci)的取值范圍是(0,1)，為此可以按照如下公式修正權(quán)重，即：

對(duì)后驗(yàn)概率公式進(jìn)行修正：

選擇后驗(yàn)概率最大的類(lèi)別作為歸屬。

2.4 自適應(yīng)學(xué)習(xí)選擇合適的閾值

在二分類(lèi)樸素貝葉斯算法中，若p(C1|X)＞p(C0|X)，則把樣本X歸為C1類(lèi)。但有時(shí)樣本集中在二類(lèi)樣本的數(shù)量上相差極大，樣本分布極不均衡，若仍按上述方式判定類(lèi)別歸屬，則極有可能誤判。考慮當(dāng)p(C1|X)＞l?p(C0|X)時(shí)，把樣本X歸為C1類(lèi)，l值的具體選擇可以依賴(lài)其在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)。一般情況下，若C1類(lèi)的樣本錯(cuò)判到C0類(lèi)的較多，可以考慮在(0,1)內(nèi)選擇合適k值；若C0類(lèi)的樣本錯(cuò)判到C1類(lèi)的較多，可以考慮在(1,50)內(nèi)選擇合適k值，以此來(lái)提高模型的準(zhǔn)確率。

3 實(shí)證

3.1 數(shù)據(jù)的收集和處理

某運(yùn)營(yíng)商提供了用戶(hù)行為消費(fèi)特征樣本數(shù)據(jù)共78258條，其中垃圾短信用戶(hù)樣本數(shù)據(jù)11837條，用1標(biāo)識(shí)；正常用戶(hù)66421條，用0標(biāo)識(shí)。數(shù)據(jù)集有當(dāng)月消費(fèi)額、品牌、通話(huà)時(shí)長(zhǎng)、發(fā)送短信條數(shù)、短信回復(fù)率、賬戶(hù)余額、是否為垃圾短信用戶(hù)等共56個(gè)屬性。下面將利用基于信息值的相關(guān)屬性約減—加權(quán)樸素貝葉斯算法來(lái)進(jìn)行建模。

3.2 基于信息值進(jìn)行屬性約減—加權(quán)

在垃圾短信用戶(hù)識(shí)別過(guò)程中，是否是垃圾短信用戶(hù)是目標(biāo)變量。利用信息值的計(jì)算公式，計(jì)算除目標(biāo)變量的其他55個(gè)變量的信息值。按照上文中的屬性約減規(guī)則進(jìn)行屬性約減，最終選定7個(gè)變量參與建模，變量的信息值、權(quán)重、相關(guān)系數(shù)如表1和表2所示。

表1 建模變量的信息值、權(quán)重

表2 相關(guān)系數(shù)矩陣

由參與建模的7個(gè)變量的相關(guān)系數(shù)矩陣可以看出，變量之間基本滿(mǎn)足條件獨(dú)立的假設(shè)。

3.3 模型構(gòu)建及對(duì)比檢驗(yàn)

在數(shù)據(jù)集中按照7：3的比例進(jìn)行分層隨機(jī)抽樣，劃分訓(xùn)練樣本與檢驗(yàn)樣本。在利用模型求出每一個(gè)樣本的后驗(yàn)概率之后采用自適應(yīng)學(xué)習(xí)選擇合適的l值，判別每一個(gè)樣本的歸屬。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn)，當(dāng)l=0.25時(shí)模型的準(zhǔn)確率最高。至此，當(dāng)p(C1|X)＞0.25?p(C0|X)時(shí)，判斷樣本X為垃圾短信用戶(hù)。

分別利用改進(jìn)的樸素貝葉斯算法和傳統(tǒng)樸素貝葉斯算法建立模型，二者在訓(xùn)練集和測(cè)試集的建模結(jié)果如表3所示：

表3 模型改進(jìn)前后效果對(duì)比

由表3可以看出基于信息值的相關(guān)屬性約減—加權(quán)樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法在建模效果的準(zhǔn)確率上有顯著提升。

4 結(jié)論

樸素貝葉斯算法是目前比較高效經(jīng)濟(jì)的分類(lèi)算法之一，也是常用的十大算法之一。本文在樸素貝葉斯算法的基礎(chǔ)上，針對(duì)樸素貝葉斯算法的固有缺陷，提出基于信息值的屬性約減—加權(quán)改進(jìn)方法，該方法能有效處理相關(guān)屬性，使之盡可能滿(mǎn)足樸素貝葉斯的理論假設(shè)。同時(shí)利用屬性的信息值為屬性賦予的權(quán)重，采用自學(xué)習(xí)選擇合適的判定閾值，以降低不平衡樣本對(duì)模型的影響，從而最大程度上提高模型的準(zhǔn)確率。

在垃圾短信客戶(hù)識(shí)別的實(shí)際應(yīng)用過(guò)程中也發(fā)現(xiàn)，基于信息值的屬性約減—加權(quán)改進(jìn)樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法在準(zhǔn)確率上有顯著提升。

[1]Geenen P L,Gaag L C V D,Loeffen W L A,et al.Constructing Naive Bayesian Classifiers for Veterinary Medicine:A Case Study in the Clinical Diagnosis of Classical Swine Fever[J].Research in Veterinary Science,2011,91(1).

[2]魏浩,丁要軍.一種基于相關(guān)的屬性選擇改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(8).

[3]王行甫,杜婷.基于屬性選擇的改進(jìn)加權(quán)樸素貝葉斯分類(lèi)算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(8).

[4]焦鵬,王新政,謝鵬遠(yuǎn).基于屬性選擇法的樸素貝葉斯分類(lèi)器性能改進(jìn)[J].電訊技術(shù),2013,(3).

[5]饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類(lèi)算法[J].廈門(mén)大學(xué)學(xué)報(bào):自然科學(xué)版,2012,51(4).

[6]Jiang L,Li C,Wang S,et al.Deep Feature Weighting for Naive Bayes and Its Application to Text Classification[J].Engineering Applications of Artificial Intelligence,2016,(52).

[7]Wang S,Jiang L,Li C.A CFS-Based Feature Weighting Approach to Naive Bayes Text Classifiers[J].Knowledge-Based Systems,2016,(100).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡