楊立洪,李瓊陽(yáng),李興耀
(華南理工大學(xué)數(shù)學(xué)學(xué)院,廣州510640)
樸素貝葉斯分類(lèi)(Naive Bayes Classification)算法是目前公認(rèn)的一種簡(jiǎn)單有效的分類(lèi)算法,它是一種基于概率的分類(lèi)方法,被廣泛地應(yīng)用于模式識(shí)別、自然語(yǔ)言處理、機(jī)器人導(dǎo)航、機(jī)器學(xué)習(xí)等領(lǐng)域。樸素貝葉斯算法是基于特征項(xiàng)間獨(dú)立、對(duì)目標(biāo)變量影響力一致的假設(shè),但實(shí)際應(yīng)用中極少數(shù)問(wèn)題能滿(mǎn)足此假設(shè)。為此許多學(xué)者致力于改進(jìn)樸素貝葉斯算法,以期提高算法的普適性和準(zhǔn)確率。改進(jìn)之處主要體現(xiàn)在兩個(gè)方面:一是在屬性選擇上預(yù)把控;二是衡量各屬性對(duì)目標(biāo)變量的影響程度,對(duì)屬性加權(quán)。
在屬性選擇上,Geenen P Ld等[1]提出一種基于互信息選擇特征屬性的方法,并利用樸素貝葉斯算法在二分類(lèi)問(wèn)題上取得了極好的分類(lèi)效果。魏浩和丁要軍[2]提出用屬性關(guān)聯(lián)度表示一個(gè)屬性和類(lèi)屬性間的相關(guān)性,反映這個(gè)屬性對(duì)分類(lèi)結(jié)果影響的程度;用屬性冗余度表示一個(gè)屬性和其他屬性之間相關(guān)性,反映這個(gè)屬性和其他屬性間的依賴(lài)度。王行甫和杜婷[3]提出利用CFS算法選擇特征屬性。焦鵬等[4]提出將屬性先驗(yàn)分布的參數(shù)設(shè)置加入到屬性選擇的過(guò)程中,并研究當(dāng)先驗(yàn)分布服從Dirichlet分布及廣義Dirichlet分布情況下的具體實(shí)踐方案。研究出一種加權(quán)樸素貝葉斯算法,通過(guò)對(duì)不同的特征項(xiàng)提供不同的權(quán)值,削弱特征項(xiàng)之間的相關(guān)性。
在屬性加權(quán)上,饒麗麗等[5]提出在傳統(tǒng)權(quán)重計(jì)算基礎(chǔ)上,考慮到特征項(xiàng)在類(lèi)內(nèi)和類(lèi)間的分布情況,另外還結(jié)合特征項(xiàng)間的相關(guān)度,調(diào)整權(quán)重計(jì)算值,加大最能代表所屬類(lèi)的特征項(xiàng)的權(quán)重。Jiang L等[6]提出在訓(xùn)練集中深度計(jì)算特征加權(quán)頻率,估計(jì)樸素貝葉斯的條件概率。Lungan Zhang等[7]提出了兩種自適應(yīng)特征加權(quán)方法:一是基于樹(shù)的自適應(yīng)特征加權(quán);二是基于信息增益率的特征加權(quán)。
為了解決樸素貝葉斯算法的兩個(gè)固有缺陷,本文將構(gòu)建基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯模型,有效解決屬性相關(guān)、屬性加權(quán)的問(wèn)題。在判定樣本類(lèi)別歸屬時(shí),采用自適應(yīng)學(xué)習(xí)選擇合適的閾值,以此削弱不平衡樣本集的影響,提高模型的準(zhǔn)確率。最后在某運(yùn)營(yíng)商提供的垃圾短信用戶(hù)行為消費(fèi)特征樣本數(shù)據(jù)上進(jìn)行實(shí)證分析,結(jié)果表明:基于信息值的相關(guān)屬性約減—加權(quán)二分類(lèi)樸素貝葉斯較傳統(tǒng)樸素貝葉斯模在模型準(zhǔn)確率上有顯著提升。
樸素貝葉斯算法的分類(lèi)原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,具有最大后驗(yàn)概率的類(lèi)則為該對(duì)象所屬的類(lèi)。樸素貝葉斯是在貝葉斯分類(lèi)法的基礎(chǔ)上提出的,該算法滿(mǎn)足一個(gè)簡(jiǎn)單的假定,即在給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。
樸素貝葉斯分類(lèi)算法的工作過(guò)程如下:
(1)設(shè)A表示訓(xùn)練樣本的屬性集,有m個(gè)屬性A1,A2,…,Am;C表示類(lèi)集合,有k個(gè)類(lèi)C1,C2,…,Ck;每個(gè)數(shù)據(jù)樣本X用一個(gè)m維特征向量來(lái)描述m個(gè)屬性的值,即:X=(x1,x2,…,xm),其中xi∈Ai(1≤i≤m)。
(2)對(duì)訓(xùn)練樣本集進(jìn)行統(tǒng)計(jì),計(jì)算得到每個(gè)特征屬性在各類(lèi)別的條件概率估計(jì),即:
(3)對(duì)每個(gè)類(lèi)別計(jì)算后驗(yàn)概率,根據(jù)貝葉斯定理及樸素貝葉斯算法的假定可知:
(4)取最大后驗(yàn)概率項(xiàng)作為樣本所屬類(lèi)別:
信息值簡(jiǎn)稱(chēng)IV,衡量自變量對(duì)目標(biāo)變量的影響程度,是建模時(shí)篩選變量的一個(gè)非常重要的指標(biāo)。它起源于香農(nóng)提出的信息理論,與廣泛應(yīng)用的熵有極大的相似性,主要適用于二分類(lèi)模型。在介紹信息值之前,有必要先引入WOE(weight of evidence)。為方便表述,將二分類(lèi)目標(biāo)變量標(biāo)識(shí)為0、1,其中1表示違約,0表示正常。WOE實(shí)質(zhì)上是表示自變量取某個(gè)值時(shí)對(duì)違約比例的影響,例如當(dāng)自變量取值為i時(shí)對(duì)目標(biāo)變量違約比例的影響woei的計(jì)算公式如下:
其中,Bi指當(dāng)該自變量取值為i時(shí)的違約樣本數(shù),Gi指該自變量取值為i時(shí)的正常樣本數(shù)。BT指建模樣本數(shù)據(jù)中總的違約樣本數(shù),GT指建模樣本數(shù)據(jù)中總的正常樣本數(shù)。
信息值衡量一個(gè)變量的信息量,例如對(duì)于一個(gè)有n個(gè)取值的自變量而言,該自變量的信息值計(jì)算公式如下:
當(dāng)層間位移角到達(dá)2%rad,即梁加載中心點(diǎn)位移25.46 mm時(shí),在梁端位移負(fù)向最大位移時(shí),發(fā)生一聲巨響,這是用簡(jiǎn)易扳手可擰動(dòng)梁下翼緣與角鋼相連的左排螺栓,但肉眼看不出。當(dāng)層間位移角到達(dá)3%rad(38.19 mm)時(shí),響聲不間斷的會(huì)發(fā)出,角鋼略微掀起。
從計(jì)算公式上可以看出,信息值是自變量WOE值的一個(gè)加權(quán)組合,其值的大小決定了自變量對(duì)目標(biāo)變量的影響程度。從形式上看來(lái),信息值與信息熵也是極為相似的。
通常認(rèn)為,0.1≤IV≤0.3時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有中等影響力;0.3≤IV≤0.5時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有較強(qiáng)影響力;IV≥0.5時(shí)認(rèn)為該變量對(duì)目標(biāo)變量有極強(qiáng)的影響力。
樸素貝葉斯算法要求建模的自變量之間相互獨(dú)立,但在實(shí)際應(yīng)用過(guò)程中,參與建模的變量之間往往會(huì)存在一定程度的相關(guān)性。相關(guān)系數(shù)是反映兩個(gè)變量之間相關(guān)程度的一個(gè)重要度量,計(jì)算公式如下:
一般情況下,0.4≤ρAi,Aj≤0.6,認(rèn)為Ai與Aj之間中等程度相關(guān);0.6≤ρAi,Aj≤0.8,認(rèn)為Ai與Aj之間強(qiáng)相關(guān);0.8≤ρAi,Aj≤1,認(rèn)為Ai與Aj之間極強(qiáng)相關(guān)。
為了盡可能滿(mǎn)足樸素貝葉斯算法的假設(shè)條件,有必要對(duì)變量進(jìn)行屬性約減。約減規(guī)則如下:
(1)根據(jù)IV值篩選一批對(duì)目標(biāo)變量影響程度較大的自變量,一般選擇IV值大于0.3的變量。
(2)計(jì)算(1)中篩選出的自變量之間的相關(guān)系數(shù),一般當(dāng)ρAi,Aj>0.5時(shí),即可認(rèn)為Ai與Aj之間有較強(qiáng)的相關(guān)性,不宜全部進(jìn)入模型。
(3)若ρAi,Aj>0.5,且變量Ai的IV值大于變量Aj的IV值,則只選擇變量Ai參與建模。
樸素貝葉斯算法選擇后驗(yàn)概率最大的類(lèi)別作為歸屬,在計(jì)算中默認(rèn)各屬性對(duì)目標(biāo)變量的影響程度一致,但由于信息值已知,各自變量對(duì)目標(biāo)變量的影響程度是有差異的,因此考慮利用各屬性的IV值進(jìn)行屬性加權(quán)。經(jīng)由前文中基于信息值和相關(guān)屬性約減篩選出對(duì)目標(biāo)變量有強(qiáng)影響力的m個(gè)變量,并保證了各變量之間幾乎獨(dú)立。假設(shè)這m個(gè)變量蘊(yùn)含了所有的信息,則屬性j所占的比重ej即為:
信息值的比重越大,該變量對(duì)目標(biāo)比變量的影響力就越大,由于條件概率p(xj|Ci)的取值范圍是(0,1),為此可以按照如下公式修正權(quán)重,即:
對(duì)后驗(yàn)概率公式進(jìn)行修正:
選擇后驗(yàn)概率最大的類(lèi)別作為歸屬。
在二分類(lèi)樸素貝葉斯算法中,若p(C1|X)>p(C0|X),則把樣本X歸為C1類(lèi)。但有時(shí)樣本集中在二類(lèi)樣本的數(shù)量上相差極大,樣本分布極不均衡,若仍按上述方式判定類(lèi)別歸屬,則極有可能誤判。考慮當(dāng)p(C1|X)>l?p(C0|X)時(shí),把樣本X歸為C1類(lèi),l值的具體選擇可以依賴(lài)其在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)。一般情況下,若C1類(lèi)的樣本錯(cuò)判到C0類(lèi)的較多,可以考慮在(0,1)內(nèi)選擇合適k值;若C0類(lèi)的樣本錯(cuò)判到C1類(lèi)的較多,可以考慮在(1,50)內(nèi)選擇合適k值,以此來(lái)提高模型的準(zhǔn)確率。
某運(yùn)營(yíng)商提供了用戶(hù)行為消費(fèi)特征樣本數(shù)據(jù)共78258條,其中垃圾短信用戶(hù)樣本數(shù)據(jù)11837條,用1標(biāo)識(shí);正常用戶(hù)66421條,用0標(biāo)識(shí)。數(shù)據(jù)集有當(dāng)月消費(fèi)額、品牌、通話(huà)時(shí)長(zhǎng)、發(fā)送短信條數(shù)、短信回復(fù)率、賬戶(hù)余額、是否為垃圾短信用戶(hù)等共56個(gè)屬性。下面將利用基于信息值的相關(guān)屬性約減—加權(quán)樸素貝葉斯算法來(lái)進(jìn)行建模。
在垃圾短信用戶(hù)識(shí)別過(guò)程中,是否是垃圾短信用戶(hù)是目標(biāo)變量。利用信息值的計(jì)算公式,計(jì)算除目標(biāo)變量的其他55個(gè)變量的信息值。按照上文中的屬性約減規(guī)則進(jìn)行屬性約減,最終選定7個(gè)變量參與建模,變量的信息值、權(quán)重、相關(guān)系數(shù)如表1和表2所示。
表1 建模變量的信息值、權(quán)重
表2 相關(guān)系數(shù)矩陣
由參與建模的7個(gè)變量的相關(guān)系數(shù)矩陣可以看出,變量之間基本滿(mǎn)足條件獨(dú)立的假設(shè)。
在數(shù)據(jù)集中按照7:3的比例進(jìn)行分層隨機(jī)抽樣,劃分訓(xùn)練樣本與檢驗(yàn)樣本。在利用模型求出每一個(gè)樣本的后驗(yàn)概率之后采用自適應(yīng)學(xué)習(xí)選擇合適的l值,判別每一個(gè)樣本的歸屬。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)l=0.25時(shí)模型的準(zhǔn)確率最高。至此,當(dāng)p(C1|X)>0.25?p(C0|X)時(shí),判斷樣本X為垃圾短信用戶(hù)。
分別利用改進(jìn)的樸素貝葉斯算法和傳統(tǒng)樸素貝葉斯算法建立模型,二者在訓(xùn)練集和測(cè)試集的建模結(jié)果如表3所示:
表3 模型改進(jìn)前后效果對(duì)比
由表3可以看出基于信息值的相關(guān)屬性約減—加權(quán)樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法在建模效果的準(zhǔn)確率上有顯著提升。
樸素貝葉斯算法是目前比較高效經(jīng)濟(jì)的分類(lèi)算法之一,也是常用的十大算法之一。本文在樸素貝葉斯算法的基礎(chǔ)上,針對(duì)樸素貝葉斯算法的固有缺陷,提出基于信息值的屬性約減—加權(quán)改進(jìn)方法,該方法能有效處理相關(guān)屬性,使之盡可能滿(mǎn)足樸素貝葉斯的理論假設(shè)。同時(shí)利用屬性的信息值為屬性賦予的權(quán)重,采用自學(xué)習(xí)選擇合適的判定閾值,以降低不平衡樣本對(duì)模型的影響,從而最大程度上提高模型的準(zhǔn)確率。
在垃圾短信客戶(hù)識(shí)別的實(shí)際應(yīng)用過(guò)程中也發(fā)現(xiàn),基于信息值的屬性約減—加權(quán)改進(jìn)樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法在準(zhǔn)確率上有顯著提升。
[1]Geenen P L,Gaag L C V D,Loeffen W L A,et al.Constructing Naive Bayesian Classifiers for Veterinary Medicine:A Case Study in the Clinical Diagnosis of Classical Swine Fever[J].Research in Veterinary Science,2011,91(1).
[2]魏浩,丁要軍.一種基于相關(guān)的屬性選擇改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(8).
[3]王行甫,杜婷.基于屬性選擇的改進(jìn)加權(quán)樸素貝葉斯分類(lèi)算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(8).
[4]焦鵬,王新政,謝鵬遠(yuǎn).基于屬性選擇法的樸素貝葉斯分類(lèi)器性能改進(jìn)[J].電訊技術(shù),2013,(3).
[5]饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進(jìn)加權(quán)樸素貝葉斯分類(lèi)算法[J].廈門(mén)大學(xué)學(xué)報(bào):自然科學(xué)版,2012,51(4).
[6]Jiang L,Li C,Wang S,et al.Deep Feature Weighting for Naive Bayes and Its Application to Text Classification[J].Engineering Applications of Artificial Intelligence,2016,(52).
[7]Wang S,Jiang L,Li C.A CFS-Based Feature Weighting Approach to Naive Bayes Text Classifiers[J].Knowledge-Based Systems,2016,(100).