国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多類屬性加權(quán)與正交變換融合的樸素貝葉斯

2023-09-25 08:55劉海濤陳春梅龐忠祥梁志強(qiáng)
關(guān)鍵詞:集上貝葉斯準(zhǔn)確率

劉海濤,陳春梅,龐忠祥,梁志強(qiáng),李 晴

西南科技大學(xué)信息工程學(xué)院,四川綿陽(yáng)621002

樸素貝葉斯(Naive Bayes,NB)算法具有簡(jiǎn)單、高效、可解釋性等優(yōu)點(diǎn),但是它的屬性條件獨(dú)立性假設(shè)在現(xiàn)實(shí)中很少成立[1],這將降低在現(xiàn)實(shí)中具有屬性依賴性樣本的分類性能。目前,學(xué)者們?yōu)榱藴p弱屬性條件獨(dú)立性假設(shè),已提出眾多改進(jìn)方法,大致可分為七類:結(jié)構(gòu)擴(kuò)展[2-6]、屬性選擇[7-11]、屬性加權(quán)[12-14]、實(shí)例選擇[15-16]、實(shí)例加權(quán)[17-19]、微調(diào)[20-21]和屬性變換[22]。

結(jié)構(gòu)擴(kuò)展是一種通過添加有向弧來顯式地表示屬性依賴的方法。如何精確地尋找屬性依賴關(guān)系是這類方法需要解決的問題。為了解決這一問題,F(xiàn)riedman等人[2]提出了樹增強(qiáng)樸素貝葉斯(tree augmented Naive Bayes,TAN),屬性依賴性由樹狀結(jié)構(gòu)表示。在TAN中,類節(jié)點(diǎn)直接指向所有屬性節(jié)點(diǎn),每個(gè)屬性節(jié)點(diǎn)最多只有一個(gè)來自另一個(gè)屬性節(jié)點(diǎn)的父節(jié)點(diǎn)。事實(shí)上,TAN在學(xué)習(xí)屬性依賴性方面非常有效,但同時(shí)TAN 也帶來了相當(dāng)大的計(jì)算成本。為了降低計(jì)算成本,Webb等人[3]提出了一種稱為平均單依賴估計(jì)(averaged one-dependent estimator,AODE)的集成模型。AODE將每個(gè)屬性依次視為所有其他屬性的父節(jié)點(diǎn),從而構(gòu)建多個(gè)超級(jí)父單依賴性估計(jì)器(super-parent one-dependent estimator,SPODE)。然后通過直接平均所有合格SPODE 的類成員概率來產(chǎn)生最終預(yù)測(cè)結(jié)果。除了AODE,Jiang等人[4]提出了另一種模型,稱為隱藏樸素貝葉斯(hidden Naive Bayes,HNB)。在HNB中,為每個(gè)屬性創(chuàng)建一個(gè)隱藏的父節(jié)點(diǎn),并且隱藏父節(jié)點(diǎn)具有顯式語義。簡(jiǎn)單來說,每個(gè)屬性的隱藏父級(jí)可以看作是匯聚了所有其他屬性的影響。因此,HNB 避免了學(xué)習(xí)最優(yōu)結(jié)構(gòu)的高計(jì)算復(fù)雜性,但考慮了所有屬性的影響。張文鈞等人[5]提出了一種基于特征增廣的生成-判別混合模型的構(gòu)建方法。該方法利用特征增廣的思想對(duì)模型進(jìn)行結(jié)合,從而減少了時(shí)間復(fù)雜度,增強(qiáng)了原始屬性的內(nèi)在信息。最后將NB和HNB分別作為生成模型,將LR(logistic regression)作為判別模型,構(gòu)建了NB-LR和HNB-LR兩種混合算法。

雖然結(jié)構(gòu)擴(kuò)展是有效的,但學(xué)習(xí)最佳結(jié)構(gòu)仍然相當(dāng)困難。近年來,諸多學(xué)者開始關(guān)注另一種改進(jìn)NB算法的方法,即屬性選擇。由于數(shù)據(jù)集中的多余屬性不僅會(huì)增加分類模型的計(jì)算量,還會(huì)影響其分類性能。所以,屬性選擇方法[7]剔除了多余屬性,保留了樣本中貢獻(xiàn)度較高的相關(guān)屬性,在不改變NB結(jié)構(gòu)的情況下,使其具有簡(jiǎn)單、高效等特點(diǎn)[10]。但是在實(shí)際中樣本的不同屬性對(duì)該樣本的分類結(jié)果會(huì)產(chǎn)生不同的影響,屬性選擇方法沒有考慮不同屬性組合在分類過程中的不同重要性。

屬性加權(quán)[12]方法則考慮了不同屬性的權(quán)重問題。它通過為每個(gè)屬性分配一個(gè)不同的權(quán)重,來表示不同屬性對(duì)分類的重要程度。Jiang 等人[14]提出了一種基于相關(guān)性的屬性加權(quán)(correlation-based feature weighting,CFW)樸素貝葉斯。在CFW中,每個(gè)屬性的權(quán)重首先被定義為互相關(guān)性(屬性與類之間的相關(guān)性)和平均相互冗余(屬性之間的冗余)之間的差值。然后,再對(duì)權(quán)重進(jìn)行s型變換,以確保權(quán)重值在一個(gè)規(guī)定的范圍內(nèi)。實(shí)驗(yàn)結(jié)果表明,CFW 的分類精度高于NB,同時(shí)還保持了最終模型的簡(jiǎn)單性。寧可等人[23]針對(duì)多維連續(xù)型數(shù)據(jù),通過高斯分割對(duì)屬性類別不同的多維連續(xù)型數(shù)據(jù)集進(jìn)行離散化處理,并使用拉普拉斯校準(zhǔn)、屬性關(guān)聯(lián)和屬性加權(quán)方法改進(jìn)了樸素貝葉斯分類的過程。丁月等人[24]通過JS 散度公式來衡量特征項(xiàng)為文本帶來的信息量,然后結(jié)合類別內(nèi)外的詞頻、文本頻以及用變異系數(shù)修正過的逆類別頻率對(duì)JS 散度作進(jìn)一步的調(diào)整,最后將計(jì)算的屬性權(quán)重加入到樸素貝葉斯公式中,從而提升了樸素貝葉斯算法在文本分類中的性能。趙博文等人[25]利用泊松分布模型對(duì)文本特征詞進(jìn)行加權(quán),并結(jié)合NB算法對(duì)文本進(jìn)行了分類。上述的屬性加權(quán)方法是通過給樣本中的屬性賦予權(quán)重,來量化不同的屬性對(duì)分類的影響。最近,Zhang 等人[26]認(rèn)為原始屬性空間提供的信息可能不足以進(jìn)行分類。因此,為了獲得原始屬性空間的潛在信息,Zhang等人提出了一種雙階段的屬性增強(qiáng)和加權(quán)樸素貝葉斯(attribute augmented and weighted Naive Bayes,A2WNB)算法。在A2WNB中,首先建立多個(gè)隨機(jī)單依賴估計(jì)器用于訓(xùn)練樣本的分類。然后,將預(yù)測(cè)的類別作為潛在屬性并和原始屬性連接來得到增強(qiáng)屬性。最后,通過最大化模型的條件對(duì)數(shù)似然函數(shù)來優(yōu)化增強(qiáng)屬性的權(quán)重。此外,Zhang 等人[27]提出了一種多視圖的屬性加權(quán)樸素貝葉斯(multi-view attribute weighted Naive Bayes,MAWNB)算法。該算法首先構(gòu)建多個(gè)超級(jí)父單依賴估計(jì)和隨機(jī)樹,然后利用它們中的每一個(gè)依次對(duì)每個(gè)訓(xùn)練實(shí)例進(jìn)行分類,并使用它們的所有預(yù)測(cè)類標(biāo)簽來構(gòu)建兩個(gè)標(biāo)簽視圖,最后通過最小化每個(gè)視圖中的負(fù)條件對(duì)數(shù)似然函數(shù)來優(yōu)化每個(gè)類中的每個(gè)屬性的權(quán)重。

目前,一些研究人員又將他們的注意力轉(zhuǎn)向到了另一種更加細(xì)致的屬性加權(quán)方法,文獻(xiàn)[28-32]可通稱為屬性值加權(quán),并且通過對(duì)屬性值的加權(quán),可以使分類器性能得到進(jìn)一步地提高。Yu 等人[28]假設(shè)高度預(yù)測(cè)的屬性值應(yīng)該與類屬性強(qiáng)相關(guān),但與其他屬性值不相關(guān),并通過計(jì)算相關(guān)性和平均冗余之間的差值,為屬性值分配不同的權(quán)值。秦鋒等人[29]通過計(jì)算屬性值與類別之間的關(guān)聯(lián)性來獲取不同屬性值在后驗(yàn)概率中的加權(quán)系數(shù),從而提升樸素貝葉斯分類的準(zhǔn)確率。Zhang等人[32]通過考慮屬性值的水平粒度和類標(biāo)簽的垂直粒度來評(píng)估屬性之間的依賴性,并有區(qū)別地為每個(gè)類的屬性值分配一個(gè)特定的權(quán)重。

屬性變換主要是對(duì)樣本屬性之間的線性關(guān)系進(jìn)行研究,如李福祥等人[22]提出的正交變換改進(jìn)的樸素貝葉斯(Naive Bayes of orthogonal transformation,OTNB)算法,此算法是通過數(shù)值標(biāo)記將離散屬性變換為連續(xù)屬性,之后對(duì)連續(xù)屬性和數(shù)值標(biāo)記后的離散屬性進(jìn)行正交變換,增強(qiáng)屬性之間的相互獨(dú)立性,去除屬性之間的線性關(guān)系,從而貼近了樸素貝葉斯算法的屬性條件獨(dú)立性假設(shè)。

為了保留NB 算法的簡(jiǎn)單性,人們對(duì)樸素貝葉斯算法進(jìn)行了微調(diào),微調(diào)是指在第一階段建立標(biāo)準(zhǔn)的NB模型,在微調(diào)階段將每個(gè)訓(xùn)練實(shí)例都進(jìn)行分類,然后判斷對(duì)訓(xùn)練實(shí)例的分類結(jié)果正確與否,再根據(jù)判斷結(jié)果對(duì)原樸素貝葉斯算法進(jìn)行微調(diào)。Diab & Hindi 將樸素貝葉斯算法中的概率估計(jì)問題轉(zhuǎn)化為一個(gè)優(yōu)化問題[33],并融合了差分進(jìn)化(differential evolution,DE)、遺傳算法(genetic algorithms,GA)和模擬退火(simulated annealing,SA)三種算法,從中獲得啟發(fā)。實(shí)驗(yàn)結(jié)果表明,該方法在不同的領(lǐng)域得到了廣泛的應(yīng)用,特別是在樣本的基本分布不能通過訓(xùn)練樣本充分體現(xiàn)時(shí),該方法表現(xiàn)出了一定的優(yōu)越性。Hindi等人[34]提出了一個(gè)用于文本分類的微調(diào)樸素貝葉斯(fine-tuning NB,F(xiàn)TNB)的分類符集成。他們修改了FTNB中的更新方程,使該方法產(chǎn)生不同的分類器。然后建立了一個(gè)FTNB集成分類器,以期望顯著提高分類的準(zhǔn)確性。實(shí)驗(yàn)表明,該算法在16 個(gè)基準(zhǔn)文本分類數(shù)據(jù)集中的分類性能有明顯提升。Zhang等人[35]提出了一種微調(diào)屬性加權(quán)樸素貝葉斯(fine tuning attribute weighted NB,F(xiàn)TAWNB),是在對(duì)樸素貝葉斯算法進(jìn)行屬性加權(quán)改進(jìn)的基礎(chǔ)上進(jìn)行了微調(diào),它減少了樸素貝葉斯算法對(duì)測(cè)試樣本的分類時(shí)間,并提高了算法的精度。

上述的屬性和屬性值加權(quán)方法是針對(duì)離散屬性或連續(xù)屬性離散化之后的屬性值進(jìn)行加權(quán)[32],這會(huì)導(dǎo)致連續(xù)屬性的內(nèi)在信息丟失。因此,本文將離散屬性和連續(xù)屬性進(jìn)行區(qū)分,只給離散屬性和離散屬性值賦予權(quán)重,而對(duì)于連續(xù)屬性使用正交變換的方法消除連續(xù)屬性之間的線性關(guān)系。這樣一來既保留了離散和連續(xù)屬性的內(nèi)在信息,還量化了離散屬性和離散屬性值之間的相互關(guān)系以及對(duì)其所屬樣本分類的貢獻(xiàn)程度。

1 樸素貝葉斯分類算法的改進(jìn)

針對(duì)多維混合屬性樣本,一般的樸素貝葉斯改進(jìn)算法是先將連續(xù)屬性離散化[32]或離散屬性連續(xù)化[22]之后再對(duì)算法進(jìn)行訓(xùn)練。本文首先對(duì)離散屬性進(jìn)行加權(quán),對(duì)連續(xù)屬性進(jìn)行正交變換,然后對(duì)兩者的條件概率分別計(jì)算,最后將計(jì)算結(jié)果進(jìn)行融合,從而得到多類屬性加權(quán)與正交變換融合的樸素貝葉斯(Naive Bayes fusion of multiple attribute weighting and orthogonal transformation,MAWOTFNB)算法,以此來保留離散和連續(xù)屬性的內(nèi)在信息,削弱屬性條件獨(dú)立性假設(shè)給NB算法造成的影響。

1.1 改進(jìn)算法的框架

本文提出的MAWOTFNB 算法一方面將多類離散屬性和離散屬性值權(quán)重加入到離散屬性“頻率計(jì)數(shù)估計(jì)”的條件概率計(jì)算中,然后對(duì)正交變換后的連續(xù)屬性使用“概率密度函數(shù)”的條件概率計(jì)算方式進(jìn)行計(jì)算。另一方面,將兩種不同的條件概率計(jì)算方式進(jìn)行融合并加入類屬性權(quán)重,得到多維混合屬性的后驗(yàn)概率計(jì)算公式。因此,MAWOTFNB算法可以對(duì)樣本中離散屬性和連續(xù)屬性的條件概率進(jìn)行區(qū)分計(jì)算,并繼承了離散屬性和離散屬性值加權(quán)方法、正交變換方法的優(yōu)點(diǎn),從而保留了離散屬性與連續(xù)屬性的內(nèi)在信息。MAWOTFNB算法使用式(1)對(duì)測(cè)試樣本的類別進(jìn)行預(yù)測(cè)。

其中,xi為測(cè)試數(shù)據(jù)集中的第i個(gè)測(cè)試樣本,C?(xi)是測(cè)試樣本xi的類別預(yù)測(cè)函數(shù),C是類集合,cd為類集合C中的第d個(gè)類,Dd為類cd中的離散屬性標(biāo)識(shí),Sd為類cd中的連續(xù)屬性標(biāo)識(shí)。W為權(quán)重集合,且W={Wjkd,Wj,aj,Wjk},集合中Wjkd為類cd中第j個(gè)離散屬性的取值為aj關(guān)于第k個(gè)離散屬性取值為ak的聯(lián)合離散屬性值權(quán)重,Wj,aj為離散屬性值aj的權(quán)重,Wjk為樣本中第j個(gè)離散屬性與第k個(gè)離散屬性的聯(lián)合離散屬性權(quán)重。xiD為離散屬性向量,xiS為連續(xù)屬性向量。權(quán)重集合W中的各權(quán)重、P?Dd(xiD|cd)和P?Sd(xiS|cd)的定義見1.2節(jié)和1.3節(jié),先驗(yàn)概率P?(cd)由式(2)表示:

其中,Nd為訓(xùn)練數(shù)據(jù)集的類cd中的樣本數(shù)量,N為訓(xùn)練數(shù)據(jù)集中樣本的數(shù)量,D為訓(xùn)練數(shù)據(jù)集中類的數(shù)量,Wd為類cd的權(quán)重,其定義見1.2節(jié)。圖1為MAWOTFNB算法框架。

圖1 MAWOTFNB算法框架Fig.1 MAWOTFNB algorithmic framework

1.2 離散屬性加權(quán)

1.2.1 類特定的聯(lián)合離散屬性值加權(quán)

文獻(xiàn)[36]中的樸素貝葉斯條件概率計(jì)算公式是將待測(cè)樣本不同屬性的取值對(duì)此樣本屬于某個(gè)類別的支持度平等對(duì)待的,即每個(gè)離散屬性值的權(quán)重都默認(rèn)為1,這樣一來在很大程度上限制了樸素貝葉斯分類器的分類精度。針對(duì)上述問題,本文通過式(3)構(gòu)造類特定的聯(lián)合離散屬性值權(quán)重Wjkd:

其中,njd和nkd分別是類cd中第j個(gè)離散屬性和第k個(gè)離散屬性的取值數(shù)量,且1 ≤j≤nD,1 ≤k≤nD,nD是樣本離散屬性的數(shù)量,Count(aj,ak,cd)代表類cd中第j個(gè)離散屬性和第k個(gè)離散屬性取值為aj和ak的樣本數(shù)量,Count(ak,cd)代表類cd中第k個(gè)離散屬性取值為ak的樣本數(shù)量,Wjkd表示在類cd中第j個(gè)離散屬性取值為aj關(guān)于第k個(gè)離散屬性取值為ak的聯(lián)合離散屬性值權(quán)重。Wjkd的取值是由Count(aj,ak,cd)、Count(ak,cd)、njd以及nkd共同決定的,且在訓(xùn)練數(shù)據(jù)集固定情況下,其取值確定后不會(huì)再改變。若njd=nkd,Count(ak,cd)=Count(aj,cd),Count(aj,ak,cd)=Count(ak,aj,cd),則Wjkd=Wkjd。Wjkd越大表示類cd中第j個(gè)離散屬性的取值aj和第k個(gè)離散屬性的取值ak所在樣本屬于此類別的支持度越大。

為了進(jìn)一步說明離散屬性值與類之間、離散屬性值之間的相關(guān)程度,本文使用基于相關(guān)互信息的方法來對(duì)其相關(guān)性進(jìn)行衡量。將單個(gè)離散屬性值的權(quán)重由離散屬性值與類之間以及離散屬性值之間相關(guān)性的乘積得到,具體計(jì)算步驟如下。

步驟1 離散屬性值與類標(biāo)簽c的相關(guān)性、離散屬性值aj和ak的相關(guān)性使用相關(guān)互信息進(jìn)行度量,分別由式(4)和式(5)給出:式(4)中的I(aj,c)是離散屬性值aj與類標(biāo)簽c之間的相關(guān)互信息,P(aj,cd)是離散屬性值aj與類屬性值cd的聯(lián)合概率,P(aj)和P(cd)分別為離散屬性值aj和類屬性值cd的先驗(yàn)概率。式(5)中的I(aj,ak)是離散屬性值aj和ak之間的相關(guān)互信息,P(aj,ak)是離散屬性值aj和ak的聯(lián)合概率,P(aj)和P(ak)分別為離散屬性值aj和ak的先驗(yàn)概率。

步驟2 使用式(6)和式(7)分別對(duì)I(aj,c)和I(aj,ak)進(jìn)行歸一化。

其中,nD是離散屬性的數(shù)量,R(aj,c)和R(aj,ak)分別是歸一化之后的離散屬性值與類之間、離散屬性值之間的相關(guān)互信息,可以將其用于計(jì)算單個(gè)離散屬性值的權(quán)重。

步驟3 單個(gè)離散屬性值權(quán)重由式(8)定義:

其中,Wj,aj為離散屬性值aj的權(quán)重,它用來量化離散屬性值aj對(duì)樣本分類的貢獻(xiàn)程度,且在訓(xùn)練數(shù)據(jù)集固定情況下,其取值確定后不會(huì)再改變。

1.2.2 聯(lián)合離散屬性加權(quán)

樣本中的每一個(gè)屬性對(duì)樣本的重要程度是不同的,但是在文獻(xiàn)[36]的樸素貝葉斯判定準(zhǔn)則中是將每個(gè)屬性對(duì)樣本分類的貢獻(xiàn)程度都默認(rèn)為1,這在現(xiàn)實(shí)應(yīng)用中是不可行的。因此,本文采用基于條件互信息的離散屬性加權(quán)方法為每個(gè)離散屬性分配不同的權(quán)重,以進(jìn)一步提高分類器的性能。離散屬性Aj與Ak的條件互信息由式(9)定義:其中,nD是離散屬性的數(shù)量,D為訓(xùn)練數(shù)據(jù)集中類別的數(shù)量,I(Aj,Ak|c)是在已知類標(biāo)簽c的情況下觀察Ak的取值帶來關(guān)于Aj的信息量,P(aj,ak,cd)為離散屬性值aj和ak與類屬性值cd的聯(lián)合概率,P(aj,ak|cd)為離散屬性值aj和ak關(guān)于類cd的聯(lián)合條件概率,P(aj|cd)和P(ak|cd)分別為離散屬性值aj和ak關(guān)于類cd的條件概率。

由離散屬性Aj與Ak的條件互信息獲取聯(lián)合離散屬性權(quán)重由式(10)定義:

其中,Wjk為樣本第j個(gè)與第k個(gè)離散屬性的聯(lián)合離散屬性權(quán)重,且在訓(xùn)練數(shù)據(jù)集固定情況下,其取值確定后不會(huì)再改變。

1.2.3 類屬性值加權(quán)

分類器是給定一個(gè)輸入(測(cè)試樣本),判斷此輸入所屬的類別信息。而在分類器訓(xùn)練過程中由于訓(xùn)練數(shù)據(jù)集中每個(gè)類別之間的樣本數(shù)量存在差異,則訓(xùn)練出來的分類器算法對(duì)測(cè)試樣本的類別預(yù)測(cè)結(jié)果更傾向于訓(xùn)練樣本數(shù)量比較多的類。由于訓(xùn)練數(shù)據(jù)集中可能存在某一類中的樣本數(shù)量很少,而某一類中的樣本數(shù)量較多的情況,這些不平衡的數(shù)據(jù)集會(huì)導(dǎo)致測(cè)試樣本的條件概率和后驗(yàn)概率的計(jì)算結(jié)果受到極大的影響[37],從而影響分類器的性能。針對(duì)上述問題,本文使用類屬性值權(quán)重來降低類中樣本稀疏性對(duì)分類器性能造成的負(fù)面影響。其定義如式(11)所示:

其中,Wd為類cd的權(quán)重,在訓(xùn)練數(shù)據(jù)集固定情況下,其取值確定后不會(huì)再改變。N為訓(xùn)練數(shù)據(jù)集中樣本的數(shù)量,D為訓(xùn)練數(shù)據(jù)集中類別的數(shù)量,Nd為訓(xùn)練數(shù)據(jù)集的類cd中的樣本數(shù)量。

結(jié)合上述加權(quán)方法并假設(shè)離散屬性向量為xiD=(a1,a2,…,anD),則基于離散屬性加權(quán)的條件概率計(jì)算由式(12)定義:

式(13)中,P(aj|cd)是離散屬性值aj關(guān)于類cd的條件概率,|Daj,cd|是類cd中離散屬性值為aj的樣本數(shù)量,njd是類cd中第j個(gè)屬性的取值數(shù)量,Nd為訓(xùn)練數(shù)據(jù)集的類cd中的樣本數(shù)量。式(14)中,P(ak|aj,cd)是離散屬性值ak關(guān)于離散屬性值aj和類cd的聯(lián)合條件概率,|Daj,ak,cd|是訓(xùn)練數(shù)據(jù)集的類cd中第j個(gè)屬性與第k個(gè)屬性分別取值為aj與ak的樣本數(shù)量,nkd為訓(xùn)練數(shù)據(jù)集的類cd中第k個(gè)屬性的取值數(shù)量。

1.3 連續(xù)屬性正交變換

基于連續(xù)屬性正交變換的樸素貝葉斯算法利用正交變換的方法,結(jié)合樸素貝葉斯的屬性條件獨(dú)立性假設(shè)將屬性之間的線性關(guān)系進(jìn)行了消除,并且削弱了樸素貝葉斯分類器的屬性條件獨(dú)立性假設(shè)所帶來的影響。因?yàn)樵谀承?shù)據(jù)集中樣本會(huì)存在既有離散屬性又有連續(xù)屬性的情況,本文為了保留離散和連續(xù)屬性的內(nèi)在信息,對(duì)樣本中的離散屬性與連續(xù)屬性的條件概率進(jìn)行區(qū)分計(jì)算。因此,本文對(duì)樣本中的連續(xù)屬性使用正交變換的方法,來去除連續(xù)屬性之間的線性關(guān)系。針對(duì)連續(xù)屬性的正交變換、概率密度函數(shù)的計(jì)算步驟如下。

步驟1 設(shè)有樣本集為XS={x1S,x2S,…,xNS},每一個(gè)樣本中的連續(xù)屬性由xiS=(anD+1,anD+2,…,an)確定,訓(xùn)練數(shù)據(jù)集中每個(gè)連續(xù)屬性在類cd中的樣本均值μj,d使用式(15)計(jì)算:

其中,Nd為訓(xùn)練數(shù)據(jù)集的類cd中樣本的數(shù)量,aij為第i個(gè)樣本的第j個(gè)連續(xù)屬性的值,且nD

步驟2 由步驟1 得到的每個(gè)類中連續(xù)屬性的樣本均值向量,通過式(16)求協(xié)方差矩陣。

步驟3 計(jì)算步驟2得到的類cd中連續(xù)屬性的協(xié)方差矩陣Md的特征值與特征向量。在Md的特征值存在重根的情況下,通常是先將特征向量施密特正交化,然后單位化,即可獲得相似對(duì)角化所需的可逆正交矩陣P;如果沒有出現(xiàn)重根的情況,就只需對(duì)特征向量進(jìn)行單位變換,然后獲得可逆正交矩陣P,并使得PTMd P=Λ。

步驟4 令yiS=PT(xiS-μd),i=1,2,…,Nd,并計(jì)算類cd中對(duì)連續(xù)屬性樣本xiS正交變換后的y樣本集{y1S,y2S,…,yNdS}中的樣本均值向量和方差向量

步驟5 假設(shè)正交變換后的連續(xù)屬性的概率密度函數(shù)服從正態(tài)分布,即,其中y?j表示樣本yiS的第j個(gè)屬性,和分別是類cd中的樣本正交變換之后在第j個(gè)屬性上的樣本均值和方差,則其概率密度函數(shù)由式(17)計(jì)算:

由于正交變換之后的連續(xù)屬性消除了線性關(guān)系,滿足連續(xù)屬性之間相互獨(dú)立的假設(shè),則連續(xù)屬性的概率密度函數(shù)由式(18)計(jì)算:

1.4 多類屬性加權(quán)與正交變換的融合

將上述基于離散和連續(xù)屬性的條件概率計(jì)算方式進(jìn)行融合,得到本文所改進(jìn)的樸素貝葉斯算法由式(1)表示,詳細(xì)的訓(xùn)練和分類過程分別使用算法1 和算法2描述。

算法1 MAWOTFNB-Training

輸入:訓(xùn)練數(shù)據(jù)集。

(1)計(jì)算離散屬性值aj和ak在類cd中共現(xiàn)的樣本數(shù)量Count(aj,ak,cd)和離散屬性值ak在類cd中出現(xiàn)的樣本數(shù)量Count(ak,cd),統(tǒng)計(jì)類cd中第j個(gè)屬性和第k個(gè)屬性的取值數(shù)量njd和nkd,其中1 ≤j≤nD,1 ≤k≤nD。

(2)由式(3)計(jì)算聯(lián)合離散屬性值權(quán)重Wjkd。

(3)由式(4)和式(5)計(jì)算各離散屬性值的I(aj,c) 和I(aj,ak)。

(4)由式(6)和式(7)對(duì)各離散屬性值的I(aj,c)和I(aj,ak)進(jìn)行歸一化得到R(aj,c)和R(aj,ak)。

(5)由式(8)計(jì)算各單個(gè)離散屬性值權(quán)重Wj,aj。

(6)由式(9)計(jì)算各離散屬性的I(Aj,Ak|c)。

(7)由式(10)計(jì)算聯(lián)合離散屬性權(quán)重Wjk。

(8)將Wjkd、Wj,aj、Wjk組成集合W={Wjkd,Wj,aj,Wjk}。

(9)由式(11)計(jì)算類cd的權(quán)重Wd。

(10)將權(quán)重Wd代入式(2)計(jì)算先驗(yàn)概率

(11)計(jì)算訓(xùn)練數(shù)據(jù)集類cd中連續(xù)屬性的樣本均值向量μd及正交矩陣P。

(12)對(duì)訓(xùn)練數(shù)據(jù)集類cd中每一個(gè)樣本的連續(xù)屬性進(jìn)行正交變換得到y(tǒng)={y1S,y2S,…,yNdS}。

算法2 MAWOTFNB-Classification

輸入:W、P?(cd)、μd、P、y、單個(gè)待分類樣本xi。

輸出:待分類樣本xi的類別預(yù)測(cè)結(jié)果

(1)取出待分類樣本xi的連續(xù)屬性向量xiS,利用式y(tǒng)iS=PT(xiS-μd)對(duì)xiS進(jìn)行正交變換,并將yiS放到y(tǒng)樣本集中。

(2)計(jì)算y樣本集的樣本均值向量μ′d與方差向量σ′d。

(3)由式(18)計(jì)算關(guān)于類cd的連續(xù)屬性正交變換之后的概率密度函數(shù)

(4)將權(quán)重集合W以及待分類樣本xi的離散屬性向量xiD代入式(12)計(jì)算離散屬性條件概率

(5)將待分類樣本xi的連續(xù)屬性正交變換結(jié)果yiS從y樣本集中移除。

(7)預(yù)測(cè)待分類樣本xi的類別

2 實(shí)驗(yàn)與對(duì)比

2.1 缺失屬性預(yù)處理

在現(xiàn)實(shí)生活中的數(shù)據(jù)采集過程中會(huì)遇到許多未知的問題,這樣會(huì)導(dǎo)致采集到的數(shù)據(jù)存在一定的錯(cuò)誤,包括數(shù)據(jù)缺失、噪聲數(shù)據(jù)等。數(shù)據(jù)缺失的類型有很多種,比如缺失數(shù)量的差異、缺失變量的差異等。為了便于數(shù)據(jù)的預(yù)處理,現(xiàn)在一般是從缺失值數(shù)量和結(jié)構(gòu)上進(jìn)行區(qū)分,根據(jù)包含缺失值變量的個(gè)數(shù),可分別將其分為單個(gè)變量和多個(gè)變量的缺失[38],如表1 所示。單個(gè)變量缺失表示要分析的數(shù)據(jù)集樣本中只有一個(gè)缺失屬性值,而多個(gè)變量的缺失表示要分析的數(shù)據(jù)集樣本中存在兩個(gè)或兩個(gè)以上的屬性有缺失值[38]。表1 中的xi表示第i個(gè)樣本,A1、A2、A3分別表示樣本中第1、第2、第3 個(gè)屬性,“1”表示含有屬性值,“0”表示缺失屬性值。

表1 單變量缺失與多變量缺失的表示Table 1 Univariate deletion and multivariable deletion

數(shù)據(jù)預(yù)處理的方法有很多,主要包含將含有缺失屬性值的樣本進(jìn)行刪除、對(duì)樣本中缺失的屬性值進(jìn)行補(bǔ)充、將錯(cuò)誤數(shù)據(jù)或未知數(shù)據(jù)擱置這三種方法來處理存在問題的數(shù)據(jù)[38]。若訓(xùn)練數(shù)據(jù)集中某個(gè)樣本的某個(gè)或多個(gè)屬性存在缺失值就直接刪除的話,很有可能會(huì)丟失重要的分類信息。如果對(duì)這些缺失數(shù)據(jù)進(jìn)行擱置,會(huì)對(duì)分類器的類別預(yù)測(cè)準(zhǔn)確率造成很大的負(fù)面影響[38]。本文使用的數(shù)據(jù)集包括9 個(gè)“UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)集”和1 個(gè)“Poor Students(實(shí)測(cè))”的貧困生數(shù)據(jù)集。其中,Poor Students(實(shí)測(cè))數(shù)據(jù)集來源于我校校園一卡通的整理數(shù)據(jù)。對(duì)數(shù)據(jù)集中的缺失數(shù)據(jù)均采用統(tǒng)計(jì)學(xué)的眾數(shù)原理[39]進(jìn)行插值,即對(duì)類中的某個(gè)樣本的某個(gè)屬性缺失值使用在該類中其他所有樣本在該屬性上出現(xiàn)次數(shù)最多的屬性值進(jìn)行補(bǔ)充。

2.2 實(shí)驗(yàn)方法與數(shù)據(jù)

為了驗(yàn)證本文所提出的多類屬性加權(quán)與正交變換融合的樸素貝葉斯(MAWOTFNB)算法的有效性和適用性,本文使用9 個(gè)“UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)集”和1 個(gè)“Poor Students(實(shí)測(cè))”的貧困生數(shù)據(jù)集,利用“分層k折交叉驗(yàn)證”的驗(yàn)證方式[40]對(duì)NB、OTNB、FTAWNB、NB-LR、HNB-LR、A2WNB、MAWNB以及MAWOTFNB算法進(jìn)行對(duì)比。其中NB 為基礎(chǔ)分類算法;OTNB 代表了使用屬性變換方法改進(jìn)的算法;FTAWNB 代表了使用微調(diào)和屬性加權(quán)方法改進(jìn)的算法;NB-LR 和HNBLR 代表了使用結(jié)構(gòu)擴(kuò)展方法改進(jìn)的算法;A2WNB 和MAWNB代表了使用雙階段屬性加權(quán)方法改進(jìn)的算法。

本文所使用的“分層k折交叉驗(yàn)證”的驗(yàn)證步驟如下。

步驟1 隨機(jī)使用不同的劃分折重復(fù)pk次,且pk=k,每次將數(shù)據(jù)集劃分為k個(gè)大小相似且類間樣本數(shù)量比例保持劃分前的互斥子集。

步驟2 依次將每次劃分的k-1 個(gè)子集的并集作為訓(xùn)練集,剩余的子集作為測(cè)試集對(duì)算法進(jìn)行驗(yàn)證。

步驟3 記錄每次劃分中的平均分類準(zhǔn)確率。

步驟4 獲取pk次劃分中平均準(zhǔn)確率最高的一次,將此次分折作為“分層k折交叉驗(yàn)證”中k的取值。

上述步驟3 中的“準(zhǔn)確率”表示類別預(yù)測(cè)正確的樣本數(shù)占測(cè)試樣本總數(shù)的比例?!胺謱觡折交叉驗(yàn)證”原理如圖2所示。

圖2 分層k 折交叉驗(yàn)證原理圖Fig.2 Schematic diagram of layered k-fold crossed verification

本文所使用數(shù)據(jù)集的具體描述如表2所示。

2.3 性能評(píng)價(jià)指標(biāo)

為了準(zhǔn)確評(píng)估本文改進(jìn)的樸素貝葉斯算法在分類任務(wù)中的表現(xiàn),本文選擇由“分層k折交叉驗(yàn)證”所得到的準(zhǔn)確率和加權(quán)平均F1 值,即Fwa作為算法的性能評(píng)價(jià)指標(biāo),其計(jì)算公式分別由式(19)和式(20)表示。

其中,accuracy是各算法的分類準(zhǔn)確率,m是測(cè)試樣本的總數(shù),pk是“分層k折交叉驗(yàn)證”中第k折驗(yàn)證重復(fù)的次數(shù),m1k,m2k,…,mpkk是每次k折驗(yàn)證時(shí)類別預(yù)測(cè)正確的測(cè)試樣本數(shù)量。

其中,L是測(cè)試樣本集的類別預(yù)測(cè)結(jié)果中的類別個(gè)數(shù),counti為第i個(gè)類的樣本數(shù)量,F(xiàn)i是將樣本類別進(jìn)行正負(fù)化之后,第i個(gè)類為正類,其他類為負(fù)類時(shí)的F1值,由式(21)定義:

其中,Precisioni和Recalli分別為測(cè)試樣本被分到第i個(gè)類的查準(zhǔn)率和召回率,Precisioni和Recalli由式(22)和式(23)表示:

式(22)中的TPi是正確分類到第i個(gè)類的樣本數(shù)量,F(xiàn)Pi是把其他類的樣本分到第i個(gè)類的樣本數(shù)量。式(23)中的FNi是把第i類的樣本分到其他類的樣本數(shù)量。

2.4 算法時(shí)間復(fù)雜度分析

本文算法與其他分類算法的時(shí)間復(fù)雜度對(duì)比如表3所示。表3 列出了各算法的訓(xùn)練時(shí)間復(fù)雜度和預(yù)測(cè)時(shí)間復(fù)雜度,其中,m表示訓(xùn)練數(shù)據(jù)集中類別的個(gè)數(shù);n表示屬性的個(gè)數(shù);t表示訓(xùn)練數(shù)據(jù)集中的樣本個(gè)數(shù),v表示屬性值的平均數(shù)量;f表示FTAWNB 算法在第二階段訓(xùn)練的循環(huán)次數(shù);nD表示離散屬性的個(gè)數(shù);nS表示連續(xù)屬性的個(gè)數(shù)。由表3可知,由于本文的MAWOTFNB算法在訓(xùn)練階段首先將數(shù)據(jù)集中的離散屬性和連續(xù)屬性進(jìn)行了區(qū)分,然后利用貢獻(xiàn)度與相關(guān)互信息的方法量化了離散屬性和離散屬性值的權(quán)重,此過程的時(shí)間復(fù)雜度為;接著本文又利用正交變換方法對(duì)連續(xù)屬性進(jìn)行了正交變換,此過程的時(shí)間復(fù)雜度為O(tnS) ;因此,MAWOTFNB 算法的時(shí)間復(fù)雜度為各算法在各數(shù)據(jù)集上的訓(xùn)練時(shí)間如表4所示,訓(xùn)練時(shí)間對(duì)比圖如圖3所示,表4中的加粗字體為算法在當(dāng)前數(shù)據(jù)集上訓(xùn)練時(shí),耗時(shí)最多的算法訓(xùn)練所用的時(shí)間。

表3 各算法時(shí)間復(fù)雜度Table 3 Time complexity of each algorithm

表4 各算法在各數(shù)據(jù)集上的訓(xùn)練時(shí)間Table 4 Training time of each algorithm on each dataset單位:s

圖3 各算法在各數(shù)據(jù)集上的訓(xùn)練時(shí)間對(duì)比Fig.3 Comparison of training time of each algorithm on each dataset

由表4 和圖3 可知,NB-LR、HNB-LR、A2WNB 和MAWNB 算法在Adult 和Mushroom 數(shù)據(jù)集上的訓(xùn)練時(shí)間存在激增,而本文的MAWOTFNB 算法僅在Adult 數(shù)據(jù)集上的訓(xùn)練時(shí)間微有增加。由表2 可知,Adult 和Mushroom數(shù)據(jù)集相較于表中其他數(shù)據(jù)集中的樣本數(shù)和屬性數(shù)較多,特別是Adult 數(shù)據(jù)集中的樣本數(shù)量達(dá)到了48 842個(gè),屬性個(gè)數(shù)達(dá)到了14個(gè)。因此,NB-LR、HNB-LR、A2WNB 和MAWNB 算法易受訓(xùn)練數(shù)據(jù)集中的樣本個(gè)數(shù)和屬性個(gè)數(shù)的影響,而本文的MAWOTFNB算法僅在訓(xùn)練數(shù)據(jù)集中的樣本個(gè)數(shù)較多時(shí),訓(xùn)練所耗時(shí)間才稍有增加。MAWOTFNB 算法在各數(shù)據(jù)集上的平均訓(xùn)練時(shí)間,比NB算法僅高0.015 s,比OTNB算法減少了0.016 s,和FTAWNB算法相等,比NB-LR算法減少了0.512 s,比HNB-LR減少了0.485 s,比A2WNB算法減少了0.109 s,比MAWNB算法減少了0.133 s。

2.5 實(shí)驗(yàn)結(jié)果與分析

本文在9 個(gè)“UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)集”和1 個(gè)“Poor Students(實(shí)測(cè))”的貧困生數(shù)據(jù)集上對(duì)比了NB、OTNB、FTAWNB、NB-LR、HNB-LR、A2WNB、MAWNB 和MAWOTFNB算法的性能評(píng)價(jià)指標(biāo)。表5列出了本文改進(jìn)的樸素貝葉斯算法與其他比較對(duì)象在每個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率。表6 展示了實(shí)驗(yàn)獲得各算法在各數(shù)據(jù)集上的Fwa值。表5和表6中加粗的數(shù)字為該數(shù)據(jù)集上獲得的最高分類準(zhǔn)確率和Fwa值,本文將每個(gè)算法在10個(gè)數(shù)據(jù)集上的平均分類準(zhǔn)確率和平均Fwa 值匯總在了表格底部。

表5 各算法在各數(shù)據(jù)集上的分類準(zhǔn)確率Table 5 Classification accuracy of each algorithm on each dataset單位:%

表6 各算法在各數(shù)據(jù)集上的Fwa 值Table 6 Fwa values of each algorithm on each dataset單位:%

為了分析各分類算法在各數(shù)據(jù)集中的分類效果,使用簇狀柱形圖對(duì)比各算法的分類準(zhǔn)確率、Fwa 值,分別如圖4、圖5所示。分析結(jié)論如下:

圖4 各算法在各數(shù)據(jù)集上的分類準(zhǔn)確率對(duì)比Fig.4 Comparison of classification accuracy of each algorithm on each dataset

圖5 各算法在各數(shù)據(jù)集上的加權(quán)平均F1對(duì)比Fig.5 Comparison of weighted average F1 values of each algorithm on each dataset

(1)OTNB算法忽略了離散屬性取值先后順序的不確定性,直接對(duì)其進(jìn)行連續(xù)化操作,導(dǎo)致離散屬性原有信息丟失。從表5 和表6 中可知,此算法的平均分類準(zhǔn)確率和平均Fwa 值都是最低的,在實(shí)驗(yàn)數(shù)據(jù)集上的平均分類準(zhǔn)確率僅有73.79%,平均Fwa 值僅有74.31%,其可視化對(duì)比圖見圖4和圖5的最后一簇。

(2)相比于OTNB,F(xiàn)TAWNB 算法結(jié)合了微調(diào)和屬性加權(quán)的方法。由表5 和表6 可知,其平均分類準(zhǔn)確率達(dá)到了82.81%,比OTNB 算法高了9.02 個(gè)百分點(diǎn);平均Fwa 值達(dá)到了80.58%,比OTNB 算法高了6.27 個(gè)百分點(diǎn),其可視化對(duì)比圖見圖4和圖5的最后一簇。

(3)相比于FTAWNB,NB-LR 和HNB-LR 算法使用結(jié)構(gòu)擴(kuò)展的方法來構(gòu)建混合分類算法。由表5和表6可知,NB-LR 算法的平均分類準(zhǔn)確率達(dá)到了83.29%,比FTAWNB 算法高了0.48 個(gè)百分點(diǎn),平均Fwa 值達(dá)到了82.78%,比FTAWNB 算法高了2.2 個(gè)百分點(diǎn);HNB-LR算法的平均分類準(zhǔn)確率達(dá)到了82.92%,比FTAWNB 算法高了0.11 個(gè)百分點(diǎn),平均Fwa 值達(dá)到了82.88%,比FTAWNB 算法高了2.3 個(gè)百分點(diǎn),其可視化對(duì)比圖見圖4和圖5的最后一簇。

(4)相比于NB-LR 和HNB-LR,A2WNB 算法利用雙階段的屬性加權(quán)改進(jìn)算法來獲得增強(qiáng)屬性。由表5和表6可知,其平均分類準(zhǔn)確率達(dá)到了85.34%,比NB-LR算法高了2.05個(gè)百分點(diǎn),比HNB-LR算法高了2.42個(gè)百分點(diǎn);平均Fwa值達(dá)到了85.14%,比NB-LR 算法高了2.36 個(gè)百分點(diǎn),比HNB-LR 算法高了2.26 個(gè)百分點(diǎn),其可視化對(duì)比圖見圖4和圖5的最后一簇。

(5)與A2WNB 類似,MAWNB 算法是使用雙階段屬性加權(quán)算法來構(gòu)建兩個(gè)標(biāo)簽視圖,從而改進(jìn)NB 算法。由表5和表6可知,其平均分類準(zhǔn)確率達(dá)到了85.56%,比A2WNB算法高了0.22個(gè)百分點(diǎn);平均Fwa值達(dá)到了85.82%,比A2WNB 算法高了0.68 個(gè)百分點(diǎn),其可視化對(duì)比圖見圖4和圖5的最后一簇。

(6)不同于前面所述的OTNB、FTAWNB、NB-LR、HNB-LR、A2WNB 以及MAWNB 算法,本文所提出的MAWOTFNB 算法在數(shù)據(jù)集上的平均分類準(zhǔn)確率達(dá)到了92.75%,在同等條件下,不僅比NB高11.93個(gè)百分點(diǎn),比OTNB高18.96個(gè)百分點(diǎn),還比目前最新的FTAWNB、NB-LR、HNB-LR、A2WNB 以及MAWNB 算法分別高9.94 個(gè)百分點(diǎn)、9.64 個(gè)百分點(diǎn)、9.83 個(gè)百分點(diǎn)、7.41 個(gè)百分點(diǎn)、7.19個(gè)百分點(diǎn),且其平均Fwa值達(dá)到了92.22%,同樣高于上述分類算法。這說明了本文算法將離散和連續(xù)屬性進(jìn)行區(qū)分處理,更加有利于對(duì)多維混合屬性數(shù)據(jù)集的分類任務(wù),其可視化對(duì)比圖見圖4和圖5的最后一簇。

為了進(jìn)一步闡述各分類算法在各數(shù)據(jù)集上的分類優(yōu)勢(shì),表7展示了各算法在各數(shù)據(jù)集上所獲得準(zhǔn)確率的WDL,其中W、D、L 分別為各算法分類準(zhǔn)確率兩兩比較中獲勝數(shù)據(jù)集的數(shù)量、持平數(shù)據(jù)集的數(shù)量和落后數(shù)據(jù)集的數(shù)量。圖6 為各算法WDL 值對(duì)比的三維柱形圖可視化。

表7 各算法的WDL值Table 7 WDL value of each algorithm

圖6 各算法的WDL值對(duì)比Fig.6 WDL value comparison of each algorithm

由表7 可知,本文的MAWOTFNB 算法在實(shí)驗(yàn)中相較于NB、OTNB、A2WNB、MAWNB算法的W值均為最高;相較于FTAWNB 算法在7 個(gè)數(shù)據(jù)集上獲勝,1 個(gè)數(shù)據(jù)集上持平;相較于NB-LR 算法在7 個(gè)數(shù)據(jù)集上獲勝;相較于HNB-LR 算法在8 個(gè)數(shù)據(jù)集上獲勝。其可視化對(duì)比圖如圖6所示。

2.6 權(quán)重參數(shù)的影響

為了描述各權(quán)重參數(shù)對(duì)MAWOTFNB 算法分類性能的影響,本節(jié)對(duì)MAWOTFNB 算法的四個(gè)重要參數(shù):類屬性值權(quán)重Wd,類特定的聯(lián)合離散屬性值權(quán)重Wjkd,單個(gè)離散屬性值權(quán)重Wj,aj以及聯(lián)合離散屬性權(quán)重Wjk展開研究。分別將這四個(gè)參數(shù)從MAWOTFNB 算法中刪除來觀察各部分權(quán)重在各數(shù)據(jù)集上對(duì)MAWOTFNB算法分類性能的影響。對(duì)應(yīng)算法描述如下:

去除類屬性值權(quán)重的MAWOTFNB算法,將該算法描述為A1;

去除類特定的聯(lián)合離散屬性值權(quán)重的MAWOTFNB算法,將該算法描述為A2;

去除單個(gè)離散屬性值權(quán)重的MAWOTFNB算法,將該算法描述為A3;

去除聯(lián)合離散屬性權(quán)重的MAWOTFNB算法,將該算法描述為A4;

將四個(gè)權(quán)重參數(shù)全部去除的MAWOTFNB算法,將該算法描述為A5。

表8列出了各參數(shù)對(duì)比算法在每個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率。表9 展示了實(shí)驗(yàn)獲得各參數(shù)對(duì)比算法在各數(shù)據(jù)集上的Fwa值。表8和表9中加粗的數(shù)字為該數(shù)據(jù)集上獲得的最高分類準(zhǔn)確率和Fwa值,本文將每個(gè)參數(shù)對(duì)比算法在10 個(gè)數(shù)據(jù)集上的平均分類準(zhǔn)確率和平均Fwa值匯總在了表格底部。

表8 各參數(shù)對(duì)比算法在各數(shù)據(jù)集上的分類準(zhǔn)確率Table 8 Classification accuracy of parameter comparison algorithms on each dataset 單位:%

表9 各參數(shù)對(duì)比算法在各數(shù)據(jù)集上的Fwa 值Table 9 Fwa values of parameter comparison algorithms on each dataset單位:%

為了分析各參數(shù)對(duì)比算法在各數(shù)據(jù)集中的分類效果,使用簇狀柱形圖可視化各參數(shù)對(duì)比算法的分類準(zhǔn)確率、Fwa值,分別如圖7、圖8所示。分析結(jié)論如下:

圖7 各參數(shù)對(duì)比算法在各數(shù)據(jù)集上的分類準(zhǔn)確率對(duì)比Fig.7 Comparison of classification accuracy of parameter comparison algorithms on each dataset

圖9 各參數(shù)對(duì)比算法的WDL值對(duì)比Fig.9 WDL value comparison of parameter comparison algorithms

(1)算法A1是將類屬性值權(quán)重去除的MAWOTFNB算法,該算法在訓(xùn)練時(shí)易受不平衡類的影響。由表8和表9 可知,其平均分類準(zhǔn)確率和平均Fwa值相對(duì)于MAWOTFNB 算法分別低了9.92 個(gè)百分點(diǎn)和9.79 個(gè)百分點(diǎn)。因此,在算法訓(xùn)練時(shí)考慮訓(xùn)練數(shù)據(jù)集中類的平衡性是必要的。

(2)算法A2 是將類特定的聯(lián)合離散屬性值權(quán)重去除的MAWOTFNB算法,該算法在訓(xùn)練時(shí)沒有對(duì)不同類中不同屬性值之間的相關(guān)性進(jìn)行衡量。由表8和表9可知,其平均分類準(zhǔn)確率和平均Fwa值相對(duì)于MAWOTFNB算法分別低了9.28 個(gè)百分點(diǎn)和10.25 個(gè)百分點(diǎn)。因此,在算法訓(xùn)練時(shí)衡量不同類中的不同屬性值之間的相關(guān)性可以大幅度提高算法的分類性能。

(3)算法A3 是將單個(gè)離散屬性值權(quán)重去除的MAWOTFNB算法,該算法在訓(xùn)練時(shí)忽略了單個(gè)離散屬性值對(duì)其所在樣本所屬類別的貢獻(xiàn)程度。由表8和表9可知,其平均分類準(zhǔn)確率和平均Fwa值相對(duì)于MAWOTFNB算法分別低了10.37 個(gè)百分點(diǎn)和9.66 個(gè)百分點(diǎn)。因此,在算法訓(xùn)練時(shí)考慮單個(gè)離散屬性值對(duì)其所在樣本所屬類別的貢獻(xiàn)程度可以有效地提高算法的分類性能。

(4)算法A4是將聯(lián)合離散屬性權(quán)重去除的MAWOTFNB算法,該算法在訓(xùn)練時(shí)將訓(xùn)練數(shù)據(jù)集中離散屬性之間的相關(guān)程度默認(rèn)為1。由表8 和表9 可知,其平均分類準(zhǔn)確率和平均Fwa值相對(duì)于MAWOTFNB 算法分別低了9.86 個(gè)百分點(diǎn)和10.71 個(gè)百分點(diǎn)。因此,準(zhǔn)確地衡量離散屬性之間的相關(guān)程度可以有效提高算法的分類性能。

(5)算法A5 是將所有權(quán)重去除的MAWOTFNB 算法,該算法在訓(xùn)練時(shí),針對(duì)離散屬相互獨(dú)立的假設(shè),而針對(duì)連續(xù)屬性則使用正交變換的方法來獲取待分類樣本的類條件概率。由表8 和表9 可知,其平均分類準(zhǔn)確率和平均Fwa值相對(duì)于MAWOTFNB算法分別低了8.17個(gè)百分點(diǎn)和7.77個(gè)百分點(diǎn)。因此,使用多類屬性加權(quán)和正交變換融合的方法來改進(jìn)NB 算法,可以有效提高其分類性能。

為了進(jìn)一步說明離散屬性和離散屬性值權(quán)重的重要性,本文對(duì)各參數(shù)對(duì)比算法在各數(shù)據(jù)集上的分類表現(xiàn)進(jìn)行了對(duì)比,表10 展示了各參數(shù)對(duì)比算法在各數(shù)據(jù)集上所獲得準(zhǔn)確率的WDL。

表10 各參數(shù)對(duì)比算法的WDL值Table 10 WDL value of parameter comparison algorithms

由表10 可知,本文的MAWOTFNB 算法與其他去除權(quán)重參數(shù)的MAWOTFNB 算法相比,其W 值均為最高;相較于算法A1、A2、A5均在9個(gè)數(shù)據(jù)集上獲勝,1個(gè)數(shù)據(jù)集上持平;相較于算法A3 和A4 在10 個(gè)數(shù)據(jù)集上均獲勝。這充分證明了本文使用多類屬性加權(quán)和正交變換方法改進(jìn)NB 算法的有效性。其可視化對(duì)比圖如

3 結(jié)束語

目前大多數(shù)削弱樸素貝葉斯算法的屬性條件獨(dú)立性假設(shè)的改進(jìn)方法中,針對(duì)多維混合屬性大多是將離散屬性連續(xù)化或者連續(xù)屬性離散化之后再進(jìn)行下一步的改進(jìn)。不同于已有的改進(jìn)方法,本文提出了一種多類屬性加權(quán)與正交變換融合的樸素貝葉斯改進(jìn)算法,該算法首先對(duì)類屬性值、離散屬性和離散屬性值進(jìn)行加權(quán),然后將加權(quán)后的離散屬性及離散屬性值加入到其條件概率計(jì)算公式中,最后融合基于連續(xù)屬性正交變換改進(jìn)的樸素貝葉斯算法,對(duì)后驗(yàn)概率進(jìn)行計(jì)算,減小了不平衡數(shù)據(jù)集以及屬性條件獨(dú)立性假設(shè)對(duì)分類精度造成的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明,該算法在處理多維混合屬性的分類任務(wù)時(shí)可保留離散屬性和連續(xù)屬性內(nèi)在信息,提高樸素貝葉斯算法的分類性能。此外,該算法在“Poor Students(實(shí)測(cè))”數(shù)據(jù)集上的分類性能明顯優(yōu)于另外7種分類算法,這可以為各高校的貧困生判定工作提供決策參考。

猜你喜歡
集上貝葉斯準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
復(fù)扇形指標(biāo)集上的分布混沌
貝葉斯公式及其應(yīng)用
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說話人識(shí)別方法
阜城县| 江川县| 衡水市| 同仁县| 吉木乃县| 天气| 蓝田县| 商水县| 苏尼特右旗| 遵义市| 于都县| 秀山| 吉安县| 普宁市| 库车县| 铜陵市| 沈丘县| 无为县| 神农架林区| 西昌市| 奇台县| 普定县| 古丈县| 德格县| 芦溪县| 柏乡县| 玛多县| 江油市| 宜阳县| 富阳市| 高邑县| 黄梅县| 南投县| 独山县| 潞城市| 湘乡市| 岳普湖县| 厦门市| 陆良县| 塔城市| 大荔县|