馮思捷 管建和
摘 要:樸素貝葉斯算法是數(shù)據(jù)挖掘領域最簡單的分類算法之一。為了讓樸素貝葉斯能夠靈活地處理連續(xù)型數(shù)據(jù),分類過程就需要對數(shù)據(jù)進行離散化處理。而使用模糊數(shù)學理論來解決離散化問題是一個不錯的選擇。因此本文考慮將這兩種方法結(jié)合,同時在去模糊化過程中引用了一種新型去模糊化方法(“內(nèi)心法”),從而生成一種新的模糊貝葉斯混合模型。并通過一個企業(yè)評價實例簡單地驗證了模糊貝葉斯算法在應對連續(xù)性數(shù)據(jù)時具有良好、可靠的分類效果。
關鍵詞:樸素貝葉斯;模糊數(shù)學;三角模糊數(shù);去模糊化
中圖分類號:TP391 文獻標識碼:A
Abstract:The Naive Bayes algorithm is a simple and lucid classification way in the field of data mining.When meeting with continuous data,the algorithm usually needs to make discretization in its classifying process.Luckily,the application of relevant theories about fuzzy mathematics is a good choice to solve the discretization problem.Thus,this study decides to make a combination of the Naive Bayesian algorithm and fuzzy mathematics to generate a hybrid model and,in the meanwhile,introduces a new defuzzification method (named as The incenter of area) in the classification process.Through an application case of enterprise evaluation,the fuzzy Bayesian hybrid algorithm has been proved to be effective and reliable in the process of classification for continuous data.
Keywords:Naive Bayes;fuzzy math;triangular fuzzy number;defuzzification
1 引言(Introduction)
在實際生活中,某些決策型問題的處理過程通常會伴隨著一定的復雜性。為了能夠更好地解決這類問題,系統(tǒng)可以利用某些數(shù)據(jù)挖掘領域中的分類方法來得到良好且高效的決策結(jié)果。其中,樸素貝葉斯(Naive Bayes,NB)算法正是用于分類樣本實例的一種簡單又有效的方法。然而當它處理連續(xù)型數(shù)據(jù)時,通常的做法是利用高斯分布和極大似然估計來得到樣本對應的后驗概率,其計算過程往往顯得較為煩瑣。而由扎德提出的模糊數(shù)學理論也可以解決“連續(xù)型數(shù)據(jù)離散化”的問題。本文特將模糊數(shù)學中的三角模糊數(shù)和NB算法融合在一起,并在去模糊化過程中引入了一種新型方法。通過將構(gòu)建的混合分類模型運用到企業(yè)評價應用中,體現(xiàn)了該模型能夠具有有效且良好的分類效果。
2 樸素貝葉斯算法(Fundamentals of Naive Bayes
algorithm)
樸素貝葉斯算法是最簡單的一種貝葉斯分類方法,它作為一種有監(jiān)督型學習方法來解決多屬性分類問題。與貝葉斯信念網(wǎng)絡相比,有研究指出樸素貝葉斯方法因其獨特的“各屬性間相互獨立”的條件性假設而簡化了整個計算過程、避免了計算帶來的復雜性[1]?;跅l件獨立性假設和已有的先驗知識,人們可以根據(jù)統(tǒng)計學中的貝葉斯定理學習到有用的概率信息,并最終通過計算獲得的最大后驗概率來獲得測試樣本的所屬類別。
盡管獨立性假設在現(xiàn)實生活中會顯得不切實際,但是NB算法依靠它可以在很多領域根據(jù)提供的訓練數(shù)據(jù)來預測出測試樣本的所屬類別,它通常應用于文本分類、決策預測、情感分析等分類問題中。有研究者對樸素貝葉斯在文本分類中的應用做出了相關研究,并通過相關實驗數(shù)據(jù)證實了NB算法針對小型實例數(shù)據(jù)樣本集有著高精確率[2]。
定義1:(樸素貝葉斯算法)
假設給出一個樣本數(shù)據(jù)集的類標號集合,還有一個描述樣本屬性的集合,假定用來描述樣本的各屬性值的每個事件之間相互獨立。那么根據(jù)貝葉斯公式,類別關于樣本X的后驗概率可以表示為
樸素貝葉斯分類器在決策時遵循了“最大后驗法則”(the Maximum A Posterior,MAP)[3]。因此樣本X的類別可以由此而得出(需要注意的是,由于是不依賴于的常量,因此在下列公式中省略它)
根據(jù)上面的公式可以看出,樣本X的類別實際上是根據(jù)最大后驗概率來得到的。需要注意的是,為了提升最終分類效果,如果在計算過程中當遇到的情況時,此時就需要引入“拉普拉斯標準化”(Laplace calibration)方法。也就是說,在計算的過程中對每個樣本元組計數(shù)都加上1——如果對z個計數(shù)加上1的話,就必須在用于計算概率的分母上對應地加上z。關于條件概率的拉普拉斯校準公式即為
其中,:在類別下,事件發(fā)生的樣本數(shù)量;n:在所有樣本實例中,類別的數(shù)量;z:平滑參數(shù),常將其設為事件發(fā)生的可能取值總數(shù)(屬性值的種類總數(shù));ε:是一個值大于零的常數(shù)變量,在計算中常使其取值為1。
3 關于模糊貝葉斯的改進型決策方法(An improved
decision-making model of fuzzy Naive Bayes)endprint
人類通常在使用語言來描述描述某個事件時會伴隨一些模糊現(xiàn)象。例如我們會用“很瘦”“比較瘦”“有點胖”或“很胖”等詞語來形容一個人的體型。其中“很”“比較”和“有點”都是具有模糊性或不明確界定的詞。那么模糊現(xiàn)象的發(fā)生也就意味著該事件存在著一定的不確定性和模糊性。
為了解決實際中遇到的模糊事件,人們嘗試通過構(gòu)建相關的數(shù)學模型來將不確定型變量轉(zhuǎn)換成精確型變量。在1965年,Zadeh提出了一種新的數(shù)學理論——模糊數(shù)學,這種理論可以用來描述一些由人類認知或主觀意識而產(chǎn)生的模糊事件。根據(jù)扎德提出的思想,他利用“隸屬度”的概念來表示事件屬于其對應模糊集合的程度,從而創(chuàng)建出模糊事件對應的模糊集合,并將該集合用一個特殊函數(shù)來表示[4]。其中,這個函數(shù)是由一組值域為[0,1]的隸屬度組合而成的。Zadeh在他的模糊數(shù)學理論中將這個特殊函數(shù)定義為模糊事件所在域?qū)碾`屬度函數(shù)。
定義2:(模糊集合)
上述映射關系說明了在論域U中,模糊集S可以由一個函數(shù)來表征,而U內(nèi)的每一個點都對應區(qū)間[0,1]內(nèi)的某一個實數(shù)。這個函數(shù)通常被稱作“隸屬度函數(shù)”。在這個函數(shù)中,每一個函數(shù)值被看作是的隸屬度值。因此一個模糊集S可以按照下列公式定義:
需要特別注意的是,的分號代表的并不是除法運算,它僅僅指出了在論域U內(nèi)點對應的隸屬度是。
在多數(shù)情況下,數(shù)據(jù)或者文本樣本有時因其具有主觀性和不確定性而不能精確的表達內(nèi)在信息。上面已經(jīng)提到,隸屬度是模糊數(shù)學中最基本的一個核心概念,可以通過創(chuàng)建一個適合的隸屬度函數(shù)來表達模糊的不確定性信息。經(jīng)研究者發(fā)現(xiàn),通常有兩種方法用來獲取隸屬度函數(shù):(1)利用概率統(tǒng)計學和模糊數(shù)學方面的相關理論,找到一個模糊概率統(tǒng)計模型來表述隸屬度函數(shù);(2)可以通過模糊概率分布函數(shù)來定義一個模糊隸屬度函數(shù),比如說梯形分布、三角形分布、高斯分布等。
模糊數(shù)是模糊數(shù)學中用來表述模糊性信息的一種定量方法,它可以基于相關理論和運算方法將不確定性變量轉(zhuǎn)換成精確型數(shù)值。模糊數(shù)中最常見的概念就是三角模糊數(shù)(Triangle Fuzzy Number,TFN)。三角模糊數(shù)是一種可以用來解釋模糊現(xiàn)象、表述模糊集合的簡單而高效的數(shù)學方法。它作為一種表征數(shù)據(jù)集中每個樣本屬性的隸屬度分布的數(shù)學模型,可以應用于多個領域用來反映出某個事件、人類語言描述或主觀思想中存在的不確定性及模糊性,例如,模糊控制、模糊識別等方面。近幾年有一些學者認為在一些決策系統(tǒng)或是評價系統(tǒng)中,三角模糊數(shù)可以用來表示評價權(quán)重,或是在分類問題中將其作為數(shù)學模型來用于解決決策分類問題。
實際上,三角模糊數(shù)可以看作是一個確定性和不確定性的集合體。假設一個女人測定的身高記錄為160cm;這個數(shù)值可能并不是她的精確身高數(shù)值,其真實身高可能僅僅接近于、而不完全等于160cm。那么在用一個三角模糊數(shù)表征身高值時,可以用(160-x,160,160+y)來表示,其中,x和y分別是160的左、右確界。下面介紹了三角模糊數(shù)的定義。
定義3:(三角模糊數(shù))
如果一個三角模糊數(shù),那么我們就可以從下列公式中獲得對應的隸屬度函數(shù):
根據(jù)公式(5),我們可以稱l、m和u分別是三角模糊數(shù)A的下界、中值和上界。由于中值m對應的隸屬度為1,所以它對應的值是一個確定值。而除m外的位于l和u之間的值對應的隸屬度值存在于區(qū)間[0,1]內(nèi)。
數(shù)據(jù)挖掘領域通常會把數(shù)據(jù)分為連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)。一般情況下有以下兩種形式可能會產(chǎn)生不確定性[5]:(1)訓練數(shù)據(jù)集的類標簽是由一個分布函數(shù)表示而成,這種情況可能會產(chǎn)生不確定性;(2)當連續(xù)型屬性值以區(qū)間的形式出現(xiàn)時也會產(chǎn)生不確定性。因此在分類過程中對連續(xù)型變量進行離散化處理就顯得很有必要。樸素貝葉斯算法處理的數(shù)據(jù)類型一般是離散型數(shù)據(jù)。因此當樸素貝葉斯處理的連續(xù)型數(shù)據(jù)時,就需要對其進行離散化。以往研究者們大多采用高斯分布來解決,但其計算過程一般較為煩瑣,且并不能完整地解釋一些由模糊現(xiàn)象產(chǎn)生的模糊性問題。因此,可以考慮將模糊數(shù)學相關理論與樸素貝葉斯算法融合在一起,可以使得生成的模糊貝葉斯混合分類器模型能夠靈活地應對多種類型的數(shù)據(jù)來有效地解決分類問題。很多研究者對模糊貝葉斯問題進行了相關研究。根據(jù)Hsien-Chang Wu的研究[6],在一些模糊環(huán)境下,貝葉斯可靠性評價系統(tǒng)為了簡化計算過程選擇將一個原始問題轉(zhuǎn)換成四個子問題。之后Vibhor Kant和Kamal K.Bharadwaj[3]提出了一種基于內(nèi)容的過濾方法的模糊樸素貝葉斯分類器用來解決基于相關內(nèi)容的相似性問題。Kayaalp等研究學者提出了一個改進的模糊貝葉斯混合分類器用來解基于數(shù)字型數(shù)據(jù)的決策分類問題[7]。
模糊貝葉斯算法是一種融合了模糊數(shù)學相關理論和樸素貝葉斯算法的混合模型,它在處理一些分類型問題時,可以靈活、有效地應對連續(xù)型數(shù)據(jù)。本文選擇將三角模糊數(shù)和樸素貝葉斯算法進行混合,使得到的模糊貝葉斯混合分類器作為分類算法模型。這樣不僅使分類過程應對不同類型的數(shù)據(jù)時的處理能力不再單一,并且還能有效地提升該過濾器的篩選能力和過濾效率。圖2展示了模糊貝葉斯混合模型的搭建思路。下面介紹其操作過程:
第一步:數(shù)據(jù)準備工作。
在進入分類操作前,數(shù)據(jù)標準化過程是最主要的數(shù)據(jù)準備工作。因為不同的屬性通常會存在不同的維度或具有不同的計量單位,因此有可能會影響到多屬性分類問題的最終數(shù)據(jù)分析結(jié)果。那么為了消除這種潛在的不良影響,在數(shù)據(jù)準備前期對數(shù)據(jù)進行標準化處理就顯得很有必要,該操作可以用來解決不同屬性間的兼容性問題,從而使得他們可以存在于同一個維度解決問題。
通常情況下大多使用“最小—最大標準化方法”來對原始數(shù)據(jù)進行標準化處理。即,假設x是實數(shù)區(qū)間域內(nèi)的某一個值,則經(jīng)過標準化后可以得到:
在完成數(shù)據(jù)標準化操作后,就可以開始準備創(chuàng)建分類模型了。假設存在一個類別集合和一個樣本數(shù)據(jù)集,其中:每一組樣本都對應著某一個類別;而所有的都可以由一個屬性集合表示。如果代表了第i個樣本的屬性集,那么根據(jù)定義4中的標準化方法,標準化后即被轉(zhuǎn)換為且該新值可以參與到接下來的分類過程中。endprint
第二步:模糊化處理。
基于模糊集理論,這一步驟主要將屬性值(經(jīng)過標準化處理的)轉(zhuǎn)換成它們所對應的隸屬度函數(shù)。前面的內(nèi)容已經(jīng)提到,模糊數(shù)學的關鍵就是計算出數(shù)值在所處實數(shù)域內(nèi)的隸屬度值。因此,人們可以根據(jù)原始數(shù)據(jù)的相關特征來描述不確定型模糊信息。上面已經(jīng)介紹過,通常有兩種方法可以獲得隸屬度函數(shù):(1)第一種方法就是利用模糊概率統(tǒng)計方法來解決問題;(2)第二種方法就是根據(jù)某一分布函數(shù)而專門定義一個特殊函數(shù)來描述模糊事件。有很多人嘗試通過定義一個分布函數(shù)來得到隸屬度函數(shù)(例如:高斯分布)或者是將不確定型變量轉(zhuǎn)換成某一個特定的模糊數(shù)(例如:梯形模糊數(shù)、三角模糊數(shù)等)。那么根據(jù)人們自身定義、主觀思維或者是樣本數(shù)據(jù)本身的特征,就可以把語言型或者數(shù)字型數(shù)據(jù)轉(zhuǎn)換成一個三角模糊數(shù)()。
第三步:去模糊化處理。
在一些理論型或者現(xiàn)實生活中的控制系統(tǒng)中,去模糊化處理是重要的一步操作,它可以將模糊數(shù)或模糊變量轉(zhuǎn)換成精確的輸出數(shù)據(jù)。在此之前,研究者們大多使用三角形重心或最大均值來進行去模糊化操作。但是,有研究者利用了三角形的內(nèi)心提出了一種新型去模糊化方法——“內(nèi)心法”(the Incentre Of Area,IOA)(注:三角形的內(nèi)心就是三角形角平分線交點)[8]。那么根據(jù)定義(內(nèi)心法定義),就可以將三角模糊數(shù)()去模糊化處理后得到。關于“內(nèi)心法”的定義如下:
定義5:(“內(nèi)心法”去模糊化方法)
第五步:最大后驗概率。
依據(jù)提供的訓練數(shù)據(jù)樣本的相關數(shù)據(jù)值,由公式(9)、公式(10)求得的先驗概率和條件概率。然后參考最大后驗概率法則,見式(2),就可以對測試樣本數(shù)據(jù)計算、分析出測試用例的最終分類結(jié)果。
4 關于企業(yè)評價的簡單實例應用(An example of the
application on commercial enterprise evaluation)
通常專家會設定出專門的評價標準來對不同的企業(yè)進行評估,以此將企業(yè)劃分為不同的類型。然而,不管所用的評價打分是數(shù)值型還是文本型,專家給出的評價值有時仍可能會存在著模糊性。在語言評價系統(tǒng)中可以通過將語言評價值轉(zhuǎn)換成模糊數(shù)這個方法來進行分類[9]。根據(jù)這種思路,本文將構(gòu)建的模糊貝葉斯混合模型應用到企業(yè)評價中,具體過程如下。
4.1 數(shù)據(jù)準備
在對企業(yè)評估的過程中,專家會根據(jù)相關專業(yè)知識或者自己的經(jīng)驗而專門設定評分規(guī)則來對企業(yè)進行打分,并最終將企業(yè)劃分成三種類別(分別為Ⅰ、Ⅱ和Ⅲ)。在給出的企業(yè)評價樣本集中,一共考察了四種屬性,如表1所示。
根據(jù)表1提供的數(shù)據(jù),可以將每一個屬性的值域區(qū)間依次劃分成三個子區(qū)間。為了使專家能夠?qū)γ總€企業(yè)的屬性指標做出評價,特設定兩個人工語言評價集:(1)有關“財產(chǎn)效益”和“償債能力”的語言評價集合:A={L,M,H}(其中,L、M和H分別代表低、中等和高);(2)有關“資產(chǎn)營運”和“發(fā)展能力”的語言評價集:B={W,M,S}(其中,W、M和S分別代表弱、中等和強)。這樣,評價集A、B中的每一個元素(即人工語言評價值)就可以分別被用來定義經(jīng)過劃分得到的屬性值域子區(qū)間。圖3展示了四個屬性的值域劃分結(jié)果,以及每個子區(qū)間對應的評價值。
企業(yè)評價原始數(shù)據(jù)集描述了每個訓練樣本的相關數(shù)據(jù)及對應的專家評價值,詳見表2,即每一個屬性由兩個子屬性表示:獲得的專家打分(表2中的“d”列)和相對應的語言評價(表2中的“v”)列。
4.2 數(shù)據(jù)標準化
準備好分類所需的訓練樣本數(shù)據(jù)后,接下來還需要對這些數(shù)據(jù)進行預處理操作。雖然根據(jù)一些已設定好的打分規(guī)則,就可以獲得專家對企業(yè)樣本的打分及其對應的語言評價值。但考慮到不同專家存在不同的主觀思想來進行打分,且不同的屬性存在有不同的取值區(qū)間(表1),因此需要根據(jù)公式(6)來將表2中的原始數(shù)據(jù)進行標準化處理。經(jīng)過標準化處理后所得的數(shù)據(jù)詳見表3。
4.3 使用模糊化得到的評價值分隔經(jīng)過標準化處理的數(shù)據(jù)
在完成數(shù)據(jù)標準化操作后,可以考慮將專家打分對應的語言評價值(即語言評價集合A和集合B中的每個元素)轉(zhuǎn)換成不同的三角模糊數(shù)。假定存在一個語言變量集合,該集合由一組有序的語言值組合而成,其中是集合I中的某一個語言評價值。那么可以將變量i_m定義成一個三角模糊數(shù)。有關評價集合元素L、M、H、W和S的三角模糊數(shù)如圖4所示。
接下來參考“內(nèi)心法”,對人工語言評價值(L、M、H、W和S)對應的三角模糊數(shù)()進行去模糊化處理,這樣就可以求出其對應的精確值(也就是下面計算過程中的、 和)。具體的計算過程如下:
4.4 用例測試
將表3里每個標準化后得到的取值按照表4中的對應區(qū)間找到對應的新屬性值,如表5所示,就可以實現(xiàn)“將連續(xù)型數(shù)據(jù)離散化”的目的。
要想獲得T1的所屬類別,需要計算出條件概率和最大后驗概率。
為了保證分類時的計算精準率,在計算條件概率的過程中需要對其進行拉普拉斯校準(公式(10))。
(2)T2用例:
在經(jīng)過標準化處理后,T2可以被定義為。
綜上所述可知,可以看出樣例T2屬于類別Ⅱ。
在上述應用模糊貝葉斯混合模型的簡單實例中,通過提供一些企業(yè)樣本用例可以測試出該混合算法模型的分類性能。可以看出:結(jié)合了“內(nèi)心法”創(chuàng)建的混合模型實現(xiàn)了將連續(xù)型數(shù)據(jù)實例離散化的目標,使樸素貝葉斯分類算法在處理連續(xù)型數(shù)據(jù)時的計算過程變得更為靈活,從而使得該模型能夠有效地獲得實例的所屬類別。
5 結(jié)論(Conclusion)
在數(shù)據(jù)挖掘領域,研究者們常常會將模糊數(shù)學和分類算法進行結(jié)合,在分類過程中按照“模糊化—去模糊化”的模式來對數(shù)據(jù)進行處理。在以往的研究中,人們大多采用COA方法和MOM方法進行去模糊化操作。為了改善模糊貝葉斯混合算法,本文嘗試將一種新型去模糊化方法(“內(nèi)心法”)融入樸素貝葉斯算法中得到一個混合分類模型。在企業(yè)評價簡單實例應用中,可以看到模糊貝葉斯混合分類模型不僅實現(xiàn)了對連續(xù)型數(shù)據(jù)離散化的目標,而且使得數(shù)據(jù)能夠更好地參與樸素貝葉斯算法的分類過程中。然而本次試驗中用于測試的實驗用例數(shù)量并不十分充足,因此在今后的研究學習中需要繼續(xù)增加測試樣本數(shù)量,以進一步提升該模糊貝葉斯混合分類器的分類性能。endprint
參考文獻(References)
[1] Jiang L,et al.Structure extended multinomial Naive Bayes[J].Information Sciences,2016,329(C):346-356.
[2] Lei L I,Huang Y G,Liu Z W.Chinese text classification for small sample set[J].Journal of China Universities of Posts & Telecommunications,2011,18:83-89.
[3] Kant V,Bharadwaj K K.Integrating Collaborative and Reclusive Methods for Effective Recommendations:A Fuzzy Bayesian Approach[J].International Journal of Intelligent Systems,2013,28(11):1099-1123.
[4] Zadeh L A.Fuzzy sets[C].Fuzzy Sets,F(xiàn)uzzy Logic & Fuzzy Systems.World Scientific Publishing Co.Inc.1996:394-432.
[5] Bounhas M,et al.Naive possibilistic classifiers for imprecise or uncertain numerical data[J].Fuzzy Sets & Systems,2014,239(1):137-156.
[6] Wu H C.Bayesian system reliability assessment under fuzzy environments[J]. Reliability Engineering & System Safety,2004,83(3):277-286.
[7] Kayaalp N.An Aggregated Fuzzy Naive Bayes Data Classifier[M].Elsevier Science Publishers B.V.2015.
[8] Rouhparvar H,Panahi A.A new definition for defuzzification of generalized fuzzy numbers and its application[M].Elsevier Science Publishers B.V.2015.
[9] Wang J,et al.A synthetic method for knowledge management performance evaluation based on triangular fuzzy number and group support systems[J].Applied Soft Computing,2016,
39(C):11-20.
作者簡介:
馮思捷(1992-),女,碩士,技術(shù)員.研究領域:數(shù)據(jù)挖掘.
管建和(1962-),男,博士,教授.研究領域:數(shù)據(jù)挖掘.endprint