丁云聰
【摘要】貝葉斯網(wǎng)絡(luò)分類器是對大量數(shù)據(jù)之間結(jié)構(gòu)進(jìn)行分析分類的方法。本文首先對貝葉斯網(wǎng)絡(luò)原理和理論基礎(chǔ)進(jìn)行了介紹,接著研究了幾種基本的貝葉斯網(wǎng)絡(luò)的分類器,最后簡單介紹了它的相關(guān)應(yīng)用發(fā)展。
【關(guān)鍵詞】貝葉斯網(wǎng)絡(luò) 分類器 基礎(chǔ)理論研究
一、引言
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)就是一種可以對數(shù)據(jù)進(jìn)行整理的方法?;谪惾~斯網(wǎng)絡(luò)的分類器是機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘的重要分支,所以對于此類分類器的研究在現(xiàn)今的科研領(lǐng)域有著極為重要的價值。
二、貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是一種可以把變量各個屬性的聯(lián)合概率密度用簡單的框架之間的關(guān)系表現(xiàn)出來的概率圖模型。貝葉斯網(wǎng)絡(luò)包含一個圖模型(DAG)以及條件概率分布表。有向無環(huán)圖將變量之間的屬性之間的關(guān)系用連接線表示,而屬性之間的從屬關(guān)系的條件概率則可以用概率分布表進(jìn)行相關(guān)的解釋。
(1)貝葉斯網(wǎng)絡(luò)理論基礎(chǔ)。想要了解貝葉斯網(wǎng)絡(luò),需要先掌握如何計算概率論中聯(lián)合概率密度的方法。貝葉斯網(wǎng)絡(luò)就是從這個問題進(jìn)行展開最后總結(jié)出的模型。所以概率論是研究貝葉斯網(wǎng)絡(luò)的基礎(chǔ)。下面簡單介紹幾個在貝葉斯網(wǎng)絡(luò)中常用到的概率論相關(guān)公式:
公式 1 條件概率:首先假設(shè)Ω是一個基本事件集合,A和B是Ω中的兩個基本事件,并且P(A)>0,則條件概率為:
P(B┃A)=■ (2-1)
公式 2 乘法公式:假設(shè)基本事件A和基本事件B是基本事件集合Ω中的元素,并且P(A)>0,則乘法公式如下式:
P(AB)=P(A)P(B┃A)或P(AB)=P(B)P(A┃B) (2-2)
將上述公式推廣到一般情況,對于n個隨機(jī)變量A1,A2,A3,…,An,并且有:P(A1)≥P(A1A2)≥P(A1,A2…An)>0,則可以得到如下公式,又稱鏈?zhǔn)揭?guī)則:
P(A1,A2…An)=P(A1)P(A2┃A1)…P(An┃A1A2…An-1) (2-3)
公式 3 全概率公式:假設(shè)對于n個基本事件A1,A2,A3,…,An屬于集合E,并且有Uni=1Ai=Ω,Ω是一個樣本空間,并且當(dāng)i和j不相同時,事件Ai和事件Aj互不相關(guān),則有:
P(B)=Uni=1P(B┃Ai) (2-4)
上式就是全概率公式的一種表達(dá)形式。利用此公式可以將事件B的概率分散到各個獨(dú)立樣本空間上的概率情況。
公式 4 貝葉斯公式:設(shè)A1,A2,A3,…,An∈R,并且有P(Ai)>0,i=1,2,…,n對于任意符合P(B)>0,并且B∈R的事件B,則有:
P(Ai┃B)=■ (2-5)
上式就是貝葉斯公式,利用這個公式,就可以在已經(jīng)有先驗概率的條件下,進(jìn)行相應(yīng)的計算,最后得到事件A和B之間的聯(lián)系。
(2)貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)是一種圖形模型,可以用它來對隨機(jī)變量之間的依存關(guān)系進(jìn)行一定的概括,該模型由結(jié)構(gòu)以及參數(shù)兩部分組成,其中參數(shù)即條件概率分布,它們分別用來定性定量概括隨機(jī)變量之間的從屬概率關(guān)系。所以貝葉斯網(wǎng)絡(luò)是以概率論為基礎(chǔ),借助圖形理論來描述變量之間關(guān)系的網(wǎng)絡(luò)模型,利用此模型可以解決聯(lián)合概率相關(guān)問題。
三、貝葉斯網(wǎng)絡(luò)分類器
根據(jù)變量之間關(guān)系的不同,幾種常見的貝葉斯網(wǎng)絡(luò)分類器有:樸素貝葉斯網(wǎng)絡(luò)分類器、TAN樸素貝葉斯網(wǎng)絡(luò)分類器等。
(1)樸素貝葉斯網(wǎng)絡(luò)分類器。這種分類器是目前最為常見的分類器之一,它在各個領(lǐng)域中都很好的發(fā)揮著作用。此類分類器中進(jìn)行了樸素貝葉斯假設(shè),也就是在對類值確定時,這些屬性的條件概率分布相互獨(dú)立。這類分類器有如圖下的星形結(jié)構(gòu):
(2)樹擴(kuò)展樸素貝葉斯網(wǎng)絡(luò)分類器。樹擴(kuò)展樸素貝葉斯分類器模型是在樸素貝葉斯分類器模型基礎(chǔ)上對所關(guān)心的屬性加上了一定的限制因素,可以看成是對后者的擴(kuò)展模型。這類模型增加了各個子節(jié)點(diǎn)之間的相互依存關(guān)系,結(jié)構(gòu)如下圖:
(3)分類器性能評價標(biāo)準(zhǔn)及評價方法。當(dāng)今的科研領(lǐng)域最常用的評價標(biāo)準(zhǔn)主要利用交叉驗證(Cross Validation)的方法,此類方法主要有旁置法(holdout)、N折交叉驗證法,以及留一法(leave-one-out)。
四、貝葉斯網(wǎng)絡(luò)分類器的應(yīng)用
貝葉斯網(wǎng)絡(luò)模型時在數(shù)據(jù)處理、機(jī)器學(xué)習(xí)中的一個較好的應(yīng)用,現(xiàn)今已經(jīng)較為廣泛的用于大數(shù)據(jù)處理。
五、結(jié)論
貝葉斯網(wǎng)絡(luò)分類器是基于貝葉斯網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行分類的圖形概率模型,當(dāng)今大數(shù)據(jù)的時代得到了廣泛的應(yīng)用,能夠通過不同數(shù)據(jù)關(guān)系對不同分類器進(jìn)行很好的使用,可以對數(shù)據(jù)處理過程進(jìn)行較好的簡化。
參考文獻(xiàn):
[1]王中鋒,王志海.基于條件對數(shù)似然函數(shù)導(dǎo)數(shù)的貝葉斯網(wǎng)絡(luò)分類器優(yōu)化算法[J].計算機(jī)學(xué)報,2012.
[2]李艷穎,楊有龍,汪春峰等.基于粗糙集屬性約簡與進(jìn)化算法的貝葉斯網(wǎng)絡(luò)分類器[J].鄭州大學(xué)學(xué)報(理學(xué)版),2014.
[3]石洪波,柳亞琴,李愛軍等.貝葉斯分類器的判別式參數(shù)學(xué)習(xí)[J].計算機(jī)應(yīng)用,2011.
[4]傅順開,Sein Minn,李志強(qiáng)等.多維貝葉斯網(wǎng)絡(luò)分類器結(jié)構(gòu)學(xué)習(xí)算法[J].計算機(jī)應(yīng)用,2014.
[5]杜瑞杰,王雙成,高瑞等.基于高斯密度的一階貝葉斯衍生分類器[J].計算機(jī)應(yīng)用研究,2015,(11).