山東省濟寧育才中學 王華宇
在當今這個信息技術(shù)高速發(fā)展的時代,人們對信息處理的方式越來越多樣化、智能化,像人工檢索這種耗時耗力的方法已經(jīng)逐漸跟不上時代發(fā)展的潮流了,而迅速快捷、對人力要求甚微的人工智能正在一步步發(fā)展起來,這對于我們在大量數(shù)據(jù)中尋找、篩選對自己有用的信息是有極大的幫助的。而作為人工智能的一個分支,樸素貝葉斯算法在統(tǒng)計學中具有與決策樹、神經(jīng)網(wǎng)絡相媲美的應用前景,因此,如果做好樸素貝葉斯算法的應用,將其應用于信息篩選,必將產(chǎn)生極大的作用。
樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的分類方法。即假設給定對象的各個屬性之間相互獨立,因此在計算概率時可利用公式:
之后通過計算給定對象的先驗概率,利用貝葉斯定理:
計算其后驗概率,即該對象屬于某一類的概率,再比較各后驗概率的大小,最后確定給定對象屬于的類別。
樸素貝葉斯算法的具體描述(這里應用了極大似然估計):
假設給定一數(shù)據(jù)集X ={x1,x2,x3…xn},每個x 含有m 個屬性,記為c1,c2,c3,…,cm。每個x 一一對應一個Y ={y1,y2,y3,…,yn}通過給出數(shù)據(jù)可以計算先驗概率P(Y);此時給出一個已知各屬性,未知其映射yi的量Xi(c1i,c2i,c3i,…,cmi),分別計算y1,y2,y3,…,yn后驗概率P(Y|Xi),比較各后驗概率大小,取最大值P(Y|Xi)max,則其對應的yi即為Xi所對應的Y。
由于未知對象屬性具有的不確定性,因此可能出現(xiàn)未知對象某一屬性在原始對象中沒有對應屬性的情況,在該種情況下,在計算先驗概率時會出現(xiàn)概率等于零的情況,這樣就會對最終結(jié)果產(chǎn)生一定的影響,使結(jié)論與實際情況產(chǎn)生偏差。為了避免這種誤差的出現(xiàn),我們在極大似然估計方法的基礎(chǔ)上可以采用貝葉斯估計,即:
J =1,2,3…,n;l =1,2,…,Sj;k =1,2,…,K。
式中,xi(j)是第i 個樣本的第J 個屬性;ajl是第j 個屬性可能取的第l 個值;I 為指示函數(shù)。
同樣,先驗概率的貝葉斯估計是:
式中,λ ≥0,相當于在對未知對象相應屬性求取頻數(shù)時賦予一個正數(shù)λ >0,這就是貝葉斯估計。當λ=0 時,就是極大似然估計。對于λ,我們常取1,這時稱為拉普拉斯平滑。這樣我們就避免了上文所提到的可能出現(xiàn)的誤差。
通過以上對樸素貝葉斯算法原理及具體過程的分析可以了解到:樸素貝葉斯算法對于已知部分數(shù)據(jù)并可求出數(shù)據(jù)各屬性對應映射Y 的先驗概率的情況下,求一未知對象Xi相應的對應映射Yi的問題具有得天獨厚的優(yōu)勢:1.由于前提條件中進行了條件獨立性假設,因此可以將計算變得簡單;2.雖然進行了較強的條件獨立性假設,但對于結(jié)果準確性的影響不大。
因此,如果可以將樸素貝葉斯算法與人工智能相結(jié)合,便可以在數(shù)據(jù)篩選中起到重要作用,比如日常生活中我們經(jīng)常遇到的垃圾郵件,就可以利用樸素貝葉斯算法,具體方法如下:
首先隨機選取等量的正常郵件和垃圾郵件,選取合適的多個屬性,并利用統(tǒng)計學方法分別對兩類郵件的各個屬性的數(shù)據(jù)進行統(tǒng)計、分析,計算出“正常郵件”和“垃圾郵件”的先驗概率,然后對于給定一已知各屬性數(shù)據(jù)、未知類型的郵件,根據(jù)其各屬性數(shù)據(jù)分別求出“正常郵件”和“垃圾郵件”的后驗概率,比較其大小,取最大值,將其對應的郵件類型標記給上述給定郵件,若為垃圾郵件,則被系統(tǒng)自動刪除;若為正常郵件,則由系統(tǒng)保留。當然,以上的計算過程、取最大值過程以及判斷標記處理過程都是利用人工智能來完成的,這就實現(xiàn)了對樸素貝葉斯算法的應用,于是就可以準確、簡便、高效地篩選出垃圾郵件并將其刪除,從而提高了信息利用的效率。
本文主要講述了樸素貝葉斯算法的基本原理、具體描述、應用的思考以及實例的分析操作。通過本文我們了解到樸素貝葉斯算法的應用在數(shù)據(jù)篩選和分類過程中的應用前景,但是樸素貝葉斯算法同時存在著一些問題,例如先驗概率可能為零的情況,這里我們可以利用貝葉斯估計來代替極大似然估計,從而解決這一問題。我相信,在對樸素貝葉斯算法的不斷發(fā)展和完善的過程中,一定可以發(fā)揮其更大的應用潛力,為大數(shù)據(jù)時代的人類做出更大的貢獻。