寇子玥
【摘要】本文介紹了貝葉斯公式的產(chǎn)生和發(fā)展過程,同時證明了貝葉斯公式。貝葉斯公式可以在一定信息下,對特定條件下事件發(fā)生的概率進(jìn)行推理分析。同時以實例介紹了貝葉斯公式在醫(yī)療診斷、訴訟以及工廠產(chǎn)品檢查中的應(yīng)用。
【關(guān)鍵詞】貝葉斯公式 ?條件概率 ?全概率公式
【中圖分類號】O21 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2018)40-0119-02
一、貝葉斯公式的發(fā)展
貝葉斯 (Thomas Bayes),誕生于英國,數(shù)學(xué)家。他在數(shù)學(xué)領(lǐng)域鉆研概率論。曾任神甫一職,對上帝的信仰推動他在該領(lǐng)域不斷深入,而發(fā)明了概率統(tǒng)計學(xué)原理。令人悲傷的是,他的夙愿至死未果。在之后一段時間內(nèi),貝葉斯學(xué)派的觀點受到其他學(xué)派人士的批評、質(zhì)疑而使人們對貝葉斯公式的研究并不深入。
經(jīng)過一代代人們的研究,不斷創(chuàng)新、完善,為著名的貝葉斯學(xué)派的發(fā)展夯實根基。在概率論中,他勇于創(chuàng)新將歸納推理法應(yīng)用至概率論基礎(chǔ)理論,隨后創(chuàng)立了貝葉斯統(tǒng)計理論,他1758年發(fā)表的《機(jī)會的學(xué)說概論》,影響深遠(yuǎn)。
經(jīng)過漫長的時間,不斷的驗證以及信息技術(shù)的飛速發(fā)展,在20世紀(jì)60年代,貝葉斯統(tǒng)計學(xué)脫穎而出,成為國際統(tǒng)計科研究重點。
二、貝葉斯公式及其證明
條件概率和全概率公式是證明貝葉斯公式的基礎(chǔ)。我們將會先介紹條件概率以及全概率公式,進(jìn)而對貝葉斯公式進(jìn)行證明。
條件概率,即指在B事件發(fā)生的條件下, A事件發(fā)生的概率,可以以P(A|B)的形式來表示其中A,B有相交部分。事件A發(fā)生的概率就是P(A∩B)除以P(B),即:P(A|B)=■。根據(jù)條件概率的定義,可以知道P(A∩B)=P(B) ? ? P(A|B)和P(A∩B)=P(A)P(B|A)。所以有P(A|B)P(B)=P(B|A) ? P(A),即:P(A|B)=■,為全概率公式。
對條件概率式子變形可得P(A|B)=■P(A)。該公式中,我們稱P(A)為“先驗概率”,先驗概率即指在事件B發(fā)生以前,對事件A概率的重新評估。P(B|A)/P(B)稱為“可能性函數(shù)”,可將之作為調(diào)整因子,使得到的預(yù)估概率更加準(zhǔn)確。
關(guān)于全概率公式,先假設(shè)有一樣本空間S,是兩個事件A與A'的和,有一事件B分別與A與A'都相交,在這種情況下,事件B將由兩部分構(gòu)成,一部分與A相交,表示為B∩A,另一部分與A'相交,表示為B∩A'。全概率公式的含義為:若A和A'構(gòu)成樣本空間的一個劃分(A和A'相互獨立,即A'=A),則B發(fā)生的概率,便是A和A'事件發(fā)生的概率分別與B對這兩個事件的條件概率相乘再作和,即:
P(B)=P(B∩A)+P(B∩A')
已經(jīng)得到P(B∩A)=P(A)P(B|A),所以有P(B)=P(A)P(B|A)+P(A')P(B|A')。此為全概率公式,將之帶入條件概率公式,便有:
P(A|B)=■
即得到貝葉斯公式。
三、樸素貝葉斯算法
樸素貝葉斯分類是一種很單純的分類方法,即對于所有的待分類項,選擇在已知條件下,最可能出現(xiàn)的分類,即選擇概率最大的分類。大致階段可分為:準(zhǔn)備工作階段、分類器訓(xùn)練階段、應(yīng)用階段。
定義如下:
1.設(shè)x={a1,a2,…,am}為一個待分類項并且對于一個a,便有一個x的作為對應(yīng)的特征屬性。
2.有類別集合C={y1,y2,…,yn}。
3.計算P(y1|x),P(y2|x),…P(yn|x)。
4.如果,P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)}則x∈yk。
然后算第三步中的每一個條件概率:
1.以一個已知的分類的所有待分類項集合作為訓(xùn)練樣本集。
2.則每個特征屬性的條件概率可以表示為:
P(a1|y1),P(a2|y1),…,P(am|y1);P(a1|y2),P(a2|y2),…,P(am|y2)…;P(a1|yn),P(a2|yn),…,P(am|yn)
3.假設(shè)特征屬性是條件獨立的,由貝葉斯定理得P(yi|x)=P(x|yi)P(yi)/P(x)。分母對于所有類別為常數(shù),我們只要將分子最大化。并且由于各個特征屬性之間是條件獨立的,所以有:
P(x|yi)P(yi)=P(a1|yi)P(a2|yi)…P(am|yi)P(yi)。
四、貝葉斯公式的應(yīng)用
1.貝葉斯公式在醫(yī)療診斷上的應(yīng)用
假設(shè)全球的肝癌的發(fā)病率為0.0004,可以通過甲胎蛋白法進(jìn)行檢查。但是,用該方法得到的結(jié)果不一定正確。其中得肝癌的人的化驗結(jié)果99%呈陽性,即患有肝癌;且未得患肝癌的人其化驗結(jié)果99.9%呈陰性,即未得患肝癌。若有一人的甲胎蛋白檢查呈陽性,則他患肝癌的概率是多少?
解:設(shè)B為“被檢查的人得肝癌”,A為“甲胎蛋白檢查為陽性”,由題意可得:
P(B)=0.0004,P(B)=0.9996,P(A|B)=0.999,P(A|B)=0.001
我們現(xiàn)在要求出P(B|A),由貝葉斯公式得
P(B|A)=■=0.284
由此可見,檢查結(jié)果為陽性的人中,只有28.4%的可能真正患有肝癌。為何如此呢?
假設(shè)有10000人作為本次檢驗的樣本,根據(jù)肝癌發(fā)病率,則只有4人真正患肝癌。在該檢測中,呈陽性的人包括真正的肝癌的人以及誤診者,誤診者計算為P(A|B)P(B)=0.9996×0.001,而使結(jié)果為28.4%精度較小。
這樣的檢測精度并不理想,但可以通過復(fù)查來進(jìn)一步提高檢驗的精度,或者先用某種輔助方法初查,排除部分未患肝癌的人,再將余下的人用該方法檢查,用貝葉斯公式可以計算:
假設(shè)此時的P(B)=0.284,那么有:
P(B|A)=0.284×0.99/(0.284×0.99+0.716×0.001)=0.997
可以看出檢測的準(zhǔn)確率大大的提高了,這也是醫(yī)院中為什么會需要進(jìn)行復(fù)查才能大概率確定相應(yīng)的患病!
2.貝葉斯公式在檢查產(chǎn)品中的應(yīng)用
在一服裝廠中生產(chǎn)的服裝劣質(zhì)品率為0.1%,需要用特殊的機(jī)器檢驗,但該機(jī)器判斷錯誤的可能性為5%,試問服裝廠是否可使用該儀器?
解:其中用A指代“本身為劣質(zhì)品”,事件B表示“經(jīng)檢驗判為劣質(zhì)品的產(chǎn)品”,由題意知:
P(A)=0.001,P(A)=0.999,P(B|A)=0.95,P(B|A)=0.05
由貝葉斯公式可計算“被檢驗出的劣質(zhì)品中實際劣質(zhì)品率”為:
P(A|B)=■≈0.0187
同理,經(jīng)過機(jī)器檢驗,判斷為正品的衣服中實際正品率為:
P(A|B)≈0.99995
由此可知,若這種產(chǎn)品的制造價格較高,管理者就最好不要購買使用這種儀器。由以上計算可以看出,這種儀器所判定的劣質(zhì)品中,其實有98%以上為正品,所以,若用這種儀器,精準(zhǔn)度不高而且會有過高的消耗。但同時,該儀器對于正品的判定情況較好,可以通過對被認(rèn)定為劣質(zhì)品的產(chǎn)品中重復(fù)檢驗而提高該機(jī)器的精準(zhǔn)度,減少對產(chǎn)品的消耗。
五、結(jié)論
通過本次的研究,我對貝葉斯公式的起源、發(fā)展、原理、證明、應(yīng)用等方面有了更加深刻的認(rèn)識。
隨著經(jīng)濟(jì)、醫(yī)學(xué)等各個領(lǐng)域飛速發(fā)展的今天,作為新時代的公民更應(yīng)該以理性、具有邏輯的思維看待我們所面臨的問題,通過對貝葉斯公式的應(yīng)用,我們可以對現(xiàn)有的信息進(jìn)行考察分析,而綜合判斷事件的因果概率,提高結(jié)論的準(zhǔn)確性、科學(xué)性、可信性,除此之外在機(jī)器學(xué)習(xí)中貝葉斯也極為重要,有助于我們對未來經(jīng)濟(jì)、醫(yī)學(xué)、自然科學(xué)更加合理的認(rèn)知。
參考文獻(xiàn):
[1]王梓坤.概率論基礎(chǔ)及其應(yīng)用[M].科學(xué)出版社,1976.