趙明睿
(蘭州資源環(huán)境職業(yè)技術(shù)大學(xué) 基礎(chǔ)教學(xué)部,甘肅 蘭州)
關(guān)于條件概率計(jì)算問題是日常生活中常常會(huì)遇到的現(xiàn)實(shí)問題,要想解決這些問題并不容易,而貝葉斯公式正是為這些復(fù)雜的條件概率問題應(yīng)用而生的,主要思路是復(fù)雜問題簡單化。在使用貝葉斯公式計(jì)算復(fù)雜事件的概率時(shí)最重要的一步是是要找到樣本空間的合適劃分(完備事件組),用全概公式求出復(fù)雜事件的概率,再結(jié)合條件概率定義式和乘法公式得到所求復(fù)雜條件概率。本文主要給出全概率公式及貝葉斯公式在疾病診斷、產(chǎn)品檢驗(yàn)和信號(hào)估計(jì)這三個(gè)方面的廣泛應(yīng)用,體現(xiàn)了貝葉斯公式在實(shí)際應(yīng)用中的重要性。
本文主要是借助貝葉斯公式對于修正先驗(yàn)概率的應(yīng)用。對于貝葉斯公式的介紹,很多教材講得都比較少,并且所舉的例子也是比較簡單的,本文主要是對教材的講解給予擴(kuò)充和加深,同時(shí)體現(xiàn)了貝葉斯公式還有一個(gè)很好的用處就是對那些看似正確的結(jié)論可以進(jìn)行理論檢驗(yàn)。
定義1[1-2](樣本空間的劃分)若事件組B1,B2,…,Bn,滿足以下兩個(gè)條件:
(1) B1,B2,…,Bn,兩兩不相容;
則稱B1,B2,…,Bn為一個(gè)完備事件組。
定理1 (全概率公式)設(shè)B1,B2,…,Bn是樣本空間的一個(gè)完備事件組,A 是一個(gè)事件,當(dāng)P(A)>0,P(Bj)>0,j=1,2,…,n,則
證明:因?yàn)?/p>
所以,上述等式兩邊求概率可得:
再根據(jù)乘法公式,就有:
全概率公式體現(xiàn)了“各個(gè)擊破,分而食之”的解題策略,是在已知原因發(fā)生的概率,去求結(jié)果發(fā)生的概率,即是“知因求果”的過程。
定理2(貝葉斯公式)設(shè)B1,B2,…,Bn是樣本空間的一個(gè)完備事件組,A 是一個(gè)事件,當(dāng)P(A)>0,P(Bj)>0,j=1,2,…,n,則
此公式成為貝葉斯公式。
證明:根據(jù)全概公式得:
由條件概率的定義式得:
再由乘法公式得:
使用貝葉斯公式的基本思路是首先根據(jù)加法公式把復(fù)雜事件的概率化為多個(gè)簡單事件的概率的和,再根據(jù)乘法公式得出在已知復(fù)雜事件作為結(jié)果已經(jīng)發(fā)生的情況下,其中某個(gè)原因發(fā)生的條件概率,也就是所謂的“后驗(yàn)概率”,即是“知果索因”的過程。
利用貝葉斯公式,導(dǎo)致結(jié)果發(fā)生的諸多原因發(fā)生的概率可以根據(jù)已經(jīng)發(fā)生的結(jié)果來求得,即“知果索因”的過程。在應(yīng)用過程中,需要先分析導(dǎo)致結(jié)果發(fā)生的諸多原因,這些原因就自然而然是完備事件組,同時(shí),找到在這些原因下結(jié)果發(fā)生的概率,最后把這些概率加起來,就會(huì)得到該結(jié)果發(fā)生的概率,然后利用條件概率的計(jì)算公式,得到在已知結(jié)果發(fā)生的條件下,所要探求的原因發(fā)生的條件概率。接下來,我們研究貝葉斯公式分別在傳染病診斷,產(chǎn)品檢驗(yàn)和信息篩查這些領(lǐng)域中的應(yīng)用過程。在應(yīng)用時(shí),首先需要找到一個(gè)恰當(dāng)?shù)耐陚涫录M,然后再利用貝葉斯公式求得所需條件概率。
眾所周知,醫(yī)生對疾病的有效控制,首先是確定疾病。而在對患者進(jìn)行疾病診斷的過程是很復(fù)雜的,這時(shí)可以運(yùn)用貝葉斯公式能夠簡化化驗(yàn)過程,能夠達(dá)到較快地治愈患者的作用[3]。具體過程,樣本空間是疾病的致病細(xì)菌全體,假設(shè)疾病是肝癌和美國艾滋病,具體使用貝葉斯公式進(jìn)行診斷的過程如下例。
例1 診斷肝癌可以選擇用甲胎蛋白法,被檢驗(yàn)者患肝癌記為A 事件,判斷被檢驗(yàn)者患肝癌記為B 事件。已知P(B|A)=0.95,P(B|A)=0.90,P(A)=0.000 4。如果已有一位患者被診斷為患肝癌,由于診斷會(huì)存在誤差,要求計(jì)算此人真的患肝癌的概率P(A|B)。
解:由題知:
根據(jù)貝葉斯公式可得:
題中已知的患肝癌的概率0.4% 是由以往的數(shù)據(jù)分析得到的, 叫做先驗(yàn)概率,而再檢查結(jié)果為陽性的條件下真正患肝癌病的概率0.323 叫做后驗(yàn)概率,是對先驗(yàn)概率的校正。
例2 已知某種艾滋病的血液測試呈陽性的概率是95%,由于檢測會(huì)有誤差,健康的人檢測為陽性的概率是1%。已知美國約有1/1000 的人患有這種艾滋病。為了預(yù)防這種疾病的快速傳播,一些專家們提出建議新婚夫婦將這項(xiàng)檢測加入婚檢中,但是該方案提出后,出現(xiàn)了很多質(zhì)疑,用貝葉斯公式來解釋原因。
解:記A ={測試的結(jié)果呈現(xiàn)陽性反應(yīng)}, B ={某人被確診成了艾滋病患者},則由題知:
根據(jù)全概公式得:
再根據(jù)貝葉斯公式可得:
在實(shí)際的產(chǎn)品生產(chǎn)過程中,一批產(chǎn)品被生產(chǎn)出來之后,檢驗(yàn)人員會(huì)在出廠前進(jìn)行一次抽樣檢查,檢查合格后才會(huì)被允許發(fā)貨,于此同時(shí)賣家收到貨之后,還會(huì)再進(jìn)行簡單的驗(yàn)貨,因此想要保證賣家的驗(yàn)貨合格,廠家就得對檢驗(yàn)結(jié)果進(jìn)行分析,作一定的概率計(jì)算,這里就可以使用到貝葉斯公式。
例3 某公司有兩種生產(chǎn)方案生產(chǎn)同一型號(hào)的產(chǎn)品,已知方案1 生產(chǎn)的占總的40%,方案2 生產(chǎn)的占總的60%,方案1 和方案2 的次品率分別為0.3%和0.1%,從產(chǎn)品中隨機(jī)抽取1 件,測試為次品,問此次品是哪種方案生產(chǎn)出來的可能性大?
解:設(shè)B={取到次品},A1={取到方案1 生產(chǎn)的產(chǎn)品},A2={取到方案2 生產(chǎn)的產(chǎn)品},則由題可知:
根據(jù)貝葉斯公式可得:
因此,方案1 可能性大。
例4 某工廠存在四個(gè)車間生產(chǎn)相同的一批完全相同的零件,已知這四個(gè)車間的產(chǎn)量依次占總產(chǎn)量的15%,20%,30%和35%,同時(shí)已知四個(gè)車間生產(chǎn)的次品率分別為0.04、0.03、0.02 和0.01.該工廠規(guī)定,若一旦發(fā)現(xiàn)了次品就一定會(huì)追究相關(guān)生產(chǎn)車間的經(jīng)濟(jì)責(zé)任?,F(xiàn)在從該工廠生產(chǎn)的這批產(chǎn)品中任取一件,結(jié)果是次品,但這件次品是由哪個(gè)車間生產(chǎn)的代碼已經(jīng)脫落不見了,那么,此工廠方應(yīng)該怎樣處理這件次品會(huì)比較合理?
解:設(shè)B={取到的產(chǎn)品是次品},A1={取到的產(chǎn)品是由第i 個(gè)車間生產(chǎn)的},i=1,2,3,4
則由題知:
根據(jù)貝葉斯公式,可得:
通過以上計(jì)算過程,得到P(A1|B)=P(A2|B)=P(A3|B)>P(A4|B),因此,說明通過抽取得到的次品最有可能是由前三個(gè)車間生產(chǎn)的。
目前,手機(jī)已經(jīng)成為大家生活中的必需品了,而我們獲取信息的主要途徑是手機(jī)中的微信和短信。但平時(shí)手機(jī)上常常會(huì)出現(xiàn)很多的垃圾信息,好多新款手機(jī)可以過濾垃圾信息,只要從手機(jī)設(shè)置中開通此功能即可。事實(shí)上,這個(gè)功能的原理就是貝葉斯公式。
例5 若規(guī)定信息中含有“a”這個(gè)詞,就會(huì)被識(shí)別為垃圾短信,已知某款手機(jī)在一般情況下識(shí)別短信為垃圾短信的概率為0.9,信息為垃圾短信時(shí)出現(xiàn)“a”的概率為0.9,短信正常時(shí)出現(xiàn)“a”的概率為0.9,計(jì)算在出現(xiàn)“ox”這個(gè)詞的情況下短信是垃圾短信的概率。
解:設(shè)A={短信含有“ox”},B1={短信是垃圾短信},B2={短信不是垃圾短信},
則由題知:
根據(jù)貝葉斯公式可得:
篩選垃圾郵件常用的方法是統(tǒng)計(jì)出每個(gè)字符串在眾多垃圾郵件中出現(xiàn)的概率,同時(shí)統(tǒng)計(jì)出每個(gè)字符在正常郵件中出現(xiàn)的概率,就可以根據(jù)貝葉斯公式計(jì)算出郵件中含某字串則為垃圾郵件的概率。
例6 已知在電子郵件當(dāng)中,一般有50%的郵件是垃圾郵件,假設(shè)在3 000 份垃圾郵件含有中敏感詞的郵件出現(xiàn)了400 次,在300 份正常的郵件中同時(shí)出現(xiàn)同樣敏感詞的有5 份郵件,求一份郵件出現(xiàn)這個(gè)敏感詞時(shí)為垃圾郵件的概率?
解:設(shè)A={郵件含有"mortgage"},B1={短信是垃圾短信},B2={短信不是垃圾短信},
則由題知:
根據(jù)貝葉斯公式可得:
根據(jù)這個(gè)假設(shè),我們可以搜集得到一批垃圾郵件和一批正常郵件,通過統(tǒng)計(jì)所有郵件中包含關(guān)鍵詞的頻率,垃圾郵件的出現(xiàn)頻率和關(guān)鍵詞在垃圾郵件中出現(xiàn)的頻率。假設(shè)P(A)是垃圾郵件的出現(xiàn)頻率,P(B)是關(guān)鍵詞的出現(xiàn)頻率,那么,P(BA)就表示垃圾郵件中的關(guān)鍵詞出現(xiàn)的頻率。根據(jù)貝葉斯公式就可以推算得出P(A|B),即可得到存在特定關(guān)鍵詞時(shí)某封郵件是垃圾郵件的概率了。
自從貝葉斯公式提出至今,它的應(yīng)用就一直非常廣泛,隨著現(xiàn)代社會(huì)的迅速發(fā)展,貝葉斯公式也將會(huì)更好的運(yùn)用于其他領(lǐng)域和更多新的領(lǐng)域。