馮廣慶,韓春陽(yáng)
(河南理工大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河南 焦作 454000)
隨著社會(huì)的高速發(fā)展,概率論與數(shù)理統(tǒng)計(jì)在諸多領(lǐng)域展示了獨(dú)特的魅力.目前,人工智能、大數(shù)據(jù)分析等領(lǐng)域已滲透概率統(tǒng)計(jì)的思想.深入透徹研究這些實(shí)際問(wèn)題,要借助概率統(tǒng)計(jì)知識(shí),建立數(shù)學(xué)模型,處理和分析數(shù)據(jù),對(duì)問(wèn)題做出推斷和預(yù)測(cè).全概率公式和貝葉斯公式是概率統(tǒng)計(jì)課程的兩個(gè)十分重要的公式,是基于條件概率發(fā)展而來(lái)的求概率的工具[1].在生產(chǎn)生活中,可以歸類于條件概率的情況很多,但大多數(shù)較復(fù)雜,基于條件概率的全概率公式和貝葉斯公式相繼應(yīng)運(yùn)而生,它們利用已知信息使問(wèn)題化繁為簡(jiǎn),提供了解決復(fù)雜事件概率問(wèn)題的有效途徑[2].
全概率公式和貝葉斯公式一般用于求幾個(gè)事件同時(shí)發(fā)生的概率,從公式的形式來(lái)看,實(shí)質(zhì)上是乘法公式的求和,它們的存在是條件概率思想的進(jìn)一步反映,這兩個(gè)公式既相互聯(lián)系又有所區(qū)別[3-4].
全概率公式提供計(jì)算復(fù)雜事件概率的行之有效的途徑,體現(xiàn)了結(jié)果的發(fā)生與每個(gè)原因的關(guān)系,是一個(gè)根據(jù)原因?qū)ふ医Y(jié)果的過(guò)程.全概率公式對(duì)復(fù)雜事件中的每個(gè)方面分類討論,逐個(gè)擊破求出總概率,解決的是多種情況下造成同一種結(jié)果的概率.實(shí)際問(wèn)題中的“結(jié)果”的概率不易求得,但導(dǎo)致該“結(jié)果”發(fā)生時(shí)的每個(gè)“原因”的概率容易找到,依次邏輯可將計(jì)算一個(gè)復(fù)雜事件的概率問(wèn)題化繁為簡(jiǎn).貝葉斯公式表示的是在特定條件下一個(gè)事件的概率,通過(guò)已經(jīng)發(fā)生的結(jié)果尋找導(dǎo)致這個(gè)結(jié)果發(fā)生的原因,探究最可能導(dǎo)致某個(gè)復(fù)雜事件發(fā)生的可能性最大的原因.貝葉斯公式也可用于計(jì)算后驗(yàn)概率,通過(guò)事件的發(fā)生這個(gè)新信息,對(duì)事件的概率做出修正,重新認(rèn)識(shí)之前的概率,做出新的判斷.在實(shí)際應(yīng)用中,利用貝葉斯公式重復(fù)估計(jì)某個(gè)事件的概率從而計(jì)算出新的后驗(yàn)概率,可以達(dá)到提高所求概率的準(zhǔn)確性的目的.
全概率公式與貝葉斯公式是概率統(tǒng)計(jì)的重要內(nèi)容,與實(shí)際生活聯(lián)系緊密[5-6],本文列舉7個(gè)案例闡述它們的應(yīng)用.
某同學(xué)銀行卡丟失,他把丟失銀行卡的地點(diǎn)鎖定為宿舍、宿舍到銀行的路上、銀行.假設(shè)銀行卡掉在宿舍、路上、銀行的概率分別是10%、30%、60%,而掉在上述三個(gè)地方被找到的概率分別是0.4、0.3和0.5.試求該同學(xué)找到丟失的銀行卡的概率是多大.
解析:根據(jù)題設(shè)找到銀行卡有三種情況,而每種情況的丟失概率和被找到的概率都已知.所以找到銀行卡的概率是這三種情況的累計(jì)和,符合全概率公式“多個(gè)因素作用于某個(gè)事件”的情況.將事件A1,A2,A3分別設(shè)為“掉在宿舍、掉在路上、掉在銀行”,將B記為“銀行卡被找到”,根據(jù)全概率公式即可求出P(B):
P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(A3)P(B|A3)
=0.1×0.4+0.3×0.3+0.6×0.5=0.43
即該同學(xué)找到銀行卡的概率是0.43.
這是全概率公式的一個(gè)簡(jiǎn)單應(yīng)用,通過(guò)上述計(jì)算除了知道該同學(xué)最終能找到銀行卡的可能性有多大,另外也不難看出,與其他兩種情況相比,該同學(xué)在銀行找到銀行卡的可能性最大.受尋物問(wèn)題的啟發(fā),我們?cè)趯?shí)際的搜救和追蹤問(wèn)題上,也可以運(yùn)用全概率公式的這種思想梳理問(wèn)題中的有效信息,估計(jì)問(wèn)題發(fā)生的可能性,為設(shè)計(jì)問(wèn)題的解決方案提供參考.
一批新生產(chǎn)的手機(jī)優(yōu)等品率為85%,由于電子產(chǎn)品對(duì)質(zhì)量要求較高,需要檢驗(yàn)員質(zhì)檢,但人工質(zhì)檢難免會(huì)存在一定的誤差.為了把質(zhì)檢過(guò)程中的誤差最小化,分派三名質(zhì)檢員組成質(zhì)檢小組對(duì)這批手機(jī)的質(zhì)量進(jìn)行質(zhì)檢,規(guī)定這三個(gè)質(zhì)檢員中至少有兩個(gè)檢驗(yàn)員認(rèn)為是優(yōu)等品,最終才能被確定為優(yōu)等品.假設(shè)檢驗(yàn)員之間的判斷相互獨(dú)立,每個(gè)檢驗(yàn)員能夠把真正的優(yōu)等品認(rèn)定為優(yōu)等品的概率為96%,而將非優(yōu)等品認(rèn)定為優(yōu)等品的概率為3%,那么該質(zhì)檢小組最終能夠認(rèn)定出真正的優(yōu)等品的概率是多少?
解析:要計(jì)算被認(rèn)定為優(yōu)等品的產(chǎn)品確實(shí)為優(yōu)等品的概率,即求的是條件概率,需要利用貝葉斯公式求解.設(shè)A表示“產(chǎn)品為優(yōu)等品”,B表示“質(zhì)檢時(shí)產(chǎn)品為優(yōu)等品”,那么所求概率為P(A|B).
首先計(jì)算P(B),分析可知事件B的發(fā)生是有前提條件的,即在對(duì)優(yōu)等品或非優(yōu)等品進(jìn)行檢查時(shí),三個(gè)人中至少有兩個(gè)人認(rèn)為是優(yōu)等品.因此計(jì)算P(B)用全概率公式:
X~B(3,0.96),Y~B(3,0.03)
那么
所以
=0.85×0.995328+0.15×0.002646
=0.8464257
故所求概率為
結(jié)果表明,質(zhì)檢小組最終能夠認(rèn)定出真正的優(yōu)等品的概率為99.95%.
在這個(gè)問(wèn)題中,全概率公式只發(fā)揮了部分作用,需要結(jié)合條件概率以及概率分布才能得到有價(jià)值的信息.這說(shuō)明在實(shí)際問(wèn)題中,要靈活利用其它概率論知識(shí)才能更好地解決問(wèn)題.全概率公式廣泛應(yīng)用于實(shí)際生產(chǎn)中,把復(fù)雜事件的概率分解為簡(jiǎn)單事件概率的和,有助于計(jì)算出不易直接求解的概率.全概率公式在不講求次序的隨機(jī)情況下能夠計(jì)算具有多種情況的復(fù)雜事件.根據(jù)生產(chǎn)產(chǎn)品的數(shù)據(jù)統(tǒng)計(jì),利用全概率公式預(yù)測(cè)產(chǎn)品的合格情況、在數(shù)據(jù)層面上檢測(cè)產(chǎn)品的品質(zhì)情況等,是全概率公式應(yīng)用于實(shí)際生產(chǎn)比較多的一個(gè)方面.
調(diào)查敏感問(wèn)題,不易得到調(diào)查者的配合,需要設(shè)計(jì)一種調(diào)查方案,使被調(diào)查者確信參加調(diào)查不會(huì)泄露個(gè)人秘密,可以沒(méi)有顧慮地做出真實(shí)回答.以考試作弊為例,方案設(shè)計(jì)如下:為被調(diào)查者提供一個(gè)密閉環(huán)境,在被調(diào)查期間不會(huì)有其他人進(jìn)入,被調(diào)查者只需要按照操作回答問(wèn)題即可.第一步:被調(diào)查者從只裝有黑球和白球的盒子中隨機(jī)摸出一個(gè)球,盒子里有u個(gè)黑球,v個(gè)白球,看過(guò)顏色后立即放回.第二步:如果被調(diào)查者摸到白球,則要回答問(wèn)題1,即“你是否喜歡紅色?”;若被調(diào)查者摸到黑球,則回答問(wèn)題2,即“你是否在考試中有過(guò)作弊行為?”.被調(diào)查者無(wú)論是回答問(wèn)題1還是問(wèn)題2,都只需在空白紙條上是寫下“是”或者“否”,然后再把紙條放入密封的投票箱.
解析:設(shè)收到的紙條總數(shù)為n,其中k張紙條上寫了“是”.任意選擇一個(gè)被調(diào)查者,他喜歡紅色的概率為0.5,盒子里黑球數(shù)和白球數(shù)是已知的.
現(xiàn)在根據(jù)調(diào)查數(shù)據(jù)估計(jì)受調(diào)查學(xué)生考試作弊的比率p.記事件A為“摸到黑球”,B為“摸到白球”,C為“回答“是”的紙條”,則
由全概率公式得
即
在一次實(shí)際調(diào)查中,結(jié)束后總共收到了1583張有效答卷,其中有389張答卷回答“是”.罐子里黑球的個(gè)數(shù)為60、白球的個(gè)數(shù)為40.由以上方案和調(diào)查數(shù)據(jù)計(jì)算得到
綜上所述:大約有7.62%的學(xué)生在考試中有作弊行為.
方案完美體現(xiàn)了全概率公式的巧妙之處,在調(diào)查敏感性問(wèn)題時(shí),直接調(diào)查的結(jié)果可信度比較低,需要設(shè)計(jì)一個(gè)能夠讓被調(diào)查者給出真實(shí)想法的方案.在調(diào)查方案中,會(huì)出現(xiàn)與所調(diào)查的問(wèn)題無(wú)關(guān)的其他問(wèn)題,但這個(gè)無(wú)關(guān)問(wèn)題的情況是我們已經(jīng)掌握的,也就是已知條件.全概率公式的特點(diǎn)就是能夠通過(guò)事件的已知條件計(jì)算一些不能直接計(jì)算的概率.設(shè)計(jì)調(diào)查方案時(shí),從可以計(jì)算出概率的問(wèn)題出發(fā),把它作為目標(biāo)問(wèn)題的條件,然后再把方案向目標(biāo)問(wèn)題延伸,最終巧妙地得到想要的調(diào)查數(shù)據(jù).
保險(xiǎn)公司將新險(xiǎn)種的投保人劃分為兩類,一類為容易出事故者,另一類為安全者.根據(jù)統(tǒng)計(jì)研究可知:一個(gè)易出事故者在一年內(nèi)發(fā)生事故的概率為0.45,而一個(gè)安全者發(fā)生事故的概率為0.1.如果投保人在投保期間發(fā)生了事故,能向保險(xiǎn)公司申請(qǐng)理賠.假設(shè)第一類人投保此險(xiǎn)種人數(shù)所占的比例為18%.現(xiàn)有一個(gè)投保人來(lái)投保此險(xiǎn)種,那么該投保人在購(gòu)買保單后一年內(nèi)將申請(qǐng)理賠的概率有多大?
=0.18×0.45+0.82×0.1=0.163
結(jié)果表明:該投保人在購(gòu)買保單后一年內(nèi)將會(huì)申請(qǐng)理賠的概率為0.163.
概率論在保險(xiǎn)領(lǐng)域應(yīng)用廣泛,保險(xiǎn)公司可以依據(jù)概率論知識(shí)合理制定險(xiǎn)種,降低理賠風(fēng)險(xiǎn)從而獲得盈利,被保者可以依據(jù)概率論知識(shí)購(gòu)買保險(xiǎn)最大化降低知識(shí)造成的損失.全概率公式可以在保險(xiǎn)精算的模型中發(fā)揮一部分預(yù)測(cè)作用,為保險(xiǎn)公司設(shè)計(jì)不同的保險(xiǎn)方案提供參考,也可以在被保者投保過(guò)程中確定險(xiǎn)種對(duì)自己是否合理,以及預(yù)測(cè)保險(xiǎn)的回報(bào)問(wèn)題,決策出購(gòu)買合理的保險(xiǎn)種類.
據(jù)調(diào)查,某種疾病在某地區(qū)的發(fā)病率為0.0003,現(xiàn)在對(duì)該地區(qū)自然人群進(jìn)行普查.已知該疾病可通過(guò)抽血化驗(yàn)篩查,醫(yī)學(xué)研究表明,該化驗(yàn)結(jié)果會(huì)有存在錯(cuò)誤的可能.根據(jù)以往的臨床記錄,患有該疾病的人其化驗(yàn)結(jié)果99%呈陽(yáng)性(患病),而沒(méi)患病的人其化驗(yàn)結(jié)果99.9%呈陰性(不患病).現(xiàn)有一個(gè)人的檢查結(jié)果呈陽(yáng)性,那么他真正患病的概率是多少?
解析:記A為事件“化驗(yàn)結(jié)果呈陽(yáng)性”,B為事件“被檢查者患病”,則
在該問(wèn)題中的所求概率為P(B|A),由貝葉斯公式得
=0.229
結(jié)果表明,在化驗(yàn)結(jié)果呈陽(yáng)性的人中,真正患病的人不到30%.
已知該疾病的發(fā)病率為0.0003,即10 000人中大約有3人患病,大約有9 997人不患病.其中3個(gè)患病者的化驗(yàn)結(jié)果呈陽(yáng)性的約是3×0.99=2.97.另外9 997個(gè)不患病者的化驗(yàn)結(jié)果呈陽(yáng)性的人數(shù)約是9997×0.001=9.997.因此12.967個(gè)化驗(yàn)報(bào)告呈陽(yáng)性的人中有2.97個(gè)人是真正患病,其比例約為22.9%.顯然,這個(gè)數(shù)據(jù)存在令人質(zhì)疑的地方,利用這個(gè)數(shù)據(jù)將會(huì)出現(xiàn)錯(cuò)誤的判斷.
該處檢驗(yàn)數(shù)據(jù)出現(xiàn)了不能準(zhǔn)確反映實(shí)際的情況,說(shuō)明該調(diào)查的檢驗(yàn)精度遠(yuǎn)遠(yuǎn)不夠.為了減小錯(cuò)誤率,患病普查工作經(jīng)常采用復(fù)查的方法.如果對(duì)首次化驗(yàn)結(jié)果呈陽(yáng)性的人群再進(jìn)行一次復(fù)查,此時(shí)該群體的發(fā)病率已經(jīng)提高為P(B)=0.229,利用調(diào)整后的發(fā)病率再次使用貝葉斯公式計(jì)算患病概率得
=0.997
經(jīng)過(guò)連續(xù)兩次利用貝葉斯公式求患病概率后,普查的患病概率準(zhǔn)確度明顯提高了很多.
該案例表明:僅依靠疾病在人群中表現(xiàn)出的已有信息對(duì)疾病做出診斷并不能得到準(zhǔn)確的結(jié)果,這個(gè)結(jié)果只是患病的先驗(yàn)概率.把得到的先驗(yàn)概率加入貝葉斯公式的計(jì)算中繼而得到后驗(yàn)概率,即通過(guò)貝葉斯公式對(duì)先驗(yàn)概率做出修正后,準(zhǔn)確率會(huì)大大提高.該案例闡述了如何利用概率論知識(shí)對(duì)現(xiàn)代醫(yī)學(xué)的調(diào)查結(jié)果做出精準(zhǔn)有效的解讀.
某種奶制品由三家制造廠加工(表1),假設(shè)這三家制造廠的產(chǎn)品在倉(cāng)庫(kù)中是均勻混合的,沒(méi)有明顯的區(qū)別標(biāo)志.在倉(cāng)庫(kù)中隨機(jī)取出一件,若取到的是一件次品,那么這件次品最有可能來(lái)自哪個(gè)制造廠?
表1 不同制造廠奶制品次品率及產(chǎn)品份額
解析:設(shè)A表示“隨機(jī)取一件,取到的是一件次品”,Bi表示“所取到的奶制品是來(lái)自第i制造廠”(i=1,2,3).為了分析取出的這件次品最有可能來(lái)自哪個(gè)制造廠,需要根據(jù)次品率求出這件次品由三家制造廠生產(chǎn)的概率分別是多少,這顯然是一個(gè)貝葉斯問(wèn)題.
首先利用全概率公式求解P(A)
P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)
=0.01×0.5+0.01×0.4+0.02×0.1
=0.011
然后,根據(jù)貝葉斯公式
以上結(jié)果表明,這件次品來(lái)自第1家制造廠的可能性最大.
這是貝葉斯公式通過(guò)事件的已知結(jié)果探究最可能導(dǎo)致事件發(fā)生原因的一個(gè)實(shí)際應(yīng)用,根據(jù)題目中的數(shù)據(jù)來(lái)看,制造廠3的次品利率最高,但因?yàn)楣┴浄蓊~最低,所以在隨機(jī)抽查的情況下抽到次品的概率反而最低.而制造廠1的次品率低,但是供貨所占的份額最多,導(dǎo)致在隨機(jī)抽查的情況下抽到次品的概率最高.經(jīng)銷商可以根據(jù)這些數(shù)據(jù)做進(jìn)一步分析,適當(dāng)調(diào)整代工方案或者更換工廠.
全概率公式和貝葉斯公式作為概率論中的兩個(gè)極具代表性的理論,能夠解決許多實(shí)際問(wèn)題,預(yù)測(cè)某些事情的趨勢(shì)或前景,對(duì)生產(chǎn)生活有很大的指導(dǎo)意義.全概率公式體現(xiàn)了“面面俱到”“化整為零”的思想,把一個(gè)復(fù)雜事件拆分成簡(jiǎn)單事件的和,在用貝葉斯定理解決問(wèn)題時(shí),要通過(guò)先驗(yàn)概率才能求出最后的后驗(yàn)概率,其實(shí)也是一個(gè)對(duì)某事件發(fā)生的概率做出修正的過(guò)程.在實(shí)際問(wèn)題中只需要根據(jù)事件已知的部分信息再加以計(jì)算,就能夠把更多關(guān)于該事件的數(shù)據(jù)和具體分析呈現(xiàn)出來(lái).無(wú)論是這兩個(gè)公式還是課程中其他的理論,它們不僅僅是抽象的數(shù)學(xué)符號(hào),還是簡(jiǎn)潔的規(guī)律揭示,了解它們只是一個(gè)開(kāi)始,熟練地應(yīng)用它們才是最終的目的.