李瑋
英國(guó)統(tǒng)計(jì)學(xué)家哈羅德曾經(jīng)說(shuō)過(guò),概率論實(shí)際上就像是個(gè)理想人步入茫然無(wú)知世界時(shí)的整套思維方式,人們總是根據(jù)概率論作出他對(duì)那個(gè)世界的全部推斷,就像純數(shù)學(xué)是個(gè)理想人的思維方式樣,因?yàn)樗偰軓募償?shù)學(xué)中得到準(zhǔn)確的計(jì)算結(jié)果。普通人也完全有理由盡其全力來(lái)獲取問(wèn)題的全部答案。
當(dāng)今國(guó)際數(shù)理統(tǒng)計(jì)由貝葉斯學(xué)派和頻率學(xué)派這兩大派別組成??v觀這兩大學(xué)派,其各自理論存在很大的不同,且均有爭(zhēng)議,直至今日尚無(wú)定論。但目前,在概率論與數(shù)理統(tǒng)計(jì)的大學(xué)教材中,有關(guān)于統(tǒng)計(jì)推斷的理論幾乎清色的由頻率學(xué)派主導(dǎo),幾乎看不到貝葉斯統(tǒng)計(jì)的相關(guān)主張,這使得我們度錯(cuò)誤的認(rèn)為統(tǒng)計(jì)推斷思想方法早有定論,對(duì)貝葉斯統(tǒng)計(jì)理論也早已了解。其實(shí)不然,主流教材中一般傾向于選擇主觀性較小,客觀性、可操作性較強(qiáng)的頻率學(xué)派基本理論觀點(diǎn)作為教授對(duì)象,但這并不意味著貝葉斯統(tǒng)計(jì)學(xué)不重要。隨著今日各項(xiàng)技術(shù)的發(fā)展和新領(lǐng)域的開(kāi)拓,貝葉斯統(tǒng)計(jì)愈加得到人們的重視,并被廣泛應(yīng)用。
一、頻率統(tǒng)計(jì)學(xué)派與貝葉斯統(tǒng)計(jì)學(xué)派基本思想的差異
頻率學(xué)派的基本思想是:首先建立總體所服從的分布,且將此處總體分布中的參數(shù)視為
未知常數(shù),然后依據(jù)樣本信息去估計(jì)推斷該參數(shù)。貝葉斯統(tǒng)計(jì)學(xué)派的基本思想是:將總體分布中的參數(shù)視為
隨機(jī)變量,并依據(jù)人們?cè)趯?shí)驗(yàn)前的認(rèn)識(shí)確定此參數(shù)的先驗(yàn)分布,然后借助樣本信息進(jìn)一步修正先前的認(rèn)識(shí),得到關(guān)于此參數(shù)的后驗(yàn)分布。此外關(guān)于概率的定義,頻率學(xué)派將頻率的極限作為概率,而貝葉斯學(xué)派則側(cè)重于人的主觀認(rèn)識(shí),提出先驗(yàn)概率,然后再根據(jù)貝葉斯公式不斷對(duì)其作出修正,得到后驗(yàn)概率,且此概率具有無(wú)記憶性,可獨(dú)立于先驗(yàn)概率。
這里我們可以借助例子去感受
下:現(xiàn)有兩完全相同的兩個(gè)盒子,盒1中有6個(gè)白球,2個(gè)紅球,盒2中有3個(gè)白球,5個(gè)紅球,任選個(gè)盒子取球,問(wèn)是從盒1中取到白球的概率。這里令“取到白球”為事件A,“從盒1中取球”為事件B,“從盒2中取球”為事件c,由上述貝葉斯公式可以看到后驗(yàn)概率P(B/A)與先驗(yàn)概率P(B)及其似然P(A/B)成比例。由于無(wú)論從哪個(gè)盒子里取球公式中分母均為P(A)保持不變,故唯變化的就是似然P(A/B)的大小,這時(shí)可以很容易看出P(A/B)P(A/a,即從盒1中取到白球的可能性更大,于是P(B/A)>P(C/A),而事實(shí)也證實(shí)了這判斷。據(jù)此我認(rèn)為貝葉斯公式更符合人們的認(rèn)知規(guī)律,我們初始的判斷也因此變得有跡可循。
二、貝葉斯統(tǒng)計(jì)推斷的核心思想
1.先驗(yàn)分布
貝葉斯統(tǒng)計(jì)學(xué)派主張利用先驗(yàn)分布和樣本信息確定后驗(yàn)分布,并依此進(jìn)行統(tǒng)計(jì)推斷。該理論的關(guān)鍵步是如何確立先驗(yàn)分布π(θ)。關(guān)于先驗(yàn)分布的確立貝葉斯統(tǒng)計(jì)學(xué)實(shí)已取得豐碩成果,具體方法可見(jiàn)。
2.后驗(yàn)分布
3.點(diǎn)估計(jì)
貝葉斯統(tǒng)計(jì)學(xué)立足于后驗(yàn)分布,其中心思想是只考慮已出現(xiàn)的樣本觀察數(shù)據(jù),而未出現(xiàn)的數(shù)據(jù)則被認(rèn)為與統(tǒng)計(jì)推斷無(wú)關(guān),因此該方法側(cè)重于分析由次試驗(yàn)得到的樣本,而忽略其他所有可能出現(xiàn)的樣本,因此頻率學(xué)派中對(duì)估計(jì)評(píng)價(jià)的無(wú)偏性在貝葉斯統(tǒng)計(jì)中將不再適用。為估計(jì)參數(shù)丹,與頻率學(xué)派采用樣本均值,樣本方差估計(jì)不同,貝葉斯統(tǒng)計(jì)推斷中常根據(jù)實(shí)際選取后驗(yàn)分布的眾數(shù)、中位數(shù)或期望值對(duì)丹進(jìn)行估計(jì)。
4.區(qū)間估計(jì)
對(duì)于區(qū)問(wèn)估計(jì)問(wèn)題,不同于頻率學(xué)派的構(gòu)造樞軸量的方法,貝葉斯統(tǒng)計(jì)學(xué)派主張?jiān)诮o定樣本和可信水平后,直接根據(jù)后驗(yàn)分布確定可信區(qū)間(與置信區(qū)間相對(duì)),二者相比,后者方法要簡(jiǎn)單得多,畢竟構(gòu)造樞軸量并不是件輕松的事情。此外二者對(duì)所得概率和區(qū)問(wèn)的解釋也有很大不同,頻率學(xué)派對(duì)置信水平的解釋是,置信區(qū)間能蓋住θ的可能性,而貝葉斯統(tǒng)計(jì)學(xué)派將此概率解釋為,θ落入可信區(qū)間的可能性,相比較而言,后者的解釋更能被人們理解和接受。
5.假設(shè)檢驗(yàn)
對(duì)于該問(wèn)題,頻率學(xué)派首先是建立原假設(shè)H與備擇假設(shè)H1,然后選取適當(dāng)?shù)慕y(tǒng)計(jì)量,在給定顯著性水平α下確定拒絕域C,然后代入樣本觀測(cè)值觀察數(shù)據(jù)是否落入拒絕域內(nèi),并依此作出是否接受原假設(shè)的判斷;與此不同的是,在貝葉斯統(tǒng)計(jì)推斷中,可直接依據(jù)后驗(yàn)分布計(jì)算出原假設(shè)與備擇假設(shè)的后驗(yàn)概率α,α然后計(jì)較兩概率值的大小,當(dāng)后驗(yàn)概率比αo/α1>1時(shí)接受Ho,當(dāng)αo/α1<1時(shí)拒絕Ho,當(dāng)αo=l時(shí),無(wú)法做出判斷,需要更進(jìn)步的抽樣或進(jìn)步搜集先驗(yàn)信息由此可見(jiàn),貝葉斯假設(shè)檢驗(yàn)方法無(wú)需構(gòu)造統(tǒng)計(jì)量和給定顯著性水平,及確定拒絕域,較為簡(jiǎn)明。
縱觀貝葉斯統(tǒng)計(jì)學(xué),他是建立在總體信息,樣本信息和先驗(yàn)信息之上的統(tǒng)計(jì)推斷方法,他主張的先驗(yàn)與后驗(yàn)方式相比于頻率學(xué)派似乎更符合人們對(duì)事物的認(rèn)知規(guī)律,但該理論仍存在較多爭(zhēng)議,比如將未知參數(shù)視為隨機(jī)變量是否妥當(dāng),以及先驗(yàn)分布是否存在等問(wèn)題,仍然需要做進(jìn)步的研究。但不可否認(rèn)的是,貝葉斯統(tǒng)計(jì)學(xué)在當(dāng)今時(shí)代的應(yīng)用愈加廣泛,其重要性不容忽視。