李文韜
【摘要】二項(xiàng)分布是概率論中重要的離散分布。本文首先研究二項(xiàng)分布的概率空間,然后推導(dǎo)了其期望和方差,接著給出了估計(jì)二項(xiàng)分布參數(shù)的方法,最后以醫(yī)學(xué)中的診斷檢驗(yàn)為例,闡釋了二項(xiàng)分布在生活中的應(yīng)用。
【關(guān)鍵詞】二項(xiàng)分布 ?期望方差 ?參數(shù)估計(jì) ?貝葉斯公式
【中圖分類(lèi)號(hào)】G633.8 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2018)42-0157-02
1.前言
在歷史上,很多數(shù)學(xué)家都做過(guò)拋硬幣的實(shí)驗(yàn),拋一枚質(zhì)地均勻的硬幣,其試驗(yàn)結(jié)果不外乎是正面或者反面兩種。而在物理上,我們知道只要有確定的拋擲高度,角度,空氣阻力,重力加速度等各種條件,拋擲硬幣的試驗(yàn)結(jié)果是可以事先確定的。而條件又是如此地復(fù)雜,以至于我們根本沒(méi)法考慮完全。因此,我們引入了一種隨機(jī)性?,F(xiàn)在假設(shè)我們的試驗(yàn)是投擲一枚質(zhì)地均勻的硬幣1000次,為了估計(jì)正面朝上的概率,則需要記錄正面朝上的次數(shù)。生活中也不乏這樣的例子,例如射手射擊10次,記錄命中的次數(shù);給50個(gè)患者使用一種新藥,記錄康復(fù)的患者人數(shù);以上例子的共同特點(diǎn)就是在相同條件下,重復(fù)做了n次試驗(yàn),稱(chēng)為n重伯努利試驗(yàn),其中某事件發(fā)生的次數(shù)就服從二項(xiàng)分布。本文正是研究二項(xiàng)分布在診斷檢驗(yàn)中的作用。
2.模型的建立
為了給出二項(xiàng)分布,我們首先要建立概率空間(?贅,F(xiàn),P),其中?贅是樣本空間,是試驗(yàn)所有可能出現(xiàn)的基本結(jié)果?棕組成的集合,F(xiàn)是其上定義的事件域,P是事件域F上的概率測(cè)度。隨機(jī)變量X是從樣本空間?贅到實(shí)數(shù)上的一個(gè)映射,且滿(mǎn)足對(duì)任意的x∈R,事件{?棕:X(?棕)≤x}∈F。
2.1 二項(xiàng)分布
在n重伯努利試驗(yàn)中,記X為成功的次數(shù),這里的成功定義為某事件A發(fā)生了。令P(A)=1-P(Ac)= p,其中Ac表示事件A的對(duì)立事件。這個(gè)試驗(yàn)的基本結(jié)果為:
?棕=(?棕1,?棕2,…,?棕n),
其中每個(gè)?棕1或者為A,或者為Ac。于是共有2n個(gè)樣本點(diǎn),組成了樣本空間?贅。事件域F為由隨機(jī)變量X生成的?滓-代數(shù)。于是X的概率分布列為:
P(X=k)=(■■)pk(1-p)n-k,k=0,1,…,n
此時(shí)稱(chēng)X服從二項(xiàng)分布,記作X~b(n,p)。
2.2 二項(xiàng)分布的期望和方差
下面給出二項(xiàng)分布期望和方差的兩種推導(dǎo)方式。
方法1.把二項(xiàng)分布b(n,p)看成是n個(gè)獨(dú)立同分布的服從參數(shù)為p的伯努利分布的隨機(jī)變量之和X=X1+X2+…+Xn,則其期望和方差分別為:
E(X)=E(X1)+E(X2)+…+E(Xn)=np
Var(X)=Var(X1)+Var(X2)+…+Var(Xn)=np(1-p)
方法2. 由二項(xiàng)式定理可得,
E(X)=■k(■■)pk(1-p)n-k=np■(■■)pk-1(1-p)n-k=np
又E(X2)=■k2(■■)pk(1-p)n-k=■(k-1+1)k(■■)pk(1-p)n-k
=■(k-1)k(■■)pk(1-p)n-k+■k(■■)pk(1-p)n-k
=■(k-1)k(■■)pk(1-p)n-k+np
=n(n-1)p2■(■■)pk-2(1-p)n-k+np
=n(n-1)p2+np
于是,二項(xiàng)分布的方差為Var(X)=E(X2)-(E(X))2=np(1-p)。
2.3二項(xiàng)分布的參數(shù)估計(jì)
假設(shè)我們獲得了一組伯努利試驗(yàn)樣本X1,X2,…,Xn,而二項(xiàng)分布的參數(shù)p是需要估計(jì)的未知參數(shù)。這里采用矩估計(jì)的方法,用樣本矩去近似總體矩即可獲得參數(shù)p的估計(jì):
■=■,
其中■表示參數(shù)p根據(jù)樣本所得的估計(jì)值。
3.醫(yī)學(xué)中的診斷檢驗(yàn)
3.1 sensitivity和specificity
我們首先利用兩個(gè)量sensitivity和specificity來(lái)衡量某種檢測(cè)手段的準(zhǔn)確性,以下簡(jiǎn)稱(chēng)se,sp。令T服從伯努利分布,T=1表示檢測(cè)結(jié)果呈陽(yáng)性,T=0表示檢測(cè)結(jié)果呈陰性。D也是一個(gè)伯努利隨機(jī)變量,D=1表示個(gè)體真實(shí)的健康狀況為有病,D=0表示沒(méi)有患病。se表示的是當(dāng)個(gè)體真的患病(D=1)的時(shí)候,檢測(cè)結(jié)果為陽(yáng)性(T=1)的概率,即se=P(T=1|D=1)。sp表示的是當(dāng)個(gè)體沒(méi)有患病(D=0)的時(shí)候,檢測(cè)結(jié)果顯示為陰性(T=0)的概率,即sp = P(T=0|D=0)?,F(xiàn)在我們將試驗(yàn)結(jié)果作成列聯(lián)表如下:
表格1:醫(yī)學(xué)診斷檢驗(yàn)中試驗(yàn)結(jié)果列聯(lián)表的一般形式
假設(shè)在所有的n1個(gè)患病的個(gè)體中被檢測(cè)出來(lái)呈陽(yáng)性的個(gè)體數(shù)服從二項(xiàng)分布,但是二項(xiàng)分布中的概率參數(shù)是未知的,于是我們利用2.3節(jié)中矩參數(shù)估計(jì)的方法,得到結(jié)果如下:
■e=s1/n1
■p=r0/n0
3.2貝葉斯公式推導(dǎo)ppv和npv
當(dāng)檢測(cè)手段給出了陽(yáng)性和陰性的結(jié)果,那么人們自然要問(wèn),這個(gè)檢測(cè)結(jié)果到底意味著什么呢?我到底有病沒(méi)?。窟@些問(wèn)題不僅依賴(lài)于檢測(cè)手段的準(zhǔn)確性,而且依賴(lài)于疾病本身的發(fā)病率?;谏厦娴目紤],我們利用貝葉斯公式推導(dǎo)出另外兩個(gè)衡量檢測(cè)手段優(yōu)良性的量PPV和NPV。PPV表示的是當(dāng)個(gè)體檢測(cè)結(jié)果為陽(yáng)性(T=1)的時(shí)候,此人真的患?。―=1)的概率,即PPV= P(D=1|T=1)。NPV表示的是個(gè)體檢測(cè)結(jié)果呈陰性(T=0)的時(shí)候,此人沒(méi)有患病(D=0)的概率,即NPV=P(D=0|T=0)。則由貝葉斯公式,
PPV=P(D=1|T=1)
=■
NPV=P(D=0|T=0)
=■
3.3 數(shù)據(jù)缺失情形下的處理
現(xiàn)在再引入一個(gè)伯努利隨機(jī)變量V,V=1表示個(gè)體是接受了金標(biāo)準(zhǔn)的驗(yàn)證,V=0表示沒(méi)有接受。那么我們也同樣地把試驗(yàn)的結(jié)果統(tǒng)計(jì)到一個(gè)列聯(lián)表中去,令n=n1+n2表示所有參與試驗(yàn)的個(gè)體,其中上標(biāo)帶A的表示經(jīng)過(guò)金標(biāo)準(zhǔn)驗(yàn)證的,帶B的表示未經(jīng)金標(biāo)準(zhǔn)驗(yàn)證。
表格2:加入是否經(jīng)過(guò)金標(biāo)準(zhǔn)驗(yàn)證后的列聯(lián)表
為了合理利用未經(jīng)驗(yàn)證的數(shù)據(jù),我們假設(shè)條件獨(dú)立性P(V=1|D,T)=P(V=1|T),即在已知檢驗(yàn)結(jié)果的時(shí)候,某人是否接受金標(biāo)準(zhǔn)與真實(shí)的身體狀況無(wú)關(guān)。
下面以求se為例,se=P(T=1|D=1)=■
由條件獨(dú)立假設(shè)可知P(V=1|D=1,T=1)=P(V=1|T=1),
于是
P(T=0,D=1)=P(V=1,T=1,D=1)■
同理由P(V=1|D=1,T=0)=P(V=1|T=0)可得:
P(T=0,D=1)=P(V=1,T=0,D=1)■
又P(D=1)=P(T=1,D=1)+P(T=0,D=1)
則可得se的估計(jì)為:
■e=
同理可得sp的估計(jì)。
4.總結(jié)
本文首先建立了二項(xiàng)分布的模型,給出了其期望和方差的兩種推導(dǎo)方式,并導(dǎo)出了參數(shù)的估計(jì)形式。然后重點(diǎn)介紹了二項(xiàng)分布在診斷檢驗(yàn)中的作用,用來(lái)衡量檢測(cè)手段的優(yōu)良性。
參考文獻(xiàn):
[1]茆詩(shī)松.概率論與數(shù)理統(tǒng)計(jì)簡(jiǎn)明教程[M]. 高等教育出版社, 2012.