二項(xiàng)分布在診斷檢驗(yàn)中的應(yīng)用

2018-01-18 10:03李文韜

課程教育研究 2018年42期

李文韜

【摘要】二項(xiàng)分布是概率論中重要的離散分布。本文首先研究二項(xiàng)分布的概率空間，然后推導(dǎo)了其期望和方差，接著給出了估計(jì)二項(xiàng)分布參數(shù)的方法，最后以醫(yī)學(xué)中的診斷檢驗(yàn)為例，闡釋了二項(xiàng)分布在生活中的應(yīng)用。

【關(guān)鍵詞】二項(xiàng)分布 ?期望方差 ?參數(shù)估計(jì) ?貝葉斯公式

【中圖分類(lèi)號(hào)】G633.8 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089（2018）42-0157-02

1.前言

在歷史上，很多數(shù)學(xué)家都做過(guò)拋硬幣的實(shí)驗(yàn)，拋一枚質(zhì)地均勻的硬幣，其試驗(yàn)結(jié)果不外乎是正面或者反面兩種。而在物理上，我們知道只要有確定的拋擲高度，角度，空氣阻力，重力加速度等各種條件，拋擲硬幣的試驗(yàn)結(jié)果是可以事先確定的。而條件又是如此地復(fù)雜，以至于我們根本沒(méi)法考慮完全。因此，我們引入了一種隨機(jī)性?，F(xiàn)在假設(shè)我們的試驗(yàn)是投擲一枚質(zhì)地均勻的硬幣1000次，為了估計(jì)正面朝上的概率，則需要記錄正面朝上的次數(shù)。生活中也不乏這樣的例子，例如射手射擊10次，記錄命中的次數(shù);給50個(gè)患者使用一種新藥，記錄康復(fù)的患者人數(shù);以上例子的共同特點(diǎn)就是在相同條件下，重復(fù)做了n次試驗(yàn)，稱(chēng)為n重伯努利試驗(yàn)，其中某事件發(fā)生的次數(shù)就服從二項(xiàng)分布。本文正是研究二項(xiàng)分布在診斷檢驗(yàn)中的作用。

2.模型的建立

為了給出二項(xiàng)分布，我們首先要建立概率空間（？贅，F(xiàn)，P），其中？贅是樣本空間，是試驗(yàn)所有可能出現(xiàn)的基本結(jié)果？棕組成的集合，F(xiàn)是其上定義的事件域，P是事件域F上的概率測(cè)度。隨機(jī)變量X是從樣本空間？贅到實(shí)數(shù)上的一個(gè)映射，且滿(mǎn)足對(duì)任意的x∈R，事件{？棕：X（？棕）≤x}∈F。

2.1 二項(xiàng)分布

在n重伯努利試驗(yàn)中，記X為成功的次數(shù)，這里的成功定義為某事件A發(fā)生了。令P（A）=1-P（Ac）= p，其中Ac表示事件A的對(duì)立事件。這個(gè)試驗(yàn)的基本結(jié)果為：

？棕=（？棕1，？棕2，…，？棕n），

其中每個(gè)？棕1或者為A，或者為Ac。于是共有2n個(gè)樣本點(diǎn)，組成了樣本空間？贅。事件域F為由隨機(jī)變量X生成的？滓-代數(shù)。于是X的概率分布列為：

P（X=k）=（■■）pk（1-p）n-k，k=0，1，…，n

此時(shí)稱(chēng)X服從二項(xiàng)分布，記作X～b（n，p）。

2.2 二項(xiàng)分布的期望和方差

下面給出二項(xiàng)分布期望和方差的兩種推導(dǎo)方式。

方法1.把二項(xiàng)分布b（n，p）看成是n個(gè)獨(dú)立同分布的服從參數(shù)為p的伯努利分布的隨機(jī)變量之和X=X1+X2+…+Xn，則其期望和方差分別為：

E（X）=E（X1）+E（X2）+…+E（Xn）=np

Var（X）=Var（X1）+Var（X2）+…+Var（Xn）=np（1-p）

方法2. 由二項(xiàng)式定理可得，

E（X）=■k（■■）pk（1-p）n-k=np■（■■）pk-1（1-p）n-k=np

又E（X2）=■k2（■■）pk（1-p）n-k=■（k-1+1）k（■■）pk（1-p）n-k

=■（k-1）k（■■）pk（1-p）n-k+■k（■■）pk（1-p）n-k

=■（k-1）k（■■）pk（1-p）n-k+np

=n（n-1）p2■（■■）pk-2（1-p）n-k+np

=n（n-1）p2+np

于是，二項(xiàng)分布的方差為Var（X）=E（X2）-（E（X））2=np（1-p）。

2.3二項(xiàng)分布的參數(shù)估計(jì)

假設(shè)我們獲得了一組伯努利試驗(yàn)樣本X1，X2，…，Xn，而二項(xiàng)分布的參數(shù)p是需要估計(jì)的未知參數(shù)。這里采用矩估計(jì)的方法，用樣本矩去近似總體矩即可獲得參數(shù)p的估計(jì)：

■=■，

其中■表示參數(shù)p根據(jù)樣本所得的估計(jì)值。

3.醫(yī)學(xué)中的診斷檢驗(yàn)

3.1 sensitivity和specificity

我們首先利用兩個(gè)量sensitivity和specificity來(lái)衡量某種檢測(cè)手段的準(zhǔn)確性，以下簡(jiǎn)稱(chēng)se，sp。令T服從伯努利分布，T=1表示檢測(cè)結(jié)果呈陽(yáng)性，T=0表示檢測(cè)結(jié)果呈陰性。D也是一個(gè)伯努利隨機(jī)變量，D=1表示個(gè)體真實(shí)的健康狀況為有病，D=0表示沒(méi)有患病。se表示的是當(dāng)個(gè)體真的患病（D=1）的時(shí)候，檢測(cè)結(jié)果為陽(yáng)性（T=1）的概率，即se=P（T=1|D=1）。sp表示的是當(dāng)個(gè)體沒(méi)有患病（D=0）的時(shí)候，檢測(cè)結(jié)果顯示為陰性（T=0）的概率，即sp = P（T=0|D=0）?，F(xiàn)在我們將試驗(yàn)結(jié)果作成列聯(lián)表如下：

表格1：醫(yī)學(xué)診斷檢驗(yàn)中試驗(yàn)結(jié)果列聯(lián)表的一般形式

假設(shè)在所有的n1個(gè)患病的個(gè)體中被檢測(cè)出來(lái)呈陽(yáng)性的個(gè)體數(shù)服從二項(xiàng)分布，但是二項(xiàng)分布中的概率參數(shù)是未知的，于是我們利用2.3節(jié)中矩參數(shù)估計(jì)的方法，得到結(jié)果如下：

■e=s1/n1

■p=r0/n0

3.2貝葉斯公式推導(dǎo)ppv和npv

當(dāng)檢測(cè)手段給出了陽(yáng)性和陰性的結(jié)果，那么人們自然要問(wèn)，這個(gè)檢測(cè)結(jié)果到底意味著什么呢？我到底有病沒(méi)?。窟@些問(wèn)題不僅依賴(lài)于檢測(cè)手段的準(zhǔn)確性，而且依賴(lài)于疾病本身的發(fā)病率?；谏厦娴目紤]，我們利用貝葉斯公式推導(dǎo)出另外兩個(gè)衡量檢測(cè)手段優(yōu)良性的量PPV和NPV。PPV表示的是當(dāng)個(gè)體檢測(cè)結(jié)果為陽(yáng)性（T=1）的時(shí)候，此人真的患?。―=1）的概率，即PPV= P（D=1|T=1）。NPV表示的是個(gè)體檢測(cè)結(jié)果呈陰性（T=0）的時(shí)候，此人沒(méi)有患病（D=0）的概率，即NPV=P（D=0|T=0）。則由貝葉斯公式，

PPV=P（D=1|T=1）

=■

NPV=P（D=0|T=0）

=■

3.3 數(shù)據(jù)缺失情形下的處理

現(xiàn)在再引入一個(gè)伯努利隨機(jī)變量V，V=1表示個(gè)體是接受了金標(biāo)準(zhǔn)的驗(yàn)證，V=0表示沒(méi)有接受。那么我們也同樣地把試驗(yàn)的結(jié)果統(tǒng)計(jì)到一個(gè)列聯(lián)表中去，令n=n1+n2表示所有參與試驗(yàn)的個(gè)體，其中上標(biāo)帶A的表示經(jīng)過(guò)金標(biāo)準(zhǔn)驗(yàn)證的，帶B的表示未經(jīng)金標(biāo)準(zhǔn)驗(yàn)證。

表格2：加入是否經(jīng)過(guò)金標(biāo)準(zhǔn)驗(yàn)證后的列聯(lián)表

為了合理利用未經(jīng)驗(yàn)證的數(shù)據(jù)，我們假設(shè)條件獨(dú)立性P（V=1|D，T）=P（V=1|T），即在已知檢驗(yàn)結(jié)果的時(shí)候，某人是否接受金標(biāo)準(zhǔn)與真實(shí)的身體狀況無(wú)關(guān)。

下面以求se為例，se=P（T=1|D=1）=■

由條件獨(dú)立假設(shè)可知P（V=1|D=1，T=1）=P（V=1|T=1），

于是

P（T=0，D=1）=P（V=1，T=1，D=1）■

同理由P（V=1|D=1，T=0）=P（V=1|T=0）可得：

P（T=0，D=1）=P（V=1，T=0，D=1）■

又P（D=1）=P（T=1，D=1）+P（T=0，D=1）

則可得se的估計(jì)為：

■e=

同理可得sp的估計(jì)。

4.總結(jié)

本文首先建立了二項(xiàng)分布的模型，給出了其期望和方差的兩種推導(dǎo)方式，并導(dǎo)出了參數(shù)的估計(jì)形式。然后重點(diǎn)介紹了二項(xiàng)分布在診斷檢驗(yàn)中的作用，用來(lái)衡量檢測(cè)手段的優(yōu)良性。

參考文獻(xiàn)：

[1]茆詩(shī)松.概率論與數(shù)理統(tǒng)計(jì)簡(jiǎn)明教程[M]. 高等教育出版社， 2012.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

二項(xiàng)分布在診斷檢驗(yàn)中的應(yīng)用