應(yīng)用假設(shè)檢驗(yàn)需特別注意的幾個(gè)問題

2017-03-21 05:10:10，，，，，

中華醫(yī)學(xué)圖書情報(bào)雜志 2017年5期

，，，，，

假設(shè)檢驗(yàn)是醫(yī)學(xué)科研中重要的推斷方法，用于判斷醫(yī)學(xué)研究中通過樣本觀察到的“差別”是由抽樣誤差引起的還是因總體本身不同造成的。如為比較某新藥與常規(guī)用藥治療嬰幼兒貧血的療效，將20名貧血患兒隨機(jī)等分兩組，分別接受兩種藥物治療，結(jié)果測(cè)得兩組血紅蛋白增加量(g/l)的平均值分別為23.6和20.9。研究人員需借助假設(shè)檢驗(yàn)判斷觀察到的“差別”是由抽樣誤差(即患兒個(gè)體的差異)引起的還是因總體本身不同(即兩藥物療效不同)造成的。

假設(shè)檢驗(yàn)是指對(duì)總體提出某種假設(shè) ，然后利用從總體中抽樣所得的樣本信息檢驗(yàn)所提假設(shè)是否正確的一種統(tǒng)計(jì)推斷方法，在科學(xué)研究中應(yīng)用非常廣泛。但由于人們對(duì)假設(shè)檢驗(yàn)的相關(guān)概念和方法理解不夠深入和透徹，常會(huì)做出不準(zhǔn)確甚至是錯(cuò)誤的推斷[1-2]。本文就參數(shù)假設(shè)檢驗(yàn)選擇單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)、如何建立原假設(shè)和備擇假設(shè)、檢驗(yàn)結(jié)果的誤判率有多大、如何提高檢驗(yàn)效能等問題展開討論、辨析，能夠消除人們的疑惑，使假設(shè)檢驗(yàn)發(fā)揮更好的作用。

1 兩類錯(cuò)誤、檢驗(yàn)效能及誤判率

對(duì)于任何一次假設(shè)檢驗(yàn)，不論其結(jié)論是拒絕H0，還是接受H0，都有判斷錯(cuò)誤的可能，即可能犯兩類錯(cuò)誤。如在前面提到的比較兩種藥物治療嬰幼兒貧血的療效的問題中，H0設(shè)為兩種藥物療效無顯著性差別，并取檢驗(yàn)水準(zhǔn)α=0.05，則當(dāng)統(tǒng)計(jì)分析結(jié)果認(rèn)為兩藥物療效有顯著性差別時(shí)會(huì)犯第一類錯(cuò)誤,但犯第一類錯(cuò)誤的概率很小，小于規(guī)定的檢驗(yàn)水準(zhǔn)0.05，即犯錯(cuò)的概率小于5%；當(dāng)統(tǒng)計(jì)分析結(jié)果認(rèn)為兩藥物療效無顯著性差別時(shí)會(huì)犯第二類錯(cuò)誤，但犯第二類錯(cuò)誤的概率未知。

第一類錯(cuò)誤(也稱Ⅰ型錯(cuò)誤)是指拒絕了實(shí)際上成立的H0，其概率大小用α表示；第二類錯(cuò)誤(也稱Ⅱ型錯(cuò)誤)是指接受了實(shí)際不成立的H0，其概率大小用β來表示。通常把1-β稱為檢驗(yàn)效能(也稱把握度)，其意義是當(dāng)兩個(gè)總體確有差別時(shí)，按規(guī)定的檢驗(yàn)水準(zhǔn)α能夠發(fā)現(xiàn)該差別的能力[3]。如1-β=0.90，則意味著當(dāng)H0不成立時(shí)，理論上在每100次抽樣檢驗(yàn)中，按照α的檢驗(yàn)水準(zhǔn)平均有90次能夠得出差別有統(tǒng)計(jì)學(xué)意義的結(jié)論。

當(dāng)樣本含量一定時(shí)，不可能同時(shí)降低兩類錯(cuò)誤，減小α?xí)?dǎo)致β增大，而減小β又會(huì)導(dǎo)致α增大。要使α與β同時(shí)減小，則只有加大樣本含量。

在給定樣本含量的情況下，我們總是控制第一類錯(cuò)誤的概率，使它不大于α，α通常取0.05、0.01等。這種只控制第一類錯(cuò)誤的概率，而不考慮第二類錯(cuò)誤的概率的檢驗(yàn)稱為顯著性檢驗(yàn)[4]。拒絕H0時(shí)認(rèn)為差別顯著，有統(tǒng)計(jì)學(xué)意義，誤判率P<α；不拒絕H0時(shí)認(rèn)為差別不顯著，沒有統(tǒng)計(jì)學(xué)意義，誤判率未知。

2 單、雙側(cè)檢驗(yàn)的選擇

圖1 t檢驗(yàn)拒絕域示意圖

3 原假設(shè)和備擇假設(shè)的建立

因?yàn)榧僭O(shè)檢驗(yàn)只能控制第一類錯(cuò)誤的概率α(拒絕H0可能犯的錯(cuò)誤)，即只規(guī)定了拒絕H0時(shí)的誤判率要小于檢驗(yàn)水準(zhǔn)α(α通常取0.05或0.01)，未控制第二類錯(cuò)誤的概率β(接受H0可能犯的錯(cuò)誤)。因此在實(shí)際應(yīng)用時(shí),為了通過假設(shè)檢驗(yàn)對(duì)某一結(jié)論(如試驗(yàn)中發(fā)生的結(jié)果)取得科學(xué)的、強(qiáng)有力的支持，通常把這種結(jié)論本身作為備擇假設(shè)H1，而將這一結(jié)論的逆命題作為原假設(shè)H0。這樣，當(dāng)假設(shè)檢驗(yàn)的結(jié)果為拒絕H0而接受H1時(shí)，犯錯(cuò)誤的概率很小(小于顯著性水準(zhǔn)α，即P<α)。因此有充分的理由接受H1，即對(duì)H1的結(jié)論給出了科學(xué)的、強(qiáng)有力的支持[5-6]。如生產(chǎn)線運(yùn)行異常時(shí)需停產(chǎn)，會(huì)造成嚴(yán)重后果，需要有科學(xué)的、強(qiáng)有力的支持時(shí)才能停產(chǎn)，因此一般把生產(chǎn)線異常作為備擇假設(shè)。下面通過實(shí)際例子進(jìn)一步說明。

上面的例子說明，由于假設(shè)檢驗(yàn)只能控制第一類錯(cuò)誤的概率α，所以只有當(dāng)檢驗(yàn)結(jié)果拒絕H0而接受H1時(shí)，誤判率才是已知的(為P<α)，結(jié)論才具有科學(xué)性。因此應(yīng)當(dāng)把想要證實(shí)的結(jié)論作為備擇假設(shè)H1，而將這一結(jié)論的逆命題作為原假設(shè)H0。

4 提高檢驗(yàn)效能的途徑

當(dāng)假設(shè)檢驗(yàn)結(jié)果為“不拒絕”原假設(shè)H0時(shí)，僅僅意味著樣本數(shù)據(jù)與原假設(shè)不存在矛盾，并不意味著原假設(shè)應(yīng)該被接受。這種情況很可能是由于樣本太小等原因使得檢驗(yàn)效能1-β不足，發(fā)現(xiàn)不了真實(shí)存在的差別，研究者切忌因此而放棄原有的觀點(diǎn)，得出組間“無差別”的結(jié)論。“不拒絕”不等于“接受”，當(dāng)相關(guān)專業(yè)知識(shí)或經(jīng)驗(yàn)支持“有差別”的猜測(cè)時(shí)，可通過加大樣本含量降低二類錯(cuò)誤的概率β，提高檢驗(yàn)效能1-β。當(dāng)然，也可以適當(dāng)增大一類錯(cuò)誤的概率α，以減少二類錯(cuò)誤的概率β，從而達(dá)到提高檢驗(yàn)效能1-β的目的。

在“風(fēng)險(xiǎn)”決策中，對(duì)“風(fēng)險(xiǎn)”的處理依賴于決策者的價(jià)值判斷。若要嚴(yán)格控制一類錯(cuò)誤的概率α，就只能通過加大樣本含量來提高檢驗(yàn)效能。實(shí)際上，如果總體確有差別，那么對(duì)于小樣本試驗(yàn)，總體差別大假設(shè)檢驗(yàn)結(jié)果也不一定有統(tǒng)計(jì)學(xué)意義；而對(duì)于大樣本試驗(yàn)，總體差別小假設(shè)檢驗(yàn)結(jié)果也可以有統(tǒng)計(jì)學(xué)意義。需要說明的是，差別有統(tǒng)計(jì)學(xué)意義不一定有實(shí)際意義。如某新藥比常規(guī)用藥的有效率僅提高了1%，沒有臨床意義，但只要樣本量足夠大，假設(shè)檢驗(yàn)就一定能得出差別有統(tǒng)計(jì)學(xué)意義的結(jié)論[3]。

5 科研論文中假設(shè)檢驗(yàn)應(yīng)用常見的問題

5.1 未說明所用的假設(shè)檢驗(yàn)方法的名稱

不少利用假設(shè)檢驗(yàn)進(jìn)行數(shù)據(jù)分析的科研論文中都未說明所用的假設(shè)檢驗(yàn)方法的名稱，只簡(jiǎn)單地給出了P值。例如文獻(xiàn)[7]和[8]，讀者無法考察作者所選假設(shè)檢驗(yàn)方法是否正確、統(tǒng)計(jì)計(jì)算結(jié)果是否正確等，因此也無法判斷作者給出的結(jié)論的科學(xué)性。一般而言，科研論文中若用到了假設(shè)檢驗(yàn)方法就應(yīng)該說明具體的方法的名稱，例如2檢驗(yàn)，t檢驗(yàn)，F(xiàn)檢驗(yàn)等[9]。當(dāng)一篇論文中用到一個(gè)以上的統(tǒng)計(jì)分析方法時(shí)，還應(yīng)對(duì)每個(gè)統(tǒng)計(jì)結(jié)果所用的統(tǒng)計(jì)方法加以說明[10]。

5.2 樣本量小導(dǎo)致假設(shè)檢驗(yàn)結(jié)論的科學(xué)性差

樣本量太小是導(dǎo)致假設(shè)檢驗(yàn)效能較低、假設(shè)檢驗(yàn)結(jié)論科學(xué)性差的重要因素之一，但這種情況在科研論文中并不少見。如文獻(xiàn)[7]抽取了科研教育組用戶67人、企業(yè)組用戶23人，并對(duì)兩組人員的生物醫(yī)藥信息來源及信息交流方式進(jìn)行了統(tǒng)計(jì)分析，結(jié)果均為差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。

由于是計(jì)數(shù)資料，比較的是相對(duì)數(shù)指標(biāo)百分比，樣本太小時(shí)(尤其是企業(yè)組用戶僅抽取了23人)計(jì)算出的百分比不能正確地反應(yīng)對(duì)應(yīng)總體的真實(shí)情況，假設(shè)檢驗(yàn)效能較低，假設(shè)檢驗(yàn)結(jié)果的可信度較差，即差異無統(tǒng)計(jì)學(xué)意義(P>0.05)的結(jié)論的科學(xué)性較差。

6 結(jié)語

進(jìn)行假設(shè)檢驗(yàn)前，應(yīng)該先分析樣本數(shù)據(jù)所提示的總體間的差異在專業(yè)上或?qū)嶋H中是否有意義。如果有意義，再進(jìn)行檢驗(yàn)；如果沒有意義，就不必再作檢驗(yàn)了，因?yàn)椴徽摍z驗(yàn)結(jié)果如何，都是無價(jià)值的。

運(yùn)用假設(shè)檢驗(yàn)要正確設(shè)置原假設(shè)和備擇假設(shè)，應(yīng)該把想要證實(shí)的結(jié)論作為備擇假設(shè)，因?yàn)榧僭O(shè)檢驗(yàn)?zāi)軌驒z驗(yàn)備擇假設(shè)的真實(shí)性而不能驗(yàn)證原假設(shè)的真實(shí)性。假設(shè)檢驗(yàn)結(jié)果的正確性是以概率為保證的，不論拒絕或不拒絕檢驗(yàn)假設(shè)都可能發(fā)生錯(cuò)誤，應(yīng)結(jié)合專業(yè)知識(shí)下結(jié)論。當(dāng)假設(shè)檢驗(yàn)結(jié)果為差異無統(tǒng)計(jì)學(xué)意義時(shí)要慎重下組間無差異的結(jié)論，因?yàn)榇藭r(shí)有可能是因?yàn)闃颖咎?，假設(shè)檢驗(yàn)效能較低，無法測(cè)出存在的差別。必要時(shí)可通過加大樣本量降低兩類錯(cuò)誤的概率，提高假設(shè)檢驗(yàn)結(jié)果的科學(xué)性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡