王星杰 汪玉風(fēng) 潘海燕△ 丁元林 安勝利
【提 要】 目的 探究在完全隨機(jī)設(shè)計(jì)的單因素方差分析中非平衡設(shè)計(jì)與檢驗(yàn)效能大小的關(guān)系。方法 通過(guò)SAS程序分別估計(jì)出兩類檢驗(yàn)資料在給定參數(shù)下所需的樣本總量,然后利用蒙特卡洛模擬固定樣本總量時(shí)改變樣本比得到的檢驗(yàn)效能變化,以及樣本總量不固定,改變各樣本量時(shí)檢驗(yàn)效能的變化。并且推斷出在達(dá)到多大的樣本比時(shí)檢驗(yàn)效能低于預(yù)警值0.8。結(jié)果 在三組樣本的單因素方差分析中,不固定樣本總量時(shí)檢驗(yàn)效能隨樣本總量增加或減少呈單調(diào)遞增或遞減。固定樣本總量時(shí)檢驗(yàn)效能與樣本間的比例并不是呈簡(jiǎn)單的單調(diào)關(guān)系,而是受各樣本均值與總均值之差平方和的影響。結(jié)論 三組樣本的單因素方差分析中固定總樣本量時(shí),檢驗(yàn)效能隨樣本間比值的變化呈不規(guī)則變化。在給定理論檢驗(yàn)效能值的情況下能得出一個(gè)樣本比臨界值,在大于該值時(shí)檢驗(yàn)效能值會(huì)低于0.8。
假設(shè)檢驗(yàn)中,接受了實(shí)際不成立的H0(即Ⅱ類錯(cuò)誤)時(shí)其概率為β,檢驗(yàn)效能(power)也稱把握度,其值為1-β,它的意義是當(dāng)兩總體確實(shí)有差別時(shí),按規(guī)定的檢驗(yàn)水準(zhǔn)α所能發(fā)現(xiàn)該差別的能力[1]。樣本量的估計(jì)是實(shí)驗(yàn)設(shè)計(jì)前的重要部分,過(guò)高或者過(guò)低的樣本量都會(huì)影響實(shí)驗(yàn)的可靠性。理論檢驗(yàn)效能是估計(jì)樣本量的重要參數(shù),為了使實(shí)驗(yàn)推測(cè)的結(jié)果足夠可靠,我們一般在實(shí)驗(yàn)前先設(shè)定理論檢驗(yàn)效能,并以此來(lái)算樣本量[2]。影響檢驗(yàn)效能的因素有四個(gè),分別是:實(shí)驗(yàn)設(shè)計(jì)類型及方法、檢驗(yàn)水準(zhǔn)α、效應(yīng)量以及樣本量[3]。本次實(shí)驗(yàn)著重考慮實(shí)驗(yàn)設(shè)計(jì)方法和樣本量對(duì)檢驗(yàn)效能的影響。實(shí)驗(yàn)設(shè)計(jì)按樣本量相等與否分為兩類,當(dāng)樣本量相等時(shí)稱為平衡設(shè)計(jì),不相等時(shí)稱為非平衡設(shè)計(jì)。一般的觀點(diǎn)認(rèn)為平衡設(shè)計(jì)時(shí)檢驗(yàn)效能是最高的,本研究我們通過(guò)非平衡設(shè)計(jì)改變樣本量之間的比值,然后利用蒙特卡洛模擬分析計(jì)算其檢驗(yàn)效能,觀察其變化,并結(jié)合公式進(jìn)行解釋。
Monte Carlo法又稱隨機(jī)模擬法,它是利用不同分布隨機(jī)變量的抽樣序列模擬實(shí)際系統(tǒng)的概率統(tǒng)計(jì)模型,進(jìn)而給出問(wèn)題數(shù)值解的漸進(jìn)估計(jì)值。具體步驟,設(shè)計(jì)一個(gè)隨機(jī)事件,使一個(gè)事件的概率與某一未知數(shù)有關(guān),然后在軟件中重復(fù)實(shí)驗(yàn),利用這個(gè)事件出現(xiàn)的頻率近似得出它的概率,求出未知數(shù)的近似值。如果要計(jì)算檢驗(yàn)效能,可以將其定為未知數(shù),先用正態(tài)分布模擬出各樣本的數(shù)據(jù),然后對(duì)其進(jìn)行單因素方差分析。重復(fù)上述步驟1000次,統(tǒng)計(jì)出結(jié)果接受H0的頻率。因?yàn)榇髽颖舅玫念l率可以近似估計(jì)總體的頻率,所以在已知H0不成立時(shí)得到的接受H0的頻率,可以近似看作是本次假設(shè)檢驗(yàn)在當(dāng)前條件下的Ⅱ類錯(cuò)誤的估計(jì)值。同理,模擬不同分布就可以得到其相應(yīng)的檢驗(yàn)效能估計(jì)值[4]。
在臨床試驗(yàn)研究中,應(yīng)保證實(shí)驗(yàn)達(dá)到一定的檢驗(yàn)效能。當(dāng)P>0.05時(shí)會(huì)產(chǎn)生“陰性結(jié)果”,人們往往認(rèn)為此時(shí)的差別無(wú)統(tǒng)計(jì)學(xué)意義,實(shí)則忽視了這可能是由檢驗(yàn)效能過(guò)低引起的,從而放過(guò)了本來(lái)可能有統(tǒng)計(jì)學(xué)意義的結(jié)果。所以一般情況下,盡管尚有爭(zhēng)議,一些學(xué)者建議在得到陰性結(jié)果的同時(shí)應(yīng)該注明其檢驗(yàn)效能,這樣可以使讀者了解到更多的統(tǒng)計(jì)信息。通常規(guī)定檢驗(yàn)效能應(yīng)該不低于0.75或者0.80,這里我們選取0.80作為檢驗(yàn)效能的警戒值[5]。
當(dāng)前有很多軟件都可以進(jìn)行樣本量的估計(jì),如:SAS、SPSS、nQuery A dvisor和PASS等[6],還有一些網(wǎng)站也提供了樣本量估計(jì)模塊,如:http://powerandsamplesize.com/等。本次研究我們利用SAS 9.3中的proc power程序進(jìn)行給定參數(shù)下的樣本量估計(jì)。
1.三組樣本的單因素方差分析
單因素方差分析用到的基本公式,由Cohen提出:
2.固定樣本總量
在固定總樣本量的情況下各組樣本間不同比例所對(duì)應(yīng)的檢驗(yàn)效能。分別增加第一組和第二組樣本所占比例,檢驗(yàn)效能都逐漸減小,且第二組樣本比例變化所引起的檢驗(yàn)效能降低幅度要大于第一組。以理論檢驗(yàn)效能值0.9為例,增加第三組樣本所占比例時(shí),檢驗(yàn)效能先逐漸增加,在樣本比例達(dá)到1:1:4時(shí)檢驗(yàn)效能低于0.90。同時(shí)增加二、三組樣本所占比例,其檢驗(yàn)效能降低。但同時(shí)增加一、三組所占比例,其檢驗(yàn)效能逐漸增加,且增幅超過(guò)單獨(dú)增加第三組比例時(shí)的增幅。當(dāng)一、三組所占比例達(dá)到一定程度后,如20:1:20,檢驗(yàn)效能開(kāi)始降低,見(jiàn)表1。
表1 固定樣本總量改變樣本量比所對(duì)應(yīng)的檢驗(yàn)效能(power)值
*:N=樣本總量
表2 固定樣本總量改變樣本量比所對(duì)應(yīng)的檢驗(yàn)效能(power)值
*:N=樣本總量
從表2中我們可以看出其結(jié)果與上述結(jié)論一致,在最大d值所對(duì)應(yīng)的第三組樣本達(dá)到1:1:3時(shí)檢驗(yàn)效能開(kāi)始降低,所以應(yīng)將比例維持在1:1:3以內(nèi)。在最小d值所對(duì)應(yīng)的第二組樣本達(dá)到1:3:1時(shí)檢驗(yàn)效能小于0.8(這是理論檢驗(yàn)效能在0.9時(shí)得出的結(jié)論,同理可以得出不同理論檢驗(yàn)效能下的臨界比例)。唯一不同的是當(dāng)一、三組所占比例增加到更高時(shí)檢驗(yàn)效能才開(kāi)始降低。我們可以得出當(dāng)樣本總量增加時(shí),三組樣本間需要更大的比例才會(huì)使樣本嚴(yán)重失衡,所以使樣本嚴(yán)重失衡的比例并不是固定的。
3.樣本量不固定
各樣本量同時(shí)增加或減少時(shí),檢驗(yàn)效能隨總樣本量的變化,見(jiàn)圖1。在各樣本量相等,同時(shí)增大或減小相同值的情況下,檢驗(yàn)效能隨著樣本量的增加而增加,且增長(zhǎng)趨勢(shì)逐漸變緩。接下來(lái)探究總樣本量不固定,單獨(dú)增加某些樣本的樣本量時(shí)檢驗(yàn)效能的變化。以大樣本量1836為例。各組樣本量相等時(shí)為612,這時(shí)的理論檢驗(yàn)效能為0.90,見(jiàn)表3。
由表3可以看出單獨(dú)增加第一組樣本量時(shí),其檢驗(yàn)效能隨樣本量的增加而增加,單獨(dú)減少第一組樣本量時(shí)其檢驗(yàn)效能隨樣本量的減少而降低(第二、三組同理)。單獨(dú)增加第二組樣本量時(shí)其檢驗(yàn)效能的增幅很小(出現(xiàn)兩個(gè)0.901可能是因?yàn)樗纳嵛迦朐斐傻?幾乎不變。同時(shí)減少三組樣本時(shí)其檢驗(yàn)效能隨之降低(增加同理)。原因同上,是受d值大小的影響。
圖1 檢驗(yàn)效能隨總樣本量的變化
各組樣本量power值(620,612,612)0.902(650,612,612)0.907(700,612,612)0.915(612,620,612)0.901(612,650,612)0.901(612,700,612)0.902(600,612,612)0.898(600,600,600)0.894
當(dāng)樣本總量固定,分析三組樣本時(shí)并不是各組樣本量相同其檢驗(yàn)效能就最大,所以我們可以適當(dāng)減少d值較小組的樣本量,增加d值較大組的樣本量,且最好是同時(shí)增加兩組d值較大的樣本量,這樣得到的檢驗(yàn)效能會(huì)大于單獨(dú)增加d值最高組的樣本量。同時(shí)也要注意不可使樣本間差距過(guò)大導(dǎo)致樣本嚴(yán)重失衡。如:當(dāng)增加d值最大組樣本量時(shí)比例應(yīng)維持在1:1:3以內(nèi)。當(dāng)樣本總量不固定我們可以通過(guò)增加d值較大組的樣本量來(lái)增加檢驗(yàn)效能。如果出于成本、時(shí)間等考慮要減少樣本量時(shí),可以優(yōu)先減少d值較小組的樣本量,使其對(duì)檢驗(yàn)效能的影響降到最低。
本研究結(jié)論不同于研究者的慣性思維(即檢驗(yàn)效能隨著樣本量的增加而增大),提醒我們?cè)谠O(shè)計(jì)各組樣本量時(shí),不能僅憑經(jīng)驗(yàn)進(jìn)行判斷,而是應(yīng)該建立在合理的統(tǒng)計(jì)推斷結(jié)論之下。此次研究只針對(duì)三樣本資料進(jìn)行了論述,具有一定的局限性,目前有關(guān)這方面的研究文獻(xiàn)較少,多樣本資料的相關(guān)分析還有待進(jìn)一步補(bǔ)充和完善。
中國(guó)衛(wèi)生統(tǒng)計(jì)2019年4期