胡純嚴(yán),胡良平,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029
基于均值比較的方差分析的結(jié)果是對(duì)定量資料中每個(gè)試驗(yàn)因素各水平下均值之間是否存在差異的一個(gè)概括性結(jié)論,若某因素各水平下均值之間的差異無(wú)統(tǒng)計(jì)學(xué)意義,就不需要對(duì)該因素各水平下均值做進(jìn)一步比較了;反之,則需要進(jìn)行多重比較。本文針對(duì)多重比較問(wèn)題進(jìn)行探討,闡釋各種多重比較方法之間的異同點(diǎn)以及使用時(shí)的指導(dǎo)思想和參考建議。
當(dāng)比較兩個(gè)以上的平均值時(shí),方差分析(或稱F檢驗(yàn))會(huì)反映這些平均值之間的差異是否有統(tǒng)計(jì)學(xué)意義,但它不會(huì)反映哪些平均值與其他平均值不同。多重比較的目的是比較三種及以上“處理”(例如不同藥物、不同受試者)的平均效應(yīng),以確定哪些處理更好、哪些更差,以及比較處理程度,同時(shí)控制做出錯(cuò)誤決定的概率。SAS/STAT的GLM過(guò)程中的MEANS和LSMEANS語(yǔ)句提供多種多重比較的方法[1]。
多重比較過(guò)程可以通過(guò)兩種方式進(jìn)行分類:根據(jù)它們所做的比較和它們所提供的推理強(qiáng)度。根據(jù)所做的比較,GLM過(guò)程提供了兩種類型[1-2]:①所有平均值對(duì)之間的比較;②對(duì)照與其他所有方法之間的比較。推理的強(qiáng)度表示當(dāng)一個(gè)檢驗(yàn)有統(tǒng)計(jì)學(xué)意義時(shí),可推斷出的關(guān)于平均值結(jié)構(gòu)的內(nèi)容;它與多重比較過(guò)程控制的錯(cuò)誤率類型有關(guān)。GLM過(guò)程中可用的多重比較過(guò)程按從弱到強(qiáng)的順序提供以下推理類型之一:①單次比較,均值之間的差異,未針對(duì)多次比較進(jìn)行調(diào)整;②不均勻性,表示均值彼此不同;③不等,哪些均值之間是不同的;④區(qū)間,展示均值差異的聯(lián)合置信區(qū)間。
在PROC GLM過(guò)程中,用兩張表給出了可用于所有成對(duì)比較、所有處理組與對(duì)照組比較的多重比較過(guò)程,以及MEANS和LSMEANS語(yǔ)句中關(guān)于各種多重比較方法的選項(xiàng)[1]。因篇幅所限,此處從略。
平均值比較的一種特殊情況是,需要檢驗(yàn)的唯一比較是一組新處理和一個(gè)單一對(duì)照之間的比較[3]。在這種情況下,可以通過(guò)使用僅限于檢驗(yàn)與單個(gè)控制平均值比較的方法來(lái)獲得更好的功效。Dunnett針對(duì)這種情況提出了一種檢驗(yàn),如果下式成立,該檢驗(yàn)表明所考察的平均值與對(duì)照組平均值之間的差異有統(tǒng)計(jì)學(xué)意義:
平均值分析(ANOM)是一種比較組平均值并以圖形方式顯示比較結(jié)果的方法[1]。如果某組的均值與總體平均值差異有統(tǒng)計(jì)學(xué)意義,則判斷均值不同,并根據(jù)多次比較調(diào)整顯著性水平??偲骄底鳛長(zhǎng)SMEANS的加權(quán)平均值計(jì)算,權(quán)重與方差成反比。如果在LSMEANS語(yǔ)句中使用PDIFF=ANOM選項(xiàng),則該方法將顯示用于檢驗(yàn)每個(gè)LSMEANS和平均LSMEANS之間差異的P值(默認(rèn)情況下,針對(duì)多次比較進(jìn)行了調(diào)整)。SAS/QC軟件中的ANOM過(guò)程顯示表格和圖形,用于分析各種響應(yīng)類型的平均值。對(duì)于單因素設(shè)計(jì),PDIFF=ANOM比較的置信區(qū)間等同于PROC ANOVA的結(jié)果。不同之處在于,PROC GLM直接顯示差異的置信區(qū)間,而PROC ANOVA的圖形輸出將其顯示為總體平均值周圍的決策界限。
Tukey、Dunnett和Nelson的檢驗(yàn)都基于相同的一般分位數(shù)計(jì)算[1]:
在式(10)中,ti(i=1,2,…,n)服從自由度為v、相關(guān)系數(shù)矩陣為R的聯(lián)合多元t分布。一般來(lái)說(shuō),評(píng)估qt(1-α,v,R)需要對(duì)(n+1)重積分進(jìn)行重復(fù)的數(shù)值計(jì)算,這通常是很難解決的。但在Tukey檢驗(yàn)中,當(dāng)R具有一定的對(duì)稱性時(shí),問(wèn)題會(huì)簡(jiǎn)化為可行的2重積分,在Dunnett和Nelson檢驗(yàn)中,則會(huì)簡(jiǎn)化為因子分析結(jié)構(gòu)。在以下兩種情況下,R矩陣具有精確計(jì)算Tukey檢驗(yàn)所需的對(duì)稱性:①ti是具有相同方差的k個(gè)不相關(guān)均值形成的k(k-1)/2對(duì)均值之間的學(xué)生化差量;②ti是方差平衡設(shè)計(jì)(例如平衡不完全區(qū)組設(shè)計(jì))中k個(gè)LSMEANS形成的k(k-1)/2對(duì)均值之間的學(xué)生化差量。
可以使用到目前為止討論的所有方法來(lái)獲得同時(shí)的置信區(qū)間。通過(guò)犧牲同步估計(jì)功能,使用多階段檢驗(yàn)(MST)獲得更大功效的同步檢驗(yàn)[4-5]。MST有上升和下降兩種類型。SAS/STAT軟件中提供了使用更廣泛的下降方法[1]。逐步下降MST首先在一個(gè)水平γk上檢驗(yàn)所有平均值的均勻性。如果檢驗(yàn)結(jié)果為拒絕,則k-1個(gè)平均值的每個(gè)子集都在一個(gè)水平γk-1進(jìn)行檢驗(yàn);否則,程序?qū)⑼V?。一般?lái)說(shuō),如果一組p個(gè)均值的同質(zhì)性假設(shè)在該水平γp上被拒絕,則在該水平γk-1上檢驗(yàn)p-1個(gè)均值的每個(gè)子集;否則,p個(gè)均值集被認(rèn)為差異無(wú)統(tǒng)計(jì)學(xué)意義,且其子集均不進(jìn)行檢驗(yàn)。已提出的多種MST在子集檢驗(yàn)所依據(jù)的水平γp和統(tǒng)計(jì)量上有所不同。顯然,下降MST的EERC不大于γk,CER不大于γ2,但MEER是γp(p=2,…,k)的一個(gè)復(fù)雜函數(shù)。
對(duì)于不相等的單元格大小,PROC GLM使用單元格大小的調(diào)和平均值作為公共樣本大小。然而,由于產(chǎn)生的運(yùn)行特性可能不理想,建議僅在平衡情況下使用MST。當(dāng)樣本大小相等時(shí),使用極差統(tǒng)計(jì)量可以按升序或降序排列均值,并僅檢驗(yàn)連續(xù)子集。但如果指定F統(tǒng)計(jì)量,則無(wú)法使用此快捷方式。因此,僅實(shí)施基于極差的MST。通常情況下,報(bào)告MST結(jié)果的方法是按這樣的順序書寫平均值,并繪制平行于齊次子集平均值列表的線。這種表示形式也便于在單元格大小相同的情況下進(jìn)行成對(duì)比較。
最著名的MST是Duncan(Duncan選項(xiàng))和Stu‐dent-Newman-Keuls(SNK選項(xiàng))方法。 Duncan的方法見(jiàn)式(11),SNK方法見(jiàn)式(12)。
統(tǒng)計(jì)學(xué)家還提出了一些其他“多階段檢驗(yàn)”方法,因篇幅所限,此處從略。
【例1】為了研究某種降血脂新藥的臨床療效,按統(tǒng)一納入標(biāo)準(zhǔn)選擇120例高血脂患者,采用完全隨機(jī)設(shè)計(jì)方法將患者等分為四組(A組:安慰劑組;B組:2.4 g組;C組:4.8 g組;D組:7.2 g組),每組30例,進(jìn)行雙盲法試驗(yàn)。6周后檢測(cè)患者低密度脂蛋白含量(單位:mmol/L)作為定量試驗(yàn)結(jié)果,具體數(shù)據(jù)見(jiàn)后面的SAS程序(此處從略)[4]。問(wèn)四個(gè)藥物組患者的低密度脂蛋白含量總體均值之間的差異是否有統(tǒng)計(jì)學(xué)意義?
【分析與解答】本例屬于單因素四水平設(shè)計(jì)一元定量資料,可采用相應(yīng)設(shè)計(jì)定量資料的方差分析;若四組均值之間的差異有統(tǒng)計(jì)學(xué)意義,還需要對(duì)四個(gè)均值進(jìn)行多重比較。設(shè)所需要的SAS程序如下:
【SAS程序說(shuō)明】第1個(gè)過(guò)程步的作用是進(jìn)行四組間兩兩比較;第2個(gè)過(guò)程步的作用是以“A組”為對(duì)照組,其他組都與A組比較。
【SAS輸出結(jié)果及解釋】
以上結(jié)果表明:四個(gè)均值之間的差異有統(tǒng)計(jì)學(xué)意義。
基于SNK法的分析結(jié)果見(jiàn)圖1。
圖1 基于SNK法的分析結(jié)果
由圖1可看出,僅B組與C組均值之間差異無(wú)統(tǒng)計(jì)學(xué)意義,其他任何兩組均值之間的差異均有統(tǒng)計(jì)學(xué)意義。WALLER法的分析結(jié)果與圖1的結(jié)果相同,此處從略。
【說(shuō)明】以上比較的顯著性水平α=0.05。B、C、D組與A組均值比較的結(jié)果,差異均有統(tǒng)計(jì)學(xué)意義。
【專業(yè)結(jié)論】降血脂新藥的三個(gè)劑量均能降低高血脂患者低密度脂蛋白含量;7.2 g劑量效果最好,2.4 g劑量與4.8 g劑量之間的差異不明顯。
多重比較是方差分析之后不可缺少的內(nèi)容。然而,由于多重比較的方法非常多,特別是各方法控制的誤差類型不同,導(dǎo)致結(jié)果的推論強(qiáng)度不同[1]。使用者在選擇這些多重比較方法時(shí),可參考SAS軟件所給出的建議:如果對(duì)幾個(gè)孤立的比較感興趣,并且不關(guān)心多重推斷的影響,可以重復(fù)使用t檢驗(yàn)[7-8]或Fisher無(wú)保護(hù)LSD法;如果對(duì)所有成對(duì)比較或與對(duì)照組的所有比較感興趣,則應(yīng)分別使用Tukey檢驗(yàn)和Dunnett檢驗(yàn),以便做出可能最強(qiáng)的推斷;如果對(duì)推理要求較弱,特別是如果不需要均值差異的置信區(qū)間,則應(yīng)使用REGWQ法。如果同意貝葉斯方法以及Waller和Duncan的假設(shè),應(yīng)該使用Waller-Duncan檢驗(yàn)。
當(dāng)各水平組樣本含量不相等時(shí),多次比較也會(huì)導(dǎo)致違反直覺(jué)的結(jié)果。例如,考慮A、B、C、D四個(gè)因素,以A>B>C>D為樣本均值,A和D各有兩個(gè)觀測(cè)值,B和C各有10 000個(gè)觀測(cè)值,B和C的差異可能有統(tǒng)計(jì)學(xué)意義,而A和D之間的差異則可能沒(méi)有統(tǒng)計(jì)學(xué)意義。
本文詳細(xì)介紹了SAS/STAT的GLM過(guò)程中可以實(shí)現(xiàn)的所有多重比較方法,根據(jù)結(jié)果的推論強(qiáng)度,它們可以被劃分成4類,共11種;另外,還有貝葉斯方法。借助SAS軟件對(duì)一個(gè)實(shí)例進(jìn)行了方差分析,并給出了采用SNK法、Waller法(即貝葉斯法)和Dunnett法進(jìn)行多重比較的結(jié)果。