胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在對單因素資料進(jìn)行差異性分析時,若發(fā)現(xiàn)資料不滿足參數(shù)檢驗(yàn)的前提條件,宜選用適用面寬的非參數(shù)檢驗(yàn)。其中,秩和檢驗(yàn)可能是常被選用的方法之一。本文將介紹兩樣本資料秩和檢驗(yàn)[1-6]、多樣本資料秩和檢驗(yàn)[1-6]以及前述兩種情形下都可能會用到的10種評分方法[1]。
1.1.1 未分層資料的簡單線性秩檢驗(yàn)
未分層資料的簡單線性秩檢驗(yàn)的檢驗(yàn)統(tǒng)計量[1]見式(1):
在式(1)中,z是一個服從標(biāo)準(zhǔn)正態(tài)分布的檢驗(yàn)統(tǒng)計量(即隨機(jī)變量),S、E0(S)和Var0(S)分別代表未分層資料的“簡單線性秩統(tǒng)計量”“簡單線性秩統(tǒng)計量的期望值”和“簡單線性秩統(tǒng)計量的方差”,定義分別見式(2)、式(3)、式(4):
在上述三式中,各變量的含義如下:Rj是第j個觀測或個體的秩;a(Rj)是基于第j個觀測的秩的得分(注意:評分的具體方法有多種,將在后文介紹);Cj是指示變量代表第j個觀測所在的組;n代表總觀測數(shù)(即總樣本含量);n1代表第1組(較小樣本含量)樣本含量;n2代表第2組樣本含量;是平均得分。
基于標(biāo)準(zhǔn)正態(tài)分布理論和式(1)計算所得到的z值,可計算出與z對應(yīng)的正態(tài)分布曲線下尾端的概率P值,右單側(cè)概率、左單側(cè)概率和雙側(cè)概率分別見式(5)、式(6)、式(7):
連續(xù)性校正:當(dāng)基于Wilcoxon和Siegel-Tukey評分且進(jìn)行漸近雙側(cè)檢驗(yàn)時,SAS/STAT的NPAR1WAY過程將默認(rèn)進(jìn)行連續(xù)性校正,即當(dāng)式(1)分子的計算結(jié)果大于0時,分子減掉0.5;當(dāng)式(1)分子的計算結(jié)果小于0時,分子加上0.5。若想取消連續(xù)性校正,需要在“PROC NPAR1WAY”語句中增加選項(xiàng)“CORRECT=NO”。
1.1.2 分層資料的簡單線性秩檢驗(yàn)
若資料中有一個分層因素(通常稱其為重要非試驗(yàn)因素),設(shè)其有K(K>2)個水平,在分層因素的每個水平下,試驗(yàn)因素均有兩個水平(即兩個對比組)。于是,分層資料的簡單線性秩檢驗(yàn)的檢驗(yàn)統(tǒng)計量[1]見式(8):
式(8)中,z是一個服從標(biāo)準(zhǔn)正態(tài)分布的檢驗(yàn)統(tǒng)計量(即隨機(jī)變量),T、E0(T)和Var0(T)分別代表分層資料的“簡單線性秩統(tǒng)計量”“簡單線性秩統(tǒng)計量的期望值”和“簡單線性秩統(tǒng)計量的方差”,其定義分別見式(9)、式(10)、式(11):
在以上三式中,Sk為第k層的“簡單線性秩統(tǒng)計量”,wk為第k層的權(quán)重,其定義見式(12):
在式(12)中,nk為第k層的樣本含量。如果在“STRATA”語句中,指定“WEIGHTS=STRATUM”,則wk=1/(nk+1 );如果指定“WEIGHTS=EQUAL”,則wk=1。
1.2.1 概述
Fligner和Policello于1981年提出的比較兩組定量資料中位數(shù)的檢驗(yàn)方法[1],被稱為“Fligner-Policello檢驗(yàn)法”。該法假定每組定量資料服從對稱分布,但不要求兩組定量資料具有相同的分布,也不要求兩組定量資料的方差相等。該法是基于Orban和Wolfe于1979年提出的“配置得分”而構(gòu)建。設(shè)有X與Y兩個組,來自X組的觀測Xi的配置得分記為P(Xi),其取值定義如下:P(Xi)=Y組中取值小于Xi的數(shù)據(jù)個數(shù);如果遇到相等的數(shù)值,需要對P(Xi)進(jìn)行校正,即在已知P(Xi)的基礎(chǔ)上增加Y組中取值等于Xi的數(shù)據(jù)個數(shù)的一半。對來自Y組的觀測Yj的配置得分記為P(Yj),其取值定義與P(Xi)相同。
1.2.2 配置得分的定義
在式(13)、式(14)中,nX和nY分別代表X組與Y組的樣本含量;I(·)是指示函數(shù)。于是,兩組各自的平均配置得分的計算公式分別見式(15)、式(16):
1.2.3 Fligner-Policello檢驗(yàn)統(tǒng)計量
Fligner-Policello檢驗(yàn)統(tǒng)計量見式(17):
在式(17)中,z是一個服從標(biāo)準(zhǔn)正態(tài)分布的檢驗(yàn)統(tǒng)計量(即隨機(jī)變量);VX和VY的計算分別見式(18)、式(19):
X和Y與兩個組的配置得分的標(biāo)準(zhǔn)差分別見式(20)、式(21):
【說明】P值的定義與式(5)、式(6)、式(7)相同,此處從略。
對多組定量資料進(jìn)行比較的秩和檢驗(yàn)法常有下面兩個名稱,第一個叫做“單因素ANOVA檢驗(yàn)”;第二個叫做“Kruskal-Wallis檢驗(yàn)(采取Wilcoxon評分法)”。其實(shí),它們本質(zhì)上都屬于“χ2檢驗(yàn)”。當(dāng)對多組定量資料進(jìn)行整體比較時,其檢驗(yàn)假設(shè)為“H0:各組之間沒有差別”。
設(shè)有一個具有r個水平的試驗(yàn)因素,對定量資料進(jìn)行r組之間的整體比較時,所需要的檢驗(yàn)統(tǒng)計量[1]見式(22):
在式(22)中,C是一個服從自由度為df=r-1的χ2分布的檢驗(yàn)統(tǒng)計量;ni是第i個水平組的樣本含量;Ti是第i個水平組的得分之和;E0(Ti)是在H0成立的條件下第i個水平組的期望秩和;S2是得分的樣本方差。Ti、E0(Ti)和S2的計算公式分別見式(23)、式(24)、式(25):
2.3.1 概述
由Dwass、Steel、Critchlow和Fligner提出的多重比較方法,簡稱為“DSCF檢驗(yàn)法”。此法從r(r>2)個組中每次抽取兩組進(jìn)行比較,故總共需要比較r×(r-1)/2次。每次比較都基于標(biāo)準(zhǔn)化的威爾科克森檢驗(yàn)統(tǒng)計量,即采取威爾科克森法評分,并采用式(1)計算z統(tǒng)計量。
2.3.2 DSCF檢驗(yàn)統(tǒng)計量
基于標(biāo)準(zhǔn)化的威爾科克森z檢驗(yàn)統(tǒng)計量構(gòu)造出DSCF檢驗(yàn)統(tǒng)計量見式(26):
在式(26)中,z是采取威爾科克森法評分,并采用式(1)計算的結(jié)果(注意:每次比較只涉及兩組定量資料);而DSCF是一個近似服從于“r個標(biāo)準(zhǔn)正態(tài)變量的學(xué)生化極差分布”的檢驗(yàn)統(tǒng)計量。兩樣本DSCF比較的P值可以通過下面的方法求出,即將DSCF統(tǒng)計量的值視為學(xué)生化極差分布的百分位數(shù),從而,基于學(xué)生化極差分布下特定百分位數(shù)計算出分布曲線下尾端的概率,即為所求的P值。
秩和檢驗(yàn)的一個特點(diǎn)就是不直接利用原始數(shù)據(jù),而是先根據(jù)原始數(shù)據(jù)的大小給它們編秩。所謂編秩,就是給每個原始數(shù)據(jù)賦予一個自然數(shù),代表每個原始數(shù)據(jù)在一組和整個資料中的“相對位置”。然后再依據(jù)不同的數(shù)學(xué)原理,對每個“秩”進(jìn)行“評分”或“賦值”。SAS/STAT的NPAR1WAY過程[1]中介紹了十多種評分方法,現(xiàn)呈現(xiàn)其主要內(nèi)容。
3.2.1 威爾科克森(Wilcoxon)評分法
威爾科克森評分是觀測的秩,可用公式表示如下:
在式(27)中,Rj是第j個觀測的秩,而a(Rj)是第j個觀測的評分。
【說明】在兩樣本資料的線性秩統(tǒng)計量中采用威爾科克森評分產(chǎn)生Mann-Whitney-Wilcoxon檢驗(yàn)的秩和統(tǒng)計量;在多樣本資料的單因素ANOVA統(tǒng)計量中采用威爾科克森評分產(chǎn)生Kruskal-Wallis檢驗(yàn)的秩和統(tǒng)計量;對于logistic分布的位置改變來說,威爾科克森評分是局部最有效能的。
3.2.2 中位數(shù)(Median)評分法
當(dāng)資料中的觀測值大于中位數(shù)時,則該觀測的中位數(shù)評分等于1;否則,中位數(shù)評分等于0。依據(jù)觀測的秩,中位數(shù)評分的定義見下式:
【說明】在兩樣本資料的線性秩統(tǒng)計量中采用中位數(shù)評分產(chǎn)生兩樣本中位數(shù)檢驗(yàn)的秩和統(tǒng)計量;在多樣本資料的單因素ANOVA統(tǒng)計量中采用中位數(shù)評分產(chǎn)生Brown-Mood檢驗(yàn)的秩和統(tǒng)計量;中位數(shù)評分用于尾部抬高且對稱分布時,效能特別高。
3.2.3 Van der Waerden(正態(tài))評分
Van der Waerden評分是標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),也被稱為分位數(shù)正態(tài)評分。該評分的計算公式見式(29):
在式(29)中,Φ是標(biāo)準(zhǔn)正態(tài)分布的累計分布函數(shù)。對于正態(tài)分布而言,這些評分的效能極高。
3.2.4 Savage評分
Savage評分是來自指數(shù)分布的順序統(tǒng)計量的期望值,通過減掉1使評分的中心位于0附近。該評分的計算公式見式(30):
Savage評分在以下兩種情形中具有高效能,其一,在指數(shù)分布中比較尺度差異;其二,在極值分布中比較位置變化。
3.3.1 Siegel-Tukey評分
Siegel-Tukey評分的定義如下:
a(1)=1,a(n)=2,a(n-1)=3,a(2)=4
a(3)=5,a(n-2)=6,a(n-3)=7,a(4)=8,…
這里得分值按此模式朝著中間連續(xù)增加,直到全部觀測中的每個觀測都被賦予一個得分值為止。
【說明】當(dāng)進(jìn)行Siegel-Tukey兩樣本檢驗(yàn)的計算時,SAS/STAT中NPAR1WAY過程默認(rèn)需要進(jìn)行校正;如果用戶不想進(jìn)行校正,需要在“PROC NPAR1WAY”語句中增加選項(xiàng)“CORRECT=NO”。
3.3.2 Ansari-Bradley評分
Ansari-Bradley評分為對應(yīng)的極端秩賦予相同的得分,其定義如下:
a(1)=1,a(n)=1,a(2)=2,a(n-1)=2
a(3)=3,a(n-2)=3,a(4)=4,a(n-3)=4,…
等價地,Ansari-Bradley評分可用如下通式表示:
3.3.3 Klotz評分
Klotz評分是Van der Waerden評分的平方,其定義如下:
在式(32)中,Φ是標(biāo)準(zhǔn)正態(tài)分布的累計分布函數(shù)。
3.3.4 Mood評分
Mood評分按照觀測的秩與平均秩之差量的平方進(jìn)行計算,其定義如下:
Conove評分是基于觀測值與其樣本算術(shù)平均值之離差絕對值的秩的平方,對于第j個觀測而言,其定義如下:
在式(34)中,Uj的計算見式(35):
在式(35)中,i代表第i個樣本(組);j代表第i個樣本中第j個觀測;Xj(i)代表第i樣本中第j個觀測的觀測值;i代表第i個樣本的算術(shù)平均值;Uj代表第i個樣本中第j個觀測的秩。
【說明】Conove于1999年提出,若在第i個樣本的全部Uj中出現(xiàn)了相同的數(shù)值(稱為“ties”),則先按無相同數(shù)據(jù)編秩(即給予編號),再求那幾個相同數(shù)據(jù)所對應(yīng)秩的算術(shù)平均值,并以此平均值作為它們的“秩”。Conove評分檢驗(yàn)也被稱為“方差的平方秩檢驗(yàn)”。
【例1】某地59例女性類風(fēng)濕性關(guān)節(jié)炎患者參加了一項(xiàng)臨床試驗(yàn)[1],她們被隨機(jī)分配進(jìn)入試驗(yàn)組(n=27)與安慰劑對照組(n=32)。結(jié)果變量有5種不同的取值,即“療效特好=5”“療效尚好=4”“療效中等=3”“療效一般=2”和“療效差=1”。記錄每位患者所接受的處理和療效的具體取值,臨床試驗(yàn)結(jié)果以頻數(shù)表形式呈現(xiàn),詳見后面的SAS程序,此處從略。試對兩組有序資料進(jìn)行秩和檢驗(yàn),以評價兩種治療方法的效果差異是否有統(tǒng)計學(xué)意義。
4.2.1 對例1的SAS實(shí)現(xiàn)
【分析與解答】設(shè)所需要的SAS程序如下:
【程序說明】“從ab到fp”這10個選項(xiàng)是秩和檢驗(yàn)中的10種評分方法;其中,“fp”是前文介紹的Fligner-Policello檢驗(yàn)法。
【SAS輸出結(jié)果及解釋】因篇幅所限,以下僅呈現(xiàn)“威爾科克森檢驗(yàn)結(jié)果”,其他檢驗(yàn)方法輸出的結(jié)果從略。
以上是威爾科克森檢驗(yàn)輸出的第1部分結(jié)果,即輸出兩組描述性統(tǒng)計量的計算結(jié)果,治療組的平均秩為37.00分,對照組的平均秩為24.09分。
以上是威爾科克森檢驗(yàn)輸出的第2部分結(jié)果,即以標(biāo)準(zhǔn)正態(tài)分布為理論根據(jù)計算得到的結(jié)果,雙側(cè)檢驗(yàn)的P=0.0046<α=0.05。
以上是威爾科克森檢驗(yàn)輸出的第3部分結(jié)果,即以χ2分布為理論根據(jù)計算得到的結(jié)果,P=0.0031<α=0.05。
【統(tǒng)計結(jié)論與專業(yè)結(jié)論】由輸出結(jié)果可知,前4種檢驗(yàn)方法和第10種檢驗(yàn)方法給出的檢驗(yàn)結(jié)果均為P<0.05,說明治療組與對照組療效的“平均秩”或“中位數(shù)”之間差異有統(tǒng)計學(xué)意義;由于治療組的“平均秩”或“中位數(shù)”大于對照組的“平均秩”或“中位數(shù)”,又因評分值越大標(biāo)志著療效越好,故可以認(rèn)為“active”治療方法的效果優(yōu)于安慰劑。
第5~8種檢驗(yàn)方法的檢驗(yàn)結(jié)果均為P>0.05,說明治療組與對照組療效的“離散度(即尺度參數(shù))”之間差異無統(tǒng)計學(xué)意義,即兩組有序資料的變化范圍接近一致。
第9種檢驗(yàn)方法的檢驗(yàn)結(jié)果為P>0.05,說明治療組與對照組療效的“位置參數(shù)”和“離散度(即尺度參數(shù))”綜合的指標(biāo)之間差異無統(tǒng)計學(xué)意義。
秩和檢驗(yàn)有兩個優(yōu)點(diǎn):其一,對資料的要求不高;其二,選擇不同的評分方法可以分別實(shí)現(xiàn)“位置參數(shù)(如平均值、平均秩、中位數(shù))”“尺度參數(shù)(如標(biāo)準(zhǔn)差、分位數(shù)間距)”和“位置參數(shù)以及尺度參數(shù)”的比較。其缺點(diǎn)在于:不適合分析多因素資料。為了保留對資料要求不高的優(yōu)點(diǎn),又能夠處理多因素資料,需要選擇復(fù)雜的非參數(shù)統(tǒng)計分析方法[6-8]。
本文介紹了適用于分析單因素資料的秩和檢驗(yàn)方法,包括分析單因素兩水平設(shè)計資料的“簡單線性秩檢驗(yàn)”和單因素多水平設(shè)計資料的“單因素多水平ANOVA檢驗(yàn)”。詳細(xì)介紹了在前述兩類檢驗(yàn)中都不可缺少的10種評分方法。通過一個實(shí)例并借助SAS軟件,實(shí)現(xiàn)了單因素兩水平設(shè)計資料的簡單線性秩檢驗(yàn),呈現(xiàn)了10種評分方法計算所得到的結(jié)果,對輸出結(jié)果作出了解釋,并給出了統(tǒng)計結(jié)論和專業(yè)結(jié)論。