鮑曉蕾,王璐,胡良平
當(dāng)觀測(cè)結(jié)果是定性資料時(shí),人們習(xí)慣將資料整理成列聯(lián)表形式。比如“2×2 列聯(lián)表資料”、“R×C 列聯(lián)表資料”和“高維列聯(lián)表資料”等。所謂高維列聯(lián)表,也就是表中涉及到的定性變量的個(gè)數(shù) k ≥ 3。對(duì)于高維列聯(lián)表資料,根據(jù)結(jié)果變量的性質(zhì)可將其分為以下三類:一是結(jié)果變量為二值變量的高維列聯(lián)表;二是結(jié)果變量為多值有序變量的高維列聯(lián)表;三是結(jié)果變量為多值名義變量的高維列聯(lián)表。本文將詳細(xì)介紹結(jié)果變量為多值有序變量的高維列聯(lián)表及其用SAS 軟件實(shí)現(xiàn)統(tǒng)計(jì)分析的內(nèi)容。
對(duì)于結(jié)果變量為多值有序變量的高維列聯(lián)表可使用CMH 校正的秩和檢驗(yàn)或有序變量多重 logistic 回歸分析等統(tǒng)計(jì)分析方法。對(duì)數(shù)線性模型無(wú)法考察資料的有序性,因此不宜選用。若采用 CMH 校正的秩和檢驗(yàn),應(yīng)注意結(jié)合待考察的原因變量是否為多值有序變量而選擇合適的統(tǒng)計(jì)量;若采用有序變量多重 logistic 回歸分析,應(yīng)注意結(jié)合原因變量中是否存在多值名義變量或多值有序變量而決定對(duì)原因變量的賦值方法。本文將詳細(xì)介紹 CMH 校正的秩和檢驗(yàn)。
CMH 檢驗(yàn)作為擴(kuò)展的 MH 檢驗(yàn),從一定意義上講,是一種概括統(tǒng)計(jì)方法,它在考慮控制分層因素影響的前提下,根據(jù) R×C 表格中行變量與列變量,即原因變量與結(jié)果變量屬性的不同,給出三種檢驗(yàn)統(tǒng)計(jì)量。當(dāng)行變量與列變量均為多值有序變量時(shí),可選擇非零相關(guān)統(tǒng)計(jì)量;當(dāng)行變量為名義變量而列變量為多值有序變量時(shí),可選擇行平均得分統(tǒng)計(jì)量,也稱為方差分析統(tǒng)計(jì)量(注:有別于定量資料方差分析);當(dāng)行變量與列變量均為名義變量或行變量是多值有序變量而列變量為名義變量時(shí),可選擇一般關(guān)聯(lián)統(tǒng)計(jì)量。
下面以簡(jiǎn)表形式表示第 h 層的 R×C 表(表 1),h =1、2 …… q。q 為層數(shù)(即分層因素的水平數(shù)),R 為行數(shù),C 為列數(shù)。
上表中 nhij表示第 h 層第 i 行第 j 列所對(duì)應(yīng)的頻數(shù);nhi+為第 h 層第 i 行的合計(jì)數(shù),i = 1、2 …… R;nh+j為第 h 層第 j 列的合計(jì)數(shù),j = 1、2 …… C;nh為第 h 層的合計(jì)數(shù)。根據(jù)上表可以得到第 i 行對(duì)應(yīng)的概率為 Phi+=nhi+/nh,第 j 列對(duì)應(yīng)的概率為 Ph+j= nh+j/nh。
為了方便起見(jiàn),用向量的形式表示頻數(shù)及各行與各列的概率:
其中 nh代表各個(gè)格子里的頻數(shù),是(R×C)× 1 的列向量是它的轉(zhuǎn)置;Ph*+代表各行的概率,是 R×1 的列向量,是它的轉(zhuǎn)置;Ph+*代表各列的概率,是 C×1的列向量,是它的轉(zhuǎn)置。需要注意的是這里向量都是以粗體來(lái)表示的,特別是要注意區(qū)別用粗體表示的 nh與未加粗體的 nh之間的區(qū)別,nh表示所有格子的頻數(shù)向量,而 nh為第 h 層的合計(jì)頻數(shù)。
在各層之間相互獨(dú)立,并且每一層中行合計(jì)與列合計(jì)固定的假定下,原假設(shè) H0為:在任何一層中,原因變量與結(jié)果變量之間沒(méi)有關(guān)聯(lián)。在原假設(shè)成立的條件下,頻數(shù)向量服從多重超幾何分布,它的期望值與協(xié)方差矩陣分別為:
其中,DPh+*是以向量 Ph+*中元素作為主對(duì)角線元素的對(duì)角陣;DPh*+是以向量 Ph*+中元素作為主對(duì)角線元素的對(duì)角陣;? 表示克羅內(nèi)克積。
在原假設(shè)成立時(shí),也可寫出第 h 層第 i 行第 j 列所對(duì)應(yīng)的頻數(shù) nhij的期望值為:
廣義 CMH 統(tǒng)計(jì)量定義如下:
需要注意的是,當(dāng)各層間效應(yīng)方向不一致時(shí),CMH 統(tǒng)計(jì)量的檢驗(yàn)功效很低。
使用式 ④ 可以計(jì)算三種 CMH 統(tǒng)計(jì)量,當(dāng)結(jié)果變量為多值有序變量時(shí),根據(jù)原因變量為多值有序變量或名義變量,分別選擇其中的非零相關(guān)統(tǒng)計(jì)量或行平均得分統(tǒng)計(jì)量。
在計(jì)算非零相關(guān)統(tǒng)計(jì)量時(shí),列的評(píng)分陣 Ch是 1×C陣,行的評(píng)分陣 Rh是 1×R 陣,行與列的評(píng)分由 FREQ過(guò)程中的 SCORES 選項(xiàng)指定。非零相關(guān)統(tǒng)計(jì)量的自由度為1,它也被稱為 Mantel-Haenszel 統(tǒng)計(jì)量。當(dāng)行變量或列變量不是有序變量時(shí),該統(tǒng)計(jì)量是沒(méi)有意義的。非零相關(guān)統(tǒng)計(jì)量對(duì)應(yīng)的備擇假設(shè)為:至少在一層中,原因變量和結(jié)果變量之間存在線性相關(guān)。
在計(jì)算行平均得分統(tǒng)計(jì)量時(shí),列的評(píng)分陣 Ch是 1×C陣,由 SCORES 選項(xiàng)指定;行的評(píng)分陣 Rh是 (R - 1)×R矩陣,由 FREQ 過(guò)程內(nèi)部產(chǎn)生:
其中 IR-1是秩為 R - 1 的單位陣,JR-1是元素均為1 的(R - 1)× 1 的列向量。
行平均得分統(tǒng)計(jì)量的自由度為 R - 1,它所對(duì)應(yīng)的備擇假設(shè)為:至少在一層中,R 行之間的平均得分是不同的,也就是按原因變量分為 R 個(gè)組之后,不同組別之間關(guān)于結(jié)果變量的平均得分存在差異。
下面將通過(guò)實(shí)例向讀者介紹如何通過(guò) SAS 軟件使用CMH 校正的秩和檢驗(yàn)處理結(jié)果變量為多值有序變量的高維列聯(lián)表資料。
【例 1】觀察宮腔鏡下分離宮腔粘連后兩種抗粘連方法的治療效果,在研究中也考慮了粘連程度對(duì)于療效的影響,收集到的試驗(yàn)數(shù)據(jù)見(jiàn)表 2,試對(duì)該資料進(jìn)行分析。
表2 不同粘連分度及治療方法與治療效果的關(guān)系
SAS 程序如下,程序名為 example 1。
D A T A e x a m p l e 1;d o a=1 t o 2;d o b=1 t o 2;d o c=1 t o 3;i n p u t f@@;o u t p u t;e n d; e n d; e n d;c a r d s;10 2 07 3 05 5 50 4 8;R U N;o d s h t m l;P R O C F R E Q;t a b l e s a*b*c/C M H;w e i g h t f;R U N;o d s h t m l c l o s e;
程序說(shuō)明:首先建立數(shù)據(jù)集,程序中的 a 表示粘連分度,a = 1 表示 I、II 度,a = 2 表示 III、IV 度;b 表示治療方法,b = 1 表示球囊組,b = 2 表示置環(huán)組;c 表示療效,c = 1 表示治愈,c = 2 表示有效,c = 3 表示無(wú)效;變量 f 表示頻數(shù)。數(shù)據(jù)的分析采用 FREQ 過(guò)程,在 tables語(yǔ)句中依次列出粘連分度、治療方法和療效,列在第一位的變量是需要控制的原因變量,列在第二位的變量是想要考察的原因變量,列在第三位的變量是結(jié)果變量。本程序中,a*b*c 表示控制 a 因素,考察 b 與 c 因素之間的關(guān)系。若換成 b*a*c,則表示控制 b 因素,考察 a 與 c 之間的關(guān)系,得到的結(jié)果是不一樣的。Tables 語(yǔ)句中的 CMH 選項(xiàng)指定輸出 CMH 統(tǒng)計(jì)量。ods html 語(yǔ)句則要求將結(jié)果以網(wǎng)頁(yè)格式輸出。
SAS 程序運(yùn)行結(jié)果:
“b * c”的匯總統(tǒng)計(jì)量“a”的控制
程序運(yùn)行結(jié)果的第一部分包括按粘連分度分級(jí)以后,治療方法和療效所形成的兩個(gè) 2×3 列聯(lián)表,其中包括頻數(shù)、百分比、行百分比和列百分比。因與結(jié)果關(guān)系不大,鑒于篇幅關(guān)系,此處省略。結(jié)果的第二部分如上所示,輸出了3 個(gè) CMH 統(tǒng)計(jì)量,依次為非零相關(guān)統(tǒng)計(jì)量、行均值得分統(tǒng)計(jì)量和一般關(guān)聯(lián)統(tǒng)計(jì)量。本例中結(jié)果變量是多值有序的,而原因變量是二值的,所以使用行平均得分統(tǒng)計(jì)量,此時(shí)的 CMH χ2檢驗(yàn)也稱為 CMH 校正的秩和檢驗(yàn)。此處自由度 v = 1,= 5.3374,P = 0.0209 < 0.05??偟臉颖竞繛?49 例。
【例 2】在一項(xiàng)臨床試驗(yàn)中,研究病程與依沙酰胺療效的關(guān)系。試驗(yàn)在三所醫(yī)院中同時(shí)進(jìn)行,具體療效數(shù)據(jù)見(jiàn)表 3,試對(duì)病程與治療效果之間的關(guān)系進(jìn)行分析。
表3 病程與依沙酰胺療效的數(shù)據(jù)
SAS 程序如下,程序名為 example 2。
DATA example2;do a=1 to 3;do b=1 to 4;do c=1 to 3;input f@@;output;end; end; end; cards;24 10 3 10 4 235 26 10 10 8 425 12 3 11 4 230 22 8 10 10 520 8 2 10 4 120 17 5 12 10 6;RUN;ods html;PROC FREQ;tables a*b*c/CMH;weight f;RUN;ods html close;
程序說(shuō)明:本程序與程序 example1 相似。首先建立數(shù)據(jù)集,程序中的 a 表示試驗(yàn)中心,a = 1 表示中心 1,a = 2表示中心 2,a = 3 表示中心 3;b 表示病程,b = 1 表示 <1 個(gè)月組,b = 2 表示 1~3 個(gè)月組,b = 3 表示 3 個(gè)月~ 5年組,b = 4 表示 > 5年組;c 表示療效,c = 1 表示治愈,c = 2 表示好轉(zhuǎn),c = 3 表示無(wú)效;變量 f 表示頻數(shù)。調(diào)用FREQ 過(guò)程,a*b*c表示控制 a 因素,考察 b 與 c 因素之間的關(guān)系。Tables 語(yǔ)句中的 CMH 選項(xiàng)指定輸出 CMH 統(tǒng)計(jì)量。
SAS 程序運(yùn)行結(jié)果:
“b * c”的匯總統(tǒng)計(jì)量“a”的控制
程序運(yùn)行結(jié)果的第一部分,即按實(shí)驗(yàn)中心分層后形成的二維列聯(lián)表此處從略,只給出 CMH 檢驗(yàn)的結(jié)果。本資料考察的病程和療效均為多值有序變量,在分析時(shí)可以選擇非零相關(guān)統(tǒng)計(jì)量考察原因變量與結(jié)果變量之間是否存在線性相關(guān)關(guān)系;也可以選用行均值得分差值統(tǒng)計(jì)量考察原因變量不同組之間關(guān)于結(jié)果變量的平均得分是否存在差異。非零相關(guān)統(tǒng)計(jì)量的自由度 v = 1,= 12.6274,P = 0.0004 <0.05,說(shuō)明病程與療效之間存在線性相關(guān)關(guān)系。行均值得分差值的自由度 v = 3,= 13.1908,P = 0.0004 < 0.05,說(shuō)明不同病程之間的療效不同??倶颖竞繛?403 例。
統(tǒng)計(jì)與專業(yè)結(jié)論:C2MH1 χ = 12.6274,P = 0.0004 < 0.05,說(shuō)明至少在一層中,病程與療效之間存在線性相關(guān)關(guān)系,根據(jù)數(shù)據(jù)可以看出隨著病程增加,療效有下降的趨勢(shì)。= 13.1908,P = 0.0042 < 0.05,說(shuō)明不同病程之間的療效不同。
[1] Hu LP.Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory.Beijing: People’s Military Medical Press, 2009:354-363.(in Chinese)胡良平.醫(yī)學(xué)統(tǒng)計(jì)學(xué)-運(yùn)用三型理論分析定量與定性資料.北京:人民軍醫(yī)出版社, 2009:354-363.
[2] Hu LP.Statistics facing scientific problems -- (2) multi-factor designs and linear model analysis.Beijing: People’s Medical Publishing House, 2012:500-507.(in Chinese)胡良平.面向問(wèn)題的統(tǒng)計(jì)學(xué)——(2)多因素設(shè)計(jì)與線性模型分析.北京: 人民衛(wèi)生出版社, 2012:500-507.