關雪,胡良平,王琪
·講座·
如何用SAS軟件正確分析生物醫(yī)學科研資料XVII.R×2列聯(lián)表與2×C列聯(lián)表資料的統(tǒng)計分析與SAS實現
關雪,胡良平,王琪
編者按
生物統(tǒng)計學是生物學領域科學研究和實際工作中必不可少的工具,在分子生物學迅速發(fā)展的今天,生物統(tǒng)計學更顯示出了它的重要性。實驗設計與數據統(tǒng)計分析是現代生物學的基石,是生物學研究者檢驗假說、尋找模式、建立生物學理論的有利工具,也是生物學研究者探索微觀和宏觀生物世界的必備基礎知識。對于每天甚至是每時每刻涌現的大量的、以天文數字計量的分子遺傳數據,必須借助統(tǒng)計學知識加以分析處理,才能從中獲得有意義的信息?!吧锒鄻有詳祿治觥笔情_展生物多樣性研究的一個重要方面,數據分析能力的高低極大地影響著我們對各種生態(tài)學現象認識的深度和廣度?,F在,電子計算機的普及使得生物統(tǒng)計分析過程大大簡化,生物統(tǒng)計分析軟件包的普及將生物統(tǒng)計學從統(tǒng)計學家的書本里解放了出來,簡化了生物統(tǒng)計分析過程,使之成為生物學研究者的常用工具。本刊特邀軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心主任胡良平教授,以“如何用 SAS 軟件正確分析生物醫(yī)學科研資料”為題,撰寫系列統(tǒng)計學講座,希望該系列講座能對生物醫(yī)學科研工作者有所幫助。
R × 2 列聯(lián)表資料是指原因變量有 R 個取值,結果變量為二值變量的列聯(lián)表資料,以 R 行 2 列的形式表示;2 × C 列聯(lián)表資料是指原因變量為二值變量,結果變量有 C個取值的列聯(lián)表資料,以 2 行 C 列的形式表示。這兩種類型列聯(lián)表資料統(tǒng)計分析方法的選擇取決于原因變量或結果變量是否為有序變量以及分析目的。當它們是多值有序變量,且分析目的為考察某一列或某一行上的頻率變化是否呈直線趨勢,就需要用線性趨勢檢驗進行分析[1]。本文重在說明這兩種類型列聯(lián)表資料的線性趨勢檢驗方法,同時給出相應的 SAS 程序和輸出結果的具體解釋。
R × 2 列聯(lián)表的標準型見表 1[1]。當原因變量為多值名義變量時,只能選擇一般χ2檢驗或 Fisher 精確檢驗,以分析原因變量不同水平間的頻數分布是否相同;若原因變量是多值有序變量,分析目的仍然是原因變量不同水平間的頻數分布是否相同,仍然選擇一般χ2檢驗或 Fisher 精確檢驗;如果要分析第一列(或第二列)上的頻率變化是否呈線性趨勢,則要選用線性趨勢檢驗。
R × 2 列聯(lián)表資料線性趨勢檢驗也稱為 Cochran-Armitage 趨勢檢驗,其目的就是說明某一事件的發(fā)生率是否隨著原因變量不同水平的變化而呈現線性趨勢[2]。檢驗的原假設和備擇假設分別為:
H0:兩個變量之間不存在線性趨勢;
H1:兩個變量之間存在線性趨勢。
【例1】某醫(yī)院統(tǒng)計了某段時間內血液病患者感染真菌的情況,不同年齡患者發(fā)生真菌感染的結果見表 2。請分析患者年齡與真菌感染發(fā)生率之間是否存在線性趨勢。
分析與解答:這是一個原因變量為有序變量的 3 × 2 列聯(lián)表資料,分析目的是患者年齡與真菌感染發(fā)生率之間是否存在線性趨勢,因此應進行線性趨勢檢驗。SAS 軟件中的FREQ 過程和 MULTTEST 過程都可以實現 R × 2 列聯(lián)表資料的線性趨勢檢驗,以下介紹如何用 FREQ 過程進行線性趨勢檢驗。SAS 程序如下,設程序名為 li1.sas。
表1 原因變量為有序變量的 R × 2 列聯(lián)表資料的標準型
表2 不同年齡血液病患者真菌感染發(fā)生情況
程序說明:程序中第一步為建立名為 a1 的數據集,A 代表年齡分級,由 1 到 3 分別表示年齡的 3 個等級;B 代表真菌感染發(fā)生情況,1 和 2 分別表示感染和未感染;f 表示各單元格內的頻數。
程序中第二步為過程步,調用 FREQ 過程進行線性趨勢檢驗。Tables 語句用于生成二維列聯(lián)表,“/”后的選項trend 指定進行線性趨勢檢驗,需要特別說明的是 scores 選項,SAS 中提供的打分方法有 table,rank,ridit 和 modridit 4 種,默認的方法為 table,本例中使用該方法。使用 table方法打分時,字符型變量各水平的取值為對應的行標號;數值型變量的取值為輸入數據集中定義的變量賦值,例如本例年齡的取值是字符型的,因此取值為 1 到 3。若此處為藥物的不同劑量,如 10、30、50 mg,取值就是 10、30 和 50。需要注意的是由于 10、30 和 50 間隔相同,因此計算結果與取值 1、2、3 并無差別。若此處為間距不等的數值型變量,計算結果與取值 1、2、3 是不同的。如 10、20、50,在數據步必須寫為“doA =10, 20, 50”。Exact 語句用于進行精確檢驗,此時為了避免計算時間過久,可以用 maxtime 選項對時間進行限定。
SAS 程序運行結果:
A * B 表的統(tǒng)計量
輸出結果的解釋:本例的輸出結果還包括由原始數據形成的列聯(lián)表,此處從略。檢驗統(tǒng)計量z值為 2.5093,漸近方法的單側和雙側P值分別為 0.0060 和 0.0121,精確檢驗的單側和雙側P值分別為 0.0076 和 0.0136,此時按α = 0.05 水平拒絕H0,接受H1。
專業(yè)結論:血液病患者年齡與真菌感染發(fā)生率之間存在線性變化趨勢,隨著患者年齡的增加,真菌感染發(fā)生率呈線性增加的趨勢。
2 × C 列聯(lián)表的標準型見表 3[1]。如果結果變量為多值名義變量則可按雙向無序的 R × C 表資料進行分析,采用一般χ2檢驗或 Fisher 精確檢驗;如果結果變量為多值有序變量,則可按結果變量為有序變量的單向有序的 R × C表資料進行分析,采取秩和檢驗或 Ridit 分析等方法,來回答兩組受試者在有序結果的平均秩上的差別是否具有統(tǒng)計學意義。此時,也可以對其進行線性趨勢檢驗。
表3 結果變量為有序變量的 2 × C 列聯(lián)表資料的標準型
【例 2】有研究者對糖尿病患者下肢動脈病變情況做了調查研究,以相同年齡的未患糖尿病的人作為對照組,兩組調查對象的下肢動脈病變情況見表 4。請分析下肢動脈病變程度與糖尿病患者所占的比例是否存在線性趨勢[3]。
表4 糖尿病患者與對照組下肢動脈病變情況
分析與解答:這是一個結果變量為多值有序變量的 2 × 3 列聯(lián)表資料。若要分析不同調查對象下肢動脈病變情況是否相同,可采用秩和檢驗或 Ridit 分析;若要分析下肢動脈病變程度與糖尿病患者所占的比例是否存在線性趨勢,則需采用線性趨勢檢驗。
2 × C 列聯(lián)表資料的線性趨勢檢驗的方法與 R × 2 列聯(lián)表資料的線性趨勢檢驗不同,SAS 程序中沒有現成的過程可供使用,需對計算公式進行編程,實現統(tǒng)計量和P值的計算。
線性趨勢檢驗有以下幾個指標:多項概率pi、權重wi、條件概率δi及趨勢值πi。以表 3 第 1 行為考察對象,多項概率pi為表 3 中第 1 行第i列對應格子中的頻數在行合計中所占的比例,即pi=n1i/n1+;權重wi表示第i列的合計在總例數中所占的比例,即wi=n+1/n;條件概率δi是當結果變量取值為Bi時的條件概率,也就是第 1 行第i列對應格子中的頻數在列合計中所占的比例,即δi=n1i/n+1;趨勢值πi由下式計算:
線性趨勢檢驗的原假設就是π1=π2= … =πk。線性趨勢檢驗統(tǒng)計量為:
對 2 × C 列聯(lián)表資料進行線性趨勢檢驗的程序如下,設程序名為 li2.sas。
該程序較復雜,讀者在應用時,只需要對數據步的數據進行相應修改即可。兩個宏變量 n 代表總例數,n1 代表第一行的合計值,輸入的變量x代表結果變量的取值,y1 代表第一行的頻數,y 代表列合計。
SAS程序運行結果:
多項概率、權重、條件概率及趨勢值的估計結果
線性趨勢檢驗結果
輸出結果的解釋:以上是多項概率、權重、條件概率即及趨勢值的估計結果。由于估計的多項概率值和估計的趨勢值呈現增大的趨勢,因此進行單側檢驗。線性趨勢檢驗的統(tǒng)計量z=3.3728926005,單側P= 0.0003719148 < 0.05,拒絕原假設。
專業(yè)結論:根據趨勢值的估計結果,多項概率和估計的趨勢值逐漸增大,說明下肢動脈病變較重的患者中,糖尿病病人的比例逐漸增加。
需要說明的是,線性趨勢檢驗的目的是考察某一行上的多項概率是否隨著結果變量的取值存在線性增加或下降趨勢,結合專業(yè)知識和根據樣本估計的多項概率值,人們通常會有一個初步的判斷,因此線性趨勢檢驗多進行的是單側檢驗。若要進行雙側檢驗,將單側概率值乘以 2 即是雙側概率的取值。
[1] Hu LP. Medical statistics-analysis of quantitative and qualitative data applying the triple-type theory. Beijing: People’s Military Medical Press, 2009:281-286, 298-299. (in Chinese)胡良平. 醫(yī)學統(tǒng)計學-運用三型理論分析定量與定性資料. 北京:人民軍醫(yī)出版社, 2009:281-286, 298-299.
[2] SAS Institute Inc. SAS/STAT 9.2 User’s Guide. Cary, NC: SAS Institute Inc, 2008:1760-1761.
[3] Xu ZW, Zhang WG, Du YK, et al. How to select an appropriate statistical method to analyze R×C tables. Clin Focus, 2011, 26(8):IV, 696. (in Chinese)許卓文, 張衛(wèi)國, 杜媛鯤, 等. R×C表資料統(tǒng)計學方法的正確選擇.臨床薈萃, 2011, 26(8):IV, 696.
10.3969/cmba.j.issn.1673-713X.2012.03.016
100850 北京,軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心
胡良平,Email:lphu812@sina.com