畢秀媛 錢(qián)占成 馮國(guó)雙
比例優(yōu)勢(shì)模型(proportional odds model)是處理有反應(yīng)資料的常用方法〔1,2〕,目前在國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域已有較多應(yīng)用〔3,4〕。但該法必須滿(mǎn)足比例優(yōu)勢(shì)假定條件,即自變量的回歸系數(shù)應(yīng)與分割點(diǎn)k無(wú)關(guān)。盡管以往有研究認(rèn)為,比例優(yōu)勢(shì)模型對(duì)這一條件并不敏感〔5〕,但實(shí)際情況可能并非如此。Bender曾對(duì)此做過(guò)討論〔6〕,如果不滿(mǎn)足比例優(yōu)勢(shì)假定條件,比例優(yōu)勢(shì)模型跟其他模型的結(jié)果可能相反。Lall建議〔7〕,對(duì)假定條件不滿(mǎn)足的數(shù)據(jù),可采用偏比例優(yōu)勢(shì)模型(partial proportional odds model)進(jìn)行分析,而不是比例優(yōu)勢(shì)模型。本文通過(guò)對(duì)一組有序反應(yīng)變量的分析,介紹如何利用SAS軟件實(shí)現(xiàn)偏比例優(yōu)勢(shì)模型的分析。?
比較一下可以發(fā)現(xiàn),偏比例優(yōu)勢(shì)模型與比例優(yōu)勢(shì)模型的不同之處在于多了γ系數(shù)。γ系數(shù)僅當(dāng)自變量不符合比例優(yōu)勢(shì)假定條件的情況下才存在,如果所有自變量均滿(mǎn)足該假定條件,則γ系數(shù)均為0,此時(shí)就是普通的比例優(yōu)勢(shì)模型。
偏比例優(yōu)勢(shì)模型的分析首先要定義一個(gè)新變量,代表不同分割點(diǎn)(k個(gè)等級(jí)共有k-1個(gè)分割點(diǎn)),并分析自變量在不同分割點(diǎn)情況下的參數(shù)估計(jì)。γ系數(shù)反映了在不同分割點(diǎn)的情況下,在回歸系數(shù)β基礎(chǔ)上的增加值。
由于定義了k-1個(gè)分割點(diǎn)變量,每一觀測(cè)的反應(yīng)變量不再是1個(gè),而變成了k-1個(gè)。因此可利用SAS proc genmod命令中的GEE(generalized estimating equations)算法來(lái)實(shí)現(xiàn)多結(jié)果變量的分析。
本文數(shù)據(jù)來(lái)源于某關(guān)于胃癌病變的影響因素研究,從中隨機(jī)選擇48例作為示例分析。因變量y為胃癌病變,分為淺表性胃炎(SG)、萎縮性胃炎(CAG)、腸上皮化生(IM)、異型增生(DYS),分別用 0、1、2、3 表示。自變量x1、x2分別為基因A和基因B,均為二分類(lèi)變量,0表示表達(dá)陰性,1表示表達(dá)陽(yáng)性。欲分析x1、x2對(duì) y的影響。
首先我們采用比例優(yōu)勢(shì)模型分別對(duì)x1和x2進(jìn)行分析,結(jié)果發(fā)現(xiàn),x1不滿(mǎn)足比例優(yōu)勢(shì)假定(χ2=12.6659,P=0.0018),x2滿(mǎn)足比例優(yōu)勢(shì)假定(χ2=2.0151,P=0.3651)。因此我們采用偏比例優(yōu)勢(shì)模型,對(duì)不同分割點(diǎn)的x1進(jìn)行參數(shù)估計(jì)。
分析程序如下:
run;
/*上段程序?qū)γ恳挥^測(cè)創(chuàng)建3個(gè)logit,logit表示分割點(diǎn),分別為3、2、1,新的反應(yīng)變量yy賦值為1和0,每一觀測(cè)均有3個(gè)反應(yīng)變量*/
proc genmod desc;
class id logit;
model yy=x1 x2 logit logit*x1/link=logit dist=bin type3;
repeated subject=id/type=un;
run;
/*上段程序利用proc genmod命令調(diào)用GEE算法,此時(shí)每一觀測(cè)包含3個(gè)反應(yīng)變量。由于X1不滿(mǎn)足比例優(yōu)勢(shì)假定條件,因此加入logit*x1,分析不同logit下x1的參數(shù)估計(jì)。作業(yè)相關(guān)矩陣類(lèi)型選擇un,即無(wú)結(jié)構(gòu)相關(guān)*/
主要輸出結(jié)果分別見(jiàn)表1和表2。表1給出了參數(shù)估計(jì)結(jié)果。其中X1對(duì)應(yīng)的是以3為分割點(diǎn)(0,1,2 vs 3)的參數(shù)估計(jì)值,由于程序中加入desc選項(xiàng),因此實(shí)際反映的是(3 vs 0,1,2)的參數(shù)估計(jì)。由于參數(shù)估計(jì)值為1.7869,表明基因A陽(yáng)性發(fā)生DYS的危險(xiǎn)高于基因A陰性。X1*logit1、X1*logit2分別對(duì)應(yīng)以1、2為分割點(diǎn)的X1估計(jì)值的增加值。也就是說(shuō),分割點(diǎn)為2(0,1 vs 2,3)時(shí)(實(shí)際為 2,3 vs 0,1)X1的參數(shù)估計(jì)值為1.7869-2.2501=-0.4632,表明基因A陽(yáng)性發(fā)生DYS和IM的危險(xiǎn)低于基因A陰性。分割點(diǎn)為1(0 vs 1,2,3)時(shí)(實(shí)際為 1,2,3 vs 0)X1的參數(shù)估計(jì)值為1.7869-0.2004=1.5865,表明基因A陽(yáng)性發(fā)生DYS、IM和CAG的危險(xiǎn)高于基因A陰性。
logit與此類(lèi)似,Intercept反映的是 logit3的估計(jì)值,即分割點(diǎn)為3時(shí)的截距項(xiàng)。logit1反映了分割點(diǎn)為1時(shí)的截距項(xiàng),其參數(shù)估計(jì)值為-2.2729+3.9428=1.6699。logit2反映了分割點(diǎn)為2時(shí)的截距項(xiàng),其參數(shù)估計(jì)值為-2.2729+3.3225=1.0496。
表1 參數(shù)估計(jì)結(jié)果
表1的參數(shù)估計(jì)結(jié)果顯示,以不同分割點(diǎn)對(duì)因變量進(jìn)行劃分,其參數(shù)估計(jì)值相差較大。以3為分割點(diǎn)時(shí),X1的影響有統(tǒng)計(jì)學(xué)意義(P=0.0419)。以2為分割點(diǎn)時(shí),X1也有統(tǒng)計(jì)學(xué)意義(P=0.0078)。以1為分割點(diǎn)時(shí),X1無(wú)統(tǒng)計(jì)學(xué)意義(P=0.8788)。而如果直接采用比例優(yōu)勢(shì)模型,結(jié)果顯示X1無(wú)統(tǒng)計(jì)學(xué)意義(P=0.1841)。
表2給出了score得分檢驗(yàn),結(jié)果顯示,X1*logit有統(tǒng)計(jì)學(xué)意義,提示不同分割點(diǎn)的X1估計(jì)值不同,進(jìn)一步驗(yàn)證了x1不符合比例優(yōu)勢(shì)假定條件。
表2 Score得分檢驗(yàn)
表3列出了偏比例優(yōu)勢(shì)模型與比例優(yōu)勢(shì)模型的參數(shù)估計(jì)比較結(jié)果??梢钥闯觯瑑煞N模型的X1估計(jì)值差別較大。對(duì)于偏比例優(yōu)勢(shì)模型而言,不同分割點(diǎn)的X1估計(jì)值差別很大,當(dāng)j=3和j=2時(shí),出現(xiàn)了截然相反的結(jié)果,這也正是比例優(yōu)勢(shì)模型失效的原因。
表3 比例優(yōu)勢(shì)模型與偏比例優(yōu)勢(shì)模型的參數(shù)估計(jì)比較
有序分類(lèi)資料最常用的分析方法是比例優(yōu)勢(shì)模型,目前該模型在國(guó)內(nèi)不少領(lǐng)域都有應(yīng)用,但關(guān)于其正確應(yīng)用的探討卻很少。比例優(yōu)勢(shì)模型的前提條件是自變量的回歸系數(shù)與分割點(diǎn)無(wú)關(guān),也就是要求不同分割點(diǎn)的回歸系數(shù)相同。只有滿(mǎn)足這一條件,模型的估計(jì)結(jié)果才是比較可靠的。但在實(shí)際中這一條件并不總是能滿(mǎn)足,尤其自變量較多的情況下,很難保證每一自變量都符合這一條件。此時(shí)如果采用比例優(yōu)勢(shì)模型是不妥的,而應(yīng)選擇其他更為合適的模型。Bender認(rèn)為〔6〕,比例優(yōu)勢(shì)假定條件不滿(mǎn)足時(shí),可用獨(dú)立的二分類(lèi)模型(separate binary model)或偏比例優(yōu)勢(shì)模型進(jìn)行擬合,且偏比例優(yōu)勢(shì)模型效率高于獨(dú)立的二分類(lèi)模型。偏比例優(yōu)勢(shì)模型實(shí)際上也是基于累積logit的一種方法,可利用GEE算法來(lái)實(shí)現(xiàn)〔8,9〕。以往由于受統(tǒng)計(jì)軟件功能的限制,偏比例優(yōu)勢(shì)模型的實(shí)現(xiàn)較為困難。目前包括SAS軟件在內(nèi)的很多統(tǒng)計(jì)軟件均可實(shí)現(xiàn)GEE算法,因此偏比例優(yōu)勢(shì)模型可作為比例優(yōu)勢(shì)假定條件不滿(mǎn)足時(shí)的首選替代方法。
偏比例優(yōu)勢(shì)模型主要有兩種:非限制的偏比例優(yōu)勢(shì)模型(unconstrained partial proportional model)和限制的偏比例優(yōu)勢(shì)模型(constrained partial proportional model)。非限制的偏比例優(yōu)勢(shì)模型中,符合比例優(yōu)勢(shì)假定的變量在不同分割點(diǎn)有相同的參數(shù)估計(jì),不符合假定條件的變量在不同分割點(diǎn)有不同的參數(shù)估計(jì)。限制的偏比例優(yōu)勢(shì)模型中,假定自變量的參數(shù)估計(jì)在各分割點(diǎn)有一定的趨勢(shì)(如線性趨勢(shì)),該模型一般需要事先對(duì)估計(jì)值有一定的了解,或者可以先通過(guò)非限制的偏比例優(yōu)勢(shì)模型估計(jì)出參數(shù)值,然后看是否有一定的趨勢(shì)。
本文所介紹的是非限制的偏比例優(yōu)勢(shì)模型及其分析過(guò)程,這一模型也是實(shí)際中較為常用的。目前國(guó)內(nèi)關(guān)于該模型的介紹極少,本文旨在拋磚引玉,以便進(jìn)一步推動(dòng)該模型的應(yīng)用。
1.Amstrong BG,Sloan M.Ordinal regression models for epidemiologic data .Am J of Epodemiology,1989,129(1):191-204.
2.Bender R,Grouven U.Ordinal logistic regression in medical research.Journal of the Royal College of Physicians of London,1997,31(5):546-551.
3.吳彬,田俊,羅仁夏.胃癌患者生存質(zhì)量影響因素的累積比數(shù)模型分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(1):36-38.
4.吳彬,曹建平,宋建華,等.福州地區(qū)高校教師亞健康影響因素的累積比數(shù)模型分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(3):262-264.
5.李康,郭祖超,胡琳,等.有序分類(lèi)數(shù)據(jù)回歸模型及醫(yī)學(xué)應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),1992,9(6):52-54.
6.Bender R,Grouven U.Using binary logistic regression models for ordinal data with non-proportional odds.Journal of Clinical Epidemiol,1998,51(10):809-816.
7.Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments〔j〕.statistical methods in medical research,2002,11(1):49-67.
8.Peterson B,Harrell F.Partial proportional odds models for ordinal response variables.Appl Statist,1990,39(2):205-217.
9.Bender R,Benner A.Calculating ordinal regression models in SAS and S-plus .Biometrical Journal,2000,42(6):677-699.