四川大學(xué)華西公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(610041)
徐 浩 張 韜 李曉松 劉元元△
logistic回歸中兩種不同杠桿點診斷方法的初步探討*
四川大學(xué)華西公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(610041)
徐 浩 張 韜 李曉松 劉元元△
目的 探討logistic回歸模型中兩種不同杠桿點診斷方法間的異同,為杠桿點診斷及其軟件應(yīng)用提供參考。方法 選取分類型和連續(xù)型兩種協(xié)變量數(shù)據(jù)類型的實例,分別建立logistic回歸模型,并采用代表不同估計方法的SPSS與STATA軟件對回歸模型進行杠桿點診斷。結(jié)果 兩種杠桿點診斷方法在處理不同類型數(shù)據(jù)時并不完全一致,當(dāng)模型協(xié)變量組數(shù)遠小于研究對象個體數(shù)時,兩種方法所得結(jié)果有所不同。結(jié)論 研究者應(yīng)根據(jù)研究目的和資料類型正確選用不同軟件進行杠桿點診斷。
logistic回歸 杠桿點診斷 SPSS軟件 STATA軟件
logistic回歸模型在醫(yī)學(xué)和公共衛(wèi)生等多種學(xué)科領(lǐng)域中應(yīng)用十分廣泛[1-2]。與線性回歸類似,logistic模型的回歸系數(shù)估計容易受到數(shù)據(jù)結(jié)構(gòu)的影響,其中杠桿點問題是常見的數(shù)據(jù)結(jié)構(gòu)問題之一[3]。杠桿點的出現(xiàn)將會使回歸模型的擬合優(yōu)度下降,參數(shù)估計發(fā)生偏差,甚至得出錯誤結(jié)論[4]。目前關(guān)于如何運用杠桿點對logistic模型進行回歸診斷的研究相對較多,然而不同的文獻報道及統(tǒng)計軟件中關(guān)于其計算方法卻并不統(tǒng)一[3,5]。SPSS和STATA兩大常用統(tǒng)計軟件分別所采用的杠桿點計算方法即是數(shù)理統(tǒng)計界對此問題所持學(xué)術(shù)觀點不同的一種體現(xiàn)[6-7]。那么,當(dāng)遇到不同類型的數(shù)據(jù)時,不同的杠桿點診斷方法及統(tǒng)計軟件的分析結(jié)果是否存在差異?如出現(xiàn)差異,在實際應(yīng)用中進行杠桿點計算及統(tǒng)計軟件選擇時應(yīng)如何考慮?目前,上述問題尚未見明確報道,且在實際應(yīng)用中常被忽略甚至誤用[8-10]。有鑒于此,本研究從不同數(shù)據(jù)類型出發(fā),結(jié)合實例,探討不同的杠桿點計算方法及SPSS和STATA兩種統(tǒng)計軟件分析結(jié)果的異同,為此后在進行l(wèi)ogistic模型回歸診斷時如何選擇杠桿點計算方法和軟件提供參考。
SPSS與STATA兩種軟件的logistic回歸模型構(gòu)建程序中,均提供了杠桿值指標(biāo),其計算公式如下[6-7]:
(1)
(2)
在logistic回歸模型中,其自變量的數(shù)據(jù)類型(亦稱為協(xié)變量類型)一般可分為兩種[11]:①分類型協(xié)變量,即協(xié)變量組數(shù)遠小于研究對象個體總數(shù),此時模型中基本上都是分類型自變量(兩分類或多分類),如下文中的實例一;②連續(xù)型協(xié)變量,即協(xié)變量組數(shù)等于或近似等于研究對象個體總數(shù),此時模型中含有連續(xù)型自變量,如下文中的實例二。以下實例分析中,本文將分別采用SPSS與STATA兩種軟件計算杠桿值,以展現(xiàn)和比較logistic回歸模型的兩種杠桿點診斷方法在不同協(xié)變量類型數(shù)據(jù)中的分析結(jié)果的異同。
1.實例一
實例一為探討輸卵管妊娠與輸卵管手術(shù)關(guān)系的病例對照研究[15],其自變量均為分類變量,協(xié)變量組數(shù)遠小于研究對象個體數(shù)。各變量說明見下表1,各協(xié)變量組合編號及樣本例數(shù)見下表2。
(1)logistic回歸模型建立
對組別與孕次、輸卵管手術(shù)史建立logistic回歸模型,分析結(jié)果如表3所示。Hosmer-Lemeshow指標(biāo)為:
HL=0.112,v=7,P=0.999。模型似然比卡方檢驗:G=30.766,v=3,P<0.001。
(2)杠桿值計算
分別采用SPSS20.0與STATA11.0軟件運行程序得模型杠桿值,結(jié)果如表4所示,實例一的SPSS杠桿值計算結(jié)果與STATA差異較大,根據(jù)臨界點2(K+1)/n,SPSS為0.007813,其中第2、4、6協(xié)變量組所有研究對象個體均可被認為是高杠桿點,對回歸擬合影響較大。而STATA為1.3333,所有協(xié)變量組均未達到高杠桿點的判定標(biāo)準(zhǔn),但是可以發(fā)現(xiàn)第1、3、5協(xié)變量組對回歸擬合影響較大。對二者呈現(xiàn)出較為矛盾的結(jié)果,將在后面進行討論。
2.實例二
實例二采用某地有償付能力及破產(chǎn)公司財務(wù)比率數(shù)據(jù)[16],表5為其部分數(shù)據(jù)。該數(shù)據(jù)中Y為因變量,0代表2年后破產(chǎn),1代表2年后仍有償付能力;X1、X2、X3為自變量分別代表未分配利潤/總資產(chǎn)、支付利息稅金前的利潤/總資產(chǎn)、銷售額/總資產(chǎn),均為連續(xù)型變量,obs為每個研究對象個體的編號。
(1)logistic回歸模型建立
對Y與X1、X2、X3建立logistic回歸模型如表6所示。Hosmer-Lemeshow指標(biāo)為:HL=0.112,v=7,P=0.999。模型似然比卡方檢驗:G=85.683,v=3,P<0.001。
(2)杠桿值計算
根據(jù)臨界點2(K+1)/n,杠桿值大于0.15152的數(shù)據(jù)點,即杠桿點。如表7所示,SPSS與STATA的杠桿值分析結(jié)果一致。
在對logistic模型進行回歸診斷時,杠桿點診斷對發(fā)現(xiàn)模型中的數(shù)據(jù)結(jié)構(gòu)問題具有重要意義[12-13]。但目前在實際應(yīng)用中仍常常存在杠桿點計算方法及軟件誤選誤用等情況[9-10]。本研究從數(shù)據(jù)類型出發(fā),通過兩個實例分析,展現(xiàn)并比較了兩種杠桿點診斷方法及軟件在不同協(xié)變量類型數(shù)據(jù)中的應(yīng)用差異。以期對此問題做一個初步的探討,并提醒讀者在今后的杠桿點診斷中需重視不同方法所得結(jié)果間的差異。
1.兩種杠桿點診斷方法的理論差異
杠桿點的診斷方法主要分為兩種:①基于研究對象個體水平;②基于協(xié)變量組水平。由公式1可知,以基于研究對象個體水平得出的杠桿值表示每個研究對象個體偏離數(shù)據(jù)主體的程度,也反映了該個體將回歸曲線拉向自己的能力大小[14]。而如公式2所示,以協(xié)變量組水平計算出的杠桿值為該協(xié)變量組所有研究對象個體的杠桿值之和,反映的是該協(xié)變量組將回歸曲線拉向自己的能力大小,是該協(xié)變量組所有個體的共同作用,受到各協(xié)變量組樣本數(shù)的影響[7,12]。
2.兩種杠桿點診斷方法在不同數(shù)據(jù)中的應(yīng)用差異
對于協(xié)變量組數(shù)與研究對象個體數(shù)相同或相近的數(shù)據(jù),兩種計算方法得出的結(jié)果相同或相似,如實例二所示;而當(dāng)遇到協(xié)變量組數(shù)遠小于研究對象個體數(shù)類型數(shù)據(jù)時,二者得出的杠桿值差異則會較大。
對于實例一的杠桿點診斷,兩種軟件所得結(jié)論看似矛盾,實則是由于兩種結(jié)果分別是基于不同的研究水平算得。根據(jù)兩種軟件給出的杠桿值計算公式, SPSS為基于研究對象個體水平計算,而STATA則是基于協(xié)變量組水平。當(dāng)某一協(xié)變量組內(nèi)包含2個及以上研究對象個體時,基于協(xié)變量組水平計算出的杠桿值等于該組基于研究對象個體水平計算出的杠桿值的和,即該杠桿值代表了該協(xié)變量組整體對模型擬合的影響。當(dāng)遇到模型中自變量均為分類變量時,此時協(xié)變量組數(shù)遠小于研究對象個體數(shù),協(xié)變量組之間樣本例數(shù)具有一定差異,樣本例數(shù)多的協(xié)變量組內(nèi)研究對象個體杠桿值雖然很小,但是其相加后的協(xié)變量組杠桿值仍會很大[9,11]。同理,即使某研究對象個體杠桿值很大,但是如果所在協(xié)變量組樣本例數(shù)很少,其協(xié)變量組杠桿值也很小。所以,實例一中的自變量均為分類變量,協(xié)變量組數(shù)遠小于研究對象個體數(shù),STATA與SPSS的杠桿點診斷結(jié)果差異較大,兩者計算的杠桿值所代表的意義并不相同。
綜上所述,對于杠桿點的判斷,應(yīng)根據(jù)研究目的及數(shù)據(jù)類型的不同選擇相應(yīng)的方法與軟件。當(dāng)遇到協(xié)變量組數(shù)與研究對象個體數(shù)相同或相近的數(shù)據(jù)時,兩種方法差異不大,均可使用。而當(dāng)遇到協(xié)變量組數(shù)遠小于研究對象個體數(shù)類型的數(shù)據(jù)時,則應(yīng)謹慎對待。此時,如研究目的是探討研究對象個體對回歸擬合的影響程度,應(yīng)采用基于研究對象個體的杠桿值計算方法,可選擇SPSS軟件進行分析;如欲了解協(xié)變量組對回歸擬合的影響程度時,則應(yīng)采用基于協(xié)變量組的杠桿值計算方法,可選擇STATA軟件進行分析[8,11]。此外,與SPSS及STATA不同,另一常用統(tǒng)計軟件SAS可給出兩種計算方法的結(jié)果。在計算杠桿值等診斷統(tǒng)計量時,SAS是根據(jù)數(shù)據(jù)錄入格式來選用相應(yīng)計算方法:當(dāng)數(shù)據(jù)是以每條數(shù)據(jù)行代表一個研究對象的形式錄入,計算方法即為基于研究對象個體水平計算杠桿值;當(dāng)數(shù)據(jù)以每條數(shù)據(jù)行代表一個協(xié)變量組的形式錄入,則以基于協(xié)變量組水平計算杠桿值[11]。關(guān)于杠桿點的處理,目前常用方法為檢查原始數(shù)據(jù),刪除該觀察對象,或用修正值代替[3]。但當(dāng)出現(xiàn)實例一結(jié)果,即基于協(xié)變量組水平與基于研究對象個體水平計算的杠桿值結(jié)果不一致時,應(yīng)如何處理,診斷結(jié)果優(yōu)劣的判斷標(biāo)準(zhǔn)應(yīng)如何界定,仍有待進一步研究。
[1]常振海,劉薇.logistic回歸模型及其應(yīng)用.延邊大學(xué)學(xué)報(自然科學(xué)版),2012,38(1):28-32.
[2]尹建杰.logistic回歸模型分析綜述及應(yīng)用研究.黑龍江大學(xué)碩士學(xué)位論文,2011年.
[3]王濟川,郭志剛.Logistic回歸模型——方法與應(yīng)用.北京:高等教育出版社,2000年.
[4]王駿,馬林茂.logistic回歸診斷及SAS實現(xiàn).數(shù)理醫(yī)藥學(xué)雜志,2005,18(1):34-36.
[5]魏朝輝.logistic回歸診斷.中國衛(wèi)生統(tǒng)計,2001,18(2):112-113.
[6]SPSS Inc.2011.SPSS BASE 20.0 for Windows User’s Guide.Chicago:SPSS Inc.
[7]STATA Inc.2009.STATA User’s Guide release 11.0.Texas USA.
[8]Chao-Ying Joanne Peng,Tak-Shing Harry So.Logistic Regression Analysis and Reporting:A Primer.Understanding statistics,1(1),31-70.
[9]方積乾,陳和年.醫(yī)學(xué)研究中l(wèi)ogistic回歸模型的正確應(yīng)用(一).中國衛(wèi)生統(tǒng)計,1993,10(4):54-56.
[10]馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個問題.中華流行病學(xué)雜志,2004,25(6):544-545.
[11]Daryl Pregibon.Logistic Regression Diagnostics.The Ananals of Statistics,1981,9(4):705-724.
[12]王斌會,徐勇勇,李文潮.高杠桿點和強影響點對回歸變量的影響.數(shù)理醫(yī)藥學(xué)雜志,1994,7(2):113-115.
[13]于義良.高杠桿點和強影響點的診斷.河北大學(xué)學(xué)報(自然科學(xué)版),1993,13(1):25-26.
[14]趙清波,徐勇勇,夏結(jié)來.logistic回歸中高杠桿點的檢測.中國衛(wèi)生統(tǒng)計,1997,14(2):17-19.
(責(zé)任編輯:鄧 妍)
國家科技重大專項子課題“五大癥候群病原學(xué)檢測數(shù)據(jù)挖掘與分析”(編號:2012ZX10004201-006);四川大學(xué)青年教師科研啟動基金“高校教師健康風(fēng)險評估模型初步探索研究”項目(項目批準(zhǔn)號:2011SCU11023)
△通信作者:劉元元,E-mail:y_multi@126.com