山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(030001) 羅艷虹 王瑾瑤 陳培翠 趙春妮 余紅梅
多分類有序變量指分類數(shù)大于等于3,且類別之間存在等級關(guān)系的變量。通常有序變量類別之間的差距并不相等。例如,人們對生存質(zhì)量的評價(jià)從“很差”到“差”,再到“不好也不差”、“好”、“很好”,這5個類別之間的間距往往不同,傳統(tǒng)分析方法通常將其作等距對待,此時(shí)結(jié)果往往不精確。
為了使生存質(zhì)量的評分更客觀,我們對生存質(zhì)量各水平之間存在的差異進(jìn)行了分析。首先介紹衡量間距差異的統(tǒng)計(jì)量,并對間距差異進(jìn)行統(tǒng)計(jì)檢驗(yàn),在此基礎(chǔ)上,引入工具虛擬變量對累積logistic回歸模型進(jìn)行改進(jìn),以生存質(zhì)量的評價(jià)值為應(yīng)變量,采用改進(jìn)累積logistic回歸分析生存質(zhì)量的影響因素〔1〕。
(1)χ2檢驗(yàn)
采用擬合優(yōu)度χ2檢驗(yàn),H0為“各個類別間的間距相同”,即發(fā)生每種類別的概率π都等于1/k。引入變量 ψi(i=1,2,…,k),它對應(yīng)于各個類別的代表值,此時(shí) H0為:“ψ1-0= ψ2- ψ1= … = ψk- ψk-1”。若H0為真,樣本點(diǎn)落入各個類別的概率均為π,期望頻數(shù)為fe=nπ,統(tǒng)計(jì)量服從自由度為df=k - 1 的 χ2分布,其中 k為類別數(shù)〔1,3〕。
(2)Kolmogorov-Smirnov單樣本檢驗(yàn)
Kolmogorov-Smirnov適用于確定有序分類變量的樣本觀測結(jié)果是否來自指定理論分布的總體。如果有序變量不存在間距差異,則每個類別被選中的概率應(yīng)該相等,即服從均勻分布〔1,4〕。
3.改進(jìn)累積logistic模型
累積logistic回歸模型通常將有序反應(yīng)變量各水平間存在的間距按等距處理。如果通過 χ2檢驗(yàn)或Kolmogorov-Smirnov單樣本檢驗(yàn),發(fā)現(xiàn)多分類有序變量各水平間存在間距差異,經(jīng)證明通過對累積logistic回歸模型的截距項(xiàng)的調(diào)整修正模型,具體證明過程參見參考文獻(xiàn)〔1,5,7〕,故以加法的方式引入虛擬變量 Dj修正截距項(xiàng),即有:
Dj的分類與應(yīng)變量y相同。由于累積logistic模型要求βi、αj的大小與k無關(guān),故Dj的取值與k無關(guān)。借鑒計(jì)量經(jīng)濟(jì)學(xué)中的“工具變量法“思想,引入一個與應(yīng)變量y類別分布相似且高度相關(guān)的工具變量zt,zt確定虛擬變量Dj的取值。當(dāng)zt=1時(shí),Dj=1,其他為零,稱Dj為工具虛擬變量〔5-7〕。
為了解某醫(yī)科大學(xué)碩士研究生生存質(zhì)量的整體狀況及影響因素,隨機(jī)抽取來自公共衛(wèi)生學(xué)院、基礎(chǔ)醫(yī)學(xué)院和第一臨床醫(yī)學(xué)院的一、二、三年級研究生各100名,收回有效問卷285份。生存質(zhì)量評價(jià)采用WHOQOL-BREF。應(yīng)變量Y為生存質(zhì)量的自我評價(jià):“很差”、“差”、“不好也不差”、“好”、“很好”??赡艿挠绊懸蛩厝缦?一般情況包括性別、年齡、年級、來源地、是否獨(dú)生、婚姻狀況、父親文化程度、母親文化程度和家庭收入;健康和生活情況包括是否生病、個人消費(fèi)、生活條件、每周運(yùn)動情況、每周上網(wǎng)時(shí)間和興趣愛好;工作學(xué)習(xí)情況包括參加工作年限、成績/科研滿意度、學(xué)習(xí)/課題壓力、本科專業(yè)、碩士專業(yè)、專業(yè)滿意度、就業(yè)前景和就業(yè)壓力。
有序變量y(很差y=1,差y=2,不好也不差y=3,好y=4,很好y=5)的頻數(shù)分布見表1。由表1可知生存質(zhì)量自我評價(jià)“一般”以上(包括不好也不差、好和很好)者252名,占88.7%。G(ξ)= -1.4961≠0,表明多分類有序反應(yīng)變量y各類別之間的間距不同。表 2 χ2檢驗(yàn)結(jié)果,χ2=279.663 >=13.28,Kolmogorov-Smirnov檢驗(yàn) Dn=mxax|Fn(X)-F(X)|=0.287。由于是大樣本,可通過公式求臨界值=1.36/=0.081<Dn(α=0.05),均拒絕原假設(shè),即各個類別間的間距是不同的。
表1 研究生生存質(zhì)量自我評價(jià)
表2 χ2檢驗(yàn)表
由于有序反應(yīng)變量y存在間距差異,故需要引入工具虛擬變量對模型加以修正。引入就業(yè)前景Z(很差=1,不太好=2,一般 =3,較好 =4,很好 =5)為工具變量(其與因變量y相關(guān),P=0.013),設(shè)工具虛擬變量為 ci,以就業(yè)前景 Z一般為參照,ci的取值為〔1,5〕:
當(dāng)我們以就業(yè)前景不太好為參照標(biāo)準(zhǔn)時(shí),設(shè)工具虛擬變量為bi,bi的取值為:
當(dāng)我們以就業(yè)前景較好為參照標(biāo)準(zhǔn)時(shí),設(shè)工具虛擬變量為di,di的取值為:
采用改進(jìn)累積logistic回歸分析,“比例性”假設(shè)條件滿足(Wald Chi-Square=83.153,P=0.914)。回歸結(jié)果見表3。
表3 改進(jìn)累積logistic回歸分析結(jié)果
由表3可知,以就業(yè)前景一般為參照時(shí),c1和c2的系數(shù)有統(tǒng)計(jì)學(xué)意義,而c4和c5的系數(shù)無統(tǒng)計(jì)學(xué)意義。同理以就業(yè)前景不太好為參照時(shí),b3的系數(shù)有統(tǒng)計(jì)學(xué)意義,而b1的系數(shù)無統(tǒng)計(jì)學(xué)意義。以就業(yè)前景較好為參照時(shí),d3與d5的系數(shù)均沒有統(tǒng)計(jì)學(xué)意義。
結(jié)果表明生活條件、工作年限、成績/科研滿意度、食欲、性別、興趣愛好以及是否生病與生存質(zhì)量有關(guān)。
(1)以就業(yè)前景一般為參照時(shí),從表3可知c1的系數(shù)有統(tǒng)計(jì)學(xué)意義,而c5的系數(shù)無統(tǒng)計(jì)學(xué)意義。故當(dāng)以生存質(zhì)量“不好也不差”(y=3)為參照時(shí),生存質(zhì)量“很差”與生存質(zhì)量“不好也不差”的間距和生存質(zhì)量“很好”與生存質(zhì)量“不好也不差”之間的間距有差別,生存質(zhì)量“很差”與生存質(zhì)量“不好也不差”的間距比生存質(zhì)量“很好”與生存質(zhì)量“不好也不差”之間的間距大,因此要想改善研究生生存質(zhì)量現(xiàn)況,從“很差”提高到“不好也不差”比從“不好也不差”提高到“很好”需要付出更多的努力。
從表3可知c2的系數(shù)有統(tǒng)計(jì)學(xué)意義,而c4的系數(shù)無統(tǒng)計(jì)學(xué)意義。故當(dāng)以生存質(zhì)量“不好也不差”(y=3)為參照時(shí),生存質(zhì)量“差”與生存質(zhì)量“不好也不差”之間的間距和生存質(zhì)量“好”與生存質(zhì)量“不好也不差”之間的間距有差別,生存質(zhì)量“差”與生存質(zhì)量“不好也不差”之間的間距比生存質(zhì)量“好”與生存質(zhì)量“不好也不差”之間的間距大,因此要想改善研究生生存質(zhì)量現(xiàn)況,從“差”提高到“不好也不差”比從“不好也不差”提高到“好”需要付出更多的努力。
(2)以就業(yè)前景不太好為參照時(shí),則設(shè)就業(yè)前景為bi,將其作為工具虛擬變量,可得出b3的系數(shù)有統(tǒng)計(jì)學(xué)意義,而b1的系數(shù)無統(tǒng)計(jì)學(xué)意義。故當(dāng)以生存質(zhì)量“差”(y=2)為參照時(shí),生存質(zhì)量“不好也不差”與生存質(zhì)量“差”之間的間距和生存質(zhì)量“很差”與生存質(zhì)量“差”之間的間距有差別,生存質(zhì)量“不好也不差”與生存質(zhì)量“差”之間的間距比生存質(zhì)量“很差”與生存質(zhì)量“差”之間的間距大,因此要想改善研究生目前的生存質(zhì)量,從“差”提高到“不好也不差”比從“很差”提高到“差”需要付出更多的努力。
(3)以就業(yè)前景較好為參照時(shí),則設(shè)就業(yè)前景為di,將其作為工具虛擬變量,可以得出d3與d5的系數(shù)均沒有統(tǒng)計(jì)學(xué)意義。故當(dāng)我們以生存質(zhì)量“好”(y=4)為參照時(shí),尚不能認(rèn)為生存質(zhì)量“不好也不差”與生存質(zhì)量“好”之間的間距和生存質(zhì)量“很好”與生存質(zhì)量“好”之間的間距有差別。
生活條件、工作年限、成績/科研滿意度、食欲、性別、興趣愛好以及是否生病與生存質(zhì)量有關(guān)。生活條件越好,工作年限越短,成績/科研滿意度越高,食欲越好,興趣愛好越廣泛,生存質(zhì)量越高;男性的生存質(zhì)量比女性差;生病者比不生病者生存質(zhì)量差〔8-10〕。
1.陳民懇.多分類有序變量間距差異的統(tǒng)計(jì)分析與實(shí)際應(yīng)用.廈門大學(xué)碩士學(xué)位論文,2007:1-50.
2.張堯庭.定性資料的統(tǒng)計(jì)分析.廣西:廣西師范大學(xué)出版社,1991:21-30.
3.顏金銳.科研中常用的統(tǒng)計(jì)方法-自由分布統(tǒng)計(jì)檢驗(yàn).北京:中國統(tǒng)計(jì)出版社,2002:62-64.
4.柯惠新,沈浩.調(diào)查研究中的統(tǒng)計(jì)分析法.北京:中國傳媒大學(xué)出版社,2005:227-228.
5.陳民懇,朱建平.?dāng)?shù)據(jù)挖掘中多分類有序變量間距差異分析及應(yīng)用.統(tǒng)計(jì)與信息論壇,2007,1:27-31.
6.王濟(jì)川,郭志剛.logistic回歸模型-方法與應(yīng)用.北京:高等教育出版社,2001:237-239.
7.David J.Lunn,Jon Wakefield,Amy Racine-Poon.Cumulative logit models for ordinal data:a case study involving allergic rhinitis severity scores.Statistics in Medicine,2001,20:2264.
8.王虹,彭曉霞,徐春麗,等.高校醫(yī)學(xué)生生存質(zhì)量影響因素分析.?dāng)?shù)理醫(yī)藥學(xué)雜志,2003,16(3):233-236.
9.趙靜波,解亞寧,侯淑晶,等.軍醫(yī)大學(xué)研究生的生存質(zhì)量及其影響因素的研究.中國臨床心理學(xué)雜志,2005,13(1):233-239.
10.羅艷虹,丁蕾,余紅梅,等.基于中國26省面板數(shù)據(jù)的城鄉(xiāng)居民醫(yī)療保健支出實(shí)證分析.中國衛(wèi)生統(tǒng)計(jì),2010,27(2):118-121.