施紅星
(楚雄師范學(xué)院初等教育學(xué)院,云南 楚雄 675000)
Poisson回歸模型的局部影響分析*
施紅星
(楚雄師范學(xué)院初等教育學(xué)院,云南 楚雄 675000)
本文討論了Poisson回歸模型的局部影響分析,分別針對方差加權(quán)擾動(dòng)模型、響應(yīng)變量擾動(dòng)模型、自變量擾動(dòng)模型得到了相應(yīng)的影響矩陣和影響曲率的計(jì)算公式,并通過實(shí)際例子驗(yàn)證了本文診斷方法的有效性。
Poisson回歸模型;局部影響;擾動(dòng);影響矩陣;影響曲率
統(tǒng)計(jì)診斷的主要目的是判斷實(shí)際數(shù)據(jù)與既定模型是否存在偏離,并指出影響點(diǎn),常用的識(shí)別方法有數(shù)據(jù)刪除法 (case-deletion)和局部影響分析 (local influence)。數(shù)據(jù)刪除法通過比較刪除數(shù)據(jù)點(diǎn)前后參數(shù)估計(jì)的變化大小來度量數(shù)據(jù)點(diǎn)的影響,進(jìn)而識(shí)別影響點(diǎn)。局部影響分析有Cook(1986)[1]從微分幾何觀點(diǎn)提出的曲率準(zhǔn)則方法,其基本思想是把模型擾動(dòng)歸結(jié)為似然函數(shù)的擾動(dòng),基于似然距離函數(shù)建立影響圖,通過計(jì)算影響圖的法曲率來尋找最大影響方向,研究微小擾動(dòng)的局部影響。近年來,局部影響的方法在許多模型中得到廣泛應(yīng)用和發(fā)展,如文獻(xiàn)[1,2]系統(tǒng)研究了線性模型的局部影響,文獻(xiàn)[3—5]討論了非線性模型及廣義線性模型的情形,文獻(xiàn)[6—8]將局部影響推廣至半?yún)?shù)非線性模型和半?yún)?shù)廣義線性模型的情形。對于列聯(lián)表數(shù)據(jù)的局部影響分析,文獻(xiàn)[9]有系統(tǒng)的研究。本文討論P(yáng)oisson回歸模型的局部影響分析。
首先介紹Poisson回歸模型及其極大似然估計(jì)。設(shè)(yi,)(i=1,2,…,n) 為n個(gè)數(shù)據(jù)點(diǎn),β =(β1,β2,…,βP)T為 p 維未知參數(shù),設(shè) yi服從 Poisson 分布,其概率函數(shù)為:
可知 μi=E(yi)=eθi,vi=Var(yi)=eθi,i=1,2,…,n。
考慮如下模型:
(2)式被稱為Poisson回歸模型,其向量形式為η=log(μ)=Xβ,其中η、μ均為n維向量,其分量分別為 ηi、μi,X=(x1,x2,…,xn)T為 n × p 矩陣,xi=(xi1,xi2,…,xip)T。
設(shè)Y=(y1,y2,…,yn)T,記Y關(guān)于β的對數(shù)似然函數(shù)為L(β),L(β)關(guān)于β的一階和二階導(dǎo)數(shù)分別記為和,則
該公式可形式地表示為加權(quán)最小二乘估計(jì)的形式:
在實(shí)際應(yīng)用中,取一個(gè)合適的初值β0,(6)式的迭代收斂很快。當(dāng)?shù)諗繒r(shí),假定,則有
這里首先簡要介紹Cook局部影響分析的基本思想。設(shè)L(θ)為模型M相應(yīng)的隨機(jī)變量Y=(y1,…,yn)T的對數(shù)似然函數(shù),θ為未知的p維參數(shù)向量,其定義域?yàn)镽P的某一開子集Θ,ω=(ω1,…,ωq)T表示對模型M產(chǎn)生擾動(dòng)的向量,其定義域?yàn)镽q的某一開子集Ω,受擾動(dòng)的模型記為M(ω),其相應(yīng)的對數(shù)似然函數(shù)記為L(θ|ω),L(θ)和L(θ|ω)的極大似然估計(jì)分別記為和。假設(shè)L(θ|ω)在Θ×Ω上存在二階以上連續(xù)偏導(dǎo)數(shù),并假定存在ω0∈Ω,使得M(ω0)=M對應(yīng)于無擾動(dòng)情形,因此有且定義似然距離函數(shù)為。從幾何上看Z=LD(ω)表示(q+1)維空間中的一個(gè)q維曲面,用參數(shù)方程的形式表示為:
曲面(8)稱為影響圖,影響圖隨ω變化情況全面刻畫了擾動(dòng)對模型的影響。由于ω0對應(yīng)于無擾動(dòng)模型,因此影響圖在ω0處的變化率反映了原模型對于擾動(dòng)的敏感程度,稱為局部影響。影響圖(8) 在 ω0處各方向的一階導(dǎo)數(shù)都為零[1,2],Cook(1986)[1]提出借助二階導(dǎo)數(shù),利用曲率來度量影響圖在ω0附近的變化情況。根據(jù)文獻(xiàn)[1,2]可知,(8)定義的影響圖在ω0處沿方向d的影響曲率可表示為:
下面我們針對不同的擾動(dòng)形式,利用(9)討論P(yáng)oisson回歸模型的局部影響分析。
假定每個(gè)數(shù)據(jù)點(diǎn)yi的方差有擾動(dòng),ω=(ω1,…,ωn)T表示描述擾動(dòng)的n維向量,ω0=(1,…,1)T表示模型無擾動(dòng),在此擾動(dòng)結(jié)構(gòu)下,擾動(dòng)模型的對數(shù)似然函數(shù)轉(zhuǎn)化為加權(quán)形式
由(10)直接計(jì)算,并在(^β,ω0)處計(jì)值可得
把上述結(jié)果代入(9)得到方差加權(quán)擾動(dòng)模型的影響曲率計(jì)算公式為
相應(yīng)的影響矩陣為F=D(e)X(XTVX)-1XTD(e),最大影響曲率表示為cmax=2λ1,λ1為影響矩陣F的特征值中絕對值最大者,最大影響曲率方向dmax為對應(yīng)于λ1的特征向量。
響應(yīng)變量的擾動(dòng)也是一類常見的擾動(dòng)形式。設(shè)擾動(dòng)后響應(yīng)變量為 Yω=Y+ω,ω=(ω1,…,ωn)T表示擾動(dòng)向量,ω0=(0,…,0)T表示無擾動(dòng),在這種擾動(dòng)形式下,模型的對數(shù)似然函數(shù)為
我們研究一個(gè)自變量有擾動(dòng)的情形。假定第t個(gè)自變量受到擾動(dòng),即Xt轉(zhuǎn)化為Xt(ω)=Xt+ ω,其中 ω =(ω1,…,ωn)T,ω0=(0,…,0)T表示無擾動(dòng),此時(shí),模型的分量形式化為
模型(12)的對數(shù)似然函數(shù)為
其中l(wèi)t表示第t個(gè)分量為1其余分量為0的p維向量,由此得到第t列自變量受到擾動(dòng)的模型的影響曲率為,影響矩陣為由(14)給出。
我們以文獻(xiàn)[10]中的數(shù)據(jù)為例,利用本文方法進(jìn)行分析,說明方法的有效性。
數(shù)據(jù)為某醫(yī)院在非氣質(zhì)性心臟病并且僅有胸悶癥狀的就診者中隨機(jī)收集30個(gè)患者在24小時(shí)中的早搏數(shù)y,研究早搏與吸煙x1、喝咖啡x2和性別x3的關(guān)系。
其中y表示24小時(shí)內(nèi)的早搏數(shù),x1=1表示吸煙,x1=0表示不吸煙,x2=1表示喜歡喝咖啡,x2=0表示不喜歡喝咖啡,x3=1表示男性,x3=0表示女性。
對于該實(shí)際例子,我們采用前面的回歸模型和算法,通過三次Gauss-Newton迭代算法的計(jì)算,得到
表一 參數(shù)估計(jì)值
由于本例子的自變量均是啞變量,討論自變量擾動(dòng)的模型沒有實(shí)際意義,因此我們只進(jìn)行前兩種擾動(dòng)模型的局部影響分析。在上述參數(shù)估計(jì)的基礎(chǔ)上,分別計(jì)算基于方差擾動(dòng)模型和響應(yīng)變量擾動(dòng)模型的各樣本點(diǎn)局部影響統(tǒng)計(jì)量如下表二。
表二 兩類擾動(dòng)方式的局部影響統(tǒng)計(jì)量結(jié)果
由此可知相應(yīng)的局部影響統(tǒng)計(jì)量圖為
從方差擾動(dòng)的局部影響統(tǒng)計(jì)量的折線圖可以發(fā)現(xiàn),第16號(hào),21號(hào),4號(hào)是強(qiáng)影響點(diǎn),其次是第11號(hào),14號(hào)和19號(hào),這與廣義Cook距離和得分函數(shù)SCi關(guān)于樣本點(diǎn)的變化具有大致相同的趨勢(//[11]);但從響應(yīng)變量擾動(dòng)的局部影響統(tǒng)計(jì)量來看,則第7號(hào)是最強(qiáng)影響點(diǎn),其次是第1號(hào),第17號(hào)和第21號(hào),這與前一種擾動(dòng)的結(jié)果就有很大的不同,也與廣義Cook距離和得分函數(shù)SCi的發(fā)現(xiàn)有很大的不同,值得進(jìn)一步關(guān)注和分析。
[1] Cook R D.Assessment of local influence [J] .J R Statist Soc B,1986,48:133—169.
[2]韋博成,魯國斌,史建清.統(tǒng)計(jì)診斷引論 [M].南京:東南大學(xué)出版社,1991.
[3]Thomos W,Cook R D.Assessing influence on regression coefficients in generalized linear models [J].Biometrika,1989,76:741—749.
[4] Wei B C.Expenential Family Nonlinear Models[M] .Sinapore:Springer-Verlag,1998.
[5]Green P J,Silverman B W.Nonparametric Regression and Generalized Linear Models[M].London:Chapman and Hall,1994.
[6]朱仲儀,韋博成.半?yún)?shù)非線性模型的統(tǒng)計(jì)診斷與影響分析[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2001,24(4):568—581.
[7]曾林蕊,朱仲儀.半?yún)?shù)廣義線性模型的局部影響分析[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,4:18—25.
[8]曾林蕊,朱仲儀.半?yún)?shù)廣義線性隨機(jī)效應(yīng)模型的影響分析[J].數(shù)學(xué)物理學(xué)報(bào),2007,27A(4):584—593.
[9]何利平,石磊.列聯(lián)表數(shù)據(jù)的局部影響分析 [J].數(shù)學(xué)物理學(xué)報(bào),2011,31A(2):518—527.
[10]峁詩松.統(tǒng)計(jì)手冊 [M].北京:科學(xué)出版社,2003.
[11]施紅星.Poisson回歸模型的統(tǒng)計(jì)診斷與影響分析 [J].云南師范大學(xué)學(xué)報(bào) (自然科學(xué)版),2009,29(5):34—38.
Local Influence Analysis for Poisson Regression Model
SHI Hong-xing
(School of Primary Education,Chuxiong Normal University,Chuxiong 675000,China)
This paper studies the local influence for Poisson regression model.The counting formulas of influence curvature and influence matrix for case-weights perturbation model,mean shift perturbation model and arguments perturbation model are obtained.Finally the numerical example illustrates that the method is effective.
Poisson regression model;local influence;perturbation;influence matrix;influence curvature.
O212.1
A
1671-7406(2012)06-0005-05
云南省教育廳科研基金項(xiàng)目 (06Y027A);楚雄師院科研基金項(xiàng)目 (05-YJYB01)
2012-02-27
施紅星 (1970—),男,云南楚雄人,副教授,理學(xué)碩士,主要研究方向:應(yīng)用統(tǒng)計(jì)。
(責(zé)任編輯 李艷梅)