国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

零膨脹計數(shù)資料幾種模型方法的比較研究*

2020-06-28 10:30復旦大學公共衛(wèi)生學院流行病學教研室200032吳學福劉振球吳明山方綺雯袁黃波張鐵軍
中國衛(wèi)生統(tǒng)計 2020年3期
關鍵詞:二項分布醫(yī)療保健計數(shù)

復旦大學公共衛(wèi)生學院流行病學教研室(200032) 吳學福 劉振球 吳明山 方綺雯 袁黃波 張鐵軍

【提 要】 目的 探討處理零膨脹計數(shù)資料的幾種模型之間的比較及其應用。方法 在R語言中,分別用Poisson回歸、負二項回歸、零膨脹模型和hurdle模型來擬合66歲以上老年人醫(yī)療保健需求的數(shù)據(jù),并通過似然比檢驗、Vuong檢驗和AIC、BIC的比較,對模型進行評估。結果 零膨脹負二項模型和負二項hurdle回歸模型對數(shù)據(jù)的擬合效果優(yōu)于其他回歸模型,負二項hurdle模型的擬合結果與數(shù)據(jù)更接近,其擬合結果顯示老年人住院天數(shù)越長、患有慢性病數(shù)量越多、受教育年數(shù)越久、參加私人保險,其訪問醫(yī)療診所的次數(shù)越多,而自評健康狀況良好、男性的老年人醫(yī)療診所訪問的次數(shù)較少,即醫(yī)療保健需求的次數(shù)較少。結論 零膨脹負二項回歸模型和負二項hurdle模型處理零過多、過離散數(shù)據(jù)的效果優(yōu)于一般的計數(shù)模型;而在零觀測值相對較少的情況下,用負二項hurdle模型可能更合適。

醫(yī)學研究中經(jīng)常會遇到某事件發(fā)生次數(shù)的資料中含有大量的零,即許多觀察個體在單位時間、單位體積內未觀察到相應事件的發(fā)生[1]。這些資料零觀測值出現(xiàn)的概率遠遠超出相同條件下標準計數(shù)模型(如Poisson回歸和負二項回歸模型)能夠預期的范圍,使模型的方差遠大于期望,這種現(xiàn)象稱為零膨脹(zero-inflated)現(xiàn)象。零膨脹現(xiàn)象一直受到國內外學者的廣泛關注和研究,當計數(shù)資料中存在零膨脹現(xiàn)象時,如果繼續(xù)使用Poisson回歸或負二項回歸模型來擬合數(shù)據(jù),所得結果可能失真。近年來,hurdle回歸模型和零膨脹回歸模型不斷發(fā)展,在醫(yī)學、金融、農(nóng)業(yè)和社會科學等研究領域中得到廣泛應用,逐漸成為分析零膨脹數(shù)據(jù)的主流模型。

原理和方法

1.零膨脹回歸模型(zero-inflated model,ZIM)

零膨脹模型認為計數(shù)數(shù)據(jù)中的零觀測值來源于兩部分:一部分是來源于數(shù)據(jù)中存在某些特殊結構而產(chǎn)生的結構零;另一部分是來源于Poisson分布或負二項分布產(chǎn)生的抽樣零[2-3]。零膨脹模型可以看作是Bernoulli分布和離散型分布組成的混合分布,其概率密度函數(shù)的一般形式為:

(1)

其中πi(0≤πi<1)為零膨脹參數(shù),表示結構零的概率,f(yi)服從某個離散型分布,如Poisson分布或負二項分布等。

(1)零膨脹泊松回歸模型(zero-inflated Poisson model,ZIP)

若(1)式中的f(yi)服從參數(shù)為μ的Poisson分布時, ZIP的公式為:

(2)

其中γ,β為待估計的模型回歸系數(shù);x,z為協(xié)變量,二者可以相同也可以不同。

(2)零膨脹負二項回歸模型(zero-inflated negative binomial model,ZINB)

若(1)式中的f(yi)服從參數(shù)為μ和α的負二項分布時,ZINB的公式為:

(3)

其中γ,β為待估計的模型回歸系數(shù);x,z為協(xié)變量,二者可以相同也可以不同。零膨脹模型中πi常用的連接函數(shù)為logit、probit函數(shù)。

2.hurdle回歸模型

hurdle模型認為數(shù)據(jù)中的零觀測值均來自于結構零,非零數(shù)據(jù)則是來自于不同的過程:第一個過程決定零事件發(fā)生還是非零事件發(fā)生的可能,發(fā)生取1,不發(fā)生取0,這個過程服從(0,1)分布,當?shù)谝粋€過程取0時則進入第二個過程,即事件至少發(fā)生一次的過程,該過程的非零數(shù)據(jù)服從零截斷Poisson或零截斷負二項分布等零截斷離散分布模型[4]。

根據(jù)以上原理hurdle模型的一般形式為:

i=1,2,…,N

(4)

式(4)中πi為事件數(shù)取0的概率;f′(Zi)表示零截斷離散型分布。

(1)Poisson-hurdle回歸模型(Poisson hurdle model,PH)

當(4)式中的f′(Zi)選擇零截斷Poisson分布時[5],PH的公式為:

i=1,2,…,N

(5)

(2)負二項hurdle回歸模型(negative binomial hurdle,NBH)

當(2)式中的f′(Zi)選擇零截斷負二項分布時[6],NBH的公式為:

i=1,2,…,N

(6)

hurdle模型中πi選擇不同連接函數(shù)(logit、probit、clog函數(shù)等)可得到不同的二分類回歸模型。

3.模型的評價指標

(1)似然比檢驗(LRT) 似然比檢驗是用來比較兩個嵌套關系模型(模型1嵌套于模型2)的擬合優(yōu)度。在R語言中,可以通過lrtest()函數(shù)來實現(xiàn)。似然比檢驗統(tǒng)計量為:

LR=-2[LL2-LL1]

(7)

(8)

(3)AIC和BIC準則 當似然比檢驗和Vuong檢驗難以判斷模型優(yōu)劣時,可以通過比較AIC和BIC統(tǒng)計量的相對大小來對模型優(yōu)劣進行排名,信息準則值越小則模型越優(yōu)[9]。

實例分析

本研究數(shù)據(jù)來源于1987-1988年美國國家醫(yī)療費用調查(national medical expenditure survey,NMES)關于老年人(66歲以上)醫(yī)療費用支出的調查資料。該研究共納入了4406名醫(yī)保覆蓋的老年人,本文對其住院天數(shù)、健康狀況自評、慢性病數(shù)量、性別、受教育年數(shù)和是否參加私人健康保險進行分析,以醫(yī)療診所訪問次數(shù)作為老年人醫(yī)療保健需求的測量指標,探討老年人醫(yī)療保健需求的影響因素。

醫(yī)療診所訪問次數(shù)的取值分布如圖1所示。

圖1 醫(yī)療診所訪問次數(shù)的取值分布

圖1中,醫(yī)療診所訪問次數(shù)取值為0的比例為15.5%,運用R中的dispersiontest()函數(shù)對訪問次數(shù)資料進行過離散檢驗,檢驗統(tǒng)計量為11.509(P<0.05),提示數(shù)據(jù)存在零過多和過離散的現(xiàn)象,使用零膨脹或hurdle回歸模型處理數(shù)據(jù)優(yōu)于Poisson回歸模型。

對零膨脹和hurdle回歸模型的兩個部分(零部分和非零部分)均選取住院天數(shù)、健康狀況自評、慢性病數(shù)量、性別、受教育年數(shù)和是否參加私人健康保險作為其協(xié)變量。分別用Poisson、負二項回歸(negative binomial,NB)、ZIP、ZINB、PH和NBH模型對老年人醫(yī)療健康需求數(shù)據(jù)進行擬合,并對嵌套關系模型進行似然比檢驗、非嵌套模型進行Vuong檢驗,檢驗結果如表1所示。

表1 各模型的似然比檢驗和Vuong檢驗結果

*:P<0.05;**:P<0.001

似然比檢驗和Vuong檢驗結果顯示,NB的擬合效果優(yōu)于Poisson回歸;ZIP的擬合效果優(yōu)于Poisson,但比NB差,以此類推。NBH雖然優(yōu)于其他模型,但與ZINB比較的檢驗統(tǒng)計量V值小于1.96,不能區(qū)分二者的優(yōu)劣程度。各回歸模型的參數(shù)估計結果及擬合指標AIC、BIC如表2所示。

表2 老年人醫(yī)療保健需求回歸模型參數(shù)估計結果

a:零膨脹的logit部分(零過程);*:P<0.05;**:P<0.001

表2中AIC、BIC的結果驗證了表2中ZINB和NBH優(yōu)于Poisson、負二項回歸模型、ZIP和PH,并補充說明了NBH對本研究數(shù)據(jù)的擬合效果最好。

討 論

對于具有零膨脹現(xiàn)象的數(shù)據(jù),使用Poisson和負二項回歸得到的結論可能過于樂觀。本研究數(shù)據(jù)在使用標準計數(shù)模型時發(fā)現(xiàn)住院天數(shù)、健康狀況自評、患慢性病的數(shù)量、性別、受教育年數(shù)、是否參加私人保險均與老年人訪問醫(yī)療診所次數(shù)的多少有關,而NBH模型卻發(fā)現(xiàn)自評健康狀況差和醫(yī)療診所的次數(shù)并無明顯聯(lián)系,實際上,醫(yī)療診所的訪問次數(shù)是需要根據(jù)醫(yī)生的建議來決定的。因此,NBH模型更加貼合實際情況。

零膨脹回歸模型和hurdle回歸模型均是處理零過多、過離散數(shù)據(jù)常用的兩個模型,但二者的主要區(qū)別在于對數(shù)據(jù)中零觀測值的處理:零膨脹回歸模型假設零數(shù)據(jù)來自兩個不同的總體(或兩種不同的分布),一部分是那些不可能發(fā)生某事件的個體,源于數(shù)據(jù)的特殊性,假定服從二項分布;另一部分就是那些有可能發(fā)生某事件的個體,但由于抽樣的存在而沒有觀察到事件的發(fā)生,這部分一般假定服從離散型分布。hurdle回歸模型是假設數(shù)據(jù)中的零部分和非零部分是完全分開的,零數(shù)據(jù)均服從二項分布,其余的非零計數(shù)數(shù)據(jù)則是服從零截斷的Poisson分布或負二項分布。零膨脹模型和hurdle模型在公共衛(wèi)生、臨床和社會經(jīng)濟等調查研究中都受到廣泛重視。有學者在對交通事故傷亡的影響因素研究中發(fā)現(xiàn),零數(shù)據(jù)的比例為59.07%時,用PH回歸模型比NBH模型優(yōu)[7]。而本研究中NBH回歸模型對數(shù)據(jù)的擬合效果更好的原因可能在于:數(shù)據(jù)中零觀測值相對較少,為15.5%,這對零觀測值只有一個來源并與非零計數(shù)截然分開的hurdle回歸模型更合適。

本文只討論了零膨脹和Hurdle模型在老年人醫(yī)療保健次數(shù)影響因素研究中的應用并進行比較,實際的調查研究中還存在許多零膨脹計數(shù)資料。在應用回歸模型進行數(shù)據(jù)擬合時,不僅要考慮數(shù)據(jù)的性質和分布,還要綜合考慮實際情況和專業(yè)性,從而選擇最優(yōu)模型。

猜你喜歡
二項分布醫(yī)療保健計數(shù)
快速行動并治愈一切:醫(yī)療保健是如何演變成消費品的
二項分布與超幾何分布的區(qū)別與聯(lián)系
古人計數(shù)
醫(yī)療保健和技術:數(shù)字醫(yī)學的開端
深度剖析超幾何分布和二項分布
概率與統(tǒng)計(1)——二項分布與超幾何分布
深度剖析超幾何分布和二項分布
遞歸計數(shù)的六種方式
古代的計數(shù)方法
谷歌探尋將人工智能用于醫(yī)療保健的方法