多組間協(xié)變量均衡性評(píng)價(jià)方法的研究*

2018-07-16 06:14黃福強(qiáng)安勝利

中國(guó)衛(wèi)生統(tǒng)計(jì) 2018年2期

黃福強(qiáng)　許　軍　安勝利△

【提　要】　目的　構(gòu)建用于評(píng)價(jià)三分組資料組間協(xié)變量均衡性的指標(biāo)(簡(jiǎn)稱FQ統(tǒng)計(jì)量);比較假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量這三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力。方法　利用合并方差構(gòu)建FQ統(tǒng)計(jì)量;采用有序多分類和無(wú)序多分類logistic回歸計(jì)算各組研究個(gè)體的傾向性評(píng)分值;采用Monte Carlo模擬比較上述三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力。結(jié)果　假設(shè)檢驗(yàn)法檢驗(yàn)三組間協(xié)變量均衡性的能力受樣本量大小的影響,而標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量則不受樣本量大小的影響。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)三組間協(xié)變量均衡性的能力均高于假設(shè)檢驗(yàn)法,且兩者保持高度一致。當(dāng)協(xié)變量的FQ統(tǒng)計(jì)量小于0.2時(shí),認(rèn)為協(xié)變量在三組間的分布達(dá)到均衡。結(jié)論　標(biāo)準(zhǔn)化差異法與FQ統(tǒng)計(jì)量是有效的協(xié)變量均衡性檢驗(yàn)方法,而FQ統(tǒng)計(jì)量的計(jì)算步驟較標(biāo)準(zhǔn)化差異法簡(jiǎn)便,因此更具有應(yīng)用的優(yōu)勢(shì)。

傾向性評(píng)分的概念由Rosenbaum和Rubin在1983年提出,該方法的基本原理是降維,即用一個(gè)傾向性評(píng)分值來(lái)概括多個(gè)協(xié)變量的影響并整合成為一個(gè)綜合的分?jǐn)?shù)[1]。Rubin和Rosenbaum提出傾向性評(píng)分的概念及后續(xù)的理論研究中,都是針對(duì)兩分組資料[2],傾向性評(píng)分目前也主要應(yīng)用于兩分組資料[3]。后續(xù)Imbens提出了多分組傾向性評(píng)分的概念,與兩分組傾向性評(píng)分方法進(jìn)行了比較,并且從理論上證明了多分組傾向性評(píng)分方法的可行性[4]。

在傾向性評(píng)分匹配前后需要對(duì)放入傾向性評(píng)分模型中的協(xié)變量進(jìn)行均衡性檢驗(yàn),Flury和Reidwyl在1986年首次提出了標(biāo)準(zhǔn)化差異法(standardized differences,SD)來(lái)評(píng)價(jià)組間協(xié)變量的均衡性[5]。研究表明,當(dāng)標(biāo)準(zhǔn)化差異小于0.1時(shí),認(rèn)為兩組間協(xié)變量的均衡性良好[6]。標(biāo)準(zhǔn)化差異法多見于兩分組資料,目前對(duì)于多組間協(xié)變量均衡性的評(píng)價(jià)方法多是采用不同組間標(biāo)準(zhǔn)化差異的最大值作為評(píng)價(jià)指標(biāo),當(dāng)不同組間標(biāo)準(zhǔn)化差異的最大值小于0.1時(shí),認(rèn)為組間的協(xié)變量達(dá)到均衡[7]。但此方法的計(jì)算步驟繁瑣,不便于實(shí)際應(yīng)用。本研究擬構(gòu)建三分組資料組間協(xié)變量均衡性評(píng)價(jià)的新指標(biāo)(以下簡(jiǎn)稱FQ統(tǒng)計(jì)量),用于直接評(píng)價(jià)三分組資料組間協(xié)變量的均衡性。

方　　法

1.構(gòu)建FQ統(tǒng)計(jì)量

對(duì)于多分組資料,合并標(biāo)準(zhǔn)差的定義為:

當(dāng)組間樣本量相同時(shí),合并標(biāo)準(zhǔn)差的定義為[8]:

因此,在三分組1:1:1的傾向性評(píng)分匹配中,合并標(biāo)準(zhǔn)差的定義為:

在二分組資料中,評(píng)價(jià)組間協(xié)變量均衡性的常用指標(biāo)為標(biāo)準(zhǔn)化差異值,對(duì)于連續(xù)型協(xié)變量,其定義為:

對(duì)于二分類協(xié)變量,它的定義為:

上式中,ptreatment和pcontrol分別表示處理組和對(duì)照組某協(xié)變量的陽(yáng)性率。

由二分組協(xié)變量均衡性的評(píng)價(jià)指標(biāo)標(biāo)準(zhǔn)化差異值和合并標(biāo)準(zhǔn)差的定義,將標(biāo)準(zhǔn)化差異法延伸到三分組資料,構(gòu)建出三分組資料組間協(xié)變量均衡性評(píng)價(jià)的新指標(biāo),即FQ統(tǒng)計(jì)量。

對(duì)于三分組資料的連續(xù)型協(xié)變量,將FQ統(tǒng)計(jì)量定義為:

對(duì)于三分組資料的二分類協(xié)變量,將FQ統(tǒng)計(jì)量定義為:

上式中,p1、p2和p3分別表示三組中某協(xié)變量的陽(yáng)性率。

2.探索FQ統(tǒng)計(jì)量評(píng)價(jià)協(xié)變量是否均衡的界值

(1)在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量為1500,為每個(gè)研究個(gè)體模擬產(chǎn)生兩個(gè)服從二項(xiàng)分布的變量(x1和x2)和兩個(gè)服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:

Bi～Bernoulli(0.5)

Ci～N(0,1)

(2)為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j為第i個(gè)研究個(gè)體被分到第j組的概率；βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設(shè)OR1=OR3=1.1,OR2=OR4=1.5；β0為常數(shù)項(xiàng),通過(guò)調(diào)整β0可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

(4)重復(fù)(1)～(3)步驟1500次,得到樣本量為1500的數(shù)據(jù)集。

(5)為模擬的數(shù)據(jù)集計(jì)算x1和x3三組之間兩兩的標(biāo)準(zhǔn)化差異,保存最大的標(biāo)準(zhǔn)化差異值,并計(jì)算x1和x3的FQ統(tǒng)計(jì)量。分別將x1和x3的最大標(biāo)準(zhǔn)化差異值進(jìn)行升值排序,觀察FQ統(tǒng)計(jì)量的變化趨勢(shì)。

3.模擬比較假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量這三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力

(1)分組因素為有序三分類

①在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量初始值為300,為每個(gè)研究個(gè)體模擬產(chǎn)生兩個(gè)服從二項(xiàng)分布的變量(x1和x2)和兩個(gè)服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:

Bi～Bernoulli(0.5)

Ci～N(0,1)

②為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[9]:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j為第i個(gè)研究個(gè)體被分到第j組的概率。βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設(shè)OR1=OR3=1,OR2=OR4=1.5。β0為常數(shù)項(xiàng),通過(guò)調(diào)整β0可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

④重復(fù)①～②步驟300次,得到樣本量為300的數(shù)據(jù)集。采用χ2檢驗(yàn)、最大標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量x1的均衡性;采用one way ANOVA、最大標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量x3的均衡性。

⑤保持OR1=OR3=1,OR2=OR4=1.5不變,重復(fù)①～④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計(jì)算檢出率。

⑥保持OR1=OR3=1,OR2=OR4=1.5不變。逐漸增大樣本量,分別對(duì)樣本量300和1800～6000之間進(jìn)行模擬,當(dāng)樣本量變化在1800～6000之間時(shí),每重復(fù)一次樣本量增加600,每改變一次樣本量,重復(fù)①～⑤步驟。

⑦ 設(shè)定OR1=1.4,OR3=1.2,OR2=OR4=1.5,并保持不變,逐漸增大樣本量,分別對(duì)樣本量100～1500之間進(jìn)行模擬,每重復(fù)一次樣本量增加200。每改變一次樣本量,重復(fù)①～⑤步驟。

⑧ 設(shè)定OR1=OR3=1,OR2=OR4=1.5,固定OR2=OR4=1.5,固定樣本量為600,逐漸增大OR1和OR3,同時(shí)調(diào)整常數(shù)項(xiàng)β0保持三組間的樣本量比例為1:1:1,重復(fù)步驟①～⑤,每重復(fù)一次OR1和OR3的值都增加0.1,OR1和OR3的變化范圍為1～2。

(2)分組因素為無(wú)序三分類

①與有序三分類①相同

②為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[10]:

上式中,P(G=1)、P(G=2) 和P(G=3) 分別為研究個(gè)體被分到第一組、第二組和第三組的概率。βij(i=1,2,3,4;j=1,2)為回歸系數(shù),其中ORij=exp(βij),設(shè)OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。β0j(j=1,2)為常數(shù)項(xiàng),通過(guò)調(diào)整β0j(j=1,2)可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

③P(G=1)、P(G=2)和P(G=3)分別為研究個(gè)體被分到第一組、第二組和第三組的概率,則有

為將三組的樣本量比例控制在1:1:1,利用SAS函數(shù)rantbl求得分組因素：

G=rantb(0,P(G=1),P(G=2),P(G=3))

④與有序三分類④相同

⑤固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,重復(fù)①～④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計(jì)算檢出率。

⑥固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。該步驟剩余部分與有序三分類⑥相同。

⑦設(shè)定OR11=OR31=1,OR12= 1.4,OR32=1.2,OR21=OR41=OR22=OR42=1.5,并保持不變,逐漸增大樣本量。該步驟剩余部分與有序三分類⑦相同

⑧設(shè)定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,固定OR11=OR31=1,OR21=OR41=OR22=OR42=1.5,逐漸增大OR12和OR32,同時(shí)調(diào)整常數(shù)項(xiàng)β0j(j=1,2)保持三組間的樣本量比例為1:1:1,重復(fù)步驟①～⑤,每重復(fù)一次OR12和OR32的值都增加0.1,OR12和OR32的變化范圍為1～2。

結(jié)　　果

1. FQ統(tǒng)計(jì)量評(píng)價(jià)協(xié)變量是否均衡的界值

按最大標(biāo)準(zhǔn)化差異值升值排序后,x1和x3的FQ統(tǒng)計(jì)量分布如圖1和圖2所示(選取部分結(jié)果)。

圖1　二分類協(xié)變量x1

圖2　連續(xù)型協(xié)變量x3

按x1和x3的最大標(biāo)準(zhǔn)化差異值進(jìn)行升值排序后,x1和x3FQ統(tǒng)計(jì)量的值呈現(xiàn)遞增次序,當(dāng)x1和x3的最大標(biāo)準(zhǔn)化差異值為0.1時(shí),對(duì)應(yīng)x1和x3FQ統(tǒng)計(jì)量的值為0.2。對(duì)于三分組資料,目前大多研究者評(píng)價(jià)三組間協(xié)變量均衡性的方法是:采用不同組間標(biāo)準(zhǔn)化差異的最大值作為評(píng)價(jià)指標(biāo),當(dāng)不同組間標(biāo)準(zhǔn)化差異的最大值小于0.1時(shí),即認(rèn)為組間的協(xié)變量達(dá)到均衡。由圖1～2可見,當(dāng)協(xié)變量FQ統(tǒng)計(jì)量的值小于0.2時(shí),則協(xié)變量的最大標(biāo)準(zhǔn)化差異值小于0.1,因此初步確定0.2作為FQ統(tǒng)計(jì)量評(píng)價(jià)三組間協(xié)變量是否均衡的界值,下文將對(duì)該界值的合理性進(jìn)行驗(yàn)證。

2.分組因素為有序三分類和無(wú)序三分類的模擬結(jié)果

(1)OR1=OR3=1(OR12=OR32=1)時(shí),假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率如圖3和圖4所示。

圖3　二分類協(xié)變量x1的檢出率隨樣本量變化的趨勢(shì)

圖4　連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢(shì)

結(jié)果顯示,對(duì)于二分類變量x1和連續(xù)型變量x3,假設(shè)檢驗(yàn)法因?yàn)镮類錯(cuò)誤的控制,其檢出率始終處于5%左右。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率隨樣本量的增大而減小,兩者的檢驗(yàn)結(jié)果保持高度一致。當(dāng)樣本量較小時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率高于假設(shè)檢驗(yàn)法;當(dāng)樣本量達(dá)到6000(即每組的樣本量達(dá)到2000)時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率均趨于0。

(2)OR1=1.4,OR3=1.2(OR12=1.4,OR32=1.2)時(shí),假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率如圖5和圖6所示。

由圖5和圖6所示,對(duì)于二分類協(xié)變量x1和連續(xù)型協(xié)變量x3,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率不受樣本量大小的影響,即使在小樣本情況下,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量也能檢驗(yàn)出協(xié)變量的不均衡性,而假設(shè)檢驗(yàn)法的檢出率隨樣本量的增大而增大。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率高于假設(shè)檢驗(yàn)法,并且處于平穩(wěn)狀態(tài),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率保持高度一致。

圖6　連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢(shì)

(3)假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率隨OR值變化的結(jié)果分別見圖7和圖8。

圖7　二分類協(xié)變量x1的檢出率隨OR值變化的趨勢(shì)(n=600)

由圖7和圖8所示,當(dāng)OR值較小時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率均高于假設(shè)檢驗(yàn)法,且標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率保持高度一致,隨著OR值的增大,假設(shè)檢驗(yàn)法的檢出率與準(zhǔn)化差異和FQ統(tǒng)計(jì)量的檢出率趨于一致。當(dāng)改變樣本量模擬時(shí),結(jié)果保持不變,可以得出,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量不均衡的能力要強(qiáng)于假設(shè)檢驗(yàn)法。

圖8　連續(xù)型協(xié)變量x3的檢出率隨OR值變化的趨勢(shì)(n=600)

討　　論

本研究構(gòu)建的FQ統(tǒng)計(jì)量可用于檢驗(yàn)三分組資料組間協(xié)變量的均衡性,當(dāng)協(xié)變量FQ統(tǒng)計(jì)量的值小于0.2時(shí),可認(rèn)為協(xié)變量在三組間的分布達(dá)到均衡。模擬結(jié)果顯示,分組因素?zé)o論是有序三分類還是無(wú)序三分類,協(xié)變量無(wú)論是連續(xù)型變量還是二分類變量,FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法的檢出率都保持高度一致。FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法的檢出率不受樣本量大小的影響,即使在小樣本情況下,FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法也能檢驗(yàn)出協(xié)變量的不均衡性,這兩種方法檢驗(yàn)協(xié)變量不均衡的能力均強(qiáng)于假設(shè)檢驗(yàn)法,而FQ統(tǒng)計(jì)量的計(jì)算步驟較標(biāo)準(zhǔn)化差異法簡(jiǎn)便,因此更具有應(yīng)用的優(yōu)勢(shì)。經(jīng)驗(yàn)證,當(dāng)三組的樣本比例為1:2:3、2:3:4時(shí),結(jié)論與樣本比例為1∶1∶1時(shí)一致,因此對(duì)于三組樣本不等的情況,本文的結(jié)論仍然適合。

本研究?jī)H模擬了二分類協(xié)變量和連續(xù)型協(xié)變量的情況,對(duì)于多分類協(xié)變量和非正態(tài)連續(xù)型協(xié)變量的情況有待進(jìn)一步的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡