国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多組間協(xié)變量均衡性評(píng)價(jià)方法的研究*

2018-07-16 06:14黃福強(qiáng)安勝利
關(guān)鍵詞:均衡性假設(shè)檢驗(yàn)樣本量

黃福強(qiáng) 許 軍 安勝利△

【提 要】 目的 構(gòu)建用于評(píng)價(jià)三分組資料組間協(xié)變量均衡性的指標(biāo)(簡(jiǎn)稱FQ統(tǒng)計(jì)量);比較假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量這三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力。方法 利用合并方差構(gòu)建FQ統(tǒng)計(jì)量;采用有序多分類和無(wú)序多分類logistic回歸計(jì)算各組研究個(gè)體的傾向性評(píng)分值;采用Monte Carlo模擬比較上述三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力。結(jié)果 假設(shè)檢驗(yàn)法檢驗(yàn)三組間協(xié)變量均衡性的能力受樣本量大小的影響,而標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量則不受樣本量大小的影響。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)三組間協(xié)變量均衡性的能力均高于假設(shè)檢驗(yàn)法,且兩者保持高度一致。當(dāng)協(xié)變量的FQ統(tǒng)計(jì)量小于0.2時(shí),認(rèn)為協(xié)變量在三組間的分布達(dá)到均衡。結(jié)論 標(biāo)準(zhǔn)化差異法與FQ統(tǒng)計(jì)量是有效的協(xié)變量均衡性檢驗(yàn)方法,而FQ統(tǒng)計(jì)量的計(jì)算步驟較標(biāo)準(zhǔn)化差異法簡(jiǎn)便,因此更具有應(yīng)用的優(yōu)勢(shì)。

傾向性評(píng)分的概念由Rosenbaum和Rubin在1983年提出,該方法的基本原理是降維,即用一個(gè)傾向性評(píng)分值來(lái)概括多個(gè)協(xié)變量的影響并整合成為一個(gè)綜合的分?jǐn)?shù)[1]。Rubin和Rosenbaum提出傾向性評(píng)分的概念及后續(xù)的理論研究中,都是針對(duì)兩分組資料[2],傾向性評(píng)分目前也主要應(yīng)用于兩分組資料[3]。后續(xù)Imbens提出了多分組傾向性評(píng)分的概念,與兩分組傾向性評(píng)分方法進(jìn)行了比較,并且從理論上證明了多分組傾向性評(píng)分方法的可行性[4]。

在傾向性評(píng)分匹配前后需要對(duì)放入傾向性評(píng)分模型中的協(xié)變量進(jìn)行均衡性檢驗(yàn),Flury和Reidwyl在1986年首次提出了標(biāo)準(zhǔn)化差異法(standardized differences,SD)來(lái)評(píng)價(jià)組間協(xié)變量的均衡性[5]。研究表明,當(dāng)標(biāo)準(zhǔn)化差異小于0.1時(shí),認(rèn)為兩組間協(xié)變量的均衡性良好[6]。標(biāo)準(zhǔn)化差異法多見于兩分組資料,目前對(duì)于多組間協(xié)變量均衡性的評(píng)價(jià)方法多是采用不同組間標(biāo)準(zhǔn)化差異的最大值作為評(píng)價(jià)指標(biāo),當(dāng)不同組間標(biāo)準(zhǔn)化差異的最大值小于0.1時(shí),認(rèn)為組間的協(xié)變量達(dá)到均衡[7]。但此方法的計(jì)算步驟繁瑣,不便于實(shí)際應(yīng)用。本研究擬構(gòu)建三分組資料組間協(xié)變量均衡性評(píng)價(jià)的新指標(biāo)(以下簡(jiǎn)稱FQ統(tǒng)計(jì)量),用于直接評(píng)價(jià)三分組資料組間協(xié)變量的均衡性。

方  法

1.構(gòu)建FQ統(tǒng)計(jì)量

對(duì)于多分組資料,合并標(biāo)準(zhǔn)差的定義為:

當(dāng)組間樣本量相同時(shí),合并標(biāo)準(zhǔn)差的定義為[8]:

因此,在三分組1:1:1的傾向性評(píng)分匹配中,合并標(biāo)準(zhǔn)差的定義為:

在二分組資料中,評(píng)價(jià)組間協(xié)變量均衡性的常用指標(biāo)為標(biāo)準(zhǔn)化差異值,對(duì)于連續(xù)型協(xié)變量,其定義為:

對(duì)于二分類協(xié)變量,它的定義為:

上式中,ptreatment和pcontrol分別表示處理組和對(duì)照組某協(xié)變量的陽(yáng)性率。

由二分組協(xié)變量均衡性的評(píng)價(jià)指標(biāo)標(biāo)準(zhǔn)化差異值和合并標(biāo)準(zhǔn)差的定義,將標(biāo)準(zhǔn)化差異法延伸到三分組資料,構(gòu)建出三分組資料組間協(xié)變量均衡性評(píng)價(jià)的新指標(biāo),即FQ統(tǒng)計(jì)量。

對(duì)于三分組資料的連續(xù)型協(xié)變量,將FQ統(tǒng)計(jì)量定義為:

對(duì)于三分組資料的二分類協(xié)變量,將FQ統(tǒng)計(jì)量定義為:

上式中,p1、p2和p3分別表示三組中某協(xié)變量的陽(yáng)性率。

2.探索FQ統(tǒng)計(jì)量評(píng)價(jià)協(xié)變量是否均衡的界值

(1)在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量為1500,為每個(gè)研究個(gè)體模擬產(chǎn)生兩個(gè)服從二項(xiàng)分布的變量(x1和x2)和兩個(gè)服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:

Bi~Bernoulli(0.5)

Ci~N(0,1)

(2)為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j為第i個(gè)研究個(gè)體被分到第j組的概率;βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設(shè)OR1=OR3=1.1,OR2=OR4=1.5;β0為常數(shù)項(xiàng),通過(guò)調(diào)整β0可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

(4)重復(fù)(1)~(3)步驟1500次,得到樣本量為1500的數(shù)據(jù)集。

(5)為模擬的數(shù)據(jù)集計(jì)算x1和x3三組之間兩兩的標(biāo)準(zhǔn)化差異,保存最大的標(biāo)準(zhǔn)化差異值,并計(jì)算x1和x3的FQ統(tǒng)計(jì)量。分別將x1和x3的最大標(biāo)準(zhǔn)化差異值進(jìn)行升值排序,觀察FQ統(tǒng)計(jì)量的變化趨勢(shì)。

3.模擬比較假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量這三種方法檢驗(yàn)三分組資料組間協(xié)變量均衡性的能力

(1)分組因素為有序三分類

①在SAS 9.3采用Monte Carlo模擬數(shù)據(jù),假定樣本量初始值為300,為每個(gè)研究個(gè)體模擬產(chǎn)生兩個(gè)服從二項(xiàng)分布的變量(x1和x2)和兩個(gè)服從正態(tài)分布的變量(x3和x4),具體參數(shù)如下:

Bi~Bernoulli(0.5)

Ci~N(0,1)

②為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[9]:

logit(Pi,j)=β0+β1x1+β2x2+β3x3+β4x4

上式中,Pi,j為第i個(gè)研究個(gè)體被分到第j組的概率。βi(i=1,2,3,4)為回歸系數(shù),其中ORi=exp(βi),設(shè)OR1=OR3=1,OR2=OR4=1.5。β0為常數(shù)項(xiàng),通過(guò)調(diào)整β0可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

④重復(fù)①~②步驟300次,得到樣本量為300的數(shù)據(jù)集。采用χ2檢驗(yàn)、最大標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量x1的均衡性;采用one way ANOVA、最大標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量x3的均衡性。

⑤保持OR1=OR3=1,OR2=OR4=1.5不變,重復(fù)①~④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計(jì)算檢出率。

⑥保持OR1=OR3=1,OR2=OR4=1.5不變。逐漸增大樣本量,分別對(duì)樣本量300和1800~6000之間進(jìn)行模擬,當(dāng)樣本量變化在1800~6000之間時(shí),每重復(fù)一次樣本量增加600,每改變一次樣本量,重復(fù)①~⑤步驟。

⑦ 設(shè)定OR1=1.4,OR3=1.2,OR2=OR4=1.5,并保持不變,逐漸增大樣本量,分別對(duì)樣本量100~1500之間進(jìn)行模擬,每重復(fù)一次樣本量增加200。每改變一次樣本量,重復(fù)①~⑤步驟。

⑧ 設(shè)定OR1=OR3=1,OR2=OR4=1.5,固定OR2=OR4=1.5,固定樣本量為600,逐漸增大OR1和OR3,同時(shí)調(diào)整常數(shù)項(xiàng)β0保持三組間的樣本量比例為1:1:1,重復(fù)步驟①~⑤,每重復(fù)一次OR1和OR3的值都增加0.1,OR1和OR3的變化范圍為1~2。

(2)分組因素為無(wú)序三分類

①與有序三分類①相同

②為每個(gè)研究個(gè)體產(chǎn)生一個(gè)分組狀態(tài)G,G為三分類分組因素,以x1、x2、x3和x4為協(xié)變量建立如下模型[10]:

上式中,P(G=1)、P(G=2) 和P(G=3) 分別為研究個(gè)體被分到第一組、第二組和第三組的概率。βij(i=1,2,3,4;j=1,2)為回歸系數(shù),其中ORij=exp(βij),設(shè)OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。β0j(j=1,2)為常數(shù)項(xiàng),通過(guò)調(diào)整β0j(j=1,2)可以控制研究個(gè)體被分到某一組的概率,本研究將三組的樣本量比例設(shè)置為1:1:1。

③P(G=1)、P(G=2)和P(G=3)分別為研究個(gè)體被分到第一組、第二組和第三組的概率,則有

為將三組的樣本量比例控制在1:1:1,利用SAS函數(shù)rantbl求得分組因素:

G=rantb(0,P(G=1),P(G=2),P(G=3))

④與有序三分類④相同

⑤固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,重復(fù)①~④步驟1000次,記錄1000次中x1和x3不均衡的次數(shù),并計(jì)算檢出率。

⑥固定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5。該步驟剩余部分與有序三分類⑥相同。

⑦設(shè)定OR11=OR31=1,OR12= 1.4,OR32=1.2,OR21=OR41=OR22=OR42=1.5,并保持不變,逐漸增大樣本量。該步驟剩余部分與有序三分類⑦相同

⑧設(shè)定OR11=OR31=OR12=OR32=1,OR21=OR41=OR22=OR42=1.5,固定OR11=OR31=1,OR21=OR41=OR22=OR42=1.5,逐漸增大OR12和OR32,同時(shí)調(diào)整常數(shù)項(xiàng)β0j(j=1,2)保持三組間的樣本量比例為1:1:1,重復(fù)步驟①~⑤,每重復(fù)一次OR12和OR32的值都增加0.1,OR12和OR32的變化范圍為1~2。

結(jié)  果

1. FQ統(tǒng)計(jì)量評(píng)價(jià)協(xié)變量是否均衡的界值

按最大標(biāo)準(zhǔn)化差異值升值排序后,x1和x3的FQ統(tǒng)計(jì)量分布如圖1和圖2所示(選取部分結(jié)果)。

圖1 二分類協(xié)變量x1

圖2 連續(xù)型協(xié)變量x3

按x1和x3的最大標(biāo)準(zhǔn)化差異值進(jìn)行升值排序后,x1和x3FQ統(tǒng)計(jì)量的值呈現(xiàn)遞增次序,當(dāng)x1和x3的最大標(biāo)準(zhǔn)化差異值為0.1時(shí),對(duì)應(yīng)x1和x3FQ統(tǒng)計(jì)量的值為0.2。對(duì)于三分組資料,目前大多研究者評(píng)價(jià)三組間協(xié)變量均衡性的方法是:采用不同組間標(biāo)準(zhǔn)化差異的最大值作為評(píng)價(jià)指標(biāo),當(dāng)不同組間標(biāo)準(zhǔn)化差異的最大值小于0.1時(shí),即認(rèn)為組間的協(xié)變量達(dá)到均衡。由圖1~2可見,當(dāng)協(xié)變量FQ統(tǒng)計(jì)量的值小于0.2時(shí),則協(xié)變量的最大標(biāo)準(zhǔn)化差異值小于0.1,因此初步確定0.2作為FQ統(tǒng)計(jì)量評(píng)價(jià)三組間協(xié)變量是否均衡的界值,下文將對(duì)該界值的合理性進(jìn)行驗(yàn)證。

2.分組因素為有序三分類和無(wú)序三分類的模擬結(jié)果

(1)OR1=OR3=1(OR12=OR32=1)時(shí),假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率如圖3和圖4所示。

圖3 二分類協(xié)變量x1的檢出率隨樣本量變化的趨勢(shì)

圖4 連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢(shì)

結(jié)果顯示,對(duì)于二分類變量x1和連續(xù)型變量x3,假設(shè)檢驗(yàn)法因?yàn)镮類錯(cuò)誤的控制,其檢出率始終處于5%左右。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率隨樣本量的增大而減小,兩者的檢驗(yàn)結(jié)果保持高度一致。當(dāng)樣本量較小時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率高于假設(shè)檢驗(yàn)法;當(dāng)樣本量達(dá)到6000(即每組的樣本量達(dá)到2000)時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率均趨于0。

(2)OR1=1.4,OR3=1.2(OR12=1.4,OR32=1.2)時(shí),假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率如圖5和圖6所示。

由圖5和圖6所示,對(duì)于二分類協(xié)變量x1和連續(xù)型協(xié)變量x3,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率不受樣本量大小的影響,即使在小樣本情況下,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量也能檢驗(yàn)出協(xié)變量的不均衡性,而假設(shè)檢驗(yàn)法的檢出率隨樣本量的增大而增大。標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率高于假設(shè)檢驗(yàn)法,并且處于平穩(wěn)狀態(tài),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率保持高度一致。

圖6 連續(xù)型協(xié)變量x3的檢出率隨樣本量變化的趨勢(shì)

(3)假設(shè)檢驗(yàn)法、標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率隨OR值變化的結(jié)果分別見圖7和圖8。

圖7 二分類協(xié)變量x1的檢出率隨OR值變化的趨勢(shì)(n=600)

由圖7和圖8所示,當(dāng)OR值較小時(shí),標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率均高于假設(shè)檢驗(yàn)法,且標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量的檢出率保持高度一致,隨著OR值的增大,假設(shè)檢驗(yàn)法的檢出率與準(zhǔn)化差異和FQ統(tǒng)計(jì)量的檢出率趨于一致。當(dāng)改變樣本量模擬時(shí),結(jié)果保持不變,可以得出,標(biāo)準(zhǔn)化差異法和FQ統(tǒng)計(jì)量檢驗(yàn)協(xié)變量不均衡的能力要強(qiáng)于假設(shè)檢驗(yàn)法。

圖8 連續(xù)型協(xié)變量x3的檢出率隨OR值變化的趨勢(shì)(n=600)

討  論

本研究構(gòu)建的FQ統(tǒng)計(jì)量可用于檢驗(yàn)三分組資料組間協(xié)變量的均衡性,當(dāng)協(xié)變量FQ統(tǒng)計(jì)量的值小于0.2時(shí),可認(rèn)為協(xié)變量在三組間的分布達(dá)到均衡。模擬結(jié)果顯示,分組因素?zé)o論是有序三分類還是無(wú)序三分類,協(xié)變量無(wú)論是連續(xù)型變量還是二分類變量,FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法的檢出率都保持高度一致。FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法的檢出率不受樣本量大小的影響,即使在小樣本情況下,FQ統(tǒng)計(jì)量和標(biāo)準(zhǔn)化差異法也能檢驗(yàn)出協(xié)變量的不均衡性,這兩種方法檢驗(yàn)協(xié)變量不均衡的能力均強(qiáng)于假設(shè)檢驗(yàn)法,而FQ統(tǒng)計(jì)量的計(jì)算步驟較標(biāo)準(zhǔn)化差異法簡(jiǎn)便,因此更具有應(yīng)用的優(yōu)勢(shì)。經(jīng)驗(yàn)證,當(dāng)三組的樣本比例為1:2:3、2:3:4時(shí),結(jié)論與樣本比例為1∶1∶1時(shí)一致,因此對(duì)于三組樣本不等的情況,本文的結(jié)論仍然適合。

本研究?jī)H模擬了二分類協(xié)變量和連續(xù)型協(xié)變量的情況,對(duì)于多分類協(xié)變量和非正態(tài)連續(xù)型協(xié)變量的情況有待進(jìn)一步的研究。

猜你喜歡
均衡性假設(shè)檢驗(yàn)樣本量
醫(yī)學(xué)研究中樣本量的選擇
京津冀全域旅游供需系統(tǒng)構(gòu)建及均衡性研究
假設(shè)檢驗(yàn)結(jié)果的對(duì)立性分析
數(shù)字化創(chuàng)新解決文化遺產(chǎn)發(fā)展的地域不均衡性——遼西恐龍化石遺址考察所引發(fā)的思考
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十一)
樣本量估計(jì)及其在nQuery和SAS軟件上的實(shí)現(xiàn)*——均數(shù)比較(十)
統(tǒng)計(jì)推斷的研究
飛機(jī)變壓整流器并聯(lián)運(yùn)行供電失衡故障分析
鳳爪重量質(zhì)量管理報(bào)告
基于改進(jìn)隱馬爾科夫模型的畜禽全基因組關(guān)聯(lián)分析中的多重檢驗(yàn)方法
阿拉善左旗| 卢湾区| 措美县| 玉溪市| 慈利县| 台前县| 乌什县| 雅江县| 家居| 盱眙县| 商洛市| 射阳县| 濮阳县| 麻江县| 苏尼特左旗| 田林县| 富民县| 德昌县| 江津市| 江口县| 宁南县| 鹤壁市| 黑河市| 武川县| 清河县| 青海省| 北碚区| 桐庐县| 班玛县| 婺源县| 涞源县| 蓬安县| 浮梁县| 西畴县| 北安市| 县级市| 太原市| 抚远县| 临海市| 丹寨县| 潮州市|