国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于子模型加權(quán)的因果效應(yīng)估計(jì)方法

2023-07-10 06:08耿智琳張麗麗張耀峰張志剛
統(tǒng)計(jì)與決策 2023年12期
關(guān)鍵詞:集上概率個(gè)體

耿智琳,張麗麗,張耀峰,張志剛

(湖北經(jīng)濟(jì)學(xué)院a.統(tǒng)計(jì)與數(shù)學(xué)學(xué)院;b.湖北數(shù)據(jù)與分析中心,武漢 430205)

0 引言

隨著科學(xué)不斷發(fā)展,探尋事物之間的因果關(guān)系逐漸深入到自然科學(xué)和社會(huì)科學(xué)的各個(gè)學(xué)科中,如何識(shí)別處理效應(yīng)也成為研究熱點(diǎn)之一。處理效應(yīng)的標(biāo)準(zhǔn)識(shí)別方法為嚴(yán)格的隨機(jī)對(duì)照試驗(yàn),但在解決現(xiàn)實(shí)問題時(shí),由于倫理、成本或其他現(xiàn)實(shí)因素限制,無法滿足隨機(jī)對(duì)照試驗(yàn)的隨機(jī)性[1]。

為了從觀測性研究數(shù)據(jù)中獲得無偏處理效應(yīng),研究者們通常選擇基于傾向得分的方法[2]和基于回歸分析的方法[3]平衡偏倚。當(dāng)給定可忽略性假定時(shí),基于傾向得分的方法和基于回歸分析的方法才有可能得到無偏平均處理效應(yīng),其中基于傾向得分的方法應(yīng)用更為廣泛。傾向得分是平衡得分的一種形式,是給定協(xié)變量時(shí)個(gè)體接受處理的概率。平衡得分的主要思想是將對(duì)照組和處理組之間的相似個(gè)體劃分到一個(gè)子集中進(jìn)行比較,傾向得分在滿足平衡得分基本思想的情況下,將總體盡可能劃分為更少子集,以確保每個(gè)子集中樣本盡可能多。因此在傾向得分相似的子集中,對(duì)照組和處理組個(gè)體具有相似協(xié)變量分布。傾向得分能平衡觀測性研究數(shù)據(jù)中處理組和對(duì)照組之間的偏差,得到偏差較小的處理效應(yīng)估計(jì)?;趦A向得分的方法既可以使用傾向得分進(jìn)行匹配[4],也可以使用傾向得分進(jìn)行加權(quán)[5]。

傾向得分方法能夠平衡處理組和對(duì)照組個(gè)體間的差異,但仍存在協(xié)變量間重要性的不平衡。在觀測性研究數(shù)據(jù)中,為了不遺漏混雜變量,需要將可能的協(xié)變量都納入模型內(nèi),這樣雖然能使所有混雜變量都被觀測到,但也可能會(huì)引入過多干擾信息。許多學(xué)者提出變量選擇方法來應(yīng)對(duì)這個(gè)問題[6],通過充分協(xié)變量選擇得到最小協(xié)變量集合[7],或是排除無關(guān)變量僅保留混雜變量和結(jié)果預(yù)測變量[8],以提高估計(jì)效率。變量選擇方法能對(duì)高維數(shù)據(jù)進(jìn)行降維,提高因果推斷的估計(jì)效果,但是變量選擇方法需要?jiǎng)h除部分原始變量,刪除過程中可能會(huì)導(dǎo)致重要信息丟失。

為了提高協(xié)變量利用效率,減少重要性較低的協(xié)變量帶來的干擾,本文在傾向得分方法的基礎(chǔ)上,提出了基于子模型加權(quán)的因果效應(yīng)估計(jì)方法。該方法對(duì)基于傾向得分的逆概率加權(quán)方法進(jìn)行改進(jìn),先對(duì)原始變量進(jìn)行分組,再使用子模型加權(quán)的方法賦予不同組變量不同重要性,得到加權(quán)傾向得分。對(duì)協(xié)變量進(jìn)行加權(quán)的方法通過賦予協(xié)變量不同的權(quán)重,使用加權(quán)方法區(qū)分協(xié)變量的重要性。加權(quán)能在不丟失原始協(xié)變量信息的情況下,減少重要性較低協(xié)變量對(duì)估計(jì)結(jié)果的影響,達(dá)到提升因果推斷估計(jì)效果的目的。

1 基于傾向得分的逆概率加權(quán)方法

處理效應(yīng)可以使用接受處理和未接受處理的差異來定義。設(shè)被研究的個(gè)體為i,i=1,…,n。個(gè)體i有兩個(gè)可能的結(jié)果變量和,分別表示個(gè)體i未接受處理和個(gè)體i接受處理的結(jié)果。在觀測性研究數(shù)據(jù)中,每個(gè)個(gè)體只能觀測到和中的某一個(gè)值,另一個(gè)未被觀測到的值被稱為反事實(shí)(counterfactuals)[9]。將處理變量設(shè)為T,則當(dāng)個(gè)體接受處理時(shí)Ti=1,個(gè)體未接受處理時(shí)Ti=0;觀察到的結(jié)果變量為??傮w的平均處理效應(yīng)(ATE)是所有個(gè)體接受處理結(jié)果的期望和所有個(gè)體未接受處理結(jié)果的期望之差:

ATE 體現(xiàn)了在研究總體中處理變量對(duì)結(jié)果變量的直接影響,為了得到無偏ATE估計(jì),處理分配機(jī)制必須要滿足可忽略性假定。在給定協(xié)變量V的觀測值時(shí),處理分配不影響潛在結(jié)果,即:

且每個(gè)個(gè)體接受處理的概率介于( 0,1) ,即:

則稱處理分配機(jī)制是可忽略的。在滿足可忽略性的情況下,基于傾向得分的估計(jì)方法能提供無偏因果推斷估計(jì)。給定協(xié)變量的觀察值xi,傾向得分定義為給定協(xié)變量時(shí),個(gè)體接受處理的概率,記為:

基于傾向得分的方法可以分為匹配和加權(quán)兩類,基于傾向得分的匹配方法使用傾向得分來構(gòu)建匹配集合[2],將傾向得分相似的個(gè)體放到一個(gè)集合中,每個(gè)集合中同時(shí)包含處理組個(gè)體和對(duì)照組個(gè)體,并且集合中個(gè)體具有相似分布;基于傾向得分的加權(quán)方法使用傾向得分來創(chuàng)造權(quán)重,對(duì)觀測協(xié)變量進(jìn)行平衡。逆概率加權(quán)法是一種基于傾向得分的加權(quán)方法,將傾向得分的倒數(shù)作為個(gè)體權(quán)重,單個(gè)個(gè)體i的權(quán)重記為:

逆概率加權(quán)方法通過加權(quán)方法平衡處理組和對(duì)照組,使觀察性研究數(shù)據(jù)盡可能接近隨機(jī)對(duì)照試驗(yàn)數(shù)據(jù),從而減少使用觀測性研究數(shù)據(jù)進(jìn)行因果推斷時(shí)產(chǎn)生的偏倚。

2 子模型加權(quán)法

為了進(jìn)一步提高ATE 估計(jì)效果,區(qū)分不同變量的重要性,本文提出基于子模型加權(quán)的因果效應(yīng)估計(jì)方法。該方法基于逆概率加權(quán)方法,先根據(jù)原始變量類型對(duì)協(xié)變量進(jìn)行分組,探討每組變量對(duì)ATE估計(jì)的重要性,然后使用子模型加權(quán)法計(jì)算加權(quán)傾向得分,用加權(quán)傾向得分估計(jì)ATE值。

2.1 變量分組

根據(jù)協(xié)變量與處理變量和結(jié)果變量的關(guān)系,可將其分為混雜變量、處理預(yù)測因子和結(jié)果預(yù)測因子?;祀s變量組同時(shí)對(duì)處理變量和結(jié)果變量產(chǎn)生直接影響,會(huì)給因果推斷帶來混雜偏倚,影響ATE估計(jì)效果;處理預(yù)測因子對(duì)處理變量有直接影響,并對(duì)結(jié)果變量有間接影響;結(jié)果預(yù)測因子僅對(duì)結(jié)果變量有直接影響,對(duì)處理變量既無直接影響,也無間接影響。因此可以根據(jù)變量關(guān)系將協(xié)變量V分為3 組,混雜變量記為V1,處理預(yù)測因子記為V2,結(jié)果預(yù)測因子記為V3。

2.2 構(gòu)建子模型

使用分組后的協(xié)變量構(gòu)建子模型,不同子模型具備不同的重要性,因此賦予協(xié)變量組不同權(quán)重,以此提升估計(jì)效果。本文使用不同的變量組合來構(gòu)造子模型,再用對(duì)子模型結(jié)果進(jìn)行加權(quán)的方式達(dá)到變量加權(quán)的目的,構(gòu)建子模型的過程分為以下兩步:

第一步:將V1、V2、V3進(jìn)行組合,將變量的不同組合形式作為變量子集。為了得到不同變量的組合,對(duì)V1、V2、V3進(jìn)行組合,排列組合情況有3種:3組變量全部被選擇、從3 組變量中選取2 組、從3 組變量中選取1 組。3 種情況分別對(duì)應(yīng)、、種組合形式,因此共有種協(xié)變量的組合模型。不同組合模式對(duì)應(yīng)的變量集合記為Uj,j=1,…,7,具體如表1所示。

表1 不同組合模式對(duì)應(yīng)變量表

第二步:對(duì)所有的數(shù)據(jù)子集分別建立模型,得到相應(yīng)的子模型。每種變量組合模式對(duì)應(yīng)一個(gè)子模型,記為

2.3 子模型傾向得分

子模型Sj構(gòu)建完成后,計(jì)算子模型的傾向得分。將個(gè)體i對(duì)應(yīng)的變量集合Uj的觀測值記為Qj,滿足映射函數(shù):

對(duì)于每個(gè)模型Sj都有相應(yīng)的變量集合Uj,因此分別使用Qj訓(xùn)練子模型Sj,進(jìn)行傾向得分pj的估計(jì)。使用logit回歸方法估計(jì)傾向得分,得到所有個(gè)體接受處理的概率

其中:

式(9)表示logit函數(shù)分布的累積概率分布,Uj中若協(xié)變量個(gè)數(shù)為k,則參數(shù)αj使用極大似然估計(jì)方法進(jìn)行估計(jì)。每個(gè)子模型根據(jù)上述估計(jì)方法得到對(duì)應(yīng)的子模型傾向得分pj,其中pij對(duì)應(yīng)第j個(gè)協(xié)變量子集下的個(gè)體i的傾向得分。

2.4 加權(quán)傾向得分及ATE估計(jì)

對(duì)子模型傾向得分結(jié)果進(jìn)一步加權(quán),得到整個(gè)模型組對(duì)應(yīng)的加權(quán)傾向得分。使用加權(quán)傾向得分對(duì)個(gè)體i進(jìn)行逆概率加權(quán),達(dá)到平衡原始個(gè)體的目的,進(jìn)而減少估計(jì)平均處理效應(yīng)時(shí)的偏倚。

其中,參數(shù)α使用極大似然估計(jì)方法得到。

個(gè)體i加權(quán)傾向得分通過對(duì)子模型傾向得分加權(quán)得到。一方面,平衡處理組和對(duì)照組間的個(gè)體差異;另一方面,賦予協(xié)變量不同權(quán)重,使用加權(quán)傾向得分估計(jì)ATE能夠減少混雜偏倚,還能夠減少權(quán)重較低變量對(duì)估計(jì)結(jié)果的影響。

得到p*后進(jìn)一步使用逆概率加權(quán)計(jì)算ATE,根據(jù)加權(quán)傾向得分估計(jì)的倒數(shù)生成個(gè)體權(quán)重,從而對(duì)協(xié)變量進(jìn)行平衡。當(dāng)混雜因素帶來的偏差由逆概率加權(quán)法平衡時(shí),ATE估計(jì)可以表達(dá)為:

基于子模型加權(quán)的因果效應(yīng)估計(jì)方法通過對(duì)不同的變量組合模式構(gòu)造子模型,分兩步計(jì)算加權(quán)傾向得分,加權(quán)后的傾向得分能夠突出不同類型協(xié)變量的重要性,為ATE估計(jì)提供更好的效果。

3 模擬實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證基于子模型加權(quán)的因果效應(yīng)估計(jì)方法的效果,本文使用模擬數(shù)據(jù)進(jìn)行模擬研究,對(duì)比該方法與傳統(tǒng)的基于傾向得分的逆概率加權(quán)方法的估計(jì)效果。

3.1 生成模擬數(shù)據(jù)

本文使用的模擬數(shù)據(jù)生成方式參考文獻(xiàn)[10]中的設(shè)置,包含10 個(gè)協(xié)變量ν1,ν2,…,ν10,1 個(gè)處理變量T和1 個(gè)結(jié)果變量Y。

10個(gè)協(xié)變量中有4個(gè)混雜因子(ν1、ν2、ν3、ν4),3個(gè)暴露預(yù)測因子(ν5、ν6、ν7)和3 個(gè)結(jié)果預(yù)測因子(ν8、ν9、ν10),其中協(xié)變量ν1和ν5的相關(guān)系數(shù)為0.9,協(xié)變量ν2和ν6的相關(guān)系數(shù)為0.2,協(xié)變量ν3和ν8的相關(guān)系數(shù)為0.2,協(xié)變量ν4和ν9的相關(guān)系數(shù)為0.9。處理變量T對(duì)結(jié)果變量Y的直接處理效應(yīng)為-0.4,即真實(shí)的處理效應(yīng)值為-0.4,變量關(guān)系圖如圖1所示。

圖1 模擬數(shù)據(jù)變量關(guān)系圖

模擬研究中數(shù)據(jù)集個(gè)體數(shù)量分別為n=500,2000,5000,數(shù)據(jù)生成方式遵循以下步驟:

步驟1:生成協(xié)變量ν1,ν2,…,ν10,其中ν1,ν3,ν5,ν6,ν8,ν9~Bern(1,0.5) 為二元變量,服從伯努利分布;ν2,ν4,ν7,ν10~N( 0,1) 為連續(xù)型變量,服從正態(tài)分布。

步驟2:根據(jù)下頁表2中7個(gè)場景的模型設(shè)置,計(jì)算真實(shí)傾向得分,根據(jù)傾向得分可以從二項(xiàng)分布中得到個(gè)體對(duì)應(yīng)的處理變量T的值。

表2 不同場景的真實(shí)傾向得分模型

步驟3:通過步驟1 和步驟2 獲得協(xié)變量ν1,ν2,…,ν10和處理變量T生成的數(shù)據(jù),設(shè)置如下結(jié)果變量Y的模型:

其中,θ=(θ1,…,θ7)T=(0.3,-0.36,-0.73,-0.2,0.71,-0.19,0.26)T,θ0=-3.85,根據(jù)上述模型生成真實(shí)的結(jié)果變量,Y對(duì)T的回歸系數(shù)為真實(shí)處理效應(yīng),設(shè)為λ=-0.4。

3.2 實(shí)驗(yàn)設(shè)置

(1)評(píng)價(jià)指標(biāo)選擇

本文使用的4個(gè)評(píng)價(jià)指標(biāo)分別為:絕對(duì)偏差B、相對(duì)偏差BR、標(biāo)準(zhǔn)誤差SE、均方根誤差RMSE。絕對(duì)偏差B的計(jì)算公式為,其中為所有ATE 估計(jì)的均值,γ為真實(shí)ATE值,在本文實(shí)驗(yàn)中設(shè)置為-0.4。BR是在B的基礎(chǔ)上得到的,計(jì)算公式為:

標(biāo)準(zhǔn)誤差SE 評(píng)價(jià)多組預(yù)測值的接近程度;均方根誤差RMSE衡量預(yù)測值與真實(shí)值之間的偏差,計(jì)算每個(gè)估計(jì)值與真實(shí)值γ之間差異的均方根,計(jì)算公式為:

(2)建立子模型

在不同場景下生成數(shù)據(jù)集后,先根據(jù)變量類型進(jìn)行分組,原始的10 個(gè)變量可以分為共3 組。從V1、V2、V3選取變量組構(gòu)成不同的組合模式,選擇3組變量進(jìn)行組合有1種情況,選擇2組變量進(jìn)行組合有3種情況,選擇1組變量進(jìn)行組合有3種情況。如表3所示,共有7種組合模式,分別對(duì)應(yīng)子模型Sj。

表3 組合模式對(duì)應(yīng)的變量

(3)ATE估計(jì)

每種組合模式Uj分別對(duì)應(yīng)于子模型Sj,所有子模型Sj構(gòu)成了模型組。使用logit 回歸分別計(jì)算7 種組合模式下的子模型傾向得分,再計(jì)算模型組的加權(quán)傾向得分,最后使用逆概率加權(quán)方法計(jì)算總ATE。

(4)對(duì)比實(shí)驗(yàn)

在500、2000、5000不同個(gè)體數(shù)量的模擬數(shù)據(jù)集上,分別重復(fù)生成100 組數(shù)據(jù)值,進(jìn)行100 組實(shí)驗(yàn)求得ATE 估計(jì)結(jié)果的平均值,并將基于傾向得分的逆概率加權(quán)方法與子模型加權(quán)法得到的ATE估計(jì)結(jié)果進(jìn)行比較。

3.3 實(shí)驗(yàn)結(jié)果

根據(jù)實(shí)驗(yàn)設(shè)置模擬出數(shù)據(jù)量為500、2000、5000 的數(shù)據(jù)集,分別進(jìn)行模擬實(shí)驗(yàn)。其中,將基于傾向得分的逆概率加權(quán)方法記為傳統(tǒng)方法,將基于子模型加權(quán)法的估計(jì)方法記為加權(quán)方法。

表4為各數(shù)據(jù)集上計(jì)算的ATE估計(jì)均值的絕對(duì)偏差B結(jié)果對(duì)比,可看出當(dāng)數(shù)據(jù)的生成場景比較簡單時(shí),如在場景1 和場景2 中,傳統(tǒng)方法和加權(quán)方法得到的B 值都比較小,加權(quán)方法沒有顯著優(yōu)勢。但在場景3 至場景7 的5 個(gè)場景中,加權(quán)方法在3個(gè)數(shù)據(jù)集上得到的數(shù)值均小于傳統(tǒng)方法,說明當(dāng)數(shù)據(jù)生成場景更復(fù)雜時(shí),加權(quán)方法更加有效。此外,在場景3、場景4、場景6 和場景7 中,加權(quán)方法相較于傳統(tǒng)方法估計(jì)效果提升的幅度更大。在3 個(gè)數(shù)據(jù)量不同的數(shù)據(jù)集上的表現(xiàn)也說明,當(dāng)模擬場景比較簡單時(shí),樣本量的增加能適當(dāng)減少偏差;但是當(dāng)模擬場景更復(fù)雜時(shí),樣本量的增加對(duì)B的減少?zèng)]有明顯作用。

表4 不同場景下絕對(duì)偏差B的結(jié)果對(duì)比

表5 為各數(shù)據(jù)集上計(jì)算的ATE 估計(jì)均值的相對(duì)偏差BR 結(jié)果對(duì)比,BR 能夠更加直觀的展示ATE 估計(jì)均值與ATE 真實(shí)值的偏離程度。在數(shù)據(jù)集大小為500 和5000 的數(shù)據(jù)集上,加權(quán)方法在5個(gè)場景上的偏離程度小于傳統(tǒng)方法,在數(shù)據(jù)集大小為2000 的數(shù)據(jù)集上,加權(quán)方法在6 個(gè)場景上的偏離程度小于傳統(tǒng)方法。總體上看,場景1、場景2、場景4和場景7的BR均小于20%,場景3、場景5和場景6 的部分BR 大于20%。結(jié)合模擬場景的特征,非線性程度越高,估計(jì)偏差越大,同時(shí)當(dāng)不可加性的程度更高時(shí),也會(huì)引起較大的偏差。但是當(dāng)非線性和不可加性的程度都很高時(shí),加權(quán)方法能顯著提升估計(jì)效果。

表5 不同場景下相對(duì)偏差BR的結(jié)果對(duì)比(單位:%)

下頁圖2為各數(shù)據(jù)集上計(jì)算的ATE估計(jì)均值的SE結(jié)果對(duì)比,可以發(fā)現(xiàn)隨著樣本量的增加,SE的值整體在逐漸減小。也就是說,隨著樣本量的增加,SE的值逐漸接近0。

圖2 不同場景下的SE結(jié)果對(duì)比

下頁圖3為各數(shù)據(jù)集上計(jì)算的ATE估計(jì)均值的RMSE結(jié)果對(duì)比,可以發(fā)現(xiàn)隨著樣本量的增加,傳統(tǒng)方法對(duì)應(yīng)的實(shí)線不斷接近0,加權(quán)方法對(duì)應(yīng)的虛線更接近0。

圖3 不同場景下的RMSE結(jié)果對(duì)比

本文共使用4 個(gè)評(píng)價(jià)指標(biāo)來對(duì)比加權(quán)方法和傳統(tǒng)方法的ATE估計(jì)效果,結(jié)果表明,加權(quán)方法優(yōu)于傳統(tǒng)方法的估計(jì)效果。當(dāng)數(shù)據(jù)生成場景更復(fù)雜時(shí),加權(quán)方法展現(xiàn)出更明顯的優(yōu)勢。并且隨著數(shù)據(jù)集大小增加,ATE估計(jì)均值與ATE真實(shí)值的偏離程度變化不大,穩(wěn)定性更高。

4 總結(jié)

使用觀察性研究數(shù)據(jù)進(jìn)行因果推斷時(shí),基于傾向得分的方法是解決混雜偏倚的有效方法之一。本文基于傾向得分的逆概率加權(quán)方法,提出了子模型加權(quán)法,通過計(jì)算加權(quán)傾向得分來估計(jì)處理效應(yīng)。子模型加權(quán)法賦予不同變量組不同重要性,能更好地平衡處理組和對(duì)照組。在模擬數(shù)據(jù)研究中,證明了子模型加權(quán)法的表現(xiàn)優(yōu)于傳統(tǒng)的傾向得分方法,尤其當(dāng)數(shù)據(jù)生成模型的非線性和不可加性的度都很高時(shí),基于子模型加權(quán)的因果效應(yīng)估計(jì)方法能顯著提升ATE估計(jì)效果。

猜你喜歡
集上概率個(gè)體
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
關(guān)注個(gè)體防護(hù)裝備
復(fù)扇形指標(biāo)集上的分布混沌
個(gè)體反思機(jī)制的缺失與救贖
How Cats See the World
通道| 凤台县| 灵武市| 肃宁县| 南宫市| 五华县| 扶沟县| 中宁县| 磐安县| 阿克陶县| 桐柏县| 探索| 上犹县| 张家界市| 临猗县| 镇赉县| 东宁县| 缙云县| 常山县| 含山县| 宜城市| 大余县| 海兴县| 华蓥市| 临朐县| 临沭县| 嘉兴市| 府谷县| 驻马店市| 常州市| 扶绥县| 化隆| 莱阳市| 共和县| 方城县| 石家庄市| 宜阳县| 嘉禾县| 吴江市| 漳州市| 乌拉特中旗|