王 俊,金勇進(jìn),司亞娟
(1.中國(guó)人民大學(xué)a.統(tǒng)計(jì)學(xué)院;b.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,北京100872;2.威斯康星大學(xué)麥迪遜分校生物統(tǒng)計(jì)及醫(yī)療信息系,美國(guó) 威斯康星州 WI 53726)
隨著人們生活節(jié)奏的加快、對(duì)信息安全的擔(dān)憂等因素的影響,傳統(tǒng)的概率抽樣的回答率持續(xù)降低、花費(fèi)越來(lái)越高,并且任何試圖增加回答率的措施的單位成本也急劇上升。隨著回答率的持續(xù)降低,研究人員不得不開(kāi)始懷疑這些概率樣本的代表性。與此同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)便利調(diào)查成為了一種更為便捷、快速、便宜的收集調(diào)查數(shù)據(jù)的方式,常見(jiàn)的網(wǎng)絡(luò)便利調(diào)查包括自我選擇式網(wǎng)絡(luò)調(diào)查、網(wǎng)絡(luò)志愿樣本池調(diào)查。
自我選擇式網(wǎng)絡(luò)調(diào)查中,調(diào)查研究人員直接將問(wèn)卷的鏈接在各大互聯(lián)網(wǎng)平臺(tái)貼出,由上網(wǎng)的人群中感興趣的網(wǎng)民自行選擇參與調(diào)查。而對(duì)于網(wǎng)絡(luò)志愿樣本池調(diào)查來(lái)說(shuō),研究人員首先通過(guò)各種方式招募(通常為非概率抽樣方法)大量的志愿者組建網(wǎng)絡(luò)志愿樣本池,當(dāng)需要進(jìn)行市場(chǎng)調(diào)研或者民意監(jiān)測(cè)時(shí),則根據(jù)一定的概率抽樣設(shè)計(jì)從網(wǎng)絡(luò)志愿樣本池中抽取一個(gè)隨機(jī)樣本。
這類基于非概率抽樣方法的網(wǎng)絡(luò)便利調(diào)查,在獲取樣本單元的過(guò)程中并不依靠特定的抽樣設(shè)計(jì),而以招募受訪者的便捷性考慮為主,通常情況下,能夠在短時(shí)間內(nèi)以較低的費(fèi)用獲取大量的樣本單元。但對(duì)這類網(wǎng)絡(luò)便利樣本而言,由于最終樣本是網(wǎng)絡(luò)總體單元自我選擇參與網(wǎng)絡(luò)調(diào)查的結(jié)果,調(diào)查研究人員無(wú)法控制整個(gè)樣本選擇的過(guò)程,因此無(wú)法像概率抽樣設(shè)計(jì)那樣計(jì)算樣本單元包含概率,進(jìn)而不能直接在基于設(shè)計(jì)的推斷框架下外推至總體。然而基于設(shè)計(jì)的推斷方法由于其簡(jiǎn)單、方便、易操作而得到的廣泛的應(yīng)用,所以如何估計(jì)網(wǎng)絡(luò)便利樣本的包含概率則是對(duì)網(wǎng)絡(luò)樣本單元進(jìn)行過(guò)推斷的一個(gè)非常重要研究方面。
Rosenbaum(1987)[1]考察了傾向得分方法在非隨機(jī)樣本統(tǒng)計(jì)推斷中的應(yīng)用,在其背景中,傾向得分解釋為總體中的單元被選進(jìn)入非隨機(jī)樣本的概率,并將估計(jì)出的傾向得分的倒數(shù)作為非隨機(jī)樣本單元的權(quán)數(shù),進(jìn)而構(gòu)建有限總體的HT估計(jì)量。在網(wǎng)絡(luò)便利樣本的推斷中,由于無(wú)法獲取總體單元層面所有的輔助信息,通常利用參照樣本來(lái)估計(jì)總體中的單元被選入網(wǎng)絡(luò)便利樣本的概率,即傾向得分。參照樣本可以是現(xiàn)存的質(zhì)量更高的概率樣本,或與網(wǎng)絡(luò)便利調(diào)查同期執(zhí)行的、質(zhì)量更高的、至少包含用于構(gòu)建傾向得分模型的變量信息的隨機(jī)電話撥號(hào)調(diào)查。
Terhanian(2000)[2],Lee(2006)[3],Lee(2009)[4]將電話隨機(jī)撥號(hào)調(diào)查獲取的樣本作為參照樣本,并將其和網(wǎng)絡(luò)便利樣本融合成一個(gè)樣本。合并后的樣本中,網(wǎng)絡(luò)樣本單元的指示變量為1,參照樣本單元?jiǎng)t為0,通過(guò)簡(jiǎn)單邏輯回歸估計(jì)出單元的傾向得分。這些方法在估計(jì)傾向得分的過(guò)程中,直接忽略了參照樣本單元的設(shè)計(jì)權(quán)數(shù)。此時(shí),利用逆傾向得分構(gòu)建的網(wǎng)絡(luò)便利樣本單元的權(quán)數(shù),只能將網(wǎng)絡(luò)便利樣本還原到合并后的樣本,估計(jì)出的傾向得分只能解釋為合并后樣本中的單元被選入至網(wǎng)絡(luò)便利樣本中的概率,而非待研究的目標(biāo)總體的單元被選入網(wǎng)絡(luò)便利樣本中的概率。Valliant(2011)[5]進(jìn)一步探討了逆傾向得分在構(gòu)建網(wǎng)絡(luò)樣本池調(diào)查樣本單元權(quán)數(shù)中的應(yīng)用,通過(guò)實(shí)證研究和嚴(yán)格的數(shù)學(xué)證明,認(rèn)為在利用參照樣本和網(wǎng)絡(luò)樣本池樣本估計(jì)傾向得分的過(guò)程中,需要將二者樣本單元的權(quán)數(shù)考慮進(jìn)邏輯回歸模型的估計(jì)過(guò)程,形成加權(quán)的邏輯回歸,并且將網(wǎng)絡(luò)樣本單元從參照樣本的抽樣框中剔除,否則將會(huì)導(dǎo)致估計(jì)量的偏差。然而在調(diào)查實(shí)踐中,如果參照樣本是現(xiàn)存
的高質(zhì)量的概率調(diào)查,則對(duì)于普通的數(shù)據(jù)使用者來(lái)說(shuō),通常無(wú)法獲取全國(guó)層面的抽樣框,即使存在全國(guó)個(gè)人層面的抽樣框,由于隱私問(wèn)題,也無(wú)法獲取參與調(diào)查者的身份識(shí)別信息,因此Valliant(2011)[5]提出的方法在實(shí)際操作中將存在困難;此外,其估計(jì)出的傾向得分的實(shí)際含義也模糊不清。本文在參照樣本的背景下,考察如何利用逆傾向得分構(gòu)建網(wǎng)絡(luò)便利樣本的權(quán)數(shù),以對(duì)目標(biāo)總體的特征進(jìn)行統(tǒng)計(jì)推斷,并在Valliant(2011)[5]提出的方法的基礎(chǔ)上,將通過(guò)設(shè)計(jì)權(quán)數(shù)還原后得到的參照樣本作為“偽總體”,并基于k最近鄰的方法將網(wǎng)絡(luò)便利樣本單元從“偽總體”中剔除,此時(shí),網(wǎng)絡(luò)便利樣本則可以看成是來(lái)自“偽總體”的一個(gè)樣本,并通過(guò)加權(quán)的邏輯回歸估計(jì)出傾向得分,估計(jì)出的傾向得分則可以解釋為“偽總體”中的單元被選入至網(wǎng)絡(luò)便利樣本的概率,并將估計(jì)出的傾向得分的倒數(shù)作為網(wǎng)絡(luò)便利樣本單元的權(quán)數(shù)。
傾向得分方法是由Rosenbaum(1983)[6]在觀測(cè)研究中為了有效估計(jì)治療效應(yīng)而提出的方法,在此背景中,傾向得分為觀測(cè)樣本單元在給定協(xié)變量X條件下,接受治療T=1的概率 πi=P(Ti=1|Xi;γ),當(dāng) πi滿足下列條件(1)、(2)時(shí):
(1)?yi,P( )Ti=1|xi,yi;γ=P(Ti=1|xi;γ)
(2)?vi,0 < πi=P( )Ti=1|xi;γ<1
則稱單元進(jìn)入治療組或者控制組的分配機(jī)制為強(qiáng)可忽略的,即在給定X的條件下,觀測(cè)樣本單元被分配到治療組T=1還是控制組T=0是完全隨機(jī)的,和待研究變量y不相關(guān),且均有一個(gè)非0的概率被分配到治療組。此時(shí),平均治療效應(yīng)(ATE)的估計(jì)為:
通常情況下πi的值是未知的,可以通過(guò)Logistic回歸或Probit回歸估計(jì)后帶入式(1),進(jìn)而得到。其實(shí)質(zhì)則是分別利用治療組和控制組的樣本構(gòu)造HT估計(jì)量,以估計(jì)樣本層面的待研究變量的特征,二者的差異則為樣本層面的治療效應(yīng)。在抽樣調(diào)查的背景下,P(T=1|X;γ)則稱為樣本選擇機(jī)制,T=1則目標(biāo)總體中的單元被選入至樣本,表示總體中的單元被選入樣本的包含概率。
Rosenbaum(1987)[1]探討了利用傾向得分對(duì)非隨機(jī)樣本s進(jìn)行結(jié)構(gòu)調(diào)整的方法,并假設(shè) πi=P(i∈s|Xi;γ),i∈U為總體U中的單元被選入樣本的包含概率。通過(guò)Logistic回歸估計(jì)出參數(shù)γ?,進(jìn)而得到估計(jì)出的傾向得分,進(jìn)而形成類似于HT估計(jì)量的逆傾向得分加權(quán)估計(jì)量:
假設(shè)參照樣本sr通過(guò)樣本單元權(quán)數(shù)di,i∈sr還原得到的總體?為偽總體,由于sr為概率樣本,因此協(xié)變量X的設(shè)計(jì)無(wú)偏估計(jì)為,?則可以看成是通過(guò)基于設(shè)計(jì)的估計(jì)過(guò)程得到的估計(jì)出的目標(biāo)總體抽樣框。網(wǎng)絡(luò)便利樣本sw,權(quán)數(shù)為(當(dāng)為網(wǎng)絡(luò)志愿樣本池調(diào)查時(shí),根據(jù)從網(wǎng)絡(luò)志愿者樣本池中抽取樣本的不同,可能不為1,自我選擇樣本則均為1)。估計(jì)網(wǎng)絡(luò)便利樣本的包含概率則近似為估計(jì)網(wǎng)絡(luò)便利樣本單元從偽總體U?中被選入至sw的概率。為了集中考察方法,本文假設(shè)參照樣本和網(wǎng)絡(luò)便利樣本均包含了協(xié)變量X的測(cè)量,且不存在模式效應(yīng),參照樣本不存在無(wú)回答、涵蓋誤差等問(wèn)題。估計(jì)過(guò)程見(jiàn)圖1。
圖1 估計(jì)過(guò)程
為了估計(jì) πi=P(i∈sw|X,?),則需要將偽總體U?拆分為{?-sw,sw} 。Valliant(2011)[5]認(rèn)為應(yīng)當(dāng)將網(wǎng)絡(luò)便利樣本sw中的單元從參照樣本的抽樣框中剔除,然后將參照樣本單元的權(quán)數(shù)均乘以(其中N為目標(biāo)總體的規(guī)模)。然而在實(shí)際操作過(guò)程中,對(duì)于大多數(shù)調(diào)查人員來(lái)說(shuō),無(wú)法獲取參照樣本的總體抽樣框,因此實(shí)際應(yīng)用中存在困難,另外一方面如果參照樣本是通過(guò)復(fù)雜抽樣設(shè)計(jì)獲得的,簡(jiǎn)單將參照樣本的權(quán)數(shù)乘以將會(huì)導(dǎo)致協(xié)變量X分布的改變,更為重要的是其估計(jì)出的傾向得分的含義模糊不清。
然而在強(qiáng)可忽略的假設(shè)下,有 ?yi,P(Ii=1|xi,yi;β,γ)=P(Ii=1|xi;β),此時(shí)研究變量yi在網(wǎng)絡(luò)便利樣本sw中的分布f(yi|xi,sw;β)滿足:
即控制了協(xié)變量Xi后,樣本中待研究變量yi在網(wǎng)絡(luò)便利樣本sw中的分布f(yi|xi,sw;β)和其在總體中的分布f(yi|xi;β)一致,如果網(wǎng)絡(luò)自愿樣本sw中的第i個(gè)單元的協(xié)變量Xi和參照樣本sr中的第j個(gè)單元的協(xié)變量Xj相同,則其待研究變量y的條件分布也相一致,此時(shí),從偽總體?中剔除一個(gè)和Xi相同的單元,則等同于將對(duì)應(yīng)參照樣本中的單元j的權(quán)數(shù)dj更新為dj-,更新后的權(quán)數(shù)不改變合并后的樣本的輔助變量X及待研究變量y在偽總體中的結(jié)構(gòu)及分布。最理想的情況是,網(wǎng)絡(luò)樣本sw中的每個(gè)單元都能夠在參照樣本sr中找到對(duì)應(yīng)的精確匹配的單元,偽總體?則拆分為{?-sw,sw}。但是實(shí)際應(yīng)用中,一方面,網(wǎng)絡(luò)樣本的樣本量通常較大,而參照樣本的樣本量通常較少,因此網(wǎng)絡(luò)樣本中的單元并不是都能夠在參照樣本中找到精確匹配的單元;其次,滿足一對(duì)一式的精確性匹配的樣本單元往往較少,如果僅使用匹配后的樣本單元,將會(huì)造成網(wǎng)絡(luò)樣本單元的大量浪費(fèi);此外,如果使用1最近鄰的方法進(jìn)行匹配通常會(huì)受到異常值的影響,尤其是當(dāng)參照樣本和網(wǎng)絡(luò)樣本之間協(xié)變量分布存在較大差異的時(shí)候。因此,本文基于kNN方法提出基于距離的加權(quán)的權(quán)數(shù)調(diào)整及樣本插入的方法,過(guò)程如下所示:
步驟1:計(jì)算距離函數(shù),并選擇最近鄰的k個(gè)單元。假如sw中第i個(gè)單元根據(jù)協(xié)變量Vi在參照樣本sr中的k最近鄰單元集合為Ni,k:
其中d(Vi,Vj)為距離函數(shù),本文選擇歐氏距離。
步驟2:?jiǎn)卧迦爰皺?quán)數(shù)更新。由于本文中原始網(wǎng)絡(luò)樣本單元的權(quán)數(shù)為,對(duì)于網(wǎng)絡(luò)樣本中第i個(gè)單元在參照樣本中的k個(gè)鄰近單元Ni,k中的第c個(gè)單元(參照樣本中的第j個(gè)單元)的權(quán)數(shù)dj更新為:
此時(shí),Ni,k中的k個(gè)單元更新后的權(quán)數(shù),(j∈Ni,k)的和為:
網(wǎng)絡(luò)樣本中的第i個(gè)單元,則相應(yīng)地插入到參照樣本中,權(quán)數(shù)為,則第i個(gè)單元的網(wǎng)絡(luò)樣本單元的權(quán)數(shù)和Ni,k中的k個(gè)單元的權(quán)數(shù)和為即參照樣本和非概率網(wǎng)絡(luò)樣本融合后,不改變?cè)紖⒄諛颖締卧獧?quán)數(shù)和。
步驟2的實(shí)質(zhì)是將網(wǎng)絡(luò)樣本單元的權(quán)數(shù)按比例從其在參照樣本中最近鄰的k個(gè)單元的原始權(quán)數(shù)dj中扣除。重復(fù)步驟1和步驟2,直到所有的網(wǎng)絡(luò)樣本單元均被插入?yún)⒄諛颖?。則最終合并后的樣本單元s={sr',sw},相應(yīng)的權(quán)數(shù)為
根據(jù)步驟2,可以得到最終合并后樣本s中單元的權(quán)數(shù)有:
即通過(guò)權(quán)數(shù)可以將合并后的樣本集合在規(guī)模上依然還原至目標(biāo)總體U。
步驟3:令I(lǐng)i=1,i∈s表合并后樣本s中第i個(gè)單元屬于網(wǎng)絡(luò)樣本sw,Ii=0,i∈s表合并后樣本s中第i個(gè)單元屬于網(wǎng)絡(luò)樣本sr'。使用加權(quán)邏輯回歸估計(jì)合并后樣本s中單元被選入網(wǎng)絡(luò)樣本sw的概率π?i。則網(wǎng)絡(luò)樣本單元的權(quán)數(shù)為wi=1,總體均值的估計(jì)為:
根據(jù)模擬的結(jié)果發(fā)現(xiàn),步驟1中隨著最近鄰匹配個(gè)數(shù)k的增加,的相對(duì)偏差(定義見(jiàn)式(14)),隨著k的增加不斷減小,并最終趨向于穩(wěn)定,的標(biāo)準(zhǔn)差(定義見(jiàn)式(10))、離散系數(shù)(CV)隨著k的增加先增加后減小并趨向穩(wěn)定。以上述模擬過(guò)程中的一次為例(如圖2),隨著k的增加估計(jì)量的相對(duì)偏差的絕對(duì)值變化相對(duì)較小,當(dāng)k=2 時(shí),估計(jì)量的相對(duì)偏差、CV最小,因此,本文中選擇使得的標(biāo)準(zhǔn)差或者CV最小的k。
圖2 最近鄰個(gè)數(shù)k的選擇
的方差的估計(jì)為:
由于不同的調(diào)查模式之間會(huì)存在模式效應(yīng),比如紙筆調(diào)查和網(wǎng)絡(luò)調(diào)查、電話調(diào)查和網(wǎng)絡(luò)調(diào)查等,為了消除這種模式效應(yīng),并集中于研究不同傾向得分權(quán)數(shù)調(diào)整方法在網(wǎng)絡(luò)自愿樣本推斷中的效果,在本文的模擬研究中,使用2014年中國(guó)家庭追蹤調(diào)查(CFPS)的成人調(diào)查數(shù)據(jù),刪除個(gè)案缺失數(shù)據(jù),及對(duì)相關(guān)變量進(jìn)行隨機(jī)插補(bǔ)后,一共有14039個(gè)個(gè)案,其中可以上網(wǎng)的個(gè)案有4084人,不可以上網(wǎng)的有9955人。為了減少抽樣比較高引起的高估估計(jì)量效率的影響,本文利用有放回式的簡(jiǎn)單隨機(jī)抽樣從14039個(gè)個(gè)案中抽取1000000次,每次抽取一個(gè)單元,并將這1000000個(gè)個(gè)案作為模擬總體U。中國(guó)家庭追蹤調(diào)查(CFPS)是由北京大學(xué)社會(huì)科學(xué)調(diào)查中心組織的旨在了解中國(guó)社會(huì)、家庭及個(gè)人發(fā)展的全國(guó)性的概率調(diào)查,每年進(jìn)行一起。在CFPS的問(wèn)卷中,他們?cè)O(shè)計(jì)了一個(gè)問(wèn)題可以識(shí)別出樣本單元是否上網(wǎng),因此,使用CFPS的數(shù)據(jù)可以方便本文問(wèn)題的研究。此外,本文通過(guò)對(duì)模擬總體數(shù)據(jù)進(jìn)行逐步回歸選取了所在省份prov、地區(qū)類型urban、年齡age、性別gender、受教育年限eduy、戶籍類型qa作為解釋總體單元能不能上網(wǎng)的協(xié)變量,并為每個(gè)模擬總體U中的單元模擬了三個(gè)連續(xù)性變量x1,x2,x3,三個(gè)變量分別來(lái)至于均值為10,5,40,方差為9,9,9的正態(tài)總體,并將上述9個(gè)變量作為估計(jì)傾向得分的解釋變量,待研究的變量y由下面的模型生成:
步驟1:利用無(wú)放回式簡(jiǎn)單隨機(jī)抽樣從總體U中抽取一個(gè)樣本量為nr的參照樣本;
步驟2:從總體U中可以上網(wǎng)的子總體UW中根據(jù)指定的樣本選擇機(jī)制:
抽取樣本量nw的網(wǎng)絡(luò)自愿樣本,其中=1表示子總體UW中第i個(gè)單元被選入到樣本,假定非概率網(wǎng)絡(luò)樣本的樣本選擇機(jī)制為L(zhǎng)ogistic形式:
步驟3:對(duì)于特定的參照樣本和網(wǎng)絡(luò)樣本的樣本量組合nr,nw,重復(fù)步驟1和步驟2抽樣過(guò)程1000次,每一次抽樣過(guò)程后,均計(jì)算以下估計(jì)量:
(1)將基本人口信息變量省份、地區(qū)類型、年齡、性別、受教育年限及戶籍類型作為輔助變量產(chǎn)生線性校準(zhǔn)估計(jì)量
(2)將式(8)中的所有變量作為輔助變量產(chǎn)生線性校準(zhǔn)估計(jì)量
(3)忽略參照樣本單元權(quán)數(shù)的簡(jiǎn)單邏輯回歸得到的逆傾向得分加權(quán)估計(jì)量
(4)Valliant提出的加權(quán)邏輯回歸得到的逆傾向得分估計(jì)量
(5)本文提出的逆傾向得分加權(quán)估計(jì)量
本文從平均相對(duì)偏差(R.Bias)、平均標(biāo)準(zhǔn)差(S.E)及95%置信區(qū)間包含真值的比例(Coverage rate)三個(gè)方面對(duì)不同的估計(jì)量進(jìn)行比較。
平均相對(duì)偏差定義為:
其中B為對(duì)于每次實(shí)驗(yàn)過(guò)程重復(fù)的次數(shù),本文中B=1000,?為第i次實(shí)驗(yàn)得到的總體特征的估計(jì),θ為總體特征真值。
平均標(biāo)準(zhǔn)差定義為:
其中為第i次重復(fù)實(shí)驗(yàn)得到的估計(jì)量的標(biāo)準(zhǔn)差。
95%置信區(qū)間包含真值的比例定義為:
其中Interval為第i次模擬過(guò)程構(gòu)造的置信區(qū)間。
步驟4:為了研究不同樣本量nr,nw對(duì)估計(jì)結(jié)果的影響,本文賦予nr,nw不同的樣本量組合,如表1所示:
表1 不同的樣本組合
表中“√”表示有效的實(shí)驗(yàn)組合,“×”表示本文未做該樣本組合的模擬研究。相比較于網(wǎng)絡(luò)調(diào)查,傳統(tǒng)的概率抽樣花費(fèi)較為昂貴,因此在本文的模擬研究中,限定參照樣本的樣本量不多于網(wǎng)絡(luò)自愿樣本的樣本量。對(duì)于不同的nr和nw,重復(fù)步驟1至步驟3。
從表2(見(jiàn)下頁(yè))可以看到,估計(jì)傾向得分模型時(shí),如果忽略參照樣本的設(shè)計(jì)權(quán)數(shù),直接利用簡(jiǎn)單邏輯回顧,則得到的逆傾向的分加權(quán)估計(jì)量平均相對(duì)偏差較大,均在-10%以上,當(dāng)網(wǎng)絡(luò)便利樣本量固定時(shí),隨著參照樣本量的增加,的平均相對(duì)偏差有減少的趨勢(shì),但仍高于-10%,此時(shí),網(wǎng)絡(luò)便利樣本樣本量的增加并不能有效減少此估計(jì)量的平均相對(duì)偏差;Valliant提出的使用參照樣本的設(shè)計(jì)權(quán)數(shù),通過(guò)加權(quán)Logistic回歸得到的逆傾向得分估計(jì)量以及本文提出的基于kNN的樣本合并方法得到的逆傾向得分估計(jì)量的平均相對(duì)偏差較小,均在5%以內(nèi),當(dāng)網(wǎng)絡(luò)便利樣本的樣本量為2000時(shí),兩種估計(jì)量的相對(duì)偏差幾乎相同,網(wǎng)絡(luò)便利樣本的樣本量增加到3000時(shí),的平均相對(duì)偏差均小于。
表2 不同樣本組合下估計(jì)量相對(duì)偏差R.Bias結(jié)果
從95%的置信區(qū)間包含真值比例方面來(lái)看(見(jiàn)表3),的95%的置信區(qū)間包含真值的比例較低,在本文的模擬研究中均不高于90%;及95%的置信區(qū)間包含真值的比例均接近95%,當(dāng)網(wǎng)絡(luò)便利樣本的樣本量固定時(shí),隨著參照樣本量的增加,兩種估計(jì)量的95%置信區(qū)間包含真值的比例,有微弱的下降趨勢(shì),比如當(dāng)網(wǎng)絡(luò)樣本量為3000時(shí),隨著參照樣本量從500增加到3000,的95%置信區(qū)間包含真值的比例由95.1%下降至93.9%。
表3 不同樣本組合下估計(jì)量95%置信區(qū)間C.Rate結(jié)果
從平均標(biāo)準(zhǔn)差SE來(lái)看,在網(wǎng)絡(luò)便利樣本的樣本量固定的條件下,隨著參照樣本的增加(見(jiàn)表4),及的標(biāo)準(zhǔn)差逐漸減少,而對(duì)于忽略樣本單元權(quán)數(shù)的簡(jiǎn)單邏輯回歸得到的逆傾向得分加權(quán)估計(jì)量卻有增加的趨勢(shì)。
表4 不同樣本組合下估計(jì)量標(biāo)準(zhǔn)差SE結(jié)果
值得注意的是,當(dāng)校準(zhǔn)變量為生成y的模型中所有變量時(shí)或者部分人口信息變量時(shí),校準(zhǔn)估計(jì)能夠顯著減少估計(jì)量的偏差,但不能完全消除偏差。然而校準(zhǔn)變量的選擇必須與待研究變量高度相關(guān)才能達(dá)到減少估計(jì)量偏差的效果,本文中選擇的校準(zhǔn)變量為生成待研究變量模型中的一部分或者全部,因此校準(zhǔn)估計(jì)的模擬結(jié)果與其他方法相比具有較高的效率。
本文在網(wǎng)絡(luò)便利樣本的背景下,介紹了傾向得分及其在利用網(wǎng)絡(luò)便利樣本對(duì)目標(biāo)總體進(jìn)行推斷中的應(yīng)用,并提出了基于k-NN的樣本合并方法及相應(yīng)的逆傾向得分估計(jì)量。模擬結(jié)果表明在估計(jì)傾向得分模型時(shí),如果不考慮樣本單元的權(quán)數(shù),構(gòu)建的逆傾向得分估計(jì)量的偏差相對(duì)較大、95%置信區(qū)間包含比例也較低;本文提出的基于k-NN樣本合并方法及對(duì)應(yīng)的逆傾向得分估計(jì)量,與Valliant提出的方法相比,在實(shí)際使用過(guò)程中,具有更高的操作性,且當(dāng)網(wǎng)絡(luò)便利樣本的樣本量較大時(shí),能夠相對(duì)減少估計(jì)量的偏差。此外,相對(duì)于利用傾向得分構(gòu)建權(quán)數(shù)的方法,當(dāng)將生成待研究變量y的所有協(xié)變量都包含進(jìn)校準(zhǔn)模型時(shí),校準(zhǔn)估計(jì)的平均偏差最小,隨著樣本量的增加平均偏差趨向于0。當(dāng)校準(zhǔn)模型中只包含基本的人口信息變量時(shí),雖然相對(duì)于未截取的逆傾向得分估計(jì)量有所減低,但不能完全消除偏差。