混合樣本下雙因素誤差模型的參數(shù)估計

2023-10-16 08:21王維國

統(tǒng)計與決策 2023年18期

劉鑫，王維國，薛景，李颯

（1.遼寧石油化工大學(xué)a.理學(xué)院；b.經(jīng)濟(jì)管理學(xué)院，遼寧撫順 113001；2.東北財經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院，遼寧大連 116025）

0 引言

在計量分析領(lǐng)域，面板數(shù)據(jù)具有控制個體異質(zhì)性、可研究動態(tài)調(diào)整過程等優(yōu)點，然而在抽樣調(diào)查領(lǐng)域，抽樣框覆蓋不全、調(diào)查個體不回答、大量調(diào)查樣本流失等問題日益突出。輪換面板數(shù)據(jù)因其每期有新個體的加入，可有效緩解普通面板數(shù)據(jù)存在的問題，已被廣泛應(yīng)用于市場調(diào)查、民意調(diào)研及教育經(jīng)濟(jì)等眾多領(lǐng)域，人們對輪換面板數(shù)據(jù)的關(guān)注度也越來越高。而輪換面板數(shù)據(jù)的每期調(diào)查需要找尋新個體的參與，與普通面板數(shù)據(jù)相比，調(diào)查成本不斷增加[1]。鑒于普通面板數(shù)據(jù)與輪換面板數(shù)據(jù)各自的特點，為了充分利用樣本各自的優(yōu)點，常考慮將普通面板與輪換面板數(shù)據(jù)結(jié)合得到混合樣本來推斷總體。如果將混合樣本假設(shè)為普通面板或輪換面板數(shù)據(jù)，使用單獨樣本下的極大似然估計方法，會低估或高估未知參數(shù)估計量的方差，普通面板或輪換面板數(shù)據(jù)下的極大似然估計方法不再適用于混合樣本。因此，如何利用混合樣本來估計總體，是統(tǒng)計推斷所面臨的一個挑戰(zhàn)性問題。目前，迭代極大似然估計已被廣泛應(yīng)用到非平衡面板數(shù)據(jù)中[2]，本文提出的混合樣本屬于一類特殊的非平衡樣本，由于部分平衡樣本的存在，直接使用非平衡面板數(shù)據(jù)下的迭代極大似然估計會產(chǎn)生較大偏誤，因此也不能直接將這種方法用于混合樣本。另外，目前大量基于混合樣本的研究發(fā)現(xiàn)，與單一樣本相比，混合樣本在各類研究過程中更具有普適性，同時也給出了混合樣本下不同的估計方法[3,4]。受此啟發(fā)，本文將現(xiàn)有混合樣本下估計方法的構(gòu)造思想與非平衡面板數(shù)據(jù)下迭代極大似然估計方法相結(jié)合，有效處理部分平衡和部分不平衡的特殊非平衡樣本的方差-協(xié)方差矩陣，將非平衡面板數(shù)據(jù)下迭代極大似然估計方法拓展到混合樣本，并保證估計方法具有良好性能。

1 模型及樣本設(shè)定

其中，i=1，…，N，t=1，…，T；yit為第t期第i個個體的觀測值，xit為k×1維外生解釋變量，β'=(β1，β2，…，βk)為待估參數(shù)，eit為隨機誤差項，設(shè)定為雙因素誤差：

其中，ui為不可觀測的個體特殊效應(yīng)，vt為時間效應(yīng)，ωit為剩余的隨機擾動項，ui、vt和ωit相互獨立，且服從均值為0的同分布，同時：

對于所有的i、t、k和s，δ為克羅內(nèi)克積，則有：

其中，σ2=σu2+σv2+σω2為總方差，ρ=σu2/σ2為個體效應(yīng)方差比例，ω=σv2/σ2為時期效應(yīng)方差比例[5]。

混合樣本設(shè)定：先將被觀測個體連續(xù)編號，由編號為1，2，…，N1,N1+1，N1+2，…，N1+N2的個體組成第一觀測時期的樣本；再將第一時期個體編號為N1+1，N1+2，…，N1+m( 0 ≤m≤N2)的個體由總體中編號為N1+N2+1,N1+N2+2,…,N1+N2+m的個體替代，其余部分保持不變，1，2，…，N1為普通面板數(shù)據(jù)觀測個體，兩個部分共同構(gòu)成了第二觀測時期的觀測個體。此過程為對前一期從樣本N1+1,N1+2,…,N1+N2中去掉m個被觀測個體，而從被觀測總體中引入m個新個體，進(jìn)而形成輪換部分后一期的觀測個體，普通面板數(shù)據(jù)觀測個體保持不變，這樣每一期的觀測數(shù)目相同，觀測T期，被觀測不同個體總數(shù)為H=(T-1)m+N1+N2，觀測個體總數(shù)為T(N1+N2)。

2 混合樣本下擾動項方差-協(xié)方差矩陣

為了得到混合樣本下的迭代極大似然估計，先需要得到T(N1+N2)個觀測個體方差-協(xié)方差矩陣的解析表達(dá)，參照Arkadiusz 等（2020）[4]采用線性變換對非概率和概率樣本整合的思想，本文引入樣本設(shè)計矩陣實現(xiàn)普通面板數(shù)據(jù)和輪換面板數(shù)據(jù)的整合，得到混合樣本下的方差-協(xié)方差矩陣。

由于T期觀測個體總數(shù)為1，2，…，H，故將觀測時期t的擾動項向量表示為：

取εit為N1+N2個個體中第i個個體的擾動項，則：

引入樣本設(shè)計矩陣Dt，則εt可由et表示為：

其中：

其中，0N，n為N×n零矩陣，IN為N×N單位矩陣，Dt矩陣中( )i，j位置元素1表示總體中第j個觀測個體是樣本t期中的第i個觀測個體。

通過式（6）和式（7）可得到：

其中，EH表示所有元素均為1 的矩陣。對于所有觀測時期t，Dt D't=IN1+N2且Dt EH D't=EN1+N2，則：

其中：

取ε表示全部觀測個體T(N1+N2)×1的擾動矩陣，記為：

則擾動項方差-協(xié)方差陣矩為：

3 參數(shù)的迭代極大似然估計

與ε類似，y可表示為T(N1+N2)×1 的向量，設(shè)定f(x;β)為f(xit;β)的矩陣表達(dá)式，假設(shè)隨機擾動項服從正態(tài)分布，則y的對數(shù)似然函數(shù)可寫成：

其中，ε表示y-f(x;β)；D由樣本設(shè)計決定，如果ρ和ω已知，則矩陣Ω已知。這樣，β、ρ、ω和σ可通過如下兩步交互迭代求解得到：

步驟（1）：設(shè)定ρ和ω，將β視為極大似然估計的待估參數(shù)，可通過最小化Q=ε'Ω-1ε求得。

步驟（2）：通過步驟（1）得到β，將ρ、ω和σ視為待估參數(shù)，可通過最小化T(N1+N2)lnσ2+ln |Ω|+σ-2ε'Ω-1ε求得待估參數(shù)。

極大似然估計迭代算法開始需要設(shè)定ρ和ω的初始值，為方便起見，選擇ρ=ω=0，即由步驟（1）計算得到的β為最小二乘估計。迭代算法的實現(xiàn)過程需要Ω-1和 |Ω|的解析表達(dá)式，在實際運行中，將涉及計算Ω的特征值，而這個過程過于復(fù)雜，因此本文考慮在實際應(yīng)用中常被關(guān)注的一類特殊情形：N2=2m，m=kN1(k=1，2，…) ，即混合樣本中輪換面板部分為二分之一輪換面板，且輪換面板數(shù)據(jù)的每期觀測個體為普通面板數(shù)據(jù)的偶數(shù)倍（多輪換少面板情況），在實際應(yīng)用中，當(dāng)數(shù)據(jù)來源于真實微觀數(shù)據(jù)且觀測時期T較小時，估計結(jié)果受到的影響主要來源于觀測個體效應(yīng)擾動項，時期效應(yīng)擾動項帶來的影響較小。考慮到實際應(yīng)用，本文將忽視時間效應(yīng)擾動項，即設(shè)ω=0。

當(dāng)N2=2m，m=kN1(k=1，2，…) 時，從式（7）可知：

將式（12）代入式（9）和式（10），可得：

且Ω1可分解為矩陣D和E，其中：

通過引理1,Ω-1可寫成：

通過對混合樣本進(jìn)行樣本設(shè)計，可將向量εt分解成εt=(εtA，εtB，εtC)，其中：

其中，εtA為普通面板數(shù)據(jù)中被觀測個體在觀測t(t=1，2，…，T)期的擾動項，εtB為輪換面板數(shù)據(jù)中t-1和t(t=2，…，T)期都被觀測的個體在觀測t期的擾動項，εtC為輪換面板數(shù)據(jù)中在t和t+1(t=1，…，T-1) 期都被觀測的個體在觀測t期的擾動項。

合并式（10）、式（13）和式（15），這樣，迭代步驟（2）中二次型Q可表達(dá)成一種簡化形式：

其中：

將式（14）和式（16）代入式（11），則對數(shù)極大似然函數(shù)可寫成：

對上述對數(shù)極大似然函數(shù)關(guān)于σ2求偏導(dǎo)，得到如下條件估計量：

將σ?2代入對數(shù)極大似然函數(shù)中得到中心對數(shù)極大似然函數(shù)：

進(jìn)一步，關(guān)于ρ求偏導(dǎo)，可以得到對數(shù)似然方程：

式（18）不能得到參數(shù)ρ的顯式解，但是可以得到迭代式：

其中：

給定初始值ρ(0)，反復(fù)利用式（19）進(jìn)行迭代就可得到ρ的極大似然估計近似值ρ?。

4 數(shù)值模擬

本文運用蒙特卡羅模擬方法研究普通面板數(shù)據(jù)和二分之一輪換面板數(shù)據(jù)混合樣本下極大似然估計量的小樣本性質(zhì)，并與相同形式普通面板數(shù)據(jù)下極大似然估計量進(jìn)行比較。將數(shù)據(jù)生成過程設(shè)定為如下形式[5]：yit=5+0.5xi2t+eit，其中，i=1，…，N；t=1，…，T。外生解釋變量的生成過程為xit=0.3t+xi(t-1)+εit，xi0=100+250τit，τit相互獨立且服從[- 0.5，0.5]上的均勻分布；隨機擾動項的分解表達(dá)式為eit=ui+vt+ωit，其中ui、vt、ωit相互獨立，且分別服從均值為0，方差為σu2、σv2、σω2的正態(tài)分布，其中σu2、σv2、σω2服從( 0 ，1.5) 上的均勻分布。

在模擬過程中選取以下9種不同的樣本組合，選擇樣本組合N1=10 和T=3，5，10 ，N1=50 和T=3，5，10，N1=100 和T=3，5，10 ，對于每組樣本組合，k=1，2，3,4。其中N2表示輪換面板數(shù)據(jù)每期觀測個體數(shù)，T表示觀測時期，N1表示普通面板數(shù)據(jù)每期觀測個體數(shù)，n表示觀測不同個體總數(shù)。記β?表示本文提出的混合樣本下迭代極大似然估計量，βˉ表示與混合樣本形式相同的普通面板數(shù)據(jù)下極大似然估計量。

基于上述數(shù)據(jù)生成過程及隨機樣本，通過蒙特卡羅模擬可得混合樣本下參數(shù)β的近似極大似然估計值β?和普通面板數(shù)據(jù)下參數(shù)β的極大似然估計值βˉ。將以上過程重復(fù)1000次。計算出極大似然估計量的平均絕對偏差B=，及均方誤差MSE=。具體結(jié)果見表1至下頁表3。

表2 β 迭代極大似然估計的平均偏差及均方誤差( )N1=50

表3 β 迭代極大似然估計的平均偏差及均方誤差( N1=100)

從表1至表3可以看到，總體上，當(dāng)每期輪換樣本占總樣本的比例增加時，參數(shù)估計量的平均偏差和均方誤差也隨之增加。對于相同觀測時期，參數(shù)估計量的平均偏差和均方誤差隨著樣本容量的增大而增大。從模擬結(jié)果來看，與普通面板數(shù)據(jù)下極大似然估計量相比，本文提出的混合樣本下迭代極大似然估計量在不同樣本量、不同樣本組合比例及不同觀測時期下，整體上有較好的平均絕對偏差和均方誤差，本文提出的方法優(yōu)于面板數(shù)據(jù)下的極大似然估計方法。

5 結(jié)論

本文研究了普通面板數(shù)據(jù)與輪換面板數(shù)據(jù)混合樣本下雙因素誤差面板回歸模型的參數(shù)估計，將Arkadiusz 等（2020）[4]的混合樣本整合思想與非平衡面板數(shù)據(jù)下迭代極大似然估計方法相結(jié)合，提出了混合樣本下的迭代極大似然估計方法，得到了未知參數(shù)的迭代公式。蒙特卡羅模擬結(jié)果表明，混合樣本下迭代極大似然估量的平均偏差和均方誤差受輪換樣本占總樣本的比例及樣本容量等因素的影響，比僅用普通面板數(shù)據(jù)所得到估計的平均絕對偏差和均方誤差整體上都要小，估計效果較好。本文提出的混合樣本下迭代極大似然估計方法優(yōu)于普通面板數(shù)據(jù)下的極大似然估計方法，豐富了混合樣本推斷方法，為解決混合樣本推斷問題提供了新思路。