国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

空間變系數地理加權自回歸模型的局部GMM估計

2022-11-03 09:52魏傳華王韶郡蘇宇楠
統(tǒng)計與信息論壇 2022年11期
關鍵詞:因變量城鎮(zhèn)居民支配

魏傳華,王韶郡,蘇宇楠

(中央民族大學 理學院,北京 100081)

一、引 言

近年來,空間數據分析與建模已經成為地理學、經濟學、管理學等多個學科的熱點問題。關于空間數據模型的介紹可參考Anselin等人的空間計量經濟學類著作,以及Cressie等人空間統(tǒng)計學著作[1-6]??臻g數據的兩個最主要的特征是空間自相關性和空間異質性。對于空間自相關性的刻畫,使用最多的是空間自回歸模型,該模型是由Ord在Whittle的研究基礎上得出的,一般記為[7-8]:

(1)

其中yi和xi=(xi1,xi2,…,xip)T分別是在第i個空間位置上的因變量和自變量觀測值,β=(β1,β2,…,βp)T是p維待估未知系數,模型隨機誤差εi一般假設均值為0,方差為σ2。W=(wij)n×n為空間權重矩陣,用來刻畫觀測單元之間的連接關系,比如區(qū)域i,j之間如果相鄰,則wij=1,否則為0。空間相鄰的定義有多種,可以根據兩個區(qū)域是否有共同的邊來界定,更為一般的定義是基于空間距離、經濟距離以及復雜社會網絡中的關系等來確定。

對于空間異質性的處理,目前使用最多的是Brunsdon等提出的地理加權回歸(Geographically Weighted Regression,GWR)方法[9]。GWR模型記為:

(2)

其中(ui,vi)是觀測點的地理位置,ui表示經度,vi表示緯度;系數函數β(ui,vi)=[β1(ui,vi),β2(ui,vi),…,βp(ui,vi)]T是關于經緯度的未知光滑函數;其余符號與模型(1)的解釋相同。這類空間變系數模型利用局部常數方法或者局部線性方法可以得到各個觀測點上回歸系數的估計值,從而可以直觀描述某一具體系數函數隨所研究的地理空間位置的變化情況,展示了空間關系的非平穩(wěn)性,關于該模型的詳細討論可參考Fotheringham等的專著[10]。

對于空間自相關性和空間異質性,現(xiàn)有研究大都是對二者單獨進行考慮和設定,將這兩個因素同時考慮的研究相對較少?;诳臻g自相關設定和地理加權回歸方法分別在刻畫空間自相關性和空間異質性上的有效性,如何將兩種建模方法結合起來處理兩種空間性質引起了關注,在模型(1)、(2)的基礎上,可以得到如下的空間自回歸地理加權回歸模型:

(3)

Fotheringham等最早基于實際例子對這種建模方法進行了簡單討論,但沒有進一步對該模型的統(tǒng)計推斷等問題進行研究。魏傳華等對該模型進行了估計方法的討論,提出了profile極大似然估計和兩步估計方法,但是沒有對所提估計量的性質進行深入的理論研究[11]。Sun等基于局部線性光滑和profile極大似然估計對模型進行了估計,并給出了所提估計量的漸近性質[12]。為了克服異方差性,Wei等基于Su的研究構造了模型的半參數廣義矩估計(GMM)[13-14]。

(4)

我們將該模型稱之為空間變系數地理加權自回歸模型。對于模型(4),Geniaux和Martinetti在研究中提及了該模型,并針對包括該模型在內的多類模型介紹說使用工具變量方法進行估計,但沒有對估計方法的細節(jié)進行詳細介紹,而且該文中涉及的多類模型在模型形式上差別很大,需要深入討論[15]。除此之外,就筆者所知,目前還沒有針對性研究模型(4)的相關論文。需要指出的是,Wu等提出一類時空加權自回歸模型,其因變量和自變量是在某一時間、某一空間位置上的觀測值,具有時間和空間兩個屬性[16]。模型中自變量對應的回歸系數和因變量滯后項對應的參數都設定為時間和空間的光滑函數,提出利用兩階段最小二乘估計和工具變量估計模型中的未知系數函數。Malikov和Sun提出了一類更為廣泛的變系數空間自回歸模型,其中滯后參數和回歸系數設置為一般的協(xié)變量而不僅僅是模型(4)中所用的經緯度的光滑函數,并對模型提出了局部GMM估計,深入研究了所提估計量的漸近性質[17]。模型(4)是Wu、Malikov等人所研究模型的特殊形式[16-17]。

作為空間自回歸模型和地理加權回歸模型的推廣,模型(4)能夠同時刻畫空間自相關性和空間非平穩(wěn)性,是一類非常有用的空間數據分析模型。關于該模型的針對性研究,目前僅僅在Geniaux和Martinetti的研究中簡單提及,對包括該模型在內的多種模型只介紹說可以用工具變量方法估計,但對于工具變量怎么選取以及怎么構造估計量等沒有進行討論[15]。針對這一半參數回歸模型,本文主要使用局部GMM方法對模型進行估計,該方法在Malikov和Sun的研究中是作為一類簡單估計方法進行了介紹[17],此外Cai、Tran等人采用類似的估計思想對動態(tài)變系數面板數據模型進行了估計[18-19]。本文對模型(4)這類復雜的空間變系數模型給出具體的估計步驟,并通過數值模擬考察不同設定下估計量的表現(xiàn),最后使用該模型分析了一個實際例子。

二、模型的估計

為方便介紹,模型(4)記為如下的矩陣形式:

Y=ρ(u,v)WY+M+ε

(5)

E[(WY)Tε]=E[(W(I-ρ(u,v)W)-1M)Tε+(W(I-ρ(u,v)W)-1ε)Tε]

(6)

即模型(5)中存在內生性問題,因此不能直接采用一般變系數模型的估計方法。下面介紹局部GMM方法,首先,將式(5)改寫成如下形式:

(7)

(8)

進一步可以得到:

(9)

Y≈Z(u,v)θ(u,v)+ε

(10)

前面提到,模型存在內生性問題(空間滯后項存在內生性),當(I-ρ(u,v)W)-1存在時,有:

E(Y)=(I-ρ(u,v)W)-1M=(I+ρ(u,v)W+ρ2(u,v)W2+…)M

(11)

記R=(u,v),因此可以選擇WX,WR,W2X,W2R,…作為WY的有效工具變量。

E[Q(u,v)TKH(u,v)(Y-Z(u,v)θ(u,v))]≈03d×1

(12)

其中核函數的對角矩陣KH(u,v)=diag{k1(u,v),k2(u,v),…,kn(u,v)},記:

gn(θ)=Q(u,v)TKH(u,v)(Y-Z(u,v)θ(u,v))

(13)

則θ(u,v)的局部GMM估計為:

(14)

V(u,v)是一個3d×3d的正定加權矩陣,簡單計算后可以得到:

(15)

三、數值模擬

本節(jié)通過數值模擬方法考察空間變系數地理加權自回歸模型的局部廣義矩估計法在有限樣本下的表現(xiàn)。

(一)數據生成

考慮如下模型:

(16)

圖1 Rook鄰接示例

(a)直接選擇單位陣I,估計結果為:

Z(u,v)TKH(u,v)TQ(u,v)Q(u,v)TKH(u,v)Y

(17)

(b)一步LGMM估計,參考Tran和Tsionas的做法,令V(u,v)=V0(u,v)=Q(u,v)TKH(u,v)Q(u,v),估計結果為[19]:

Z(u,v)TKH(u,v)TQ(u,v)V0-1(u,v)Q(u,v)TKH(u,v)Y

(18)

(19)

(二)模擬效果的指標評價

用均方根誤差作為模擬效果的評價指標。對于每一個變系數函數,分別計算其均方根誤差(RMSE):

(20)

表1 不同樣本量下的模擬結果

(三)變系數曲面圖對比

繪出200次模擬得到變系數均值曲面和變系數的真實值曲面。受篇幅限制,這里只展示一組圖片,即β1(ui,vi)的估計情況。

1.n=64時

圖2 n=64時,模擬均值曲面和真實值曲面

2.n=169時

圖3 n=169時,模擬均值曲面和真實值曲面

3.n=400時

圖4 n=400時,模擬均值曲面和真實值曲面

(四)不同方法下估計效果對比

現(xiàn)將空間變系數地理加權自回歸模型的局部GMM方法下的參數估計效果和式(2)中的地理加權回歸模型以及式(1)中的空間自回歸模型下的估計效果進行對比,取樣本量n=169。選擇因變量Y模擬r次的均方根誤差(RMSE)作為評價指標。

(21)

分別進行以下三組對比:

1.按照空間變系數地理加權自回歸模型形式生成數據

表2 模型估計情況對比

2.按照地理加權回歸模型形式生成數據

數據生成過程的具體設計如下:(1)自變量:xi1~N(5,12),xi2~N(1,42);(2)殘差向量:εi~N(0,0.252);(3)變系數:

β1(ui,vi)=ui+vi,β2(ui,vi)=3cos(πui)。由表3可以看出,若真實模型為地理加權回歸模型,按照空間變系數地理加權自回歸模型的局部GMM方法進行參數估計也能得到很好的結果。

表3 模型估計情況對比

3.按照空間自回歸模型形式生成數據

(1)自變量:xi1~N(5,12),xi2~N(1,42);(2)殘差向量:εi~N(0,0.252);(3)變系數:ρ=0.75,β1=-2,β2=3。由表4可以看出,若真實模型為空間自回歸模型,按照空間變系數地理加權自回歸模型的局部GMM方法進行參數估計能提高估計精度。綜上所述,本文所提出的模型包含了常見的空間自回歸模型和地理加權回歸模型,針對實際數據進行分析具有廣泛的適應性,不容易出現(xiàn)模型設定錯誤。當然,實際數據分析中,空間滯后回歸參數和回歸系數是否隨著空間位置發(fā)生顯著變化需要通過假設檢驗來檢驗,本文由于篇幅有限,不再討論。

表4 模型估計情況對比

四、實證研究

收入和消費之間關系的研究一直受到廣泛的關注,馬驪等曾進行了城鎮(zhèn)居民消費與收入關系的空間自回歸分析[20]。本節(jié)將在考慮地理位置的基礎上,利用本文提出的空間變系數地理加權自回歸模型展開研究。模型設為:

(22)

自變量x為標準化處理后的2020年各地區(qū)城鎮(zhèn)居民人均可支配收入,因變量y為2020年各地區(qū)城鎮(zhèn)居民人均消費支出,數據來源于《中國統(tǒng)計年鑒2021》。工具變量的選取如上文所述。為了消除量綱的影響,將觀測點的位置坐標(經、緯度)進行歸一化處理,記為u、v。

原始數據如表5和表6所示,可以看出,東部地區(qū)的城鎮(zhèn)居民人均消費支出和人均可支配收入總體較高。

表5 原數據——各地區(qū)城鎮(zhèn)居民人均消費支出基本情況 單位:萬元

表6 原數據——各地區(qū)城鎮(zhèn)居民人均可支配收入基本情況 單位:萬元

具體來看,城鎮(zhèn)居民人均消費支出和人均可支配收入排名前六位的地區(qū)包括上海、北京、浙江、廣東、天津、江蘇(排名不分先后),這六個地區(qū)均屬于東部地區(qū)。

關于空間鄰接矩陣的設置,以地理上的接壤作為判定鄰近的標準,由此得到鄰接矩陣(這里認為海南和廣東鄰近),對鄰接矩陣進行了行標準化處理,即得到空間權重矩陣W。

計算自變量和因變量的Moran’I指數,得到對應的P值均小于0.001,因此認為其空間相關性均顯著。下面將空間變系數地理加權自回歸模型的局部GMM估計的參數估計效果和式(1)中的空間自回歸模型(SAR)下的估計效果進行對比。在后續(xù)模型分析中,如不特別說明,提到的城鎮(zhèn)居民人均可支配收入(自變量)以及城鎮(zhèn)居民人均消費支出(因變量)均為標準化后的數據。需要注意的是,在進行空間變系數地理加權自回歸模型的局部GMM估計時,參考Malikov和Sun等的做法,選擇平滑參數h1=h2=n-1/6[17]。

根據表7可知,納入地理位置信息后,通過局部GMM方法估計后得到的因變量的均方誤差比直接對空間自回歸模型進行估計得到的均方誤差要小,并且局部GMM方法估計得到的因變量的最小值、中位數、最大值和真實值的差距也更小。空間變系數地理加權自回歸模型的局部GMM估計有效提高了估計精度。

表7 模型估計情況

由圖5可以看到,個別觀測點預測值和真實值間存在一定差距,但空間變系數地理加權自回歸模型的局部GMM估計下預測值和真實值間差距整體更小,大多數預測值在真實值附近??臻g變系數地理加權自回歸模型的局部GMM下各ρ(ui,vi)和β(ui,vi)的估計情況如圖6所示。x、y軸分別表示u、v的取值,z軸表示對應的系數函數變化值。可以發(fā)現(xiàn),各變系數與變元(u,v)有關。ρ(ui,vi)的估計值大多為正,即某一地區(qū)的城鎮(zhèn)居民消費支出大多受周邊地區(qū)正面影響;β(ui,vi)的估計值基本為正,意味著城鎮(zhèn)居民人均可支配收入對消費支出有顯著的正面影響。

圖5 因變量預測值和真值對比注:·真值(黑色大點)·預測值(灰點小點)誤差線段。左圖局部右圖表示SAR。

圖6 變系數三維散點圖

結合表8和表9,觀察變系數ρ(ui,vi)的估計情況可以發(fā)現(xiàn),全國31個省份的人均消費支出存在空間變化。ρ(ui,vi)的估計值在-0.057~0.382之間,除了廣西、云南、西藏,其余多數地區(qū)的城鎮(zhèn)人均消費支出受到鄰近地區(qū)城鎮(zhèn)居民人均消費支出的正向影響,消費水平高的地區(qū)會拉動周圍地區(qū)的消費水平。在不同地區(qū),ρ(ui,vi)估計值存在一定差異性,這表明城鎮(zhèn)人均消費支出受周圍地區(qū)的影響程度并不完全相同,存在空間異質性。

表8 各區(qū)域估計結果

表9 變系數估計情況

觀察變系數β(ui,vi)的估計情況可以發(fā)現(xiàn),全國31個省份的城鎮(zhèn)居民人均可支配收入對人均消費支出總體呈正向的影響,總體來看,人均可支配收入高的地區(qū)消費水平更高。同樣地,在不同地區(qū)β(ui,vi)估計值存在一定差異性,城鎮(zhèn)居民人均可支配收入對人均消費支出的影響程度因地區(qū)而異。

表10 ρ(ui,vi)分區(qū)域估計情況

表11 β(ui,vi)分區(qū)域估計情況

分區(qū)域觀察變系數ρ(ui,vi)的估計情況(見表10)??傮w來說,東北地區(qū)城鎮(zhèn)居民人均消費支出受鄰近城市的影響程度更大。分區(qū)域觀察變系數β(ui,vi)的估計情況(見表11)。總體來說,相比西部地區(qū)和東北地區(qū),中部地區(qū)、東部地區(qū)城鎮(zhèn)居民人均可支配收入對消費支出產生的影響更大。大多數位于東部地區(qū)的城鎮(zhèn)居民人均可支配收入和消費支出均處于全國較為領先的地位,其對應的β(ui,vi)估計值較大,可以合理推測,城鎮(zhèn)人均可支配收入較高的地區(qū),可支配收入對當地消費支出存在的正面影響程度也可能較高。

五、總 結

為了能夠同時刻畫空間自相關性和空間異質性,本文研究了一類空間變系數地理加權自回歸模型,該模型是經典空間自回歸模型和地理加權回歸模型的推廣?;诰植烤€性技術和局部GMM方法,構造了模型中未知系數函數的估計量,通過數值模擬和實例考察了所提方法的有效性。實證研究了2020年城鎮(zhèn)居民人均消費與收入關系,得到以下結論:一個地區(qū)的城鎮(zhèn)居民人均消費支出大多受到鄰近地區(qū)居民消費支出的正向影響,消費水平高的城市也會拉動周圍城市的消費水平;城鎮(zhèn)居民人均可支配收入對人均消費支出總體呈正向的影響,總體來看,人均可支配收入高的地區(qū)消費水平更高;城鎮(zhèn)人均可支配收入較高的地區(qū),可支配收入對當地消費支出存在的正面影響程度也可能較高。

本文重點研究了模型的局部GMM估計問題,如果對模型采用其他方法進行估計,比如采用工具變量兩階段最小二乘估計或者局部極大似然估計方法,都是值得探討的問題。此外本文沒有對所提估計量的理論進行深入研究。對于在實際數據分析中非常重要的檢驗問題沒有涉及,比如空間滯后參數與回歸系數是否為常數,空間自相關性是否存在等檢驗,這都是需要進一步研究的內容。

猜你喜歡
因變量城鎮(zhèn)居民支配
城鎮(zhèn)居民住房分布對收入不平等的影響
基于ELES模型的河北省城鎮(zhèn)居民消費結構分析
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
被貧窮生活支配的恐懼
跟蹤導練(四)4
一言堂
偏最小二乘回歸方法
談談如何講解多元復合函數的求導法則
天津城鎮(zhèn)居民增收再上新臺階
精心設計課堂 走進學生胸膛