童婉迪
摘要:農(nóng)村居民收入影響因素的研究往往采用均值和分位數(shù)回歸方法,眾數(shù)回歸是一種新的刻畫因變量與自變量之間的關(guān)系的回歸模型,是均值回歸和分位數(shù)回歸模型的重要補(bǔ)充。本文將眾數(shù)回歸方法應(yīng)用到農(nóng)村居民收入研究中,用EM算法求解估計量,并采用Bootstrap方法給出了回歸系數(shù)的估計的置信區(qū)間。并基于分析結(jié)果,給出提高農(nóng)村居民收入水平相應(yīng)的建議。
關(guān)鍵詞:農(nóng)村居民收入;EM算法;眾數(shù)回歸模型
一、引言
2020年是脫貧攻堅工作的收官之年,農(nóng)村居民收入的問題至關(guān)重要,這關(guān)系到我們能否鞏固來之不易的脫貧成果。目前圍繞農(nóng)民收入問題,已經(jīng)有許多學(xué)者做了大量的調(diào)查研究,形成了一批研究成果。王春超(2004)先從微觀的角度分別對農(nóng)民收入和非農(nóng)生產(chǎn)活動的影響因素進(jìn)行實證分析,再從宏觀角度分析,得出結(jié)論農(nóng)民合理的投資行為、農(nóng)民受教育程度和技能培訓(xùn)可以提高農(nóng)民的收入。蔡昉、王德文(2005)分析了80-90年代以來我國經(jīng)濟(jì)變化的格局,指出非農(nóng)收入占農(nóng)民收入的比重正在逐年增加,所以要提高農(nóng)民收入可以從提高農(nóng)民的非農(nóng)收入的角度人手。張艷華、李秉龍(2006)從人力資本的角度,選取了幾個人力資本方面的因素,研究對農(nóng)民非農(nóng)收入的影響,結(jié)果表明教育、培訓(xùn)、專業(yè)技能、經(jīng)驗等人力資本變量不僅可以增加農(nóng)民非農(nóng)的就業(yè)機(jī)會,而且可以顯著提高農(nóng)民的非農(nóng)收入。辛嶺、王艷華(2007)采用雙對數(shù)模型,對農(nóng)民受教育水平與農(nóng)民收入進(jìn)行格蘭杰因果檢驗,并進(jìn)一步進(jìn)行了協(xié)整檢驗,結(jié)果證明農(nóng)民受教育水平對農(nóng)民收入有長期影響,提高農(nóng)民受教育水平的確可以提高農(nóng)民收入。陳珍珍、游家興(2009)使用了分位數(shù)回歸模型對農(nóng)民收入的不同水平進(jìn)行了全面的因素分析,結(jié)果表示農(nóng)民受教育程度對農(nóng)民收入是正向影響,并且提出自主營業(yè)會提高農(nóng)民收入。張占貞、王兆君(2010)選取了與農(nóng)民工工資性收入具有強(qiáng)相關(guān)關(guān)系的因素,進(jìn)行主成分分析得到農(nóng)民文化程度、城鎮(zhèn)化率、農(nóng)村剩余勞動力轉(zhuǎn)移率、農(nóng)民人均交通和通訊支出比重這幾個因素的變化對農(nóng)民工工資性收入有很大促進(jìn)作用,農(nóng)村人均固定資產(chǎn)投資額和財政支農(nóng)支出額對農(nóng)民人均工資性收入有微弱促進(jìn)作用。
大多數(shù)學(xué)者在研究影響農(nóng)民收入因素問題的時候多采用均值回歸,該模型能從總體上概括地解釋年齡、受教育水平、性別和工作單位的經(jīng)濟(jì)性質(zhì)對農(nóng)民工收入的影響程度。但無法深入、細(xì)致地揭示各個因素在不同的區(qū)間對農(nóng)民收入的影響程度,結(jié)論過于籠統(tǒng)。且均值回歸常假定誤差項服從正態(tài)分布,而實際應(yīng)用中的調(diào)查數(shù)據(jù)往往不能滿足,系數(shù)估計值容易受到極端值的影響,所以用均值回歸來研究農(nóng)民收入問題有一定的局限性。眾數(shù)回歸模型無需對誤差項進(jìn)行假定,因而具有很強(qiáng)的魯棒性。根據(jù)眾數(shù)回歸模型的特性,可以準(zhǔn)確描述占最大比例的人群收入的影響因素,所以依據(jù)眾數(shù)回歸模型制定增加農(nóng)村居民收入的政策可以使占最大比例的人群受益。目前很少有學(xué)者利用眾數(shù)回歸模型對農(nóng)民收入問題進(jìn)行研究,本文利用基于廣義線性的眾數(shù)回歸模型進(jìn)行分析,并用EM算法求解,然后將回歸結(jié)果與均值回歸和中位數(shù)回歸進(jìn)行比較分析,綜合分析后得出相應(yīng)的政策建議。
二、數(shù)據(jù)說明
2018年中國綜合社會調(diào)查數(shù)據(jù)(CGSS)包括全國31個省、市、自治區(qū)被訪者的年齡、教育年限、性別及2017年全年職業(yè)收入等信息。本文從這些數(shù)據(jù)中選取五個對農(nóng)村居民收入較為重要的影響因素變量,分別是:教育年限、性別、健康狀況、家庭人口數(shù)以及地區(qū)。根據(jù)研究需要,本文事先對數(shù)據(jù)進(jìn)行了預(yù)處理,去掉了上學(xué)、參軍、喪失勞動能力以及收入為0的樣本,最終選取的樣本包括18歲-65歲的農(nóng)村居民共8680人。并將地區(qū)變量按照全國經(jīng)濟(jì)地帶劃分為三個地區(qū):東部、中部和西部,其中中西部為參照組。
三、模型設(shè)定
(一)經(jīng)典眾數(shù)回歸模型簡介
眾數(shù)回歸與傳統(tǒng)的均值和中位數(shù)回歸方法不同,它使用條件眾數(shù)來表示條件分布的中心。在下列兩種情況下比均值和中位數(shù)回歸更合理:一是在噪聲服從有偏分布或重尾分布,此時均值和中位數(shù)并不能很好地表示分布的中心;二是樣本中包含離群點。傳統(tǒng)的回歸模型中,通常假定噪聲服從正態(tài)分布,而在實際應(yīng)用中,這些假定難以全部成立,因而眾數(shù)回歸方法是完善回歸分析非常重要的工具類型。
為眾數(shù)回歸函數(shù)。眾數(shù)回歸具有下列良好的特征:眾數(shù)回歸用“最有可能”的條件值一眾數(shù)(而不是均值或者中位數(shù))來度量分布的中心;因此眾數(shù)回歸對離群點不敏感,具有良好的魯棒性。
其中K為核函數(shù),h為帶寬參數(shù),回歸系數(shù)β=(β0β1)T。關(guān)于系數(shù)向量B各個分量的漸進(jìn)理論,目前還沒有成熟的結(jié)果。我們根據(jù)Bootstrap方法重復(fù)抽取500次,根據(jù)系數(shù)向量估計值計算各個分量2.5%和97.5%的分位數(shù)作為各分量置信水平為95%的置信區(qū)間下限和上限,如果置信區(qū)間包含0,那么在5%的顯著性水平下不顯著,反之則顯著。
(二)模型的構(gòu)建
基于描述性統(tǒng)計及各變量的預(yù)處理,本文構(gòu)建廣義線性模型如下:
其中,Y,Edu,Gender,health。add,number分別表示因變量收入以及教育年限、性別、健康、地區(qū)和家庭人口規(guī)模這五個影響收入的變量。
根據(jù)交叉驗證結(jié)果,取參數(shù)h= 0.7,得到眾數(shù)回歸系數(shù)向量。按照眾數(shù)回歸EM算法步驟抽取500次,其中,均值回歸、中位數(shù)回歸、眾數(shù)回歸模型的估計結(jié)果及其顯著性見下表,其中系數(shù)向量估計值各分量95%的置信區(qū)間上、下限由500個估計值97.5%和2.5%的分位數(shù)計算得到,回歸結(jié)果如下表所示。
四、結(jié)果分析
上述的結(jié)果表明這五項指標(biāo)的系數(shù)估計值在三種回歸中均為正,說明各項指標(biāo)系數(shù)的增加均能提高農(nóng)村居民收入。其中,眾數(shù)回歸中,教育年限和性別系數(shù)估計值與均值回歸和中位數(shù)回歸結(jié)果差異較大。下文分析回歸結(jié)果中的每個指標(biāo):
1.教育年限:對于均值回歸、中位數(shù)回歸、眾數(shù)回歸,式(2)中β2的含義分別為:對于相同教育程度的農(nóng)村居民而言,在其他變量保持不變的條件下,教育年限每增加1年,收入的條件均值、條件中位數(shù)、條件眾數(shù)分別增加100β2%。觀察表2結(jié)果,三種回歸的教育系數(shù)估計值均顯著為正,所以增加受教育年限肯定可以提高收入,而這其中眾數(shù)回歸的系數(shù)估計值最高,說明對于占最大比例入群的農(nóng)村居民來說,教育收益率最高。所以,應(yīng)當(dāng)繼續(xù)保障農(nóng)村義務(wù)教育順利實施,發(fā)展鄉(xiāng)村學(xué)前教育,對于因為學(xué)費(fèi)問題而無法負(fù)擔(dān)高中階段教育的家庭給予補(bǔ)助,鼓勵建設(shè)鄉(xiāng)村教師隊伍,為農(nóng)村教育繼續(xù)引進(jìn)更多優(yōu)質(zhì)師源,為農(nóng)村教育提供更多免費(fèi)的資源。推廣農(nóng)民技能培訓(xùn)。