李金葉,郝雄磊
(新疆大學(xué) 經(jīng)濟與管理學(xué)院,新疆 烏魯木齊 830046)
改革開放以來,相伴于經(jīng)濟快速增長,收入分配差距不斷擴大,國家統(tǒng)計局公布的基尼系數(shù)雖然處在“警戒線”0.4以上,但階層對立和社會動亂的情況并未出現(xiàn),一種解釋是收入不平等中含有合理成分。決定個人產(chǎn)出的因素可以劃分為努力因素和環(huán)境因素,前者是個體可控的,如教育程度、工作時間等,而后者是個體不可控的,如家庭背景、個體特征等。具有完全相同外生環(huán)境的個體屬于同一環(huán)境類型,產(chǎn)出差異僅由個人努力決定,由于努力的差異性導(dǎo)致的類型內(nèi)的產(chǎn)出不平等在道德上是無關(guān)緊要的,但類型間的產(chǎn)出差異是機會不平等所導(dǎo)致,是不合理的不平等,機會不平等程度越高,對經(jīng)濟主體生產(chǎn)性行為的負向激勵就越嚴重,個體再分配傾向就越明顯,家庭背景較差群體的社會不公平感也會更強烈。社會公眾深惡痛絕的并非收入不平等,而是隱藏其中的由于外部不利環(huán)境因素造成的機會不平等,《深化黨和國家機構(gòu)改革方案》正是將促進社會公平正義、增進人民福祉作為改革的出發(fā)點和著力點。
本文首次將回歸樹模型應(yīng)用到機會不平等測度中,而且構(gòu)建了Ratio統(tǒng)計量來比較該模型與傳統(tǒng)方法之間的優(yōu)劣,是機器學(xué)習(xí)與經(jīng)濟學(xué)研究相結(jié)合的有益嘗試?;跇涞哪P瓦€包括分類樹,因此該模型不僅適用于連續(xù)型產(chǎn)出變量,如收入,而且還可應(yīng)用于分類型產(chǎn)出變量,如健康或教育,不僅補充了機會不平等測度的相關(guān)文獻,也為傳統(tǒng)的經(jīng)濟學(xué)研究提供新思路,具有重要的理論意義。在實踐上,利用回歸樹模型可以測算出不同環(huán)境變量的相對重要性,為政府解決收入分配差距過大問題、實現(xiàn)以機會均等為核心的包容性增長提供切入點,本研究具有重要現(xiàn)實意義。
基于Roemer的環(huán)境和努力二元分析框架,一系列機會不平等測度方法被提出,F(xiàn)leurbaey等人將其劃分為“事前”法和“事后”法兩類[1]:前者依據(jù)環(huán)境類型不同對個體分組,用組間收入不平等來表示機會不平等[2-5];后者依據(jù)努力類型不同對個體分組,用組內(nèi)收入不平等來表示機會不平等[6-8]。由于努力程度難以像環(huán)境變量直接觀測,通常采用人力資本、工作狀態(tài)等間接反映[2,9],但其可靠性常常受到質(zhì)疑,“事后”法的應(yīng)用存在極大局限性,本文是基于“事前”法測度機會不平等。
關(guān)于中國城鎮(zhèn)居民機會不平等的實證研究,隨著微觀數(shù)據(jù)庫建立而逐漸增多。江求川等利用CGSS、CHIPS和“社會結(jié)構(gòu)與社會現(xiàn)代化”調(diào)查數(shù)據(jù),通過非參數(shù)法測度1996-2008年城市居民機會不平等變化,發(fā)現(xiàn)機會不平等對于收入不平等的貢獻在研究期內(nèi)由25%上升到33%,且機會不平等程度在不同年齡組、性別和地區(qū)間存在明顯差異[12];陳東和黃旭鋒利用CHNS數(shù)據(jù),通過參數(shù)法測度出1989—2009年機會不平等對于收入不平等平均貢獻達到54.61%,且出生地、父親職業(yè)類型和戶籍對于子女收入有顯著正向影響[13];胡在銘利用CHIP數(shù)據(jù),基于參數(shù)回歸不平等分解法估計出機會不平等占收入不平等程度達到33.3%以上,且性別和地區(qū)是影響機會不平等程度的決定因素[14]。上述研究主要關(guān)注于測算,宋揚在測度機會不平等基礎(chǔ)之上進一步驗證了勞動力市場歧視、教育代際固化是性別、戶籍和家庭背景影響個體收入的主要途徑[15]。
已有的研究為了解中國城鎮(zhèn)居民機會不平等的問題提供了理論與經(jīng)驗依據(jù),但不同學(xué)者的研究結(jié)論差異較大,一方面是因為所采用的參數(shù)法或非參數(shù)法均存在明顯缺陷,另一方面是因為不同調(diào)查期的樣本年齡分布不同,使得跨年比較存在樣本差異問題。本文在Roemer的環(huán)境和努力二元分析框架基礎(chǔ)上,利用CGSS2010、2011、2012、2013、2015數(shù)據(jù)進行研究,為避免環(huán)境變量選擇的隨意性,盡可能構(gòu)造完備的環(huán)境集,選取了10個環(huán)境變量,基本涵蓋了現(xiàn)有文獻中所使用的環(huán)境變量。與已有研究相比,本文創(chuàng)新之處在于:第一,首次將回歸樹模型應(yīng)用于機會不平等的研究,該模型可以自動篩選出重要環(huán)境變量,減少人為干預(yù)問題,為現(xiàn)有的研究提供更加客觀的測度方法,其中條件推斷樹算法將環(huán)境變量與個體收入之間復(fù)雜非線性關(guān)系通過機會結(jié)構(gòu)圖展現(xiàn),增加結(jié)果可讀性,條件推斷森林提高了結(jié)果可靠性;第二,依據(jù)年齡段而非調(diào)查期對樣本分組,將個體置于特定社會變遷階段中來測度不同環(huán)境變量對于個體收入重要性差異,并分析為何存在這種差異,提供了新的研究視角;第三,已有研究常以擬合能力為模型選擇標準,而過擬合問題又會導(dǎo)致機會不平等程度被高估,因此本文構(gòu)造Ratio統(tǒng)計量來比較不同模型的樣本外表現(xiàn),并利用bootstrap抽樣獲得統(tǒng)計量95%置信區(qū)間,拓展了現(xiàn)有的模型比較方法,更能解決實際問題。
在機會不平等背景下,條件推斷樹得出一個特別的樹形結(jié)構(gòu),每個假設(shè)檢驗本質(zhì)上都是對特定子樣本中是否存在平等機會的檢驗,如果算法并沒有導(dǎo)致分裂,則不能拒絕機會均等的原假設(shè)。樹形結(jié)構(gòu)越深,越有必要考慮社會中存在的機會不平等,每次分割都意味著產(chǎn)生的環(huán)境類型間具有顯著不同機會,在樹的終端節(jié)點不能拒絕機會均等的原假設(shè)。
本文采用的數(shù)據(jù)來自于“中國綜合社會調(diào)查”(China General Social Survey),調(diào)查區(qū)域涉及中國內(nèi)地各省份,調(diào)查樣本數(shù)超過10 000戶,調(diào)查內(nèi)容包括個體特征、就業(yè)、收入、家庭背景等方面。選取CGSS項目公布的第二期調(diào)查數(shù)據(jù)(9)CGSS項目第二期執(zhí)行時間是2010—2019年。截止目前,最新公布是2015年調(diào)查數(shù)據(jù),由于2014年做的是一項專題調(diào)查,數(shù)據(jù)仍處于清理階段,暫不對外發(fā)布。為分析樣本,具體包括2010、2011、2012、2013、2015年數(shù)據(jù)。
對于可測環(huán)境變量的選擇,遵循國內(nèi)學(xué)者相關(guān)研究,選取10個最常用的環(huán)境變量,如圖1所示。產(chǎn)出變量選擇個人全年總收入,并將其取對數(shù)。由于使用的是跨年數(shù)據(jù),一方面,不同年份的樣本,其年齡分布存在較大差異性,同一年內(nèi)處于不同職業(yè)階段的青年、中年和老年人,其收入也不具有可比性;另一方面,處于不同年齡段的人群見證了中國社會變遷的不同階段,外部環(huán)境對于不同時間段出生的個體,在教育、就業(yè)和收入等方面影響機制存在差異。因此,本文將樣本按照出生年代劃分為不同年齡組:“50年代之前”“50年代”“60年代”“70年代”“80年代”“90后”。對于出生在50年代之前樣本,年齡已達到70歲以上,其中大部分退出勞動力市場,本文刪除此類樣本。而“90后”樣本主要以未成年人為主,僅有少數(shù)人剛剛進入勞動力市場,代表性不足,本文也剔除此類樣本。
表1 環(huán)境變量說明
表2 按年齡分組統(tǒng)計
研究不同群體內(nèi)部的機會結(jié)構(gòu),即分析哪些環(huán)境變量之間的差異導(dǎo)致機會不平等的產(chǎn)生,為政策執(zhí)行提供充足的信息。條件推斷樹使得機會結(jié)構(gòu)通過樹的形式直觀展示,相關(guān)重要信息直接呈現(xiàn)在圖形中。采用數(shù)據(jù)驅(qū)動方法選擇最優(yōu)的顯著性α水平,根據(jù)統(tǒng)計學(xué)相關(guān)準則設(shè)定α最優(yōu)值在[0.001,0.1]區(qū)間內(nèi),以0.001為步長遍歷區(qū)間內(nèi)每個值。為避免單次交叉驗證結(jié)果受到樣本劃分的影響,共進行10次10折交叉驗證,并計算各α水平下對應(yīng)的10折交叉驗證均方誤差的95%置信區(qū)間,如圖1所示。最后綜合考慮預(yù)測的偏差與方差(11)在各個年代組內(nèi),不同α得到不同均方誤差和置信區(qū)間,根據(jù)其大小分別排名,將均方誤差排名與置信區(qū)間排名相加,選擇綜合排名最小的α。,得出“50年代”“60年代”“70年代”“80年代”分別對應(yīng)的最優(yōu)α水平為0.055、0.077、0.097、0.075。
根據(jù)上述最優(yōu)參數(shù)分別構(gòu)建條件推斷樹模型得到機會結(jié)構(gòu),各個年代機會樹終端節(jié)點數(shù)目分別為23、33、35、23,環(huán)境變量與個體收入之間均存在復(fù)雜非線性關(guān)系。考慮到文章篇幅限制,只列出“50年代”和“80年代”結(jié)構(gòu)圖(如圖2和圖3所示),因為這兩個年代年齡差異最大,機會結(jié)構(gòu)圖變化最為明顯。對于50年代出生的個體而言,不同戶口類型的個體機會均等的假設(shè)是最不被接受的,擁有非農(nóng)戶口的個體處于更有利的環(huán)境類型,樣本量占比為45.46%,收入占比為66%,平均收入為31 865.206元,遠高于農(nóng)業(yè)戶口個體13 673.841元。此環(huán)境特征優(yōu)勢取決于居住地差異,東部地區(qū)非農(nóng)戶口個體平均收入(37 539.682元)在統(tǒng)計意義上要顯著高于西部、中部地區(qū)非農(nóng)戶口個體(25 353.232元),西部、中部非農(nóng)戶口個體中若其父親教育程度為小學(xué)以上水平,其平均收入可達到31 234元(終端節(jié)點26),相反若其父親教育程度為小學(xué)及以下,則性別成為影響個體收入主要因素。而性別這一因素對于居住在東部的非農(nóng)戶口個體而言產(chǎn)生的影響要高于父母教育程度。與之類似,影響農(nóng)業(yè)戶口人群收入的主要因素為居住地,而對于各地農(nóng)業(yè)戶口個體,性別是影響收入第一要素,其中性別為女、14歲時母親就業(yè)狀況為務(wù)農(nóng)的農(nóng)業(yè)戶口個體,是50年代出生人群中收入最低的組,占到樣本16.83%。相反,居住于東部、性別為男并且母親接受過教育的非農(nóng)戶口個體是收入最高的組,占到樣本的5.16%。
圖1 顯著性水平α的調(diào)整
圖2 20世紀50年代出生個體的機會樹
對于20世紀80年代出生的個體而言,居住地是影響人群收入最重要因素,平均來看,東部個體收入為47 701.261元,中部、西部個體收入為30 096.031元,收入的相對差距要低于其它年齡組。在東部地區(qū),戶口類型為非農(nóng)戶口且出生在外地的男性個體平均收入為60 730元,是80年代出生人群中收入最高的組,而出生在本地的個體其平均收入會受到母親教育年數(shù)、性別的影響。在東部地區(qū)農(nóng)業(yè)戶口人群內(nèi)部,性別是主要影響因素,而是否出生在本地主要影響男性個體,母親就業(yè)狀況主要影響女性個體。在西部、中部地區(qū),出生在外地的男性其平均收入最高(終端節(jié)點36),出生在本地的男性會受到14歲時父親就業(yè)狀況、父親教育年數(shù)以及居住地影響。在西部、中部地區(qū)女性群體內(nèi)部,個體14歲時父親就業(yè)狀況是主要影響因素,其中父親為非正式就業(yè)或者無業(yè)或者務(wù)農(nóng),且母親未接受教育的個體,其平均收入為16 830元,是80年代出生人群中收入最低的組。
圖320世紀80年代出生個體的機會樹
采用條件推斷森林需要確定樹的數(shù)量、顯著性水平以及每個分割點可使用的環(huán)境變量數(shù)目,為減少計算,事先將樹的數(shù)量固定為200。設(shè)定α最優(yōu)值在[0.001,0.1]區(qū)間內(nèi),以0.005為步長(12)在條件推斷樹模型中,對參數(shù)α進行調(diào)整時發(fā)現(xiàn),當(dāng)α在較小范圍內(nèi)變化時,均方誤差并不會發(fā)生突變,因此將步長調(diào)整為0.005,以減少計算。遍歷區(qū)間內(nèi)每個值,環(huán)境變量數(shù)目P為4~8,構(gòu)建不同的參數(shù)組合。為避免結(jié)果的隨機性,通過設(shè)置不同隨機數(shù)種子,在各參數(shù)組合下,計算5次out-of-bag均方誤差并取其均值,以環(huán)境變量數(shù)目為分組變量進行擬合,如下圖4所示??梢钥吹健?0年代”“60年代”“70年代”“80年代”對應(yīng)的最優(yōu)的環(huán)境變量數(shù)目分別為6、6、5、5,對應(yīng)的最優(yōu)alpha值分別為0.085、0.090、0.080、0.085。
依據(jù)上述參數(shù)組合構(gòu)建條件推斷森林并計算變量重要性,為便于比較,對變量重要性進行標準化處理(13)以“50年代”為例,通過置換變量父親教育年數(shù)、父親就業(yè)狀況、戶口類型、家庭等級、居住地、母親教育年數(shù)、母親就業(yè)狀況、是否出生在本地、性別,模型預(yù)測精度分別下降了4 038 639、1 126 782、69 473 057、1 477 543、38 349 859、3 823 320、4 667 311、3 721 947、24 399 685,標準化之后為0.058、0.016、1、0.021、0.552、0.055、0.067、0.054、0.351。,如圖5所示。對于20世紀50年代出生的人群,戶口類型重要性要遠高于其他變量,1958年頒布《中華人民共和國戶口登記條例》第一次明確區(qū)分“農(nóng)業(yè)戶口”與“非農(nóng)戶口”,隨后又頒布相關(guān)政策條例進一步將勞動用工、教育、住房、社會福利等公民權(quán)益與戶口銜接。計劃時期所有勞動者被納入統(tǒng)一的就業(yè)、福利和保障體系,意識形態(tài)上提倡婦女能頂半邊天,由于性別產(chǎn)生的工資分配差異并不明顯。
圖4顯著性水平alpha與環(huán)境變量數(shù)目P的選擇
20世紀60年代出生的人口于80年代進入勞動力市場,正值市場機制引入就業(yè)體制,進入90年代后以提高生產(chǎn)效率和競爭力為目的的國企改革使得隱性失業(yè)顯化,1998年統(tǒng)計國企下崗職工中女性為265.2萬人,占到國企下崗總?cè)藬?shù)的44.6%,高于國企中女職工所占比重36.5%,并且下崗女職工再就業(yè)調(diào)查中,感覺受到性別歧視的占到49.7%,遠高于男性18.9%(14)相關(guān)數(shù)據(jù)來自《2000年:中國社會形勢分析與預(yù)測》。,伴隨市場化程度的提高,勞動力市場呈現(xiàn)出性別分割現(xiàn)象。
對于20世紀70年代、80年代出生的人群,居住地重要性已超過性別與戶口類型,他們的事業(yè)成型期處于社會主義市場經(jīng)濟體系初步建立之后,地區(qū)之間收入差距成為突出問題。由于在改革開放初期采取非均衡發(fā)展戰(zhàn)略,東部沿海省份依靠地理位置優(yōu)勢得到重點發(fā)展,形成長三角、珠三角等增長極,而此時中西部地區(qū)在各個方面的發(fā)展全面落后。對于20世紀80年代出生的人群,變量重要性排序與70年代類似,但是否出生在本地的重要性超過了戶口類型,排在第三位。一方面,20世紀80年代依次頒布了《國務(wù)院關(guān)于農(nóng)民進入集鎮(zhèn)落戶問題的通知》《公安部關(guān)于城鎮(zhèn)暫住人口管理的暫行規(guī)定》開始放松戶籍嚴控制度,隨后出臺的系列政策措施都旨在促進有能力的外來人口在本地安家落戶,戶口類型所造成的實際利益不平等已逐漸弱化。另一方面,“80年代”的人事業(yè)起步于2000年,上一代的收入差距逐漸累計到他們身上,表現(xiàn)為家庭財富的差距,產(chǎn)生“富二代”現(xiàn)象,家境優(yōu)越的父輩通常會選擇搬遷到發(fā)展更好的地區(qū)為子女爭取更多的資源,相對于普通家庭而言,此類家庭中的子女擁有更好發(fā)展軌跡。
橫向來看,戶口類型重要性不斷下降,而居住地的重要性持續(xù)上升。觀察14歲時父母教育年數(shù)、就業(yè)狀況、家庭等級、是否出生在本地的重要性,在“50年代”基本一致,而“80年代”是否出生在本地、父母就業(yè)狀況重要性在提升,家庭等級、父親教育年數(shù)重要性在下降。
圖5 變量重要性排序
首先比較模型預(yù)測能力的差異,將樣本隨機分為訓(xùn)練集itrain∈{1,2,…,Ntrain}和測試集itest∈{1,2,…,Ntest},其中Ntrain=2N/3,Ntest=N/3。利用訓(xùn)練集來擬合模型,利用測試集來比較不同模型的樣本外表現(xiàn)(15)利用訓(xùn)練集擬合模型時,條件推斷樹、條件推斷森林需要通過網(wǎng)格搜索法進行參數(shù)調(diào)優(yōu),后續(xù)為構(gòu)造檢驗統(tǒng)計量又會重復(fù)此過程200次,為簡化計算過程,將參數(shù)固定為整體樣本的最優(yōu)參數(shù),即上文中求得的參數(shù)。。分別將參數(shù)法、非參數(shù)法、條件推斷樹在測試集上的均方誤差除以條件推斷森林的均方誤差,構(gòu)造統(tǒng)計量Ratio,若其值小于1,則說明該方法預(yù)測能力優(yōu)于條件推斷森林,重復(fù)上述過程200次,再通過bootstrap抽樣得到檢驗統(tǒng)計量95%置信區(qū)間。觀察Ratio箱線圖,如圖6所示,對于各個年代樣本而言,非參數(shù)方法在測試樣本上的均方誤差要大于參數(shù)方法,而參數(shù)方法要大于條件推斷樹,條件推斷森林預(yù)測能力要優(yōu)于以上方法。從表3還可以看到,條件推斷森林與條件推斷樹的估計結(jié)果最接近,Ratio的95%置信區(qū)間最窄,對應(yīng)的箱線圖分布也更為集中。進一步比較全樣本下不同模型對于機會不平等測量結(jié)果的差異,如表4所示,對于各個年代樣本而言,條件推斷森林的估計值要遠低于參數(shù)法和非參數(shù)法,而預(yù)測精度要高于后者,主要由于參數(shù)法與非參數(shù)法的分類存在過度擬合數(shù)據(jù)的現(xiàn)象。條件推斷樹的結(jié)果與條件推斷森林最接近,但由于沒能充分利用可測環(huán)境集中的信息,導(dǎo)致其預(yù)測精度低于條件推斷森林。從表4縱向來看,無論采取何種方法機會不平等絕對程度都呈現(xiàn)出下降的趨勢,而機會不平等的相對程度并未表現(xiàn)出一致性,依據(jù)條件推斷森林的結(jié)果得出中國機會不平等的絕對和相對程度都在下降,“50年代”人群收入不平等中有35.3%是由外部環(huán)境因素引致的機會不平等,而在“80年代”人群中這一比例下降到19.8%。
圖6 不同測度方法下Ratio箱線圖
表3 不同測度方法下Ratio 95%置信區(qū)間
表4 不同測度方法得到的結(jié)果值
本文采用回歸樹模型中的條件推斷樹和條件推斷森林算法來測度機會不平等,均可以降低模型選擇過程中個人主觀因素影響。通過比較不同模型的樣本外檢驗可以看到,條件推斷森林在測試集上的均方誤差最小,其次是條件推斷樹,而非參數(shù)法最大,因此條件推斷森林可以得到相對更好的機會不平等估計結(jié)果。條件推斷樹在計量經(jīng)濟學(xué)意義上并不太復(fù)雜,并且提供了方便的圖形說明,可直接用于機會結(jié)構(gòu)的分析,同時在機會不平等的估計、環(huán)境變量重要性的分配和樣本外的表現(xiàn)方面與條件推斷森林非常接近。研究發(fā)現(xiàn):各個年代機會樹終端節(jié)點數(shù)目分別為23、33、35、23,環(huán)境變量與個體收入之間均存在復(fù)雜非線性關(guān)系;戶口類型是影響“50年代”機會不平等最主要環(huán)境變量,“60年代”是性別,“70、80年代”是居住地,且戶口類型重要性持續(xù)下降,而居住地重要性持續(xù)上升;機會不平等的絕對程度由“50年代”的0.129下降到“80年代”的0.049,相對程度由35.3%下降到19.8%。
盡管影響機會不平等的環(huán)境變量相對重要性發(fā)生了變化,但戶口類型、居住地、性別仍然是導(dǎo)致機會不平等最主要的因素,為實現(xiàn)全面小康的發(fā)展目標,政府應(yīng)致力于消除不利環(huán)境因素對于機會均等的阻礙:深化戶籍制度改革,加快城鄉(xiāng)、區(qū)域之間基本公共服務(wù)均等化;地區(qū)之間需要建立一體化勞動力市場,為勞動力跨區(qū)域流動創(chuàng)造條件,優(yōu)化資源配置,減少區(qū)域差異對于個體收入的影響;在勞動力市場上為女性創(chuàng)造公平競爭環(huán)境,保障女性權(quán)益,提供相同的職業(yè)流動機會;對外部環(huán)境惡劣的貧困人口進行補償救助,降低教育成本,提高貧困家庭子女進一步教育機會,打破代際之間階層固化的現(xiàn)象。