刁海濤
南京財(cái)經(jīng)大學(xué)應(yīng)用數(shù)學(xué)學(xué)院,江蘇南京,210023
在傳統(tǒng)統(tǒng)計(jì)分析的數(shù)據(jù)處理中,觀測(cè)值表示為一組參數(shù)的線性函數(shù),而線性回歸模型只是觀測(cè)值與參數(shù)關(guān)系的近似表達(dá),不能很好地反映實(shí)際問題,且模型參數(shù)的精度受到測(cè)量方法的影響[1]。Engle等引入的半?yún)?shù)回歸模型,包含參數(shù)部分和非參數(shù)部分[2],與Hastie等提出的廣義可加模型結(jié)合[3],產(chǎn)生了半?yún)?shù)廣義可加模型,解決了傳統(tǒng)線性模型的問題。該模型的參數(shù)部分把握因變量的走向趨勢(shì),可以外延、適于預(yù)測(cè);非參數(shù)部分可對(duì)因變量進(jìn)行局部調(diào)整,使模型更加精確地?cái)M合樣本數(shù)據(jù),誤判風(fēng)險(xiǎn)降低,避免“維數(shù)災(zāi)難”[4]。這種模型既含參數(shù)分量,又含非參數(shù)分量,可以更加靈活地概括和描述更多實(shí)際問題,應(yīng)用更加廣泛。本文通過半?yún)?shù)可加模型,分析居民個(gè)人收入的影響因素。
經(jīng)典的線性回歸模型假定被解釋變量Y與解釋變量X1,X2,…,Xp是線性形式,如:
E(Y|X1,X2,…,Xp)=β0+β1X1+β2X2+…+βpXp
(1)
其中,β1,β2,…,βp通過最小二乘法獲得。
可加模型擴(kuò)展了線性回歸模型:
E(Y|X1,X2,…,Xp)=s0+s1(X1)+s2(X2)+…+sp(Xp)
(2)
其中,si(·),i=1,2,…,p是光滑函數(shù),Esi(Xi)=0,si(·)通過backfitting算法獲得。
廣義可加模型是線性可加模型的擴(kuò)展:
g(μ)=s0+s1(X1)+s2(X2)+…+sp(Xp)
(3)
其中,μ=E(Y|X1,X2,…,Xp),si(·)是非參數(shù)光滑函數(shù),它可以是光滑樣條函數(shù)、核函數(shù)或者局部回歸光滑函數(shù),它的非參數(shù)部分提高了模型的靈活性,揭示出解釋變量對(duì)被解釋變量的非線性影響。
若對(duì)所有解釋變量都進(jìn)行非參數(shù)擬合,則會(huì)導(dǎo)致計(jì)算量加大和過度擬合等問題。有時(shí)可根據(jù)實(shí)際情況,將被解釋變量與部分解釋變量的關(guān)系簡(jiǎn)化成參數(shù)形式,會(huì)更便于解釋,即半?yún)?shù)廣義可加模型(Semi-parametric Generalized Additive Models):
(4)
為研究家庭和受教育環(huán)境對(duì)居民個(gè)人收入的影響,本文選取伍德里奇《計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論—現(xiàn)代觀點(diǎn)》HTV.RAW數(shù)據(jù)。該數(shù)據(jù)包含1991年1 230個(gè)個(gè)人的家庭背景、收入及其他情況,包括wage(每小時(shí)收入)、abil(能力,不可觀測(cè))、educ(受教育年限)、exper(潛在經(jīng)驗(yàn))、urban(是否居住在城市)和lwage(收入的自然對(duì)數(shù))等變量,相對(duì)全面地呈現(xiàn)了個(gè)人成長(zhǎng)環(huán)境。為方便分析,選擇abil、educ、exper、urban、fatheduc(父親受教育年限)和motheduc(母親受教育年限)6個(gè)變量作為自變量,取lwage為因變量,研究收入的影響因素。分別做abil、educ、exper、fatheduc和motheduc與lwage的散點(diǎn)圖(圖1和圖2)。
圖1 abil、educ和exper與因變量lwage的散點(diǎn)圖
圖2 fatheduc和motheduc與因變量lwage的散點(diǎn)圖
由圖1、圖2可得:abil與lwage可能存在線性關(guān)系,可作為模型的參數(shù)部分,exper、educ、fatheduc和motheduc可作為模型的非參數(shù)部分的變量。
urban是0~1變量,也作為模型的參數(shù)部分。1 230人中有1 005人居住在城市。
首先,對(duì)lwage及其影響因素建立模型Ⅰ—多元線性參數(shù)模型,表達(dá)式如下:
lwage~exper+urban+educ+abil+fatheduc+motheduc
(5)
根據(jù)最小二乘估計(jì)思想,利用R軟件[5]對(duì)模型Ⅰ(式5)進(jìn)行求解(結(jié)果見表1)。
在顯著性水平α=0.05下,父母受教育年限的回歸系數(shù)不顯著,說明其對(duì)個(gè)人收入對(duì)數(shù)的影響可能是非線性的,其他變量的回歸系數(shù)均顯著,且與收入對(duì)數(shù)成正相關(guān)。
表1 參數(shù)模型回歸系數(shù)估計(jì)及檢驗(yàn)
注:**表示極為顯著,*表示顯著。
由模型Ⅰ的結(jié)果可得,abil、educ、exper和urban對(duì)lwage的影響是線性的,作為線性項(xiàng)。而fatheduc和motheduc對(duì)lwage的線性影響不顯著,作為非參數(shù)項(xiàng),建立模型Ⅱ—半?yún)?shù)廣義可加模型,表達(dá)式如下:
lwage~abil+exper+educ+s(fatheduc)+s(motheduc)+urban
(6)
用R軟件對(duì)模型Ⅱ式(6)參數(shù)項(xiàng)和非參數(shù)項(xiàng)進(jìn)行估計(jì)[6],結(jié)果分別見表2和表3。
表2 模型Ⅱ參數(shù)部分估計(jì)結(jié)果
注:**表示極為顯著,*表示顯著。
由表3可得,在顯著性水平α=0.05下,截距項(xiàng)和參數(shù)項(xiàng)都是顯著的,說明模型參數(shù)部分?jǐn)M合效果較好。截距和四個(gè)參數(shù)的系數(shù)都是正值,其中,educ與urban對(duì)lwage的影響相對(duì)較大,而abil和exper的影響相對(duì)較弱。
表3 模型Ⅱ非參數(shù)部分估計(jì)結(jié)果
注:**表示極為顯著。
對(duì)比表3和表1,父母的受教育年限對(duì)個(gè)人收入對(duì)數(shù)的非參數(shù)效應(yīng)大于參數(shù)效應(yīng),對(duì)應(yīng)的p值表示平滑函數(shù)是否顯著地減少了模型誤差。fatheduc的影響強(qiáng)于motheduc的影響,motheduc的非參數(shù)效應(yīng)不是很顯著。fatheduc對(duì)lwage的非線性影響具體見圖3。
圖3 半?yún)?shù)廣義可加模型中父母受教育年限因素的非參數(shù)效應(yīng)
圖3表明,在該半?yún)?shù)廣義可加模型中,fatheduc對(duì)lwage的影響不是單增或單減。當(dāng)fatheduc較低時(shí),lwage隨著fatheduc的增大而減??;當(dāng)fatheduc大于5且小于18時(shí),lwage隨著fatheduc的增大緩慢增長(zhǎng),當(dāng)fatheduc大于18時(shí),lwage有減小趨勢(shì)。而motheduc對(duì)lwage的影響相對(duì)較單一,影響整體呈負(fù)向。當(dāng)motheduc低于8時(shí),lwage隨著motheduc的增大而快速減??;當(dāng)motheduc在8到15之間時(shí),lwage有很緩慢的增長(zhǎng)趨勢(shì);當(dāng)motheduc大于15后,lwage又出現(xiàn)下降趨勢(shì)。
本文將半?yún)?shù)回歸與廣義可加模型結(jié)合,并應(yīng)用到居民個(gè)人收入的研究中。結(jié)果表明,在影響個(gè)人收入的諸因素中,個(gè)人能力、受教育年限、潛在經(jīng)驗(yàn)、居住在城市對(duì)居民個(gè)人收入的影響是參數(shù)效應(yīng),且均為正向效應(yīng)。其中受教育年限和城鄉(xiāng)因素對(duì)收入的影響相對(duì)較大,而個(gè)人能力和潛在經(jīng)驗(yàn)影響相對(duì)較小。而父母受教育年限對(duì)收入影響是非參數(shù)效應(yīng),不同教育年限對(duì)收入影響趨勢(shì)不同。父母受教育年限小于5年,對(duì)收入影響均呈現(xiàn)不同程度的負(fù)效應(yīng);當(dāng)受教育年限為10~15年時(shí),父親受教育年限對(duì)收入的正向影響大于母親。