毛雪蓮
【摘 要】多重共線性問題是多元線性回歸分析中經(jīng)常遇到的問題,怎么解決這一問題,沒有絕對(duì)有效的方法,需要針對(duì)具體問題具體對(duì)待。針對(duì)使用時(shí)間序列數(shù)據(jù)建立回歸模型的問題,遵循科學(xué)性原則,對(duì)數(shù)據(jù)進(jìn)行可比性轉(zhuǎn)化,之后檢驗(yàn)各變量的平穩(wěn)性及變量間的協(xié)整關(guān)系。由于建立的協(xié)整回歸存在多重共線性問題,而采用偏最小二乘法估計(jì)模型的參數(shù),得到了較合理的結(jié)果。
【關(guān)鍵詞】多重共線性;偏最小二乘法;R軟件;單位根;協(xié)整
中圖分類號(hào): O212.1文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)27-0152-002
DOI:10.19694/j.cnki.issn2095-2457.2019.27.067
【Abstract】Multicollinearity is a common problem in multivariate linear regression analysis. There is no absolutely effective method to solve this problem, which needs to be dealt with specifically. If a regression model with time series data, the comparability and the stability of variables must be considered, and the cointegration relationship between variables are tested. Then, Multicollinearity problem appears in cointegration regression, therefore, the partial least squares method is used to estimate the parameters of the model, and a more reasonable result is obtained.
【Key words】Multicollinearity; Partial Least Squares; R software; Unit Root; Cointegration
在龐皓教授《計(jì)量經(jīng)濟(jì)學(xué)》第三版多重共線性一章中,選取我國(guó)1994-2011年旅游收入相關(guān)數(shù)據(jù)建立多元線性回歸模型,經(jīng)檢驗(yàn)各變量之間存在較為嚴(yán)重的多重共線性,最終通過對(duì)各變量取對(duì)數(shù)的形式,緩解了多重共線性問題。這里在該分析方法的基礎(chǔ)上探討如何得到更為科學(xué)、規(guī)范的數(shù)據(jù),期望建立變量之間的線性回歸模型,并盡可能保留全部自變量,且各變量的系數(shù)經(jīng)濟(jì)意義合理。
由于此例中所使用數(shù)據(jù)為時(shí)間序列數(shù)據(jù),所以對(duì)數(shù)據(jù)做了以下三個(gè)方面的處理:首先,擴(kuò)充樣本容量將數(shù)據(jù)完善至2017年最新可得數(shù)據(jù)(數(shù)據(jù)來源:2018年中國(guó)統(tǒng)計(jì)年鑒)。其次,變量中涉及到跨年度收入與消費(fèi)指標(biāo),為了保證數(shù)據(jù)之間的可比性,使用消費(fèi)者價(jià)格指數(shù)對(duì)各變量進(jìn)行縮減。再者,對(duì)各變量進(jìn)行平穩(wěn)性檢驗(yàn),判斷它們之間的協(xié)整關(guān)系。如果存在協(xié)整關(guān)系,檢驗(yàn)?zāi)P褪欠窈侠恚绻匀淮嬖诙嘀毓簿€性,則使用偏最小二乘法估計(jì)模型的參數(shù)。
1 數(shù)據(jù)來源與處理
對(duì)于國(guó)內(nèi)旅游收入Y的影響因素分析模型涉及四個(gè)指標(biāo):國(guó)內(nèi)旅游人數(shù)X2、城鎮(zhèn)居民人均旅游花費(fèi)X3、農(nóng)村居民人均旅游花費(fèi)X4和鐵路里程X5。為了保證數(shù)據(jù)之間的可比性,消除物價(jià)上漲等因素的影響,此處對(duì)國(guó)內(nèi)旅游收入Y,城鎮(zhèn)居民人均旅游花費(fèi)X3和農(nóng)村居民人均旅游花費(fèi)X4三個(gè)指標(biāo)按居民消費(fèi)價(jià)格指數(shù)(1994=100)進(jìn)行了縮減。
2 平穩(wěn)性檢驗(yàn)及協(xié)整檢驗(yàn)
2.1 平穩(wěn)性檢驗(yàn)
對(duì)于時(shí)間序列數(shù)據(jù),直接使用傳統(tǒng)回歸分析建立計(jì)量模型,很可能因?yàn)椴黄椒€(wěn)性而出現(xiàn)偽回歸問題。因此,在建立模型之前,需要對(duì)各時(shí)間序列數(shù)據(jù)的平穩(wěn)性進(jìn)行判斷。
單位根檢驗(yàn)是其中較為常用的方法,其判斷原則是:如果某一時(shí)間序列存在一個(gè)單位根,則說明該序列是不平穩(wěn)的;如果不存在單位根,則說明該序列為平穩(wěn)序列。單位根檢驗(yàn)常用的方法有DF檢驗(yàn)和ADF檢驗(yàn),由于DF檢驗(yàn)中多數(shù)時(shí)間序列可能存在隨機(jī)擾動(dòng)項(xiàng)自相關(guān)的問題,而不能滿足模型的假設(shè),所以人們對(duì)DF檢驗(yàn)進(jìn)行了拓展,形成了擴(kuò)展的DF檢驗(yàn),即ADF檢驗(yàn)。故這里使用ADF單位根檢驗(yàn)方法,變量Y,X2,X3,X4,X5單位根檢驗(yàn)的MacKinnon(1996) one-sided p-values及檢驗(yàn)類型(c,t,k)(分別表示常數(shù)項(xiàng)、時(shí)間趨勢(shì)和滯后階數(shù))分別為:0.9999(c,t,0),1.0000(c,t,0),0.0966(c,t,3),0.8399(c,t,0),0.9967(c,t,0)。變量Y,X2,X3,X4,X5一階差分形式單位根檢驗(yàn)的MacKinnon (1996) one-sided p-values及檢驗(yàn)類型(c,t,k)分別為:0.0495(c,t,0),0.0064(c,t,0),0.0023(c,t,3),0.0199(c,t,0),0.0160(c,t,0)??梢娝凶兞烤鶠橐浑A單整序列。
2.2 協(xié)整檢驗(yàn)
如果多個(gè)非平穩(wěn)變量的某種線性組合是平穩(wěn)的,則說明這些變量之間具有協(xié)整性,可以用這個(gè)平穩(wěn)序列來描述原變量之間的均衡關(guān)系,即此時(shí)建立的回歸模型具有實(shí)際意義。
這里使用EG兩步法進(jìn)行協(xié)整檢驗(yàn),首先用最小二乘法對(duì)變量進(jìn)行回歸,得到殘差序列。之后檢驗(yàn)殘差序列的平穩(wěn)性,如果殘差序列平穩(wěn),則說明原始變量之間存在協(xié)整關(guān)系,反之,變量之間不存在協(xié)整關(guān)系。
對(duì)國(guó)內(nèi)旅游收入及相關(guān)因素做線性回歸,即做Y對(duì)變量X2,X3,X4,X5的線性回歸,并將其殘差序列記為e,并檢驗(yàn)e的平穩(wěn)性,MacKinnon (1996) one-sided p-values及檢驗(yàn)類型(c,t,k)分別為0.0154(0,0,0),可見e為平穩(wěn)序列,故變量Y與變量X2,X3,X4,X5之間存在協(xié)整關(guān)系,可以建立協(xié)整回歸。
作變量Y與變量X2,X3,X4,X5的協(xié)整回歸,-2363.235+0.0427X2-5.6595X3+6.1441X4+536.6448X5,其中變量X3(城鎮(zhèn)居民人均旅游花費(fèi))的系數(shù)為負(fù),與實(shí)際不符。另外,變量X2和X5對(duì)應(yīng)的方差膨脹因子分別為59.2629,72.7502,均顯著大于10,表明模型中存在嚴(yán)重的多重共線性,因此,出現(xiàn)了X3系數(shù)為負(fù)的異常情況。
3 偏最小二乘法
3.1 偏最小二乘法原理
偏最小二乘法(Partial Least Squares,PLS)被稱為第二代回歸技術(shù),融合了主成分分析、回歸分析和典型相關(guān)分析的方法。偏最小二乘法在提取主成分時(shí),不但考慮與各自變量X的相關(guān)性,還考慮到與因變量Y的相關(guān)性,選擇與Y相關(guān)性較強(qiáng)又能方便計(jì)算出自變量的線性函數(shù)。由于僅考慮與自變量和因變量有關(guān)的線性函數(shù)而非考慮全部的線性函數(shù),因此稱為偏最小二乘法。偏最小二乘法中提取主成分的標(biāo)準(zhǔn)多使用交叉驗(yàn)證法,一般可參照以下方式選取:預(yù)測(cè)誤差均方根RMSEP總和較小,且隨著成分個(gè)數(shù)的增加,RMSEP沒有明顯減少,且各主成分對(duì)因變量的累積貢獻(xiàn)率較高。
3.2 偏最小二乘法實(shí)現(xiàn)
4 總結(jié)
針對(duì)國(guó)內(nèi)旅游收入Y與其影響因素國(guó)內(nèi)旅游人數(shù)X2、城鎮(zhèn)居民人均旅游花費(fèi)X3、農(nóng)村居民人均旅游花費(fèi)X4和鐵路里程X5之間的模型進(jìn)行分析,擴(kuò)充了樣本數(shù)據(jù)資料,對(duì)變量Y、X3、X4按消費(fèi)價(jià)格指數(shù)進(jìn)行了縮減。使用ADF檢驗(yàn)了各變量的平穩(wěn)性,得到各變量均為一階單整序列。并且這些變量之間通過了協(xié)整檢驗(yàn),但在建立的協(xié)整回歸中自變量之間存在嚴(yán)重的多重共線性問題,為了得到合理的回歸系數(shù)和保留盡可能多的自變量,使用偏最小二乘法對(duì)模型參數(shù)進(jìn)行估計(jì),得到了較為合理的結(jié)果。
【參考文獻(xiàn)】
[1]鐵衛(wèi),王天恒.財(cái)政科技支出與經(jīng)濟(jì)增長(zhǎng)的實(shí)證分析——以陜西省為例[J].統(tǒng)計(jì)與信息論壇,2012(2).
[2]齊琛,方秋蓮.偏最小二乘建模在R軟件中的實(shí)現(xiàn)及實(shí)現(xiàn)分析[J].數(shù)學(xué)理論與應(yīng)用,2013(6).
[3]張華東,阮陸寧.偏最小二乘回歸在R軟件中的實(shí)現(xiàn)及其優(yōu)缺點(diǎn)剖析[J].科技廣場(chǎng),2015(11).
[4]龐皓.計(jì)量經(jīng)濟(jì)學(xué)(第三版)[M].北京:科學(xué)出版社,2014(6).
[5]何曉群.應(yīng)用回歸分析(R語言版)[M].北京:電子工業(yè)出版社,2017(7).