崔 蕾, 張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 山西 太原 030006)
?
異方差模型兩階段估計的一種新方法
崔 蕾, 張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 山西 太原 030006)
異方差是線性回歸模型中經(jīng)常出現(xiàn)的問題, 解決異方差問題的一個常用的方法是兩階段最小二乘法.當(dāng)樣本容量較小時,通過分組產(chǎn)生重復(fù)數(shù)據(jù),將會損失大量樣本信息,使得兩階段最小二乘法得到的估計結(jié)果不具有精確性和有效性.利用正交表將樣本容量擴大,并通過分組產(chǎn)生重復(fù)數(shù)據(jù),進而對數(shù)據(jù)進行兩階段估計.結(jié)果表明,該方法大大降低了估計的誤差,得到了更準(zhǔn)確的擬合模型.
異方差; 兩階段最小二乘法; 分組; 正交表
同方差性是經(jīng)典線性回歸模型中的一個重要假設(shè), 它是指在回歸模型中,所有的隨機誤差項都具有相同的方差.然而在經(jīng)濟、地理、醫(yī)藥等領(lǐng)域中,由于遺漏解釋變量、測量誤差以及隨機因素的影響,大部分案例是不滿足這個假設(shè)的,也就是說,模型具有異方差性[1,2].當(dāng)線性模型中存在異方差時,普通最小二乘法[3]得到的估計不具有有效性,甚至不是漸進有效的,此時無法對模型參數(shù)進行顯著性檢驗.這樣,我們需要對異方差問題進行深入研究.
解決異方差的基本思路有兩個:一個是變異方差為同方差[4],另一個是降低模型異方差性[5].其中加權(quán)最小二乘法[6]和原模型變換法[7]將原異方差問題轉(zhuǎn)換為同方差問題解決,而模型的對數(shù)變換[8]僅僅降低了異方差的程度.對于特定的一些回歸模型,原模型變換法是解決異方差問題的一個有效方法,其中隨機誤差項的方差估計是異方差的一個核心問題.常用的估計方法包括貝葉斯估計法[9]、極大似然估計[10]、兩階段最小二乘估計[11]等.
計量經(jīng)濟學(xué)中,一些無法觀測的數(shù)據(jù)常常留在回歸模型的誤差項中,導(dǎo)致模型有內(nèi)生的解釋變量,這時兩階段最小二乘法成為一個良好的、穩(wěn)健的估計方法.施三支和宋立新[12]研究了函數(shù)部分對模型的影響,首先忽略參數(shù)部分,利用部分多項式求得函數(shù),然后根據(jù)兩階段估計,使用最小二乘法估計了參數(shù)項,并推導(dǎo)了參數(shù)的漸近性.歐陽志剛[13]利用兩階段最小二乘法和聯(lián)立方程,首先估計國民收入、消費、投資、凈出口值,并把該值作為相應(yīng)的工具變量代入聯(lián)立方程,其次用普通最小二乘法估計了模型參數(shù),分析了政府支出對經(jīng)濟的貢獻.
葉阿忠[14]于2002年提出了非參數(shù)計量經(jīng)濟中聯(lián)立模型的局部線性兩階段最小二乘估計,并于2004[15]年對此方法進行推廣,提出兩階段最小二乘變窗寬估計,他利用大數(shù)定理及中心極限定理證明了兩種估計都具有漸進正態(tài)性和一致性.2006年,張荷觀[11]提出了分組數(shù)據(jù)的異方差檢驗,并分別給出了一元及多元異方差模型的兩階段估計方法.但是,通過控制每組的樣本量,會改變分組情況,不同的分組將會導(dǎo)出不同的參數(shù)估計和回歸模型,進而使得預(yù)測誤差也各不相同.特別是當(dāng)樣本容量較小時,分組將會損失一部分樣本信息,使得回歸模型精確度降低.
對于異方差,Zhang X Q等[16]提出了一個基于正交表的非參數(shù)估計方法,該方法利用正交表產(chǎn)生重復(fù)數(shù)據(jù),并通過加權(quán)最小二乘法得到參數(shù)的估計.考慮到正交表是一個常用的實驗設(shè)計方法,它可以將樣本容量擴大,我們將對兩階段最小二乘的第一階段進行改進,使得該方法在應(yīng)對樣本量較少的情況時也可以產(chǎn)生好的估計效果.
本文結(jié)構(gòu)如下:第1節(jié)為引言,第2節(jié)介紹異方差模型中,利用混合正交表對兩階段估計法的改進,第3節(jié)從模擬和實例兩方面,通過和原方法進行對比,表明改進后的方法可以降低誤差,參數(shù)估計也更精確,第4節(jié)對全文進行概括和總結(jié).
本節(jié)首先簡單介紹張荷冠提出的兩階段估計,然后用正交表作為工具對該方法進行了一些改進.
1.1 分組數(shù)據(jù)兩階段估計
張荷冠[11]通過分組對異方差模型做了兩階段估計.對于多元線性回歸模型,設(shè)(x1i,x2i,…,xpi,yi),(i=1,2,…,n)為樣本數(shù)據(jù),首先將多元線性回歸模型轉(zhuǎn)化為多個一元線性回歸模型,并分別對每個一元線性回歸模型進行異方差性檢驗,這里不妨設(shè)第一個自變量x1是引起模型異方差的主要因素, 然后對該數(shù)據(jù)進行下列操作:
(1)將樣本數(shù)據(jù)按照自變量x1從小到大排序, 其他自變量和因變量保持原來的對應(yīng)關(guān)系;
(3)假設(shè)分組數(shù)據(jù)(x1i,x2ij,…,xpij,yij)滿足多元回歸模型
(1)
對原模型做變換, 等式兩端同除以σi,則誤差項εij/σi變?yōu)橥讲?
1.2 兩階段估計法的改進
當(dāng)樣本容量較小時, 通過分組產(chǎn)生重復(fù)數(shù)據(jù)會導(dǎo)致大量樣本信息損失, 使得回歸模型精確度降低. 張曉琴[16]等提出利用正交表產(chǎn)生重復(fù)數(shù)據(jù)的方法, 我們可以將此方法應(yīng)用到分組數(shù)據(jù)中, 對兩階段估計法的第一階段進行改進.
假設(shè)樣本數(shù)據(jù)(x1i,x2i,…,xpi,yi),i=1,2,…,n滿足下列回歸模型:
(2)
且設(shè)x1是引起模型異方差性的主要原因,這里我們不妨設(shè)p=3,并通過正交表L9(34)產(chǎn)生重復(fù)數(shù)據(jù),然后對數(shù)據(jù)分組,進行兩階段估計.具體步驟如下:
(1)根據(jù)正交表L9(34)及張曉琴[16]提出的方法,第i個樣本變換后產(chǎn)生的重復(fù)數(shù)據(jù)記為:
(x1i,x2i,x3i)→
其中Δ=0.01;
(2)對于每個因變量的觀測值yi,從正態(tài)分布N(yi,θ2)中產(chǎn)生9個隨機數(shù),記為yij,i=1,2,…,n,j=1,2,…,9,其中θ2=0.01,并把yij與(x1ij,x2ij,x3ij)相對應(yīng);
(3)對第i個樣本產(chǎn)生的9個觀測值(x1ij,x2ij,x3ij,yij)(j=1,2,…,9)按第一個自變量從小到大排列,其他自變量及因變量保持原對應(yīng)關(guān)系,記與第i個樣本相關(guān)的排序后的數(shù)據(jù)為第i組(i=1,2,…,n),并記該組中第一個自變量的組中值為x(1i),則分組后的數(shù)據(jù)記為(x(1i),x(2ij),x(3ij),y(ij));
(4)分組數(shù)據(jù)仍滿足多元回歸模型(2), 對模型進行變換, 得同方差模型
(3)
2.1 隨機模擬
本小節(jié)將通過模擬數(shù)據(jù), 將改進后的方法和兩階段估計法進行比較. 假設(shè)回歸方程為:
yi=0.2+1·x1i+1·x2i+1·x3i+εi,
i=1,2,…,n.
(4)
表1 均勻分布兩階段估計法與 改進后方法誤差比較
表2 正態(tài)分布兩階段估計法與 改進后方法誤差比較
表3 指數(shù)分布兩階段估計法與 改進后方法誤差比較
(a)均勻分布U(0,10)
(b)正態(tài)分布N(0,10)
(c)指數(shù)分布Exp(1)圖1 隨機誤差項方差實際值與 兩方法估計值比較
圖1中三條階梯形虛線“k=3”,“k=6”和“k=10”表示的是不同分組時兩階段法得到的方差估計,“improvement”代表的是改進后方法得到的方差估計,“true”表示的是隨機誤差項方差的實際值.由圖1可得,改進后的方法基本與實際方差重合.因此,基于分組的兩階段法并不適用于求解隨機誤差項估計量,而改進后的方法不管是估計誤差項方差還是因變量值,都表現(xiàn)出良好的適應(yīng)性.
2.2 實例分析
這里仍利用文獻[11]的數(shù)據(jù),將改進后的方法和原文獻的方法進行對比.由于文獻中數(shù)據(jù)包括一個因變量:消費性支出,以及三個自變量:收入、食品支出和文化服務(wù)支出.因此,這里需要對這些數(shù)據(jù)進行回歸分析.文獻[11]已經(jīng)對31個地區(qū)城鎮(zhèn)居民家庭全年人均數(shù)據(jù)進行了檢驗,并得出該數(shù)據(jù)具有異方差性.故我們只列出原方法和改進后方法的參數(shù)估計,并給出相應(yīng)的因變量的平均絕對誤差MAEy和測定系數(shù)R2.結(jié)果如表4所示.
表4 城鎮(zhèn)居民人均數(shù)據(jù)兩階段估計法與 改進后方法誤差比較
經(jīng)濟學(xué)中,由于樣本的測量誤差會隨著時間的推移而不斷改變,地區(qū)間抽樣技術(shù)的先進程度也各不相同.因此,常常導(dǎo)致回歸模型中隨機誤差項具有異方差性.而兩階段最小二乘法是計量經(jīng)濟學(xué)中常用的異方差估計方法,該方法需要重復(fù)數(shù)據(jù)進行估計,對樣本分組是產(chǎn)生重復(fù)數(shù)據(jù)的一種方法.然而,不同的分組方法將導(dǎo)致兩階段估計法得到的估計結(jié)果各不相同.特別是樣本容量較少時,組數(shù)過少將導(dǎo)致樣本信息大量損失,組數(shù)過多,每組的樣本個數(shù)降低,導(dǎo)致兩階段估計法不具有有效性.而本文中改進的方法通過正交表將每個樣本數(shù)據(jù)擴大為一組,然后再進行兩階段估計避免了該情況的發(fā)生.
通過模擬數(shù)據(jù)和實例分析,結(jié)果表明:不管從平均絕對誤差還是擬合的測定系數(shù)來看,改進后的兩階段法可以得到更優(yōu)的參數(shù)估計和擬合模型,比原方法更精確,更有效.
盡管改進后的方法在估計隨機誤差項的方差以及模型系數(shù)中都表現(xiàn)出良好的適應(yīng)性.但由于利用正交表擴大自變量樣本后,因變量的產(chǎn)生具有隨機性,這會影響誤差項方差的估計,進而使模型擬合精度降低.且對于擴大后的每組樣本,用第一個因變量的組中值代替本組中所有該因變量的觀測值,也并不是完全合理的.因此在今后的研究中,我們需要從這兩方面作進一步探索.
[1] Pelenis,Justinas.Bayesian regression with heteroscedastic error density and parametric mean function[J].Journal of Econometrics,2014,178(3):624-638.
[2] Cao C Z,Lin J G,Zhu X X.On estimation of a heteroscedastic measurement error model under heavy-tailed distributions[J].Computational Statistics & Data Analysis,2012,56(2):438-448.
[3] 李子奈,潘文卿.計量經(jīng)濟學(xué)[M].北京:高等教育出版社,2000.
[4] Kwanho C,In Kwon Y,Richard A,et al.Asymptotic theory for Box-Cox transformations in linear models[J].Statistics & Probability Letters,2000,51(4):337-343.
[5] 王紅瑞,林 欣,錢龍霞,等.基于異方差檢驗的水文過程隱含周期分析模型及其應(yīng)用——Ⅱ應(yīng)用[J].水利學(xué)報,2008,39(12):1 296-1 301.
[6] Wang C,Qi F,Shi G M,et al.A linear combination-based weighted least square approach for target localization with noisy range measurements[J].Signal Processing,2014,94:202-211.
[7] Feng Z H,Wang T,Zhu L X.Transformation-based estimation[J].Computational Statistics & Data Analysis,2014,78:186-205.
[8] Packard G C.Multiplicative by nature:Logarithmic transformation in allometry[J].Journal of Experimental Zoology,2014,332(4):202-207.
[9] 鄢偉安,宋保維,段桂林,等.威布爾部件的經(jīng)驗貝葉斯評估[J].系統(tǒng)工程理論與實踐,2013,33(11):2 980-2 985.
[10] Fortin M,Daigle G,Ung C H,et al.A variance-covariance structure to take into account repeated measurements and heteroscedasticity in growth modeling[J].European Journal of Forest Research,2007,126(4):573-585.
[11] 張荷觀.基于分組的異方差檢驗和兩階段估計[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2006,23(1):129-137.
[12] 施三支,宋立新.部分線性回歸模型中的廣義似然比檢驗[J].吉林大學(xué)學(xué)報(理學(xué)版),2007,45(1):56-62.
[13] 歐陽志剛.我國政府支出對經(jīng)濟增長貢獻的經(jīng)驗研究[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究, 2004,21(5):5-10.
[14] 葉阿忠.非參數(shù)計量經(jīng)濟聯(lián)立模型的局部線性兩階段最小二乘估計[J].運籌與管理,2002,11(5):19-23.
[15] 葉阿忠.非參數(shù)計量經(jīng)濟聯(lián)立模型的局部線性兩階段最小二乘變窗寬估計[J].數(shù)學(xué)的實踐與認(rèn)識,2004,34(1):13-18.
[16] Zhang X Q,Hao H X,Liang J Y.A new nonparametric estimation method of the variance in a heteroskedastic model[J].Hacettepe University Bulletin of Natural Sciences & Engineering,2015,44(1):239-245.
【責(zé)任編輯:陳 佳】
陜西科技大學(xué)5項科技成果榮獲陜西省2015年度科學(xué)技術(shù)獎
2016年9月22日,陜西省科技創(chuàng)新大會在西安召開,陜西科技大學(xué)5項科技成果榮獲陜西省2015年度科學(xué)技術(shù)獎.陜西省委書記婁勤儉、省長胡和平、副省長張道宏等領(lǐng)導(dǎo)出席會議并講話,陜西科技大學(xué)校長姚書志參加了會議.陜西科技大學(xué)獨立主持完成的4項科技成果榮獲陜西省科學(xué)技術(shù)獎二等獎,與他人合作完成的1項成果榮獲陜西省科學(xué)技術(shù)獎三等獎.具體獲獎科技成果如下:
張美云、李金寶、蔣學(xué)、徐永建、修慧娟、馬興元、曹力君、賀行、張向榮完成的“基于高性能微晶纖維素制備的麥草高值利用技術(shù)與應(yīng)用” 科研成果獲得陜西省科學(xué)技術(shù)獎二等獎;湯偉、董繼先、王博、王樨、趙延惠、劉權(quán)茂、董超、李虎完成的“中高速衛(wèi)生紙機全集成自動化控制系統(tǒng)”科研成果獲得陜西省科學(xué)技術(shù)獎二等獎;張安龍、王森、羅清、杜飛、景立明、任建華、王猛、郝建昌完成的“高效厭氧好氧二級生化加芬頓氧化技術(shù)用于有機廢水處理的技術(shù)推廣” 科研成果獲得陜西省科學(xué)技術(shù)獎二等獎;曹麗云、歐陽海波、李嘉胤、許占位、孔新剛、介燕妮、盧靖、費杰、李翠艷完成的“鋰離子電池材料濕化學(xué)合成研究及應(yīng)用”科研成果獲得陜西省科學(xué)技術(shù)獎二等獎;陜西咸陽宇迪電子有限公司與陜西科技大學(xué)張方輝、范應(yīng)娟、孫立蓉、張麥麗、牟強合作完成“高性能LED線光源技術(shù)研究”科研成果獲得陜西省科學(xué)技術(shù)獎三等獎.
陜西省科學(xué)技術(shù)獎是陜西省人民政府設(shè)立的省級最高科技獎,每年評選一次,以表彰獎勵在科學(xué)技術(shù)進步活動中做出突出貢獻的科技工作者.與以往不同,2016年大會首次頒發(fā)了陜西省基礎(chǔ)研究重大貢獻獎,獎金為80萬元,專門用于獎勵為基礎(chǔ)研究做出重大貢獻的卓越人士,旨在進一步調(diào)動全省基礎(chǔ)研究科研人員的積極性和創(chuàng)造性,持續(xù)增強陜西基礎(chǔ)研究領(lǐng)域的競爭能力.2015年度,陜西全省共有256項成果獲得陜西省科學(xué)技術(shù)獎.其中,一等獎36項、二等獎109項、三等獎111項.
A new method of two-stage estimation about heteroscedastic model
CUI Lei, ZHANG Xiao-qin
(School of Mathematics Science, Shanxi University, Taiyuan 030006, China)
Heteroscedasticity is a problem that often appears in the linear regression model,two-stage least squares method is a common method to solve this problem.When the sample size is small,grouping the samples to produce repeated data will lose a lot of information,and this will lead to the loss of accuracy and effectiveness for the estimation of two-stage least squares method.In this paper,we will expand further samples using orthogonal array,and grouping them to obtain repeated data,finally we can get the estimate by two-stage estimation.Results show that this method will reduce the error of estimation,and get a more accurate fitting model.
heteroscedastic; two-stage least squares method; grouping; orthogonal array
圖1 陜西科技大學(xué)田徑場 圖2 陜西科技大學(xué)實驗樓群
2016-06-24
山西省自然科學(xué)基金項目(2015011044); 山西省國際合作與交流項目(2015081020); 山西省高等學(xué)校教學(xué)改革項目(J2014006)
崔 蕾(1991-),女,山西晉城人,在讀碩士研究生,研究方向:異方差模型
1000-5811(2016)05-0179-05
O212.1
A