国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

殘差在線性回歸分析中的作用研究

2020-10-16 08:48:44崔俊富陳金偉
牡丹江大學學報 2020年10期
關(guān)鍵詞:殘差線性顯著性

崔俊富 陳金偉 崔 偉

(1.南京航空航天大學經(jīng)濟與管理學院,江蘇 南京 211106;2.山東女子學院經(jīng)濟學院,山東 濟南 250300;3.南京審計大學經(jīng)濟學院,江蘇 南京 211815;4.深圳國育未來教育科學研究院,北京 100875)

一、引言

發(fā)現(xiàn)經(jīng)濟變量之間的關(guān)系是經(jīng)濟學研究的重要內(nèi)容,回歸分析是比較常用的方法?;貧w分析將變量分為響應變量和自變量,通過自變量的已知或設(shè)定值去預測響應變量的均值。回歸分析又可以分為線性回歸分析和非線性回歸分析,因為優(yōu)良的性質(zhì),線性回歸分析的應用性遠遠超過非線性回歸分析。線性回歸分析關(guān)鍵是尋找總體回歸線使得響應變量的條件均值恰好落在這條線上,即:[1]

了解總體信息需要耗費巨大的人力物力財力,因此在經(jīng)濟運行分析中總體信息往往是很難獲得的。于是統(tǒng)計學相繼發(fā)展了統(tǒng)計調(diào)查和統(tǒng)計推斷等領(lǐng)域,其中,統(tǒng)計推斷指的是通過樣本的信息來推測總體的信息。線性回歸分析同樣面臨總體信息不易獲得,而使用樣本信息對總體情況進行推斷的情況,也就是找到樣本回歸曲線來推斷總體回歸曲線,樣本回歸曲線的函數(shù)形式為

但是,線性方程組可能是相容的,也可能是不相容的。這時形成的線性方程組就是不相容的,無法求解系數(shù)。后來數(shù)理統(tǒng)計學家指出,統(tǒng)計推斷不需要求出能通過所有樣本點的回歸線,只需要求出距離樣本點最近的回歸線即可。[2]因為

這個方程組是相容的,可得

這種求解方式是對樣本點的一種“近似”,不能完全反應樣本點的信息,也就是說存在一定的誤差,真實的樣本回歸線形式應該是

其中,e為殘差項(Residual),反映隨機干擾對樣本回歸的影響,可以認為是隨機誤差項ε的實現(xiàn)值。經(jīng)典線性回歸模型需要特定的假設(shè),只有當這些假設(shè)符合時,才能確?;貧w模型的準確性,其中最重要的是關(guān)于隨機誤差(殘差)的假定,即期望為0;方差為常數(shù);相互獨立;自變量與誤差項不相關(guān);符合正態(tài)分布

二、變量的分布

變量分布是統(tǒng)計研究的重要依據(jù),因為分布決定了變量的性質(zhì)。了解了參數(shù)和響應變量的分布情況,就可以對參數(shù)和響應變量的性質(zhì)進行相應的討論,例如假設(shè)檢驗、預測分析等等。由于自變量是確定的,參數(shù)、響應變量的分布與隨機誤差(殘差)的分布是一致的。隨機誤差符合均值為0,方差為的正態(tài)分布,因此參數(shù)和響應變量的分布也符合正態(tài)分布。[4]

(一)響應變量的分布

三、回歸模型的擬合評價

模型建立僅是擬合數(shù)據(jù)的第一步,還必須對模型的數(shù)據(jù)擬合效果進行評價。如果擬合效果不良,說明建立的模型需要進行優(yōu)化。殘差項含有響應變量的部分信息,因此殘差就成為判斷回歸模型擬合效果的重要依據(jù),主要應用于線性檢驗、模型設(shè)定、信息準則等領(lǐng)域。[5]

(一)線性檢驗

參數(shù)的顯著性檢驗反映了自變量對于響應變量模擬是否有貢獻,通過了顯著性檢驗可以確定該參數(shù)對應的自變量對于響應變量模擬有貢獻,未通過顯著性檢驗可以確定該參數(shù)對應的自變量對于響應變量模擬沒有貢獻。

(1)分參數(shù)檢驗

其中,cjj為矩陣

如果上述t統(tǒng)計量超過了顯著性水平確定的臨界值或者由該t統(tǒng)計量計算的P值過小,那么可以拒絕零假設(shè),也就是分參數(shù)不為0。[3]

(2)總體線性檢驗

分參數(shù)t檢驗可以了解每一個參數(shù)的情況,但是參數(shù)較多的時候單獨進行檢驗效率不高,而且t檢驗的次數(shù)過多會使得犯錯誤的概率加大,或者不需要知曉每一個參數(shù)的具體情況只需要了解總體線性情況,這時可以選擇總體線性檢驗。[6]在原假設(shè)β1=β2=…=βp=0的情況下,構(gòu)造統(tǒng)計量

F統(tǒng)計量和決定系數(shù)R2的構(gòu)造都用到了SST=SSR+SSE,可以確定二者之間存在聯(lián)系,通過變換,二者可以相互導出。相對而言,決定系數(shù)R2比較粗糙,F(xiàn)統(tǒng)計量比決定系數(shù)R2具有更嚴格的統(tǒng)計理論支撐,更加準確。

(二)模型設(shè)定

自變量選擇是多元線性回歸模型構(gòu)建的關(guān)鍵內(nèi)容,是選擇線性的模型還是非線性的模型,是選擇少變量形式還是多變量形式都需要討論。

(1)失擬檢驗

失擬指的是所選擇的模型可能是錯誤的,不能擬合現(xiàn)有的數(shù)據(jù),也就無法得出有意義的結(jié)論。最初的失擬檢驗需要對不同的自變量的值進行重復觀測,假定響應變量在xi水平上有ni個值,yij表示第j個觀測值,則殘差平方和可以表示為

如果上述F統(tǒng)計量超過了顯著性水平確定的臨界值或者由該F統(tǒng)計量計算的P值過小,那么可以拒絕零假設(shè),也就是存在失擬,模型需要重新設(shè)定。上述檢驗要求獲得在xi水平上的重復觀測值,實際情況當中,特別是多元線性回歸中很難獲得重復觀測值。Daniel和Wood(1980),Joglekar,Schuenemeyer和 LaRiccia(1989)利用最近鄰的思想來近似作為重復觀測值,進而進行失擬檢驗,得出了一些有益結(jié)論。[7-8]

(2)比較嵌套檢驗

嵌套模型也經(jīng)常用于自變量選擇問題,所謂嵌套模型指的是構(gòu)建兩個以上的模型,其中一個模型包含另一個模型的所有變量,并且至少包含一個以上的其他變量,使用嵌套模型可以非常有效地比較自變量是否對解釋響應變量有貢獻,而且可以一次檢驗許多自變量。可以構(gòu)建[9]

對于自變量xp+1,…,xp+m是否貢獻了有價值的信息,在原假設(shè)βp+1=…=βp+m=0的情況下,可以構(gòu)造統(tǒng)計量

其中,SSER為簡化模型殘差平方和,SSEC為完全模型殘差平方和。如果上述F統(tǒng)計量超過了顯著性水平確定的臨界值或者由該F統(tǒng)計量計算的P值過小,那么可以拒絕零假設(shè),也就是完全模型比簡化模型可以對響應變量提供更強的解釋力。

(三)信息準則

除了失擬檢驗和比較嵌套檢驗外,自變量的選擇還可以最小化赤池信息準則(AIC)、施瓦茨信息準則(SBIC)和漢南—奎因信息準則(HQIC)[5]

其中,L為似然函數(shù)

上述準則的基本思想都是對所添加的回歸變量施加懲罰,當所增加的回歸變量減少AIC、SBIC和HQIC時,才增加該回歸變量,否則就不能增加。因為信息準則需要S2來導出,因此該方法實際上也是考察殘差信息的變化。[10-12]

四、回歸模型的預測

除了對現(xiàn)有的數(shù)據(jù)進行描述,回歸模型最重要的應用是進行預測。已經(jīng)知道,利用現(xiàn)有的數(shù)據(jù)建立的回歸模型存在隨機誤差,那么回歸模型預測的數(shù)據(jù)也必然存在誤差,而且預測數(shù)據(jù)的誤差與現(xiàn)有數(shù)據(jù)描述的殘差存在聯(lián)系,這種聯(lián)系通過影響預測數(shù)據(jù)的分布得以體現(xiàn)。[13]

(一)響應變量均值的預測

可知,E(y)在置信水平100×(1-α)%的置信區(qū)間為

(二)響應變量個別值預測

響應變量預測的隨機誤差為[1]

可知,y在置信水平100×(1-α)%的置信區(qū)間為

五、假定與異常值診斷

線性回歸模型的有效性需要殘差符合若干假定,只有符合這些假定才能導出參數(shù)、響應變量的分布,進行假設(shè)檢驗,預測響應變量。一旦假定不符合,線性回歸模型的有效性就受到很大影響。如果零均值假定不符合,那么上述對于參數(shù)、響應變量、響應變量預測值的期望的討論將不再有效,難以知曉這些變量的均值情況。如果常數(shù)方差假定不符合,那么參數(shù)、響應變量、響應變量預測值的方差將不可獲知。如果正態(tài)分布假定不符合,意味著參數(shù)、響應變量、響應變量預測值也不能用正態(tài)分布進行描述。對于這些假定不相符可以使用一些方法加以克服,例如對數(shù)變換、廣義最小二乘法等等。殘差不符合假定一種常見原因是有異常值,某幾個異常值就可能導致殘差出現(xiàn)較大波動。通過觀察殘差可以幫助確定異常值,主要有4種方法,分別是標準化殘差、學生化殘差、PRESS殘差和R-學生化殘差。[14]標準化殘差相對簡單直觀

如果某一個數(shù)據(jù)點的標準化殘差、學生化殘差、PRESS殘差和R-學生化殘差遠遠大于其他數(shù)據(jù)點,那么基本可以判斷該點為異常值點。異常值的出現(xiàn)可能出現(xiàn)兩種結(jié)果,一種是杠桿點,不影響模型擬合,另一種是強影響點,對模型的擬合有較大影響。前者可以通過矩陣h對角線元素的值來進行判斷,后者可以參考庫克距離。[15-16]

庫克距離較大的點對參數(shù)的估計有較大的影響,如果剔除第i個點估計的參數(shù)出現(xiàn)了較大的移動,例如達到了庫克距離確定的置信域邊界,那么該點為強影響點。異常值的出現(xiàn)通常意味著比較艱難的選擇,異常值含有部分信息,有可能這些信息是模擬需要的關(guān)鍵信息,刪除異常值可能使模型擬合的更好,但是可能丟失了關(guān)鍵信息,而不處理異常值又影響了模型擬合,所以對于異常值的處理要非常的謹慎,最好的方式是收集更多的數(shù)據(jù)幫助進行更準確的判斷。

六、結(jié)語

發(fā)現(xiàn)經(jīng)濟變量之間的關(guān)系是經(jīng)濟學研究的重要內(nèi)容,回歸分析是比較常用的方法。數(shù)據(jù)的隨機性導致線性回歸模型分成回歸項和殘差項兩個組成部分,回歸項解釋的響應變量信息越多,說明回歸模型性質(zhì)越優(yōu)良,反之,殘差項解釋的響應變量信息越多,說明回歸模型性質(zhì)越差。本文對殘差在回歸分析中的作用進行了總結(jié)討論,發(fā)現(xiàn)殘差的信息可以幫助確定數(shù)據(jù)分布、進行擬合評價、預測響應變量、判斷異常值等。因此,對殘差進行分析不僅可以確定線性回歸模型的擬合情況,還可以幫助模型的優(yōu)化調(diào)整。線性回歸模型建立并模擬數(shù)據(jù)集之后,一定要通過觀察殘差分布圖,進行正態(tài)分布檢驗等形式對殘差進行分析討論,挖掘殘差當中有價值的信息,從而準確判斷現(xiàn)有模型的價值并加以優(yōu)化。

猜你喜歡
殘差線性顯著性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
基于雙向GRU與殘差擬合的車輛跟馳建模
線性回歸方程的求解與應用
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
自動化學報(2019年6期)2019-07-23 01:18:32
基于顯著性權(quán)重融合的圖像拼接算法
電子制作(2019年24期)2019-02-23 13:22:26
二階線性微分方程的解法
基于視覺顯著性的視頻差錯掩蓋算法
一種基于顯著性邊緣的運動模糊圖像復原方法
論商標固有顯著性的認定
娱乐| 石渠县| 镇原县| 大洼县| 开远市| 邹平县| 林口县| 鲁甸县| 桓台县| 拜泉县| 海南省| 司法| 巴彦县| 天峻县| 松原市| 黑水县| 镇巴县| 兴义市| 长顺县| 罗定市| 望江县| 饶阳县| 云龙县| 方城县| 本溪市| 康定县| 武川县| 灵山县| 盘山县| 方城县| 安多县| 二连浩特市| 昌黎县| 兴宁市| 洛浦县| 鄂尔多斯市| 威宁| 庆安县| 介休市| 云林县| 盐源县|