關(guān)于多重共線性的三個(gè)知識(shí)點(diǎn)的準(zhǔn)確表述

2019-10-14 05:34王義鬧盧慶華

溫州大學(xué)學(xué)報(bào)（自然科學(xué)版） 2019年3期

王義鬧，盧慶華

(溫州大學(xué)數(shù)理與電子信息工程學(xué)院，浙江溫州 325035)

1 基本假定與基本結(jié)論

考慮多元線性回歸問(wèn)題，Y為被解釋變量，X1,X2,…,Xk為解釋變量，u是與解釋變量無(wú)關(guān)的、方差為2σ的0均值隨機(jī)干擾項(xiàng)，它們之間有如下關(guān)系：

其中β0,β1,β2,…,βk為常數(shù)．確定一組X1,X2,…,Xk的值Xi1,Xi2,…,Xik，重復(fù)試驗(yàn)、觀察隨機(jī)干擾下Y的值，可估計(jì)Y的（在X1=Xi1,X2=Xi2,…,Xk=Xik的條件下的條件）均值、方差、分布函數(shù)等．實(shí)際中我們更關(guān)心的是解釋變量對(duì)被解釋變量的凈影響究竟有多大，即希望估計(jì)β0,β1,β2,…,βk，進(jìn)而可對(duì)被解釋變量進(jìn)行預(yù)測(cè)、控制．假設(shè)在隨機(jī)干擾值為ui時(shí)，觀察到Y(jié)的值記為Yi：

假設(shè)ui是來(lái)自u(píng)的簡(jiǎn)單隨機(jī)樣本，且與Xi1,Xi2,…,Xik線性無(wú)關(guān)（或E(u|X)=0）．記

則（2）可表示成：

其中X稱為回歸設(shè)計(jì)矩陣或資料矩陣．為估計(jì)模型參數(shù)，以下設(shè)X是列滿秩的．

模型參數(shù)的最小二乘（OLS）估計(jì)為：

其中為Xi對(duì)其它解釋變量X0,X1,…,Xi-1,Xi+1,…,Xk回歸所得決定系數(shù)，即Xi與其它解釋變量X1,…,Xi-1,Xi+1,…,Xk的樣本復(fù)相關(guān)系數(shù)Ri·的平方．

由（5）式可見(jiàn)，如果實(shí)驗(yàn)（觀察）是可以人為設(shè)計(jì)（控制）的，則應(yīng)該在Xi的離差平方和不變的條件下，使Xi與其它解釋變量的樣本復(fù)相關(guān)系數(shù)Ri·等于0，這樣βi的OLS 估計(jì)的方差可以達(dá)到最小；否則，Xi的觀察值列向量與設(shè)計(jì)矩陣X的其它各列之間的多重共線性越強(qiáng)，的方差越大．稱為的方差擴(kuò)大因子，記為VIFi．

本文在文[2]給出的下述（不完全）多重共線性定義基礎(chǔ)上討論．

定義1 當(dāng)存在一個(gè)解釋變量（不妨設(shè)為X1）與其它解釋變量X2,…,Xk的樣本復(fù)相關(guān)系數(shù)R1·大于0小于1 時(shí)，就稱樣本X（或設(shè)計(jì)矩陣X的列向量）存在（不完全）多重共線性，或稱設(shè)計(jì)矩陣X的第2列與其它各列之間存在（不完全）多重共線性；當(dāng)R1·=1時(shí)，就稱樣本X（或設(shè)計(jì)矩陣X的列向量）存在完全多重共線性，或稱設(shè)計(jì)矩陣X的第2列與其它各列之間存在完全多重共線性；當(dāng)R1·=0時(shí)，就稱設(shè)計(jì)矩陣X的第2列與其它各列之間不存在多重共線性．

注：定義1 中的樣本復(fù)相關(guān)系數(shù)R1·是以X1為被解釋變量，以X0,X2,…,Xk為解釋變量作普通最小二乘回歸所得決定系數(shù)的算術(shù)根．

注意，當(dāng)R1·=0時(shí)，設(shè)計(jì)矩陣X的第2列與其它各列之間不存在多重共線性，但其它各列中可能有某列與其余各列之間存在多重共線性，因此不能說(shuō)設(shè)計(jì)矩陣X不存在多重共線性．

定義2 如果解釋變量X1與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為R1·，X2與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為R2·，0＜R1·＜R2·＜1，則稱設(shè)計(jì)矩陣X的第3 列與其它各列之間（比X的第2列與其它各列之間）存在較強(qiáng)多重共線性．對(duì)解釋變量的兩個(gè)樣本X,X*，X1與其它解釋變量的樣本復(fù)相關(guān)系數(shù)為則稱X*的第2列與其它各列之間（比X的第2列與其它各列之間）存在較強(qiáng)多重共線性．

以下假定設(shè)計(jì)矩陣X存在多重共線性．

2 參數(shù)的OLS估計(jì)值經(jīng)濟(jì)意義不合理的可能性較大

文[3]P112 所講多重共線性的后果中有一個(gè)是“參數(shù)估計(jì)量經(jīng)濟(jì)意義不合理”：“如果模型中兩個(gè)解釋變量具有線性相關(guān)性，如X1和X2，那么它們中的一個(gè)變量可以由另一個(gè)表征．這時(shí)，X1和X2前的參數(shù)并不反映各自與被解釋變量之間的結(jié)構(gòu)關(guān)系，而是反映它們對(duì)被解釋變量的共同影響，所以各自的參數(shù)已經(jīng)失去了應(yīng)有的經(jīng)濟(jì)含義，……”

以上講法是不準(zhǔn)確的．設(shè)定模型中X1和X2前的參數(shù)當(dāng)然反映了各自對(duì)被解釋變量的平均凈影響，有特定的經(jīng)濟(jì)含義；有問(wèn)題的不是X1和X2前的參數(shù)，而是參數(shù)的偏離真值特別遠(yuǎn)的估計(jì)值．當(dāng)剔除X2后對(duì)保留變量用OLS 估計(jì)X1前的參數(shù)時(shí)，估計(jì)量是有偏的，估計(jì)值不僅反映了X1對(duì)被解釋變量的影響，還包含了X2對(duì)被解釋變量的部分影響，可以說(shuō)“參數(shù)估計(jì)值經(jīng)濟(jì)意義不合理”．如果不剔除X2，X1和X2前的參數(shù)的OLS 估計(jì)量仍然是無(wú)偏的，只要估計(jì)值偏離真值不是特別遠(yuǎn)，就不能說(shuō)“參數(shù)估計(jì)值經(jīng)濟(jì)意義不合理”．另外，說(shuō)“參數(shù)估計(jì)量經(jīng)濟(jì)意義不合理”是沒(méi)有特定意義的，參數(shù)所表示的“解釋變量對(duì)被解釋變量的平均凈影響”是一個(gè)常數(shù)，而參數(shù)估計(jì)量是隨機(jī)變量，所以無(wú)論設(shè)計(jì)矩陣X是否存在多重共線性，參數(shù)估計(jì)量經(jīng)濟(jì)意義都不合理．

確切地講，應(yīng)該是“參數(shù)的OLS 估計(jì)值經(jīng)濟(jì)意義不合理的可能性較大”．由于參數(shù)的OLS估計(jì)量仍然是參數(shù)的無(wú)偏估計(jì)，但方差較大，所以估計(jì)值偏離參數(shù)真值的可能性較大，當(dāng)估計(jì)值偏離參數(shù)真值的幅度大到估計(jì)值與參數(shù)真值的正負(fù)號(hào)不同時(shí)，參數(shù)的OLS 估計(jì)值的經(jīng)濟(jì)意義就不合理了．

文[4]也存在類似問(wèn)題．

3 作變量的顯著性檢驗(yàn)犯第二類錯(cuò)誤的概率可能較大

文[3]P112 所講多重共線性的后果中另一個(gè)是“變量的顯著性檢驗(yàn)失去意義”．

以XO表示第j列與其它各列之間不存在多重共線性的設(shè)計(jì)矩陣X，以XM表示存在多重共線性的設(shè)計(jì)矩陣X．在設(shè)計(jì)矩陣X取值為XO的條件下，對(duì)（3）式中隨機(jī)干擾項(xiàng)的一個(gè)樣本，由最小二乘法所得βj的估計(jì)量記為，則統(tǒng)計(jì)量在X取值為XO的條件下的條件分布是自由度為n-k-1 的t分布；在設(shè)計(jì)矩陣X取值為XM的條件下，對(duì)（3）式中隨機(jī)干擾項(xiàng)的同一個(gè)樣本，由最小二乘法所得βj的估計(jì)量記為，則統(tǒng)計(jì)量在X取值為XM的條件下的條件分布也是自由度為n-k- 1的t分布．所以不論設(shè)計(jì)矩陣X的取值是XO還是XM，在顯著性水平α下拒絕原假設(shè)（H0:βj=0）犯錯(cuò)誤的概率都是α，接受原假設(shè)（H0:βj=0）判斷正確的概率都是1-α．因?yàn)榧僭O(shè)檢驗(yàn)通常是控制犯第一類錯(cuò)誤（拒真錯(cuò)誤）的概率，既然不論設(shè)計(jì)矩陣X的取值是XO還是XM，檢驗(yàn)結(jié)果犯第一類錯(cuò)誤（拒真錯(cuò)誤）的概率都是α，就不能說(shuō)“變量的顯著性檢驗(yàn)失去意義”．

文[4]也存在類似問(wèn)題．

確切地講，應(yīng)該是：對(duì)原假設(shè)H0:βj=0，被擇假設(shè)H1:βj≠ 0作t檢驗(yàn)，與設(shè)計(jì)矩陣X的取值是XO的情況相比，X存在多重共線性時(shí)，盡管犯第一類錯(cuò)誤的概率仍為α，但犯第二類錯(cuò)誤的概率很可能較大．如果我們關(guān)注的是無(wú)關(guān)變量能否被剔除，則設(shè)計(jì)矩陣X是否存在多重共線性對(duì)檢驗(yàn)結(jié)果沒(méi)有影響；如果我們關(guān)注的是（與被解釋變量）相關(guān)的變量能否被保留，則設(shè)計(jì)矩陣X存在嚴(yán)重多重共線性對(duì)檢驗(yàn)結(jié)果有很大影響，條件允許的情況下應(yīng)盡可能使設(shè)計(jì)矩陣X取XO；綜合考慮的話，當(dāng)然是X取XO最好．

下面對(duì)“犯第二類錯(cuò)誤的概率很可能較大”這句話作簡(jiǎn)單說(shuō)明．當(dāng)真實(shí)情況是βj＞0時(shí)，t檢驗(yàn)的原假設(shè)是H0:βj=0，接受原假設(shè)就犯了取偽錯(cuò)誤．設(shè)計(jì)矩陣X取XO和X存在多重共線性的兩種情況下接受域依次為：

對(duì)隨機(jī)干擾項(xiàng)的同一個(gè)樣本，統(tǒng)計(jì)量都服從自由度為n-k-1的t分布，所以犯取偽錯(cuò)誤的概率依次為：

上式中的區(qū)間可以看成是(-tα/2(n-k-1),tα/2(n-k-1))向左平移得到的，平移幅度越大，概率越?。谑?，若有

由（5）式可知，當(dāng)我們對(duì)設(shè)計(jì)矩陣XO、存在多重共線性的設(shè)計(jì)矩陣XM，加上第j列離差平方和相等的限制時(shí)，就有：

當(dāng)真實(shí)情況是βj＜0時(shí)，有同樣的結(jié)論：“犯第二類錯(cuò)誤的概率很可能較大”．

設(shè)計(jì)矩陣X存在多重共線性時(shí)，作t檢驗(yàn)犯第二類錯(cuò)誤的概率，由（7）式可見(jiàn)隨著真實(shí)βj取值不同而變化，可以綜合考慮關(guān)于βj的先驗(yàn)信息和兩類犯錯(cuò)誤概率做出取舍．

文[5]P329 第一、二兩行講述了的多重共線性的一個(gè)實(shí)際后果：“在高度多重共線性的情形中，樣本可能與分歧很大的一些假設(shè)均無(wú)矛盾，這樣就增加了接受錯(cuò)誤假設(shè)（即犯第Ⅱ類錯(cuò)誤）的概率．”由本文上述討論可見(jiàn)，把“就增加了接受錯(cuò)誤假設(shè)的概率”添加三個(gè)字“很可能”，改為“就很可能增加接受錯(cuò)誤假設(shè)的概率”是更穩(wěn)妥的表述．

文[5]P329 第五、六兩行講到：“在高度共線性情形中，估計(jì)的標(biāo)準(zhǔn)誤增加奇快，從而t值迅速變小．”這樣講容易讓讀者產(chǎn)生誤解．由本文上述討論可見(jiàn)，當(dāng)原假設(shè)（H0:βj=0）成立時(shí)，都服從自由度為n-k-1 的t分布，所以不會(huì)對(duì)的任一觀察值都有當(dāng)被擇假設(shè)（H1:βj≠ 0）成立時(shí)，的概率很大（但也不是必然成立）．

文[6]P193、文[7]P101 存在與文[5]P329 第五、六兩行同樣的問(wèn)題．

4 剔除相關(guān)變量有可能減小保留參數(shù)的OLS估計(jì)的方差

文[8]在講解對(duì)多重共線性問(wèn)題的補(bǔ)救時(shí)講到：“如果發(fā)現(xiàn)多元線性回歸模型存在嚴(yán)重的多重共線性，則應(yīng)利用相應(yīng)的補(bǔ)救措施來(lái)最小化多重共線性所造成的影響．”本文十分贊同這句話，認(rèn)為解決多重共線性問(wèn)題，基本假定是存在多重共線性的多元線性回歸模型就是我們所研究的問(wèn)題的真實(shí)規(guī)律，目標(biāo)是盡可能減小多重共線性對(duì)我們認(rèn)識(shí)問(wèn)題、分析問(wèn)題所造成的不利影響．文[8]緊接著說(shuō)，剔除變量法是消除多重共線性最簡(jiǎn)單的一種方法．文[3]在P114 講解克服多重共線性的方法時(shí)講到：“找出引起多重共線性的解釋變量，將它排除出去，是最有效克服多重共線性的方法，所以逐步回歸法得到了最為廣泛的應(yīng)用．”

實(shí)際上，如果我們要分析“控制單個(gè)隨機(jī)解釋變量的條件下被解釋變量的平均改變量”[9]E(Y|Xi=xi1)-E(Y|Xi=xi0)，則剔除相關(guān)變量，然后對(duì)保留變量系數(shù)用OLS 估計(jì)，所得估計(jì)量恰好是我們要求的平均改變量的無(wú)偏估計(jì)、一致估計(jì)．

如果我們要分析“保持其它解釋變量不變，且Xi增加一個(gè)單位的條件下，被解釋變量的平均改變量”，就要求盡可能準(zhǔn)確地估計(jì)Xi的系數(shù)βi．這時(shí)，剔除相關(guān)變量，然后對(duì)保留變量系數(shù)用OLS 估計(jì)，βi的估計(jì)量的均方誤差有可能小于等于對(duì)全部變量系數(shù)直接用OLS 估計(jì)所得βi的估計(jì)量的均方誤差．“小于等于”成立的條件是，對(duì)全部變量系數(shù)直接用OLS 估計(jì)所得被剔除變量的估計(jì)量的協(xié)方差陣，減去被剔除變量系數(shù)真值構(gòu)成的列向量與其轉(zhuǎn)置乘積矩陣，是一半正定矩陣．詳見(jiàn)文[9]定理2.2．

如果要對(duì)解釋變量取某組值時(shí)被解釋變量的取值進(jìn)行預(yù)測(cè)，先剔除相關(guān)變量，然后對(duì)保留變量系數(shù)用OLS 估計(jì)，進(jìn)而用保留變量作預(yù)測(cè)的均方誤差有可能小于等于對(duì)全部變量系數(shù)直接用OLS 估計(jì)進(jìn)而作預(yù)測(cè)的均方誤差．“小于等于”成立的條件與上段相同．詳見(jiàn)文[9]定理2.5．

綜合以上三種情況可見(jiàn)，對(duì)不同的分析目標(biāo)、分析要求，剔除引起多重共線性的解釋變量，可能減小多重共線性所造成的影響，也可能得到更差的結(jié)果．籠統(tǒng)地說(shuō)“找出引起多重共線性的解釋變量，將它排除出去，是最有效克服多重共線性的方法”，是不恰當(dāng)?shù)模?/p>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)于多重共線性的三個(gè)知識(shí)點(diǎn)的準(zhǔn)確表述

1 基本假定與基本結(jié)論

2 參數(shù)的OLS估計(jì)值經(jīng)濟(jì)意義不合理的可能性較大

3 作變量的顯著性檢驗(yàn)犯第二類錯(cuò)誤的概率可能較大

4 剔除相關(guān)變量有可能減小保留參數(shù)的OLS估計(jì)的方差