林樂義
(皖江工學院 基礎(chǔ)部, 安徽 馬鞍山 243031)
回歸分析方法、回歸算法以及回歸模型,都是現(xiàn)階段統(tǒng)計學的重要組成,回歸分析作為一個重要的統(tǒng)計分析技術(shù),其使用率高、應(yīng)用范圍廣。利用該技術(shù)建立數(shù)學模型,表達數(shù)據(jù)之間的相互關(guān)系時,由于模型中解釋變量之間存在高度相關(guān)關(guān)系,令該數(shù)學模型估計失真,以此需要通過消除多重共線性,實現(xiàn)數(shù)學模型的精準估計。多重共線性也可稱作多重相關(guān)性,指自變量之間存在線性相關(guān)現(xiàn)象,當自變量之間存在完全線性關(guān)系時,則自變量之間的相關(guān)性絕對值為1;當自變量之間完全沒有線性關(guān)系時,自變量之間的相關(guān)性為0。上述說明的是2種極端的自變量線性相關(guān)關(guān)系,通常來說,目前極易出現(xiàn)的是線性程度不同的相關(guān)現(xiàn)象,自變量之間的相關(guān)性絕對值在0到1之間變化。
針對回歸分析的多重共線性問題,文獻[1]提出嶺回歸中基于廣義交叉核實法的最優(yōu)模型平均估計方法,在存在異方差的背景下,考察了組合不同嶺參數(shù)下嶺估計量的模型平均方法,并在廣義交叉核實法的框架下構(gòu)造了相應(yīng)的權(quán)重選擇準則,使用蒙特卡洛模擬考察了所提出的模型平均方法在有限樣本下的有效性,利用該方法對一組乙炔反應(yīng)工藝的數(shù)據(jù)進行了分析,所得到的結(jié)論進一步表明,模型平均法在實際數(shù)據(jù)分析工作中具有較高應(yīng)用價值。文獻[2]提出部分線性變系數(shù)模型的約束嶺估計方法,該方法研究了部分線性變系數(shù)模型在線性部分存在多重共線性和參數(shù)分量附加約束條件時的估計問題?;趐rofile最小二乘估計和嶺回歸估計方法,構(gòu)造了參數(shù)分量的約束profile嶺估計,并研究了其性質(zhì)。但是以上2種方法的多重共線性處理效果較差,導(dǎo)致得到的回歸系數(shù)不貼合實際。
針對上述方法存在的問題,本文提出全新的處理方法。該方法利用嶺回歸修正解釋變量之間的多重共線性,并通過篩除重復(fù)度高、相似性強的自變量,消除多重共線性,得到的回歸系數(shù)更貼合實際,為回歸分析技術(shù)的改進和發(fā)展,提供有效的技術(shù)支持。
在投入嶺回歸消除多重共線性的方法中,需要預(yù)先確認多重共線性的影響指標。該影響指標就是存在大量精確相關(guān)關(guān)系或高度相關(guān)關(guān)系的解釋變量,影響模型估計精準程度的指標[3-4]。已知建立一個多元線性回歸模型需要一定條件,即回歸模型外生變量組成的設(shè)計矩陣,為列滿秩矩陣,同時該模型要求列滿秩矩陣W的秩表現(xiàn)為F(W)=b+1,說明矩陣列向量之間不存在不全為零的b+1個數(shù),用n0、n1、n2、…、nb表示,則有:
n0+n1xi1+n2xi2+…+nbxib=0
(1)
上式中:i=1,2,…,m表示數(shù)量;x1、x2、…、xb表示分析模型的外生變量。此時的外生變量x之間存在嚴重的線性關(guān)系[5]。當變量之間的共線性程度較強時,設(shè)回歸模型為:
y=β0+β1x1+β2x2+…+βbxb+k
(2)
式中:β0、β1、β2、…、βb表示與分析模型外生變量xb相對應(yīng)的回歸系數(shù);k表示固定常數(shù)。當上述模型的解釋變量之間存在公式(1)的狀況時,矩陣W的秩F(W)
根據(jù)上圖可知,外生變量的發(fā)生概率隨著模型參數(shù)的增加而提升。因此假設(shè)1個多元線性回歸模型內(nèi)存在2個外生變量,此時的回歸模型可設(shè)置為二元化模型,計算公式為:
y=β0+β1x1+β2x2+k′
(3)
式中的k′為二元化模型下的固定常數(shù)。外生變量x1與x2具有完全共線性;若x2=μx1時,μ為變量控制參量,此時的二元線性回歸模型,可變?yōu)楹唵我辉€性回歸模型:
y=β0+(β1+μβ2)x1+k′
(4)
上述模型可以對(β1+μβ2)的取值進行估計,但并沒有辦法確定β1、β2各自的估計值[7]。此時的回歸模型完全失去統(tǒng)計分析意義,模型多重共線性非常嚴重。計算多重線性與模型真實值之間的差異指標:
(5)
上式中:g(*)表示預(yù)測函數(shù);f(*)表示評估函數(shù);σ表示對β值的約束參量;η、η′是對W、W′的限制條件標準值;d表示差異指標。當d值為正時,說明多重線性對模型的影響較弱,消除多重共線性只需利用嶺回歸即可;當d值為負時,則說明多重共線性嚴重,需要調(diào)整嶺回歸的k值[8]。
圖中的rx1~rx9表示嶺跡分析曲線,根據(jù)曲線走勢可知,不同的k值會直接影響嶺跡曲線,因此需要計算2種情況下的嶺估計量k值。一種是普通嶺估計量值,
(6)
i=1,2,…,c.
(7)
上式中k2表示廣義嶺估計的k值。需要注意的是,無論是普通嶺估計結(jié)果還是廣義嶺估計結(jié)果,在獲取嶺回歸k值時,都要按照實際目標來選擇。根據(jù)全新的k值改進嶺回歸方程,改進后的公式為:
(8)
公式中:W′、W為已知的矩陣和轉(zhuǎn)置矩陣,y為上述公式所求的線性回歸方程;k表示公式(6)、(7)獲取的k值;s表示修正系數(shù);△T表示需要剔除的計算偏差[11]。綜合上述所求,獲得取值不同的嶺回歸k值,實現(xiàn)對嶺回歸方程的優(yōu)化改進。
根據(jù)改進后的嶺回歸進行分析,以解釋變量是否具有線性相關(guān)性為分析依據(jù),將解釋自變量劃分為2個部分,實施對回歸模型的區(qū)別分析。該分析需要篩除自變量,以此達到對多重共線性全面消除的目的。嶺回歸標準化處理數(shù)據(jù),比較標準化嶺回歸系數(shù),選取自變量,設(shè)置步長為a的嶺跡表,并繪制相應(yīng)的嶺跡圖,結(jié)合k值確定自變量系數(shù)大小、常數(shù)項的取值范圍。根據(jù)公式(8)選取嶺估計曲線趨于平穩(wěn)處的k值,已知經(jīng)公式(8)計算,獲得的步長為a的嶺參數(shù)k值如表1所示[12]。
表1 步長為a的嶺參數(shù)k值表
根據(jù)嶺跡分析法可知,在初始階段和分析末段,嶺跡大致處于穩(wěn)定,此時的k值更加符合計算要求。去掉嶺回歸系數(shù)集合中,相對來說較穩(wěn)定、且絕對值較小的自變量xi,以及隨著k值變化而快速接近于0的自變量x0,篩選后的自變量記為xj。檢驗剩余自變量的顯著性,表2為顯著性測試結(jié)果[13]。
表2 顯著性結(jié)果
由于剔除自變量會損失模型中的有價值信息,因此根據(jù)上表中的顯著性分析結(jié)果,對剔除后剩余自變量xj,進行分位數(shù)回歸分析,保證剩余變量的可靠程度。當自變量的系數(shù)均為正數(shù)時,說明這些系數(shù)與因變量呈正相關(guān)關(guān)系,意味著待分析指標q1、q2、…、qn對因變量指標起到了促進作用,即因變量指標隨著待分析指標qn的變大而增大。選取分位點r,對篩除自變量進行分位數(shù)回歸,令r=0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,其中當r=0.8時的分位數(shù)回歸參數(shù),如表3所示[14]。
表3 r=0.8時的分位數(shù)回歸
根據(jù)上表中參考數(shù)據(jù),計算各個分位點回歸方程的嶺回歸系數(shù),得到圖3所示的分位點系數(shù)值。
圖中的x2、x3、x6、x7為篩除后的自變量。根據(jù)上圖可知,在分位點0.1~0.7區(qū)間內(nèi),自變量的系數(shù)變化較為平穩(wěn);而0.7~0.8區(qū)間內(nèi),除了自變量x2的系數(shù)逐漸減小,其他系數(shù)均保持緩慢增長趨勢;而在0.8~0.9階段,自變量x2、x6的系數(shù)變化強度大,且方向相反,可知分析指標對因變量的影響是不同的[15]。在文獻[1]所提出應(yīng)用方法的基礎(chǔ)上,結(jié)合嶺回歸實現(xiàn)對多重共線性消除的研究目的。
為驗證嶺回歸的可靠性和適用程度,提出對比實驗,將嶺回歸應(yīng)用下的多重共線性消除方法,與文獻提出的傳統(tǒng)消除方法進行比較,分析不同應(yīng)用下的多重共線性消除效果。
鑒于數(shù)據(jù)的可靠性和真實性,調(diào)查國家某一機構(gòu)上一年度的銷售指標,將該指標作為參考對象,已知該指標包含12個月份,具體數(shù)據(jù)如表4所示。
表4 實驗測試指標
建立可靠度評估模型和數(shù)據(jù)預(yù)測模型,以此評估4種方法的多重共線性消除結(jié)果,可靠度模型為:
r(x)=1-σk(w,v)
(9)
式中:X表示消除結(jié)果;σk表示評估標準為k時的數(shù)據(jù)允許變化量;w表示支持度;v表示滿意度。同時預(yù)測模型為:
(10)
公式中:γ表示共線性結(jié)果;ε表示預(yù)測限制參量;n表示預(yù)測次數(shù);φi表示共線性的有效參數(shù)。利用上述模型對應(yīng)用效果進行檢測,分析并得出實驗結(jié)論。
將嶺回歸應(yīng)用下的多重線性消除測試結(jié)果作為實驗組,將文獻[1]所提出的傳統(tǒng)方法應(yīng)用下的測試結(jié)果作為對照組,圖4、圖5為此次實驗測試結(jié)果。
分析上述2組測試結(jié)果可知,嶺回歸篩除后的自變量集中分布在期望曲線2側(cè);而文獻[1]提出方法,剔除后的自變量仍然呈分散狀態(tài),不與期望曲線有相關(guān)性,可見所提出方法下,嶺回歸可以更好消除多重共線性,得到的回歸系數(shù)更貼合實際。
設(shè)定因變量y表示中國國民總收入,自變量x1、x2、x3、x4、x5分別表示就業(yè)人員數(shù)、財政收入、能源生產(chǎn)總量、國有單位工資總額和城鎮(zhèn)集體工資總額。根據(jù)《中國統(tǒng)計年鑒》得到2010—2014年的相關(guān)數(shù)據(jù)如表5:
表5 相關(guān)數(shù)據(jù)
在SAS軟件上,診斷出模型中存在非常嚴重的多重共線性問題,利用本文方法和文獻[2]所提出的部分線性變系數(shù)模型的約束嶺估計方法分別對多重共線性進行處理。
利用部分線性變系數(shù)模型的約束嶺估計方法所得到的回歸方程為:
y=-431189+6013224x1-0.18088x2
+0.44051x3+5.69125x4-13.63786x5
(11)
利用本文方法所得到的回歸方程為:
y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5
(12)
根據(jù)公式(11)可以看到方程中,自變量x2、x5的系數(shù)為負,與事實不符,是由多重共線性所導(dǎo)致,因此部分線性變系數(shù)模型的約束嶺估計方法求出的回歸方程不利于模型的解釋;而公式(12)可以看出,回歸系數(shù)的符號符合實際意義,說明利用本文方法可以有效解決多重共線性問題。
引入嶺回歸消除多重共線性,通過了解多重共線性的影響程度,獲取普通意義上和廣域意義上的k值,確保篩除后的自變量可以保留基本價值信息,保證回歸系數(shù)真實可靠。此次對嶺回歸的應(yīng)用分析較為復(fù)雜,計算較為困難,今后的研究可以簡化一些分析與計算過程。