国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

總體最小二乘回歸模型中回歸參數(shù)的一種新估計算法

2020-07-02 01:46:14曹邦興
大理大學(xué)學(xué)報 2020年6期
關(guān)鍵詞:平方和因變量回歸方程

曹邦興

(廣州大學(xué)松田學(xué)院,廣州 511370)

在測量數(shù)據(jù)處理中,由于采樣誤差、建模誤差等系數(shù)矩陣偏差普遍存在,此時普通最小二乘法(ordinary least squares,LS)得到的參數(shù)估計值不再是最優(yōu)無偏估計,總體最小二乘法(total least squares,TLS)得到的回歸方程更加合理可信〔1-3〕。對于總體最小二乘法回歸參數(shù)的估計,目前普遍采用的方法是奇異值分解和Euler-Lagrange 逼近,但這兩種算法的推導(dǎo)要涉及Eckart-Young-Mirsky 矩陣逼近理論等,復(fù)雜難懂,令許多學(xué)習(xí)者難以接受,也使其應(yīng)用受到了限制〔4-8〕。本文引入回歸參數(shù)的一種新迭代算法,闡述了其理論依據(jù)、推導(dǎo)過程、算法實現(xiàn)步驟,最后通過實際算例對得到的線性回歸方程進(jìn)行顯著性檢驗。

1 一元線性回歸分析

1.1 一元線性回歸最小二乘法概述自然科學(xué)與社會經(jīng)濟(jì)等現(xiàn)實問題中,兩個變量之間的相互關(guān)系可以大致分為兩類:一類是一個變量的變化能完全決定另一個變量的變化,如物理學(xué)中電壓U 與電流I 之間存在的確定性函數(shù)關(guān)系U=R ?I(R 表示電阻);另一類是非確定性關(guān)系,如農(nóng)作物產(chǎn)量與施肥量之間存在密切的相關(guān)關(guān)系,但這種相關(guān)關(guān)系并無確定性的函數(shù)值對應(yīng)關(guān)系?;貧w分析方法就是處理變量之間相關(guān)關(guān)系的一種有力工具。

設(shè)x 是一個可以精確觀測的普通變量(即不含觀測誤差),y 是與x 有相關(guān)關(guān)系的隨機變量(因變量),研究y 與x 之間相互關(guān)系的統(tǒng)計方法稱為一元線性回歸分析。

假設(shè)y與x之間存在近似于y=β0+β1x 這樣的線性關(guān)系,可以依據(jù)殘差平方和

根據(jù)微積分極值原理,令

整理后得正規(guī)方程組

解此正規(guī)方程組得β0、β1的最小二乘法估計為

1.2 總體最小二乘法估計當(dāng)需要同時考慮自變量的觀測誤差η 和因變量的觀測誤差ξ 時,平差模型(1)式也應(yīng)該改為〔1,3〕

式中等式右邊的第一項代表各組數(shù)據(jù)關(guān)于因變量的觀測誤差ξ 的平方和,第二項代表自變量的觀測誤差η的平方和。總體最小二乘法就是要尋求回歸參數(shù)β0、β1的值,使(5)式達(dá)到最小。

將(5)式分別對x?i求偏導(dǎo)數(shù)并由極值原理,令偏導(dǎo)數(shù)為零,整理得

這一部分用于改正自變量觀測誤差對回歸參數(shù)β0、β1的影響。

將(5)式分別對β0、β1求偏導(dǎo)數(shù)并由極值原理,得

得正規(guī)方程組

對比正規(guī)方程組(7)和正規(guī)方程組(2),其差別就是(7)式中用x?i替換了(2)式中的xi,用于修正自變量的觀測誤差。

基于上述推導(dǎo)過程,回歸參數(shù)β0、β1的迭代計算步驟可歸納如下:

第一步:由已知的n 組觀測數(shù)據(jù),用普通最小二乘法(3)式計算出初始值

第四步:重復(fù)第二步、第三步,直到前后兩次回歸參數(shù)之差的平方和小于事先設(shè)定的限值,或事先設(shè)定的循環(huán)次數(shù)已經(jīng)完成,則停止迭代計算,并由最后一次得到的值寫出回歸方程;

第五步:進(jìn)行顯著性檢驗。

2 多元總體最小二乘線性回歸分析

將前面的一元線性回歸推導(dǎo)過程進(jìn)行擴展,可得到多元線性回歸分析。

2.1 普通多元最小二乘法估計設(shè)隨機變量y與m個一般變量x1,x2,…,xm的線性回歸模型為y=β0+β1x1+β2x2+…+βmxm,樣本有n 組觀測數(shù)據(jù)(xi1,xi2,…,xim;yi)(i=1,2,…,n),則上述線性回歸模型可以表示為

為計算方便,引入3個矩陣X、Y、β分別為

(9)式可以表示成矩陣形式Y(jié)=X ?β。

n元線性回歸方程的平差模型為

將(10)式分別對β0,β1,β2,…,βm求偏導(dǎo)數(shù)并由極值原理,令偏導(dǎo)數(shù)為零,經(jīng)整理后,得到下面矩陣形式的n元正規(guī)方程組

解此方程組得回歸參數(shù)的估計值矩陣為

2.2 多元總體最小二乘法估計當(dāng)需要同時考慮自變量的觀測誤差η 和因變量的觀測誤差ξ 時,回歸方程應(yīng)表示為

矩陣X、Y、β 如前面所述,此處增加了兩個隨機誤差矩陣

分別表示自變量系數(shù)矩陣X 的觀測誤差和因變量Y的觀測誤差。

將(13)式改寫成

設(shè)矩陣A=[ X,Y ]表示增廣矩陣,B=[ η,ξ ]表示誤差矩陣,多元總體最小二乘法TLS 可以表示為約束最優(yōu)化問題

式中‖ · ‖表示Frobenius范數(shù)。

多元總體最小二乘法TLS 的平差模型也應(yīng)該改為〔9-10〕基于總體最小二乘法的參數(shù)估計,就是要尋求回歸參數(shù)β0、βj(j=1,2,…,m)的值,使(16)式能夠達(dá)到最小。

將(16)式分別對x?ij求偏導(dǎo)數(shù)并由極值原理,令偏導(dǎo)數(shù)為零,經(jīng)整理后,得到

再將(16)式分別對β0、βj(j=1,2,…,m)求偏導(dǎo)數(shù)并令導(dǎo)數(shù)等于零,整理得

這一部分代表了因變量誤差矩陣ξ 對參數(shù)矩陣β 的影響。設(shè)矩陣仿照“2.1”中的(11)式和(12)式,可解得回歸參數(shù)β矩陣為

最后,基于迭代法的總體最小二乘法回歸參數(shù)矩陣β的計算可歸納如下:

第四步:重復(fù)第二步、第三步,直到前后兩次回歸參數(shù)之差的平方和小于事先設(shè)定的限值,或事先設(shè)定的循環(huán)次數(shù)已經(jīng)完成,則停止迭代計算,并由最后一次得到的值寫出回歸方程;

第五步:進(jìn)行顯著性檢驗。

3 實例分析

為驗證本文算法的有效性和可靠性,用Matlab 2017b 軟件進(jìn)行了大量模擬測試,下面是其中的一個總體最小二乘法五元線性回歸算例。

3.1 測試數(shù)據(jù)觀測數(shù)據(jù)值見表1。表1 中的部分?jǐn)?shù)據(jù)引自文獻(xiàn)〔11〕。

作為對比,首先采用奇異值分解法(SVD 法)來進(jìn)行回歸參數(shù)估計,在Matlab 2017b 上最終算得右奇異向量矩陣的最后一列列向量為

回歸參數(shù)矩陣β為

即五元線性回歸方程為

表1 觀測數(shù)據(jù)值

3.2 顯著性檢驗對線性回歸方程顯著性檢驗的重要方法之一是進(jìn)行F 檢驗,其方法是根據(jù)平方和分解式,直接檢驗回歸方程對樣本數(shù)據(jù)的擬合程度。平方和分解式如下:

(1)總離差平方和SST

總離差平方和反映觀測值yi(i=1,2,…,n)的離散程度,也即反映因變量的總波動程度。

(2)回歸平方和SSR

(3)殘差平方和SSE

此外,如果因變量與自變量之間存在高度的線性相關(guān)關(guān)系,則回歸方程的擬合精度就越高,擬合優(yōu)度就越好,其判斷數(shù)據(jù)就是樣本決定系數(shù)R2。

從(20)式可以看出,總離差平方和SST 是由回歸平方和SSR、殘差平方和SSE 這兩部分組成,其中回歸平方和SSR反映由于自變量的變化而引起因變量的線性變化程度,殘差平方和SSE 是由隨機因素造成、不能由自變量解釋的波動,所以SSR 占SST 的比例越大,即樣本決定系數(shù)R2越接近于1,則表明線性回歸方程的擬合效果就越好〔12〕。

樣本決定系數(shù)R2的具體計算公式是

兩種算法的離差及樣本決定系數(shù)見表2。從表2可以看出:

(1)兩種算法的總離差平方和SST分別為746.581、735.166,比較接近。

(2)兩種算法的樣本決定系數(shù)R2分別為0.879、0.912,本文算法的樣本決定系數(shù)R2更接近于1,即得到的估計值與樣本觀測值更加接近,本文算法具有更好的擬合效果。

(3)兩種算法的樣本決定系數(shù)R2分別為0.879、0.912,其統(tǒng)計學(xué)含義是:因變量變化的87.9%、91.2%都可以用自變量的變化來解釋,表明這兩種算法的回歸模型都具有良好的解釋能力,但本文算法的解釋能力更強,具有相對優(yōu)勢。

表2 兩種算法的離差及樣本決定系數(shù)

對線性回歸方程的顯著性檢驗,除采用上述樣本決定系數(shù)外,還可以根據(jù)P 值做檢驗。P 值檢驗法的原則是當(dāng)P 值小于給定的顯著性水平α 時,拒絕原假設(shè)H0。P 值檢驗法具有可比性,不需要查表(只需用P值與顯著性水平α相比較)等優(yōu)點〔12〕。

為進(jìn)一步驗證本文算法的有效性,對上述兩個回歸方程采用P值檢驗法分別進(jìn)行了顯著性檢驗。

設(shè)顯著性水平α=0.05,兩個回歸方程得到的P值分別為0.033 6、0.027 4,其統(tǒng)計學(xué)含義是:接受“五個自變量x1,x2,…,x5整體對因變量y 產(chǎn)生顯著線性影響”的判斷,犯錯誤的概率為0.033 6、0.027 4。

這兩個P 值都低于顯著性水平α,故兩個回歸方程都為顯著,但本文算法得到的回歸方程犯錯誤的概率更低。

4 結(jié)束語

基于一元及多元線性回歸的平差模型,引入總體最小二乘法回歸參數(shù)的一種新迭代算法。該算法理論依據(jù)充分,迭代格式簡潔,容易編程實現(xiàn),并且同時考慮到自變量系數(shù)矩陣的觀測誤差和因變量的觀測誤差,得到的回歸方程更加合理可信。通過算例實測分析,該迭代算法得出的回歸模型具有良好的擬合效果,可以實際應(yīng)用于數(shù)據(jù)測量、金融、統(tǒng)計分析等方面的回歸分析建模。

猜你喜歡
平方和因變量回歸方程
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運用
中國藥房(2022年7期)2022-04-14 00:34:30
采用直線回歸方程預(yù)測桑癭蚊防治適期
線性回歸方程的求解與應(yīng)用
線性回歸方程要點導(dǎo)學(xué)
走進(jìn)回歸分析,讓回歸方程不再是你高考的絆腳石
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
費馬—歐拉兩平方和定理
利用平方和方法證明不等式賽題
偏最小二乘回歸方法
勾股定理的擴展
云南省| 巴彦淖尔市| 桦甸市| 社旗县| 鄂托克前旗| 沽源县| 黄大仙区| 永胜县| 肥乡县| 阜阳市| 文山县| 普安县| 鄂伦春自治旗| 左权县| 渝中区| 瑞昌市| 武定县| 金塔县| 合江县| 远安县| 枣庄市| 肥西县| 嵊州市| 安徽省| 富锦市| 辽中县| 同心县| 甘洛县| 含山县| 玉屏| 博乐市| 绥江县| 阿荣旗| 天峻县| 浦北县| 涞源县| 松滋市| 拉孜县| 丰原市| 若羌县| 桃园市|