国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

簡單線性回歸理論及應(yīng)用研究

2018-01-18 10:05易志杰
課程教育研究 2018年40期
關(guān)鍵詞:R語言最小二乘法

易志杰

【摘要】簡單線性回歸是研究兩個可測變量之間線性關(guān)系的方法,可被用于預測和控制,是統(tǒng)計學中最基本也是最重要的方法之一,被廣泛應(yīng)用于各個研究領(lǐng)域。本文系統(tǒng)的研究并總結(jié)了簡單線性回歸的步驟,包括用最小二乘法進行參數(shù)估計,以及F檢驗和測定系數(shù)R2兩種優(yōu)度檢驗,并研究了如何用統(tǒng)計軟件R語言實現(xiàn)簡單線性回歸。

【關(guān)鍵詞】簡單線性回歸 ?最小二乘法 ?F檢驗 ?R2 ?R語言

【中圖分類號】G42 【文獻標識碼】A 【文章編號】2095-3089(2018)40-0217-02

回歸分析是研究變量與變量之間關(guān)系的方法,起源于19世紀50年代,由生物學家、統(tǒng)計學家高爾頓在研究父母和孩子身高關(guān)系時最早提出[1]?;貧w分析對科學研究方面幫助極大,很多關(guān)系式都是先進行試驗得出數(shù)據(jù),再通過回歸分析得出的。回歸分析的作用是可以進行預測與控制,可以利用擬合得出的關(guān)系式,對變量進行預測,對想要的因變量值進行反解得出需要控制的自變量的值?;貧w分析有多種具體方法,分別為線性回歸,對數(shù)回歸,多元回歸等。本文重點以線性回歸為研究對象進行研究。

1.線性回歸模型步驟

1.1模型的建立

我們根據(jù)實際試驗并測量,得到n對觀測案例數(shù)據(jù)(xi,yi)。假設(shè)x與y是變量,x是自變量,y是因變量,他們之間有某種函數(shù)關(guān)系f,即y=f(x)。通過對f進行形式上的假設(shè),然后用類似于解方程的方法去求得f中參數(shù)的值,從而得出f的具體表達式。

簡單線性回歸是最基本的回歸方式,它假設(shè)f是一元線性方程,即y=ax+b,圖形上畫出來是一條直線。簡單線性回歸可以說是回歸分析的基礎(chǔ),因為大量其他函數(shù)表達式的形式都是線性函數(shù)的變種,例如y=ax2+b與y=lnx可看作為簡單線性回歸的變種或疊加,即y=a*g(x)+b。

殘差,也可稱作統(tǒng)計誤差,即因為人為因素或工具精度問題導致的測得的實際數(shù)據(jù)與通過模型推導出的擬合值之間產(chǎn)生的誤差。殘差用e表示,第i組的殘差用ei表示。簡單線性回歸通常假設(shè)ei服從正態(tài)分布,且均值為0(即殘差的固定成分是可以忽略不計的)。

由此簡單線性回歸模型可描述為[2]:

yi=β0+β1xi+ei ? ?i=1,2,……n

其中E(ei)=0,cov(ei, ej)=0

1.2參數(shù)的估計——最小二乘法

要推導該函數(shù)關(guān)系中的β0與β1,通常使用最小二乘法。最小二乘法,即以使得殘差的平方和(設(shè)為RSS)最小為準則求得參數(shù)β0、β1的方法。

即:求出使得RSS=■[yi-(β0+β1xi)]2最小時的β0、β1[3]。

求解的方法是讓RSS分別對β0、β1求導并讓導數(shù)為0[2],即

■=■=-2■[yi-(β0+β1xi)]=0

■=■=-2■[yi-(β0+β1xi)]xi=0

整理上述兩式,得出:

β0n+β1■xi=■yi

β0■xi+β1■xi2=■xiyi

為方便表示,記x=■, y=■, SXX=■(xi-x)2,SXY=■(xi-x)(yi-y),

則可解出:

■1=■,■0=y-■1x

最小二乘法的優(yōu)點:僅依賴數(shù)據(jù),計算方便。

最小二乘法的缺點:

(1)任何兩個相同的數(shù)據(jù)集都會有相同的回歸擬合。

(2)y其實跟x并沒有關(guān)系,也可以通過最小二乘法得出一個線性關(guān)系式,但實際上此關(guān)系式并非真實,因此需要判定擬合效果是否真實。

1.3擬合效果檢驗

由前述最小二乘估計的缺點可知,需要對得出的簡單線性回歸公式進行檢驗。檢驗方法通常有兩種。

1.3.1 F檢驗

F檢驗是用來檢驗x是否跟y存在線性關(guān)系的方法,它檢驗的是β1是否顯著的不為0。如果顯著不為0,則說明確實存在線性關(guān)系,若并不顯著的不為0,即x對y的影響并不顯著,那么線性關(guān)系就不顯著,模型的擬合效果就不好。

若β1=0,則模型為:yi=β0+ej

此時,同樣可以用最小二乘法算出,最佳的估計■0=y,此時,模型的殘差平方和RSS=■(yi-y)2 =SYY (1)

而若β1不等于0,可以將■1=■,■0=y-■1x

帶入

RSS=■[yi-(β0+β1xi)]2

得出RSS=SYY-■ (2)

可知(1)-(2)=SYY-(SYY-■)= ■

代表原簡單模型加入變量x之后殘差平方和減少的量,把它記為SSreg,稱為回歸平方和,SSreg越大則說明加入x對模型的改進越大,則說明x跟y之間的線性關(guān)系越強[2]。

統(tǒng)計上構(gòu)造變量F=SSreg/RSS來進行上述問題的判斷,可以證明SYY=SSreg+RSS 所以,F(xiàn)=■,因此F跟SSreg是正相關(guān)關(guān)系。SSreg大則F大,F(xiàn)大則SSreg大,x跟y就具有更顯著相關(guān)關(guān)系。而在ei服從均值為0且相互獨立的前提假設(shè)下,統(tǒng)計上容易證明,如果β1=0,那么F將服從f分布:F~F(1,n-2),其中n為樣本點個數(shù)[4],可以通過查表查到F將在99%概率下不會超過多少,記為F(0.01;1,n),若通過觀測值帶入得出的F比該值還要大,則說明“幾乎不可能的事情”(1%概率)發(fā)生了,也就是說β1=0這個假設(shè)是錯的,由此簡單線性模型擬合程度較高。

通過F檢驗驗證回歸模型是否合理,就是通過對比實際算出的F值和查表得出的F(0.01;1,n)值,若F> F(0.01;1,n),那我們說在p值為0.01的情況下模型顯著,反之則不顯著。

P值是在β1=0為真的情況下,F(xiàn)值比觀察值更大的條件概率。一般以0.1、0.01、0.05作為評判標準,若p值小于這些值,則說明相應(yīng)的系數(shù)顯著不為0。

1.3.2 測定系數(shù):R2

測定系數(shù)R2定義為R2=■

通過公式可以推算出SYY=SSreg+RSS,統(tǒng)計上一般用一個變量的方差來代表這個變量本身所承載的信息量,上式中SYY就是Y的方差,由關(guān)系式可知它由RSS和SSreg兩部分組成,如前所述SSreg代表加入x的線性項之后模型殘差的減少量,可以理解為Y的信息中可由x的線性關(guān)系解釋的部分,而RSS則是除去這部分之后的非線性以及統(tǒng)計誤差的部分。

因此,測定系數(shù)R2越大,則說明回歸所承載的y的信息量就越大,也越能表示回歸模型的真實性。

2.簡單線性回歸的R語言應(yīng)用

R語言是一種有強大統(tǒng)計計算和繪圖功能的數(shù)據(jù)分析軟件,由一個強大的專門的研究型社區(qū)維護,R語言中有很多開源的數(shù)據(jù)包可供直接調(diào)用。R語言中通常用lm()函數(shù)回歸進行線性回歸[5],用法為:lm(formula,data),其中formula要擬合的模型,用“~”連接,對于簡單線性回歸來說,假設(shè)x、y分別為自變量、因變量,則formula為y~x,data為用于擬合的數(shù)據(jù)。

輸出結(jié)果示例如下:

在Estimate下的兩個值即分別β0與β1,而后面的“?鄢”則表示與之對應(yīng)的回歸系數(shù)顯著不為0的p值所代表的顯著性,“?鄢”越多則越顯著,得出的系數(shù)就越有效。Multiple R-squared即測定系數(shù)R2,F(xiàn)-statistic即F檢驗,后面的p-value即對應(yīng)的p值,可將之與0.01或0.05等進行比較,若更小,則說明擬合較優(yōu)。示例圖中表示,F(xiàn)檢驗下,擬合程度很好,但R2并不高,應(yīng)對模型進行適當改進再進行擬合。

參考文獻:

[1]于忠義.高爾頓發(fā)現(xiàn)相關(guān)與回歸的歷史回顧與反思[J].統(tǒng)計與信息論壇,2009,24:17-25

[2]邵鴻翔.線性回歸方法在數(shù)據(jù)挖掘中的應(yīng)用和改進[J].統(tǒng)計與決策,2012,14:76-80

[3]田生昌.最小二乘法的統(tǒng)計學原理及在農(nóng)業(yè)試驗分析中的應(yīng)用[J].數(shù)學的實踐與認識,2015,45:124-133

[4]S.Weisberg.應(yīng)用線性回歸[M].北京:中國統(tǒng)計出版社,1998:15-20

[5]Robert I.Kabacoff.R語言實戰(zhàn)[M].北京:人民郵電出版社,2013:161-163

猜你喜歡
R語言最小二乘法
基于GPS軌跡數(shù)據(jù)進行分析改善城市交通擁擠
基于R語言的Moodle平臺數(shù)據(jù)挖掘技術(shù)的研究
手動求解線性回歸方程的方法和技巧
注重統(tǒng)計思維培養(yǎng)與應(yīng)用為主導的生物統(tǒng)計學課程建設(shè)