楊雄 曾智
(婁底職業(yè)技術(shù)學(xué)院,湖南 婁底 417000)
回歸分析是在研究現(xiàn)象之間相關(guān)分析的基礎(chǔ)上,對(duì)自變量x和因變量y的變動(dòng)趨勢(shì)擬合數(shù)學(xué)模型進(jìn)行數(shù)量推算的一種統(tǒng)計(jì)分析方法[1]。在客觀世界中,尋找變量之間的關(guān)系,大致可以分為兩種類型:一是反映變量之間的確定性的關(guān)系,稱為函數(shù)關(guān)系;二是變量之間存在著關(guān)系,但不是確切的函數(shù)關(guān)系,可是變量之間又存在某種密切關(guān)系,然而又不能由一個(gè)(或一組)變量的值精確地求出另一個(gè)變量的值,稱這種非確定性關(guān)系為相關(guān)關(guān)系。在相關(guān)關(guān)系中,假設(shè)x,y是兩個(gè)變量,其中x是自變量,y是因變量,而自變量x的取值是非隨機(jī)的普通變量,它是人為的可控制的變量,稱為可控量,因變量y由于隨機(jī)誤差等因素的影響,取值是隨機(jī)的,稱為隨機(jī)變量,但服從一定的概率分布。進(jìn)而當(dāng)自變量x是非隨機(jī)的可控變量時(shí),自變量x與因變量y關(guān)系的分析稱為回歸分析。
回歸分析法屬于因素分析法的一種,在掌握大量觀察數(shù)據(jù)或歷史數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量y與自變量x之間的回歸關(guān)系函數(shù)表達(dá)式。在有些專業(yè)中,開設(shè)了經(jīng)濟(jì)數(shù)學(xué)課,包含一元回歸分析內(nèi)容,其中會(huì)計(jì)專業(yè)課會(huì)講到成本預(yù)測,成本預(yù)測需要建立回歸方程,但在成本預(yù)測的計(jì)算中面對(duì)復(fù)雜的數(shù)據(jù),同時(shí)涉及要素也繁多,此項(xiàng)工作任務(wù)繁重,因此需要借助相應(yīng)工具來簡化計(jì)算提高工作效率。而運(yùn)用Excel軟件能夠把煩瑣、主觀的核算與分析內(nèi)容簡單化、客觀化、圖表化,這無疑是一種較好的方法。而且使工作更加便利、快捷,并能有效減少錯(cuò)誤發(fā)生的概率。因此以成本預(yù)測為案例,對(duì)回歸分析內(nèi)容及應(yīng)用Excel進(jìn)行回歸分析的實(shí)際操作進(jìn)行研究。
回歸分析是利用歷史數(shù)據(jù)或觀察數(shù)據(jù)對(duì)模型中的函數(shù)值f(x)進(jìn)行估算,探討隨機(jī)誤差項(xiàng)的分布特征,進(jìn)而應(yīng)用模型進(jìn)行預(yù)算,一般建立一個(gè)回歸分析方程包括以下幾個(gè)過程:通過樣本數(shù)據(jù),判定因變量x與自變量y的關(guān)系,確定回歸模型的f(x)的函數(shù)形式;利用樣本數(shù)據(jù)擬合回歸模型的f(x)中的未知參數(shù);確定估計(jì)量與隨機(jī)誤差的分布特征;進(jìn)行擬合優(yōu)度檢驗(yàn),驗(yàn)證是用歷史數(shù)據(jù)或觀察數(shù)據(jù)x值對(duì)預(yù)測y值的擬合程度;利用回歸模型進(jìn)行未來預(yù)測或控制。預(yù)測是通過回歸方程,對(duì)已知的值進(jìn)行相應(yīng)值計(jì)算,而在回歸方程中參數(shù)的計(jì)算、分析及預(yù)測值的計(jì)算運(yùn)用傳統(tǒng)的數(shù)學(xué)方法實(shí)踐起來困難,可運(yùn)用Excel進(jìn)行替代,這正是運(yùn)用Excel進(jìn)行回歸分析的意義所在。
定義1設(shè)x是可控變量,Y是依賴于x的隨機(jī)變量,假定
其中未知參數(shù)a,b及σ2都不依賴于x,則(1)式稱為一元線性回歸模型[2]。
定義2當(dāng)給定x一組不完全相同的值x1,x2,…,xn時(shí),對(duì)Y分別在x1,x2,…,xn處進(jìn)行獨(dú)立觀測,其觀察結(jié)果記為Y1,Y2,…,Yn,則Y1,Y2,…,Yn是相互獨(dú)立的隨機(jī)變量,則稱(x1,Y1),(x2,Y2),…,(xn,Yn)是模型(1)的一個(gè)樣本,相應(yīng)的樣本值記為(x1,y1),(x2,y2),…,(xn,yn)。
此時(shí),由模型(1)式有
則(2)式稱為一元線性回歸模型(1)式的樣本形式,也稱為一元線性回歸模型。由(xi,yi)(i=1,2,…,n)可求得(1)式中的未知參數(shù)a,b的估計(jì)值,再代入(1)式中,進(jìn)而可得回歸方程。
在一元線性回歸分析中,y的值是隨著x的值變化而變化,事實(shí)上一個(gè)實(shí)際的x值會(huì)對(duì)應(yīng)一個(gè)實(shí)際y值(稱y實(shí)際),若x與y存在直線關(guān)系,想求出此條直線方程,每一個(gè)實(shí)際x值有一個(gè)直線預(yù)測值(稱預(yù)測)與之對(duì)應(yīng),進(jìn)而進(jìn)行線性回歸分析的目的就是要求y實(shí)際與預(yù)測之差的平方和最小,即下式的和最小。
Q分別對(duì)a,b求偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)等于0,解方程組可得:,把a(bǔ),b值代入直線方程,即得回歸方程[3]。
在回歸分析模型建立之前,先探討一個(gè)成本預(yù)測模型,若已知某企業(yè)2010年—2019年的產(chǎn)量與實(shí)際成本數(shù)據(jù)如圖1(產(chǎn)量單位萬件,成本單位萬元),根據(jù)成本與產(chǎn)量的數(shù)據(jù),是否可以發(fā)現(xiàn)什么內(nèi)在的規(guī)律,假設(shè)存在規(guī)律,是否可以根據(jù)規(guī)律及假設(shè)2021年的產(chǎn)量估算成本。不防假設(shè)預(yù)測模型如下(也有可能是其他函數(shù)模型,這是只分析簡單的一次函數(shù)模型):Yt=a+bxt+ε。
圖1 某企業(yè)2010年-2019年的產(chǎn)量與成本圖
其中:Yt是總成本,a固定成本,b是單位業(yè)務(wù)量所需的變動(dòng)成本,ε為殘差,xt是產(chǎn)量。若能利用2010年?2019年的數(shù)據(jù)確定預(yù)測模型中的a、b數(shù)值,則就可以預(yù)測一定產(chǎn)量x所需發(fā)生的總成本Y。接下來的問題就是如何求出a、b數(shù)值,若求出a、b的值,且假設(shè)2021年生產(chǎn)產(chǎn)品3 000萬件時(shí),就可以預(yù)測其成本。
以上提出的問題,并不一定保證產(chǎn)量與實(shí)際成本是線性關(guān)系,即兩個(gè)變量之間是否存在一元直線回歸方程的形式,首先應(yīng)判斷怎樣的兩個(gè)變量之間才有可能存在一元直線回歸關(guān)系,只有存在線性關(guān)系的兩個(gè)變量,求出的一元線性回歸方程,在實(shí)際應(yīng)用中才有意義。進(jìn)而要對(duì)變量之間的線性相關(guān)的緊密程度進(jìn)行判斷,其中相關(guān)系數(shù)R或R2就是判斷兩個(gè)變量之間線性相關(guān)的密切程度的[4]。并且R和R2分別由定義3和定義4給出。
R的取值范圍是[?1,1],R的絕對(duì)值越接近于1,x與y兩個(gè)變量之間的線性相關(guān)性越強(qiáng),R的絕對(duì)值越接近于0,x與y兩個(gè)變間之間的線性相關(guān)性越弱。相關(guān)系數(shù)R在Excel中有三種計(jì)算方法:Correl函數(shù);Pearson函數(shù);使用數(shù)據(jù)分析工具,即點(diǎn)擊數(shù)據(jù)選項(xiàng)卡下數(shù)據(jù)分析功能,在彈出的對(duì)話框中的相應(yīng)輸入?yún)^(qū)域選擇數(shù)據(jù)范圍,選擇輸出區(qū)域?yàn)槠谕胖媒Y(jié)果的位置,回車后輸出結(jié)果。具體判斷變量之間的性線關(guān)系程度見表1。
表1 相關(guān)程度
若SSE=0,則R2=1,即y的變化完全由x的變化引起,沒有其他的因素影響y,因此可由x完全解釋y的變化,也就是變成了一次函數(shù)關(guān)系。若R2靠近0,則x與y之間可能不存在線性關(guān)系。
在Excel工作表中輸入數(shù)據(jù)圖1,并作出散點(diǎn)圖圖2,從散點(diǎn)圖2上可以看出產(chǎn)量與實(shí)際成本呈現(xiàn)出直線趨勢(shì)。這只是定性的判斷了產(chǎn)量與成本具有線性關(guān)系,還需要進(jìn)行定量的計(jì)算。Ex?cel軟件中需有“數(shù)據(jù)分析”工具,若沒有,需要先安裝。安裝方法:在“Excel選項(xiàng)”中選中左側(cè)欄的“加載項(xiàng)”,再單擊右側(cè)欄最下面的“轉(zhuǎn)到”按鈕,在彈出的“加載宏”窗口中選中“分析工具庫”選項(xiàng),單擊“確定”按鈕,按系統(tǒng)提示自動(dòng)安裝,安裝完成后,重啟Excel系統(tǒng),再打開,則在“數(shù)據(jù)”菜單下出現(xiàn)“數(shù)據(jù)分析”工具[6]。然后進(jìn)行后面二步操作,點(diǎn)擊數(shù)據(jù)工具中相關(guān)系數(shù),選擇數(shù)據(jù)以及輸出區(qū)域,點(diǎn)擊確定,即可出現(xiàn)圖3的結(jié)果。從圖3可知相關(guān)系數(shù)R=0.976054,說明產(chǎn)量與實(shí)際成本具有高度線性相關(guān)性。既然產(chǎn)量與成本具有高度的線性關(guān)系,則可以用Excel求解一元線性回歸方程。
圖2 原始數(shù)據(jù)散點(diǎn)圖
圖3 相關(guān)系數(shù)計(jì)算結(jié)果
用函數(shù)Slope(y值數(shù)列,x值數(shù)列),返回線性回歸直線的斜率a,用函數(shù)Intercept(y值數(shù)列,x值數(shù)列),返回截距b,或用函數(shù)Linest(y值數(shù)列,x值數(shù)列,邏輯值(常數(shù)),邏輯值(統(tǒng)計(jì))),可以直接求出回歸方程的參數(shù)。這里例舉Linest函數(shù)的應(yīng)用,如圖4選定E1:F5,在Excel地址欄中輸入=Linest(C2:C11,B2:B11,true,true),然后同時(shí)按下組合鍵ctrl+shift+enter,進(jìn)而得到圖4的結(jié)果,可以讀出a=139.493,b=0.0264,即回歸方程為
y=139.493+0.0264x
圖4 Linest函數(shù)操作圖
根據(jù)圖1的數(shù)據(jù),在Excel中,應(yīng)用數(shù)據(jù)分析工具中的回歸分析,可以求出相關(guān)系數(shù)和回歸直線方程。在數(shù)據(jù)分析工具中打開回歸對(duì)話框,如圖5,在Y值輸入?yún)^(qū)域輸入$C$2:$C$11(可以直接選取區(qū)域),在X值輸入?yún)^(qū)域輸入$B$2:$B$11(可以直接選取區(qū)域),并指定輸出區(qū)域,勾選殘差、線性擬合圖,然后確定,進(jìn)而得到表2、3、5、6及圖6、7分析結(jié)果。從表2中可以看出相關(guān)系數(shù)R2=0.952682,調(diào)整后值為0.946767,兩者數(shù)據(jù)都接近于1,則可知產(chǎn)量和成本具有高度線性關(guān)系。也可以讀取F的檢驗(yàn)值為161.07,而F0.05(1,10?2)=5.32<161.07,則可知產(chǎn)量x與成本y的線性回歸方程顯著。同時(shí)可讀取a=139.493,b=0.0264,進(jìn)而可得回歸方程為y=139.493+0.0264x。
圖5 建立回歸模型
以下對(duì)在Excel中數(shù)據(jù)分析結(jié)果的參數(shù)及圖進(jìn)行詳細(xì)解讀。
從表2可以讀出相關(guān)系數(shù)、測定系數(shù)、校正測定系數(shù)、標(biāo)準(zhǔn)誤差和樣本數(shù)目。相關(guān)系數(shù)是Multiple對(duì)應(yīng)的值,即R=0.976054399;測定系數(shù)(或稱擬合優(yōu)度)是R Square對(duì)應(yīng)值,即R2=0.9760543992=0.952682189;校正測定系數(shù)是Adjusted對(duì)應(yīng)值,即Ra=0.946767463,標(biāo)準(zhǔn)誤差(standard error)的值是S=1.816038761;樣本數(shù)目是觀測值,即n=10。當(dāng)然其中有些值可直接由公式計(jì)算。
表2 回歸統(tǒng)計(jì)表
1)校正測定系數(shù)可以用公式(3)計(jì)算。
其中n是樣本數(shù),m是變量數(shù),R2是測定系數(shù),對(duì)于本回歸模型,n=10,m=1,R2=0.952682189,將這些值代入(3)式即可得校正測定系數(shù)Ra值。
2)標(biāo)準(zhǔn)誤差可以用公式(4)式計(jì)算。
其中SSE是殘差平方和,從表3(方差分析表)中讀出SSE=26.38397并與n=10,m=1,代入(4)式可得S值。
表3 方差分析表(ANOVA)
表3可以讀出自由度、誤差平方和、均方差、F值、P值等。自由度(degree of freedom)是df對(duì)應(yīng)的值,其中第一個(gè)數(shù)是變量數(shù)目,即dfr=m=1,第二個(gè)數(shù)是殘差自由度dfe=n?m?1=8,第三個(gè)數(shù)是總自由度dft=n?1=9;誤差平方和(或稱變差)是SS對(duì)應(yīng)的值,其中第一個(gè)數(shù)是回歸平方(或稱回歸變差)SSR=531.2068,第二個(gè)數(shù)值殘差平方和(或稱剩余變差)SSE=26.38397,第三個(gè)數(shù)值是總偏差平方和(或稱總變差)SST=557.5908;均方差是MS對(duì)應(yīng)的值,第一個(gè)數(shù)是回歸均方差MS=531.2068,第二個(gè)數(shù)是剩余均方差MSE=3.297997;F=161.0695;P=1.39748*10?6。其中有些值可以直接由公式計(jì)算。
1)回歸平方和,它表征是因變量的預(yù)測對(duì)其平均值的總偏差。
2)殘差平方和,它表征的是因變量對(duì)其預(yù)測值的總偏差,數(shù)值越大,擬合的效果越差,y的標(biāo)準(zhǔn)誤差即由SSE值求出。
3)總偏差平方和,它表示的是因變量對(duì)其平均值的總偏差。
4)測定系數(shù),它表示的是回歸平方和占總偏差平方和的比重,數(shù)值越大,擬合效果越好。
5)均方差,它是誤差平方和除以相應(yīng)的自由度得到的商,有回歸均方差MSR和剩余均方差MSE,MSE的值越小,擬合效果越好。
6)F值,它是用于線性關(guān)系的判定,一元線性回歸中F的計(jì)算公式(5),將R2=0.952682,dfe=10?1?1=8,代入(5)式中,即可得F=161.0695。
7)P值,Significance F對(duì)應(yīng)的值是在顯著性水平下的Fα臨界值,也就是P值,也為棄真概率,所建模型為假的概率,則1?P是所建模型為真的概率,當(dāng)然P值越小越好,本模型中P=0.00000139748<0.0001,故置信度達(dá)到99.99%以上。
表4中可以讀出回歸模型的截距、斜率及其有關(guān)的檢驗(yàn)參數(shù)。回歸系數(shù)是Coefficients對(duì)應(yīng)的值,即截距a=139.493398和斜率b=0.026378669,因此建立的模型是=139.4934+0.0264xi或=139.4934+0.0264xi+εi;標(biāo)準(zhǔn)誤差,a=3.573629,=0.002078,其值越小,參數(shù)的精確度越高;統(tǒng)計(jì)量t值是t Stat對(duì)應(yīng)的值,用于對(duì)模型參數(shù)的檢驗(yàn),需要查表才能決定;參數(shù)p值(雙側(cè))是p value對(duì)應(yīng)的值,對(duì)P值的分析如表5,對(duì)于本模型P=0.0000014<0.0001,即可以認(rèn)為在α=0.0001的水平上顯著,或者置信度達(dá)到99.99%。P值檢驗(yàn)與t值檢驗(yàn)是等價(jià)的,但p值不用查表,顯然要方便得多。
表4 回歸參數(shù)表
表5 P值分析表
表4中最后幾列給出的回歸系數(shù)以95%為置信區(qū)間的上限和下限??梢宰x出,在α=0.05的顯著水平上,a的取值范圍是131.2526<a<147.7342,b的取值范圍是0.02159<b<0.03117。
其中有些量可以直接用公式計(jì)算。
1)t值在一元線性回歸分析中,F(xiàn)值、t值、相關(guān)系數(shù)R是等價(jià),在相關(guān)系數(shù)檢驗(yàn)中已有這部分信息,但是在多元線性回歸分析中,t檢驗(yàn)是不可能缺省的。其中回歸系數(shù)與其標(biāo)準(zhǔn)誤差的比值就是t值。
一元線性回歸分析中的t值可以用相關(guān)系數(shù)值或測定系數(shù)值進(jìn)行計(jì)算,如公式(6),本模型中,將R=0.976054,n=10,m=1代入(6)式可得t=12.691317
表6是選擇輸出內(nèi)容,若選擇殘差項(xiàng)則有表6內(nèi)容,輸出結(jié)果包括,第一列觀測值序號(hào)(用i表示),第二列因變量的預(yù)測值(用表示),第三列殘差(用ei表示)以及第四列標(biāo)準(zhǔn)殘差值。
表6 殘差輸出結(jié)果
1)預(yù)測值可由回歸模型=139.4934+0.0264xi求解,式中xi是圖1中的數(shù)據(jù),從圖1可知x1=1200,代入模型中可得=139.4934+0.0264xi=139.4934+0.0264*1200=171.1478。
其他預(yù)測值都可以用同樣方法求解。
2)殘差ei的計(jì)算公式為ei=yi?。
從圖1可知y1=1700,代入上式可得e1=y1?1=1700 ? 171.1478= ?1.1478。
其他殘值可以用同樣方法求解。
3)標(biāo)準(zhǔn)殘差是由殘差的數(shù)據(jù)標(biāo)準(zhǔn)化后的數(shù)值,應(yīng)用均值命令average及標(biāo)準(zhǔn)差命令stdev容易計(jì)算出結(jié)果,殘差的算術(shù)平均值為0,標(biāo)準(zhǔn)差為1.71218,利用標(biāo)準(zhǔn)化命令standardize(殘差,均值,標(biāo)準(zhǔn)差)立即算出表6中的結(jié)果。當(dāng)然,也可以利用數(shù)據(jù)標(biāo)準(zhǔn)化公式進(jìn)行逐一計(jì)算。將殘差平方再求和,便可得殘差平方和(也稱剩余平方和),則有
應(yīng)用Excel中的命令sumsq(求平方和函數(shù))容易求出以上結(jié)果。
圖6與圖7是以產(chǎn)量xi為自變量,以殘差ei為因變量,作散點(diǎn)圖,可得殘差圖(圖6)。殘差點(diǎn)列的分布越?jīng)]有趨勢(shì)(沒有規(guī)則,即越是隨機(jī)),得到的回歸結(jié)果就越是可靠。以產(chǎn)量xi為自變量,用實(shí)際成本yi及其預(yù)測值為因變量,作散點(diǎn)圖,可得線性擬合圖(圖7),實(shí)際成本與預(yù)測成本越重疊在一起,說明回歸方程越可靠。
圖6 殘差圖
圖7 線性擬合圖
前面通過多種參數(shù)分析說明預(yù)測模型中的產(chǎn)量與成本構(gòu)成線性關(guān)系,應(yīng)用Excel中的函數(shù)計(jì)算或數(shù)據(jù)分析工具都得到回歸方程為y=139.493+0.0264x,并應(yīng)用數(shù)據(jù)分析工具可以得到殘差數(shù)據(jù)表,說明預(yù)測值與真實(shí)值有一點(diǎn)差距,但殘差值滿足回歸檢驗(yàn)范圍,滿足預(yù)測的要求,所以可以應(yīng)用前面計(jì)算得到的回歸方程進(jìn)行預(yù)測計(jì)算。從回歸方程y=139.493+0.0264x可知該產(chǎn)品的固定成本為139.493萬元,單位變動(dòng)成本為0.026 4萬元,因此假設(shè)2021年生產(chǎn)3 000萬件,則該產(chǎn)品的總成本為139.493+0.0264*3000=218.693萬元。
多元線性回歸分析是研究因變量和多個(gè)自變量的線性關(guān)系,這種線性關(guān)系可用數(shù)學(xué)模型來表示,設(shè)因變量為yc,因變量yc與自變量x1,x2,x3,…xn之間存在線性關(guān)系,可用多元線性回歸方程來表示這種關(guān)系。設(shè)多元線性回歸方程為:yc=a+b1x1+b2x2+b3x3+…+bnxn+ε。
式中a、b1、b2、b3、…、bn為線性回歸方程和參數(shù),ε為殘差。具體的案例及參數(shù)與以上的一元回歸分析一樣可在Excel中進(jìn)行。
案例1某地區(qū)2014年到2020年一種太陽能熱水器銷售額,廣告費(fèi)和利潤資料見表7。
表7 某地太陽能熱水器銷售資料(單位:百萬元)
分析:
1)A1:D8區(qū)域內(nèi)輸入表7數(shù)據(jù),即在單元格B2:B8中輸入x1值(銷售額),在單元格C2:C8中輸入x2值(廣告費(fèi)),在D2:D8中輸入y值(利潤額),其中要求區(qū)域由列數(shù)據(jù)組成。
2)填寫如圖5“回歸”對(duì)話框,其中$D$2:$D$8輸入到“Y值輸入?yún)^(qū)域”,$B$2:$C$8輸入到“X值輸入?yún)^(qū)域”。同一元回歸分析一樣,可得到一系列分析數(shù)據(jù)及回歸分析正態(tài)分布圖,這不給出分析圖及表,只給出結(jié)果,a=?5.6259,b1=0.1275,b2=3.5407。
3)建立回歸模型y=a+b1x1+b2x2+ε,將通過Excel回歸分析得到數(shù)據(jù)代入即可得到回歸方程:y=?5.6259+0.1275x1+3.5407x2+ε,進(jìn)而可用該模型對(duì)未來的利潤進(jìn)行預(yù)算。這里只例舉了兩個(gè)自變量的回歸模型在Excel中進(jìn)行計(jì)算,實(shí)質(zhì)三個(gè)以上的自變量都可以用同樣的操作方法解決。
在Excel中,進(jìn)行多元回歸分析的操作過程類似于一元線性回歸分析,并且分析所得結(jié)果相似,變量數(shù)m≠1,t值和F值等統(tǒng)計(jì)量不等價(jià)于R值,進(jìn)而不能應(yīng)用相關(guān)系數(shù)求解。若用軟件Spss進(jìn)行回歸分析,分析結(jié)果與Excel分析結(jié)果大同小異,只是Spss分析結(jié)果中出現(xiàn)更多的統(tǒng)計(jì)量及顯示方法上有差異。因此若能讀懂Excel的回歸分析中各參數(shù)的意思,則就可以讀懂Spss回歸輸出結(jié)果的大部分內(nèi)容。采用回歸分析法進(jìn)行成本預(yù)測的定量分析,運(yùn)用Excel軟件實(shí)現(xiàn)預(yù)測總成本的計(jì)算,在操作過程中,有助于理解數(shù)學(xué)知識(shí),提高動(dòng)手能力。