張宣昊
(上海第二工業(yè)大學(xué)理學(xué)院,上海201209)
回歸分析教學(xué)中的一個(gè)案例
張宣昊
(上海第二工業(yè)大學(xué)理學(xué)院,上海201209)
提出統(tǒng)計(jì)專業(yè)主干課程《應(yīng)用回歸分析》的一個(gè)教學(xué)案例——財(cái)會行業(yè)男女薪資比較,包括一元線性回歸的基本理論和案例的具體數(shù)據(jù)分析,對財(cái)會行業(yè)男女薪資差異給出合理的統(tǒng)計(jì)解釋。幫助學(xué)生更好地理解并掌握回歸分析的統(tǒng)計(jì)方法,同時(shí)提供教師理論聯(lián)系實(shí)際的教學(xué)素材。
回歸分析;男女薪資;教學(xué)案例
《應(yīng)用回歸分析》是統(tǒng)計(jì)專業(yè)的主干課程?;貧w分析是確定兩個(gè)或兩個(gè)以上變量間相互依賴定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測數(shù)據(jù)來求解模型的各個(gè)參數(shù),然后評價(jià)回歸模型是否能夠很好地?cái)M合實(shí)測數(shù)據(jù),如果能夠很好地?cái)M合,則可以根據(jù)自變量作進(jìn)一步的預(yù)測。回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析就稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
本文運(yùn)用回歸分析方法對2004年財(cái)會行業(yè)男女薪資數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過SPSS19.0統(tǒng)計(jì)軟件得到男性薪資的直線回歸模型和女性薪資的曲線回歸模型。對兩個(gè)回歸方程進(jìn)行比較,可以確認(rèn)男性收入隨年齡直線上升,而女性收入上升得比較緩慢。
通過財(cái)會行業(yè)男女薪資比較的實(shí)際案例,可使學(xué)生充分理解回歸分析方法的統(tǒng)計(jì)意義及其應(yīng)用價(jià)值,幫助教師提高《應(yīng)用回歸分析》課程的教學(xué)效果。
1.1 直線回歸方程
用以近似地描述具有相關(guān)關(guān)系變量間聯(lián)系的函數(shù),稱為回歸函數(shù)。
由于Y與X之間不存在完全確定的函數(shù)關(guān)系,因此必須把隨機(jī)波動產(chǎn)生的影響考慮在內(nèi),于是模型的一般形式為y乞=f(x乞)+ε乞,其中y是響應(yīng)變量,x是自變量,ε是隨機(jī)項(xiàng)。若進(jìn)行n次獨(dú)立試驗(yàn),得到變量y與x的一組觀測值(x乞,y乞)(乞=1,2,···,n),則有y乞=f(x乞)+ε乞(乞=1,2,···,n)。將點(diǎn)(x乞,y乞)畫在平面直角坐標(biāo)系中得到的圖稱為散點(diǎn)圖,如果所有的散點(diǎn)大體上散布在某一條直線附近(見圖1),就可以認(rèn)為y對x的回歸函數(shù)的類型為直線型,即?y=ax+b,稱此方程為y對x的直線回歸方程,并稱其中a,b為回歸系數(shù),在y的上方加“^”是為了區(qū)別于Y的實(shí)際觀測值y。
1.2 最小二乘法
設(shè)n次試驗(yàn)得到的觀測數(shù)據(jù)為(x1,y1),(x2,y2),···,(xn,yn),則有y乞=ax乞+b+ε乞(乞=1,2,···,n),即ε
乞=y乞?ax乞?b(乞=1,2,···,n)。
圖1 散點(diǎn)圖Fig.1 Scatter plot
?
a,?b的求法如下:
求得的a,b即為最小二乘估計(jì)?a,?b,代入y=ax+b+ε即為一元回歸方程?y=?ax+?b,而利用回歸方程可對響應(yīng)變量y作預(yù)測。
例如有一組觀測數(shù)據(jù)如下:(1,2.1),(2,2.9),(3,4),若直觀地認(rèn)為直線回歸方程為:?y=x+1,則
所以回歸方程為:y=0.95x+1.1+ε(或?y=0.95x+1.1),于是
2.1 基本數(shù)據(jù)
根據(jù)2004年財(cái)會行業(yè)從業(yè)人員薪資調(diào)查分析報(bào)告[4],得到2004年財(cái)會行業(yè)從業(yè)人員的相關(guān)信息(表1):性別、年齡、收入。將不同年齡層次的人群進(jìn)行對比,除50歲以上人群外,其他年齡層次的男性收入均高于女性。
由圖2、圖3的散點(diǎn)圖可以明顯看出,男性隨著年齡的增長收入也隨之線性增長,最高能達(dá)到8萬;而女性工資增長得較為緩慢,最高只有6萬。男性的收入與年齡之間有強(qiáng)烈的線性關(guān)系;而女性收入與年齡之間的斜率有逐步放緩的曲線趨勢。以下利用回歸分析法討論收入和年齡以及性別之間的關(guān)系(響應(yīng)變量y為收入,自變量x為年齡段,且21歲以下取x=1,22~25歲取x=2,···,50歲以上取x=8)。
圖2 關(guān)于男性的收入與年齡之間的散點(diǎn)圖Fig.2 Scatter plot between male income and age
圖3 關(guān)于女性的收入與年齡之間的散點(diǎn)圖Fig.3 Scatter plot between female income and age
2.2 男性薪資的直線回歸
利用數(shù)據(jù)建立男性薪資與年齡的一元線性回歸模型,由統(tǒng)計(jì)軟件SPSS19.0得到男性的年齡與收入的線性回歸模型:?y=18 187.046+7 176.402x。
由表2得年齡變量的回歸系數(shù)為7 176.402,常數(shù)項(xiàng)系數(shù)為18 187.046。由表3得所用回歸模型的p值為0.000,即經(jīng)檢驗(yàn)?zāi)P湍茱@著地反映男性薪資與年齡的數(shù)量關(guān)系。
2.3 女性薪資的曲線回歸
利用數(shù)據(jù)建立女性薪資與年齡的一元曲線回歸模型,由統(tǒng)計(jì)軟件SPSS19.0選擇三次方曲線模型、冪函數(shù)模型、S曲線模型分別進(jìn)行回歸得到表4和圖4。
由圖4可知,三次方曲線模型更能反映女性薪資與年齡的數(shù)量關(guān)系,因此選擇三次方曲線模型,根據(jù)表4的回歸系數(shù)得:y=?14 430+32 040x?6 304x2+419.051x3。
表1 不同性別不同年齡層的收入對比Tab.1 Income comparison of the dif f erent ages of the dif f erent gender
表2 回歸系數(shù)表Tab.2 Regression coefficients
表3 方差分析表Tab.3 Analysis of variance table
表4 三個(gè)模型的檢驗(yàn)報(bào)告Tab.4 Three models of inspection reports
圖4 三種曲線擬合的對比Fig.4 Three curve f i tting contrast
2.4 模型比較
利用回歸分析方法對財(cái)會行業(yè)男女薪資數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過兩個(gè)回歸方程的比較,可以確認(rèn)男性收入隨年齡直線上升,而女性收入上升得比較緩慢和曲折。同時(shí),可利用回歸方程對財(cái)會行業(yè)的男性和女性薪資進(jìn)行預(yù)測估計(jì)。例如,某36~40歲男性可估計(jì)其薪資為18 187.046+7 176.402×5=54 069.056元/年,對于某36~40歲女性則估計(jì)其薪資為?14 430+32 040×5?6 304×52+419.051×53=40 551.375元/年,顯然中年男性的薪資高于中年女性,而其他年齡段的男女薪資也可利用以上回歸模型做估計(jì)和比較。
[1]何曉群,劉文卿.應(yīng)用回歸分析[M].第二版.北京:中國人民大學(xué)出版社,2011.
[2]王學(xué)民.應(yīng)用多元分析[M].第二版.上海:上海財(cái)經(jīng)大學(xué)出版社,2004.
[3]薛薇.SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2004.
[4]國家統(tǒng)計(jì)局.中國統(tǒng)計(jì)年鑒(2007光盤版)[M].北京:中國統(tǒng)計(jì)出版社,2007.
[5]張翼,張慶靈.《多元統(tǒng)計(jì)與回歸分析》課程設(shè)計(jì)及教學(xué)探討[J].大學(xué)數(shù)學(xué),2011(6):196-198.
[6]王靜敏.多元統(tǒng)計(jì)課程的創(chuàng)新改革研究[J].統(tǒng)計(jì)教育,2007(10):26-27.
A Teaching Case of Regression Analysis
ZHANG Xuan-hao
(School of Science,Shanghai Second Polytechnic University,Shanghai 201209,P.R.China)
A teaching case of the statistical main courses“Applied Regression Analysis”is proposed—the comparison of mens’s and women’s salaries in the accounting industry.There are the basic theory of a linear regression model and the case data analysis.The salary dif f erences between men and women in the accounting industry is given a reasonable statistical interpretation.It helps students better understand and master the regression analysis and provides teachers, theories with practical teaching material.
regression analysis;men’s and women’s salaries;teaching case
O212.4
A
1001-4543(2013)02-0135-06
2013-03-11;
2013-04-10
張宣昊(1981–),男,上海人,講師,碩士,主要研究方向?yàn)楦怕式y(tǒng)計(jì)、試驗(yàn)設(shè)計(jì),電子郵箱xhzhang@sspu.cn。
上海第二工業(yè)大學(xué)學(xué)報(bào)2013年2期