曹文方
(浙江工業(yè)職業(yè)技術(shù)學(xué)院,浙江 紹興 312000;華東理工大學(xué) 理學(xué)院,上海 200237)
大學(xué)畢業(yè)生就業(yè)工資影響因素的線性回歸分析
曹文方
(浙江工業(yè)職業(yè)技術(shù)學(xué)院,浙江 紹興 312000;華東理工大學(xué) 理學(xué)院,上海 200237)
以上海某高校畢業(yè)生就業(yè)月工資收入為研究對象,采集了1267個數(shù)據(jù)樣本,建立線性回歸模型,對影響工資收入的性別、民族、政治面貌、生源所在地、就業(yè)所在地、就業(yè)單位的性質(zhì)和所在學(xué)校的院系等因素進(jìn)行了分析,得出了相應(yīng)的結(jié)論.
工資;虛擬變量;OLS回歸
大學(xué)畢業(yè)生就業(yè)問題一直受到社會的廣泛關(guān)注,畢業(yè)上崗就業(yè),從某種意義上講,是學(xué)校整個教學(xué)過程的結(jié)束,是學(xué)校教學(xué)質(zhì)量好與壞以及學(xué)校能否持續(xù)發(fā)展的反映.就現(xiàn)階段而言,我國大學(xué)畢業(yè)生對個人薪酬的期望值與實際工資水平還存在很大的落差.畢業(yè)生的學(xué)校、專業(yè)、性別、家庭背景等客觀條件與行業(yè)選擇、地區(qū)選擇等主觀因素交織在一起[1],使得大學(xué)生們對于就業(yè)的薪酬期望很難達(dá)到理性的價值判斷.我們以某高校大學(xué)本科生為研究對象,采集了1267個數(shù)據(jù)樣本,以分析性別、民族、生源所在地、就業(yè)所在地、是否黨員、就業(yè)單位的性質(zhì)和所在學(xué)校的學(xué)院等因素對薪酬的影響程度為目的,建立線性回歸模型.
假設(shè)隨機(jī)變量y與m(≥2)個自變量x1,x2,…,xm之間存在相關(guān)關(guān)系,且滿足
即 y~N(β0+β1x1+β2x2+…+βmxm,σ2).其中 β0,β1,β2,…,βm,σ2是與 x1,x2,…,xm無關(guān)的未知參數(shù),ε~N(0,σ2)是表示誤差的隨機(jī)變量,稱式(1)為m元理論線性回歸模型[2].可以寫成矩陣形式為Y=Xβ+ε
多元線性回歸,就是要求出 β0,β1,β2,…,βm的估計值β贊0,β贊1,β贊2,…,β贊m,使得回歸方程y贊=β贊0+β贊1x1+β贊2x2+…+β贊mxm能夠盡可能精確地將自變量x1,x2,…,xm與因變量y之間的統(tǒng)計相關(guān)關(guān)系表達(dá)出來.
最小二乘(OLS)法的原理是求殘差(誤差項的估計值)平方和最小.可以求得β贊=(X’X)-1X’Y,因為X的元素是非隨機(jī)的,(X’X)-1X是一個常數(shù)矩陣,則β贊是Y的線性組合,為線性估計量[3].
這里我們以上海某高校畢業(yè)生的就業(yè)薪酬為研究對象,抽取1267名學(xué)生為樣本來進(jìn)行畢業(yè)生就業(yè)薪酬的影響因素分析.可能影響畢業(yè)生薪酬的因素有很多,這里我們對抽取的1267名學(xué)生分別考慮性別(XB)、民族(MZ)、是否共產(chǎn)黨員(DY)、生源所在地(SYD)、就業(yè)所在地(JYD)、就業(yè)單位的性質(zhì)(國有企業(yè)(DW1),三資企業(yè)(DW2),中小企業(yè)(DW3),事業(yè)單位(DW4))和所在學(xué)校的院系(資源與環(huán)境工程學(xué)院(XY1),藝術(shù)設(shè)計與傳媒學(xué)院(XY2),藥學(xué)院(XY3),信息科學(xué)與工程學(xué)院(XY4),外國語學(xué)院(XY5),生物工程學(xué)院(XY6),社會與公共管理學(xué)院(XY7),商學(xué)院(XY8),理學(xué)院(XY9),機(jī)械與動力工程學(xué)院(XY10),化學(xué)與分工工程學(xué)院(XY11),化工學(xué)院(XY12),材料科學(xué)與工程學(xué)院(XY13))對薪酬的影響,運用逐步回歸方法[4],從而分析出在這些變量中哪些對畢業(yè)生的薪酬影響是顯著的,而哪些不是顯著的.
將變量以虛擬變量取代,分別取值為1或0,在Eviews環(huán)境下,用OLS回歸得到如下表1回歸結(jié)果[5].
從表1中的數(shù)據(jù)可以看出,R2的值很小,說明方程的擬合效果不好,所得出的系數(shù)存在很大的不合理性,對變量不能進(jìn)行合理的解釋.
觀察其殘差分布圖,如圖1所示.
表1 OLS分析結(jié)果1
從圖中可以看出,其殘差主要分布在-1000到1000之間,去除不合理的數(shù)據(jù),重新整理得到1074個數(shù)據(jù).再運用eviews軟件繼續(xù)分析,得出結(jié)果見表2.
從表2中的數(shù)據(jù)可以看出,R2的值較之前有較大的提高,說明方程的擬合效果較好,但從相伴概率最后一列中我們發(fā)現(xiàn),有些系數(shù)的相伴概率偏大,因此方程存在一定的不合理性,暫且不對參數(shù)進(jìn)行解釋說明.在此,我們對相伴概率偏大,t值偏小的變量與以去逐步去除(DW1,DW3,MZ,XY5,XY10).再運用eviews軟件繼續(xù)分析,運用相同的辦法,發(fā)現(xiàn)其殘差主要分布在-500到500之間,去除不合理的數(shù)據(jù),重新整理得到530個數(shù)據(jù),發(fā)現(xiàn)變量XY1、XY11、XY12系數(shù)的相伴概率偏大,將這些變量去除,用eviews軟件繼續(xù)分析,得出結(jié)果見表3.
表2 OLS分析結(jié)果2
從表3中的數(shù)據(jù)可以看出,R2的值0.614133比較理想,說明方程的擬合效果較好,各個變量的相伴概率數(shù)據(jù)較好,對變量能進(jìn)行合理的解釋.
對應(yīng)回歸系數(shù)的條形圖見圖2.
此模型研究的是大學(xué)生畢業(yè)工資由哪些因素決定,通過上面的方程,我們可以知道,大學(xué)生畢業(yè)工資主要由性別、是否共產(chǎn)黨員、就業(yè)單位的性質(zhì)和所在學(xué)校的院系所決定:
表3 OLS分析結(jié)果3
(1)在同等條件下,黨員的月平均工資比非黨員高125元.
(2)在同等條件下,男性的月平均工資比女性高589元.
(3)在同等條件下,在三資企業(yè)工作的學(xué)生的月平均工資比在其它單位工作的學(xué)生高1178元;
(4)按所在學(xué)院分類,工資最高的是材料科學(xué)與工程學(xué)院,其次是生物工程學(xué)院和理學(xué)院.
由民族、生源所在地、就業(yè)所在地對大學(xué)生畢業(yè)工資沒有顯著的影響,黨員、性別對大學(xué)生畢業(yè)工資影響較小,就業(yè)單位的性質(zhì)、所在學(xué)校的院系對工資有顯著影響的結(jié)論可知:現(xiàn)行國家工資政策對大學(xué)生還是比較公平的,沒有性別、民族和生源所在地的歧視,大學(xué)生畢業(yè)工資的高低主要由學(xué)生所學(xué)的專業(yè)和就業(yè)單位的性質(zhì)所決定.
通過這些分析,可以給學(xué)生為自己的求學(xué)生涯和就業(yè)提供一個導(dǎo)向.考慮到畢業(yè)時的就業(yè)問題,學(xué)生在大學(xué)入學(xué)時選專業(yè)就應(yīng)該更加謹(jǐn)慎,因此該模型能為學(xué)生選擇專業(yè)提供一定的依據(jù),同時學(xué)生也可以多選學(xué)些容易就業(yè)的課程;在三資企業(yè)工作的月平均工資明顯高于其他性質(zhì)的單位,所以學(xué)生在就業(yè)時可以多關(guān)注企業(yè)的性質(zhì).
另一方面,可以給學(xué)校的專業(yè)招生數(shù)量和就業(yè)重視方向提供一個依據(jù).為了提高學(xué)生就業(yè)率,學(xué)??梢远嚅_設(shè)一些易就業(yè)的專業(yè),或者是提高易就業(yè)專業(yè)的招生人數(shù),在學(xué)生學(xué)習(xí)的過程中,學(xué)校也可以開設(shè)第二學(xué)位課程,使得相對冷門專業(yè)的學(xué)生可以選擇同時學(xué)習(xí)其它專業(yè)課程,使就業(yè)更具有競爭力.該模型也很好的告訴我們哪些專業(yè)易于就業(yè),因此學(xué)校的就業(yè)部門可以及時發(fā)現(xiàn)問題,從而更好的解決問題.
〔1〕陸建民,萬仁孝.性別差異與決定大學(xué)畢業(yè)生就業(yè)收入主要因素[J].中國人口科學(xué),2002(6):29-34.
〔2〕邰淑彩,孫韞玉,何娟娟.應(yīng)用數(shù)理統(tǒng)計(第二版)[M].武漢:武漢大學(xué)出版社,2005.
〔3〕高惠璇.統(tǒng)計計算[M].北京:北京大學(xué)出版社,1995.
〔4〕胡敏.高校教師工資影響因素分析[J].統(tǒng)計與信息論壇,2003,18(5):72-76.
〔5〕高鐵梅.計量經(jīng)濟(jì)分析方法與建模[M].北京:清華大學(xué)出版社,2006.
F550
A
1673-260X(2010)02-0093-03