李媛
摘要 將數據挖掘技術中的時間序列分析方法應用于職工平均工資預測中,以中國勞動統(tǒng)計年鑒1985-2010年的數據為研究對象,基于ARIMA模型的時間序列方法對平均工資進行預測,通過對數據序列進行平穩(wěn)性檢驗、單位根檢驗,運用差分的方法將序列轉化為平穩(wěn)序列,分析模型建立的可行性。對模型進行參數估計,運用AIC準則篩選合適模型,預測2 011-2 015年我國城鎮(zhèn)就業(yè)人員平均工資,將預測值在合理誤差范圍內的模型進行殘差白噪聲檢驗,得出最終模型,從實用層面評估了預測模型的建模方法和預測數據的可信度。
【關鍵詞】工資預測 時間序列分析 ARIMA模型 數據挖掘
工資是勞動者勞動收入的主要組成部分,是衡量收入、分配與勞動力發(fā)展水平的重要指標,也是國家宏觀經濟調控的杠桿,是勞動力布局、產業(yè)結構調整的參考依據。有效進行平均工資預測,為勞動經濟決策提供依據,對研究勞動經濟發(fā)展趨勢有重要意義,因此,必須進行工資預測?,F如今很多專家學者運用多種方法對工資進行預測,如線性回歸法、指數平滑法、Logistic模型等。將就業(yè)人員平均工資按年計,構成一個時間序列,稱為工資時間序列,對其可用時間序列分析的方法建模和預測。
時間序列是系統(tǒng)中某變量的觀測值按時間順序(時間間隔相同)排列成一個數值序列,展示研究對象在一定時期內的變動過程。通過處理預測目標本身的時間序列數據,獲得事物隨時間的演變特性與規(guī)律,進而預測事物的未來發(fā)展。時間序列分析就是從中尋找和分析事物的變化特征、發(fā)展趨勢和規(guī)律,它是系統(tǒng)中某一變量受其他各種因素影響的總結果。時間序列數據區(qū)別于普通資料的本質特征是相鄰觀測值之間的依賴性,或稱自相關性。本文嘗試運用時間序列數據分析中常用的ARIMA模型對我國城鎮(zhèn)單位就業(yè)人員平均工資進行分析并做出預測。
1 ARIMA模型
1.1 平穩(wěn)性檢驗
根據ARIMA算法的建模步驟,可知ARIMA模型是以平穩(wěn)隨機序列為前提的,因此需先檢驗平均工資的平穩(wěn)性。本文選用1980到2010年的數據建立模型,以此對2011-2015年平均工資進行預測,并與實際值進行比較。
建立ARIMA模型前,先做序列圖,分析發(fā)現因我國平均工資逐年增加,為非平穩(wěn)時間序列。
1.2 單位根檢驗
接下來進行單位根檢驗,采用ADF檢驗法,得出序列相應的檢驗式是:
AYt= 0.1940Yt_1+0.2700AYt_1 - 0.7257AYt_1
因為ADF=4.8889,分別大于1%、5%、10%三個顯著性水平的臨界值-2.6501、.1.9534、-1.6098,表明我國1980-2010年平均工資序列yt存在單位根,是一個非平穩(wěn)序列。
在此情況下,繼續(xù)對平均工資的一階差分進行單位根檢驗,得出ADF=2.7545,分別大于1%、5%、10%三個顯著性水平的臨界值-3.6999、-2.9763、-2.6274,表明我國1980-2010年平均工資一階差分序列D(Y)存在單位根,是一個非平穩(wěn)序列。
因此,繼續(xù)對平均工資的二階差分進行單位根檢驗,得圖1。
因為ADF=-5.9091, 分別小于1%、5%、10%三個顯著性水平的臨界值-4.3393、.3.5875、-3.2292。判斷平均工資二階差分序列D(Y-2)是一個平穩(wěn)序列。
1.3 ARIMA時間序列模型建立
由于我國平均工資水平一直增長,因此判定為無周期,可采用ARMA(p,q)模型。需計算平穩(wěn)時間序列的樣本自相關系數(ACF)和偏自相關系數( PACF),然后依此來估計p、q值。
做出二階差分后序列D(Y,2)滯后12期的ACF圖和PACF圖,得圖2。
由圖2可看出自相關系數和偏相關系數均為拖尾,初步識別該模型ARMA(p,q)。
1.4 ARIMA模型參數估計
選用最佳準則函數定階法,即AIC準則,在模型參數極大似然估計的基礎上,對模型的階數和相應參數給出一組最佳估計。AIC準則是在給出不同模型的AIC計算公式基礎上,選取使AIC達到最小的那一組階數為理想階數。列舉比較選擇法知,可能擬合的模型為ARMA(p,q)。
因此對差分序列D(Y,2)分別估計下面若干模型:
AR(1) AR(2) AR(3) MA(1) MA(2) MA(3)MA(4) MA(5) MA (6) ARMA(1,1) ARMA(1,2)ARMA(1,3) ARMA(1,4) ARMA(1,5)ARMA(1,6) ARMA(2,1) ARMA(2,2) ARMA(2,3) ARMA(2,4) ARMA(2,5) ARMA(2,6)ARMA(3,1) ARMA(3,2) ARMA(3,3) ARMA(3,4)ARMA(3,5) ARMA(3,6)
對AR(1)模型進行擬合,從模型的整體擬合效果來看,調整后的決定性系數,AIC和sc準則都是選擇模型的重要標準。得出AIC=14.84753, SC=14.94269。
同理,對其他模型進行相應參數估計,得到模型參數估計的AIC和SC如表1所示。
由表1可知, 模型ARMA(1,1)、ARMA(2,2)、ARMA(3,4)、ARMA(3,5)、ARMA(3,6)的AIC和SC值比較小。由于原始序列做了二階差分后才平穩(wěn),因此,選擇對ARIMA(1,2,1)、ARIMA(2,2,2)、ARIMA(3,2,4)、ARIMA(3,2,5)、ARIMA (3,2,6)這5個模型進行預測。
1.5 模型預測結果
各模型對應的預測值及誤差如表2。
由表2可看出,模型ARIMA(1,2,1)、ARIMA(2,2,2)、ARIMA(3,2,4)、ARIMA(3,2,5)相對誤差較少,因此,初步選定這4個模型作為預測模型。
1.6 殘差白噪聲檢驗
參數估計后,需對模型殘差序列進行白噪聲檢驗,若殘差序列不是白噪聲序列,意味著殘差序列還存在有用信息沒有提取,需進一步改進。
檢驗模型ARIMA(1,2,1),生成殘差序列的自相關分析圖,存在P值小于0.05,不是白噪聲序列,則不平穩(wěn)。
再檢驗模型ARIMA(3,2,4),生成殘差序列的自相關分析圖,發(fā)現所有P值大于0.05,是白噪聲序列,則平穩(wěn)。
同理, 檢驗模型ARIMA(2,2,2)、ARIMA(3,2,5),均存在P值小于0.05,不是白噪聲序列,則不平穩(wěn)。
因此,最終選擇模型ARIMA(3,2,4)做為預測模型,其對應的2011至2015年平均工資預測值依次為:41609、46722、51994、57915. 64232。
2 結論
運用模型ARIMA(3,2,4)對2011-2015年的平均工資進行預測,并與實際值比較,發(fā)現其誤差介于-0.4546%至3.5516%之間,證明此模型具有較高精準性。當然,任何一種預測方法都是建立在一定假設條件基礎之上,而任何一種假設條件都難以包含現實世界中的所有復雜關系,相對而言,此模型對于中短期平均工資預測精確度較高。
本文所建模型是依靠滯后信息建立的平均工資預測模型,可以不用考慮數據采集成本。最終所選模型的p為3,q為4,是符合模型建立的簡單原則的。但在采用列舉比較選擇法時,所選模型數據有限,因此在更加精準的預測平均工資水平上,還需要進一步嘗試、思考和研究。
參考文獻
[1]國家統(tǒng)計局人口和就業(yè)統(tǒng)計司,人力資源和社會保障部規(guī)劃財務司,中國勞動統(tǒng)計年鑒2016 [M].北京:中國統(tǒng)計出版社.2017.
[2]馬慧慧.Eviews統(tǒng)計分析與應用[M].北京:電子工業(yè)出版社,2016.
[3]周英,卓金武,卞月青,大數據挖掘系統(tǒng)方法與實例分析[M],北京:機械工業(yè)出版社,2016.
[4]韓紹庭,周雨欣,多元線性回歸與ARIMA在中國人口預測中的比較研究[J].中國管理信息化,2014,17 (22):100-102.
[5]張良均,楊坦,肖剛,徐圣兵.MATLAB數據分析與挖掘實戰(zhàn)[M].北京:機械工業(yè)出版社,2015.
[6]池啟水,劉曉雪.ARIM模型在煤炭消費預測中的應用分析[J].能源研究與信息,2007,23(02):117-123.
[7]易丹輝.時間序列分析:方法與應用[M],北京:中國人民大學出版社,2 011.
[8]湯志浩,張璐,基于平均工資預測的數學模型[J],湖南工程學院學報,2015,25 (03): 42-45.
[9][美] Daniel T.Larose, ChantalD. Larose著,王念濱,宋敏.裴大茗譯.數據挖掘與預測分析(第2版)[M].北京:清華大學出版社,2017.
[10]李生彪.基于阻滯增長模型的山東省職工的年平均工資預測[J].時代金融,2013,543:124-125.