張振強(qiáng)
[摘 要]在崗職工年平均工資一直以來都是一項(xiàng)重要的經(jīng)濟(jì)指標(biāo),其在某種程度上能夠反映工作人員的收入水平,預(yù)測職工工資增長可以成為政府制定工資政策的重要依據(jù),因此成為了時(shí)下民生領(lǐng)域較為關(guān)注的問題。文章介紹了支持向量機(jī)(SVM)的基本原理和算法,以及如何運(yùn)用蟻群算法快速優(yōu)化支持向量機(jī)的初始化參數(shù),以便提高模型預(yù)測精確度。最后文章以1985—2014年福建省在崗職工年平均工資的相關(guān)變量數(shù)據(jù)為樣本進(jìn)行訓(xùn)練和測試。
[關(guān)鍵詞]蟻群算法;支持向量機(jī);平均工資
[DOI]10.13939/j.cnki.zgsc.2016.16.033
1 研究方法
支持向量機(jī)(SVM)是Vapnik等人于1995年提出的一種機(jī)器學(xué)習(xí)方法,建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,在模型復(fù)雜性和學(xué)習(xí)能力之間進(jìn)行了折中,具有較強(qiáng)的泛化能力和精確性。[1]因?yàn)樗谛颖尽⒎蔷€性及高維模式識別等方面有較大優(yōu)勢,克服了神經(jīng)網(wǎng)絡(luò)過于學(xué)習(xí)、欠學(xué)習(xí)、局部極小等問題,已成為繼神經(jīng)網(wǎng)絡(luò)研究之后機(jī)器學(xué)習(xí)理論領(lǐng)域新的熱點(diǎn)。
1.1 SVM算法回歸模型
在支持向量機(jī)的回歸模型中,輸入的樣本x首先通過非線性映射φ(x),映射到一個(gè)高緯度的特征空間中,然后在這個(gè)高緯特征空間中建立一個(gè)線性模型來估計(jì)回歸函數(shù),其公式如下所示:
其中,ω為權(quán)向量;b為閾值。對于給定的訓(xùn)練數(shù)據(jù)集(y1,x1),(y2,x2),…,(ye,xe),采用ε不敏感損失函數(shù),對應(yīng)的支持向量機(jī)稱為ε-支持向量機(jī),則其約束優(yōu)化問題可表示為:
式(2)的優(yōu)化問題可通過引入拉格朗日函數(shù)將其轉(zhuǎn)化為對偶問題,通過解對偶問題得到式(1)的解:
由式(2)~式(4)可知,控制C,ε和λ就可以控制支持向量機(jī)的推廣能力,因此,合理并且快速地選擇上述3個(gè)參數(shù)能夠極大影響SVR實(shí)際應(yīng)用中的效果。[2][3]
1.2 蟻群算法數(shù)學(xué)模型
蟻群算法是一種生物智能算法,該算法模擬了蟻群尋找食物過程中的運(yùn)動規(guī)律來求解最短路徑問題。在此以TSP商旅問題為例說明蟻群算法的基礎(chǔ)模型。
設(shè)TSP規(guī)模為n(即有n個(gè)城市),蟻群中螞蟻的總數(shù)目為m,τij(t)表示t時(shí)刻路徑(I,j)上的信息量。螞蟻k在行進(jìn)過程中,根據(jù)各條路徑上的信息素強(qiáng)度及路徑的啟發(fā)信息來計(jì)算狀態(tài)轉(zhuǎn)移概率。pkij(t)表示t時(shí)刻螞蟻k從城市i轉(zhuǎn)移到城市j的狀態(tài)轉(zhuǎn)移概率:
式中allowedk表示螞蟻k下一步允許選擇的城市,α為信息啟發(fā)式因子,β為期望啟發(fā)式因子,ηij(t)為啟發(fā)函數(shù)。
為了避免信息素殘留過多引起殘留的信息掩蓋啟發(fā)信息,在每只螞蟻?zhàn)咄昊蛘咄瓿蓪λ衝個(gè)城市的遍歷后,要對殘留信息進(jìn)行信息素?fù)]發(fā)處理。即t+n時(shí)刻在路徑(i,j)上的信息量可按如下規(guī)則進(jìn)行調(diào)整:
式中ρ為信息素?fù)]發(fā)系數(shù),為了防止信息的無限積累,ρ的取值范圍為ρ∈[0,1)。Δτij(t)表示路徑(i,j)上的信息素增量,Δτkτij(t)表示第k只螞蟻留在路徑(i,j)上的信息量。[4]
1.3 如何通過蟻群算法優(yōu)化SVM初始化參數(shù)
與TSP問題不同,用于SVM參數(shù)優(yōu)化的蟻群算法搜索出來的最終路徑代表函數(shù)的最優(yōu)值,通過C,ε和λ在蟻群系統(tǒng)中的節(jié)點(diǎn)值體現(xiàn),信息素是遺留在螞蟻所走過的每個(gè)節(jié)點(diǎn)(相當(dāng)于TSP問題中的城市)上。并且用于SVM參數(shù)優(yōu)化的蟻群系統(tǒng)不是根據(jù)路徑長度來更新信息素的濃度,而是根據(jù)目標(biāo)函數(shù)值來更新信息素物質(zhì)的濃度;目標(biāo)函數(shù)中包含各螞蟻所走過的所有節(jié)點(diǎn)的信息以及系統(tǒng)當(dāng)前性能指標(biāo)信息。[5]
蟻群算法對SVM參數(shù)優(yōu)化的具體過程如下:
以3個(gè)參數(shù)作為待優(yōu)化的變量,這3個(gè)變量值都用7個(gè)十進(jìn)制有效數(shù)位表示。根據(jù)這些參數(shù)的取值情況,令ε和λ的7個(gè)數(shù)位中小數(shù)點(diǎn)前各占3位,小數(shù)點(diǎn)后各占4位。C的7個(gè)數(shù)位中小數(shù)點(diǎn)前占4位,小數(shù)點(diǎn)后占3位。為了便于采用蟻群算法,SVM參數(shù)優(yōu)化螞蟻運(yùn)行圖,采用10行×21列的平面結(jié)構(gòu),如下圖所示。10行代表0~9的10個(gè)值,21列表示C,ε和λ的各參數(shù)的7個(gè)數(shù)位。每隔7列分別對應(yīng)一個(gè)參數(shù)。因此,用于SVM參數(shù)優(yōu)化的蟻群算法可以描述為:m只螞蟻從螞蟻巢穴出發(fā)去尋找食物。每只螞蟻從第1個(gè)集合出發(fā),根據(jù)集合中每個(gè)元素的信息素狀態(tài),通過賭輪盤的規(guī)則從每個(gè)集合中選擇一個(gè)元素,并對所選元素的信息素作相應(yīng)調(diào)節(jié),當(dāng)該螞蟻?zhàn)咄耆抗?jié)點(diǎn)后,提取三個(gè)參數(shù)的數(shù)值,計(jì)算目標(biāo)函數(shù)的結(jié)果,最后將每輪的最佳路徑采用精英蟻群的策略進(jìn)行信息素加強(qiáng)。這一過程反復(fù)進(jìn)行,直到全部螞蟻收斂到同一路徑或者達(dá)到迭代的最大次數(shù)時(shí)為止。
10行×21列的平面結(jié)構(gòu)圖
2 實(shí)證研究
2.1 數(shù)據(jù)收集與數(shù)據(jù)處理
本文以福建省在崗職工年平均(Y)為研究對象,根據(jù)年平均工資的相關(guān)文獻(xiàn),并結(jié)合福建省統(tǒng)計(jì)年鑒,最終選取公共財(cái)政總收入(x1)、公共財(cái)政支出(x2)、居民消費(fèi)價(jià)格指數(shù)(x3)、商品零售價(jià)格指數(shù)(x4)、農(nóng)業(yè)生產(chǎn)資料價(jià)格指數(shù)(x5)、平均每人消費(fèi)性支出(x6)、平均每人全年可支配收入(x7)、全社會固定資產(chǎn)投資額(x8)、從業(yè)人員數(shù)(x9)、城鎮(zhèn)登記失業(yè)率(x10)、人均GDP(x11)、第一產(chǎn)業(yè)總產(chǎn)值(x12)、第二產(chǎn)業(yè)總產(chǎn)值(x13)以及三產(chǎn)業(yè)總產(chǎn)值(x14)為解釋變量。本文選取1985—2014年的數(shù)據(jù)進(jìn)行實(shí)證研究,研究數(shù)據(jù)來自福建省統(tǒng)計(jì)局每年發(fā)布的統(tǒng)計(jì)年鑒。
數(shù)據(jù)歸一化是數(shù)據(jù)分析的一項(xiàng)基礎(chǔ)性工作,由于本文選取的14個(gè)影響因素具有不同的量綱和量綱單位,如果不對其進(jìn)行歸一化很可能會影響模型訓(xùn)練和測試的結(jié)果,因此為了消除各個(gè)因素之間量綱影響,需要進(jìn)行數(shù)據(jù)歸一化處理,以便解決因素之間的可比性。
2.2 模型實(shí)證結(jié)果
通過蟻群算法優(yōu)化支持向量機(jī)的參數(shù)獲得C,λ和ε,分別為C=1245.35,λ=0.950589,ε=0.24588。
2.2.1 訓(xùn)練樣本
本文選擇1985—2008年的數(shù)據(jù)為訓(xùn)練樣本,將上述的參數(shù)代入訓(xùn)練獲得訓(xùn)練結(jié)果,如表1所示。
根據(jù)表1的結(jié)果,除了1989年的相對誤差達(dá)到了8.43%,其余年份的相對誤差都在可接受的范圍之內(nèi),因此訓(xùn)練結(jié)果較為理想。
2.2.2 測試樣本
在通過選擇的樣本訓(xùn)練確立了支持向量機(jī)的回歸預(yù)測模型,將訓(xùn)練好的模型進(jìn)行樣本測試,輸入2009—2014年的數(shù)據(jù),得到表2的結(jié)果。
根據(jù)表2的結(jié)果,2009—2014年在崗職工年平均工資預(yù)測值的相對誤差在可以接受的范圍內(nèi)。因此,證明了所建立的支持向量機(jī)模型可以用來預(yù)測在崗職工年平均工資。
3 結(jié) 論
在崗職工年平均工資一直以來都是一項(xiàng)重要的經(jīng)濟(jì)指標(biāo),其在某種程度上能夠反映工作人員的收入水平。隨著社會經(jīng)濟(jì)的不斷發(fā)展,有關(guān)部門相繼以平均工資為基礎(chǔ)制定了一系列政策,如社會保險(xiǎn)金征收、基本養(yǎng)老金和退休金發(fā)放、最低工資標(biāo)準(zhǔn)、人身損害司法賠償?shù)?,都與平均工資數(shù)據(jù)相關(guān)。本文提出了一種基于支持向量機(jī)的在崗職工年平均工資預(yù)測方法,并且利用蟻群算法對支持向量機(jī)進(jìn)行參數(shù)優(yōu)化,以提高模型的準(zhǔn)確率。文章中使用了福建省1985—2014年的數(shù)據(jù)進(jìn)行實(shí)證,獲得了不錯(cuò)的結(jié)果。可見,利用該模型預(yù)測在崗職工年平均工資是有一定的參考意義的,同時(shí)也為探索福建省在崗職工的年平均工資的未來變化趨勢提供可靠的參考依據(jù),以便協(xié)助相關(guān)部門進(jìn)行決策。
參考文獻(xiàn):
[1]顧亞祥,丁世飛.支持向量機(jī)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011(2).
[2]徐達(dá),武新星,胡俊彪,等.最小二乘支持向量機(jī)回歸預(yù)測模型研究與實(shí)現(xiàn)[A].全國先進(jìn)制造技術(shù)高層論壇暨第八屆制造業(yè)自動化與信息化技術(shù)研討會論文集[C].2009.
[3]閆國華,朱永生.支持向量機(jī)回歸的參數(shù)選擇方法[J].計(jì)算機(jī)工程,2009(14).
[4]高芳,韓璞,翟永杰.基于變異操作的蟻群算法用于連續(xù)函數(shù)優(yōu)化[J].計(jì)算機(jī)工程與應(yīng)用,2011(4).
[5]倪麗萍,倪志偉,李鋒剛,等.基于蟻群算法的SVM模型選擇研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(9).
[6]閆來英,呂揚(yáng).江西省在崗職工平均工資水平預(yù)測[J].中國商貿(mào),2011(35).