国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分—馬爾可夫鏈模型的高職院校就業(yè)的預(yù)測研究

2022-09-21 07:55黃敏菁練佳熠宋偉奇
電腦知識與技術(shù) 2022年24期
關(guān)鍵詞:馬爾可夫就業(yè)率殘差

黃敏菁,練佳熠,宋偉奇

(柳州城市職業(yè)學(xué)院,廣西柳州 545036)

1 概述

2020 年,在新冠肺炎疫情的影響下,國內(nèi)經(jīng)濟增長速度放緩,就業(yè)市場面臨嚴(yán)峻的挑戰(zhàn)。雖然2021年GDP增長帶來了新的就業(yè)機會,在一定程度上緩解就業(yè)壓力,但據(jù)教育部公示數(shù)據(jù)2021年高校畢業(yè)生高達(dá)909萬人,創(chuàng)歷史新高。另一方面,國外經(jīng)濟形勢持續(xù)下滑,留學(xué)生回流,導(dǎo)致2021年就業(yè)形勢也不容樂觀。2021年習(xí)近平總書記對職業(yè)教育工作做出指示,職業(yè)教育前途廣闊、大有可為。作為高職院校,本就是以就業(yè)為導(dǎo)向,為各個崗位輸送人才。因此,對畢業(yè)生就業(yè)情況進行研究,探究影響就業(yè)因素并且對就業(yè)率進行建模和預(yù)測,為高職院校招生就業(yè)指導(dǎo)提供參考依據(jù)顯得尤為重要。

對于高職院校就業(yè)率問題,有許多學(xué)者進行了研究,針對就業(yè)率的預(yù)測提出了一些可行的方法。第一種是采用專家系統(tǒng),通過領(lǐng)域內(nèi)一些專家對職業(yè)院校學(xué)生就業(yè)特點進行分析,建立職業(yè)院校就業(yè)率預(yù)測的知識專家?guī)?,對未來某時刻職業(yè)院校學(xué)生的就業(yè)率進行估計和預(yù)測,但這種方法工作過程復(fù)雜,對專家?guī)斓囊蕾囆愿撸泻軓姷闹饔^性[1]。第二種是時間序列進行預(yù)測,將就業(yè)率看成一個灰色系統(tǒng),不需要了解影響系統(tǒng)的因素就可以對就業(yè)率的變化進行預(yù)測,但就業(yè)率并非持續(xù)增長而是會有波動,單一的灰色系統(tǒng)只可對增長趨勢的模型進行預(yù)測,且只單一預(yù)測出就業(yè)率,無法理解具體的影響因素對高校就業(yè)指導(dǎo)的作用不大。第三種是利用主成分分析法等模型選出影響就業(yè)率的主要因素,將影響因子作為輸入,就業(yè)率作為輸出進行預(yù)測[2]。第四種是神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入影響因子,預(yù)測出較為精確的數(shù)據(jù),但神經(jīng)網(wǎng)絡(luò)往往需要大量數(shù)據(jù)訓(xùn)練才能達(dá)到效果,樣本量較少會影響神經(jīng)網(wǎng)絡(luò)輸出的穩(wěn)定性。

基于現(xiàn)實情況,往往不能提供大量的就業(yè)率數(shù)據(jù),所以選用第三種方法,運用主成分分析的方法對就業(yè)率進行預(yù)測。但就業(yè)率影響因素很多,且存在一定的隨機性和非線性,為了增加模型預(yù)測的準(zhǔn)確性,利用馬爾可夫鏈模型適用于隨機波動大的特點,本文將兩種模型對高職就業(yè)率進行預(yù)測。利用主成分分析建模找出影響就業(yè)率的主要因子并進行消除共線性、降維等處理,提高就業(yè)率數(shù)據(jù)預(yù)測的效率。在主成分回歸模型預(yù)測就業(yè)率的基礎(chǔ)上利用馬爾可夫鏈對預(yù)測數(shù)據(jù)進行修正,建立主成分-馬爾可夫鏈預(yù)測模型,提高預(yù)測數(shù)據(jù)的準(zhǔn)確率。

2 模型構(gòu)建

2.1 主成分回歸分析模型

主成分回歸模型是利用了降維的思想,將在線性回歸模型中存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系的一組解釋變量,在只損失少量信息的前提下,通過正交旋轉(zhuǎn)變換為一組線性不相關(guān)的變量,正交變換后的這組變量就叫作主成分。由此可知,每一個主成分都是由原始變量的線性組合,并且各個主成分之間互不相關(guān)。因此通過主成分分析,除了可以降低研究因素的維度,在研究復(fù)雜多因素問題時還可以不用考慮變量之間是否相互獨立的問題,并且可以通過構(gòu)造主成分的線性組合探究各個因素間的內(nèi)部關(guān)系。用主成分分析后構(gòu)造出的主成分作為新的自變量代替原有的因素做回歸分析,可提高模型的計算效率,增加模型的可解釋性。

主成分回歸分析模型構(gòu)造理論如下:

首先進行主成分構(gòu)造。設(shè)選出可能影響某事物變化的因素有p 個,分別用X1,X2,…,Xp表示,這p 個因素構(gòu)成p 維的隨機向量X=(X1,X2,…,Xp)',其中隨機向量X的均值為μ,協(xié)方差矩陣為Σ。可對向量X進行線性變換,得到新的p維隨機向量Y,即滿足下式:

若要進行的線性變換正好為正交變換,即各Yi之間相互獨立且變換后的Yi=μ'iX方差盡可能大。并且線性變換要滿足以下條件:

(1)μ'iμi=1,即=1(i=1,2,…,p)。

(2)Yi與Yj不相關(guān)(i≠j;i,j=1,2,…,p),即cov(Yi,Yj)=μ'iΣμj=0,i≠j。

至此,經(jīng)過正交線性變換后的p維因素可稱為p個主成分,并且消除各因素間的共線性,實現(xiàn)互不相關(guān)。若要實現(xiàn)降維,選出理想的主成分就要保留變換后方差最大的主成分,而舍棄方差較小的主成分。即在滿足正交線性變換條件(1)的情況下,Y1是所有X1,X2,…,Xp線性組合中的方差最大者;Y2是與Y1不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者;……;Yp是與Y1,Y2,…,Yp-1都不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者。可選出前q個主成分作為回歸模型的自變量,實現(xiàn)降維的要求[3]。

其次,將選出的q個主成分作為自變量,建立回歸模型,進行回歸分析??筛鶕?jù)投入模型的主成分個數(shù)選擇一元回歸或多元回歸分析,并且可根據(jù)因變量和自變量的變化趨勢選擇線性回歸或者非線性回歸分析。

2.2 馬爾可夫鏈模型

馬爾可夫鏈?zhǔn)歉鶕?jù)現(xiàn)有的狀態(tài)轉(zhuǎn)移規(guī)律,預(yù)測未來可能出現(xiàn)的狀態(tài)模型。在事情發(fā)展的過程中,若每次狀態(tài)的轉(zhuǎn)移都只和前一時刻的狀態(tài)相關(guān),與過去的狀態(tài)無關(guān),具有這樣屬性的隨機過程稱為馬爾可夫鏈。原理如下:

設(shè){Xn}={Xn|n=0,1,…}的狀態(tài)空間是I,并且用i,j,l,i0,i1,…等表示I中的狀態(tài)。如果對任何正整數(shù)n 和I中的i,j,l,i0,i1,…,in-1隨機序列{Xn}滿足:

P(Xn+1=j|Xn=i,Xn-1=in-1,…,X0=i0)=P(Xn+1=j|Xn=i)=P(X1=j|X0=i)

則稱{Xn}為時齊的馬爾可夫鏈,簡稱“馬氏鏈”。這時稱Pij=P(X1=j|X0=i),i,j∈I為馬氏鏈{Xn}的轉(zhuǎn)移概率,稱矩陣P=(pij)=為馬氏鏈{Xn}的一步轉(zhuǎn)移矩陣,簡稱為轉(zhuǎn)移矩陣。且轉(zhuǎn)移矩陣P的各行之和等于1,即:

若從隨機序列{Xn}中狀態(tài)i經(jīng)過一步轉(zhuǎn)移達(dá)到狀態(tài)j的頻數(shù)為fij,i,j∈I,即有轉(zhuǎn)移概率pij=。將轉(zhuǎn)移矩陣的第j列之和除以各行各列綜合所得的值稱為邊際概率,記為p·j,即滿足:

χ2統(tǒng)計量滿足:

并且服從自由度為(n-1)2的χ2分布。若給定置信度為α,如χ2>,則拒絕零假設(shè),認(rèn)為序列{Xn}具有馬爾可夫性(即馬氏性),反之,則這個序列不能作為馬爾可夫鏈處理[5]。

2.3 主成分—馬爾可夫鏈模型

對于主成分回歸模型的預(yù)測結(jié)果,得到的殘差具有隨機性??山?jīng)檢驗具有馬氏性后,運用馬爾可夫鏈模型對殘差結(jié)果進行修正。設(shè)殘差序列為e=(e1,e2,e3,…),其中ei=為預(yù)測值,yi為實際值。將殘差序列劃分為k個狀態(tài)區(qū)間,設(shè)第i個狀態(tài)區(qū)間為Ei,i∈(0,k]。后計算殘差序列的一步轉(zhuǎn)移矩陣Pk×k=。當(dāng)殘差的預(yù)測值落在區(qū)間Ei時,記[Eil,Eiu]為區(qū)間的范圍,取區(qū)間的均值=(Eiu-Eil)/2 作為該區(qū)間的中殘差的預(yù)測值。并且修正后的預(yù)測值為:

3 模型實證

3.1 數(shù)據(jù)來源

本文數(shù)據(jù)來源于選取某高校2015~2020 年共6 年,6 個系部,36個專業(yè)的就業(yè)率數(shù)據(jù)。由于高職畢業(yè)生的就業(yè)范圍多是服務(wù)本地產(chǎn)業(yè),所以選取的影響因素需要多是從區(qū)域范圍選取?,F(xiàn)從區(qū)域經(jīng)濟、區(qū)域社會情況和高校三個方面選取影響就業(yè)率的相關(guān)因素。由于區(qū)域經(jīng)濟和社會情況數(shù)據(jù)獲得具有一定的滯后性,所以區(qū)域經(jīng)濟選取2014~2019年區(qū)域生產(chǎn)總值、各個產(chǎn)業(yè)總值及占比、固定投資增速、相關(guān)產(chǎn)業(yè)固定投資增速作為模型影響因子。區(qū)域社會因素選取2014~2019年從業(yè)人員單位數(shù)、就業(yè)人數(shù),相關(guān)行業(yè)單位數(shù)、相關(guān)行業(yè)從業(yè)人員數(shù)作為模型影響因子。高校因素方面選取2015~2020年教職工數(shù)量、招生人數(shù)作為模型影響因子[7]。

圖1 影響就業(yè)率因素

3.2 數(shù)據(jù)處理

本文采用主成分回歸分析模型,根據(jù)上述選擇的影響就業(yè)率因素,共有15 個影響因子輸入模型。由于各個因子的量綱不同,如果直接使用原始數(shù)據(jù)會使得量級較大的字段放大對整體的影響,例如生產(chǎn)總值都是億萬級別的數(shù)據(jù),若直接投入模型會直接影響主成分的權(quán)值。因此,需要對輸入模型的數(shù)據(jù)利用式(3)Z-score標(biāo)準(zhǔn)化處理。

其中,X為原始數(shù)據(jù),μ為各輸入字段對應(yīng)的均值,σ為個輸入字段對應(yīng)的標(biāo)準(zhǔn)差,Z為標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。標(biāo)準(zhǔn)化后的數(shù)據(jù)輸入主成分回歸模型默認(rèn)各個因子之間權(quán)重相等,不用考慮因子之間的差異和相互影響。

3.3 主成分-馬爾可夫鏈模型

第一步,將標(biāo)準(zhǔn)化后的輸入數(shù)據(jù)分為兩部分,取近兩年的作為測試集,其他數(shù)據(jù)作為訓(xùn)練集。

第二步,輸入主成分模型做降維處理。利用Python進行主成分分析。15個影響因子,由于部分因子存在相關(guān)性的原因,經(jīng)運算共有5個特征根。其中有三個成分的累計貢獻率較大,可作為主成分。表1 為提取主成分的總方差解釋表。可得前三個成分的累計方差百分比已經(jīng)達(dá)到93.67%,方差貢獻率高,表示前三個因素所包含的信息量已經(jīng)占了93.67%,可選前三個作為主成分。分別求出三個主成分的成分矩陣和各因子的特征值。得到由各因子組成的主成分表達(dá)式:

表1 主成分方差總解釋表

由以上表達(dá)式可見,第一個主成分受經(jīng)濟因素影響比較大,第二個和第三個主成分受相關(guān)行業(yè)社會因素影響比較大。

第三步,將原數(shù)據(jù)經(jīng)過式(2) 的計算得到降維后訓(xùn)練集。現(xiàn)在用Y對訓(xùn)練集前三個主成分做回歸分析,得到主成分回歸方程。并且計算決定系數(shù),發(fā)現(xiàn)模型的擬合效果較好,但個別的樣本點預(yù)測結(jié)果仍有較大誤差。

第四步,檢驗主成分回歸后的殘差序列{Ye}是否具有馬爾可夫性。由上述步驟可計算得到殘差Ye的區(qū)間范圍[-0.0682,0.0772],并且殘差值圍繞0上下波動,偏離超過5%以上的較少。因此根據(jù)實際情況,可將馬爾可夫鏈的狀態(tài)區(qū)間劃分為5個區(qū)間,得到馬爾可夫狀態(tài)集為:E1=[-0.07,-0.04),E2=[-0.04,-0.01),E3=[-0.01,0.02),E4=[0.02,0.05),E5=[0.05,0.08]。計算殘差落在各個區(qū)間的轉(zhuǎn)移頻數(shù),并計算轉(zhuǎn)移概率,得到一步轉(zhuǎn)移矩陣為:

并且經(jīng)過式(2)計算χ2統(tǒng)計量為44.057,在置信度α為0.05且自由度為16 的情況下=26.296<44.057。故可以判斷殘差序列{Ye}具有馬氏性,可對就業(yè)率預(yù)測值的殘差使用馬爾可夫修正。

第五步,對主成分回歸的預(yù)測結(jié)果進行修正。利用式(3)對預(yù)測的就業(yè)率數(shù)據(jù)進行馬爾可夫修正。以某專業(yè)2019~2020年就業(yè)率預(yù)測為例,得到的結(jié)果如表2:

表2 某專業(yè)就業(yè)率主成分—馬爾可夫鏈模型預(yù)測結(jié)果比對表

可由表2知,單一的主成分回歸模型在對某專業(yè)預(yù)測的平均絕對誤差為4.275%,對全部專業(yè)就業(yè)率預(yù)測的平均絕對誤差為2.467%;經(jīng)過馬爾可夫修正后的某專業(yè)就業(yè)率預(yù)測的平均絕對誤差為2.82%,對全部專業(yè)就業(yè)率預(yù)測的平均絕對誤差為1.333%。由此可知,馬爾可夫修正主成分回歸模型大大提高了預(yù)測的準(zhǔn)確率,使得修正值更接近實際值[8]。

4 結(jié)論及建議

4.1 結(jié)論

本文以某高校2015~2020 年各專業(yè)就業(yè)情況為例,結(jié)合主成分回歸模型和主成分——馬爾可夫鏈模型,將區(qū)域經(jīng)濟情況、行業(yè)情況和高校情況作為輸入指標(biāo),對就業(yè)率進行預(yù)測。針對兩種預(yù)測模型的比較,經(jīng)過馬爾可夫鏈修正后的主成分回歸模型預(yù)測就業(yè)率的精度更高,能有效減小預(yù)測數(shù)據(jù)與實際數(shù)據(jù)之間的差距,可為學(xué)校對未來招生就業(yè)政策的制定提供可靠的依據(jù)。并且由主成分回歸模型可得知影響高職就業(yè)率的主要因素是經(jīng)濟因素和行業(yè)情況。

4.2 建議

高職院校的就業(yè)率受各方面因素影響,除了學(xué)校方面需要努力外,總體來說,受區(qū)域經(jīng)濟和行業(yè)發(fā)展情況影響更大。在此情形下,學(xué)校若想提高就業(yè)率還得回歸職業(yè)教育的初心,以就業(yè)為導(dǎo)向,把握行業(yè)發(fā)展的脈搏。專業(yè)的設(shè)置應(yīng)該符合現(xiàn)在社會的發(fā)展和需要,對于專業(yè)的設(shè)置不能一成不變。并且學(xué)校的人才培養(yǎng)方向要根據(jù)區(qū)域發(fā)展的需要,為區(qū)域企業(yè)輸送人才,同時也為學(xué)生創(chuàng)業(yè)提供孵化條件,扶植區(qū)域企業(yè)的發(fā)展,達(dá)到互利共贏。

同時,在教學(xué)過程中的專業(yè)技術(shù)應(yīng)該與時俱進,加強產(chǎn)教融合、校企合作,深入企業(yè)了解行業(yè)的前沿技術(shù)和發(fā)展動向,教學(xué)內(nèi)容應(yīng)該及時根據(jù)市場崗位所需技能的主要方向而調(diào)整。以此提升學(xué)生的質(zhì)量和在就業(yè)市場上的競爭力。

猜你喜歡
馬爾可夫就業(yè)率殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學(xué)習(xí)的自適應(yīng)無人機目標(biāo)跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
保費隨機且?guī)в屑t利支付的復(fù)合馬爾可夫二項模型
基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
應(yīng)用馬爾可夫鏈對品牌手機市場占有率進行預(yù)測
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
本科新聞專業(yè)在京就業(yè)率較低
數(shù)據(jù)
就業(yè)率公布有高也應(yīng)有低
房产| 洛扎县| 会东县| 定西市| 兰坪| 凭祥市| 海伦市| 保靖县| 玉门市| 通河县| 五华县| 澎湖县| 芦溪县| 仙桃市| 都匀市| 航空| 阜新市| 光泽县| 辽源市| 富裕县| 余姚市| 林口县| 永清县| 屏边| 莫力| 嘉黎县| 永川市| 滁州市| 都安| 延津县| 汤原县| 娄底市| 金山区| 陆川县| 兴安盟| 宝鸡市| 鄂托克前旗| 肃南| 子长县| 喜德县| 汕尾市|