国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于向量相似度的招聘就業(yè)雙向推薦模型

2013-07-19 01:57劉興林吳明芬劉利偉
中國科技信息 2013年21期
關鍵詞:求職者雙向學歷

劉興林 吳明芬 劉利偉

五邑大學計算機學院,廣東 江門 529020

引言

當前我國就業(yè)形勢越來越嚴峻,隨著我國諸多教育政策的不斷推出與執(zhí)行,社會的飛速發(fā)展這個大的背景下,高等教育的生源越來越廣泛,高等教育為了國家政策和社會的需要不斷地擴招[1],2013年新增就業(yè)大學生達699萬,這導致就業(yè)的力越來越大。盡管每年的畢業(yè)生在增多,但仍然存在一些企業(yè)出現(xiàn)招工難的問題,這里主要的問題是招聘不到合適的人才。據(jù)調查統(tǒng)計,江門市勞動力資源在數(shù)量上較為豐富,然而就業(yè)結構不太合理,勞動力文化素質普遍偏低,高端技術型工種人才較短缺,“招工難”與“就業(yè)難”問題并存[2]。

為解決就業(yè)存在的各種問題,結合當前江門市的就業(yè)形勢,我們設計了基于向量相似度的招聘就業(yè)雙向推薦模型,為應聘者和企事業(yè)招聘搭建了一個橋梁,找到各自合適的崗位和人才。該模型在投入應用后,取得了較好的成效。

1 相關工作

當前就業(yè)推薦采用的方法主要有層次分析法[3,4],數(shù)據(jù)挖掘[5],聚類分析[6],隨機游走[7]等。

層次分析法由T. L. Saaty[8]首次,是定量和定性分析相結合的多目標決策方法,它能夠有效地分析目標準則體系層次間的非序列關系,便于綜合測決策的判斷和比較,多用于社會、經(jīng)濟和管理等方面。陳玉峰等[3]根據(jù)農(nóng)民工的特征,采取不同的信息收集方式來采集農(nóng)民工基本信息特征及操作信息并利用ID3算法進行了相關計算,在此基礎上,引入層次結構模型設計方法,提出了更符合農(nóng)民工特征的用戶模型及其表示方法,能更有效地實現(xiàn)農(nóng)民工就業(yè)崗位的快速推薦。高曉霞等[4]利用層次分析法建立了高職學生就業(yè)推薦綜合測評模型,通過對定性因素加以量化并構造判斷矩陣,進行一致性檢驗,給出了一種公開、公平的開展高職學生就業(yè)推薦的方法。層次分析法的應用較為廣泛[8-10],文獻[3]和文獻[4]將該方法應用于就業(yè)推薦,對就業(yè)工作起到了較好的促進作用,但層次分析法模型較為復雜,在構造就業(yè)推薦模型時需要大量的權重設置和計算,因此在效率上有所限制。

陳玉峰等[5]前面的研究基礎上,深入分析數(shù)據(jù)挖掘理論與農(nóng)民工的主要特征要素,采用決策樹模型中的ID3算法,對樣本進行整理、轉換以及分類,構建了一個基于數(shù)據(jù)挖掘的農(nóng)民工就業(yè)推薦系統(tǒng),從海量的信息中發(fā)現(xiàn)規(guī)律和知識,為企業(yè)單向推薦相關技術人才。

李晶等[6]將聚類分析應用于就業(yè)推薦,將應聘者和招聘企業(yè)數(shù)據(jù)通過相關度處理,使用改進粒子群優(yōu)化的聚類分析算法,實現(xiàn)招聘企業(yè)與應聘者的相互推薦.解決了推薦信息無用、雜亂等實際問題。這種方法將招聘方和應聘方同等處理,忽略了從雙方各自更關注的信息角度出發(fā)考慮問題,比如對于應聘者,在向其推薦企業(yè)時,顯然在同等條件于待遇高的企業(yè)要優(yōu)先推薦,反過來,對于招聘方而言,則希望將薪酬要求低的應聘者優(yōu)先推薦。

吳迪等[7]設計并實現(xiàn)了一個基于隨機游走的就業(yè)推薦系統(tǒng),通過比較應屆和往屆畢業(yè)生基本特征,并結合基于隨機游走模型的PageRank算法獲得的各個企業(yè)的“求職指數(shù)”,將招聘企業(yè)排序后推薦給每一名畢業(yè)生。經(jīng)實際數(shù)據(jù)測試,該系統(tǒng)能有針對性的為畢業(yè)生推薦相關企業(yè),有較好的效果。

在上述研究中,主要是單向的推薦,采用層次分析法在運行效率上有所欠缺,為更高效的解決就業(yè)雙向推薦的問題,我們提出了基于向量相似度的招聘就業(yè)雙向推薦模型,該模型將就業(yè)意向和招聘信息看成一條向量,抽取兩者共有的重要因素作為組成向量的分量,并對其進行量化,通過計算它們之間的相似度來實現(xiàn)雙向推薦。

2 基于向量相似度的招聘就業(yè)雙向推薦模型

基于向量相似度的招聘就業(yè)雙向推薦模型分以下四個步驟進行。

2.1 篩選

由于實際的招聘應聘數(shù)據(jù)量達到50萬以上,為了降低模型的計算量,提高運算效率和準確率,在進行雙向推薦時對求職意向和招聘信息進行了篩選,主要進行以下篩選操作。

(1)空值篩選

考慮到某些信息填寫不完夠整,系統(tǒng)會對大部分數(shù)據(jù)根據(jù)求職者信息和企業(yè)登記信息進行自動填寫,但有些數(shù)據(jù)無法補充完整,模型在運行時則將這部分空值數(shù)據(jù)過濾掉,以保證進行模型數(shù)據(jù)的完整性。

(2)資格篩選

資格篩選主要考慮的是發(fā)布的求職意向和招聘信息是否過期,另外也要將已經(jīng)求職成功和招聘成功的記錄過濾掉。

(3)條件篩選

條件篩選是對所在的求職意向作招聘進行篩選,若為求職者推薦崗位,則以求職者個人的信息為標準,對招聘信息進行篩選;若為企業(yè)推薦求職者,則以招聘企業(yè)的要求為標準,對求職者進行篩選。條件篩選的主要有以下幾個方面:對工種,按工種編碼先使用商用細類代碼進行完全匹配篩選,若無數(shù)據(jù)再回退使用前4位進行部分匹配篩選;對學歷進行覆蓋篩選,對求職者而言,以求職者的學歷對招聘企業(yè)進行篩選時,篩選出學歷招聘要求等于或低于求職者學歷的招聘信息,反之則篩選出等于或高于企業(yè)學歷要求的求職者。

2.2 向量的生成

每條招聘信息或求職意向生成一個向量,該向量的各分量為招聘企業(yè)或求職者的各個條件,所有招聘信息或求職意向各自形成一個向量集。如,企業(yè)招聘信息向量:招聘(工種,學歷,職稱,年齡,性別,薪酬,住宿要求,工作地點,…),個人求職信息向量:求職(工種,學歷,職稱,年齡,性別,薪酬,住宿要求,工作地點,…),可以看到兩個向量的各個分量是一一對應的。生成向量時考慮到企業(yè)和求職者的實際情況以及雙向所注重的因素,本模型向量只采用了工種,學歷,職稱,年齡,性別,薪酬,食宿要求和工作地點這8個分量。

為便于算法模型描述,將上述向量進行形式化:

2.3 向量量化

2.3.1 量化規(guī)則

為企業(yè)推薦求職者時以企業(yè)招聘信息向量為標準向量,其各個分量的值設為1,對于篩選出來的個人求職信息向量集,其每個向量的每個分量的取值范圍為[0,1],完全不匹配取值0,完全匹配或不限制取值為1。對個人求職而言,以個人求職信息向量為標準向量,其各個分量的值設為1,對于篩選出來的企業(yè)招聘信息向量集,其每個向量的每個分量的取值范圍為[0,1],完全不匹配取值0,完全匹配或不限制取值為1。

對向量各分量(建立映射表)逐一進行量化,各分量量化值為預設值(可根據(jù)模型運行情況調整),在充分的實驗基礎之上,考慮按工種為各分量設定不同的量化值。各分量量化基本規(guī)則如下。

(1)工種

以工種編碼作為量化的基礎,向企業(yè)推薦求職者和向求職者推薦崗位均采用以表1數(shù)據(jù)作為量化的依據(jù)。

表1 工種量化表

(2)學歷

在對學歷進行量化時,分兩種情況,一是向企業(yè)推薦求職者,二是為求職者推薦崗位。

向企業(yè)推薦求職者時,采取以下原則:在其他條件相同的情況下,優(yōu)先向企業(yè)推薦高學歷的求職者。根據(jù)這個原則設定表2數(shù)據(jù)作為向企業(yè)推薦求職者時匹配向量的量化依據(jù)。

表2 推薦求職者學歷量化表

若向求職者推薦崗位,則在滿足招聘條件的前提下,優(yōu)先向求職者推薦最接近求職者學歷的企業(yè),比如,求職者的學歷為本科,則篩選出來的企業(yè)對學歷要求為本科及以下的所有招聘信息,在向求職者推薦時將學歷要求為本科的排在前,其他學歷依次往后排。

在量化時,參照表2的匹配向量量化值,采用公式1對企業(yè)招聘信息學歷要求進行量化。

其中,為求職者學歷按上表對應的量化值, 為企業(yè)學歷要求按上表對應的量化值。

(3)職稱/技術等級

對職稱和技術等級進行量化時,參照表3進行。

表3 職稱/技術等級量化表

由于當前系統(tǒng)中并沒有填寫該字段信息,模型實際運行時將該分量設為0,即不考慮該分量對推薦的影響。

(4)年齡

當向企業(yè)推薦求職人員時,考慮到在其他條件相同的前提下,企業(yè)更期望招聘年輕些的求職者,因此在量化時將更年輕的求職者量化為較高的值,年齡大的求職者量化較低的值,采用公式2對求職人員的年齡進行量化。

式2表示,不大于25歲的人,對子集“年輕”的隸屬函數(shù)值是1,即一定屬于這一子集;而大于25歲的人,對子集“年輕”的隸屬函數(shù)值按來計算,例如對40歲的人,隸屬函數(shù)值

當向求職者推薦招聘崗位時,采用區(qū)間量化的方案進行量化。設年齡的取值集合為U={50歲,45歲, 40歲 ,35歲,30歲, 25歲},模糊集“年青”可表示為:

A=0/50歲+0.1/45歲 + 0.3/40歲 + 0.5/35歲 + 0.9/30歲 +1/25歲,若年齡介于(50,45)之間,則量化為一個(0,0.1)間的一個值,其他以此類推。

(5)性別

對性別進行量化時,分別采用表4和表5量化值進行量化。

表4 向企業(yè)推薦求職者性別量化表

表5 向求職者推薦崗位性別量化表

(6)薪酬

當向企業(yè)推薦求職者時,從企業(yè)招聘角度出發(fā)考慮,僅就薪酬這個因素而言,會優(yōu)先考慮對薪酬期望值更低的求職者,因此在向企業(yè)推薦求職者時,將開出薪酬更低的求職者排在前面,因此構造以下量化規(guī)則。

設企業(yè)薪酬最低值為aavg,求職者薪酬要求最低值為:a1,a2,…,an,令M=max(a1,a2,…,an), m=min( a1,a2,…,an),則企業(yè)薪酬為標準向量,其值為1,求職者薪酬按公式3進行量化。

若6e 為負數(shù),則令其為0。

當向求職者推薦崗位時,分析求職者對薪酬的心理期望,顯然會更優(yōu)先考慮開出薪酬更高企業(yè),因此在向求職者推薦崗位時,將開出薪酬更高的企業(yè)排在前面,因此構造以下量化規(guī)則。

11月26日,機電一體化專家博澤中國太倉新生產(chǎn)基地舉行了開業(yè)慶典儀式。博澤太倉新工廠總建筑面積達7.3萬?m2,總投資額達14億元人民幣。新工廠將生產(chǎn)近全系列博澤產(chǎn)品,包括車門系統(tǒng)、玻璃升降器、門鎖模塊、座椅系統(tǒng)、座椅導軌、座椅電動機等。客戶涵蓋國內外知名整車制造商,包括福特、吉利、捷豹路虎、大眾、沃爾沃等。此外,新工廠分為一期和二期,目前一期工廠已投入使用,二期工廠正在建設之中。未來,二期工廠大部分是用于座椅的垂直生產(chǎn),包括沖壓、噴涂、激光焊接和整椅的組裝產(chǎn)線等。隨著二期的落成,至2024年工廠預計將擁有1?600多名員工,年營業(yè)額將突破58億元人民幣,規(guī)模列博澤亞洲第一。

設求職者薪酬要求的最低值為aavg,企業(yè)薪酬最低值為:a1,a2,…,an,令M=max(a1,a2,…,an), m=min( a1,a2,…,an),則求職者薪酬為標準向量,其值為1,企業(yè)薪酬按公式4進行量化。

(7)食宿要求

當向企業(yè)推薦求職者時,從企業(yè)招聘角度出發(fā)考慮,僅就住宿要求這個因素而言,會優(yōu)先考慮對食宿要求越低的求職者,因此在向企業(yè)推薦求職者時,將食宿要求越低的求職者排在前面,建立以下映射表(表6)進行量化。

表6 向企業(yè)推薦求職者食宿要求量化表

當向求職者推薦崗位時,分析求職者對食宿要求的心理期望,顯然會更優(yōu)先考慮能夠解決住宿問題的企業(yè),因此在向求職者推薦企業(yè)時,將住宿條件更好的企業(yè)排在前面,建立以下映射表(表7)進行量化。

表7 向求職者推薦崗位食宿條件量化表

(8)工作地點

當前模型僅對江門地區(qū)的工作地點進行量化,根據(jù)行政區(qū)域編碼的匹配度來進行量化。行政區(qū)域編碼共10位,其中前6位編碼及表示的地區(qū)如下:440703(蓬江區(qū)),440704(江海區(qū)),440705(新會區(qū)),440781(臺山市),440783(開平市),440784(鶴山市),440785(恩平市),編碼中第7-8位表示鎮(zhèn)及街道,第9-10位表示村。

建立表8對工作地點進行量化(為企業(yè)推薦求職者和為求職者推薦崗位均按該表進行量化)。

表8 工作地點量化表

2.3.2 量化實例

系統(tǒng)隨機生成20萬條求職信息和10萬條招聘信息,用于模型測試用。模型在量化時,按推薦求職者和推薦崗位來采用相應的量化規(guī)則進行量化,下面給出一組量化實例。

(1)向企業(yè)推薦求職者

從數(shù)據(jù)庫中抽取招聘編號為“1”的招聘信息,如表9所示。

表9 編號為“1”的招聘信息

由于數(shù)據(jù)庫中存儲的各字段內容為相應的編碼,因此表9中給出也是相應的編碼(以下同),代表不同的含義(性別列中值為3表示男女不限)。在為該招聘推薦求職者時,該招聘記錄向量為標準向量,除“職稱/技術等級”分量外各分量均量化為1,即招聘向量1(工種,學歷,職稱,年齡,性別,薪酬,住宿要求,工作地點)量化為E1(1,1,0,1,1,1,1,1)。

模型為該招聘信息篩選推薦出以下求職者,如表10所示,相應的,各字段給出的也是編碼(以下同)。

表10 為“1”號招聘篩選推薦出的求職者信息

模型按2.3.1節(jié)的量化規(guī)則對求職者信息進行量化,得到表11所示的量化結果。

表11 求職者信息量化結果

為盡可能區(qū)分各求職者與招聘要求之間的差距,表11中的量化結果按四舍五入的規(guī)則取四位小數(shù)。

(2)向求職者推薦崗位

從數(shù)據(jù)庫中抽取求職編號為“1”的求職者信息,如表12所示。

表12 求職編號為“1”的求職者信息

在為該求職者推薦崗位時,該求職信息向量為標準向量,除“職稱/技術等級”分量外其余各分量均量化為1,即求職向量1(工種,學歷,職稱,年齡,性別,薪酬,住宿要求,工作地點)量化為P1(1,1,0,1,1,1,1,1)。

模型為該求職者篩選推薦出以下崗位信息,如表13所示。

表13 為“1”號求職者篩選推薦出的崗位信息

模型按2.3.1節(jié)的量化規(guī)則對崗位信息進行量化,得到表14所示的量化結果。

表14 崗位信息量化結果

為盡可能區(qū)分各崗位信息與求職者要求之間的差距,表11中的量化結果按四舍五入的規(guī)則取四位小數(shù)。

2.4 相似度計算

在為企業(yè)推薦求職者,或為求職者推薦崗位時,需要計算他們之間的匹配度,匹配度根據(jù)2.3節(jié)的量化結果進行計算,即計算每條推薦向量與標準向量之間的相似度,然后按這個相似度從高到低排序,使得更符合的求職者或崗位能排在前面。

向量相似度的計算采用夾角余弦公式來計算,計算公式如式5所示。

其中分子和分母分別按公式6和公式7來計算。

就2.3.2節(jié)的例子(在本節(jié)已將相關的編碼轉換為對應的含義,這樣便于分析比較匹配度結果),采用向量相似度計算公式來計算,向企業(yè)和求職者分別進行推薦,進行就業(yè)信息匹配,得到以下結果表15、表16、表17和表18所示結果。

表15 招聘編號為“1”招聘信息

表16 “1”號招聘的推薦結果

表17 “1”號求職者信息

表18 “1”號求職者的推薦結果

由于測試數(shù)據(jù)是隨機生成的,而算法在向企業(yè)推薦求職者時,在其他條件相等的情況下優(yōu)先推薦推薦學歷更高的求職者,因此會出現(xiàn)表16中博士、碩士去應聘電工這個工種的情況,實際情況不會出現(xiàn)這種現(xiàn)象。

從上述就業(yè)信息匹配實例來看,基于向量相似度的招聘就業(yè)雙向推薦模型能較好實現(xiàn)招聘與應聘的對接,算法模型取得了較好的效果。

3. 實驗結果分析與比較

本節(jié)實驗主要考察模型的運行效率,模型的準確性在第2節(jié)已得到了驗證。

3.1 測試數(shù)據(jù)集實驗結果分析

模型實驗測試在隨機生成的20萬條求職信息和10萬條招聘信息數(shù)據(jù)集上進行,模型運行在以下配置的機器上:Windows7操作系統(tǒng),CPU為AMD雙核5000,2G內存,500G硬盤,從篩選、量化和相似度計算三個環(huán)節(jié)考察模型雙向推薦的運行效率,共進行了6組實驗,平均結果如表19所示。

表19 測試數(shù)據(jù)集模型運行效率(單位:條/秒)

表19的結果顯示,該模型大部時間消耗在篩選階段,量化和相似度計算階段取得了較好的運行效率。

3.2 實際數(shù)據(jù)運行結果分析

模型投入實際運行后,實際招聘應聘的數(shù)據(jù)規(guī)模約50萬條。從篩選、量化和相似度計算三個環(huán)節(jié)考察模型雙向推薦的運行效率。實際系統(tǒng)配置了IBM System X3850系列服務器(2顆Xeon E7-4807 1.86GH,16GB內存,4TB硬盤),硬件性能的提升也使模型的效率得到大幅度的提升。實際運行結果如表20所示。

表20 實際數(shù)據(jù)集模型運行效率(單位:條/秒)

表20的結果顯示,模型在實際數(shù)據(jù)集上亦能取得很好的運行效率。同時,從企業(yè)和求職者的反饋信息分析,模型能較好的實現(xiàn)招聘就業(yè)雙向推薦,能為雙向推薦最合適的崗位和人才,實現(xiàn)了雙贏。

4 結語和下一步的工作

本文實現(xiàn)了一個基于向量相似度的招聘就業(yè)雙向推薦模型,通過將招聘和求職信息轉化為向量,并按不同規(guī)則對不同分量進行量化,采用夾角余弦公式計算向量間的相似度,并以此作為雙向推薦的標準,模型在測試數(shù)據(jù)集和實驗數(shù)據(jù)集上均取得了較好的效果。

進一步的工作主要有:1)優(yōu)化各分量量化數(shù)值,目前模型采用的是經(jīng)驗值,在模型穩(wěn)定運行后,需要根據(jù)實驗情況來調整量化值,使用模型更為合理;2)考慮到在招聘和應聘的過程中,對各個分量有側重,當前模型中各個分量的權重是一致,在后續(xù)的改進中將對各分量進行權重調整,以突出關鍵分量的重要性;3)優(yōu)化模型算法,提高運行效率。實驗結果和實際運行情況表明,模型在篩選階段占用大量時間,直接影響了模型的效率,盡管由于機器性能的提升能提高效率,但仍需要不斷優(yōu)化模型,以適應大數(shù)據(jù)集的需要。

[1]李英. 淺析當今我國高校研究生就業(yè)現(xiàn)狀[J]. 神州, 2013, (3): 240.

[2]柳彥君. 江門市勞動力資源與就業(yè)狀況研究[J]. 北方經(jīng)貿(mào), 2012, (10): 38-40.

[3]陳玉峰, 張紅燕, 敬松, 謝元瑰, 隆珂. 基于層次結構的農(nóng)民工就業(yè)特征模型研究[J]. 中國農(nóng)學通報, 2013, 29(11): 101-106.

[4]高曉霞. 層次分析法在高職學生就業(yè)推薦中的應用[J]. 讀與閱雜志, 2010, 7(12): 46-47.

[5]陳玉峰, 張紅燕, 敬松, 謝元瑰. 基于數(shù)據(jù)挖掘的農(nóng)民工就業(yè)推薦系統(tǒng)構建[J]. 安徽農(nóng)業(yè)科學, 2011, 39(33): 20896-20898.

[6]李晶, 張磊. 聚類分析在就業(yè)推薦中的應用[J]. 科技信息, 2010, (31): 149.

[7]吳迪, 周利娟, 林鴻飛. 基于隨機游走的就業(yè)推薦系統(tǒng)研究與實現(xiàn)[J]. 廣西師范大學學報: 自然科學版, 2011, 29(1): 179-185.

[8]Saaty T. L.. Modelinugn structuredde cisiopnr oblems-ththee ory of analytical hierarchies[J]. MathemaCtiocsm apnudt ers in Simiounla, 1t978, 20(3): 147-158.

[9]郭金玉, 張忠彬, 孫慶云. 層次分析法的研究與應用[J]. 中國安全科學學報, 2008, 18(5): 148-153.

[10]蘭繼斌, 徐揚, 霍良安, 劉家忠. 模糊層次分析法權重研究[J]. 系統(tǒng)工程理論與實踐, 2006, (9): 107-112.

猜你喜歡
求職者雙向學歷
雙向度的成長與自我實現(xiàn)
起初為娛樂,現(xiàn)在做招聘:直播幫中國求職者找工作
降低寄遞成本需雙向發(fā)力
用“雙向宮排除法”解四宮數(shù)獨
學歷軍備競賽,可以休矣
完善刑事證據(jù)雙向開示制度的思考
加納移民局招聘:有妊娠紋不行
膨脹學歷
民生表情
面試中的12個禁忌
耒阳市| 靖安县| 天气| 偃师市| 象州县| 来宾市| 克东县| 玛沁县| 罗平县| 吉安市| 虞城县| 澄江县| 桦甸市| 罗江县| 且末县| 张家港市| 揭阳市| 威宁| 长治市| 如皋市| 临清市| 唐河县| 若尔盖县| 彰化县| 新民市| 盖州市| 故城县| 清河县| 肇源县| 屏东县| 封开县| 竹山县| 新密市| 卓尼县| 郴州市| 攀枝花市| 沭阳县| 石棉县| 香格里拉县| 芦溪县| 夏津县|