(浙江樹人大學(xué) 信息科技學(xué)院,浙江 杭州 310015)
2021年我國應(yīng)屆畢業(yè)生人數(shù)達(dá)到909萬,在疫情及國內(nèi)外產(chǎn)業(yè)調(diào)整雙重影響下,應(yīng)屆畢業(yè)生的就業(yè)問題尤為嚴(yán)峻。此外,由于信息不對等、人才培養(yǎng)規(guī)格以及產(chǎn)業(yè)脫節(jié)等原因造成的人才供給“雙盲”困局[1]日漸嚴(yán)重。因此,國內(nèi)外諸多學(xué)者將目光投向了個性化推薦技術(shù)[2],以期通過建立求職者與崗位之間的內(nèi)在關(guān)聯(lián)解決就業(yè)失衡的問題。García-Pealvo等[3]提出通過機(jī)器學(xué)習(xí)算法和聚類算法來構(gòu)建簡單的就業(yè)預(yù)測模型;陸佳雯等[4]和Ilich等[5]嘗試通過人口統(tǒng)計學(xué)構(gòu)建推薦算法,由于就業(yè)推薦的復(fù)雜性,算法的效果不佳且不能有效解決“冷啟動”問題;劉雙雙等[6]和王龍等[7]采用協(xié)同過濾算法對歷史就業(yè)信息進(jìn)行分析,進(jìn)而實現(xiàn)就業(yè)推薦,然而隨著數(shù)據(jù)量的增加,算法效率下降明顯。針對當(dāng)前就業(yè)研究中存在的重“模型構(gòu)建”輕“算法實用化”以及眾多現(xiàn)有就業(yè)推薦方法存在的高復(fù)雜度及“冷啟動”缺陷等問題,筆者借助用戶畫像簡化就業(yè)關(guān)聯(lián)規(guī)則,降低算法復(fù)雜度,并結(jié)合基于本體的相容匹配算法[8-9]解決“冷啟動”問題。
基于人口統(tǒng)計學(xué)的推薦算法可以根據(jù)歷史就業(yè)數(shù)據(jù)為新的就業(yè)對象推薦合適的就業(yè)崗位。即根據(jù)某待就業(yè)畢業(yè)生StuA在學(xué)習(xí)能力、實踐能力和創(chuàng)新能力等表現(xiàn)上與歷史就業(yè)信息庫中的某些已就業(yè)學(xué)生StuB[]具有極高的相似度,則推定:與StuB[]簽約崗位相似的新崗位也同樣適合StuA。將以上潛在就業(yè)規(guī)律稱作就業(yè)先驗知識(Employment prior knowledge,EPK)。
推理1設(shè)S,J分別為已就業(yè)學(xué)生及簽約崗位集合;S′i,J′i分別為待就業(yè)新生及新崗位,且有Employ(S,J),如滿足Mach(S′i,S)≥β,Mach(J′i,J)≥γ,則可得出S′i?J′i。其中,Employ為雇傭關(guān)系;Mach為匹配算法;β,γ分別為學(xué)生與崗位的最小相似度閥值;“?”為強(qiáng)就業(yè)關(guān)聯(lián)關(guān)系。
就業(yè)先驗知識示意圖以及基于畫像的就業(yè)先驗知識示意圖分別如圖1,2所示。
圖1 就業(yè)先驗知識示意圖Fig.1 Schematic diagram of employment prior knowledge recommendation
圖2 基于畫像的就業(yè)先驗知識示意圖Fig.2 Schematic diagram of employment prior knowledge recommendation based on profiling
在調(diào)用Mach函數(shù)進(jìn)行就業(yè)對象和崗位相似度運算時,需要將S′i與S集合中所有畢業(yè)生依次進(jìn)行匹配計算,其計算復(fù)雜度較高。為解決該問題,將海量的學(xué)生及崗位數(shù)據(jù)進(jìn)行規(guī)約,將畢業(yè)生群體及崗位集合分別抽象為畢業(yè)生畫像(簡稱StuProfiling)和崗位畫像(簡稱JobProfiling),從而將個體相似度Mach(S′i,S)運算簡化為畫像相似度Mach(S′i,StuProfiling)運算。具體定義如下:
定義1設(shè)S為已就業(yè)畢業(yè)生集合,SA為S的子集,即SA∈S;β為相似度閥值。如SA內(nèi)部各成員滿足
則稱StuProfiling為SA對應(yīng)的一個畫像,記為StuProfiling〈SA〉,同理可得JobProfiling〈JA〉。
構(gòu)建畢業(yè)生畫像及崗位畫像將極大降低相似度計算的復(fù)雜度,進(jìn)而可以將就業(yè)先驗知識EPK提升為基于畫像的就業(yè)先驗知識。
根據(jù)就業(yè)畫像StuProfiling及JobProfiling定義,結(jié)合就業(yè)先驗知識,構(gòu)建基于就業(yè)畫像的關(guān)聯(lián)知識庫(簡稱KBProfiling-AR,Knowledge base based on profiling association rule),具體定義如下:
定義2設(shè)StuProfiling〈S〉為已就業(yè)畢業(yè)生S集合的一個畫像;JobProfiling〈J〉為S對應(yīng)簽約崗位J集合的一個畫像,則有
KBProfiling-AR={KB1,KB2,KB3,…,KBi,…,KBN}
式中:KBi=StuProfiling〈S〉?JobProfiling〈J〉。
本體匹配是兩個同源本體實例的映射過程,可以由四元組表示,即
〈c1,c2,r,k〉c∈[simple-data,c],r∈[=,?,∩,⊥],k∈[0,1]
(1)
式中:c1,c2為兩個同源的本體概念實例,由基本數(shù)據(jù)類型(包含string,integer,float,date,bool,enum等)和本體概念實例嵌套而成;r為c1和c2映射關(guān)系,包含相等、包含、重疊和不相關(guān)4種情形;k為r的關(guān)聯(lián)程度。String的匹配可以通過字符串相等、海明距離、字符串包含、文本分析及自然語言處理等方式計算相似度;integer,float,date,bool等類型則直接通過數(shù)值運算方式計算匹配關(guān)系;enum則通過上下位關(guān)系、同反義關(guān)系、成員及部分整體關(guān)系等方式進(jìn)行匹配計算。
一般的本體匹配比較呆板,只返回0,1結(jié)果,為了使匹配過程更具“語義”特性,引入“相容匹配”[10]的概念,具體定義如下:
定義3C1,C2分別指隸屬同一分類體系的兩個概念實例模式,若C1經(jīng)過結(jié)構(gòu)層次展開后各葉子節(jié)點值的約束比C2更寬松,則C1語義包容C2,記為C1 引入“相容匹配”后,需要對原有的概念描述結(jié)構(gòu)進(jìn)行拓展,增加“方向”側(cè)面,該側(cè)面的值包含向上、向下兩類,意指向上還是向下兼容,例如求職者期望薪資屬性的側(cè)面方向設(shè)為“向上”,如果值為6 000元,當(dāng)用人單位的崗位薪資為7 000~10 000元時,則視為滿足。將本體概念實例C1和C2的匹配過程稱為本體相容匹配算法(簡稱OCMA,Ontology conceptintance matching algorithm)。 根據(jù)基于畫像的就業(yè)先驗知識推薦的PK_RecProfiling理論,為了獲取適合就業(yè)對象A的推薦崗位,需要通過OCMA算法對待就業(yè)對象與就業(yè)畫像關(guān)聯(lián)知識庫KBProfiling-AR中所有規(guī)則的左部學(xué)生畫像StuProfiling以及待推薦崗位與KBProfiling-AR所有右部崗位畫像JobProfiling分別進(jìn)行相容匹配運算。其匹配過程是:雙方逐級分層展開,自下而上對每個概念實例對應(yīng)的Slot槽值進(jìn)行相容匹配運算,進(jìn)而通過迭代獲取最終匹配結(jié)果WMach,即 (2) 式中:ResultSlot為槽的匹配結(jié)果,ResultSlot∈{0,1}。 OCMA算法使用相容匹配替代常規(guī)的值進(jìn)行運算,使匹配結(jié)果更具語義特性。使用“基于簡單將0和1的迭代匹配結(jié)果”來反映整體概念實例整體匹配度有違就業(yè)對象及崗位各屬性在就業(yè)實踐中的比重差異性,為此引入權(quán)重參數(shù)模型Modelw對OCMA算法進(jìn)行改進(jìn),得到w-OCMA算法,改進(jìn)后的匹配度WMach計算方法為 (3) 式中:ResultSlot為槽的匹配結(jié)果,ResultSlot∈{0,1};wi∈Modelw。 改進(jìn)后的w-OCMA算法雖然有效地解決了就業(yè)匹配過程中槽的差異性問題,但這種差異性是通過反映“就業(yè)領(lǐng)域普式認(rèn)知結(jié)果”的權(quán)重Modelw來體現(xiàn)的。在就業(yè)實踐中,個體對于崗位各屬性的偏好存在重大差異,為此引入興趣度參數(shù)模型Modeli更有助于解決推薦的個性化問題。將改進(jìn)后的w-OCMA算法稱作wi-OCMA算法,其對應(yīng)的匹配度WMach計算式為 (4) 式中:wi∈Modelw;Ii∈Modeli;ResultSlot∈{0,1}。 根據(jù)PK_RecProfiling理論可知:通過基于就業(yè)畫像關(guān)聯(lián)知識庫KBProfiling-AR的wi-OCMA運算及推理可以實現(xiàn)就業(yè)的智能推薦,具體智能就業(yè)推薦模型框架如圖3所示。 圖3 基于就業(yè)畫像關(guān)聯(lián)知識庫的智能就業(yè)推薦模型示意圖Fig.3 Schematic diagram of intelligent employment recommendation model based on KBProfiling-AR 基于就業(yè)畫像關(guān)聯(lián)知識庫KBProfiling-AR的就業(yè)智能推薦的基本過程是:1) 通過某待就業(yè)學(xué)生StuNoJob與就業(yè)先驗知識庫KBProfiling-AR中的StuProfiling集合進(jìn)行相容匹配運算;2) 獲取對應(yīng)的學(xué)生畫像集StuProfilingGetJob;3) 根據(jù)關(guān)聯(lián)知識庫KBProfiling-AR推理獲取相應(yīng)的已招聘崗位畫像集JobProfilingFinish;4) 結(jié)合權(quán)重Modelw和興趣度Modeli將JobProfilingFinish與新崗位集合JobSetNew進(jìn)行相容匹配運算,并對匹配度進(jìn)行排序,返回匹配度較高的結(jié)果,即得到推薦給StuNoJob的崗集。 為實現(xiàn)就業(yè)雙向智能推薦,需要采集“就業(yè)相關(guān)數(shù)據(jù)”以便為就業(yè)畫像、就業(yè)關(guān)聯(lián)知識庫KBProfiling-AR以及權(quán)重參數(shù)Modelw提供基礎(chǔ)數(shù)據(jù)支持。同時,需要采集“崗位搜索/訪問/應(yīng)聘記錄”提取興趣度參數(shù)Modeli。具體的就業(yè)數(shù)據(jù)獲取及處理方式如圖4所示。 圖4 就業(yè)數(shù)據(jù)獲取及處理示意圖Fig.4 Schematic diagram of employment data acquisition and processing 就業(yè)數(shù)據(jù)獲取及處理步驟如下: 1) 數(shù)據(jù)獲取。通過“浙江省生源及就業(yè)方案管理系統(tǒng)”“教務(wù)管理系統(tǒng)”“素質(zhì)拓展管理平臺”“畢業(yè)生就業(yè)調(diào)查系統(tǒng)”“學(xué)工綜合系統(tǒng)”等系統(tǒng)可獲取生源、課程成績、素質(zhì)拓展分以及在校過程等數(shù)據(jù);通過“第三方就業(yè)平臺”、各院?!靶@招聘平臺”等可獲取崗位搜索關(guān)鍵字記錄、訪問及收藏歷史、應(yīng)聘記錄等數(shù)據(jù)。 2) 數(shù)據(jù)加工。首先通過數(shù)據(jù)清理、過濾和集成等步驟對數(shù)據(jù)進(jìn)行預(yù)處理;然后為降低數(shù)據(jù)分析復(fù)雜度,剔除與就業(yè)相關(guān)度不大的數(shù)據(jù),如學(xué)號、姓名和身份證號等,并保留學(xué)位、生源地、政治面貌、英語水平、計算機(jī)水平、課程成績、素質(zhì)拓展分(含技能與證書、品德修養(yǎng)、科教活動、文體與團(tuán)學(xué)任職等)以及獎懲等信息,構(gòu)建以專業(yè)能力、學(xué)習(xí)能力、實踐能力、協(xié)作能力、創(chuàng)新能力和品德修養(yǎng)等為特征的畢業(yè)生能力模型支撐數(shù)據(jù)[11],同時剔除單位名稱、崗位名稱和入職時間等無用信息,保留用人單位性質(zhì)、隸屬行業(yè)、用人單位所在地、職位類別、是否對口、學(xué)歷要求和薪資待遇等為主要特征的崗位特征模型。 3) 語義轉(zhuǎn)化。為達(dá)到通過wi-OCMA算法實現(xiàn)智能匹配的目的,必須將關(guān)系數(shù)據(jù)轉(zhuǎn)化為含有語義特性的本體概念實例。因此,需要根據(jù)中華人民共和國人社部下發(fā)的《公共就業(yè)服務(wù)指標(biāo)體系》關(guān)于“用人單位基本信息表、招聘崗位信息表”的標(biāo)準(zhǔn),使用OIL本體建模語言,建立畢業(yè)生及崗位描述本體。RO-Mapping機(jī)制將存儲于關(guān)系數(shù)據(jù)庫中的畢業(yè)生及崗位數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的本體概念實例,并以XML文檔格式加以存儲。 為獲得抽象化的就業(yè)畫像,需要對具化的畢業(yè)生能力模型及崗位特征模型相關(guān)的屬性進(jìn)行離散化,對分類、量化和布爾等屬性通過泛化、離散化以及0-1投影等方式進(jìn)行預(yù)處理,例如:對畢業(yè)生的各項能力值按0~5等級進(jìn)行歸一量化處理,調(diào)用Python提供的sklearn模塊中的K-means聚類[12]模塊,通過拐點法獲取最佳K值,依據(jù)K值對數(shù)據(jù)進(jìn)行歸約重組,從而獲得畢業(yè)生StuProfiling畫像集。同樣,使用該方法可生成崗位JobProfiling畫像集。 就業(yè)畫像關(guān)聯(lián)規(guī)則可以使用Apriori[13]關(guān)聯(lián)規(guī)則挖掘算法獲取。該算法通過使用頻繁項集的先驗特性逐層搜索迭代,收集滿足最小支持度和最小置信度的就業(yè)關(guān)聯(lián)規(guī)則。首先通過Python對所有歷史就業(yè)數(shù)據(jù)進(jìn)行分析,結(jié)合最小支持度和集合元組數(shù)即可獲得已畢業(yè)學(xué)生及崗位的頻繁項集;然后基于頻繁項集挖掘強(qiáng)關(guān)聯(lián)規(guī)則,通過最小支持度和最小置信度的閾值進(jìn)行篩選,獲得可信的就業(yè)畫像關(guān)聯(lián)規(guī)則。 因為目前浙江省的就業(yè)數(shù)據(jù)缺乏就業(yè)畫像及關(guān)聯(lián)規(guī)則所需的充足而有效的特征數(shù)據(jù),所以筆者通過省內(nèi)2所高校近3年24 832名畢業(yè)生的生源、課程成績和素質(zhì)拓展分等就業(yè)相關(guān)數(shù)據(jù),運用“基于就業(yè)畫像關(guān)聯(lián)及本體相容匹配的就業(yè)推薦方法”對2 000名2022屆畢業(yè)生進(jìn)行小規(guī)模檢測,關(guān)鍵實驗步驟如下。 構(gòu)建以所在專業(yè)PRO、專業(yè)能力ZY、學(xué)習(xí)能力XX、實踐能力SJ、協(xié)作能力XZ、創(chuàng)新能力CX和品德修養(yǎng)PD為主體的畢業(yè)生模型學(xué)生畫像。將學(xué)生成績(專業(yè)必修課、實訓(xùn)環(huán)節(jié)、公共課及選修課)及素質(zhì)拓展分(技能與證書、品德修養(yǎng)、科教活動、文體與團(tuán)學(xué)任職)按級差歸約為1~5(分別代表合格、差、中、良、優(yōu))5個等級,專業(yè)PRO根據(jù)教育部學(xué)科分類表中二級學(xué)科按1~38進(jìn)行量化,得到21 321條有效學(xué)生畫像支撐數(shù)據(jù),并按表1進(jìn)行相應(yīng)的映射。 表1 畫像數(shù)據(jù)支撐表Table 1 List of StuProfiling 因為專業(yè)PRO的枚舉項較多,且對基于畢業(yè)生能力模型的畫像影響較小,所以調(diào)用Python的sklearn模塊中的K-means函數(shù)對21 321條6元組[ZY,XX,SJ,XZ,CX,PD]數(shù)據(jù)進(jìn)行分析。當(dāng)X軸的簇個數(shù)設(shè)置為100時,所繪制的不同K值和對應(yīng)總的簇內(nèi)離差平方和的折線圖效果最佳,如圖5所示,當(dāng)簇為37個時拐點最為明顯,故將求職者畫像劃分成37個簇最為合適。進(jìn)而通過K-means(n_clusters=37)進(jìn)一步分析得到37條StuProfiling學(xué)生畫像,每條畫像形如:{‘ZY5’,‘XX4’,‘SJ2’,‘XZ3’,‘CX4’,‘PD4’},其成員分別代表專業(yè)能力5分(優(yōu))、學(xué)習(xí)能力4分(良)、實踐能力4分(良)、協(xié)作能力3分(中)、創(chuàng)新能力4分(良)、品德修養(yǎng)4分(良)。按同樣方法可得到33條崗位畫像,每條畫像形如:{‘XZ3’,‘DQ2’,‘DY4’,‘XL2’,‘GW21’},分別代表公司性質(zhì)3(外企)、所在地區(qū)2(長三角)、待遇2(良)、崗位類型21(IT業(yè))。 圖5 學(xué)生畫像支撐數(shù)據(jù)簇內(nèi)離差平方折線圖Fig.5 Student portrait support data cluster dispersion square line graph 調(diào)用Python的Apriori算法構(gòu)建頻繁集生成函數(shù)generate_L(data_set,K,min_support),其中data_set對應(yīng)21 321條經(jīng)過歸約量化的形如[PRO,ZY,XX,SJ,XZ,CX,PD,XZ,DQ,DY,XL,GW]的就業(yè)數(shù)據(jù),將K設(shè)為元組個數(shù)12,不斷調(diào)整最小支持度min_support的值,并將37個學(xué)生畫像[SP1,SP2,…,SP37]與返回的頻繁項集作比對,發(fā)現(xiàn)當(dāng)min_support=0.1,最小置信度min_conf=0.54時,返回的頻繁項集的左部(學(xué)生數(shù)據(jù))包含的SP個數(shù)最多,從而得到如表2所示的R1~R121共計121條就業(yè)畫像關(guān)聯(lián)規(guī)則。將元組數(shù)為7,右部為1的頻繁項集的最小支持度作為右部對應(yīng)崗位屬性的權(quán)重參數(shù),得到以下參數(shù):待遇0.12,學(xué)歷0.41,崗位0.17,區(qū)域0.14,單位性質(zhì)0.16,因為專業(yè)對崗位推薦有很大影響,所以人為設(shè)置成2.5。興趣度參數(shù)需要畢業(yè)生對崗位的評價,目前缺乏有效的評價數(shù)據(jù),本實驗暫時不予考慮。 表2 就業(yè)畫像關(guān)聯(lián)規(guī)則列表Table 2 List of association rule 首先,從2 000名測試的2022屆畢業(yè)生中選取某位學(xué)生Stui,對該生的畫像支撐數(shù)據(jù)進(jìn)行歸約,并與R1~R121的左部進(jìn)行比對,返回匹配度最高的關(guān)聯(lián)規(guī)則Rj〈SPk,JPn〉,其右部JPn即為Stui的擬推薦崗位畫像,將JPn實例化;然后,通過調(diào)用wi-OCMA算法與654 309條供測試的崗位概念實例進(jìn)行匹配,根據(jù)匹配度取前100條記錄作為Stui的推薦崗位。2 000名測試對象對應(yīng)的前200條推薦結(jié)果的平均權(quán)重為3.11(最高為4.27,即所有元組成員權(quán)重的累計),平均每條記錄耗時0.017 1 s。 筆者提出的畢業(yè)生能力模型是對就業(yè)畫像實用化的有力探索,實驗結(jié)果證明:借助畫像關(guān)聯(lián)及本體相容匹配技術(shù)進(jìn)行就業(yè)智能推薦具有一定的可行性。在缺少有效交互的情況下,筆者方法依然能獲得較好的推薦結(jié)果,在解決畢業(yè)生就業(yè)的“冷啟動”問題方面具有良好的效果。由于在調(diào)用wi-OCMA算法進(jìn)行就業(yè)匹配前已經(jīng)完成了就業(yè)畫像以及畫像關(guān)聯(lián)規(guī)則的挖掘工作,從而將目前國內(nèi)學(xué)者研究較廣的“求職者—歷史就業(yè)案例—推薦崗位”轉(zhuǎn)化為“求職者—就業(yè)畫像—推薦崗位”的匹配模式,降低了運算量,極大地提高了推薦算法的運行效率。然而,受目前我國教育信息化程度以及就業(yè)數(shù)據(jù)規(guī)范性等現(xiàn)實約束,數(shù)據(jù)完整性以及畫像復(fù)雜度對就業(yè)畫像及就業(yè)關(guān)聯(lián)規(guī)則的挖掘質(zhì)量具有重大決定性作用。今后需要加強(qiáng)畢業(yè)生就業(yè)能力以及崗位勝任能力模型的理論研究及方法探索,以期獲得更為智能高效的就業(yè)畫像及就業(yè)推薦方法。2.3 基于權(quán)重Modelw的w-OCMA算法
2.4 基于興趣度Modeli的wi-CMA個性化推薦算法
3 基于就業(yè)畫像關(guān)聯(lián)及本體相容匹配的就業(yè)推薦模型
4 基于就業(yè)畫像關(guān)聯(lián)及本體相容匹配的就業(yè)推薦方法的實現(xiàn)過程
4.1 就業(yè)數(shù)據(jù)的獲取與處理
4.2 就業(yè)畫像生成
4.3 就業(yè)畫像關(guān)聯(lián)規(guī)則獲取
5 就業(yè)推薦方法的實驗步驟
5.1 建立畫像描述模型
5.2 就業(yè)畫像的生成
5.3 畫像關(guān)聯(lián)規(guī)則獲取
5.4 就業(yè)相容匹配
6 結(jié) 論