謝寧寧 楊新凱
(上海師范大學 上海 200000)
近年來,網(wǎng)絡(luò)招聘已逐步成為企業(yè)招聘人才的首選方式。然而,網(wǎng)絡(luò)招聘平臺由于其開放性以及相關(guān)制度不健全等原因,使得一些不法企業(yè)可以利用其功能發(fā)布虛假招聘信息,吸引求職者上鉤,謀取不正當利益。虛假的招聘信息可能使求職者陷入就業(yè)詐騙,造成經(jīng)濟、精神損失。更有甚者,部分求職者被騙入傳銷組織,危害人身安全。虛假招聘信息是指不以招聘人才為目的或招聘內(nèi)容具有煽動性且缺乏真實性的招聘信息。將虛假招聘信息檢測抽象為二分類問題,通過算法區(qū)分出招聘信息的真假,可以有效降低就業(yè)詐騙的發(fā)生率。
目前常用的虛假信息檢測方法有基于統(tǒng)計特征的機器學習方法和基于語義特征的深度學習的方法[1]。Vidros 等基于文本挖掘的方法,對招聘信息中特殊短語、HTML 元素等進行分析,提出了21個基本特征表示招聘信息,使用隨機森林進行分類[2~3]。Mahbub 等對公司介紹進一步挖掘,將公司介紹中是否提供網(wǎng)址、網(wǎng)站成立是否大1 年等統(tǒng)計特征加入到基本特征集中,提升了模型性能[4]。lal等沿用了Vidros 提出的21 個基本特征,使用集成方法構(gòu)建虛假招聘信息檢測模型[5]。Alghamdi 等使用SVM 進行特征選擇,提升了隨機森林的預(yù)測效果[6]。Mehboob 等首先基于企業(yè)特征、職位特征和薪資特征構(gòu)建了24 個統(tǒng)計特征表示招聘信息,然后使用互信息和相關(guān)系數(shù)選擇了13 個重要特征,輸入XGBoost 進行分類[7]。李力釗[8]、李奧[9]等將謠言檢測問題抽象為基于語義特征的文本分類問題。馬鳴將語義特征和統(tǒng)計特征結(jié)合,識別謠言信息[10]。黃學堅等將謠言內(nèi)容的語義特征、統(tǒng)計特征和用戶特征融合,提升了謠言檢測的準確率[11]。研究表明,在語義特征中,引入輔助特征能夠有效提升模型的準確率??紤]到職位描述語義對于區(qū)分招聘信息的重要作用和級聯(lián)森林優(yōu)秀的分類性能[12~13],本文提出一種融合語義特征和統(tǒng)計特征的卷積級聯(lián)森林檢測模型。
Word2Vec-CNN 是一種提取文本語義特征的基準模型,常用于情感分析領(lǐng)域[14]。本文的研究是在Word2Vec-CNN 的基礎(chǔ)上進行的。本文提出的模型一共包含四個部分,首先,基于招聘行為分析構(gòu)建招聘信息的統(tǒng)計特征。其次,使用Word2Vec-CNN 提取職位描述的語義特征。然后,將招聘信息的統(tǒng)計特征通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征相同的維度,進行融合特征。最后,將融合后的特征向量輸入級聯(lián)森林分類器檢測虛假招聘信息。
圖1 檢測模型框架
基于文獻研究[15],從企業(yè)信息、職位信息和薪資信息三個方面分析招聘行為的差異,提取統(tǒng)計特征。
基于企業(yè)信息的統(tǒng)計特征描述了企業(yè)的可信度??尚哦仍礁叩钠髽I(yè),越重視企業(yè)形象的維護,發(fā)布虛假招聘信息的可能性越低。從招聘信息庫中抽取基于企業(yè)信息的統(tǒng)計特征為企業(yè)名稱(FE1)、企業(yè)性質(zhì)(FE2)、企業(yè)介紹(FE3)、實名未認證(FE4)、企業(yè)規(guī)模(FE5)。
基于職位信息的統(tǒng)計特征描述了求職者需要完成的工作、應(yīng)當承擔的責任和勝任職位的基本要求。真實職位的職位描述一般是客觀的,沒有明顯的感情傾向。虛假的招聘職位通常使用感嘆號、問號加強語氣或在子標題處標注薪資,誘導(dǎo)求職者投遞簡歷。從招聘信息庫中抽取基于職位信息的統(tǒng)計特征為職位標題(FP1)、招聘人數(shù)(FP2)、學歷要求(FP3)、經(jīng)驗要求(FP4)、工作地點(FP5)、子標題包含薪資信息(FP6)、職位描述中包含感嘆號的數(shù)量(FP7)、職位描述中包含問號的數(shù)量(FP8)。
王春鴿的研究表明招聘職位的薪資明顯高于同類職位的薪資水平時,求職者需要警惕職位的真實性[16]。從招聘信息庫中抽取基于薪資信息的統(tǒng)計特征為職位工資(FC1)、福利(FC2)。
將特征離散化處理,使用式(1)計算招聘信息的統(tǒng)計特征FSta。
式中,F(xiàn)Sta 表示招聘信息的統(tǒng)計特征,⊕表示特征級聯(lián)操作。
卷積神經(jīng)網(wǎng)絡(luò)包含卷積、池化、全連接等操作,具有卓越的特征提取能力,使用CNN 提取特征可以降低人工提取特征難度。將職位描述文本信息表示成計算機可以識別的詞向量輸入卷積神經(jīng)網(wǎng)絡(luò)。首先,經(jīng)過卷積層,使用大小不同的滑動窗口進行卷積,提取語義特征。然后,經(jīng)過池化層進行降維,篩選關(guān)鍵特征。池化層后加入Dropout,設(shè)置Dropout 率為0.25,防止過擬合。最后,經(jīng)過全連接層轉(zhuǎn)化為一維向量。基于卷積神經(jīng)網(wǎng)絡(luò)的語義特征提取算法如下。
Step1:去除招聘信息中的非文本部分和停用詞,使用jieba 中文分詞庫將招聘信息進行中文分詞。
Step2:利用Word2Vec 將分詞處理后的招聘信息表示成詞向量T=[w1,w2,…,wn],其中wi表示招聘信息的第i 個詞的向量表示。每個詞向量wi=[v1,v2,…,vm],m表示招聘信息詞向量的維度。
Step3:將招聘信息的將詞向量表示輸入卷積層,提取高層語義特征FSemk,卷積層的計算公式為
式中,filterk表示卷積核,Tij表示招聘信息的詞向量,F(xiàn)k表示k層的輸出特征,f表示Relu激活函數(shù)。
Step4:將卷積層的輸出,輸入池化層,進行池化運算,計算公式為
Step5:最后經(jīng)過全連接層,得到語義特征向量FSem=[f1,f2,…,fn]。
為了使招聘信息的語義特征和統(tǒng)計特征攜帶等量的信息。首先,將統(tǒng)計特征向量通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征向量同等的維度。映射公式如下:
式中,F(xiàn)Sta' 表示映射后的統(tǒng)計特征向量,f 表示激活函數(shù),W為權(quán)重矩陣,b為偏置項。
將映射后的統(tǒng)計特征和語義特征進行級聯(lián)操作,通過式(5)計算招聘信息的融合特征向量FMulti。
定義級聯(lián)森林有d 層,每一層包含R 個隨機森林和R 個完全的隨機森林,每個森林包含t 棵決策樹。完全隨機森林中的決策樹會隨機選擇一個信息增益最大的特征做節(jié)點分裂,至葉子節(jié)點純凈。而隨機森林中的決策樹則隨機選擇個特征子集(k 表示輸入特征的維度),然后再選擇信息增益最大的特征做節(jié)點分裂。對于特征f,其信息增益使用招聘樣本的信息熵與條件信息熵的差表示,計算公式如下:
式中,S 表示招聘樣本,v表示特征f有v個可能的取值,特征f 將招聘樣本劃分為v 個招聘子樣本,Si表示i個招聘子樣本,Pij表示Si中類別為j的招聘職位所占比例,j 表示招聘信息的類別,pj表示招聘樣本S中類別為j的招聘職位所占的比例。
將融合特征FMulti 輸入級聯(lián)森林d 層,每顆決策樹會計算落入葉節(jié)點處的真實招聘信息和虛假招聘信息的概率,然后對同一個森林中所有決策樹輸出的類概率通過式(10)計算平均值,生成招聘信息的類概率向量PVect。每個隨機森林生成一個二維類概率向量,每一層輸出4R 個增強特征,將增強特征與輸入的特征向量FMuti 級聯(lián),輸入d+1 層訓(xùn)練,表示為式(10)。
式中,公式中,pjt表示標簽為j 的招聘樣本落入t 棵決策樹的概率,F(xiàn)Multid+1表示級聯(lián)森林d+1 層的輸入向量,表示級聯(lián)森林d 層的第i 個隨機森林輸出的類概率向量。
每層訓(xùn)練結(jié)束后,都會對分類器的性能進行評價,若沒有顯著的性能提升,則終止級聯(lián)過程,自動確定級聯(lián)森林的深度。然后,對最后一層產(chǎn)生的類概率向量求平均值,選擇最大概率值對應(yīng)的類別作為最終檢測結(jié)果輸出。
本文采用Anaconda 4.9 和Jupyter Notebook 6.0作為實驗平臺。實驗環(huán)境為Windows10 操作系統(tǒng)、Core i7處理器(2.6GHz)、8GB內(nèi)存。
針對本文研究的問題,爬取了企業(yè)在北京、上海、深圳、廣州四所一線城市的發(fā)布的招聘職位信息。標注了一份17880 的招聘樣本,其中5%的招聘職位為虛假職位。將招聘樣本的80%作為訓(xùn)練集,20%作為測試集,則實驗使用的訓(xùn)練集14304條,用于模型的訓(xùn)練,測試集3576 條用于評估模型的性能。
二分類實驗中常用的查準率、查全率作為評價指標。但查準率和查全率為一對相互矛盾的指標,一個指標高會導(dǎo)致另一個指標低。研究中,通常使用F 分數(shù)衡量模型的綜合性能。在虛假招聘信息檢測中,由于虛假招聘職位僅占5%,我們希望檢測出更多的虛假招聘信息,需要模型對查全率更敏感。因此,本文使用F2 值和查全率評估模型的性能,計算公式如下:
式中,PreFakeSet表示預(yù)測結(jié)果為虛假的招聘數(shù)據(jù)集合,TrueFakeSet表示實際為虛假的招聘數(shù)據(jù)集合,PreAccSet表示預(yù)測正確的招聘數(shù)據(jù)集合。β取值為2表示F2值。
模型1:從招聘信息中抽取統(tǒng)計特征,然后使用統(tǒng)計特征輸入級聯(lián)森林進行分類。
模型2:使用Word2Vec-CNN 模型提取語義特征,然后使用softmax進行分類。
模型3:融合語義特征和統(tǒng)計特征,然后使用Softmax進行分類。
模型4:融合語義特征和統(tǒng)計特征,使用級聯(lián)森林結(jié)構(gòu)取代softmax層進行分類。
表1 實驗結(jié)果對比
1)模型2 相較于模型1,查全率和F2 值有明顯提升,說明職位描述的語義可以有效區(qū)分虛假招聘信息和真實招聘職位。
2)模型3 較模型2,查全率和F2 值均有明顯提升,說明在語義特征中,加入統(tǒng)計特征可以進一步提升模型的性能。
3)模型4 較模型3,查全率和F2 值均有明顯提升,說明使用級聯(lián)森林結(jié)構(gòu)取代Softmax層,可以提升模型的分類性能。
4)本文提出的模型,較其他模型性能更優(yōu)。
基于統(tǒng)計特征的虛假招聘信息檢測方法被廣泛使用,但是這類方法忽略了職位描述語義的重要性。本文使用卷積神經(jīng)網(wǎng)絡(luò)提取招聘信息的語義特征,結(jié)合統(tǒng)計特征,使用級聯(lián)森林對虛假招聘信息進行檢測,提升了檢測的準確率。虛假招聘信息檢測是一個新的研究領(lǐng)域,目前學術(shù)界提出的方法和本文提出的方法都只考慮了招聘網(wǎng)站上招聘職位的靜態(tài)特征,沒有將招聘信息發(fā)布者的行為特征考慮在內(nèi)。