国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語義特征和統(tǒng)計特征的虛假招聘檢測模型?

2024-01-23 13:38:02謝寧寧楊新凱
計算機與數(shù)字工程 2023年10期
關(guān)鍵詞:級聯(lián)職位語義

謝寧寧 楊新凱

(上海師范大學 上海 200000)

1 引言

近年來,網(wǎng)絡(luò)招聘已逐步成為企業(yè)招聘人才的首選方式。然而,網(wǎng)絡(luò)招聘平臺由于其開放性以及相關(guān)制度不健全等原因,使得一些不法企業(yè)可以利用其功能發(fā)布虛假招聘信息,吸引求職者上鉤,謀取不正當利益。虛假的招聘信息可能使求職者陷入就業(yè)詐騙,造成經(jīng)濟、精神損失。更有甚者,部分求職者被騙入傳銷組織,危害人身安全。虛假招聘信息是指不以招聘人才為目的或招聘內(nèi)容具有煽動性且缺乏真實性的招聘信息。將虛假招聘信息檢測抽象為二分類問題,通過算法區(qū)分出招聘信息的真假,可以有效降低就業(yè)詐騙的發(fā)生率。

2 相關(guān)工作

目前常用的虛假信息檢測方法有基于統(tǒng)計特征的機器學習方法和基于語義特征的深度學習的方法[1]。Vidros 等基于文本挖掘的方法,對招聘信息中特殊短語、HTML 元素等進行分析,提出了21個基本特征表示招聘信息,使用隨機森林進行分類[2~3]。Mahbub 等對公司介紹進一步挖掘,將公司介紹中是否提供網(wǎng)址、網(wǎng)站成立是否大1 年等統(tǒng)計特征加入到基本特征集中,提升了模型性能[4]。lal等沿用了Vidros 提出的21 個基本特征,使用集成方法構(gòu)建虛假招聘信息檢測模型[5]。Alghamdi 等使用SVM 進行特征選擇,提升了隨機森林的預(yù)測效果[6]。Mehboob 等首先基于企業(yè)特征、職位特征和薪資特征構(gòu)建了24 個統(tǒng)計特征表示招聘信息,然后使用互信息和相關(guān)系數(shù)選擇了13 個重要特征,輸入XGBoost 進行分類[7]。李力釗[8]、李奧[9]等將謠言檢測問題抽象為基于語義特征的文本分類問題。馬鳴將語義特征和統(tǒng)計特征結(jié)合,識別謠言信息[10]。黃學堅等將謠言內(nèi)容的語義特征、統(tǒng)計特征和用戶特征融合,提升了謠言檢測的準確率[11]。研究表明,在語義特征中,引入輔助特征能夠有效提升模型的準確率??紤]到職位描述語義對于區(qū)分招聘信息的重要作用和級聯(lián)森林優(yōu)秀的分類性能[12~13],本文提出一種融合語義特征和統(tǒng)計特征的卷積級聯(lián)森林檢測模型。

3 卷積級聯(lián)森林檢測模型

Word2Vec-CNN 是一種提取文本語義特征的基準模型,常用于情感分析領(lǐng)域[14]。本文的研究是在Word2Vec-CNN 的基礎(chǔ)上進行的。本文提出的模型一共包含四個部分,首先,基于招聘行為分析構(gòu)建招聘信息的統(tǒng)計特征。其次,使用Word2Vec-CNN 提取職位描述的語義特征。然后,將招聘信息的統(tǒng)計特征通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征相同的維度,進行融合特征。最后,將融合后的特征向量輸入級聯(lián)森林分類器檢測虛假招聘信息。

圖1 檢測模型框架

3.1 統(tǒng)計特征提取

基于文獻研究[15],從企業(yè)信息、職位信息和薪資信息三個方面分析招聘行為的差異,提取統(tǒng)計特征。

基于企業(yè)信息的統(tǒng)計特征描述了企業(yè)的可信度??尚哦仍礁叩钠髽I(yè),越重視企業(yè)形象的維護,發(fā)布虛假招聘信息的可能性越低。從招聘信息庫中抽取基于企業(yè)信息的統(tǒng)計特征為企業(yè)名稱(FE1)、企業(yè)性質(zhì)(FE2)、企業(yè)介紹(FE3)、實名未認證(FE4)、企業(yè)規(guī)模(FE5)。

基于職位信息的統(tǒng)計特征描述了求職者需要完成的工作、應(yīng)當承擔的責任和勝任職位的基本要求。真實職位的職位描述一般是客觀的,沒有明顯的感情傾向。虛假的招聘職位通常使用感嘆號、問號加強語氣或在子標題處標注薪資,誘導(dǎo)求職者投遞簡歷。從招聘信息庫中抽取基于職位信息的統(tǒng)計特征為職位標題(FP1)、招聘人數(shù)(FP2)、學歷要求(FP3)、經(jīng)驗要求(FP4)、工作地點(FP5)、子標題包含薪資信息(FP6)、職位描述中包含感嘆號的數(shù)量(FP7)、職位描述中包含問號的數(shù)量(FP8)。

王春鴿的研究表明招聘職位的薪資明顯高于同類職位的薪資水平時,求職者需要警惕職位的真實性[16]。從招聘信息庫中抽取基于薪資信息的統(tǒng)計特征為職位工資(FC1)、福利(FC2)。

將特征離散化處理,使用式(1)計算招聘信息的統(tǒng)計特征FSta。

式中,F(xiàn)Sta 表示招聘信息的統(tǒng)計特征,⊕表示特征級聯(lián)操作。

3.2 語義特征提取

卷積神經(jīng)網(wǎng)絡(luò)包含卷積、池化、全連接等操作,具有卓越的特征提取能力,使用CNN 提取特征可以降低人工提取特征難度。將職位描述文本信息表示成計算機可以識別的詞向量輸入卷積神經(jīng)網(wǎng)絡(luò)。首先,經(jīng)過卷積層,使用大小不同的滑動窗口進行卷積,提取語義特征。然后,經(jīng)過池化層進行降維,篩選關(guān)鍵特征。池化層后加入Dropout,設(shè)置Dropout 率為0.25,防止過擬合。最后,經(jīng)過全連接層轉(zhuǎn)化為一維向量。基于卷積神經(jīng)網(wǎng)絡(luò)的語義特征提取算法如下。

Step1:去除招聘信息中的非文本部分和停用詞,使用jieba 中文分詞庫將招聘信息進行中文分詞。

Step2:利用Word2Vec 將分詞處理后的招聘信息表示成詞向量T=[w1,w2,…,wn],其中wi表示招聘信息的第i 個詞的向量表示。每個詞向量wi=[v1,v2,…,vm],m表示招聘信息詞向量的維度。

Step3:將招聘信息的將詞向量表示輸入卷積層,提取高層語義特征FSemk,卷積層的計算公式為

式中,filterk表示卷積核,Tij表示招聘信息的詞向量,F(xiàn)k表示k層的輸出特征,f表示Relu激活函數(shù)。

Step4:將卷積層的輸出,輸入池化層,進行池化運算,計算公式為

Step5:最后經(jīng)過全連接層,得到語義特征向量FSem=[f1,f2,…,fn]。

3.3 特征融合

為了使招聘信息的語義特征和統(tǒng)計特征攜帶等量的信息。首先,將統(tǒng)計特征向量通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征向量同等的維度。映射公式如下:

式中,F(xiàn)Sta' 表示映射后的統(tǒng)計特征向量,f 表示激活函數(shù),W為權(quán)重矩陣,b為偏置項。

將映射后的統(tǒng)計特征和語義特征進行級聯(lián)操作,通過式(5)計算招聘信息的融合特征向量FMulti。

3.4 級聯(lián)森林結(jié)構(gòu)

定義級聯(lián)森林有d 層,每一層包含R 個隨機森林和R 個完全的隨機森林,每個森林包含t 棵決策樹。完全隨機森林中的決策樹會隨機選擇一個信息增益最大的特征做節(jié)點分裂,至葉子節(jié)點純凈。而隨機森林中的決策樹則隨機選擇個特征子集(k 表示輸入特征的維度),然后再選擇信息增益最大的特征做節(jié)點分裂。對于特征f,其信息增益使用招聘樣本的信息熵與條件信息熵的差表示,計算公式如下:

式中,S 表示招聘樣本,v表示特征f有v個可能的取值,特征f 將招聘樣本劃分為v 個招聘子樣本,Si表示i個招聘子樣本,Pij表示Si中類別為j的招聘職位所占比例,j 表示招聘信息的類別,pj表示招聘樣本S中類別為j的招聘職位所占的比例。

將融合特征FMulti 輸入級聯(lián)森林d 層,每顆決策樹會計算落入葉節(jié)點處的真實招聘信息和虛假招聘信息的概率,然后對同一個森林中所有決策樹輸出的類概率通過式(10)計算平均值,生成招聘信息的類概率向量PVect。每個隨機森林生成一個二維類概率向量,每一層輸出4R 個增強特征,將增強特征與輸入的特征向量FMuti 級聯(lián),輸入d+1 層訓(xùn)練,表示為式(10)。

式中,公式中,pjt表示標簽為j 的招聘樣本落入t 棵決策樹的概率,F(xiàn)Multid+1表示級聯(lián)森林d+1 層的輸入向量,表示級聯(lián)森林d 層的第i 個隨機森林輸出的類概率向量。

每層訓(xùn)練結(jié)束后,都會對分類器的性能進行評價,若沒有顯著的性能提升,則終止級聯(lián)過程,自動確定級聯(lián)森林的深度。然后,對最后一層產(chǎn)生的類概率向量求平均值,選擇最大概率值對應(yīng)的類別作為最終檢測結(jié)果輸出。

4 實驗結(jié)果與分析

本文采用Anaconda 4.9 和Jupyter Notebook 6.0作為實驗平臺。實驗環(huán)境為Windows10 操作系統(tǒng)、Core i7處理器(2.6GHz)、8GB內(nèi)存。

4.1 實驗數(shù)據(jù)

針對本文研究的問題,爬取了企業(yè)在北京、上海、深圳、廣州四所一線城市的發(fā)布的招聘職位信息。標注了一份17880 的招聘樣本,其中5%的招聘職位為虛假職位。將招聘樣本的80%作為訓(xùn)練集,20%作為測試集,則實驗使用的訓(xùn)練集14304條,用于模型的訓(xùn)練,測試集3576 條用于評估模型的性能。

4.2 評價指標

二分類實驗中常用的查準率、查全率作為評價指標。但查準率和查全率為一對相互矛盾的指標,一個指標高會導(dǎo)致另一個指標低。研究中,通常使用F 分數(shù)衡量模型的綜合性能。在虛假招聘信息檢測中,由于虛假招聘職位僅占5%,我們希望檢測出更多的虛假招聘信息,需要模型對查全率更敏感。因此,本文使用F2 值和查全率評估模型的性能,計算公式如下:

式中,PreFakeSet表示預(yù)測結(jié)果為虛假的招聘數(shù)據(jù)集合,TrueFakeSet表示實際為虛假的招聘數(shù)據(jù)集合,PreAccSet表示預(yù)測正確的招聘數(shù)據(jù)集合。β取值為2表示F2值。

4.3 對比實驗

模型1:從招聘信息中抽取統(tǒng)計特征,然后使用統(tǒng)計特征輸入級聯(lián)森林進行分類。

模型2:使用Word2Vec-CNN 模型提取語義特征,然后使用softmax進行分類。

模型3:融合語義特征和統(tǒng)計特征,然后使用Softmax進行分類。

模型4:融合語義特征和統(tǒng)計特征,使用級聯(lián)森林結(jié)構(gòu)取代softmax層進行分類。

表1 實驗結(jié)果對比

1)模型2 相較于模型1,查全率和F2 值有明顯提升,說明職位描述的語義可以有效區(qū)分虛假招聘信息和真實招聘職位。

2)模型3 較模型2,查全率和F2 值均有明顯提升,說明在語義特征中,加入統(tǒng)計特征可以進一步提升模型的性能。

3)模型4 較模型3,查全率和F2 值均有明顯提升,說明使用級聯(lián)森林結(jié)構(gòu)取代Softmax層,可以提升模型的分類性能。

4)本文提出的模型,較其他模型性能更優(yōu)。

5 結(jié)語

基于統(tǒng)計特征的虛假招聘信息檢測方法被廣泛使用,但是這類方法忽略了職位描述語義的重要性。本文使用卷積神經(jīng)網(wǎng)絡(luò)提取招聘信息的語義特征,結(jié)合統(tǒng)計特征,使用級聯(lián)森林對虛假招聘信息進行檢測,提升了檢測的準確率。虛假招聘信息檢測是一個新的研究領(lǐng)域,目前學術(shù)界提出的方法和本文提出的方法都只考慮了招聘網(wǎng)站上招聘職位的靜態(tài)特征,沒有將招聘信息發(fā)布者的行為特征考慮在內(nèi)。

猜你喜歡
級聯(lián)職位語義
領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
語言與語義
職位之謎與負謗之痛:柳治徵在東南大學的進退(1916—1925)
近代史學刊(2017年2期)2017-06-06 02:25:22
級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
電子制作(2016年15期)2017-01-15 13:39:09
“上”與“下”語義的不對稱性及其認知闡釋
基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
認知范疇模糊與語義模糊
美最高就業(yè)率地鐵圈
海外星云 (2014年22期)2015-01-19 09:34:28
LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
電測與儀表(2014年1期)2014-04-04 12:00:34
H橋級聯(lián)型STATCOM的控制策略研究
電測與儀表(2014年1期)2014-04-04 12:00:28
长葛市| 安宁市| 昆山市| 枞阳县| 西吉县| 米林县| 淮北市| 宁强县| 原阳县| 通渭县| 磴口县| 阳江市| 金昌市| 股票| 涞源县| 盘锦市| 桐柏县| 商丘市| 罗定市| 东安县| 龙海市| 清水河县| 盐山县| 洛南县| 墨脱县| 清丰县| 交城县| 云龙县| 大丰市| 同仁县| 于都县| 宾川县| 怀来县| 英德市| 河西区| 乐平市| 玉林市| 广南县| 白河县| 靖边县| 南澳县|