黃梅娟
摘要:傳統(tǒng)的就業(yè)網(wǎng)站主要是為就業(yè)用戶提供就業(yè)信息的一個空間而已,形式單一、查詢功能很簡單,對于就業(yè)用戶群體沒有作相應(yīng)的區(qū)分,針對不同的就業(yè)用戶沒有提供相異的服務(wù),因此無法因人而異地滿足各類就業(yè)用戶的個性化需求。由此,很有必要通過數(shù)據(jù)挖掘等相關(guān)技術(shù)提出個性化就業(yè)推薦系統(tǒng),如協(xié)同過濾推薦算法是目前運(yùn)用最廣泛也是最成功的一種,主要包括User-based和Item-based推薦算法。然而傳統(tǒng)的協(xié)同過濾推薦算法存在稀疏性等顯著問題,必須通過算法改進(jìn)從而提高推薦質(zhì)量。
關(guān)鍵詞:就業(yè)網(wǎng)站;個性化就業(yè)推薦系統(tǒng);協(xié)同過濾推薦算法;算法改進(jìn)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)08-0020-03
Abstract:The traditional job site is mainly a space to provide employment information for employment user only, the form is single, the query function is very simple, for the employment of user groups did not make the distinction, in view of the different employment users do not provide different services, and therefore cannot be varies from person to person to meet the personalized needs of users all kinds of employment.Therefore, it is necessary to make personalized employment recommendation system through the data mining. Recently, The most popular and successful one is Collaborative Filtering, including User-based and Item-based recommendation arithmetic. However, the traditional collaborative filtering recommendation algorithm sparseness and other significant problems exist,must by improving the algorithm so as to improve the recommend quality.
Key words:employment website; personalized employment recommender system; collaborative filtering recommendation Algorithm; the improved algorithm
就業(yè)推薦,是指根據(jù)用戶的信息和企業(yè)的信息,借助相關(guān)技術(shù),給用戶推薦合適的企業(yè),給企業(yè)推薦合適的員工。用戶在瀏覽就業(yè)信息網(wǎng)站的時候,面臨的企業(yè)如此之多,如何在眾多的企業(yè)中找到自己合適的崗位,要花很長的時間去尋找,同樣,企業(yè)也面臨同樣的問題,如何在眾多的應(yīng)聘者中找到自己合適的人選,要花很長的時間去尋找。網(wǎng)站提供了數(shù)千萬個企業(yè),用戶卻只能使用分類瀏覽、分類導(dǎo)航、搜索等此類通用的網(wǎng)站工具來搜索信息。這就要求用戶對所要搜索的企業(yè)有相當(dāng)清楚的了解和把握。然而面對如此眾多的企業(yè),絕大多數(shù)的用戶基本不會有效整合網(wǎng)站信息資源的,這就很容易出現(xiàn)所謂的“信息迷航”。諸如此類現(xiàn)象:網(wǎng)站存在有用戶需要的企業(yè),然而用戶卻沒有找到,或找到的企業(yè)不是最適合自己的。
在這樣的背景下,就需要就業(yè)網(wǎng)站有這樣一種就業(yè)推薦功能,根據(jù)用戶的信息,將其感興趣的企業(yè)主動推薦給用戶,同時對所有的用戶進(jìn)行分析,篩選合適的用戶推薦給企業(yè),即個性化就業(yè)推薦系統(tǒng)。
1 協(xié)同過濾算法在個性化就業(yè)推薦系統(tǒng)中研究
1.1 個性化推薦相關(guān)技術(shù)
個性化即指“非同一般”,所謂個性化推薦,即在大眾化基礎(chǔ)上推薦針對用戶獨(dú)特特性的信息。這就要根據(jù)用戶的具體要求,比如用戶的喜好、性格、年齡結(jié)構(gòu)等,對這些用戶個性化信息進(jìn)行分析,提取針對不同用戶所需要的信息或服務(wù),真正實(shí)現(xiàn)“以用戶為本”的針對性推薦。比如在個性化就業(yè)推薦系統(tǒng)中,用戶可以在注冊時填寫個人信息,網(wǎng)站通過用戶的注冊及訪問記錄得到不同用戶的個人信息、以及瀏覽的習(xí)慣等,然后通過個性化推薦技術(shù)不斷挖掘從而迎合用戶的需求。用戶在該站點(diǎn)有種“私人訂制”的服務(wù)體驗(yàn)。
1.1.1 信息過濾技術(shù)
信息過濾技術(shù)分為兩類:一種是基于內(nèi)容的過濾;還有一種就是協(xié)同過濾。在信息檢索技術(shù)中,基于過濾技術(shù)的推薦系統(tǒng)被逐步應(yīng)用開來。目前普遍應(yīng)用的推薦領(lǐng)域有文本信息、Web站點(diǎn)以及娛樂服務(wù)產(chǎn)品等。
1.1.2 數(shù)據(jù)挖掘技術(shù)
目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的最前沿最有成效的研究方向之一就有數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(英文叫Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中,提取隱含在此中的、人們預(yù)先不曉得的、新穎的、容易被人理解的、然而又是潛在有用的模式的非平凡過程。與數(shù)據(jù)挖掘相近似的術(shù)語還有如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。
數(shù)據(jù)挖掘是各個學(xué)科技術(shù)的綜合應(yīng)用,它具有很多功能,當(dāng)前的數(shù)據(jù)挖掘功能有如下幾種:自動預(yù)測趨勢和行為、關(guān)聯(lián)分組、聚類 、概念描述、偏差檢測等等。
1.2 個性化就業(yè)推薦系統(tǒng)總體設(shè)計(jì)
就業(yè)個性化服務(wù)系統(tǒng)可以分為兩大子系統(tǒng):“就業(yè)用戶的個性化建?!弊酉到y(tǒng)、“個性化推薦服務(wù)”子系統(tǒng)。在兩個子系統(tǒng)中,“個性化建?!弊酉到y(tǒng)的目的是為了獲取就業(yè)信息,分析并挖掘得到用戶的個性化信息,有了這些個性化信息,就可以生成針對“就業(yè)用戶”的個性化興趣模型,此模型可以分為靜態(tài)興趣模型和動態(tài)興趣模型;“個性化推薦服務(wù)”子系統(tǒng)則是按照“就業(yè)用戶”的個性化興趣模型自動向用戶推薦他們有意向的企業(yè),在此子系統(tǒng)中,根據(jù)用戶注冊情況,設(shè)計(jì)了兩個推薦的工作流程:一是新注冊用戶推薦的工作流程,另一個是已訪問用戶推薦的工作流程。
1.3 個性化建模設(shè)計(jì)思路
就業(yè)數(shù)據(jù)的個性化建模系統(tǒng)的工作流程,主要有四個步驟。
1) 獲取就業(yè)信息:這里的就業(yè)信息包括兩個方面,一方面是采用顯式收集方式,要求用戶指出自己的基本信息以及就業(yè)興趣,包括姓名,性別,年齡,學(xué)校,專業(yè),畢業(yè)時間,就業(yè)經(jīng)歷,對哪方面的企業(yè)感興趣等基本信息;另一方面利用隱式收集方式時,推薦系統(tǒng)依據(jù)Web日志,收集與分析用戶的上網(wǎng)數(shù)據(jù),如瀏覽的頁面、在頁面上滯留的時間、頁面點(diǎn)擊次序等信息,獲取用戶的瀏覽興趣。所有的數(shù)據(jù)資料存放到數(shù)據(jù)庫中。
2) 興趣的提?。旱玫搅松厦娴木蜆I(yè)信息,緊接著利用分類技術(shù)分析、挖掘在這些信息中隱含的各用戶興趣,分析用戶的基本信息和瀏覽行為,得到這些用戶在各企業(yè)崗位中所體現(xiàn)出的興趣類別等信息。當(dāng)我們分析完全部的數(shù)據(jù)之后,才能獲知用戶對不同的企業(yè)及崗位興趣的權(quán)值。
3) 個性化建模:通過就業(yè)用戶的興趣提取,產(chǎn)生就業(yè)用戶的各興趣模型,所產(chǎn)生的興趣模型可以分為:靜態(tài)興趣模型(用戶的)與動態(tài)興趣模型。比如:靜態(tài)的用戶興趣模型采用協(xié)同過濾技術(shù),根據(jù)對用戶的分析,將具有相似興趣的用戶聚集一個類別,識別出這一類別的用戶感興趣的企業(yè)。動態(tài)興趣模型可以采用貝葉斯網(wǎng)絡(luò)技術(shù)根據(jù)對就業(yè)信息的分析進(jìn)行建立貝葉斯網(wǎng)絡(luò)。
4)模型輸出:模型輸出的目的是給用戶供應(yīng)一個用戶模型的表達(dá)方式,體現(xiàn)用戶的興趣變更。在個性化建模之后,向用戶提供模型的輸出方式,然后將數(shù)據(jù)庫中關(guān)于用戶模型的數(shù)據(jù)重新組織,最后以不同的多樣化方式輸出。
1.4 個性化推薦子系統(tǒng)設(shè)計(jì)思路
1.4.1 新注冊用戶推薦的工作流程
對于新注冊用戶我們采用顯式收集方式,獲得用戶提供的基本信息以及就業(yè)興趣,包括姓名,性別,年齡,學(xué)校,專業(yè),畢業(yè)時間,就業(yè)經(jīng)歷,對哪方面的企業(yè)感興趣等基本信息。獲取了該用戶的信息后,用戶的分類模型對用戶進(jìn)行分類,識別出用戶所屬類別,接著采用基于用戶的協(xié)同過濾推薦技術(shù)搜索該類別的若干最近鄰居,然后根據(jù)最近鄰居對項(xiàng)目的評分來預(yù)測目標(biāo)用戶對項(xiàng)目的評分,產(chǎn)生對應(yīng)的推薦列表。靜態(tài)興趣模型中用戶模型的特征向量, {(c1,w1), (c2,w2),… , (cn, wn),},可以看成用戶對于相應(yīng)興趣類別的評分,
依據(jù)上述的協(xié)同過濾推薦算法,最終生成該類別用戶在所有興趣類別的權(quán)值,依據(jù)權(quán)值的大小結(jié)合概率選擇算法推薦相應(yīng)的企業(yè),權(quán)值的大小與推薦相應(yīng)類別的企業(yè)的個數(shù)成正比 ,同一興趣類別內(nèi)的企業(yè)采取隨機(jī)選擇算法進(jìn)行選擇。
1.4.2 已訪問用戶推薦的工作流程
對于已訪問用戶,我們不僅可以采用顯式收集方式獲取用戶的基本信息,還可以采用隱式收集方法收集用戶的訪問信息。一方面按照上述的方式識別出該用戶的類別,另一方面對該用戶訪問記錄進(jìn)行處理得到用戶的興趣記錄,以該記錄中包含的興趣類別為輸入,將它們與用戶動態(tài)模型的節(jié)點(diǎn)相匹配,得到相應(yīng)的證據(jù)節(jié)點(diǎn),經(jīng)過推理算法得到該用戶對所有興趣節(jié)點(diǎn)的興趣概率。綜合兩種方式的得到的興趣類別的權(quán)值,依據(jù)權(quán)值的大小推薦相應(yīng)的企業(yè)。
1.5 協(xié)同過濾推薦算法研究
目前國內(nèi)外互聯(lián)網(wǎng)上已經(jīng)有大量的大型網(wǎng)站應(yīng)用協(xié)同過濾技術(shù)為用戶更加智能地進(jìn)行推薦,可見該技術(shù)的廣泛性和被認(rèn)可性。協(xié)同過濾的基本思想是:招聘者的崗位設(shè)定是根據(jù)求職者的求職意向進(jìn)行分類的,同類招聘者具有非常相似的求職意愿,因此可以由其他招聘者的資料協(xié)同過濾得到對目標(biāo)用戶的推薦。
1.5.1 User-based協(xié)同過濾
基于用戶的(User-based)推薦技術(shù)中的一種典型算法是——最近鄰居協(xié)同過濾推薦算法,它的基本思想是:根據(jù)學(xué)歷、專業(yè)、年齡等相似性生成最近鄰居的就業(yè)求職意向數(shù)據(jù),然后根據(jù)這些數(shù)據(jù)對目標(biāo)用戶計(jì)算產(chǎn)生推薦。我們可以得出這樣一個推論:如果同是計(jì)算機(jī)專業(yè)畢業(yè)本科生用戶群,他們中對軟件開發(fā)等崗位有意向的,則這群畢業(yè)生也會對系統(tǒng)開發(fā)等崗位感興趣的。
關(guān)于最近鄰居的預(yù)測,協(xié)同過濾推薦技術(shù)使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶的若干最近鄰居;然后根據(jù)最近鄰居對工作崗位的興趣度來預(yù)測目標(biāo)用戶對工作崗位的興趣,產(chǎn)生對應(yīng)的推薦列表,叫做“top-N”推薦。
1.5.2 Item-based協(xié)同過濾
Item-based(基于項(xiàng)目的)協(xié)同過濾推薦算法定義:首先得到一個相似性結(jié)果(目標(biāo)用戶u評價過的崗位和目標(biāo)崗位i之間),再根據(jù)這個相似性挑選出數(shù)個最鄰近的崗位集合,由此計(jì)算出相應(yīng)崗位之間的相似度,有了這兩個結(jié)果就可以得到兩個值——用戶u對數(shù)個最鄰近的崗位的評分、最鄰近崗位集與崗位i的相似度,對目標(biāo)崗位i的預(yù)測評分就是把這兩個結(jié)果加權(quán)和的平均值。
1.6 協(xié)同過濾推薦改進(jìn)算法的提出
1.6.1 傳統(tǒng)過濾算法存在問題
雖然協(xié)同過濾推薦算法在眾多個性化推薦中算得上是最早且最成功的,但是每一種算法都有其自身的缺陷和不足之處,協(xié)同過濾推薦算法也不例外,在算法的可擴(kuò)展性問題、在大數(shù)據(jù)背景下產(chǎn)生的數(shù)據(jù)稀疏性的問題以及冷開始的問題等,這些問題的暴露也讓日益普遍應(yīng)用的推薦系統(tǒng)面臨選擇和優(yōu)化。