劉西祥
摘要:分析了傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法和改進的基于用戶的協(xié)同過濾推薦算法的算法思想和算法步驟,并對2種推薦算法在高職院校就業(yè)推薦系統(tǒng)中的應用結果進行了對比,證實了改進的基于用戶的協(xié)同過濾推薦算法更適用于高職院校就業(yè)推薦系統(tǒng),提高了相似學生推薦的準確性,推薦的結果也更加符合實際。
關鍵詞:協(xié)同過濾推薦算法;就業(yè)推薦系統(tǒng);聚類分析
中圖分類號:TP391文獻標志碼:A文章編號:1008-1739(2020)23-68-4
0引言
就業(yè)推薦系統(tǒng)的推薦算法是整個推薦系統(tǒng)中最核心、最關鍵的部分,目前關于就業(yè)推薦系統(tǒng)的算法研究主要有:吳迪的基于經(jīng)驗公式的算法、魏麗芹的基于歷史信息的就業(yè)推薦算法、陳玉峰的ID3算法以及基于內容和Item-based協(xié)同過濾的組合推薦算法等,他們研究的對象一般比較廣泛,采用的算法也比較傳統(tǒng),不適用高職院校就業(yè)推薦工作。本文采用基于用戶的協(xié)同過濾推薦算法(學生當作用戶,就業(yè)單位當作項目)來進行就業(yè)推薦。首先根據(jù)所有學生(含往屆畢業(yè)學生和應屆畢業(yè)學生)對就業(yè)單位簽約情況、感興趣程度,發(fā)現(xiàn)與應屆畢業(yè)學生對就業(yè)單位興趣度相似的往屆畢業(yè)學生最相鄰學生,然后根據(jù)該相鄰的往屆畢業(yè)學生的簽約情況,為該應屆畢業(yè)學生推薦就業(yè)單位,實現(xiàn)就業(yè)推薦功能。
1傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法
1.1相似度計算
查找最近鄰居是基于用戶的協(xié)同過濾推薦算法的主要工作,通過應、往屆畢業(yè)學生對就業(yè)單位的評分矩陣,可以計算出他們之間的相似度,相似度越高,他們越接近。把應屆畢業(yè)學生與往屆畢業(yè)學生之間的相似度定義為( , ),每一個學生對就業(yè)單位的評分可以看作是一個維的向量,應屆畢業(yè)學生與往屆畢業(yè)學生之間的相似度就可以用不同的維向量間的相似度來進行度量。通過Cosine相似度(余弦相似度)來計算他們之間的相似度,設應屆畢業(yè)學生與往屆畢業(yè)學生在維對象空間上的評分表示為向量,,則( , )的相似度計算方法如公式(1)所示。
1.2推薦實現(xiàn)
通過計算相似度得到了應屆畢業(yè)學生的最近鄰居集(最相似的往屆畢業(yè)學生),然后就可以通過最近鄰居集進行預測評分,計算方法為:
1.3推薦算法步驟及流程圖
(1)推薦算法步驟
①通過應、往屆畢業(yè)生對企業(yè)評分表分別構建應、往屆畢業(yè)生評分矩陣。
②構建應屆畢業(yè)生和往屆畢業(yè)生的相似度矩陣。
③根據(jù)相似度矩陣求出個與該應屆畢業(yè)生相鄰的往屆畢業(yè)生。
④根據(jù)統(tǒng)計的相鄰的節(jié)點個數(shù),預測該應屆畢業(yè)生對企業(yè)的評分值。
⑤根據(jù)預測的評分值,按降序排列得出TOP-個企業(yè)推薦給應屆畢業(yè)生。
(2)推薦算法程序流程圖。
傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法流程圖如圖1所示。
2改進的基于用戶的協(xié)同過濾推薦算法
傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法只考慮了應屆畢業(yè)學生和往屆畢業(yè)學生對就業(yè)單位的興趣度,即評分矩陣的評分值只是針對簽約單位和感興趣的就業(yè)單位來進行的,而沒有考慮應屆畢業(yè)生和往屆畢業(yè)生本身的相似度,比如專業(yè)、性別、專業(yè)考證、是否學生干部、生源地、職業(yè)素養(yǎng)、專業(yè)課成績、外語成績、綜合評定、身高及畢業(yè)時間等特征屬性。實際就業(yè)推薦過程中,必須首先考慮學生的基本特征和綜合素質,因為基本特征和綜合素質相當?shù)膶W生才能勝任類似的工作,而就業(yè)單位在招聘應屆畢業(yè)生的時候也會參考歷年招聘的往屆畢業(yè)生的基本特征和綜合素質,即招聘條件在近期內不會有太大的變化。當然,隨著時間的推移,往屆畢業(yè)學生數(shù)據(jù)庫的數(shù)據(jù)越來越多,所以在計算應屆畢業(yè)生和往屆畢業(yè)生相似度的時候還要考慮畢業(yè)時間的因素,加入時間權值。另外,高職院校畢業(yè)生就業(yè)專業(yè)比較對口,可以對就業(yè)推薦的對象先分類,再推薦。即進行相似度計算和推薦之前,先對應、往屆畢業(yè)生按專業(yè)進行聚類分析,然后按專業(yè)進行就業(yè)推薦。
2.1學生聚類分析
如果每次相似度計算都以全校所有畢業(yè)學生數(shù)據(jù)來進行,推薦復雜度和推薦效率勢必受到影響,不是理想的方法。所以在進行相似度計算和推薦之前首先對應屆畢業(yè)生和往屆畢業(yè)生按專業(yè)進行聚類分析,形成新的數(shù)據(jù)庫。
2.2興趣企業(yè)最近鄰
對應屆畢業(yè)生和往屆畢業(yè)生按專業(yè)進行了聚類分析,縮小了推薦范圍。而相同專業(yè)的應、往屆畢業(yè)生,由于有些專業(yè)人數(shù)特別多,故往屆畢業(yè)生對同一企業(yè)感興趣的情況也會經(jīng)常出現(xiàn),所以可以利用興趣企業(yè)最近鄰方法來進一步縮小計算范圍。把與應屆畢業(yè)生有共同感興趣的企業(yè)(共同給予評分)的相關往屆畢業(yè)生的所有評分進行求和,然后根據(jù)得分排名從高到低選擇個往屆畢業(yè)生與應屆畢業(yè)生進行相似度計算。找出與應屆畢業(yè)生有共同感興趣的企業(yè)(共同給予評分值較高)的相關往屆畢業(yè)生進行相似度計算,而那些與該應屆畢業(yè)生無共同感興趣企業(yè)(無共同給予評分或共同給予評分值較低)的往屆畢業(yè)生沒有推薦能力,不參與相似度計算,大大改善了推薦實時性,降低了數(shù)據(jù)稀疏性。