高儼?張立敏?陸自強(qiáng)?袁紹杰?常琳
摘要:校友活動(dòng)是指利用校友資源參與學(xué)校的育人過程,以此讓學(xué)生了解和掌握行業(yè)最新發(fā)展動(dòng)態(tài),為其提供有價(jià)值的職業(yè)規(guī)劃,同時(shí)幫助學(xué)生拓寬視野,提高學(xué)習(xí)能力,增強(qiáng)創(chuàng)新能力。本文基于校友活動(dòng),將收集到的校友簡歷數(shù)據(jù)進(jìn)行分類處理,對于結(jié)構(gòu)化數(shù)據(jù)進(jìn)行直接存儲(chǔ),對于非結(jié)構(gòu)化數(shù)據(jù),利用LDA模型從校友簡歷數(shù)據(jù)中發(fā)現(xiàn)主題,從而實(shí)現(xiàn)對校友導(dǎo)師數(shù)據(jù)進(jìn)行分類和結(jié)構(gòu)化存儲(chǔ)的目的;同時(shí),利用校友導(dǎo)師活動(dòng)過程中學(xué)生對導(dǎo)師的評價(jià),構(gòu)建出“導(dǎo)師-評分-標(biāo)簽”三元數(shù)據(jù)集;最后,在構(gòu)建的數(shù)據(jù)集基礎(chǔ)上,基于Model Based協(xié)同過濾算法,以SVD模型為核心,實(shí)現(xiàn)基于在校生評價(jià)的校友導(dǎo)師推薦。實(shí)驗(yàn)結(jié)果表明,該推薦算法可以基于某個(gè)場景的校友導(dǎo)師活動(dòng)進(jìn)行推薦,并提高活動(dòng)中校友導(dǎo)師與學(xué)生之間的匹配度與匹配效率,為有序引導(dǎo)校友資源參與學(xué)校人才培養(yǎng)提供了一種創(chuàng)新型思路。
關(guān)鍵詞:推薦系統(tǒng);SVD;校友導(dǎo)師;LDA模型
基金項(xiàng)目:云南省教育廳科學(xué)研究基金項(xiàng)目《基于校友活動(dòng)場景中的在校生數(shù)字畫像研究——以云南農(nóng)業(yè)大學(xué)為例》(編號:2022J0360)。
高儼(1979.04-),男,漢族,云南石屏,碩士,講師,研究方向:教育信息化。
校友是高校育人過程中的重要社會(huì)資源,通過校友活動(dòng)能夠?yàn)樵谛I峁W(xué)習(xí)和充實(shí)自我的環(huán)境。校友活動(dòng)中,不同類型的校友具有不同的優(yōu)勢,妥善運(yùn)用校友資源,分類管理校友簡歷,構(gòu)建校友導(dǎo)師推薦系統(tǒng),可以基于不同的校友活動(dòng)場景,為學(xué)生適時(shí)推薦有針對性的校友活動(dòng),以滿足在校生的培訓(xùn)活動(dòng)需求,這是校友會(huì)的主要工作職能,也是支持校友資源有效進(jìn)入學(xué)校人才培養(yǎng)通道的重要技術(shù)和支撐手段。
一、推薦系統(tǒng)的相關(guān)研究
推薦系統(tǒng)是當(dāng)人們面臨決策問題時(shí),通過回溯歷史數(shù)據(jù),尋找已知與未知之間最適合的匹配關(guān)系,從而提供支持決策的依據(jù)[1]。這些經(jīng)驗(yàn)既可以來源于自身對于已知模式的掌握,也可以來源于別人的經(jīng)驗(yàn)傳授。一般來說,一個(gè)推薦系統(tǒng)大致包括五個(gè)步驟,分別是數(shù)據(jù)的收集、數(shù)據(jù)的存儲(chǔ)、算法召回、結(jié)果排序和結(jié)果應(yīng)用。
數(shù)據(jù)收集是將有用的信息進(jìn)行匯總、清洗以及預(yù)處理,以便后續(xù)進(jìn)行分析和推薦。數(shù)據(jù)收集之后要持久化地存儲(chǔ)數(shù)據(jù),方便后續(xù)在不同的階段或者不同的模塊可以靈活地使用,通常會(huì)按照數(shù)據(jù)的結(jié)構(gòu)化或者非結(jié)構(gòu)化分別存儲(chǔ)。算法召回是將海量的數(shù)據(jù)集根據(jù)特定的算法進(jìn)行初步地篩選,尤其是面對動(dòng)輒成數(shù)百萬甚至數(shù)千萬的數(shù)量級,通過算法召回的多種測量,盡量將用戶關(guān)注的信息篩選出來,同時(shí)過濾掉多余的信息。結(jié)果排序是對召回的結(jié)果進(jìn)一步篩選,并且精準(zhǔn)排序,這時(shí)的數(shù)據(jù)規(guī)模從幾百降低至幾十甚至幾個(gè),以便最終呈現(xiàn)給用戶。排序過程中一般會(huì)針對多個(gè)目標(biāo)進(jìn)行優(yōu)化,這些目標(biāo)可能是針對用戶需求而具體確定的,例如在商業(yè)運(yùn)用中,要想提高用戶的留存或增加用戶的新穎性,都會(huì)被作為排序的目標(biāo),納入排序算法當(dāng)中。結(jié)果應(yīng)用是指根據(jù)具體的場景給用戶展示最終推薦結(jié)果,不同的場景會(huì)影響推薦的策略和算法,而策略和算法選擇的結(jié)果又會(huì)由最終的場景呈現(xiàn)出來。例如,在商業(yè)中常見的“猜你喜歡”和“相似推薦”,就是兩個(gè)不同的場景,而不同的場景會(huì)影響后續(xù)算法和策略的選擇,所以它們是相輔相成的關(guān)系。
二、校友導(dǎo)師數(shù)據(jù)分析
本研究基于校友導(dǎo)師簡歷數(shù)據(jù)和學(xué)生歷史行為進(jìn)行數(shù)據(jù)挖掘,分析校友導(dǎo)師的結(jié)構(gòu)化特征,同時(shí)從學(xué)生對導(dǎo)師的多樣化需要出發(fā)計(jì)算相似度,并以此為基礎(chǔ),在校友活動(dòng)組織的場景中實(shí)現(xiàn)校友導(dǎo)師的個(gè)性化推薦,從而為有序引導(dǎo)校友資源參與學(xué)校人才培養(yǎng)提供了一種創(chuàng)新型思路。
校友導(dǎo)師簡歷數(shù)據(jù)由多類屬性組合而成,能從多個(gè)維度反映出校友導(dǎo)師的概貌,是一種典型的半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。屬性類型是簡歷中各字段的歸并分類集合,共分為人口屬性、學(xué)籍屬性、導(dǎo)師類型和人物自傳四種類型,前三類包括屬性較易進(jìn)行結(jié)構(gòu)化處理,人物自傳是純文本類型,需通過文本挖掘等方法對其進(jìn)行清洗轉(zhuǎn)化來體現(xiàn)目標(biāo)的結(jié)構(gòu)化特征,進(jìn)而轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。本文通過運(yùn)用LDA模型對人物自傳類型屬性進(jìn)行主題發(fā)現(xiàn),以此獲得校友導(dǎo)師人物自傳的標(biāo)簽刻畫。
LDA是一個(gè)關(guān)于詞、主題、文檔三層貝葉斯概率模型[2]。首先居于人物自傳構(gòu)建詞袋模型;其次每個(gè)人物自傳居于詞袋形成其詞語分布,其參數(shù)滿足Dirichlet分布;最后把每個(gè)人物自傳看做由詞組組成的向量,計(jì)算其基于主題的概率分布,完成校友導(dǎo)師的人物自傳分類。本文共收集本校110名校友人物自傳類型數(shù)據(jù),通過分詞、構(gòu)建詞庫、計(jì)算TF-IDF值,最終獲得個(gè)人自傳主題分類結(jié)果如表1所示。
三、基于協(xié)同過濾算法的校友導(dǎo)師推薦
(一)協(xié)同過濾推薦
協(xié)同過濾算法是在算法召回過程中舉足輕重的一個(gè)算法[3]。協(xié)分過濾的算法可以分為兩類,分別是memory based和Model based。其中memory based又分為User Based和Item Based。User Based是計(jì)算兩個(gè)用戶的相似性,根據(jù)相似用戶進(jìn)行推薦,Item Based是尋找用戶在消費(fèi)歷史上所有喜歡過的物品,通過計(jì)算物品的相似性進(jìn)行推薦。
Memory based有兩個(gè)優(yōu)點(diǎn),第一是可解釋性強(qiáng),無論是User Based還是Item Based,都是利用相似性,或者說利用過往的經(jīng)驗(yàn)記憶進(jìn)行推斷。第二是算法簡單,適合新項(xiàng)目或者小型團(tuán)隊(duì),但同時(shí)也存在泛化能力較弱、計(jì)算開銷較大的問題,為了避免這兩個(gè)缺點(diǎn),就引入了Model Based的協(xié)同過濾。Model Based的協(xié)同過濾,是用一個(gè)預(yù)先訓(xùn)練好的模型來進(jìn)行拆解,常見模型包括矩陣分解和神經(jīng)網(wǎng)絡(luò),好處是線上推斷速度較快且泛化率比較強(qiáng)。
(二)基于SVD的協(xié)同模型的推薦
本文中使用SVD矩陣分解作為Model Based的核心模型來對實(shí)現(xiàn)協(xié)同過濾算法。奇異值分解(Singular Value Decomposition,以下簡稱SVD)是在機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的算法,不僅可以用于降維算法中的特征分解,還可以用于推薦系統(tǒng)以及自然語言處理等領(lǐng)域[4]。
SVD(Singular Value Decomposition)稱為奇異值分解 ,主要用于對高維矩陣進(jìn)行分解降維。對于任意一個(gè)矩陣的矩陣A,可以將其分解為三個(gè)矩陣,即:
其中,U是 m×m 的正交陣,V是 n×n 的正交陣,Σ是 m×n 的對角陣,其主對角線上的元素用σi表示,并按照從大到小排列,稱為奇異值,其減少特別的快。在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上的比例,因此假設(shè)σk+1=0,則利用矩陣分塊乘法可得
假設(shè)令
則A=PQ即A的滿秩分解。
利用該模型,在本文中學(xué)生對老師的評分可以看成一個(gè)矩陣A,則其存在一個(gè)滿秩分解即
其中U表示參與評分的學(xué)生,I表示校友導(dǎo)數(shù)的數(shù)量。利用A中的已知評分訓(xùn)練就可以訓(xùn)練P和Q,使得P和Q相乘的結(jié)果最好地?cái)M合已知的評分,那么A中未知的評分也就可以下式進(jìn)行表示。
假設(shè)已知的評分為rui,真實(shí)值與預(yù)測值之間的誤差為eui=rui- ,其誤差平方和SSE= ∑ u,i e2ui =∑ u,i (rui-∑ kk=1 puk qki )2 ,同時(shí)為防止過擬合加入正則化因子,誤差平方和變?yōu)镾SE=1/2∑ u,i? e2ui? +1/2 λ ∑ u | pu |2 +1/2 λ ∑ i |qi |2,
則其更新式為:
其中η 為puf和qij的學(xué)習(xí)率,即迭代學(xué)習(xí)的步長。
同時(shí)由于學(xué)生對校友導(dǎo)師的打分不僅取決于二者的選擇關(guān)系,還有一部分取決于學(xué)生與校友導(dǎo)師的獨(dú)有屬性,這些屬性之間是無關(guān)的,因此根據(jù)Koren做法[5-6],可以進(jìn)一步將SVD的預(yù)測公式修改為:
其中,μ為總的平均分,該平均值會(huì)對預(yù)測值產(chǎn)生作用;bu為學(xué)生u的屬性值,表示學(xué)生在打分過程中的偏好,它與選擇的校友導(dǎo)師屬性是無關(guān)的;bi為第i個(gè)校友導(dǎo)師的屬性值,反映導(dǎo)師的固有的特性,同樣與學(xué)生無關(guān)。在相應(yīng)的SSE在加入懲罰因子后就變?yōu)椋?/p>
相應(yīng)的更新公式,并在原來的基礎(chǔ)上增加兩個(gè)關(guān)于bu和bi的更新式,變?yōu)椋?/p>
其中eui = rui- 。
(三)推薦結(jié)果
本文一共收集1343名同學(xué)對110名校友導(dǎo)師的評價(jià),在參與活動(dòng)或觀看相關(guān)資料后,每名同學(xué)根據(jù)自己的實(shí)際情況對感興趣的校友導(dǎo)師進(jìn)行打分,分值為1-5分,實(shí)驗(yàn)數(shù)據(jù)集的稀疏度為20.102%,即20.102%的導(dǎo)數(shù)有評分。實(shí)驗(yàn)過程中采用網(wǎng)格搜索和交叉驗(yàn)證,在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器。其中相關(guān)參數(shù)設(shè)置如下為:
①迭代次數(shù) n_epochs=5,步長lr_all=0.002,正則化項(xiàng)reg_all=0.4時(shí),RMSE=0.9762。
②迭代次數(shù) n_epochs=5,步長lr_all=0.002,正則化項(xiàng)reg_all=0.6時(shí),RMSE=0.9463。
③迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項(xiàng)reg_all=0.4時(shí),RMSE=0.9292。
④迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項(xiàng)reg_all=0.6時(shí),RMSE= 0.8908。
⑤迭代次數(shù)n_epochs=10,步長lr_all=0.002,正則化項(xiàng)reg_all=0.4時(shí),RMSE=0.9079。
⑥迭代次數(shù) n_epochs=10,步長lr_all=0.002,正則化項(xiàng)reg_all=0.6時(shí),RMSE= 0.9116。
⑦迭代次數(shù) n_epochs=10,步長lr_all=0.005,正則化項(xiàng)reg_all=0.4時(shí),RMSE= 0.9514。
⑧迭代次數(shù) n_epochs=10,步長lr_all=0.005,正則化項(xiàng)reg_all=0.6時(shí),RMSE=0.9463。
對應(yīng)實(shí)驗(yàn)結(jié)果,輸出對應(yīng)最好RMSE結(jié)果的參數(shù)為迭代次數(shù) n_epochs=5,步長lr_all=0.005,正則化項(xiàng)reg_all=0.4。對于沒有被打分的校友,按照該模型預(yù)測分值,任選20名學(xué)生與20名校友,其對應(yīng)的推薦矩陣如圖1,只有預(yù)測分值大于4的校友才會(huì)被推薦給某位同學(xué)。
四、結(jié)束語
本文基于校友參與學(xué)校人才培養(yǎng)過程中收集到的信息,以及在開展校友導(dǎo)師活動(dòng)中學(xué)生對導(dǎo)師的評價(jià),對校友導(dǎo)師的數(shù)據(jù)和學(xué)生與導(dǎo)師之間的關(guān)系進(jìn)行了分析。首先對校友半結(jié)構(gòu)化的數(shù)據(jù)以LDA模型為基礎(chǔ)進(jìn)行主題發(fā)現(xiàn),實(shí)現(xiàn)對校友數(shù)據(jù)的結(jié)構(gòu)化處理。同時(shí),結(jié)合校友導(dǎo)師與學(xué)生之間在活動(dòng)中形成的關(guān)注和評價(jià)關(guān)系,運(yùn)用基于協(xié)同過濾算法的推薦系統(tǒng),實(shí)現(xiàn)對校友導(dǎo)師的推薦。推薦系統(tǒng)的實(shí)踐過程中需要考慮多種綜合因素,不同的運(yùn)用場景起到不同的作用,校友導(dǎo)師推薦過程中,每一個(gè)學(xué)期的時(shí)間節(jié)點(diǎn)不同,學(xué)生群體對于校友活動(dòng)的需求類型也是不同的。例如,進(jìn)入新學(xué)年,新生群體對于如何規(guī)劃學(xué)習(xí)和時(shí)間有更多需求;進(jìn)入畢業(yè)季,畢業(yè)生群體更加關(guān)注如何就業(yè)和規(guī)劃職業(yè)發(fā)展;在各類創(chuàng)業(yè)活動(dòng)競賽中,有創(chuàng)業(yè)經(jīng)驗(yàn)的導(dǎo)師組織的活動(dòng)往往更受有創(chuàng)業(yè)情結(jié)的學(xué)生群體歡迎。本次研究只探討了其中一種實(shí)現(xiàn)算法的模型,在下一步研究工作中將進(jìn)一步綜合考慮并改進(jìn)算法,以期獲得更好的推薦結(jié)果。
作者單位:高儼 張立敏 陸自強(qiáng) 袁紹杰 常琳
云南農(nóng)業(yè)大學(xué)校友會(huì)辦公室
參? 考? 文? 獻(xiàn)
[1]RESNICK P,VARIAN H R. Recommender systems [J].Communications of the ACM,1997,40(3):56-58.
[2]阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014,33(03):161-164.
[3]于蒙,何文濤,周緒川,等.推薦系統(tǒng)綜述[J].計(jì)算機(jī)應(yīng)用,2022,42(06):1898-1913.
[4]趙營.結(jié)合SVD的協(xié)同過濾算法研究[J].通訊世界,2016(10):255.
[5]Koren Y,Bell R,Volinsky C.Matrix Factorization Techniques for Recommender Systems[J].Computer,2009,42(8):30-37.
[6]Koren Y.Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]ACM SIGKDD International Conference on Knowledge Discovery and DataMining.ACM,2008:426-434.