何如珍
(陽泉開放大學(xué) 山西省陽泉市 045000)
隨著干部在線培訓(xùn)的不斷發(fā)展和創(chuàng)新,在線平臺上供參學(xué)干部選擇的學(xué)習(xí)資源累積的越來越多,并逐漸膨脹,各級、各類的參學(xué)干部在選擇平臺提供的資源時(shí)表現(xiàn)出多種多樣的興趣和需求。以好干部在線(山西干部在線學(xué)院)為例,2017-2018年不到一年的時(shí)間里,平臺上的學(xué)習(xí)資源已經(jīng)增加了約252 門課程,約504 學(xué)時(shí),而且還將繼續(xù)增加。為了在海量的學(xué)習(xí)資源中尋找到滿足自身需求的、針對性強(qiáng)的學(xué)習(xí)資源,干部們耗費(fèi)了大量的時(shí)間和精力,卻不一定能得到滿意的結(jié)果。在現(xiàn)有平臺基礎(chǔ)上,借助大數(shù)據(jù)的思維重組,運(yùn)用數(shù)據(jù)挖掘技術(shù)和個(gè)性化推薦技術(shù),探索適用于干部在線學(xué)習(xí)的學(xué)習(xí)資源個(gè)性化推薦機(jī)制,實(shí)現(xiàn)學(xué)習(xí)資源的推送,最終解決學(xué)員在選擇學(xué)習(xí)資源方面的困惑,一定會讓干部在線培訓(xùn)呈現(xiàn)出全新的面貌。
2.1.1 收集參學(xué)干部興趣
參學(xué)干部興趣是干部們在長期訪問平臺和瀏覽資源過程中,對某一類型的學(xué)習(xí)資源產(chǎn)生的一段時(shí)間內(nèi)相對穩(wěn)定的需求??梢酝ㄟ^以下兩種方式來收集參學(xué)干部興趣:
(1)直接收集:直接收集是指讓參學(xué)干部在首次進(jìn)入網(wǎng)站學(xué)習(xí)時(shí)注冊個(gè)人信息,自愿完成學(xué)習(xí)偏好相關(guān)測試,然后根據(jù)以上信息,分析出參學(xué)干部的興趣特征并構(gòu)建興趣模型,將其存儲在數(shù)據(jù)庫中。
直接收集方式簡單、客觀,收集的信息也較為可靠。同時(shí)也有局限性,要求學(xué)員在剛進(jìn)入系統(tǒng)時(shí)就對自己的學(xué)習(xí)興趣有明確的認(rèn)知,并且愿意花時(shí)間和精力配合完成相關(guān)測試。
(2)間接收集:間接收集是指不需要學(xué)員自主提供個(gè)人信息,而是通過跟蹤和監(jiān)控學(xué)員的各種學(xué)習(xí)行為,包括歷史瀏覽記錄、收藏、下載、檢索、資源瀏覽次數(shù)等獲取參學(xué)干部興趣。
間接收集方式是系統(tǒng)在后臺自主、獨(dú)立完成,減少了人工成本,但是這種方式收集到的數(shù)據(jù)可能包含其他非相關(guān)性信息,導(dǎo)致收集到的學(xué)員興趣不夠精確。因此,文中采用兩種收集方法相結(jié)合的方式。
首先,參學(xué)干部首次進(jìn)入系統(tǒng)時(shí),利用注冊個(gè)人信息以及學(xué)習(xí)偏好測試所產(chǎn)生的數(shù)據(jù),初始化參學(xué)干部興趣模型;在參學(xué)干部隨后的學(xué)習(xí)過程中,依據(jù)學(xué)員觀看次數(shù)、收藏、下載等學(xué)習(xí)行為,不斷修正和完善參學(xué)干部興趣模型。參學(xué)干部興趣模型初始化和修正過程如圖1 所示。
圖1 :收集參學(xué)干部興趣
2.1.2 參學(xué)干部興趣模型表示
采用向量空間模型來表示參學(xué)干部興趣。首先,推薦系統(tǒng)自動從干部注冊個(gè)人信息和偏好測試文檔中提取參學(xué)干部興趣關(guān)鍵詞(主要包含:政治理論、經(jīng)濟(jì)建設(shè)、生態(tài)文明、業(yè)務(wù)能力提升、行業(yè)政策、法規(guī)解讀、時(shí)事政治、人文素養(yǎng)、山西省情等),并為每個(gè)代表興趣的關(guān)鍵詞賦予不同的權(quán)重值。其次,根據(jù)向量空間模型將參學(xué)干部興趣表示為{(K,W),(K,W),…, (K,W)},其中,K代表參學(xué)干部興趣的第n 個(gè)關(guān)鍵詞,W為參學(xué)干部對K所代表的這一類型資源的興趣值。{K,K,…,K}既可以是所有關(guān)鍵詞集,也可以是子集。具體表述如下:
其中,I表示參學(xué)干部興趣的關(guān)鍵詞,W表示關(guān)鍵詞的權(quán)重,權(quán)重越大,說明參學(xué)干部對該關(guān)鍵詞相關(guān)的資源越感興趣。
2.1.3 參學(xué)干部興趣模型修正
分析參學(xué)干部對學(xué)習(xí)資源的瀏覽次數(shù)、瀏覽類別、瀏覽時(shí)間、收藏、分享等學(xué)習(xí)行為和數(shù)據(jù),實(shí)時(shí)、精確地捕捉參學(xué)干部的興趣變化并及時(shí)調(diào)整興趣模型,確保構(gòu)建的參學(xué)干部興趣模型與參學(xué)干部對學(xué)習(xí)資源的實(shí)際需求最接近。
2.2.1 學(xué)習(xí)資源說明
學(xué)習(xí)資源是干部在線培訓(xùn)中最關(guān)鍵的一部分內(nèi)容。資源種類越多,內(nèi)容越豐富,干部們參加學(xué)習(xí)和培訓(xùn)的自主性就越高。此外,學(xué)習(xí)資源在提升干部自身能力和素質(zhì),逐漸形成良好的參學(xué)理念等方面具有至關(guān)重要的作用。
通過分析、整合“山西干部在線學(xué)院”和“陽泉干部在線學(xué)習(xí)中心”兩個(gè)平臺的學(xué)習(xí)資源,我們可以從兩個(gè)維度來介紹、說明資源的類別。從“學(xué)習(xí)資源呈現(xiàn)形式”這個(gè)維度來說,主要包括文檔、圖像、圖文結(jié)合、音頻、視頻、動畫6 大類;從“學(xué)習(xí)資源具體內(nèi)容” 這個(gè)維度,可以把學(xué)習(xí)資源分為政治理論、經(jīng)濟(jì)建設(shè)、生態(tài)文明、業(yè)務(wù)能力提升、行業(yè)政策、法規(guī)解讀、時(shí)事政治(習(xí)近平總書記系列講話以及治國理政相關(guān)資源)、人文素養(yǎng)、山西省情9 大類。
2.2.2 學(xué)習(xí)資源模型表示
同樣采用向量空間模型表示學(xué)習(xí)資源。學(xué)習(xí)資源模型定義如下:
其中,m 代表學(xué)習(xí)資源搜索的維度,R表示對學(xué)習(xí)資源的屬性、特征等信息進(jìn)行說明的關(guān)鍵詞,W為關(guān)鍵詞的權(quán)重,表示R能代表學(xué)習(xí)資源R 的程度。權(quán)重越大,說明該學(xué)習(xí)資源的關(guān)鍵詞比權(quán)重小的關(guān)鍵詞更能代表該資源。
從標(biāo)題、作者、學(xué)習(xí)資源說明和資源內(nèi)容四個(gè)方面提取學(xué)習(xí)資源關(guān)鍵詞。權(quán)重設(shè)計(jì)如下:
標(biāo)題>作者=學(xué)習(xí)資源說明=資源內(nèi)容
其中,前三個(gè)關(guān)鍵詞是由平臺管理與服務(wù)人員上傳學(xué)習(xí)資源時(shí)所填寫,第四個(gè)關(guān)鍵詞則是系統(tǒng)從學(xué)習(xí)資源中自動獲取的。
推薦系統(tǒng)在獲取到參學(xué)干部興趣之后,按照學(xué)習(xí)資源關(guān)鍵詞的權(quán)重由大到小依次查詢學(xué)習(xí)資源,最后將相關(guān)度高的學(xué)習(xí)資源推薦給學(xué)員。
干部興趣模型可以用向量I={(I,W), (I,W),…, (I,W)}描述, 學(xué)習(xí)資源模型可以用R={(R,W), (R,W),…,(R,W)} 描述;假設(shè)D為 I出現(xiàn)在R中的頻度,其中,j=1,2,3,......,m。那么,參學(xué)干部興趣模型和學(xué)習(xí)資源模型的匹配程度,即相關(guān)度d 可以表示如下:
利用公式(3)計(jì)算得到d>0 的所有學(xué)習(xí)資源的集合,由大到小排序,最后將與參學(xué)干部興趣相關(guān)度最大的學(xué)習(xí)資源推薦給學(xué)員。
2.4.1 干部興趣建模
運(yùn)用協(xié)同過濾推薦技術(shù)構(gòu)建參學(xué)干部興趣模型的數(shù)據(jù)基礎(chǔ)來自于學(xué)員對學(xué)習(xí)資源的評分?jǐn)?shù)據(jù)。但是現(xiàn)有的兩個(gè)干部在線學(xué)習(xí)平臺數(shù)據(jù)庫中沒有參學(xué)干部對學(xué)習(xí)資源的評分?jǐn)?shù)據(jù),只有學(xué)員訪問過的學(xué)習(xí)資源記錄。因此,本文研究過程中使用學(xué)員瀏覽或觀看某個(gè)學(xué)習(xí)資源的次數(shù)作為其對學(xué)習(xí)資源的評分。推薦系統(tǒng)基于這些數(shù)據(jù)構(gòu)建參學(xué)干部興趣模型。
本文將使用學(xué)員瀏覽或觀看某個(gè)學(xué)習(xí)資源的次數(shù)作為其對學(xué)習(xí)資源的評分。采用基于用戶-項(xiàng)目評價(jià)矩陣表示法來描述參學(xué)干部興趣模型。假設(shè)進(jìn)入平臺學(xué)習(xí)的學(xué)員集合User={u,u,…, u},學(xué)習(xí)資源集合Resource={r,r,…, r},其中u代表某位參學(xué)干部,r代表某個(gè)學(xué)習(xí)資源。使用學(xué)員瀏覽或觀看同一個(gè)學(xué)習(xí)資源的次數(shù)表示其對該學(xué)習(xí)資源的興趣值,然后通過一個(gè)評價(jià)函數(shù),得到對應(yīng)的興趣值S。參學(xué)干部-學(xué)習(xí)資源評分矩陣如表1 所示。
表1 :參學(xué)干部-學(xué)習(xí)資源評分矩陣
其中,n 為參學(xué)干部人數(shù),m 為學(xué)習(xí)資源數(shù)目,S代表第i 個(gè)參學(xué)干部對第j 個(gè)學(xué)習(xí)資源的興趣值。設(shè)定參學(xué)干部對學(xué)習(xí)資源的興趣值為從1 到5 的整數(shù),共5 個(gè)等級,即S∈{1,2,3,4,5},興趣值越大,說明干部對該學(xué)習(xí)資源越滿意。評分矩陣中有些元素是空值,表示學(xué)員一直未對該學(xué)習(xí)資源表現(xiàn)出喜歡與否,這就需要根據(jù)相似學(xué)員的喜好來預(yù)測該學(xué)員對學(xué)習(xí)資源的興趣值。
2.4.2 搜索相似學(xué)員
搜索相似學(xué)員,就是尋找和目標(biāo)學(xué)員具有相似興趣愛好的其他的一群學(xué)員,也是利用協(xié)同過濾推薦算法實(shí)現(xiàn)個(gè)性化學(xué)習(xí)資源推薦的最關(guān)鍵,也是最核心的一部分。首先需要確定需要尋找相似用戶的數(shù)量,然后計(jì)算目標(biāo)學(xué)員和其他學(xué)員之間的相似度,最后根據(jù)相似度由高到低選取確定數(shù)量的相似學(xué)員,構(gòu)成相似學(xué)員集合U={u,u,…, u},u?U。
(1)通過查找相關(guān)文獻(xiàn)資料,研究各類實(shí)驗(yàn)數(shù)據(jù),結(jié)果證明:一般情況下,選取相似用戶數(shù)量控制在20-50 個(gè)之間是最合理的,推薦質(zhì)量也是最優(yōu)的。
(2)計(jì)算目標(biāo)學(xué)員和其他學(xué)員之間的相似度,常用的主要有三種計(jì)算方法:皮爾遜相關(guān)系數(shù)、余弦相似度、調(diào)整的余弦相似度。為了保證最后產(chǎn)生的推薦結(jié)果最貼近學(xué)員的興趣和偏好,本文中將采用調(diào)整的余弦相似度來進(jìn)行目標(biāo)學(xué)員和其他學(xué)員之間的相似度計(jì)算。
通過以上公式計(jì)算出目標(biāo)學(xué)員和其他每位學(xué)員的相似度,然后依據(jù)相似度由高到低選取確定數(shù)量的相似學(xué)員用來預(yù)測目標(biāo)學(xué)員對某個(gè)資源的興趣值。
(3)產(chǎn)生推薦結(jié)果。利用相似學(xué)員集合 U={u, u, u,…,u}(u?U)以及相似學(xué)員對學(xué)習(xí)資源的興趣值,預(yù)測出目標(biāo)學(xué)員對未瀏覽資源的興趣值,然后按照興趣值的大小選擇相應(yīng)資源,形成推薦列表。
目標(biāo)學(xué)員u對未瀏覽資源r 的預(yù)測興趣值S可以通過如下公式得出:
我們可以通過公式(5)計(jì)算來預(yù)測目標(biāo)學(xué)員對每一個(gè)沒有瀏覽過的學(xué)習(xí)資源的興趣程度,并將其用數(shù)值表示出來。對每一個(gè)有了預(yù)測結(jié)果的資源按照興趣值從大到小依次排序,最后將列表中興趣值較大的學(xué)習(xí)資源提供給學(xué)員。
以上三個(gè)步驟全部完成之后,使用基于用戶的協(xié)同過濾推薦技術(shù)向?qū)W員推薦他們的潛在興趣資源的全部流程也就結(jié)束了,最終形成的高質(zhì)量的推薦結(jié)果,滿足了參加干部在線培訓(xùn)的每位學(xué)員的個(gè)性化需求。
干部在線學(xué)習(xí)資源個(gè)性化推薦模型體系結(jié)構(gòu)如圖2 所示。
圖2 :干部在線個(gè)性化學(xué)習(xí)資源推薦模型體系結(jié)構(gòu)
干部在線學(xué)習(xí)平臺自動分析數(shù)據(jù)庫中存入的參學(xué)干部個(gè)人注冊信息,根據(jù)這些信息提取出干部的學(xué)習(xí)興趣,建立起參學(xué)干部興趣初始化模型。
依據(jù)學(xué)員在平臺上的點(diǎn)擊、收藏、分享和瀏覽觀看多次四種行為分析學(xué)員的學(xué)習(xí)興趣。
通過挖掘?qū)W員的學(xué)習(xí)行為數(shù)據(jù),預(yù)先設(shè)定學(xué)員的興趣偏好權(quán)重的大小,如果發(fā)現(xiàn)學(xué)員興趣偏好發(fā)生轉(zhuǎn)變,需要動態(tài)調(diào)整參學(xué)干部興趣模型,將新收集的興趣關(guān)鍵詞權(quán)重增大,將原來的關(guān)鍵詞權(quán)重減小,直至權(quán)重減小到0,最后從參學(xué)干部興趣模型中將其刪除。權(quán)重的大小排序如表2 所示。
表2 :學(xué)員興趣偏好權(quán)重大小排序
通過計(jì)算經(jīng)過調(diào)整后的參學(xué)干部興趣模型和學(xué)習(xí)資源模型的匹配程度,即相關(guān)度d,將相關(guān)度較大的學(xué)習(xí)資源推送給該學(xué)員;依據(jù)學(xué)員對學(xué)習(xí)資源的評分,即瀏覽觀看次數(shù),計(jì)算目標(biāo)學(xué)員和其他學(xué)員之間的相似度,找出相似度較大的20-50 個(gè)相似學(xué)員。兩種推薦結(jié)果混合排序,呈現(xiàn)給學(xué)員。
學(xué)員再一次登錄到干部在線學(xué)習(xí)平臺學(xué)習(xí)的時(shí)候,呈現(xiàn)在學(xué)員面前的就是根據(jù)學(xué)員興趣個(gè)性化推薦的學(xué)習(xí)資源,平臺會繼續(xù)跟蹤、記錄學(xué)員的學(xué)習(xí)行為,并據(jù)此判定學(xué)員的滿意度,最后更新推薦結(jié)果。
干部在線學(xué)習(xí)資源個(gè)性化推薦工作過程如圖3 所示。
圖3 :學(xué)習(xí)資源個(gè)性化推薦工作過程
通過前期學(xué)習(xí)、資料收集和仔細(xì)鉆研,文中提出的利用基于Web 使用挖掘的推薦技術(shù)和基于用戶的協(xié)同過濾推薦技術(shù)相結(jié)合的推薦方法有效地提高了干部在線學(xué)習(xí)質(zhì)量,研究工作取得了突破性進(jìn)展。但在整個(gè)研究過程中還存在很多不足之處,如學(xué)員信息的隱私保護(hù)問題、資源庫的完善等,還需要進(jìn)行后續(xù)研究。