謝銳兵
(浙江廣廈建設(shè)職業(yè)技術(shù)學(xué)院,東陽 322100)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和電腦、智能手機等智能設(shè)備的普及,在線學(xué)習(xí)呈突飛猛進式發(fā)展,其范圍涵蓋了各種校內(nèi)課程教育、校外輔導(dǎo)和成人終身教育以及社會職業(yè)教育、技能培訓(xùn)等?!盎ヂ?lián)網(wǎng)+”教育因其數(shù)字化、自主化、碎片化、靈活性等的學(xué)習(xí)優(yōu)勢非常受大家的歡迎。隨著各種網(wǎng)絡(luò)學(xué)習(xí)資源的開發(fā)建設(shè)積累和網(wǎng)絡(luò)資源開放性、共享性的不斷加大,在線學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)資源也日益增加,這在給學(xué)習(xí)人員帶來豐富充實的學(xué)習(xí)資源的同時,也給學(xué)習(xí)人員帶來了選擇的困惱,容易給學(xué)習(xí)人員帶來“資源迷航”[1]。因材施教歷來是中國教育遵循的原則,個性化學(xué)習(xí)需求也越來越受人們重視,國家在2010 年制定的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020)》中就提出了尊重個性化學(xué)習(xí)需求的意見[1]。學(xué)習(xí)資源陳列式展示的在線學(xué)習(xí)平臺很明顯無法有效實現(xiàn)個性化學(xué)習(xí)需求。
人工智能的快速發(fā)展和應(yīng)用,給在線學(xué)習(xí)的發(fā)展帶來了契機。人工智能于1956 年被提出以來,已經(jīng)在各行各業(yè)獲得了應(yīng)用,人工智能在教育領(lǐng)域的應(yīng)用也越來越受專家學(xué)者的重視,“智慧學(xué)習(xí)”已經(jīng)成了一個熱門話題。運用互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)構(gòu)建支持學(xué)習(xí)者自適應(yīng)學(xué)習(xí)的智適應(yīng)學(xué)習(xí)系統(tǒng),是當(dāng)前在線學(xué)習(xí)研究的主要方向之一。自適應(yīng)學(xué)習(xí)是指滿足個性化學(xué)習(xí)需求的學(xué)習(xí)模式,智適應(yīng)系統(tǒng)的核心功能是能根據(jù)用戶信息、資源信息和學(xué)習(xí)行為日志進行數(shù)據(jù)分析和計算,通過數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)進行模型量化,再運用相關(guān)的推薦算法構(gòu)建出適合學(xué)習(xí)者的最優(yōu)學(xué)習(xí)路徑,從而有針對性的向用戶推薦學(xué)習(xí)資源,滿足個性化學(xué)習(xí)需求。
推薦算法是實現(xiàn)個性化推薦的關(guān)鍵技術(shù),目前常用的推薦算法有基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法、基于知識的推薦算法、組合推薦算法等,其中基于協(xié)同過濾推薦算法是應(yīng)用最為廣泛的經(jīng)典算法,也是目前智能化學(xué)習(xí)系統(tǒng)中主要應(yīng)用的推薦算法[2]。然而在線學(xué)習(xí)平臺使用基于協(xié)同過濾推薦算法會存在數(shù)據(jù)稀疏和冷啟動問題,很多專家學(xué)者也提出了不同的解決方法。申云鳳提出將人工神經(jīng)網(wǎng)絡(luò)算法和蟻群算法運用到用戶相似度模型構(gòu)建和協(xié)同過濾推薦過程中[3];熊慧君等人提出了二次協(xié)同過濾推薦的思路[4];孫華燕等人提出了通過基于因果聚類分析和基于模糊相似關(guān)系來對協(xié)同過濾推薦算法進行改進[5]。本文研究了基于行為量化的協(xié)同過濾推薦和基于特性和內(nèi)容標簽的推薦的算法組合使用,以此來實現(xiàn)個性化推薦,以及改善數(shù)據(jù)稀缺和冷啟動問題,并在建筑業(yè)工人移動智慧培訓(xùn)平臺中進行應(yīng)用。
在推薦系統(tǒng)中,主要需要通過用戶行為數(shù)據(jù)或?qū)Y源的評價來判斷用戶對資源的喜好程度,并以此作為模型,對具有相似喜好的用戶進行資源推薦,這就需要基于協(xié)同過濾推薦算法來實現(xiàn)?;趨f(xié)同過濾推薦在新聞推薦、電影推薦、商品推薦、廣告推薦中等被廣泛使用[5]?;趨f(xié)同過濾算法的主要流程是首先根據(jù)用戶的行為日志或?qū)Y源的評價建立用戶模型或資源模型,再根據(jù)相似度算法尋找相似用戶或相似資源,形成推薦路徑,最后依據(jù)推薦路徑對目標用戶進行基于協(xié)同過濾的資源推薦,實現(xiàn)個性化推薦結(jié)果?;趨f(xié)同過濾推薦的相似度計算方法主要有皮爾森相關(guān)系數(shù)計算方法、余玄相似度計算方法和修正余玄相似度計算方法等[6]。
基于協(xié)同過濾推薦主要有基于用戶的協(xié)同過濾推薦和基于資源的協(xié)同過濾推薦?;谟脩舻膮f(xié)同過濾推薦是根據(jù)不同用戶對相同資源具有相似的評價從而建立相似用戶模型,認為其需求喜好相近,繼而將相似用戶A 曾經(jīng)選擇過而相似用戶B 還沒有選擇的資源推薦給相似用戶B,從而實現(xiàn)個性化推薦?;谫Y源的協(xié)同過濾推薦則是通過資源模型來計算資源的相似度,并將相關(guān)資源推薦給選擇了與其高相似度的其他資源的用戶。一般推薦系統(tǒng)中,會將兩種推薦結(jié)合使用,以提高推薦的有效性和準確度。
協(xié)同過濾推薦需要根據(jù)用戶對資源喜好度來計算用戶或資源的相似度,一般推薦系統(tǒng)中最直接最簡單的方法就是利用用戶對資源的評分作為計算相似度重要參數(shù),例如影視推薦系統(tǒng)中對影視作品的評分。在智適應(yīng)學(xué)習(xí)系統(tǒng)中,由于學(xué)習(xí)資源豐富,資源個數(shù)眾多,特別是基于移動學(xué)習(xí)資源碎片化后,學(xué)習(xí)用戶一次學(xué)習(xí)往往需要瀏覽多條資源,再加上學(xué)習(xí)的枯燥性和壓力性,要求學(xué)習(xí)用戶對每條瀏覽過的學(xué)習(xí)資源進行再評分非常不現(xiàn)實,所以無法通過直接評分的方式來計算學(xué)習(xí)用戶對學(xué)習(xí)資源的喜好。但學(xué)習(xí)用戶在對資源進行學(xué)習(xí)后,會留下學(xué)習(xí)行為日志,例如資源的點擊量、資源的瀏覽時長、資源的收藏情況、資源的下載情況等等,這些學(xué)習(xí)行為日志在很大程度上能代表學(xué)習(xí)用戶對學(xué)習(xí)資源的喜好情況。因此系統(tǒng)可以先對用戶學(xué)習(xí)行為進行加權(quán)量化計算用戶喜好度值[6],再計算相似度進行資源推薦。
(1)計算用戶喜好度量化值
收集并獲取智適應(yīng)學(xué)習(xí)系統(tǒng)中學(xué)習(xí)用戶的行為記錄,確定用于量化計算的行為特征因子x,獲得行為特征向量X={x1,x2,x3,…,xn},對每個行為特征賦值量化,取值 Ci,Ci∈ [0,10],同時對每個行為特征加權(quán) Qi,并且:
由此,可計算出某個行為特征因子xi的喜好量化權(quán)值W(xi):
系統(tǒng)根據(jù)用戶所有特征因子的喜好量化權(quán)值求和計算出用戶A 對資源j 的喜好值WA,j,并以此計算用戶喜好度值。
WA,j∈ [0,10],值越高,說明用戶 A 對資源 j 的喜好度越高。
(2)計算學(xué)習(xí)用戶相似度
利用公式(3)可以計算出學(xué)習(xí)用戶對學(xué)習(xí)資源的喜好度量化值,假設(shè)用戶A 對資源i 的喜好度值為WA,i,用戶A 對所有資源的喜好度平均值為,用戶 B 對資源i 的喜好度值為WB,i,用戶B 對所有資源的喜好度平均值為利用修正的余玄相似度計算方法[7],可以計算出用戶A 和用戶B 的相似度:
其中CA,B指用戶A 和B 有共同學(xué)習(xí)行為的資源集合,CA為用戶A 所有具有學(xué)習(xí)行為的資源集合,CB為用戶B 所有具有學(xué)習(xí)行為的資源集合。SA,B值越高,說明其相似度越高,系統(tǒng)以此構(gòu)建學(xué)習(xí)用戶相似度模型。
(3)計算資源推薦度
要給學(xué)習(xí)用戶A 推薦資源,先通過學(xué)習(xí)用戶相似度模型計算出與A 有學(xué)習(xí)高相似度的其他用戶群體K,記為U(A,K),對K 群體已經(jīng)有學(xué)習(xí)行為而學(xué)習(xí)用戶A 還沒有學(xué)習(xí)行為的學(xué)習(xí)資源i 相對于學(xué)習(xí)用戶A的推薦度可以用公式計算:
SA,B為學(xué)習(xí)用戶 A 和 B 的相似度,WB,i為用戶 B 對學(xué)習(xí)資源i 的喜好度值,U(i)為對學(xué)習(xí)資源i 有學(xué)習(xí)行為的學(xué)習(xí)用戶群體。系統(tǒng)根據(jù)推薦度值建立學(xué)習(xí)資源推薦列表,最終推薦給學(xué)習(xí)用戶A,實現(xiàn)個性化推薦。
圖1 基于用戶行為量化的協(xié)同過濾推薦流程
在智適應(yīng)學(xué)習(xí)系統(tǒng)中,有效應(yīng)用基于協(xié)同過濾推薦的前提是要有足夠多的學(xué)習(xí)用戶學(xué)習(xí)行為記錄,用以量化并計算相似學(xué)習(xí)用戶群體。然而在現(xiàn)實中,大多數(shù)智適應(yīng)學(xué)習(xí)系統(tǒng)中有效的活動學(xué)習(xí)用戶占比較少的部分,其產(chǎn)生的學(xué)習(xí)行為記錄稀少,而且隨著學(xué)習(xí)系統(tǒng)功能的更加完善、覆蓋面的更加廣泛,活動學(xué)習(xí)用戶中有交集的學(xué)習(xí)行為記錄更少,這大大降低了基于協(xié)同過濾推薦的效率和準確度,這便是基于協(xié)同過濾推薦中存在的數(shù)據(jù)稀缺問題[8]。同時,在針對新注冊用戶時,由于其初始使用而沒有任何學(xué)習(xí)行為記錄,基于協(xié)同過濾推薦更是無法計算其相似學(xué)習(xí)用戶,同樣,當(dāng)系統(tǒng)中新添加了學(xué)習(xí)資源時,由于這些新的學(xué)習(xí)資源還沒有任何學(xué)習(xí)用戶使用過,也就沒有針對這些學(xué)習(xí)資源的學(xué)習(xí)行為記錄,基于協(xié)同推薦也無法將這些資源有效地推薦給有需要的學(xué)習(xí)用戶,這便是基于協(xié)同過濾推薦存在的冷啟動問題[8]?;趨f(xié)同過濾推薦的數(shù)據(jù)稀缺和冷啟動缺陷會給智適應(yīng)學(xué)習(xí)系統(tǒng)中的個性化資源推薦帶來不利影響。為了有效解決數(shù)據(jù)稀缺和冷啟動的缺陷問題,可以在基于協(xié)同過濾推薦的同時組合使用基于特性和內(nèi)容的標簽推薦來實現(xiàn)全面?zhèn)€性化學(xué)習(xí)推薦。
基于特性和內(nèi)容的標簽推薦來實現(xiàn)個性化學(xué)習(xí)推薦,可以有效解決智適應(yīng)學(xué)習(xí)系統(tǒng)中當(dāng)新注冊學(xué)習(xí)用戶登錄或?qū)W習(xí)行為日志偏少用戶登錄時,因?qū)W習(xí)日志缺少,系統(tǒng)無法根據(jù)其過往行為來分析和判斷其學(xué)習(xí)偏好而無法進行基于協(xié)同過濾推薦的問題。智適應(yīng)學(xué)習(xí)系統(tǒng)在學(xué)習(xí)資源建設(shè)時,需對每個資源設(shè)置主要標簽,例如課程名、知識點、授課教師、關(guān)鍵字等,以此來建立資源的特性和內(nèi)容特征,同時在注冊新學(xué)習(xí)用戶時,為每位學(xué)習(xí)用戶建立初始學(xué)習(xí)偏好標簽,如專業(yè)、課程等,以此來建立學(xué)習(xí)用戶初始學(xué)習(xí)偏好模型。通過對學(xué)習(xí)偏好模型和資源的特性和內(nèi)容特征進行相似度計算,實現(xiàn)個性化資源的推薦。
圖2 基于特性和內(nèi)容標簽推薦的個性化學(xué)習(xí)推薦流程
學(xué)習(xí)用戶的初始學(xué)習(xí)偏好標簽和學(xué)習(xí)資源標簽均包含兩個方面,一是特性標簽,代表資源的分類,例如課程名、授課教師、專業(yè)對象等,一是內(nèi)容標簽,代表具體的內(nèi)容特征,例如內(nèi)容關(guān)鍵字等。特性標簽的推薦約束優(yōu)先于內(nèi)容標簽的推薦約束。系統(tǒng)進行標簽推薦時,首先匹配特性標簽,當(dāng)學(xué)習(xí)偏好中的特性標簽和資源的特性標簽直接匹配上時,系統(tǒng)將其標記為優(yōu)先推薦大類,然后在此基礎(chǔ)上,再進行內(nèi)容標簽的相似度計算,得出更精確的推薦路徑。
取數(shù)據(jù)庫中用戶初始學(xué)習(xí)偏好內(nèi)容標簽,建立特征向量 S={t1,t2,t3,…,tn},其中 S 表示學(xué)習(xí)用戶,tn表示第n 個標簽特征。系統(tǒng)為每個標簽特征賦權(quán)重,權(quán)重向量M={wt1,wt2,wt3,…,wtn},wtn表示標簽 tn的權(quán)重。學(xué)習(xí)用戶的初始學(xué)習(xí)偏好特征向量T(s)可以通過求所有標簽權(quán)重的平均值獲得[9]。
資源的內(nèi)容標簽中相同的標簽在不同的資源中具有的權(quán)重應(yīng)有不同,例如關(guān)鍵字“算法”在編程類學(xué)習(xí)資源中的權(quán)重與在管理類學(xué)習(xí)資源中的權(quán)重就明顯不同,故系統(tǒng)不能對每個關(guān)鍵字標簽的權(quán)重進行初始化賦值。詞頻-逆向文件頻率(TF-IDF)是用來計算學(xué)習(xí)資源內(nèi)容標簽的特征向量權(quán)重的比較好的方法[10]。
詞頻TF(ti,cj)表示學(xué)習(xí)資源cj中標簽ti出現(xiàn)的頻次mij與所有各學(xué)習(xí)資源中ti出現(xiàn)的最大頻次Max(mi)的比值,取值范圍為[0,1],算式如下:
逆向文件頻率IDF(ti)通過取學(xué)習(xí)資源總數(shù)K 與出現(xiàn)標簽ti的學(xué)習(xí)資源數(shù)量k(ti)比值的對數(shù)來表示,算式如下:
學(xué)習(xí)資源cj中標簽ti的TF-IDF 權(quán)重w(ti,cj)表示為:
學(xué)習(xí)資源cj的標簽權(quán)重值W(cj)可以表示為特征向量:
采用余玄相似度計算學(xué)習(xí)用戶初始學(xué)習(xí)偏好特征向量T(s)和學(xué)習(xí)資源特征向量W(cj)進行相似度,相似度越高,說明推薦度越高,以此來取最佳的推薦路徑,進行資源推薦。余玄相似度計算公式為:
基于特性和內(nèi)容的標簽推薦算法能有效的解決數(shù)據(jù)稀缺和冷啟動帶來的資源推薦困難問題,能夠?qū)π伦杂脩粢约吧賹W(xué)習(xí)行為學(xué)習(xí)用戶的智適應(yīng)學(xué)習(xí)進行比較準確的個性化資源推薦,享受智慧學(xué)習(xí)帶來的便捷和效率。相比傳統(tǒng)的基于內(nèi)容推薦算法,基于特性和內(nèi)容的標簽推薦算法因標簽的提前設(shè)定從而大大降低了數(shù)據(jù)挖掘和分析計算的壓力,大大提高了算法的運算效率,降低了平臺的運行能耗,同時特性標簽的應(yīng)用,有利于學(xué)習(xí)資源的精確分類,對單純需要特性標簽推薦的學(xué)習(xí)用戶可以實現(xiàn)直接的分類推薦,特別對音視頻、動畫、虛擬實驗類等非純文本學(xué)習(xí)資源的推薦有效,對基于內(nèi)容標簽推薦的學(xué)習(xí)用戶,也能較大范圍地提高資源推薦的準確性。
建筑業(yè)工人移動智慧培訓(xùn)平臺是一套針對建筑行業(yè)從業(yè)工人職業(yè)教育和技能培訓(xùn)的智適應(yīng)系統(tǒng),系統(tǒng)面向建筑業(yè)工人,主要提供現(xiàn)場管理、安全生產(chǎn)、崗位技能、特種作業(yè)、技能鑒定等初、中、高級的理論知識培訓(xùn)和技能操作模擬實驗培訓(xùn)。培訓(xùn)平臺主要有智慧學(xué)習(xí)、練習(xí)測試、系統(tǒng)管理三大塊功能,分別提供移動遠程個性化學(xué)習(xí)、在線遠程練習(xí)及模擬測試、學(xué)習(xí)資源和用戶管理以及系統(tǒng)管理等操作。建筑業(yè)工人由于普遍存在知識水平低、學(xué)習(xí)判斷和選擇能力弱等問題,在傳統(tǒng)的在線自主學(xué)習(xí)過程中存在較大的困難,無法達到較好的學(xué)習(xí)效果,因此個性化學(xué)習(xí)推薦尤為重要。我們分別在建筑業(yè)工人移動智慧培訓(xùn)平臺的智慧學(xué)習(xí)和練習(xí)測試模塊應(yīng)用了基于協(xié)同推薦加基于特性和內(nèi)容的標簽推薦的組合推薦方法。
在智慧學(xué)習(xí)模塊中,系統(tǒng)主要通過學(xué)習(xí)行為日志中的學(xué)習(xí)資源的點擊次數(shù)、瀏覽時長、收藏情況和點贊情況來作為培訓(xùn)用戶培訓(xùn)偏好度量化計算的主要因子。各因子分別量化為0~10 之間的數(shù)值,其中點擊次數(shù)、瀏覽時長根據(jù)具體數(shù)量折算,而收藏情況和點贊情況設(shè)成是非條件,有收藏和點贊則獲10 分,沒有則獲0分,同時對每個因子加權(quán)分別為 0.3、0.3、0.2、0.2,最后計算出培訓(xùn)用戶的喜好度值,并以此作為計算相似度的依據(jù),通過基于協(xié)同的過濾推薦來實現(xiàn)個性化資源推薦。系統(tǒng)同時對培訓(xùn)資源設(shè)置特性和內(nèi)容標簽,特性標簽主要包括類別、專業(yè)方向、科目、所屬知識點、培訓(xùn)教師、適用對象等,內(nèi)容標簽主要為學(xué)習(xí)內(nèi)容中的具體關(guān)鍵字,例如安全法規(guī)、BIM、CAD、市政施工等,培訓(xùn)用戶在注冊時,要求根據(jù)其主要的培訓(xùn)方向和需求選擇相應(yīng)的特性和內(nèi)容標簽,存入信息庫,系統(tǒng)根據(jù)培訓(xùn)用戶和培訓(xùn)資源對應(yīng)的特性和內(nèi)容標簽,通過基于特性和內(nèi)容的標簽推薦實現(xiàn)個性化推薦。
練習(xí)測試模塊主要涉及試題的抽取及組卷,在線練習(xí)測線系統(tǒng)一般通過隨機、基于遺傳或蟻群算法等完成組卷,單純依賴系統(tǒng)中提前設(shè)置好的規(guī)則,缺乏個性化特征。建筑業(yè)工人移動智慧培訓(xùn)平臺的練習(xí)測試模塊中通過在遺傳算法中組合使用個性化推薦算法進行組卷,將通過基于推薦算法計算出的推薦值作為遺傳算法中的約束條件之一,從而實現(xiàn)個性化的組卷。系統(tǒng)將試題的練習(xí)次數(shù)、出錯率、重要性權(quán)重、對應(yīng)知識點的學(xué)習(xí)用戶學(xué)習(xí)偏好度值等作為試題推薦度值計算的重要因子,計算出其推薦度值,再配合時長約束、難易度約束、題型約束、分值約束等條件,運用遺傳算法進行初始化、選擇、交叉和變異,生成符合組卷策略并滿足個性化需求的試卷。
通過對建筑業(yè)工人移動智慧培訓(xùn)平臺的使用調(diào)查發(fā)現(xiàn),其中89 名系統(tǒng)新注冊用戶初始使用學(xué)習(xí)資源推薦準確度高達95.2%,且注冊時特性和內(nèi)容標簽設(shè)置越全面其推薦準確度越高;306 名經(jīng)常活動學(xué)習(xí)用戶個性化學(xué)習(xí)資源推薦準確度為89.7%;練習(xí)測試環(huán)節(jié)通過個性化推薦遺傳算法組卷和常規(guī)遺傳算法組卷對比實驗,59.8%的學(xué)習(xí)用戶表示針對性有所提高,27.1%的學(xué)習(xí)用戶表示無法判斷,其余表示沒區(qū)別。從數(shù)據(jù)中可以看到,基于協(xié)同推薦加基于特性和內(nèi)容的標簽推薦的組合推薦在智適應(yīng)學(xué)習(xí)平臺的個性化學(xué)習(xí)資源推薦中效果明顯。
智適應(yīng)學(xué)習(xí)系統(tǒng)中學(xué)習(xí)資源高效、準確的個性化推薦,是其“智慧學(xué)習(xí)”的重要表現(xiàn),個性化學(xué)習(xí)資源推薦能滿足學(xué)習(xí)用戶多元化的學(xué)習(xí)需求,提高學(xué)習(xí)效率和學(xué)習(xí)質(zhì)量。個性化學(xué)習(xí)資源的推薦是當(dāng)前在線學(xué)習(xí)平臺研究的主要方向之一,推薦算法是實現(xiàn)個性化推薦的關(guān)鍵。單純采用基于協(xié)同的過濾推薦存在數(shù)據(jù)稀缺和冷啟動的缺陷,本文研究在基于學(xué)習(xí)用戶學(xué)習(xí)行為記錄量化的協(xié)同過濾推薦的同時組合使用基于特性和內(nèi)容的標簽推薦方法,以提高個性化推薦的質(zhì)量。通過在建筑業(yè)工人移動智慧培訓(xùn)平臺中的智慧學(xué)習(xí)模塊和練習(xí)測試模塊中的應(yīng)用分析,證明文中研究的方法確實有效。本文對推薦算法本身的改進研究不足,下一步將繼續(xù)研究改進推薦算法和智能算法聯(lián)合提高推薦效率的問題。