黃軼文
(廣東工程職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 廣州 510520)
學(xué)習(xí)過程評估在高等教育中越來越重要。 傳統(tǒng)的“小數(shù)據(jù)”時代,每個教師就是一個數(shù)據(jù)的小孤島,依靠自己的直觀經(jīng)驗判斷,以及考核成績,來反推學(xué)生的學(xué)習(xí)效果,使得評估效果滯后,無法在教學(xué)過程中實時發(fā)揮作用。 此外,粗放式的整體評估,無法結(jié)合每個學(xué)生的特點,為每個受教對象提供有益的參考。 在實際中,各種學(xué)習(xí)過程評估管理,往往淪為績效考核的工具,非但沒有發(fā)揮促進教學(xué)的效果,反而成了教師日常工作的負擔(dān)與桎梏。
2020 年席卷全球的疫情迫使大部分職業(yè)院校采用了線上教學(xué)模式,因時空距離、設(shè)備設(shè)施、教學(xué)習(xí)慣等與傳統(tǒng)的在校面對面的方式有很大差異,迫切需要一種符合現(xiàn)實情況的學(xué)習(xí)過程評估方法,能對教師的“教”與學(xué)生的“學(xué)”做出回饋,及時調(diào)整教學(xué)內(nèi)容和形式,以求在特殊時期不僅保證學(xué)生獲得正常的學(xué)習(xí)收益,且學(xué)習(xí)過程評估結(jié)果也能為用人單位提供更有價值的建議和推薦。
本研究分為兩大部分:理論研究和應(yīng)用驗證。一方面研究現(xiàn)有學(xué)習(xí)過程評價模型,創(chuàng)造新型記憶網(wǎng)絡(luò)模型MMN;另一方面應(yīng)用理論研究的成果,通過實際數(shù)據(jù)驗證。
知識追蹤模型由Corbett 和Anderson 于1995 年首次提出,并應(yīng)用于智能教學(xué)系統(tǒng)。 隨后RS Baker和AT Corbett 等人發(fā)現(xiàn),即使做出相同答案,但學(xué)生也具備不同的能力,需要根據(jù)學(xué)生整體答題情況來進行區(qū)分;Pardos 和Heffernan 發(fā)現(xiàn),學(xué)生的差異性問題,可以通過增加一個特定的參數(shù)解決,為此建立了一個新的BKT 模型;Chen Lin 和Min Chi 則認為,在學(xué)習(xí)過程中,教學(xué)干預(yù)是重要的外部因素,影響到教師對學(xué)習(xí)過程輸出的判斷。 因此,在標準模型中增加了一個干預(yù)點,來仿真學(xué)生在學(xué)習(xí)過程中受到的外界影響;閭漢原、申麟等深入分析了答題過程對評估學(xué)生學(xué)習(xí)過程的影響。 文中認為,對于不同試題所花費的時間是一個重要因子(稱之為“態(tài)度”),不同的態(tài)度反饋出學(xué)生對知識點的掌握程度。 “態(tài)度”因子的加入,以及通過在線考試數(shù)據(jù)集的深度學(xué)習(xí)、模型修正,使得標準BKT 向客觀真實性更接近一步。
知識追蹤(Knowledge Tracing,KT)以時間為橫軸,追蹤學(xué)生在一系列移動的時間點,對一個或者多個知識點的掌握程度,并可以基于歷史數(shù)據(jù)建模,預(yù)測學(xué)生未來的學(xué)習(xí)狀態(tài),掌握學(xué)生的學(xué)習(xí)需求。 知識追蹤的重要目標是建立學(xué)生個性化的學(xué)習(xí)時間軸,根據(jù)學(xué)生過去的練習(xí)答案,來追蹤學(xué)生的知識狀態(tài)。 老師可以根據(jù)學(xué)生的個人強項和弱項,給出適當(dāng)?shù)奶崾竞驼{(diào)整練習(xí)的順序;學(xué)生可以意識到其學(xué)習(xí)進展,并可能會投入更多的精力,提高學(xué)習(xí)效率。
目前的智能教學(xué)系統(tǒng)(Intelligent Teaching System,ITS),主要使用基于貝葉斯網(wǎng)絡(luò)的學(xué)生知識點追蹤模型(Bayesin Knowledge Tracing,BKT)和基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)生知識點追蹤模型(Deep Konwledge Traing,DKT) ,對學(xué)生的知識點掌握狀況進行追蹤判斷。
BKT 模型最早應(yīng)用在美國的ITS 體系中。 該模型能對學(xué)生知識點的變化序列進行追蹤,記錄學(xué)生知識點掌握情況的變化。 BKT 通過stop_policy 準則,判斷學(xué)生是否經(jīng)過多輪做題,掌握了相應(yīng)的知識點。 典型的BKT 模型中設(shè)置4 個主要參數(shù):
0、、、,用以表示學(xué)生掌握這個知識點的概率,一般可以從訓(xùn)練數(shù)據(jù)里面求平均值獲得,也可以使用經(jīng)驗值。 通常情況下,掌握的程度是對半概率,那么當(dāng)005:表示學(xué)生經(jīng)過練習(xí)后,知識點從不會到學(xué)會的概率;表示學(xué)生沒有掌握這項知識點但答對的概率;表示學(xué)生實際上掌握了這項知識點,但答錯的概率。 模型需要根據(jù)學(xué)生以往的歷史答題系列情況,訓(xùn)練出這4 個對應(yīng)的參數(shù)。
BKT 是根據(jù)不同的知識點進行建模,訓(xùn)練數(shù)據(jù)有多少個知識點,就有多少組對應(yīng)的參數(shù)(、、、)。 標準的BKT 模型無法描述知識點之間的關(guān)聯(lián)關(guān)系,當(dāng)老師布置一項作業(yè)時,學(xué)生必須應(yīng)用一個或多個知識點來完成這個任務(wù)。 在程序設(shè)計中,當(dāng)學(xué)生試圖完成“int,int” 的加法運算時,則應(yīng)采用“整型數(shù)值”的概念;當(dāng)學(xué)生試圖求解“float,float,float” 的加法運算時,則應(yīng)采用“浮點型數(shù)值”的概念。 學(xué)生能夠正確回答練習(xí)的概率,是基于學(xué)生的知識狀態(tài),代表了學(xué)生掌握基本概念的深度和穩(wěn)健性。
DKT 是一個具有多自由參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,而BKT 是一個概率模型,擁有有限的自由參數(shù);DKT 對一個領(lǐng)域內(nèi)所有知識點建模,而BKT 是根據(jù)單一知識點構(gòu)造模型;DKT 是多知識點的交叉輸入,而BKT 是按照知識點進行拆分;DKT 是隨著時間的推移,所有的知識點都交織在一起的,并按照順序?qū)γ總€問題做預(yù)測。
現(xiàn)有的方法,如貝葉斯知識跟蹤BKT 和深度知識跟蹤DKT 以一種特定于知識點的方式或一種概括的隱藏向量來建模學(xué)生的知識狀態(tài)。 在BKT 中,學(xué)生的知識點狀態(tài)被分析成不同的概念狀態(tài){} 和BKT 模型,BKT 特定于知識點,而DKT 使用一個總結(jié)的隱藏向量來建模知識狀態(tài)。 本文所用模型可同時維護每個知識點狀態(tài),所有知識點狀態(tài)構(gòu)成學(xué)生的知識狀態(tài)。 BKT 假設(shè)知識點狀態(tài)為已知和未知的二元潛變量,利用隱馬爾可夫模型更新二元概念狀態(tài)的后驗分布。 因此,BKT 不能捕捉不同知識點之間的關(guān)系。 此外,為了保持貝葉斯推理的可處理性,BKT 使用離散隨機變量和簡單的轉(zhuǎn)換模型來描述每個知識點狀態(tài)的演化。 因此,盡管BKT可以輸出學(xué)生對一些預(yù)定義知識點的掌握程度,但其缺乏提取未定義知識點和建模復(fù)雜概念狀態(tài)轉(zhuǎn)換的能力。
除了從貝葉斯的角度解決問題外,深度學(xué)習(xí)方法DKT 還利用了一種稱為長短期記憶(LSTM)的遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的變體。 LSTM 假設(shè)了底層知識點狀態(tài)的高維連續(xù)表示,與BKT 相比,DKT 的非線性輸入到狀態(tài)與狀態(tài)到狀態(tài)轉(zhuǎn)換具有更強的表示能力,不需要人工標記的注釋。 然而,DKT 將學(xué)生對所有知識點狀態(tài)歸納為一種隱藏狀態(tài),這使得追蹤學(xué)生對某個知識點的掌握程度和確定學(xué)生擅長或不熟悉的知識點變得困難。
BKT 和DKT 模型將學(xué)習(xí)過程評估研究推向了一個新的高度,BKT 具有開發(fā)知識點之間關(guān)系的能力,DKT 具有跟蹤每個知識點狀態(tài)的能力。 而建立一種新型的模型兼容BKT 和DKT 的能力,是本研究的主要目標。
MMN 通過挖掘知識點之間的關(guān)系,使用鍵靜態(tài)矩陣存儲知識點基本數(shù)據(jù),使用值動態(tài)矩陣存儲和更新相應(yīng)知識點的掌握程度,能評估學(xué)生對知識點的掌握程度,并能評估學(xué)生不斷變化的知識狀態(tài),具有實時性和客觀性。
MMN 模型結(jié)合了貝葉斯知識跟蹤BKT 和深度知識跟蹤的優(yōu)點,開發(fā)知識點之間關(guān)系的能力和跟蹤每個知識點狀態(tài)的能力。 MMN 能自動學(xué)習(xí)“練習(xí)”和“知識點”之間的相關(guān)性,并為每個知識點維護一個狀態(tài)。 在每個時間戳里,只有相關(guān)的知識點狀態(tài)被更新。 例如, 當(dāng)一個新的練習(xí)q出現(xiàn)時,模型發(fā)現(xiàn)q需要應(yīng)用知識點c和c,然后人們閱讀相應(yīng)的知識點狀態(tài)s和s,并預(yù)測學(xué)生是否會正確回答練習(xí)。 學(xué)生完成練習(xí)后,模型將更新這兩個知識點狀態(tài),所有知識點狀態(tài)構(gòu)成該學(xué)生整體認知狀態(tài)。 MMN 模型有一個稱為的靜態(tài)矩陣,其存儲知識點,另一個稱為的動態(tài)矩陣,存儲和更新學(xué)生對知識點的理解(知識點狀態(tài))。 靜態(tài)和動態(tài)矩陣分別類似于字典數(shù)據(jù)結(jié)構(gòu)(如Python 字典)中的不可變和可變對象作為鍵和值。
相對于標準的BKT 和DKT,記憶網(wǎng)絡(luò)模型(MMN)能自動發(fā)現(xiàn)知識點之間的聯(lián)系,并能描述學(xué)生不斷變化的知識狀態(tài)。 使得MMN 模型更加符合人類知識追蹤的實際情況。
MMN 引入了一個新的參數(shù)矩陣,即知識點之間相互影響的參數(shù)矩陣:R。 R表示知識點對于知識點的影響。 這意味著當(dāng)知識點被更新時,關(guān)聯(lián)知識點也會被同時更新。 此外,如果和存在R,則知識點也被更新。 以此類推,凡與知識有直接或者間接聯(lián)系的知識點都會被更新。 MMN 使用相關(guān)權(quán)重發(fā)現(xiàn)練習(xí)的潛在知識點,替代專家手工執(zhí)行模式,MMN 能描述學(xué)生不斷發(fā)展的知識狀態(tài),更好的在數(shù)字世界中模擬真實的學(xué)習(xí)過程。 相關(guān)權(quán)重表示了知識點內(nèi)在關(guān)系的強度,與標準中的條件影響方法(先計算練習(xí)之間的依賴關(guān)系,然后定義閾值對練習(xí)進行聚類)相比,MMN 可直接將練習(xí)分配給知識點,不需要預(yù)定義閾值。 新創(chuàng)造的模型能夠以智能化的方式發(fā)現(xiàn)潛在的知識點,每個練習(xí)通常與一個或多個知識點相關(guān)聯(lián)。 在此情況下,可將練習(xí)分配給相關(guān)權(quán)重值最大的知識點。 通過實驗驗證,MMN 能夠智能地學(xué)習(xí)知識點間的稀疏權(quán)重,發(fā)現(xiàn)知識點以及之間的聯(lián)系,并能顯示正確的結(jié)果。
課程中有個潛在的知識點{,,…,c},存儲在鍵矩陣M(大小為)中,學(xué)生對每個知識點的掌握程度,即知識點狀態(tài){,,…,st} 存儲在值矩陣M(大小為) 中,并隨時間而變化。 MMN 使用從輸入練習(xí)和鍵矩陣計算的相關(guān)權(quán)重,通過讀寫到值矩陣,來跟蹤學(xué)生的知識。 輸入練習(xí)q乘以嵌入矩陣(大小為),得到維度為的向量k,通過取k和M()之間的內(nèi)積得到權(quán)重w()。
讀寫過程使用權(quán)重向量w、輸入練習(xí)q。 讀取的表達了學(xué)生對本練習(xí)的掌握程度。
在學(xué)生回答問題q后,模型將根據(jù)學(xué)生回答結(jié)果更新值矩陣。 將(q,r) 寫入值矩陣,其相關(guān)權(quán)重w與讀取過程中使用的相關(guān)權(quán)重w相同。 變換矩陣的形狀為,e是包含元素的列向量,所有元素都在范圍(0,1) 內(nèi)。
MMN 可以用來描述學(xué)生不斷變化的知識狀態(tài)。如果學(xué)生掌握了所有知識點的狀態(tài),這些狀態(tài)能表明其長、短之處,使其更有動力,獨立地填補學(xué)習(xí)空白。 MMN 可以通過特定步驟,獲得學(xué)生不斷變化的知識狀態(tài),并記錄學(xué)生在整個學(xué)習(xí)生命周期里面的起伏狀態(tài),輸出分析報告,同時能夠針對性推薦就業(yè)崗位。
本次應(yīng)用以軟件測試知識域為例。 2020 年9月份~2021 年1 月份,以軟件測試專業(yè)180 名同學(xué)為樣本,應(yīng)用MMN 模型進行動態(tài)學(xué)習(xí)過程評估。將軟件測試的知識點進行分類,以集合的方式劃分為單元測試、集成測試、系統(tǒng)測試和驗收測試4 個知識域。 詳見表1。
表1 軟件測試知識域Tab.1 Software testing knowledge domain
測試期間每月進行一次評估和數(shù)據(jù)收集,分別是9 月11 日、10 月8 日、11 月2 日、12 月3日和1 月4 日,每次評估由100 道選擇題組成,題目涵蓋了單元測試、集成測試、系統(tǒng)測試和驗收測試4個知識域。 為了便于計算機處理,答案用二進制0、1 表示,0 表示錯誤,1 表示正確。 同一題目中可以包含單元測試、集成測試、系統(tǒng)測試和驗收測試中的一個或多個知識點。 由于傳統(tǒng)的考卷方式只能得到籠統(tǒng)的分數(shù),無法分析其中某個知識點的掌握分布情況。 因此,測試評估使用MMN 模型對學(xué)生知識水平進行追蹤和判斷。
共180 名學(xué)生參與評估,使用MMN 模型跟蹤學(xué)生知識域的掌握程度。 數(shù)據(jù)結(jié)果分為三等級:在0.5 以下表示較差、0.5~0.8 為良好、0.8 以上為優(yōu)秀。 表2 中的數(shù)據(jù)為全部學(xué)生的中位數(shù),另外還為每個學(xué)生建立單獨數(shù)據(jù)表,從學(xué)生的整體知識掌握情況、群體差異和個體差異等方面來分析和應(yīng)用評估結(jié)果。
表2 MMN 模型跟蹤學(xué)生知識域掌握程度中位數(shù)Tab.2 The median of students' mastery of knowledge domain tracked by MMN
整體來看,單元測試和系統(tǒng)測試這兩個知識域,學(xué)生掌握程度良好。 授課教師按照教學(xué)計劃進行,對課時和課程內(nèi)容沒有做過多調(diào)整,成績預(yù)測和實際考核結(jié)果呈收斂趨勢。 集成測試和驗收測試這兩個知識域,學(xué)生感覺有一定難度,掌握程度一般。 根據(jù)跟蹤結(jié)果,分析具體原因是:
(1)集成測試需要編寫測試腳本,需具備一定編程能力;
(2)驗收測試要結(jié)合實際項目,需根據(jù)不用的客戶要求,制定測試方案,而學(xué)生缺乏項目實操經(jīng)驗,難以理解和靈活應(yīng)對不同的項目要求。 為此,根據(jù)跟蹤分析結(jié)果,及時采取有關(guān)措施:
①調(diào)整授課計劃,著重培養(yǎng)學(xué)生初步編程能力,能夠編寫基本的測試腳本;
②與合作企業(yè)聯(lián)合,帶領(lǐng)學(xué)生到項目驗收現(xiàn)場,聽取客戶意見并協(xié)助部分工作,對項目驗收流程有初步的認知。 經(jīng)過調(diào)整,集成測試和驗收測試這兩個知識域的掌握程度,呈逐步上升趨勢。
與此同時,每個學(xué)生根據(jù)自己的學(xué)習(xí)跟蹤數(shù)據(jù)表,認識到個體知識點的掌握程度差異,根據(jù)自身條件有針對性地調(diào)整學(xué)習(xí)計劃。 學(xué)生的個體學(xué)習(xí)跟蹤數(shù)據(jù)表進入信息化系統(tǒng),用大數(shù)據(jù)方法為每個學(xué)生進行數(shù)據(jù)畫像,突顯學(xué)生特點。 在學(xué)生求職和企業(yè)招聘過程中,數(shù)據(jù)畫像也為企業(yè)全面深入了解學(xué)生的情況提供了更多的參考。
本研究的價值在于,新型記憶網(wǎng)絡(luò)模型MMN融合BKT 和DKT 的優(yōu)點,更加符合人類知識追蹤的特點,同時利用模型理論研究的成果,從理論研究到實際應(yīng)用推進一步。 實踐證明在教師側(cè)、學(xué)生側(cè)和社會側(cè),本研究都獲得了良好的社會效益。
教師側(cè):通過學(xué)生的個性化、知識、行為、經(jīng)歷建模,學(xué)生大數(shù)據(jù)畫像、學(xué)生階段性考核成績、學(xué)生答題時長、知識點分解、關(guān)聯(lián)知識點權(quán)重等方式,以直觀的圖標呈現(xiàn)和分析報告等形式,為教與學(xué)的數(shù)據(jù)挖掘和利用提供了指導(dǎo)。 教師根據(jù)學(xué)習(xí)過程評估的反饋,動態(tài)調(diào)整教學(xué)計劃,調(diào)整課時計劃安排。 可以根據(jù)學(xué)生個性畫像,對薄弱生、薄弱環(huán)節(jié)、薄弱知識點進行重點研究和加強。
學(xué)生側(cè):在學(xué)習(xí)過程評估中,通過信息化系統(tǒng)的輔助,建立學(xué)習(xí)過程全生命周期數(shù)據(jù)集,把現(xiàn)實中的學(xué)生模擬進數(shù)字世界,從性格、能力、態(tài)度、行為等多維度對學(xué)生進行畫像。 在學(xué)習(xí)過程中,同步為學(xué)生反饋評價系統(tǒng)的結(jié)果,提示學(xué)生學(xué)習(xí)過程中的薄弱環(huán)節(jié),調(diào)整學(xué)習(xí)的精力分配。 根據(jù)以往學(xué)生的學(xué)習(xí)過程評估,預(yù)測學(xué)生的學(xué)習(xí)成績,增強學(xué)習(xí)的信心和動力,固化優(yōu)良學(xué)習(xí)行為習(xí)慣,糾正不良學(xué)習(xí)行為。
社會側(cè):按照傳統(tǒng)的教學(xué)模式,通過試卷得分并不能全面、真實地反映學(xué)生特質(zhì),也無法向用人單位描繪學(xué)生的不同差異。 利用學(xué)習(xí)過程評估結(jié)果分析后,可以較全面的發(fā)現(xiàn)學(xué)生在不同方面的能力和潛力,從而為用人單位提供更有價值的建議和推薦。