摘要 :深度知識追蹤是實現(xiàn)在線教育個性化的關(guān)鍵技術(shù),但是目前的深度知識追蹤模型普遍存在只考慮問題及其結(jié)果,忽略了學(xué)習(xí)者作答結(jié)果的其他因素的影響,導(dǎo)致深度知識追蹤模型的可解釋性差、預(yù)測準(zhǔn)確率低等問題。因此,提出了一種融合習(xí)題難度和遺忘行為的深度知識追蹤模型(FDKT-ED),該模型建立在傳統(tǒng)DKVMN模型的基礎(chǔ)上,綜合考慮作答結(jié)果和習(xí)題難度的同時,優(yōu)化模擬學(xué)習(xí)者學(xué)習(xí)過程,將遺忘這一關(guān)鍵行為考慮在建模過程中。通過對比實驗結(jié)果發(fā)現(xiàn),該模型一方面提升了學(xué)習(xí)過程中的可解釋性,能夠?qū)⒅R狀態(tài)的變化展現(xiàn)出來,另一方面將預(yù)測結(jié)果準(zhǔn)確率提升了2%~4%,預(yù)測效果提升明顯。
關(guān)鍵詞 :知識追蹤;深度學(xué)習(xí);習(xí)題難度;遺忘行為;學(xué)習(xí)過程
中圖分類號:TP18;G434"" 文獻標(biāo)志碼:A"" 文章編號:1004-0366(2025)01-0008-08
隨著大規(guī)模開放在線課程(MOOC,massive open online course)的蓬勃發(fā)展和廣泛推廣,大量的在線教育平臺相繼涌現(xiàn)。這些平臺以互聯(lián)網(wǎng)為依托,向廣大的互聯(lián)網(wǎng)學(xué)生提供教育服務(wù),并應(yīng)用大數(shù)據(jù)等先進技術(shù),實現(xiàn)智能化的個性教育服務(wù)。此類在線教育平臺打破了傳統(tǒng)教育模式中的時空限制,使得學(xué)習(xí)內(nèi)容更加豐富多樣,并為更廣泛的學(xué)生群體提供服務(wù)。
在推動智能化教育發(fā)展的進程中,知識追蹤(KT,knowledge tracing)技術(shù)發(fā)揮著至關(guān)重要的作用。這一技術(shù)通過追蹤學(xué)生在不同時間段的學(xué)習(xí)表現(xiàn),準(zhǔn)確把握學(xué)生對知識點的掌握程度,從而對他們在接下來的學(xué)習(xí)過程中的表現(xiàn)進行深入分析。知識追蹤技術(shù)在教育領(lǐng)域的應(yīng)用,為我們提供了一種全新的方式來評估和預(yù)測學(xué)生的學(xué)習(xí)表現(xiàn),并為提升教學(xué)質(zhì)量提供了有力支持。
目前的知識追蹤研究工作中,主要使用的知識追蹤方法可以分為兩大類,一個是傳統(tǒng)的基于機器學(xué)習(xí)的方法,另一個是基于深度學(xué)習(xí)的方法。
傳統(tǒng)的基于機器學(xué)習(xí)的知識追蹤方法中,基于貝葉斯的知識追蹤(BKT,bayesin knowledge tracking)[1]是最具代表性的模型。該模型采用實時反饋的用戶交互建模,利用隱馬爾可夫模型(HMM,hidden Markov model)建立用戶的知識變換狀態(tài),隨著學(xué)習(xí)者的不斷學(xué)習(xí),對知識點的掌握狀態(tài)會發(fā)生相應(yīng)的轉(zhuǎn)換。但是隨著研究的深入,發(fā)現(xiàn)在實際應(yīng)用中BKT難以模擬較長的交互序列,對習(xí)題和知識點之間各方面的考量也存在不足。
深度知識追蹤是在知識追蹤模型的基礎(chǔ)上,應(yīng)用深度學(xué)習(xí)技術(shù)幫助建模。PIECH等[2]首次提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)應(yīng)用到知識追蹤中,自此開始了深度知識追蹤的研究。
深度知識追蹤(DKT,deep knowledge tracing)模型主要是以RNN作為基礎(chǔ)結(jié)構(gòu),將學(xué)習(xí)者的作答情況通過one-hot進行編碼作為輸入,通過RNN模型處理以時間為序列的輸入,得到用戶的知識狀態(tài)。
隨后學(xué)者們又針對提升模型的預(yù)測能力做出了改進,如ZHANG等[3]在DKT模型的輸入中增加了額外的反應(yīng)時間、練習(xí)嘗試次數(shù)和第一次作答的反應(yīng)結(jié)果,對學(xué)習(xí)者的學(xué)習(xí)水平進行了評估;CHENG等[4]在DKT模型中引入了失誤因子和猜測因子,提升了模型模擬的真實性;在此基礎(chǔ)上,RUAN等[5]又引入了部分理解因子,幫助構(gòu)建學(xué)習(xí)者學(xué)習(xí)行為的隨機性。
深度知識追蹤中的另一個基礎(chǔ)模型是動態(tài)鍵值對記憶網(wǎng)絡(luò)(DKVMN,dynamic key-value memory networks),該模型由ZHANG等[6]于2017年首次提出,模型使用記憶增強神經(jīng)網(wǎng)絡(luò)(MANN,memory augmented neural network),替代了DKT模型中使用RNN將知識狀態(tài)表示為一個向量的方式,學(xué)習(xí)者的知識狀態(tài)被表示為一個記憶矩陣,從而增強了模型的記憶能力。
此后,DKVMN-LA模型[7]引入了學(xué)習(xí)行為特征和學(xué)習(xí)能力差異,豐富了模型的輸入特征參數(shù);宗曉萍等[8]通過引入分布記憶矩陣,實現(xiàn)了知識增長速度的建模;DKVMN-CA模型[9]將習(xí)題難度、練習(xí)時長等因素進行整合,提升了模型的預(yù)測能力;DKVMN-DT模型[10]將用戶作答時間、是否請求提示、嘗試作答次數(shù)等多個影響用戶作答結(jié)果的因素引入決策樹,綜合預(yù)測得出用戶的最終作答情況。
然而,在深度知識追蹤中我們往往更加關(guān)注學(xué)習(xí)者的作答情況,卻忽略了影響學(xué)習(xí)者作答的相關(guān)因素。例如,對于包含相同知識點的不同難度的題目,學(xué)習(xí)者在作答時可能會產(chǎn)生不同的結(jié)果。傳統(tǒng)的深度知識追蹤模型假設(shè)學(xué)習(xí)者對知識點的掌握情況始終保持不變,然而實際情況并非如此。隨著時間的推移,已經(jīng)學(xué)會的知識可能會逐漸忘記,而再次學(xué)習(xí)同一知識點則會鞏固記憶。因此,在深度知識追蹤中,需要更加全面地考慮影響學(xué)習(xí)者作答的相關(guān)因素,以便更準(zhǔn)確地評估學(xué)習(xí)者的知識掌握情況。
針對上述問題,本文提出了一種深度知識追蹤模型,該模型融合了習(xí)題難度和遺忘行為。通過分析過往習(xí)題得出習(xí)題的難易程度,并結(jié)合學(xué)習(xí)者的作答情況分析知識掌握情況。在此基礎(chǔ)上,參考心理學(xué)領(lǐng)域的遺忘因素,對已經(jīng)學(xué)會的知識掌握程度進行遺忘衰減處理,最終得到知識掌握程度的評估結(jié)果,并用于預(yù)測學(xué)習(xí)者下一次的作答情況。該模型不僅考慮了習(xí)題難度和學(xué)習(xí)者的知識掌握程度,還充分考慮了知識的遺忘因素,從而可以更準(zhǔn)確地預(yù)測學(xué)習(xí)者的學(xué)習(xí)效果。
1 模型構(gòu)建
1.1 基本定義
在線教育中產(chǎn)生的學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù),通常被看做是一個指定的學(xué)習(xí)序列,作答情況用xt表示,其中xt被描述為一個二元組xt={et,at},et表示t時刻作答的問題,at表示對應(yīng)的作答結(jié)果。一般情況下,at取二元值0或1,表示是否正確回答問題。
知識追蹤問題是按照學(xué)習(xí)的時間順序,通過對學(xué)習(xí)序列{x1,x2,x3,…,xt}建模,跟蹤分析整個學(xué)習(xí)過程,預(yù)測下一個時刻的作答表現(xiàn)xt+1。定義K為知識點集合,E為習(xí)題集合,ktK表示習(xí)題et所涉及的知識點集合。矩陣MK(dk×|K|)表示所有|K|個知識點的嵌入表示,每個dk的列向量都表示其中一個知識點的嵌入表示。矩陣MVt(dv×|K|)表示t時刻學(xué)習(xí)結(jié)束時學(xué)生的知識點掌握程度嵌入矩陣,而矩陣MFVt(dv×|K|)表示t時刻學(xué)習(xí)開始前學(xué)生的知識點掌握程度嵌入矩陣。矩陣MFVt是由矩陣MVt-1通過遺忘處理得到的。定義 level t為t時刻學(xué)習(xí)結(jié)束時學(xué)生的知識掌握程度,用(0,1)之間的數(shù)字表示,0表示完全沒掌握,1表示完全掌握。
本文的知識追蹤模型,其整個知識追蹤過程不僅關(guān)注時間序列下的作答情況,還結(jié)合了習(xí)題難度、作答間隔、作答周期等因素。該模型主要由權(quán)重計算、遺忘處理、學(xué)習(xí)模擬、結(jié)果預(yù)測和知識水平輸出5個模塊組成,并采用LSTM網(wǎng)絡(luò)進行建模,最終得出一個更準(zhǔn)確的預(yù)測結(jié)果。
1.2 權(quán)重計算
權(quán)重計算的作用是計算習(xí)題與對應(yīng)的知識點的相關(guān)權(quán)重。該模塊的輸入是學(xué)生當(dāng)前的練習(xí)題目et和題目涉及的知識點集合kt。然后將et與嵌入矩陣A(dk×|E|)相乘,得到一個dk維的習(xí)題嵌入向量vt。知識點嵌入向量矩陣為Nt,其中每個dk維向量表示一個知識點嵌入向量。先計算習(xí)題嵌入向量vt和涵蓋知識點嵌入向量Nt(i)的內(nèi)積,然后將內(nèi)積通過 Softmax 函數(shù)計算,得到習(xí)題和知識點的相關(guān)權(quán)重向量wt,即
wt(i)= Soft max (vTtNt(i))。 (1)
1.3 遺忘處理
德國心理學(xué)家艾賓浩斯對人類遺忘行為的研究發(fā)現(xiàn),遺忘行為立即發(fā)生于學(xué)習(xí)行為之后,并且遺忘速度逐漸減慢。其遺忘曲線理論[11]表明,學(xué)生對于知識的遺忘主要受兩方面的影響:學(xué)習(xí)的重復(fù)次數(shù)和兩次學(xué)習(xí)的時間間隔。在知識追蹤的過程中不僅有學(xué)習(xí)過程,還應(yīng)該有遺忘過程。ZOU等[12]提出了一種包含遺忘過程的深度知識追蹤模型(LPKT),在計算學(xué)習(xí)者下一時刻的知識掌握狀態(tài)時,要同時參考遺忘因素,最終得出學(xué)習(xí)者的知識掌握水平,提升模型的預(yù)測能力。
遺忘處理模塊主要是對上一次學(xué)習(xí)結(jié)束后的知識掌握狀態(tài)做遺忘處理。本次研究針對遺忘行為提出4個因素:重復(fù)學(xué)習(xí)相同知識點的時間間隔(RK,repeat knowledge point interval)、距離上次學(xué)習(xí)的時間間隔(RL,repeat learn interval)、重復(fù)學(xué)習(xí)相同知識點的次數(shù)(KT,repeat knowledge point times)、知識點的掌握程度(KM,knowledge point mastery)。
由于遺忘行為是針對學(xué)生的知識掌握程度進行的,因此要先獲得學(xué)生關(guān)于各個知識點的遺忘因素矩陣。首先,RK、RL、KT 3個因素組合得到 Ct(i) =[RK(i),RL(i),KT(i)] ,表示影響學(xué)生對知識點 i 遺忘過程的前3個因素,然后將每個知識點的向量Ct(i)組合得到矩陣Ct(dc X |k|)。學(xué)生對知識點的掌握矩陣用MVt-1表示,即為第4個遺忘因素 KM。 將Ct同 KM 組合到一起得到矩陣Ft=[MVt-1,Ct],表示影響遺忘的4個因素。
進行遺忘處理時,先對前一時刻的知識掌握狀態(tài)矩陣進行擦除,然后更新知識掌握矩陣。該模塊的主要結(jié)構(gòu)如圖1所示。
通過一個 Sigmoid 函數(shù)將學(xué)生對知識點i的遺忘因素Ft(i)轉(zhuǎn)換為遺忘向量fet(i):
fet(i)= Sigmoid (FETFt(i)+bfe), (2)
全連接層權(quán)重矩陣FE是(dv+dc)×dv的形狀,偏置向量bfe是dv維的。
然后通過一個 Tanh 函數(shù)將學(xué)生對知識點i的遺忘因素Ft(i)轉(zhuǎn)換為更新向量fut(i):
fut(i)= Tanh (FUTFt(i)+bfu), (3)
權(quán)重矩陣FU是(dv+dc)×dv的形狀,偏置向量bfu是dv維的。
再根據(jù)得到的遺忘向量和更新向量對學(xué)生的知識掌握狀態(tài)矩陣MVt-1進行更新,得到矩陣MFVt:
MFVt(i)=MVt-1(i)(1-fet(i))(1+fut(i))。(4)
通過遺忘層的處理,得到本次學(xué)習(xí)開始之前學(xué)生的知識掌握矩陣MFVt。
1.4 學(xué)習(xí)模擬
學(xué)習(xí)模擬模塊的主要作用是根據(jù)學(xué)生作答結(jié)果,更新學(xué)生在開始本次學(xué)習(xí)之前的知識掌握矩陣MFVt,生成學(xué)習(xí)結(jié)束后的知識掌握矩陣MVt,構(gòu)建學(xué)生的學(xué)習(xí)行為模型。作為輸入的是學(xué)生在t時刻的作答結(jié)果,用二元組(et,at)表示。將二元組(et,at)與答題結(jié)果嵌入矩陣B(dv×2|E|)相乘,得到dv維答題結(jié)果嵌入向量rt。然后將答題結(jié)果嵌入向量rt與習(xí)題相關(guān)知識點權(quán)重向量wt作為輸入,通過 LSTM 網(wǎng)絡(luò)更新學(xué)生的知識掌握狀態(tài),完成學(xué)習(xí)行為建模,即
MVt(i)= LSTM (rt,wt(i)MFVt(i))。 (5)
1.5 結(jié)果預(yù)測
項目反映理論(IRT,item response theory)是認(rèn)知心理學(xué)中認(rèn)知診斷的常用理論,用于評估某個項目響應(yīng)結(jié)果的好壞。該理論通常用概率的形式來描述項目作答反應(yīng)是如何受到項目難度等因素或聯(lián)合因素作用的影響。項目受兩個維度的影響:項目難度和區(qū)分度。MINN等[13]研究發(fā)現(xiàn),在學(xué)生的學(xué)習(xí)過程中,習(xí)題難度起著至關(guān)重要的作用。在傳統(tǒng)的知識追蹤中,YUDELSON等[14]將問題難度與BKT模型進行融合,增強了模型的可解釋性。
受到上述模型的啟發(fā),DKT-IRT模型[15]被提出,它將項目反映理論同深度知識追蹤進行融合,在預(yù)測學(xué)習(xí)者作答情況的同時,綜合分析習(xí)題難度,提升模型預(yù)測的準(zhǔn)確率。YEUNG[16]也做了類似的嘗試,其將IRT理論同DKVMN模型進行結(jié)合,用DKVMN對學(xué)習(xí)者學(xué)習(xí)路徑建模,IRT分析習(xí)題難度,達到提升模型預(yù)測效率的目的。
本次研究中,習(xí)題難度通過一個Tanh函數(shù)計算表示,即
dt+1= Tanh (WTDvt+1+bD), (6)
其中:WD和bD分別表示全連接層中的權(quán)重向量和偏置向量。
結(jié)果預(yù)測模塊的主要目的是根據(jù)學(xué)生的知識掌握矩陣,預(yù)測學(xué)生下一次回答題目et+1的表現(xiàn)。先更新知識掌握矩陣,得到下次開始學(xué)習(xí)時的知識掌握矩陣MFVt+1,然后預(yù)測正確回答et+1的概率。將知識點相關(guān)權(quán)重wt+1和知識掌握矩陣MFVt+1進行加權(quán)求和,得到習(xí)題相關(guān)知識點的加權(quán)掌握程度嵌入向量mt+1:
mt+1=∑Ki=1wt+1(i)MFVt+1(i)。 (7)
然后將向量mt+1、向量vt+1和向量dt+1組合得到新的向量[mt+1,vt+1,dt+1],并將其輸入到 Tanh 函數(shù)中,得到
ht+1= Tanh (WT1[mt+1,vt+1,dt+1]+b1), (8)
其中:W1和b1分別表示全連接層中的權(quán)重和偏置向量。
最后,將得到的向量輸入到 Sigmoid 函數(shù)中,得到學(xué)生正確回答問題et+1的概率pt+1:
pt+1= Sigmoid (WT2ht+1+b2), (9)
其中:W2和b2分別表示全連接層中的權(quán)重和偏置向量。
1.6 知識水平輸出層
知識水平輸出層的主要目的是輸出學(xué)生結(jié)束學(xué)習(xí)時對各個知識點的掌握情況。該部分將學(xué)生結(jié)束學(xué)習(xí)時的知識掌握矩陣作為輸入,輸出 K 維的知識掌握程度向量levelt。 知識點的掌握程度用(0,1)之間的數(shù)表示。
在知識水平輸出層,只需要學(xué)生對知識點的綜合掌握程度,這里使用單位向量δi=(0,0,…,1,…,0)當(dāng)做權(quán)重向量,其中在i維位置的值為1。
利用
MVt(i)=δiMVt (10)
提取學(xué)生對知識點i的掌握程度嵌入向量。再利用式(10)和xt(i)= Tanh (WT1[MVt(i),0]+b1)
獲取學(xué)生的知識掌握水平情況,即
levelt(i)= Sigmoid (WT2xt(i)+b2),
其中:W1、b1、W2、b2同式(8)、式(9)中的設(shè)置相同;0向量用來補齊向量維度,沒有實際意義。
2 實驗結(jié)果
2.1 數(shù)據(jù)集
實驗使用的數(shù)據(jù)集是在線公開數(shù)據(jù)集ASSIST09、ASSIST12、EdNet和Slepemapy.cz。數(shù)據(jù)集信息統(tǒng)計見表1。表1中的數(shù)據(jù)來源于EduData、Adaptive Learning。
表1中數(shù)據(jù)集ASSIST09是2009—2010年間由ASSIST平臺所提供的在線學(xué)習(xí)數(shù)據(jù),其中共計28萬余次交互記錄。
數(shù)據(jù)集ASSIST12是2012—2013年間由ASSIST平臺所提供的在線學(xué)習(xí)數(shù)據(jù),共計270萬余次交互記錄。與ASSIST09數(shù)據(jù)集不同的是,ASSIST12數(shù)據(jù)集中每個題目只對應(yīng)一個知識點。
EdNet數(shù)據(jù)集是跨平臺AI輔導(dǎo)系統(tǒng)Santa在2017—2019年間收集的數(shù)據(jù),其數(shù)據(jù)量十分龐大,交互記錄超過1億3千萬條。因此實驗中選取部分?jǐn)?shù)據(jù),即隨機選取5 000名用戶的交互記錄,共計65萬余次交互記錄。
Slepemapy.cz數(shù)據(jù)集數(shù)據(jù)來源于一個地理練習(xí)在線系統(tǒng),該數(shù)據(jù)集收集了系統(tǒng)中2014—2015年間的數(shù)據(jù),共計240萬余次交互記錄。該數(shù)據(jù)集中,習(xí)題與知識點一一對應(yīng)。
實驗將數(shù)據(jù)集的80%用做訓(xùn)練集,20%用做測試集,單次處理的最大交互記錄數(shù)量為200條。
2.2 實驗參數(shù)與指標(biāo)的設(shè)定
對于數(shù)據(jù)集ASSIST09,知識點嵌入矩陣MKt的列數(shù)為123,對于知識點嵌入向量維度dk和知識掌握程度嵌入向量維度dv,當(dāng)d=dk=dv設(shè)置過低時,模型的學(xué)習(xí)能力會有所下降;而當(dāng)d=dk=dv設(shè)置過高時,模型容易出現(xiàn)過擬合現(xiàn)象,所以實驗設(shè)置d=dk=dv=16。
對于數(shù)據(jù)集ASSIST12,知識點嵌入矩陣MKt的列數(shù)為265,d=dk=dv=32。
對于數(shù)據(jù)集EdNet,知識點嵌入矩陣MKt的列數(shù)為188,d=dk=dv=16。
對于數(shù)據(jù)集Slepemapy.cz,知識點嵌入矩陣MKt的列數(shù)為1 067,d=dk=dv=128。
公共參數(shù)設(shè)置如下:實驗中使用的學(xué)習(xí)率為指數(shù)衰減學(xué)習(xí)率,初始學(xué)習(xí)率init-learning=0.01,衰減速度為10 000,衰減后的學(xué)習(xí)率為0.001;批處理大小batch_size=30,記憶矩陣列數(shù)為320,隱藏向量的大小為20;一次處理問題序列大小為200。實驗采用Adam優(yōu)化器。
2.3 對比實驗結(jié)果及分析
(1) 不同知識追蹤模型對比
實驗主要選用預(yù)測結(jié)果準(zhǔn)確率(ACC,Accuracy)和ROC曲線下面積大小(AUC,area under the curve)兩個評價指標(biāo)作為參考,當(dāng)ACC值和AUC值越大時,表示實驗結(jié)果越好。
對BKT、DKT、DKVMN以及FDKT-ED模型在4個數(shù)據(jù)集下分別實驗,得到的結(jié)果如表2所列。表2中黑體數(shù)字表示最優(yōu)值。通過對比實驗發(fā)現(xiàn),模型在4個數(shù)據(jù)集上的ACC值和AUC值都有一定程度的提升,F(xiàn)DKT-ED模型均取得最好的預(yù)測結(jié)果;DKVMN模型ACC值在4個數(shù)據(jù)集上分別提升了0.025、0.028、0.038和0.033,AUC值分別提升了0.026、0.029、0.045和0.021。
各模型在不同數(shù)據(jù)集下的AUC值變化曲線見圖2。對比圖2發(fā)現(xiàn),F(xiàn)DKT-ED模型的實驗效果明顯優(yōu)于另外3個模型,各模型的AUC值在迭代次數(shù)達到100次左右時趨于最大值。
以上分析證明了實驗采用融合習(xí)題難度和遺忘行為模型是有效的。在兩個數(shù)據(jù)集上,BKT模型的預(yù)測效果均表現(xiàn)最差,表明在傳統(tǒng)知識追蹤中,使用二進制變量來建模知識掌握水平的方法存在局限性。DKT模型通過循環(huán)神經(jīng)網(wǎng)絡(luò)RNN來輔助構(gòu)建整體知識水平,優(yōu)化了知識追蹤的建模過程,然而該模型無法構(gòu)建學(xué)生各個知識點的掌握水平。DKVMN模型通過記憶增強神經(jīng)網(wǎng)絡(luò)解決了這一問題,但在模擬學(xué)生的學(xué)習(xí)行為方面仍存在不足。DKVMN模型默認(rèn)學(xué)生對各知識點的掌握水平是不變的,忽略了遺忘因素,同時在預(yù)測環(huán)節(jié)未考慮習(xí)題本身對預(yù)測結(jié)果的影響。綜合比較而言,F(xiàn)DKT-ED模型的預(yù)測效果優(yōu)于其他3個模型。
(2) FDKT-ED和DKVMN在知識水平輸出上的對比
知識追蹤的另一個重要指標(biāo)是知識水平輸出。因此對FDKT-ED和DKVMN兩種模型在知識水平輸出方面的表現(xiàn)進行對比。
選取學(xué)生答題歷史中一段時間的答題記錄,對比實驗將同一組答題數(shù)據(jù)輸入到兩個模型中,輸入數(shù)據(jù)使用二元組( kt,at)表示,其中kt表示學(xué)習(xí)的知識點,at 表示作答結(jié)果,兩個模型的知識水平輸出結(jié)果如圖3所示。
通過上述實驗結(jié)果分析,正確回答問題會使知識掌握水平上升,在圖3中第二個序列正確回答知識點0后,輸出結(jié)果呈現(xiàn)出上升,錯誤回答問題后會使知識掌握水平下降;第四序列錯誤回答知識點3后,輸出結(jié)果呈現(xiàn)出下降趨勢,表明FDKT-ED和DKVMN模型在學(xué)生答題結(jié)束后都會對學(xué)生的知識掌握狀態(tài)進行更新,從而對學(xué)生的學(xué)習(xí)行為進行建模。
圖3(a)中自第二序列學(xué)習(xí)知識點0后,第三到第九序列都未再次進行學(xué)習(xí),學(xué)生的知識掌握水平呈下降趨勢,表明學(xué)生在這個時間段中存在遺忘行為;圖3(b)中的對應(yīng)時間段學(xué)生的知識掌握水平保持不變,表明DKVMN模型未考慮學(xué)生這段時間中的遺忘行為。
綜上,F(xiàn)DKT-ED模型和DKVMN模型都能在學(xué)生做出學(xué)習(xí)行為時更新知識掌握狀態(tài),但是遺忘因素使得FDKT-ED模型在沒有學(xué)習(xí)行為時知識掌握狀態(tài)會下降,更加符合學(xué)生的學(xué)習(xí)行為過程。
2.4 消融實驗
由上述實驗與結(jié)果發(fā)現(xiàn),F(xiàn)DKT-ED模型能夠獲得比傳統(tǒng)知識追蹤模型更好的預(yù)測結(jié)果,通過消融實驗分析習(xí)題難度和遺忘因素對知識追蹤中預(yù)測能力的影響程度。實驗均在數(shù)據(jù)集ASSIST2012上進行,4個遺忘因素分別對應(yīng)距離上次學(xué)習(xí)相同知識點時間間隔、距離上次學(xué)習(xí)時間間隔、重復(fù)學(xué)習(xí)該知識點次數(shù)、原始知識掌握程度;實驗通過比較AUC值分析各個因素所起到的作用。實驗結(jié)果如表3所列。
通過消融實驗發(fā)現(xiàn),去除習(xí)題難度使得模型預(yù)測效果約降低1.9%,去除遺忘因素一RK使得模型預(yù)測效果降低1.2%,去除遺忘因素二RL使得模型預(yù)測效果降低1.0%,去除遺忘因素三KT使得模型預(yù)測效果降低0.9%,去除遺忘因素四KM使得模型預(yù)測效果降低1.0%。綜上,習(xí)題難度和遺忘因素都在一定程度上提升了模型的預(yù)測能力,優(yōu)化了學(xué)生學(xué)習(xí)行為模型的構(gòu)建過程;在提升模型的預(yù)測能力方面,習(xí)題難度這一因素起到更大的作用,4個遺忘因素的作用大致相同。
3 結(jié)語
通過綜合考慮遺忘因素及習(xí)題本身屬性,提出了一種融合習(xí)題難度和遺忘行為的深度知識追蹤模型FDKT-ED。該模型根據(jù)習(xí)題序列來確定各知識點的權(quán)重,并在構(gòu)建模型時融入遺忘因素,同時還在預(yù)測學(xué)習(xí)結(jié)果時考慮習(xí)題難度對預(yù)測結(jié)果的影響,有效提高模型預(yù)測的準(zhǔn)確率。此外,該模型還呈現(xiàn)出知識狀態(tài)的變化過程,增強了模型的可解釋性。實驗結(jié)果表明,相較于BKT、DKT和DKVMN模型,F(xiàn)DKT-ED模型具有更出色的表現(xiàn)。在該模型中無論是習(xí)題難度還是遺忘因素,都有助于提升模型的預(yù)測準(zhǔn)確率,其中習(xí)題難度的影響程度更大。
雖然FDKT-ED模型具有出色的表現(xiàn),但是該模型未考慮習(xí)題難度和遺忘行為之間的關(guān)系,在后續(xù)研究中,我們將綜合考慮影響因素之間的關(guān)系,構(gòu)建適應(yīng)復(fù)雜學(xué)習(xí)環(huán)境的知識追蹤模型。
參考文獻:
[1] CORBETT A T,ANDERSON J R.Knowledge tracing:Modeling the acquisition of procedural knowledge[J].User Modeling and User-adapted Interaction,1994,4(4):253-278.
[2] PIECH C,BASSEN J,HUANG J, et al .Deep knowledge tracing[J].Advances in Neural Information Processing Systems,2015(28):505-513.
[3] ZHANG L,XIONG X,ZHAO S, et al .Incorporating rich featuresinto deep knowledge tracing[C]//Proceedings of the Fourth (2017) ACM Conference on learning@ scale.2017:169-172.
[4] CHENG S,LIU Q,CHEN E.Domain adaption for knowledge tracing[J].arXiv e-print arXiv,2020:arXiv:2001.04841.
[5] RUAN S,WEI W,LANDAY J.Variational deep knowledge tracing for language learning[C]//LAK21:11th International Learning Analytics and Knowledge Conference.2021:323-332.
[6] ZHANG J,SHI X,KING I, et al .Dynamic key-value memory networks for knowledge tracing[C]//Proceedings of the 26th International Conference on World Wide Web,2017:765-774.
[7] SUN X,ZHAO X,LI B, et al .Dynamic key-value memory networks with rich features for knowledge tracing[J].IEEE Transactions on Cybernetics,2021(99):1-7.
[8] 宗曉萍,陶澤澤.基于掌握速度的知識追蹤模型[J].計算機工程與應(yīng)用,2021,57(6):117-123.
[9] AI F,CHEN Y,GUO Y, et al .Concept-aware deep knowledge tracing and exercise recommendation in an online learning system[J].International Educational Data Mining Society,2019(99):240-245.
[10] SUN X,ZHAO X,MA Y, et al .Muti-behavior features based knowledge tracking using decision tree improved DKVMN[C]//Proceedings of the ACM Turing Celebration Conference-China.2019:1-6.
[11] EBBINGHAUS H.Memory:A contribution to experimental psychology[J].Annals of Neurosciences,2013,20(4):155-156.
[12] ZOU Y,YAN X,LI W.Knowledge tracking model based on learning process[J].Journal of Computer and Communications,2020,8(10):7-17.
[13] MINN S,ZHU F,DESMARAIS M C.Improving knowledge tracing model by integrating problem difficulty[C]//2018 IEEE International Conference on Data Mining Workshops (ICDMW).IEEE,2018:1505-1506.
[14] YUDELSON M V,KOEDINGER K R,GORDON G J.Individualized bayesianknowledge tracing models[C]//Berlin,Heidelberg:International Conference on Artificial Intelligence in Education.Springer,2013:171-180.
[15] CONVERSE G,PU S,OLIVEIRA S.Incorporating item response theory into knowledge tracing[C]//Cham,International Conference on Artificial Intelligence in Education.Springer,2021:114-118.
[16] YEUNG C K.Deep-IRT:Make deep learning based knowledge tracing explainable using item response theory[J].arXiv preprint,2019:arXiv:1904.11738.
Deep knowledge tracking model integrating exercise
difficulty and forgetting behavior
MA Fanglan1,2,ZHU Changsheng2,PO Shichao2
(1.Institute of Sensor Technology,Gansu Academy of Sciences,Lanzhou 730000,China;
2.School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China)
Abstract
Deep knowledge tracking is the key technology to realize the personalization of online education.However,the current deep knowledge tracking model generally only considers the problems and results,while ignoring other factors affecting learners' answer results,which will lead to the poor interpretability and low prediction accuracy of deep knowledge tracking model.Therefore,this paper proposes a deep knowledge tracking model integrating exercise difficulty and forgetting behavior(FDKT-ED).The model is based on the traditional DKVMN model.While comprehensively considering the answer results and exercise difficulty,it optimizes the learning process of simulated learners and considers the key behavior of forgetting in the modeling process.Through the comparison of experimental results,it is found that on the one hand,the model improves the interpretability in the learning process and can show the changes of knowledge state.On the other hand,the accuracy of prediction results is improved by 2%~4%,and the prediction effect is significantly improved.
Key words
Knowledge tracking;Deep learning;Exercise difficulty;Forgetting behavior;Learning process
(本文責(zé)編:葛 文)