許 嘉,韋婷婷,于 戈,黃欣悅,呂 品,2,3
1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧530004
2.廣西大學(xué)廣西多媒體通信網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧530004
3.廣西大學(xué)廣西高校并行與分布式計(jì)算重點(diǎn)實(shí)驗(yàn)室,南寧530004
4.東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽110819
考試是區(qū)分學(xué)生能力和選拔人才的重要手段,在教育領(lǐng)域發(fā)揮著至關(guān)重要的作用。試卷質(zhì)量的好壞對考試公平性有直接影響。而題目難度是影響試卷質(zhì)量的核心因素,因?yàn)檫^于簡單或者過于困難的題目都無法很好地支撐學(xué)生能力的區(qū)分和人才的選拔??梢?,題目難度評估是保障考試公平性需要解決的重要問題之一。與此同時(shí),題目難度評估也在智能教育領(lǐng)域中發(fā)揮著重要作用,為智能組卷、題目自動(dòng)生成和個(gè)性化習(xí)題推薦等多項(xiàng)智能教育領(lǐng)域的核心任務(wù)提供有效支撐。鑒于此,本文對近年來題目難度評估相關(guān)的研究工作進(jìn)行了深入調(diào)研和分析,以期為相關(guān)領(lǐng)域的研究學(xué)者提供幫助。
在對題目難度評估的相關(guān)研究工作進(jìn)行深入討論之前,首先澄清三個(gè)術(shù)語——題目、試題和習(xí)題之間的區(qū)別和聯(lián)系。根據(jù)應(yīng)用領(lǐng)域的不同,題目可以被稱為試題(當(dāng)其應(yīng)用于考試時(shí))或習(xí)題(當(dāng)其應(yīng)用于課后練習(xí)時(shí))。可見,試題和習(xí)題是題目在不同應(yīng)用場景下的不同表述。因此本文用術(shù)語“題目”統(tǒng)一指代術(shù)語“試題”和“習(xí)題”。
經(jīng)典測試?yán)碚摚╟lassical test theory,CTT)將題目難度定義為正確回答該題的學(xué)生占總體學(xué)生的比率。佟威等人認(rèn)為基于題目文本獲得的題目難度可稱為題目的絕對難度。Zhu 等人則認(rèn)為題目難度是對題目內(nèi)容復(fù)雜性的度量。此外,Teusner 等人認(rèn)為不同學(xué)生對題目的感知難度與學(xué)生的知識狀態(tài)水平密切相關(guān)。同時(shí),Gan 等人也認(rèn)為存在由學(xué)生知識狀態(tài)水平而決定的題目相對難度。上述對于題目難度的理解可歸于兩種觀點(diǎn):第一種觀點(diǎn)認(rèn)為題目難度是題目本身特性(例如題型和題目內(nèi)容等)的反映,本文稱之為題目的絕對難度;第二種觀點(diǎn)則認(rèn)為題目難度是學(xué)生個(gè)體知識狀態(tài)水平的反映,應(yīng)該通過學(xué)生與題目之間的答題交互表現(xiàn)來量化題目難度,本文稱之為題目的相對難度。本文將題目難度分為絕對難度和相對難度兩方面分別進(jìn)行討論。
題目難度評估是當(dāng)下教育領(lǐng)域的研究熱點(diǎn),雖然近三年來已有5 篇綜述類論文對題目難度評估的相關(guān)研究工作進(jìn)行了分析總結(jié),然而本文和這些論文具有顯著區(qū)別并作出了新的貢獻(xiàn)。其中,文獻(xiàn)[16-18]一方面只針對經(jīng)典的知識追蹤模型進(jìn)行了介紹和分析,沒有討論題目難度評估的其他模型方法;另一方面,沒有覆蓋近兩年最新發(fā)表的眾多知識追蹤模型。文獻(xiàn)[19]僅對題目絕對難度的研究方法進(jìn)行了分析,沒有涉及對題目相對難度研究方法的總結(jié)。文獻(xiàn)[20]則主要分析了基于深度學(xué)習(xí)方法的知識追蹤模型,沒有討論除深度學(xué)習(xí)方法之外的知識追蹤模型。綜上,已有的綜述類論文要么只關(guān)注于題目絕對難度評估相關(guān)的研究工作,要么只是針對題目相對難度評估所涉及的知識追蹤模型進(jìn)行了分析總結(jié),均沒有以整個(gè)題目難度評估領(lǐng)域?yàn)橐暯菍陙淼难芯窟M(jìn)展進(jìn)行系統(tǒng)的梳理、對比和分析。本文不但系統(tǒng)總結(jié)了題目難度評估領(lǐng)域的最新研究進(jìn)展,還基于同一個(gè)公開數(shù)據(jù)集對近年來最受關(guān)注的基于深度學(xué)習(xí)的題目相對難度評估方法中的典型模型進(jìn)行了實(shí)驗(yàn)對比和分析,從而讓讀者對這些模型有深入的理解。
本文以整個(gè)題目難度評估領(lǐng)域?yàn)橐暯?,分析總結(jié)了該領(lǐng)域的研究現(xiàn)狀,主要貢獻(xiàn)包括:
(1)對近十年來題目難度評估的相關(guān)研究工作進(jìn)行了統(tǒng)計(jì)、比較和分類;
(2)以題目絕對難度預(yù)測和題目相對難度預(yù)測為分類框架對相關(guān)研究工作進(jìn)行了分類討論;
(3)對近年來最受關(guān)注的基于深度學(xué)習(xí)的題目相對難度評估模型進(jìn)行了實(shí)驗(yàn)對比和分析;
(4)對題目難度預(yù)測的相關(guān)數(shù)據(jù)集、題目難度預(yù)測方法中典型的信息提取方法、模型的評價(jià)指標(biāo)和訓(xùn)練標(biāo)簽進(jìn)行了系統(tǒng)總結(jié)。
傳統(tǒng)教育中的題目絕對難度評估方法包括預(yù)測試和專家評估。預(yù)測試是指在題目未被應(yīng)用到考試前組織一部分學(xué)生對所有的題目進(jìn)行提前測試,再根據(jù)學(xué)生在測試中的答題表現(xiàn)統(tǒng)計(jì)每道題目的難度。預(yù)測試方法常被應(yīng)用于雅思、托福等考試中。易知,預(yù)測試法的局限性:(1)其得到的題目難度與參加預(yù)測試的學(xué)生的知識能力水平緊密相關(guān);(2)存在題目泄露的風(fēng)險(xiǎn);(3)參與預(yù)測試的學(xué)生規(guī)模一般要求比較大,導(dǎo)致較多人力和財(cái)力的消耗。專家評估則由命題經(jīng)驗(yàn)豐富的領(lǐng)域?qū)<一蚪處煂︻}目難度進(jìn)行評估。由于專家或教師的評估結(jié)果帶有主觀性,這無疑會(huì)影響題目難度評估的穩(wěn)定性。
在教育心理學(xué)領(lǐng)域,經(jīng)典測試?yán)碚撘惨詫W(xué)生的測試結(jié)果作為題目難度的評估依據(jù)。然而,由于該理論存在假設(shè)性強(qiáng)且某些參數(shù)在理論上具有意義卻很難在實(shí)際中計(jì)算得到等問題,在經(jīng)典測試?yán)碚摰倪\(yùn)用中通常只是簡單以題目得分率或通過率作為題目難度的取值。
鑒于目前已有不少題目絕對難度的評估方法被提出,一些文獻(xiàn)對這些題目絕對難度評估方法進(jìn)行分類。其中,以文獻(xiàn)[19]的分類策略最為細(xì)致全面。文獻(xiàn)[19]將題目絕對難度評估方法分為認(rèn)知法和系統(tǒng)方法。首先,認(rèn)知法認(rèn)為題目的絕對難度是學(xué)生正確回答該題所需要的認(rèn)知能力,進(jìn)一步可分為啟發(fā)式法和教育分類法。啟發(fā)式法又被稱為專家評估法,其依賴于領(lǐng)域?qū)<覍︻}目難度進(jìn)行評估和確定;教育分類法則利用認(rèn)知模型(例如Bloom 分類模型)評估題目的絕對難度。題目絕對難度評估方法的另一大分支系統(tǒng)方法利用各種計(jì)算機(jī)技術(shù)(例如自然語言處理技術(shù))來量化題目絕對難度,以減少難度量化過程中的人為干預(yù),又可分為統(tǒng)計(jì)法和數(shù)據(jù)驅(qū)動(dòng)法。以經(jīng)典測試?yán)碚摓榇淼慕y(tǒng)計(jì)法以學(xué)生們的歷史答題數(shù)據(jù)為輸入并利用統(tǒng)計(jì)模型量化得到題目絕對難度值。系統(tǒng)法中的數(shù)據(jù)驅(qū)動(dòng)法可進(jìn)一步分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。其中,基于規(guī)則的方法利用專家制定的規(guī)則來計(jì)算題目的絕對難度?;跈C(jī)器學(xué)習(xí)的方法則是以題目的題干、選項(xiàng)等信息作為題目特征,以題目已知的難度信息作為標(biāo)簽進(jìn)而利用機(jī)器學(xué)習(xí)模型構(gòu)建題目絕對難度預(yù)測模型,是目前題目絕對難度評估的主流方法。經(jīng)過統(tǒng)計(jì)分析,本文在文獻(xiàn)[19]提出的題目絕對難度方法分類策略的基礎(chǔ)上進(jìn)一步將基于機(jī)器學(xué)習(xí)方法細(xì)分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。圖1 展示了本文的分類策略。鑒于基于機(jī)器學(xué)習(xí)方法是當(dāng)今題目絕對難度評估的主流技術(shù),本文將在第2 章詳細(xì)討論其研究現(xiàn)狀。
圖1 題目絕對難度評估的方法分類Fig.1 Classification of approaches for question absolute difficulty evaluation
教育心理學(xué)領(lǐng)域提出的認(rèn)知診斷理論是近年來解決題目相對難度評估問題的主流方法。認(rèn)知診斷是對個(gè)體認(rèn)知過程、加工技能或知識結(jié)構(gòu)的診斷評估。在被運(yùn)用于題目難度評估時(shí),認(rèn)知診斷首先以學(xué)生答題數(shù)據(jù)為輸入對該生的知識狀態(tài)水平進(jìn)行診斷,之后基于診斷結(jié)果評估某道題目對于該生的相對難度。認(rèn)知診斷被分為靜態(tài)認(rèn)知診斷(忽略時(shí)間因素)和動(dòng)態(tài)認(rèn)知診斷(考慮時(shí)間因素對學(xué)生知識狀態(tài)水平的診斷結(jié)果的影響)。
靜態(tài)認(rèn)知診斷假設(shè)學(xué)生的知識狀態(tài)水平在一定時(shí)間內(nèi)是固定不變的,其利用學(xué)生的答題數(shù)據(jù)對學(xué)生的知識狀態(tài)水平進(jìn)行評估,進(jìn)而評估題目對學(xué)生的相對難度。作為靜態(tài)認(rèn)知診斷模型的代表,項(xiàng)目反應(yīng)模型(item response model,IRM)和DINA 模型(deterministic input,noisy“and”gate model)都常被用于量化題目的相對難度。其中,項(xiàng)目反應(yīng)模型首先基于學(xué)生的答題結(jié)果計(jì)算學(xué)生的能力參數(shù)和題目的特性參數(shù)(包括絕對難度、區(qū)分度、猜測度),再以這些參數(shù)作為Logistics 函數(shù)的輸入來得到題目對于學(xué)生的相對難度信息。項(xiàng)目反應(yīng)模型沒有引入知識點(diǎn)的概念,只將學(xué)生的知識狀態(tài)水平粗粒度地描述為單一的能力值。與項(xiàng)目反應(yīng)模型不同的是,DINA 模型引入了知識點(diǎn)的概念并通過定義矩陣來描述題目和知識點(diǎn)之間的關(guān)系,之后以矩陣和記錄了全體學(xué)生的答題結(jié)果數(shù)據(jù)的矩陣為輸入,并定義相應(yīng)的項(xiàng)目反應(yīng)函數(shù)來診斷得到學(xué)生對各個(gè)知識點(diǎn)的掌握程度值,題目對于學(xué)生的相對難度值則等于該學(xué)生對該題考查的各個(gè)知識點(diǎn)的掌握程度值的乘積。近年來,學(xué)者們將模糊集理論、機(jī)器學(xué)習(xí)模型與各種認(rèn)知診斷模型相結(jié)合,提出了多種混合認(rèn)知診斷技術(shù),進(jìn)一步提高了認(rèn)知診斷的準(zhǔn)確率,因此本文將靜態(tài)認(rèn)知診斷方法分為傳統(tǒng)認(rèn)知診斷和混合認(rèn)知診斷。
動(dòng)態(tài)認(rèn)知診斷則基于學(xué)生的答題數(shù)據(jù)序列動(dòng)態(tài)評估和更新學(xué)生的知識狀態(tài)水平,以跟蹤學(xué)生隨時(shí)間的變化對知識點(diǎn)的掌握情況,進(jìn)而在不同時(shí)刻更新題目對于學(xué)生的相對難度信息。由于知識追蹤技術(shù)利用學(xué)生的答題序列追蹤學(xué)生隨時(shí)間變化的知識狀態(tài)水平,從而評估某一道題目對于學(xué)生的相對難度,因此有學(xué)者認(rèn)為知識追蹤等同于動(dòng)態(tài)認(rèn)知診斷。根據(jù)追蹤手段的不同,動(dòng)態(tài)認(rèn)知診斷方法可進(jìn)一步分為基于貝葉斯網(wǎng)絡(luò)的動(dòng)態(tài)認(rèn)知診斷和基于深度學(xué)習(xí)的動(dòng)態(tài)認(rèn)知診斷。
圖2 給出了本文對于題目相對難度評估方法的分類策略。由于近十年發(fā)表的靜態(tài)認(rèn)知診斷相關(guān)的文獻(xiàn)大都采用了混合認(rèn)知診斷策略,本文將會(huì)在第3.1 節(jié)詳細(xì)介紹這類方法。3.2 節(jié)則對動(dòng)態(tài)認(rèn)知診斷技術(shù)進(jìn)行闡釋和分析。
圖2 題目相對難度評估的方法分類Fig.2 Classification of approaches for question relative difficulty evaluation
鑒于預(yù)測試和專家評估等題目絕對難度評估方法具有耗時(shí)耗力、主觀性較強(qiáng)、效率低下等缺點(diǎn),學(xué)者們開始通過建立難度預(yù)測模型來評估題目的絕對難度。近十年來的題目絕對難度評估方法主要利用機(jī)器學(xué)習(xí)模型評估(或稱預(yù)測)題目的絕對難度,預(yù)測過程可分為四個(gè)基本任務(wù):(1)獲取題目真實(shí)絕對難度;(2)數(shù)據(jù)預(yù)處理;(3)特征提??;(4)題目絕對難度預(yù)測模型選擇。本文根據(jù)題目絕對難度預(yù)測方法在特征提取和預(yù)測模型選擇階段是否使用深度學(xué)習(xí)技術(shù)將基于機(jī)器學(xué)習(xí)的方法細(xì)分為基于傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。題目絕對難度預(yù)測方法的分類策略詳見圖3所示。下文分別對每類方法進(jìn)行深入討論。
圖3 基于機(jī)器學(xué)習(xí)的題目絕對難度預(yù)測方法分類Fig.3 Classification of machine learning based approaches for question absolute difficulty prediction
該類方法利用傳統(tǒng)機(jī)器學(xué)習(xí)中的支持向量機(jī)、決策樹、隨機(jī)森林、淺層BP(back propagation)神經(jīng)網(wǎng)絡(luò)等模型實(shí)現(xiàn)對題目絕對難度的預(yù)測。
文獻(xiàn)[41]基于淺層BP 神經(jīng)網(wǎng)絡(luò)提出了一種針對中文閱讀理解題的題目絕對難度預(yù)測的方法。該方法首先從題目和閱讀文本中提取多個(gè)特征(例如題干長度、選項(xiàng)長度),其次分析這些特征與題目絕對難度之間的相關(guān)性,最終篩選出對題目絕對難度有較高影響力的特征作為BP 神經(jīng)網(wǎng)絡(luò)的輸入,最終實(shí)現(xiàn)對閱讀理解題的絕對難度值的預(yù)測。
文獻(xiàn)[42]則利用支持向量機(jī)對臺灣社會(huì)課程的單選題進(jìn)行絕對難度預(yù)測。首先,使用社會(huì)課程教科書和詞嵌入技術(shù)構(gòu)建一個(gè)語義空間,并將題目元素(包括題目題干、正確答案、干擾選項(xiàng))投影到語義空間中,以獲得相應(yīng)表征向量。通過計(jì)算題目元素表征向量之間的余弦相似性從而得到題目的語義特征。最后,將語義特征輸入支持向量機(jī)中進(jìn)行訓(xùn)練和測試,最終實(shí)現(xiàn)題目絕對難度預(yù)測。
文獻(xiàn)[43]利用隨機(jī)森林模型對漢語選擇題進(jìn)行難度等級預(yù)測。首先以漢語教材中的專有名詞為基礎(chǔ)建立知識樹模型,其后將知識樹的屬性(例如知識樹的廣度和深度)作為隨機(jī)森林模型的輸入,從而對題目的絕對難度進(jìn)行等級評估。
文獻(xiàn)[44]利用題目編號、題目難度類型、題目總提交次數(shù)、題目總通過次數(shù)、題目首次提交通過的次數(shù)和首次提交通過的總用時(shí)作為決策樹模型的輸入特征,實(shí)現(xiàn)了編程題的絕對難度預(yù)測。
各種回歸模型也常被用于預(yù)測題目的絕對難度。例如,文獻(xiàn)[45]首先分析得到了英國小學(xué)科學(xué)測試題目的難度影響因素,具體包括課程變量(涉及課程主題、課程子主題、概念)、題目類型、刺激性質(zhì)(即題目中的圖表類型)、知識深度和語言變量,并使用上述變量建立回歸模型來預(yù)測題目的絕對難度。又如文獻(xiàn)[46]討論了英語時(shí)態(tài)的提示性填空題(cued gap-filling items)的難度預(yù)測問題。其針對題目文本、填空詞語等多個(gè)影響題目難度的題目特征進(jìn)行了嶺回歸分析,從而建立題目特征與題目難度之間的關(guān)系模型。文獻(xiàn)[21]則提出從題目文本提取題目的語料庫特征(例如詞匯特征和句法特征),并將這些特征作為多元線性回歸模型的輸入來訓(xùn)練該模型從而實(shí)現(xiàn)題目絕對難度預(yù)測。
上述提及的文獻(xiàn)均只選用單一的機(jī)器學(xué)習(xí)模型對題目難度進(jìn)行預(yù)測,而部分論文會(huì)利用多種機(jī)器學(xué)習(xí)模型進(jìn)行題目絕對難度預(yù)測,再從中選擇特定應(yīng)用場景下最優(yōu)的模型。例如,文獻(xiàn)[47-48]均是利用多元線性回歸和決策樹模型對英語閱讀理解題中的選擇題進(jìn)行難度預(yù)測。又如文獻(xiàn)[49]從英文聽力題的聽力材料文本和題目文本中提取多個(gè)特征并基于這些特征訓(xùn)練線性回歸、決策樹、支持向量機(jī)等機(jī)器學(xué)習(xí)模型。文獻(xiàn)[50]選取了醫(yī)學(xué)單選題的多個(gè)特征(例如語言學(xué)特征和信息檢索特征),并利用隨機(jī)森林、線性回歸、支持向量機(jī)等機(jī)器學(xué)習(xí)模型對題目絕對難度進(jìn)行評估。文獻(xiàn)[51]使用邏輯回歸、支持向量機(jī)和隨機(jī)森林對文本信息較為豐富的英語閱讀題進(jìn)行題目絕對難度等級的預(yù)測。文獻(xiàn)[52]將從選擇題的題目文本中提取的可讀性特征、語言學(xué)特征和信息檢索特征作為隨機(jī)森林、決策樹、支持向量機(jī)、線性回歸模型的輸入,實(shí)現(xiàn)對題目絕對難度的預(yù)測。文獻(xiàn)[25]提取題目文本的詞頻逆文本頻率指數(shù)特征作為隨機(jī)森林、決策樹、支持向量機(jī)和線性回歸模型的輸入,模型輸出題目的絕對難度值和區(qū)分度。文獻(xiàn)[53]則使用支持向量機(jī)、決策樹、樸素貝葉斯網(wǎng)絡(luò)和淺層BP 神經(jīng)網(wǎng)絡(luò)對題目絕對難度進(jìn)行等級評估。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的題目難度預(yù)測方法的相關(guān)文獻(xiàn)較多,表1 總結(jié)了常用于題目絕對難度預(yù)測的傳統(tǒng)機(jī)器學(xué)習(xí)模型和相關(guān)文獻(xiàn)。
表1 題目絕對難度預(yù)測常用的機(jī)器學(xué)習(xí)模型Table1 Frequently-used machine learning models for question absolute difficulty prediction
近年來,深度學(xué)習(xí)技術(shù)的運(yùn)用進(jìn)一步提升了許多應(yīng)用領(lǐng)域中預(yù)測或分類任務(wù)的精度。因此,不少學(xué)者也開始利用深度學(xué)習(xí)框架來提高對題目絕對難度預(yù)測的準(zhǔn)確性。
文獻(xiàn)[58]基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提出了一種預(yù)測英語考試中閱讀理解題絕對難度的神經(jīng)網(wǎng)絡(luò)模型TACNN(test-aware attentionbased convolutional neural network),如圖4(a)所示。首先輸入層將題目文本進(jìn)行向量化,其次利用CNN學(xué)習(xí)題目文本信息(包括閱讀文本、題干和選項(xiàng))的有效語義表征。然后,使用注意力機(jī)制來限定閱讀文本中每個(gè)句子對題目絕對難度評估的貢獻(xiàn)。最后,考慮到不同測試中題目難度的不可比性,提出了一種基于考試上下文信息的訓(xùn)練方式來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型TACNN。
文獻(xiàn)[12]則基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的思想提出了三種針對數(shù)學(xué)試題的絕對難度預(yù)測神經(jīng)模型,包括C-MIDP(基于CNN 構(gòu)建)、R-MIDP(基于RNN 構(gòu)建)和HMIDP(基于CNN 和RNN 構(gòu)建的混合模型)。這三種模型的框架如圖4(b)所示。具體的,CNN 用來提取題目文本的語義信息,RNN 則用來提取題目文本的序列語義和邏輯信息,此外考慮到不同考試中學(xué)生群體的不可比性,在訓(xùn)練模型的過程中同樣采用了一種基于考試上下文信息的訓(xùn)練方式,以期提升預(yù)測的準(zhǔn)確度。
鑒于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在處理序列數(shù)據(jù)上表現(xiàn)良好,文獻(xiàn)[23]基于LSTM 網(wǎng)絡(luò)提出了一種針對漢語閱讀理解題的題目絕對難度預(yù)測模型,本文將其命名為TCN-DPN(text correlation network and difficulty prediction network),其模型如圖4(c)所示。該模型首先將題目文本進(jìn)行向量化;然后,將題目文本向量輸入LSTM 模型中得到題目信息向量,最后題目信息向量經(jīng)過全連接層輸出題目的絕對難度等級。
文獻(xiàn)[22]基于深度神經(jīng)網(wǎng)絡(luò)模型提出了針對醫(yī)學(xué)考試中選擇題的題目絕對難度預(yù)測模型DAN(document enhanced attention based neural network),詳見圖4(d)所示。DAN 首先通過拼接題目的題干和選項(xiàng)構(gòu)造查詢,然后基于查詢從一個(gè)醫(yī)學(xué)文檔數(shù)據(jù)庫中獲取和該題相關(guān)的醫(yī)學(xué)文檔。之后,利用Bi-LSTM(bidirectional long short-term memory)模型構(gòu)建選擇題文本組成部分(即題干、選項(xiàng)和檢索到的相關(guān)醫(yī)學(xué)文檔)的語義特征表達(dá)。最后,基于語義特征表達(dá)將題目的難度信息分為刻畫學(xué)習(xí)者排除干擾選項(xiàng)困難程度的困惑難度(confusion difficulty)和刻畫從醫(yī)學(xué)文檔數(shù)據(jù)庫中獲取與該題相關(guān)的醫(yī)學(xué)文檔的困難程度的召回難度(recall difficulty)兩部分,并最終以加權(quán)求和方式將這兩部分難度整合形成該題的絕對難度值。
文獻(xiàn)[2]對帶圖片的選擇題的難度評估問題進(jìn)行研究,首先基于深度多模態(tài)嵌入模型學(xué)習(xí)題目的文本和圖片信息的有效表征,然后提出一個(gè)基于貝葉斯推理的題目難度預(yù)測框架(Bayesian inference-based exercise difficulty prediction,BEDP)來預(yù)測該類型題目的絕對難度。BEDP 模型的框架如圖4(e)所示。
圖4 基于深度學(xué)習(xí)的題目絕對難度預(yù)測重要模型架構(gòu)Fig.4 Architecture of important deep learning based question absolute difficulty prediction models
表2 對基于深度學(xué)習(xí)的題目絕對難度預(yù)測模型的優(yōu)點(diǎn)和局限性進(jìn)行了對比分析。
表2 基于深度學(xué)習(xí)的題目絕對難度預(yù)測模型對比Table 2 Comparison of deep learning based question absolute difficulty prediction models
雖然近十年提出的題目絕對難度預(yù)測方法大多是基于機(jī)器學(xué)習(xí)模型構(gòu)建的,仍有學(xué)者提出了其他的解決思路。例如,針對人工智能課程中的特定類型的題目,包括將自然語言轉(zhuǎn)化為FOL(first-order logic)的題目和FOL 轉(zhuǎn)化為自然語言句子的題目,學(xué)者們提出了基于專家制定規(guī)則的題目絕對難度評估策略。具體的,學(xué)者們從這類題目的特點(diǎn)出發(fā),利用可獲取的題目答案參數(shù)(例如量詞的數(shù)量、隱含符號的數(shù)量、不同連接詞的數(shù)量)和專家制定的規(guī)則來預(yù)測這類題目的絕對難度等級。還有學(xué)者提出可以將題目的不同部分或者不同方面的絕對難度進(jìn)行相乘或者相加來計(jì)算題目的絕對難度。例如,文獻(xiàn)[60]首先從題目的題干和選項(xiàng)中獲取與絕對難度相關(guān)的因素,其次利用定義的公式獲得題干的難度值和選項(xiàng)的難度,最后將題干和選項(xiàng)的難度分?jǐn)?shù)進(jìn)行相乘最終得到題目的絕對難度值。文獻(xiàn)[61]以求和的方法將任務(wù)難度、內(nèi)容難度和刺激難度(指學(xué)生在理解和分析題目陳述內(nèi)容時(shí)所面臨的困難程度)整合起來作為題目的絕對難度值。文獻(xiàn)[62]則研究了Java 編程題的難度評估問題,根據(jù)題目的答案獲取到多個(gè)軟件度量指標(biāo)(例如圈復(fù)雜度、平均嵌套塊深度)后對每個(gè)軟件度量指標(biāo)的取值進(jìn)行加權(quán)求和后作為題目的絕對難度值。此外,部分學(xué)者還將神經(jīng)網(wǎng)絡(luò)模型與模糊集理論相結(jié)合,實(shí)現(xiàn)對題目絕對難度的評估。例如,文獻(xiàn)[63]對雅思聽力題的聽力材料和題目文本進(jìn)行特征提取,隨后利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)成功量化了雅思聽力題的絕對難度。文獻(xiàn)[64]則以Tree 數(shù)據(jù)結(jié)構(gòu)的參數(shù)(例如節(jié)點(diǎn)數(shù)、樹的深度)為輸入,并同時(shí)利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)與神經(jīng)象征模型構(gòu)建搜索算法題(例如深度優(yōu)先搜索算法題)的絕對難度預(yù)測模型。
近十年提出的題目絕對難度預(yù)測方法主要包括基于傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。在論文數(shù)量方面,前者占題目絕對難度預(yù)測相關(guān)文獻(xiàn)總數(shù)的近九成,這很大程度是因?yàn)榛谏疃葘W(xué)習(xí)框架來提升題目絕對難度預(yù)測的準(zhǔn)確性是需要大量題目數(shù)據(jù)和學(xué)生答題數(shù)據(jù)作為支撐的,而能訪問到這樣規(guī)模數(shù)據(jù)的研究機(jī)構(gòu)不多。本文對收集到的近十年的題目絕對難度相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn):這些方法所服務(wù)的學(xué)科集中在英語(21%)、計(jì)算機(jī)(16%)、醫(yī)學(xué)(12%)、語文(7%)和數(shù)學(xué)(7%);題型方面,針對選擇題所提出的方法占比最大(29%),剩下依次是填空題(7%)、聽力題(7%)和編程題(5%)。
近十年提出的靜態(tài)認(rèn)知診斷方法大都為混合認(rèn)知診斷方法,即將經(jīng)典的認(rèn)知診斷模型與各種機(jī)器學(xué)習(xí)模型、教育理論進(jìn)行結(jié)合,以優(yōu)化認(rèn)知診斷過程從而提高對題目相對難度的預(yù)測準(zhǔn)確率(表3 展示了近年來典型的混合認(rèn)知診斷方法)。
表3 混合認(rèn)知診斷Table 3 Hybrid cognitive diagnostic
項(xiàng)目反應(yīng)理論(item response theory,IRT)是經(jīng)典的認(rèn)知診斷方法之一,為分析學(xué)生能否答對某道題提供了可解釋的參數(shù)。然而經(jīng)典的IRT 模型僅基于學(xué)生的答題結(jié)果數(shù)據(jù)預(yù)測題目的相對難度值,未利用題目的文本和知識點(diǎn)信息。鑒于此,文獻(xiàn)[36]將IRT 模型和深度學(xué)習(xí)框架相結(jié)合提出了一個(gè)深層項(xiàng)目反應(yīng)理論框架(deep item response theory,DIRT)來彌補(bǔ)傳統(tǒng)IRT 模型的不足。DIRT 框架包含了三大模塊:輸入模塊、深度診斷模塊和預(yù)測模塊。輸入模塊使用能力向量來表征學(xué)生對各個(gè)知識點(diǎn)的掌握程度值,并設(shè)計(jì)密集嵌入層將題目文本向量和題目知識點(diǎn)向量進(jìn)行密集化處理。深度診斷模塊中,基于輸入模塊中生成的學(xué)生能力向量、題目文本向量和知識點(diǎn)向量來作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。最后的預(yù)測模塊以深度診斷模塊得到的學(xué)生能力參數(shù)、題目區(qū)分度和題目絕對難度作為Rasch 模型的輸入,利用訓(xùn)練好的模型預(yù)測題目相對難度值。文獻(xiàn)[37]則將認(rèn)知診斷和神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一個(gè)通用的神經(jīng)認(rèn)知診斷框架,命名為NeuralCD(neural cognitive diagnosis)。
部分學(xué)者將認(rèn)知診斷模型和模糊集理論相結(jié)合,提出題目相對難度評估的新思路。部分認(rèn)知診斷模型(例如DINA 模型)只利用學(xué)生在客觀題上的答題結(jié)果數(shù)據(jù),無法充分利用主觀題的多級評分信息。為了同時(shí)利用學(xué)生在客觀題和主觀題上的答題結(jié)果數(shù)據(jù),文獻(xiàn)[38]將模糊集理論和教育假設(shè)結(jié)合到認(rèn)知診斷模型DINA 中,提出了模糊認(rèn)知診斷框架FuzzyCDF(fuzzy cognitive diagnosis framework)。
近年來,學(xué)者們還將矩陣分解技術(shù)(matrix factorization,MF)應(yīng)用到認(rèn)知診斷領(lǐng)域,即將學(xué)生得分矩陣分解為學(xué)生潛在矩陣和題目潛在矩陣,分別用以刻畫學(xué)生和題目在低維空間中的表現(xiàn)程度?;趯W(xué)生和題目的低維矩陣的乘積對學(xué)生得分矩陣進(jìn)行逼近,進(jìn)而得到題目對于學(xué)生的相對難度。概率矩陣分解(probabilistic matrix factorization,PMF)是常用的矩陣分解方法之一,文獻(xiàn)[8]混合運(yùn)用了PMF 模型和認(rèn)知診斷模型用于預(yù)測學(xué)生關(guān)于某道題的相對難度。首先將學(xué)生答題歷史矩陣和專家標(biāo)注的矩陣作為DINA 模型的輸入,得到學(xué)生的知識點(diǎn)掌握程度。在得到學(xué)生知識點(diǎn)掌握程度后,將其作為先驗(yàn)參數(shù)應(yīng)用于概率矩陣分解中,進(jìn)而預(yù)測題目相對難度。
為了便于讀者的理解,本節(jié)用知識追蹤代替動(dòng)態(tài)認(rèn)知診斷。由于本文收集到的題目相對難度預(yù)測方法大部分是知識追蹤相關(guān)的,本文根據(jù)統(tǒng)計(jì)的實(shí)際情況將題目相對難度預(yù)測方法中的知識追蹤分為基于貝葉斯方法和基于深度學(xué)習(xí)方法,如圖5 所示。
圖5 知識追蹤方法的分類Fig.5 Classification of knowledge tracking approaches
基于隱馬爾可夫模型設(shè)計(jì)的貝葉斯知識追蹤模型(Bayesian knowledge tracing,BKT)是早期知識追蹤方法的代表。BKT 將學(xué)生對于某個(gè)知識點(diǎn)的掌握狀態(tài)建模為一個(gè)二值變量,包括掌握和未掌握兩個(gè)狀態(tài),并假設(shè)該生對于每個(gè)知識點(diǎn)都有四個(gè)參數(shù):(1)先驗(yàn)知識水平,即該生未答題前對該知識點(diǎn)的掌握程度;(2)學(xué)習(xí)率,指該生每次答題后知識點(diǎn)從未掌握狀態(tài)轉(zhuǎn)移至掌握狀態(tài)的概率;(3)猜測概率,指該生未掌握該知識點(diǎn)但猜測答對其對應(yīng)題目的概率;(4)失誤概率,指該生掌握該知識點(diǎn)卻失誤答錯(cuò)其對應(yīng)題目的概率。EM(expectation maximum)算法常被用來估計(jì)BKT 模型中的以上四個(gè)參數(shù),利用得到的參數(shù)并通過隱馬爾可夫模型更新學(xué)生知識點(diǎn)的掌握狀態(tài)。
在BKT 模型的基礎(chǔ)上:一方面,一些學(xué)者繼續(xù)從學(xué)生方面和題目方面探討其他因素(如學(xué)生遺忘行為、學(xué)生不同的學(xué)習(xí)能力、題目絕對難度、知識點(diǎn)的層次結(jié)構(gòu)關(guān)系)對題目相對難度的影響;另一方面,也有學(xué)者利用教育心理學(xué)領(lǐng)域的理論模型擴(kuò)展BKT模型以獲得更高的題目相對難度預(yù)測準(zhǔn)確率。表4總結(jié)比較了近十年提出的BKT 擴(kuò)展模型。
表4 BKT 擴(kuò)展模型Table 4 Extended models for BKT
在擴(kuò)展BKT 模型的研究任務(wù)中,部分學(xué)者考慮加入學(xué)生方面的多種因素以提升對學(xué)生知識狀態(tài)水平的評估準(zhǔn)確度,繼而提高對題目相對難度的預(yù)測精度。例如,文獻(xiàn)[72]假設(shè)學(xué)生間隔一段時(shí)間后的答題表現(xiàn)下降的原因有二:(1)學(xué)生遺忘知識點(diǎn)內(nèi)容;(2)學(xué)生答題失誤。利用該假設(shè),分別將學(xué)生遺忘概率和同一天的失誤概率作為參數(shù)引入到BKT 模型。文獻(xiàn)[39]從學(xué)生的個(gè)性化特性出發(fā)提出了三種改進(jìn)的BKT 模型,分別考慮不同學(xué)生對知識點(diǎn)的初始掌握程度、不同學(xué)生對知識點(diǎn)的學(xué)習(xí)速率以及同時(shí)考慮了以上二者。文獻(xiàn)[75]將利用便攜式腦電圖設(shè)備檢測學(xué)生的心理狀態(tài)數(shù)據(jù)嵌入到BKT 模型中。文獻(xiàn)[80]則基于所收集的學(xué)生答題行為特征對BKT 模型進(jìn)行了擴(kuò)展改進(jìn)。文獻(xiàn)[82]則直接加入了表征學(xué)生情感狀態(tài)的變量(如是否困惑、無聊等狀態(tài))來擴(kuò)展標(biāo)準(zhǔn)的BKT 模型。文獻(xiàn)[84]提出了四個(gè)改進(jìn)的BKT模型:BKT+F(考慮遺忘因素)、BKT+S(考慮知識點(diǎn)間的相似性)、BKT+A(假設(shè)能力較強(qiáng)的學(xué)生有較低的失誤率和較高的猜測概率)以及BKT+FSA(前三個(gè)模型的綜合)。
標(biāo)準(zhǔn)BKT 模型將學(xué)生對知識點(diǎn)的掌握狀態(tài)設(shè)置為掌握和未掌握兩個(gè)狀態(tài)。文獻(xiàn)[86]提出學(xué)生對知識點(diǎn)的掌握狀態(tài)不應(yīng)只是一個(gè)二值變量,繼而在標(biāo)準(zhǔn)的BKT 模型中增加了一個(gè)從未掌握到掌握的過渡狀態(tài)。而文獻(xiàn)[81]在學(xué)生對知識點(diǎn)的掌握和未掌握兩個(gè)狀態(tài)之間添加兩個(gè)中間狀態(tài)對標(biāo)準(zhǔn)BKT 模型進(jìn)行擴(kuò)充。文獻(xiàn)[88]則提出了一個(gè)多狀態(tài)BKT 模型,將描述學(xué)生對知識點(diǎn)的掌握狀態(tài)的變量從標(biāo)準(zhǔn)BKT 模型中的兩種狀態(tài)(即“掌握”和“未掌握”)擴(kuò)展到21種狀態(tài)。
此外,還有部分學(xué)者考慮加入題目方面的多種因素來提升BKT 模型對題目相對難度的預(yù)測效果。例如,文獻(xiàn)[74]考慮了學(xué)生當(dāng)前正在回答的題目與之前已回答的題目之間的相似性,并利用題目間的相似性來改進(jìn)BKT 的預(yù)測效果。在看到標(biāo)準(zhǔn)BKT 模型缺乏對學(xué)習(xí)領(lǐng)域中不同知識點(diǎn)間層次關(guān)系的描述能力,文獻(xiàn)[77]提出了能夠表征和利用知識點(diǎn)拓?fù)浣Y(jié)構(gòu)關(guān)系的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。文獻(xiàn)[73]則引入題目絕對難度特征來改進(jìn)標(biāo)準(zhǔn)的BKT 模型。
上述研究工作表明將學(xué)生方面的多種因素或題目方面的多種因素融合到標(biāo)準(zhǔn)BKT 模型中均可有效提升模型的預(yù)測準(zhǔn)確率。鑒于此,有學(xué)者同時(shí)利用學(xué)生方面和題目方面的多種因素對標(biāo)準(zhǔn)BKT 模型進(jìn)行擴(kuò)展。例如,文獻(xiàn)[79]提出一個(gè)BKT改進(jìn)模型Fast,允許將學(xué)生方面和題目方面的一般特征集成到該模型中。又如,文獻(xiàn)[83]利用教學(xué)系統(tǒng)中課程章節(jié)學(xué)習(xí)視頻之間的結(jié)構(gòu)信息設(shè)計(jì)了兩種知識跟蹤方法:Multi-Grained-BKT 和Historical-BKT。其中,前者考慮了粗粒度知識點(diǎn)(例如Python 數(shù)據(jù)類型)和細(xì)粒度知識點(diǎn)(例如字符串、List 列表)之間的關(guān)聯(lián)結(jié)構(gòu)關(guān)系,后者則設(shè)定學(xué)生猜測答對和失誤答錯(cuò)的概率都取決于其上一次的答題結(jié)果,即如果上一次答題是正確的,則此次答題猜測答對的概率越大而失誤概率越小。
除了引入學(xué)生和題目方面的影響因素,還有學(xué)者或?qū)⑵渌碚摶蚣夹g(shù)與標(biāo)準(zhǔn)BKT 模型相結(jié)合,或考慮將其他方面的特征融入到標(biāo)準(zhǔn)BKT 模型中,以提升BKT 模型對題目相對難度信息的預(yù)測性能。例如,文獻(xiàn)[76]將潛在因子模型和BKT 模型相結(jié)合。文獻(xiàn)[78]則將BKT 模型和項(xiàng)目反應(yīng)理論模型(即IRM)進(jìn)行整合。又如文獻(xiàn)[85]考慮不同類型的教學(xué)干預(yù)會(huì)對學(xué)生的學(xué)生狀態(tài)產(chǎn)生不同的影響。文獻(xiàn)[87]則將時(shí)差信息集成到BKT 模型中。
(1)DKT 模型及其擴(kuò)展模型
BKT 模型一方面需要領(lǐng)域?qū)<沂孪榷x知識點(diǎn)因此引入了一定的主觀性,另一方面假設(shè)學(xué)生對知識點(diǎn)的掌握程度為掌握或未掌握的二元狀態(tài)過于簡化。為了彌補(bǔ)BKT 模型的不足,學(xué)者們開始嘗試?yán)媒陙砹餍械纳疃葘W(xué)習(xí)框架設(shè)計(jì)題目相對難度的預(yù)測模型。文獻(xiàn)[89]首次利用深度神經(jīng)網(wǎng)絡(luò)對學(xué)生學(xué)習(xí)過程進(jìn)行建模,提出了深度知識追蹤模型(deep knowledge tracing,DKT)。
DKT 模型架構(gòu)圖如圖6 所示。其以學(xué)生每一個(gè)時(shí)間步(1,2,…,)的歷史答題數(shù)據(jù)序列{,,…,x}為輸入,并利用LSTM 的隱藏狀態(tài)向量{,,…,h}表征學(xué)生不同時(shí)刻的知識狀態(tài)水平,進(jìn)而預(yù)測學(xué)生在不同時(shí)刻正確回答每一道題的概率{,,…,y}(即題目對于學(xué)生的相對難度)。
圖6 DKT 模型架構(gòu)Fig.6 Architecture of DKT model
由于DKT 模型無法建模學(xué)生對于各個(gè)知識點(diǎn)的掌握程度,且隱藏狀態(tài)向量的可解釋性差,DKT 模型的可解釋性也不強(qiáng)。除了考慮學(xué)生的歷史答題數(shù)據(jù)序列,DKT 模型沒有將影響題目絕對難度的學(xué)生和題目方面的因素(例如學(xué)生的學(xué)習(xí)率、遺忘因素、題目的文本和絕對難度等)引入模型。針對上述不足,學(xué)者們一方面嘗試?yán)庙?xiàng)目反應(yīng)理論和注意力機(jī)制等理論或技術(shù)對DKT 模型可解釋性不強(qiáng)的問題進(jìn)行優(yōu)化,另一方面通過向DKT 模型中融入學(xué)生或題目方面的影響因素對DKT 模型進(jìn)行了改進(jìn)。表5 對DKT 的擴(kuò)展模型進(jìn)行了總結(jié)和對比。下面對代表性的DKT 擴(kuò)展模型進(jìn)行介紹。
表5 DKT 模型的擴(kuò)展模型Table 5 Extended models of DKT model
由于DKT 模型的輸入僅考慮學(xué)生的答題交互序列而忽略了其他學(xué)生方面的特征,部分研究工作考慮加入學(xué)生方面的多種特征以提升DKT 模型評估學(xué)生知識狀態(tài)水平的準(zhǔn)確度。例如,文獻(xiàn)[90]利用特征工程將學(xué)生方面的豐富特征(例如學(xué)生答題次數(shù)、請求提示的次數(shù))作為標(biāo)準(zhǔn)DKT 模型的一部分輸入,提出了一個(gè)新的深度知識追蹤模型,本文將其命名為DKT-FE(deep knowledge tracing of rich features)模型。文獻(xiàn)[100]則考慮導(dǎo)致學(xué)生遺忘行為的兩大類因素:學(xué)生距離上一次答題的時(shí)間和過去對一個(gè)題目的答題次數(shù),通過將學(xué)生遺忘行為有關(guān)的多種特征向量化,然后將向量化后的特征拼接到RNN 模型的輸入和輸出空間。文獻(xiàn)[95]則考慮了不同學(xué)生的學(xué)習(xí)能力的差異性。
此外,一些研究工作考慮加入題目方面的多種特征對DKT 模型進(jìn)行擴(kuò)展以提升評估學(xué)生知識狀態(tài)水平的準(zhǔn)確度。例如,文獻(xiàn)[101]考慮題目所包含知識點(diǎn)之間的相似性關(guān)系,將知識點(diǎn)之間的相似性關(guān)系轉(zhuǎn)化為題目關(guān)系圖,其中節(jié)點(diǎn)表示題目,邊表示兩道題之間存在相似性,并將題目關(guān)系圖向量化后和向量化后的答題序列一起作為模型的輸入。文獻(xiàn)[107]同樣考慮了題目之間的相似性,并提出一種圖拉普拉斯正則化方法作為正則化損失函數(shù)來擴(kuò)充原始的損失函數(shù),從而將題目相似度整合到了DKT 模型中。文獻(xiàn)[96]則將知識點(diǎn)之間的先決關(guān)系整合到DKT 模型中。文獻(xiàn)[99]利用了題目和知識點(diǎn)之間的關(guān)系,將其和學(xué)生答題交互序列一起作為DKT 模型的部分輸入。文獻(xiàn)[109]則同時(shí)將題目方面的知識點(diǎn)、題目語義和題目絕對難度信息和答題序列一起作為DKT 模型的輸入。
部分研究工作在利用題目方面的特征來加強(qiáng)知識跟蹤方法的有效性之外,還將神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制整合到DKT 模型中以期進(jìn)一步提高模型評估學(xué)生知識狀態(tài)水平的準(zhǔn)確率。例如,文獻(xiàn)[94]提出了一個(gè)能夠利用題目的文本信息的深度知識追蹤框架,命名為EERNN(exercise-enhanced recurrent neural network)。EERNN 模型需要獲得完整的題目文本信息以提取題目之間的相關(guān)性,但由于知識產(chǎn)權(quán)和隱私保護(hù)等原因,通常很難獲取到完整的題目文本。為了應(yīng)對該局限性,文獻(xiàn)[108]提出可以基于題目的知識點(diǎn)信息來提取題目之間的相似性繼而提出了一種基于注意力機(jī)制的深層知識追蹤模型。此外,還有文獻(xiàn)或利用異構(gòu)信息網(wǎng)絡(luò)或基于圖卷積神經(jīng)網(wǎng)絡(luò)來擴(kuò)展DKT 模型。
為同時(shí)利用學(xué)生方面和題目方面的多種特征,文獻(xiàn)[91]使用分類與回歸樹(classification and regression trees,CART)對學(xué)生方面和題目方面的特征(例如答題時(shí)間、題目文本)進(jìn)行特征處理。文獻(xiàn)[93]拓展了文獻(xiàn)[91]的工作,使用其他的分類樹模型進(jìn)行特征處理。
此外,部分研究工作還提出將DKT 模型與BKT模型以及教育心理學(xué)領(lǐng)域中的理論模型(例如項(xiàng)目反應(yīng)模型)進(jìn)行整合。例如,文獻(xiàn)[103]綜合了貝葉斯神經(jīng)網(wǎng)絡(luò)與DKT 模型,不僅可以對學(xué)生與題目的交互行為進(jìn)行建模,還有效地防止過擬合,提高了模型的泛化能力。文獻(xiàn)[110]則將多維項(xiàng)目反應(yīng)理論的參數(shù)集成到一個(gè)改進(jìn)的RNN 模型中。
DKT 的擴(kuò)展模型除了上述提及的考慮學(xué)生方面、題目方面或者同時(shí)考慮上述兩方面的豐富特征外,還有部分研究工作或?qū)KT 模型的損失函數(shù)進(jìn)行優(yōu)化,或利用機(jī)器學(xué)習(xí)技術(shù)對DKT 進(jìn)行擴(kuò)展。例如,文獻(xiàn)[97]利用數(shù)據(jù)可視化技術(shù)發(fā)現(xiàn)DKT 模型存在的兩個(gè)問題:第一是DKT 模型無法重構(gòu)輸入信息(即學(xué)生在某道題上回答錯(cuò)誤,與該題相關(guān)的知識點(diǎn)的掌握程度卻在上升);第二是DKT 模型所預(yù)測的學(xué)生對知識點(diǎn)的掌握程度并不是隨著時(shí)間的推移逐漸過渡變化的。因此,作者提出了DKT+模型用于解決上述問題,定義了“重構(gòu)錯(cuò)誤”(reconstruction error)和“波動(dòng)準(zhǔn)則”(waviness measures)作為正則化損失函數(shù)來擴(kuò)充原始的DKT 模型中的損失函數(shù)。文獻(xiàn)[98]則將題目與知識點(diǎn)之間的關(guān)系看作一個(gè)二元嵌入矩陣,提出了一個(gè)用于學(xué)習(xí)該矩陣的模型,然后將學(xué)習(xí)到的嵌入矩陣應(yīng)用于DKT 模型的輸入空間中,并對模型的損失函數(shù)進(jìn)行了改進(jìn)。DKT 的擴(kuò)展模型還有很多,在此不一一贅述,感興趣的讀者可參看表5 給出的信息。
(2)DKVMN 模型及其擴(kuò)展模型
DKT 模型將學(xué)生對所有知識點(diǎn)的掌握程度都?xì)w納為一個(gè)隱藏狀態(tài),導(dǎo)致DKT無法輸出學(xué)生對于具體知識點(diǎn)的掌握程度情況,因而模型的可解釋性較差。鑒于此,文獻(xiàn)[111]利用記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)(memoryaugmented neural networks,MANN)的思想提出了動(dòng)態(tài)鍵值記憶網(wǎng)絡(luò)(dynamic key-value memory networks,DKVMN)模型。
表6 DKVMN 模型的擴(kuò)展模型Table 6 Extended models of DKVMN model
圖7 DKVMN 模型架構(gòu)Fig.7 Architecture of DKVMN model
部分學(xué)者提出可以將更多能捕獲的學(xué)生方面的特征加入標(biāo)準(zhǔn)的DKVMN 模型對其進(jìn)行擴(kuò)展,以期提高預(yù)測準(zhǔn)確率。例如,以DKVMN 模型的基本框架作為出發(fā)點(diǎn),文獻(xiàn)[113]將學(xué)生申請答題提示的行為數(shù)據(jù)也作為模型輸入的一部分,并將預(yù)測學(xué)生在接下來的答題階段是否申請答題提示作為知識追蹤的子任務(wù),從而提出了一個(gè)多任務(wù)知識追蹤模型。又如,文獻(xiàn)[118]將學(xué)生豐富的答題行為特征(例如學(xué)生回答某道題的嘗試次數(shù)、學(xué)生答題的響應(yīng)時(shí)間)和學(xué)生答題交互序列一起作為模型的輸入。文獻(xiàn)[40]則考慮了影響學(xué)生知識遺忘問題的四個(gè)因素:學(xué)生重復(fù)學(xué)習(xí)知識點(diǎn)的間隔時(shí)間、重復(fù)學(xué)習(xí)知識點(diǎn)的次數(shù)、順序?qū)W習(xí)的間隔時(shí)間以及學(xué)生對知識點(diǎn)的掌握程度。
部分學(xué)者提出可以同時(shí)利用學(xué)生方面和題目方面的豐富特征優(yōu)化DKVMN 模型。例如,文獻(xiàn)[117]一方面將題目絕對難度信息、學(xué)生所處的學(xué)習(xí)階段(例如預(yù)習(xí)階段、上課階段、家庭作業(yè)階段)和答題時(shí)間信息作為模型的輸入,另一方面引入題目與其涉及的知識點(diǎn)之間的關(guān)系權(quán)重。
此外,不少學(xué)者將DKVMN 模型與各種模型進(jìn)行結(jié)合。例如,針對DKT 模型可解釋性差的問題,文獻(xiàn)[119]綜合具有一定可解釋性的DKVMN 模型和可解釋性較強(qiáng)的IRT 模型提出了一種新穎的深度知識追蹤模型Deep-IRT。Deep-IRT 模型使用DKVMN 模型對學(xué)生和題目間的交互進(jìn)行建模,從而得到題目絕對難度值和學(xué)生的能力值,隨后輸入IRT 模型以估計(jì)題目相對難度。文獻(xiàn)[115]在DKVMN 模型和DKTDSC 模型(一種改進(jìn)的DKT 模型)的基礎(chǔ)上提出了一個(gè)命名為DSCMN 的知識追蹤模型。該模型通過所捕捉的學(xué)生長期學(xué)習(xí)過程中的每個(gè)時(shí)間間隔內(nèi)的學(xué)習(xí)能力信息來優(yōu)化現(xiàn)有的知識追蹤方法。文獻(xiàn)[114]則整合了DKVMN 模型和EERNN 模型(一種改進(jìn)的DKT 模型)提出了知識追蹤模型EKT。該模型使用雙向LSTM 提取題目文本的語義特征,并將該特征與學(xué)生答題交互序列組合作為模型的輸入。文獻(xiàn)[116]則綜合了DKT 模型的循環(huán)建模能力和DKVMN 的記憶能力,提出了新的深度知識追蹤模型。在意識到對于給定的一道題并非所有的學(xué)生答題數(shù)據(jù)都有助于預(yù)測該題的相對難度,文獻(xiàn)[116]因此通過在DKVMN模型中引入一個(gè)Hop-LSTM 模型,從而使得新模型能夠跳過答題序列中與目標(biāo)題目不相關(guān)的題目,繼而獲得更高效、準(zhǔn)確的模型預(yù)測性能。
(3)基于Transformers的模型
部分學(xué)者將自然語言處理領(lǐng)域的Transformers 模型應(yīng)用在知識追蹤領(lǐng)域。文獻(xiàn)[121]首次基于Transformers模型的簡化版對學(xué)生答題交互序列進(jìn)行建模,繼而提出了一種完全基于注意力機(jī)制的知識追蹤模型SAKT(self-attentive knowledge tracing)。SAKT 模型的架構(gòu)圖如圖8 所示。圖中,SAKT 模型首先對輸入的學(xué)生答題歷史交互序列{,,…,x}進(jìn)行嵌入編碼;然后利用位置編碼機(jī)制對序列的位置進(jìn)行編碼;其后的多頭注意力機(jī)制旨在確定學(xué)生當(dāng)前作答題目與其歷史作答題目之間的相關(guān)性;在經(jīng)過一個(gè)前饋神經(jīng)網(wǎng)絡(luò)后,模型的預(yù)測層使用全連接網(wǎng)絡(luò)來預(yù)測題目對于學(xué)生的相對難度值。
圖8 SAKT 模型架構(gòu)Fig.8 Architecture of SAKT model
SAKT 模型被提出之后,文獻(xiàn)[122]提出分別使用不同的多頭注意力機(jī)制層對學(xué)生答題交互序列中的題目序列和答題結(jié)果序列分別進(jìn)行處理,并將處理得到的結(jié)果作為另一個(gè)多頭注意力機(jī)制層的輸入,以期更好地捕獲題目和答題結(jié)果間的復(fù)雜關(guān)系。文獻(xiàn)[123]則改進(jìn)了Transformers 模型的結(jié)構(gòu),使得改進(jìn)后的模型(本文將其命名為DKTT 模型)不但能夠自動(dòng)識別題目涉及的知識點(diǎn),還可以處理學(xué)生答題交互序列的時(shí)間戳。表7 總結(jié)了各個(gè)基于Transformers的知識追蹤模型的優(yōu)點(diǎn)和局限性。
表7 基于Transformers的知識追蹤模型總結(jié)Table 7 Summary of knowledge tracking models based on Transformers
(4)其他的深度學(xué)習(xí)模型
除了運(yùn)用LSTM、RNN、MANN 和Transformers模型對學(xué)生的答題交互序列進(jìn)行建模,部分學(xué)者還嘗試運(yùn)用深度學(xué)習(xí)中的其他模型建模學(xué)生的答題交互序列。例如,文獻(xiàn)[124]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的知識跟蹤模型GKT(如圖9 所示),通過將題目知識點(diǎn)間的關(guān)系轉(zhuǎn)換為圖,進(jìn)而將題目相對難度預(yù)測任務(wù)轉(zhuǎn)化為圖神經(jīng)網(wǎng)絡(luò)中的隨時(shí)間變化的節(jié)點(diǎn)分類任務(wù)。文獻(xiàn)[125]考慮了學(xué)生的個(gè)性化特性(如不同學(xué)生具有不同的先驗(yàn)知識和學(xué)習(xí)率),并利用卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)題目相對難度的預(yù)測,其模型框架CKT如圖10 所示。還有學(xué)者提出了基于其他深度學(xué)習(xí)框架的題目相對難度預(yù)測模型,涉及聯(lián)邦學(xué)習(xí)、可微神經(jīng)計(jì)算機(jī)和推薦領(lǐng)域中的DeepFM模型。
圖9 GKT 模型架構(gòu)Fig.9 Architecture of GKT model
圖10 CKT 模型架構(gòu)Fig.10 Architecture of CKT model
(5)基于深度學(xué)習(xí)的知識追蹤模型的對比
深度知識追蹤模型是當(dāng)下題目相對難度評估領(lǐng)域的研究熱點(diǎn),因此本小節(jié)首先分析對比了當(dāng)下典型的深度知識追蹤模型,包括DKT、DKVMN、SAKT、GKT和CKT,詳見表8 所示。
表8 DKT、DKVMN、SAKT、GKT 和CKT 模型對比Table 8 Comparison of DKT,DKVMN,SAKT,GKT and CKT model
為了幫助讀者加深對已有深度知識追蹤模型的理解,現(xiàn)對目前代碼已開源的DKT、DKVMN、GKT和CKT 模型進(jìn)行實(shí)驗(yàn)比較和分析。雖然提出這幾個(gè)模型的文獻(xiàn)都給出了各自模型基于ASSISTments2009(https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data/skill-builder-data-2009-2010)這個(gè)公開數(shù)據(jù)集得到的實(shí)驗(yàn)數(shù)據(jù)。然而,這些文獻(xiàn)中給出的實(shí)驗(yàn)數(shù)據(jù)仍不能作為橫向比較這些模型的依據(jù),原因如下:(1)不同文獻(xiàn)所使用的ASSISTments2009數(shù)據(jù)集版本可能存在差異,因?yàn)锳SSISTments2009 數(shù)據(jù)集版本曾被多次更新。(2)即使所采用的ASSISTments2009 數(shù)據(jù)集的版本相同,不同文獻(xiàn)對數(shù)據(jù)集的預(yù)處理方法也不相同(例如提出DKVMN 模型的文獻(xiàn)[111]與提出GKT 模型的文獻(xiàn)[124]中的數(shù)據(jù)預(yù)處理方法不相同)。(3)即使數(shù)據(jù)集的預(yù)處理結(jié)果相同,部分文獻(xiàn)在比較現(xiàn)有模型時(shí)所設(shè)置的現(xiàn)有模型的參數(shù)并非其最優(yōu)設(shè)置(例如DKVMN 模型的來源文獻(xiàn)[111]和CKT 模型的來源文獻(xiàn)[125]中雖然數(shù)據(jù)預(yù)處理后得到的數(shù)據(jù)一樣,但前者的實(shí)驗(yàn)結(jié)論是DKVMN比DKT 優(yōu)異,后者的實(shí)驗(yàn)結(jié)論卻是DKT 比DKVMN優(yōu)異,由此可推斷上述兩篇文獻(xiàn)并未同時(shí)使用各個(gè)模型的最優(yōu)參數(shù)進(jìn)行實(shí)驗(yàn))。鑒于此,本文基于能滿足所有待比較模型數(shù)據(jù)需求的ASSISTments2009 數(shù)據(jù)集,統(tǒng)一使用文獻(xiàn)[131]給出的數(shù)據(jù)集預(yù)處理方法,并在模型參數(shù)設(shè)置方面遵循提出各個(gè)模型的文獻(xiàn)中推薦的參數(shù)設(shè)置,橫向比較了DKT、DKVMN、GKT和CKT 這四種深度知識追蹤模型完成題目相對難度評估任務(wù)的AUC 值(area under curve,AUC)和模型的訓(xùn)練時(shí)間。實(shí)驗(yàn)中將模型訓(xùn)練階段的參數(shù)epoch 和batch_size 分別設(shè)置為100 和32。實(shí)驗(yàn)所用的硬件環(huán)境為8核CPU,64 GB內(nèi)存,1.5 TB硬盤;軟件環(huán)境為64位Ubuntu 20.04 操作系統(tǒng),模型實(shí)現(xiàn)語言為Python 3。此外,ASSISTments2009 數(shù)據(jù)集預(yù)處理后所得到的數(shù)據(jù)集的基本情況如下:學(xué)生數(shù)量為3 841,知識點(diǎn)數(shù)量為123,學(xué)生答題記錄數(shù)目為283 103。
表9 給出了ASSISTments2009 數(shù)據(jù)集上各個(gè)模型的AUC 值和模型的訓(xùn)練時(shí)間。觀察表9 可得到如下結(jié)論:
(1)DKVMN 模型和CKT 模型的題目相對難度評估準(zhǔn)確性優(yōu)于DKT 模型。作為首個(gè)被提出的深度知識追蹤模型,DKT 模型用一個(gè)維度固定的隱藏向量表示學(xué)生對任意多個(gè)知識點(diǎn)的掌握程度,因此隱藏向量的表達(dá)能力受限,導(dǎo)致DKT 模型的評估準(zhǔn)確性低于DKVMN 模型和CKT 模型。與DKT 模型不同,DKVMN 模型為每個(gè)潛在知識點(diǎn)單獨(dú)定義了一個(gè)狀態(tài)向量,獲得了較大的外部存儲(chǔ)能力,不但增強(qiáng)了模型的可解釋性,還有效提高了模型的評估準(zhǔn)確性。表9 還展示出CKT 模型略優(yōu)于DKVMN 模型,得益于其在建模時(shí)考慮了學(xué)生個(gè)性化的先驗(yàn)知識和學(xué)習(xí)率。此外,基于CNN 構(gòu)建的CKT 模型在實(shí)驗(yàn)中取得了最優(yōu)的評估性能也說明了CNN 模型適用于對知識追蹤問題進(jìn)行建模。
表9 重要深度知識追蹤模型實(shí)驗(yàn)對比Table 9 Experimental comparison of important deep knowledge tracking models
(2)ASSISTments2009 數(shù)據(jù)集上GKT 模型的題目相對難度評估準(zhǔn)確性最低。這是因?yàn)镚KT 模型的預(yù)測精度受學(xué)生歷史答題交互序列長度的影響:序列長度較長時(shí)(GKT 模型原文實(shí)驗(yàn)使用的數(shù)據(jù)集的序列長度限制為不小于10),其模型預(yù)測性能優(yōu)于DKVMN 模型;而當(dāng)序列長度較短時(shí)(本文實(shí)驗(yàn)使用的數(shù)據(jù)集的序列長度限制只為不小于3),其模型預(yù)測性能則顯著低于DKVMN 模型??梢?,GKT 模型對學(xué)生歷史答題交互序列較長的數(shù)據(jù)集更為友好,更能發(fā)揮其優(yōu)越性。
(3)CKT 模型的模型訓(xùn)練時(shí)間最短,GKT 模型的訓(xùn)練時(shí)間最長。這是因?yàn)镃KT 模型使用CNN 模型對學(xué)生答題交互序列進(jìn)行建模,所以與其他模型相比需要最少的模型訓(xùn)練時(shí)間。GKT 模型由于引入了圖結(jié)構(gòu),在追蹤學(xué)生的知識狀態(tài)變化時(shí),需要執(zhí)行基于圖結(jié)構(gòu)的推演計(jì)算,導(dǎo)致其模型的訓(xùn)練時(shí)間顯著高于其他模型。
近十年提出的題目相對難度預(yù)測方法主要利用動(dòng)態(tài)認(rèn)知診斷中貝葉斯網(wǎng)絡(luò)方法和基于深度學(xué)習(xí)方法構(gòu)建,但仍有學(xué)者提出了其他的解決思路。例如,為了對學(xué)習(xí)過程的動(dòng)態(tài)因素進(jìn)行建模,文獻(xiàn)[130]引入時(shí)間維度,將二維空間的矩陣分解擴(kuò)展至三維空間的張量分解從而更好地實(shí)現(xiàn)對題目相對難度信息的預(yù)測。為了考慮時(shí)間因素,文獻(xiàn)[66]將學(xué)生的答題得分記錄表示為學(xué)生得分張量,并將記憶和遺忘曲線綜合到概率矩陣分解模型中提出了KPT(knowledge proficiency tracing)模型。為了解決某些學(xué)生答題數(shù)據(jù)較稀疏的問題,文獻(xiàn)[132]在KPT 模型的基礎(chǔ)上考慮了題目之間的關(guān)系并提出了EKPT(exercisecorrelated knowledge proficiency tracing)模型。文獻(xiàn)[133]則利用回歸模型對題目相對難度進(jìn)行預(yù)測,并利用因子分解機(jī)解決特征組合問題,提出了知識追蹤模型(knowledge tracing machines,KTM)。KTM模型并不考慮學(xué)生答題過程中的時(shí)間因素,屬于靜態(tài)認(rèn)知診斷模型。為此,文獻(xiàn)[15]在KTM 模型的基礎(chǔ)上考慮了學(xué)生隨著時(shí)間變化的學(xué)習(xí)率、遺忘等因素提出了一個(gè)動(dòng)態(tài)的知識追蹤模型。
本節(jié)將收集到的近十年的題目相對難度預(yù)測相關(guān)文獻(xiàn)進(jìn)行整理分析后分為兩類:一類是靜態(tài)認(rèn)知診斷(論文占比約7%);另一類是動(dòng)態(tài)認(rèn)知診斷(論文占比約93%)??梢姡瑒?dòng)態(tài)認(rèn)知診斷相關(guān)的論文更為豐富,可被進(jìn)一步分為基于貝葉斯網(wǎng)絡(luò)方法(論文占比約26%)、基于深度學(xué)習(xí)方法(論文占比約68%)和其他方法的動(dòng)態(tài)認(rèn)知診斷(論文占比約6%)。由統(tǒng)計(jì)的數(shù)據(jù)可知基于深度學(xué)習(xí)的方法是目前題目相對難度預(yù)測的主流方法。
本章對題目難度預(yù)測相關(guān)的數(shù)據(jù)集、題目難度預(yù)測模型常用的評價(jià)指標(biāo)、訓(xùn)練模型所用的題目真實(shí)難度標(biāo)簽來源以及深度題目難度預(yù)測模型中典型的信息提取方法進(jìn)行介紹和總結(jié)。
題目的絕對難度通常是以題目本身的屬性為出發(fā)點(diǎn)實(shí)現(xiàn)評估量化的。不同學(xué)科的題目在題型和內(nèi)容上均有所區(qū)別,導(dǎo)致對不同學(xué)科的題目所提取的特征存在較大差異。鑒于此,題目絕對難度評估方面的研究工作一般都是針對特定學(xué)科的特定題型進(jìn)行討論的。因此是否擁有相應(yīng)學(xué)科和題型的數(shù)據(jù)集以及所擁有的數(shù)據(jù)集是否具備一定規(guī)模決定了研究是否能順利進(jìn)行以及某些模型方法是否能夠得以運(yùn)用。目前,題目絕對難度評估研究領(lǐng)域的相關(guān)文獻(xiàn)所使用的較大規(guī)模的題目數(shù)據(jù)集大都來自大型公司,往往是不開源的。例如文獻(xiàn)[58]所用的英語閱讀理解題數(shù)據(jù)集和文獻(xiàn)[12]所用的數(shù)學(xué)題數(shù)據(jù)集均來自科大訊飛股份有限公司;文獻(xiàn)[2]所用的兩個(gè)數(shù)據(jù)集(分別對應(yīng)帶圖片的數(shù)學(xué)選擇題和醫(yī)學(xué)選擇題)來自視源(CVTE)旗下的希沃(Seewo)公司和希科醫(yī)療(Xicco)公司;文獻(xiàn)[22]所用的醫(yī)學(xué)題數(shù)據(jù)集則由騰訊醫(yī)療AI 實(shí)驗(yàn)室提供。若無法獲得公司提供的數(shù)據(jù)集,學(xué)者們則通過自主開發(fā)的教學(xué)服務(wù)平臺/系統(tǒng)收集數(shù)據(jù)或者在課堂上手動(dòng)收集數(shù)據(jù),但是這些方式所收集到的數(shù)據(jù)集的規(guī)模有限。因此,如何獲取到高質(zhì)量、大規(guī)模、包含題目數(shù)據(jù)以及學(xué)生答題數(shù)據(jù)的數(shù)據(jù)集從而支撐題目絕對難度評估方面的研究仍是一個(gè)需要解決的難題。
對于題目的相對難度評估方法而言,認(rèn)知診斷和知識追蹤都是近年來熱門的題目相對難度預(yù)測方法。標(biāo)準(zhǔn)的認(rèn)知診斷和知識追蹤模型的輸入較為簡單,即學(xué)生的答題交互序列數(shù)據(jù),因此對特定的學(xué)科和題型不具依賴性。另外某些學(xué)者提出利用題目文本信息特征擴(kuò)展標(biāo)準(zhǔn)的模型以提高預(yù)測的準(zhǔn)確率,使得其所需要的數(shù)據(jù)集具有一定的特殊性。
表10 總結(jié)了目前開源的、被用于支撐題目相對難度評估研究工作的學(xué)生交互序列數(shù)據(jù)集。
表10 學(xué)生交互序列公開數(shù)據(jù)集Table 10 Public datasets of student interaction sequences
根據(jù)模型預(yù)測結(jié)果的不同,題目絕對難度預(yù)測模型分為分類模型和回歸模型兩種。如果模型預(yù)測得到的是題目難度的類別(例如可分為簡單、中等和困難三類),則該模型為分類問題。反之,如果題目絕對難度預(yù)測模型得到的是一個(gè)題目難度的預(yù)測值,那么該模型為回歸模型。對于題目絕對難度預(yù)測的分類模型,其常用的評價(jià)指標(biāo)為準(zhǔn)確率(accuracy,ACC),表示模型預(yù)測的分類是正確分類的情況占總樣本數(shù)的百分比,如式(1)所示。題目絕對難度預(yù)測的回歸模型常用的評價(jià)指標(biāo)有均方根誤差(root mean square error,RMSE)和平均絕對誤差(mean absolute error,MAE),兩者都用于表示模型預(yù)測的題目絕對難度值和真實(shí)題目難度值之間的差距,具體計(jì)算公式分別如式(2)和式(3)所示。
其中,表示題目總數(shù),表示模型預(yù)測正確的題目數(shù)量,該評價(jià)指標(biāo)值越高越好。
對于題目相對難度的預(yù)測模型,也常從回歸或者分類的角度對模型的效用進(jìn)行評估。常用的分類評價(jià)指標(biāo)包括AUC(如式(4)所示)和ACC,常用的回歸評價(jià)指標(biāo)則為RMSE 和MAE。
AUC 表示模型預(yù)測的正例排在負(fù)例前面的概率,其中為正例的數(shù)量,為負(fù)例的數(shù)量。
題目真實(shí)難度作為題目難度預(yù)測模型的訓(xùn)練標(biāo)簽,對于訓(xùn)練題目難度預(yù)測模型具有重要作用。經(jīng)統(tǒng)計(jì),如表11 所示,根據(jù)題目真實(shí)難度標(biāo)簽來源的不同可將題目絕對難度預(yù)測模型中的真實(shí)難度標(biāo)簽分為兩大類:專家評估法和基于學(xué)生答題數(shù)據(jù)統(tǒng)計(jì)法。前者需要邀請領(lǐng)域?qū)<遥ㄈ缛握n教師、課程助教等)對題目的絕對難度進(jìn)行評估并給出評估結(jié)果。后者以一定規(guī)模的學(xué)生答題數(shù)據(jù)為輸入并利用統(tǒng)計(jì)學(xué)公式計(jì)算得到題目的真實(shí)難度。常用的統(tǒng)計(jì)學(xué)公式為題目通過率計(jì)算公式和項(xiàng)目反應(yīng)理論涉及的公式。而題目相對難度預(yù)測模型則使用學(xué)生在題目上的真實(shí)答題結(jié)果作為訓(xùn)練標(biāo)簽。
表11 題目真實(shí)難度標(biāo)簽的來源Table 11 Sources of true difficulty lables of questions
為了讓讀者更加了解題目難度預(yù)測的研究思路,現(xiàn)對基于深度學(xué)習(xí)的題目難度預(yù)測模型中典型的信息提取方法進(jìn)行分析和總結(jié)。
題目絕對難度方面,由于題目絕對難度主要基于題目本身的特性得到,近年來,學(xué)者們開始利用神經(jīng)網(wǎng)絡(luò)模型從題目文本中獲取題目絕對難度,該種方法首先利用詞向量模型(如word2vec、BERT)對題目文本進(jìn)行向量化,隨后輸入神經(jīng)網(wǎng)絡(luò)中提取語義信息、邏輯信息等。例如,文獻(xiàn)[12]和文獻(xiàn)[58]均利用word2vec 技術(shù)將題目文本向量化,隨后利用神經(jīng)網(wǎng)絡(luò)(如CNN、LSTM)提取文本中的語義信息或者邏輯信息。使用神經(jīng)網(wǎng)絡(luò)對題目中的信息進(jìn)行提取,無需手動(dòng)定義特征和特征提取,但需要大量的題目文本數(shù)據(jù)和訓(xùn)練標(biāo)簽,因此,該信息提取方法只適用于數(shù)據(jù)量較大的數(shù)據(jù)集。
題目相對難度方面,除了利用學(xué)生的答題交互序列,部分文獻(xiàn)還將題目方面(如題目文本、題目和知識點(diǎn)之間的關(guān)系)和學(xué)生方面(如學(xué)生答題的嘗試次數(shù)、學(xué)生答題的時(shí)間間隔)的豐富信息也作為輸入。題目方面的信息提取方法主要可以分為兩大類:第一類是專家標(biāo)注,例如,文獻(xiàn)[99]中專家手動(dòng)標(biāo)注矩陣,從而得到題目和知識點(diǎn)之間的包含關(guān)系,文獻(xiàn)[96]中專家手動(dòng)標(biāo)注矩陣、知識點(diǎn)間先決依賴關(guān)系的矩陣,文獻(xiàn)[117]中需要專家手動(dòng)標(biāo)注題目絕對難度標(biāo)簽。專家標(biāo)注得到的題目信息準(zhǔn)確率較高,但該方法是勞動(dòng)密集性的,耗時(shí)耗力,只適用于學(xué)生答題交互序列涉及的題目數(shù)據(jù)量較少的場景。另一類則利用機(jī)器學(xué)習(xí)的方法對題目方面的信息進(jìn)行提取。例如,文獻(xiàn)[94]設(shè)計(jì)了一個(gè)雙向的LSTM 模型,從而可以從題目文本中學(xué)習(xí)每個(gè)題目的語義表示,文獻(xiàn)[104]利用異構(gòu)信息網(wǎng)絡(luò)對題目和其屬性之間的復(fù)雜信息進(jìn)行提取,文獻(xiàn)[105]利用圖卷積神經(jīng)網(wǎng)絡(luò)捕捉題目和知識點(diǎn)之間的高級關(guān)系。該類型的信息提取方法能自動(dòng)提取題目方面信息,無需具備專業(yè)知識的人進(jìn)行標(biāo)注,可適用于具有大量數(shù)據(jù)的智能教育線上場景,該類方法除了需要大量的數(shù)據(jù)集以外,不同的神經(jīng)網(wǎng)絡(luò)方法存在差異,例如文獻(xiàn)[104]中使用異構(gòu)信息網(wǎng)絡(luò)提取題目和題目屬性之間的關(guān)系,而異構(gòu)信息網(wǎng)絡(luò)需要依賴適當(dāng)?shù)脑窂剑窂降亩x需要領(lǐng)域知識且具有一定的主觀性。文獻(xiàn)[94]需要數(shù)據(jù)集中包含較為完整的題目文本,而開源的學(xué)生交互數(shù)據(jù)集中鮮少有數(shù)據(jù)集會(huì)提供完整的題目文本。而學(xué)生方面的典型信息提取方式可分為兩大類:第一類依賴于系統(tǒng)的設(shè)計(jì),且占據(jù)了學(xué)生方面相關(guān)的大部分信息(如學(xué)生答題的時(shí)間間隔、學(xué)生獲取答題提示),利用系統(tǒng)獲得的學(xué)生信息準(zhǔn)確直觀且經(jīng)過簡單處理后可直接作為題目相對難度預(yù)測模型的一部分輸入,但該類型的信息獲取需要專業(yè)人員提前進(jìn)行定義,且依賴于開發(fā)人員提前對智能教學(xué)系統(tǒng)進(jìn)行設(shè)計(jì),當(dāng)系統(tǒng)不具備提取特定信息的功能時(shí),無法獲得該類型的學(xué)生信息。第二類學(xué)生方面的信息無法通過系統(tǒng)直接得到,需要綜合系統(tǒng)收集的多種學(xué)生信息。例如文獻(xiàn)[40]中學(xué)生的遺忘行為需要綜合系統(tǒng)收集到的多個(gè)學(xué)生方面的信息(包括學(xué)生距離上次學(xué)習(xí)相同知識點(diǎn)的時(shí)間間隔、距離上次學(xué)習(xí)的時(shí)間間隔、重復(fù)學(xué)習(xí)知識點(diǎn)的次數(shù)和學(xué)生原本對于該知識點(diǎn)的掌握程度)。文獻(xiàn)[100]合并與遺忘相關(guān)的多種類型的學(xué)生信息來考慮遺忘。
題目難度評估是教育領(lǐng)域需要解決的重要問題,近年來學(xué)者們提出了不少題目難度評估的新方法。本文將題目難度評估分為題目絕對難度評估和題目相對難度評估兩部分,并分別進(jìn)行分析總結(jié)。
(1)題目絕對難度評估方面。題目絕對難度評估的主要依據(jù)是題目自身的特性。不同學(xué)科下的題目特性存在差異,導(dǎo)致大部分題目絕對難度的評估方法的泛化能力有限,甚至只能解決面向特定學(xué)科和特定題型的難度評估問題。此外,大部分工作的研究對象集中為題目文本信息較為豐富或者答案唯一的題目,從而便于問題的建模和求解。數(shù)據(jù)集方面,大部分用于評估題目絕對難度評估模型的數(shù)據(jù)集是自主收集的且規(guī)模不大。由于缺少公開的大規(guī)模數(shù)據(jù)集,近十年發(fā)表的基于機(jī)器學(xué)習(xí)的題目絕對難度預(yù)測工作大部分是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法設(shè)計(jì)的。近年來一些學(xué)者和大公司合作,在大公司提供的較大規(guī)模的數(shù)據(jù)集上利用深度學(xué)習(xí)框架成功提升了題目絕對難度的預(yù)測精度。
(2)題目相對難度評估方面。認(rèn)知診斷和知識追蹤都是近年來學(xué)者們用于解決題目相對難度評估的熱點(diǎn)方法。尤其是基于深度學(xué)習(xí)框架設(shè)計(jì)的知識追蹤模型更是成為了題目相對難度評估的主流策略,代表性模型包括DKT 模型、DKVMN 模型和基于Transformers 的知識追蹤模型等。標(biāo)準(zhǔn)的DKT 模型和DKVMN 模型的輸入較為簡單,因此不少學(xué)者利用學(xué)生方面和題目方面的豐富特征來增強(qiáng)這些模型的輸入,從而有效提升了模型預(yù)測的準(zhǔn)確率。此外,部分學(xué)者還嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)中的注意力機(jī)制和教育心理學(xué)的相關(guān)理論來解決深度知識追蹤模型的模型可解釋性不強(qiáng)的問題。支撐題目相對難度研究的公開數(shù)據(jù)集資源較為豐富,部分公開數(shù)據(jù)集的數(shù)據(jù)規(guī)模也比較大,為基于深度學(xué)習(xí)框架的題目相對難度預(yù)測模型的設(shè)計(jì)和評估提供了保障。
雖然題目難度評估研究領(lǐng)域近年來有不少研究工作在國內(nèi)外高水平的會(huì)議或期刊上發(fā)表,但該研究領(lǐng)域仍存在以下問題亟待解決。
(1)缺乏支撐題目絕對難度評估研究的公開數(shù)據(jù)集(尤其是大規(guī)模數(shù)據(jù)集)。由于直接發(fā)布題目信息(例如題目題干和選項(xiàng))可能會(huì)增加試題泄露的風(fēng)險(xiǎn),目前鮮有支撐題目絕對難度評估的公開數(shù)據(jù)集(尤其是大規(guī)模的公開數(shù)據(jù)集)。因此亟待研究題目數(shù)據(jù)的安全開源方法,從而更好地支撐基于深度學(xué)習(xí)框架的題目難度預(yù)測模型的設(shè)計(jì)與評估。
(2)題目中提取的信息不夠豐富。目前大部分題目絕對難度的評估方法僅針對題目的文本進(jìn)行語義提取或邏輯提取,而這些題目信息提取策略并不適用于那些文本信息較少的題目,例如編程題和開放式簡答題等。因此,除上述提及的題目信息提取角度之外,如何從更多的題目信息提取角度出發(fā),設(shè)計(jì)面向文本信息較少的題目的信息提取方法也是需要解決的問題。例如英語學(xué)科的語法填空題,該類型的題目更側(cè)重于語法結(jié)構(gòu),因此可考慮提取句子中的語法結(jié)構(gòu)信息。此外,對于具有大量代碼的編程題,可考慮從該類型題目的答案(即代碼)中提取信息,如將代碼轉(zhuǎn)換為抽象語法樹,利用卷積神經(jīng)網(wǎng)絡(luò)等提取樹中提取代碼的邏輯結(jié)構(gòu)信息。
(3)需要應(yīng)用其他深度學(xué)習(xí)框架進(jìn)一步提升題目難度評估的準(zhǔn)確性。不論是在題目絕對難度評估領(lǐng)域還是題目相對難度評估研究領(lǐng)域,近年研究已表明基于深度學(xué)習(xí)框架的模型方法能夠進(jìn)一步提升傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。因此,如何運(yùn)用更多的深度學(xué)習(xí)框架(例如生成對抗網(wǎng)絡(luò)、多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)等)來改進(jìn)教育領(lǐng)域的題目難度評估問題也是亟待研究的重要問題。
(4)沒有充分利用知識點(diǎn)間的先決依賴關(guān)系來提升題目難度評估的準(zhǔn)確性。大量研究工作表明,增加題目難度評估模型的輸入信息種類能進(jìn)一步提高現(xiàn)有模型的評估準(zhǔn)確性。鑒于題目考查的知識點(diǎn)之間往往存在著先決依賴關(guān)系,而現(xiàn)有的題目難度評估模型大都忽略了該信息。例如,數(shù)據(jù)庫的三個(gè)知識點(diǎn)“第一范式”、“第二范式”和“第三范式”之間存在先決依賴關(guān)系,掌握前面兩個(gè)知識點(diǎn)是掌握第三個(gè)知識點(diǎn)的先決條件。那么易知,在題目絕對難度方面,涉及知識點(diǎn)“第三范式”的題目的絕對難度大于涉及知識點(diǎn)“第二范式”和“第一范式”的題目,而該信息可用于求精題目絕對難度的評估結(jié)果。在題目相對難度方面,如果某個(gè)學(xué)生在知識點(diǎn)“第三范式”的相關(guān)題目上表現(xiàn)良好,卻在知識點(diǎn)“第一范式”或者“第二范式”的相關(guān)題目上表現(xiàn)較差,則意味該學(xué)生很可能是猜對了“第三范式”的相關(guān)題目,即該題相對于該學(xué)生的相對難度評估值應(yīng)該進(jìn)行修正。因此,如何利用知識點(diǎn)之間存在的先決依賴信息從而進(jìn)一步提升現(xiàn)有題目難度評估模型的準(zhǔn)確性是需要研究的重要問題。
(5)部分題目相對難度評估模型缺乏教育層面的可解釋性。部分新提出的題目相對難度評估模型(例如基于深度學(xué)習(xí)框架的知識追蹤模型)雖然有效提高了題目難度預(yù)測的準(zhǔn)確性,卻存在模型在教育層面可解釋性不強(qiáng)的問題。因此可以考慮將題目相對難度評估模型的設(shè)計(jì)和各種教育心理學(xué)理論(例如自我決定理論和Bloom 教學(xué)理論)相結(jié)合,從而讓題目相對難度評估過程更符合教育過程的自然規(guī)律和學(xué)生心理發(fā)展規(guī)律,進(jìn)一步提高現(xiàn)有模型的可解釋性。
(6)缺乏基于教學(xué)反饋的題目難度評估方法改進(jìn)策略的研究。題目難度評估往往僅是解決教學(xué)領(lǐng)域具體問題(例如個(gè)性化題目推薦問題和考試組卷問題)的前置條件。因而,如何充分利用題目難度評估方法所量化的題目難度信息來改進(jìn)教學(xué)過程并基于教學(xué)過程的反饋信息來針對性地進(jìn)一步改進(jìn)現(xiàn)有題目難度評估方法也是值得實(shí)踐和研究的問題。