佟 威 汪 飛 劉 淇 陳恩紅
(中國科學技術大學計算機學院 合肥 230027)
教育是人才培養(yǎng)的重要途徑,而考試自古以來就是評價教育成果、進行人才選拔的重要方式,在國家經(jīng)濟社會發(fā)展中發(fā)揮著重要的作用.黨和國家高度重視教育工作,提出了加快建設教育現(xiàn)代化、建設教育強國以及辦好人民滿意的教育的總體要求.新時代的教育考試改革要緊密結合當前和今后一個時期國家和社會層面對人才價值的需求和判斷,緊密結合先進的信息技術手段,為新一輪高考改革和政策制定提供更多的體現(xiàn)著中國智慧的中國解決方案.
長久以來,試題難度,特別是高考試題難度,都是教育考試國家題庫建設,甚至全社會重點關注的指標參數(shù),對保障考試安全平穩(wěn)順利實施、服務高校人才選拔、合理引導中學教學都有關鍵影響.如今教育越來越受重視,對教育質(zhì)量的要求逐漸增加,如何高效、準確地評估試題難度自然也成為了一個重要的研究問題.
傳統(tǒng)方法中,試題難度評估大多是由人工進行[1].通??荚嚨拿}人員和審校人員由具有充足專業(yè)知識和豐富教學經(jīng)驗的老師或?qū)<覔危谠O計試題時除了考慮涵蓋的必備知識和關鍵能力等內(nèi)容相關的屬性和維度,也需要控制試題難度在合理范圍,命題和審校人員以自身知識和經(jīng)驗評估試題難度.另外也有以試測的形式請部分樣本學生試做樣題,根據(jù)學生實際答題情況評估試題難度,之后對樣題稍作更改和重組投入使用,例如TOEFL考試和SAT(scholastic assessment test)考試題等[1].
在教育數(shù)據(jù)挖掘領域,試題評估是一個重要的研究方向,現(xiàn)有方法已經(jīng)對試題多種參數(shù)(如難度、區(qū)分度、猜測度等)進行了評估分析[2-3].其中應用最為廣泛的是來自教育心理學的認知診斷理論.認知診斷通過利用學生答題記錄對學生試題得分進行建模,從而評估試題參數(shù)和學生能力.常見的認知診斷模型包括基于項目反映理論(item response theory,IRT)[4]的潛在特質(zhì)模型和以DINA(deterministic inputs, noisy “and” gate)模型[5]為代表的潛在分類模型等.其中IRT通過類邏輯斯蒂回歸模型,結合學生的潛在能力,可以評估試題在難度、區(qū)分度和猜測度屬性上的數(shù)值;而DINA進一步結合Q矩陣(或稱“試題關聯(lián)知識點矩陣”),且將學生能力描述成多維知識點掌握向量,建模學生得分,可以得到試題失誤率、猜測率等參數(shù).其中Q矩陣是人工標注的用以表示試題包含知識點的矩陣.表1是一個簡單的Q矩陣示例,其中每一行代表一個試題,每一列代表一個知識點.如表1第1行表示試題q1包含知識點s1和s4,但不包含知識點s2和s3.Q矩陣的完備性將影響到建模結果的準確性,然而Q矩陣通常由人工提供,因此其完備性也常常難以保證.另外,也有學者通過特征工程的方式,提取試題諸如考察點、迷惑性、復雜性等特征后利用機器學習方法(如線性回歸、神經(jīng)網(wǎng)絡等)實現(xiàn)難度預測[1,6].
Table 1 Example of Item Associated Q-matrix表1 試題關聯(lián)知識點Q矩陣示例
然而,不論是傳統(tǒng)的人工評估,還是現(xiàn)有的認知診斷或機器學習建模,在國家教育日益深化改革的背景下,應對試題難度預測這個問題上,都有各自的局限性,具體體現(xiàn)在3個方面:
1) 人力、時間消耗大.人工的試題難度評估較為耗時耗力,而入庫試題資源量龐大,且某些學科試題更迭頻繁,這些都使得純?nèi)斯さ脑囶}難度預測變得不切實際.且認知診斷中的Q矩陣也由人工標注,同樣需要消耗較多的人力與時間.
2) 對先驗知識的依賴.人工的試題難度評估結果除試題本身外,很大程度上依賴于評估者自身的水平和對試題的認知程度;同樣,認知診斷模型通常也需要預先提供試題的Q矩陣.這些都使得評估或預測結果客觀性或準確性不足.
3) 特征工程中人工定義的特征較為缺少試題語義,是試題的淺層表示.且部分特征(如試題復雜性、靈活性、干擾性等)的判定仍然需要人工進行,非客觀性和界限模糊等問題同樣存在.
我國國家考試具有高利害性、社會關注度極高等特點,很難通過考前試測等方式提前獲取試題難度參數(shù),目前仍然按照傳統(tǒng)的試題難度評估方式,由人工進行[1].隨著大數(shù)據(jù)、人工智能時代的到來,眾多先進的機器學習、深度學習算法為國家題庫現(xiàn)代化建設和入庫試題的難度參數(shù)估計賦予了更多方法和途徑.基于人工智能的試題難度預測以往年產(chǎn)生的大量數(shù)據(jù)作為訓練樣本,能夠有效解決試題安全保密要求和試測曝光兩者之間的矛盾,有效調(diào)整傳統(tǒng)人工估計難度中存在的偏差和波動.要實現(xiàn)高效、準確的試題難度評估,需要解決3個挑戰(zhàn):
1) 如何從包含復雜語義的試題文本出發(fā),挖掘其中可用于難度預測的重要信息.高效的試題難度預測自動化方法應盡量避免知識點標注等人工勞動,因此要求模型具有較強的文本信息挖掘能力.
2) 如何減少人工干預,使得評價結果更加客觀.諸如試題知識點標注或經(jīng)驗性的特征設計等都難以避免地引入個人傾向,使得結果客觀性難以保證.
3) 如何克服不同考生群體在不同試卷版本中作答數(shù)據(jù)的比較.這些數(shù)據(jù)得到的試題得分率往往具有樣本依賴性,實際難度差異很大的試題從數(shù)據(jù)呈現(xiàn)的結果來看可能非常接近,反之亦然.如果不能克服這個問題,預估結果會出現(xiàn)很大誤差.
各項考試,特別是國家考試,都在一定程度上存在此類問題.本文從數(shù)學試題難度預測著手,提出了針對數(shù)學試題的模型C-MIDP(CNN for mathematical item difficulty prediction),R-MIDP(RNN for mathe-matical item difficulty prediction)和H-MIDP(hybrid model for mathematical item difficulty prediction),利用試題文本和學生答題記錄進行難度預測.3種模型均為神經(jīng)網(wǎng)絡結構,其中C-MIDP以CNN(convolutional neural network)為基礎,R-MIDP以RNN(recurrent neural network)為基礎,H-MIDP則為二者的混合模型.難度的預測分為3步:1)使用word2vec詞向量對訓練集的試題文本進行表征,作為模型輸入.以word2vec詞向量構建的試題表征,可以較好地保留試題語義,使得神經(jīng)網(wǎng)絡能夠基于試題文本自身挖掘出重要信息,同時保證客觀性.2)從答題記錄中獲取各場考試中試題的得分率,考慮得分率的適用范圍,設計context相關的方式進行模型訓練,將“以偏概全”變?yōu)椤耙孕∫姶蟆?3)將需要預測難度的試題文本進行表征,輸入到訓練好的模型中,獲得難度預測值.本文的主要貢獻點有3個方面:
1) 提出針對數(shù)學試題的難度預測模型,實現(xiàn)高效的數(shù)學試題難度預測,并在真實數(shù)據(jù)集上取得了較好的實驗結果;
2) 模型是數(shù)據(jù)驅(qū)動的,訓練和預測都不需要人工提供關于試題的先驗知識,提高了預測結果的客觀性,且因減少了人工參與因而提高了預測效率;
3) 考慮到不同考試中學生群體能力的差異性,訓練時采用的是context相關的訓練方式,提高了預測的準確率.
本節(jié)將從難度預測和文本建模2個方面介紹相關工作.
傳統(tǒng)教育中,難度評估大多是人工進行的.教育者利用自己的知識儲備和教學經(jīng)驗評估試題難度,以設計或選擇合適的試題,評估的結果通常隨評估者知識、經(jīng)驗的差異出現(xiàn)不同.
在教育學領域中,有學者研究影響試題難度的具體因素,如Beck等人[7]認為試題特征和學生能力都是試題難度的影響因素.在試題方面,Kubinger等人[8]指出試題類型、試題結構以及知識深度等因素都與試題難度有關;而在學生能力方面,也有許多理論和模型被提出,其中認知診斷是重要的研究方向,其目標是利用試題和學生的答題記錄,對學生的學習過程進行建模,挖掘?qū)W生對知識或技能的掌握程度.
在教育數(shù)據(jù)挖掘領域,認知診斷是一類重要的研究方向,其目標是利用試題和學生的答題記錄,對學生的學習過程進行建模,挖掘?qū)W生對知識或技能的掌握程度,從而通過能力分析、試題推薦、學生分組等方式優(yōu)化學生的學習過程[9-10].認知診斷模型根據(jù)不同的分類方式可分為離散模型和連續(xù)模型,或分為一維技能模型和多維技能模型.常見認知診斷模型包括基于項目反應理論(item response theory, IRT)的模型、DINA模型和它們的改進模型[1,4,11-13]等,模型中通常會考慮試題的難度、區(qū)分度、失誤可能性、猜對可能性等因素[11,14],有些研究中還會融合教育學理論,如學習曲線和遺忘曲線[15]等.盡管這些模型考慮了試題難度等因素,但通常作為參數(shù),或是通過已知的Q矩陣計算,因而需要人為提供較多的先驗知識.
有學者將傳統(tǒng)機器學習結合特征工程的方法運用到試題難度預測中.文獻[1]中作者定義了試題考察的能力、知識點重要程度、試題迷惑性、復雜性、靈活性等特征,將這些特征值作為神經(jīng)網(wǎng)絡的輸入,預測試題難度.盡管這些人工定義的特征能夠反映試題的一些重要信息,但是基于經(jīng)驗人工篩選出的試題表征,對試題語義沒有加以利用.且部分此類特征值的確定并非是可統(tǒng)計的,而是由經(jīng)驗判斷的,其客觀性和準確性難以保證.
以上工作具有相同的局限性:即都需要較多的人為干預,如提供先驗知識或教學經(jīng)驗和勞動力.而本文所提出的模型是數(shù)據(jù)驅(qū)動的,所需要的只是試題文本和答題記錄,從而避免上述問題.
目前已有學者進行了針對英語試題的難度預測工作[16],受其啟發(fā),本文提出了針對數(shù)學試題的難度預測模型.
本文提出的模型針對試題的純文本輸入,且不需要提供試題的諸如知識點等先驗信息,因此對模型的文本建模與信息提取能力要求較高.
隨著大數(shù)據(jù)時代的到來,文本數(shù)據(jù)挖掘現(xiàn)已廣泛運用于互聯(lián)網(wǎng)[17]、教育[18]、醫(yī)療[19]、媒體[20]等領域,涉及的技術包括文本聚類、文本分類[21]、情感分析[22]、文本推薦[23]等.與之相關的自然語言處理(natural language process, NLP)也在文本處理、自然語言理解、人機交互等領域具有重要意義.Mikolov等人[24-25]提出word2vec和doc2vec,盡管作為語言模型訓練的副產(chǎn)物,但由于其維度低和保持部分語義特征等優(yōu)點,被大量運用到文本建模的數(shù)據(jù)表征中,使得許多模型的效果得以提升.
在模型方面,過去文本數(shù)據(jù)挖掘方法通常需要分析文本的詞法、語法、語義特征,人為地構造一些具體的結構.近年來,深度學習的興起使得文本數(shù)據(jù)挖掘有了新的探索路徑,CNN[26]和RNN[27]對文本類數(shù)據(jù)具有較好的擬合能力,避免了對詞法、語法等先驗知識的要求.相關工作如情感識別[28]、文本蘊含[29]、機器理解[30]等.
多層CNN神經(jīng)網(wǎng)絡可從詞、短語、句子等不同層次挖掘文本信息;RNN則適合挖掘長程的邏輯關系.因此2種模型都可用于試題難度預測的建模當中.基于此,本文提出了基于CNN的難度預測模型C-MIDP和基于RNN的難度預測模型R-MIDP,并且考慮到CNN和RNN各自的優(yōu)缺點,將CNN和RNN結合,提出H-MIDP,進一步提高預測的準確率.
本節(jié)中將給出問題的形式化定義,介紹模型的整體框架,具體介紹3種不同的難度預測模型.
模型訓練所需要的數(shù)據(jù)為真實的數(shù)學考試試題及答題記錄,考試為正式的統(tǒng)一測評(如期中考試、期末考試、月考等),試題為常規(guī)考試題型(如選擇、填空或簡答題).表2為1道數(shù)學試題文本數(shù)據(jù)示例,數(shù)據(jù)包括試題ID、題面、答案和解析.表3為答題記錄結構示例,1條記錄代表1個學生在1場考試中某道題的得分,將具有相同試卷ID、學校ID和考試日期的答題記錄集合定義為同一場考試Ti記錄集合.
對于考試、試題、得分率等概念的形式化定義及本文應對的問題定義如下:
(1)
Table 2 Example of Mathematical Item表2 數(shù)學試題示例
Table 3 Example of Answer Log表3 答題記錄示例
定義1.給定數(shù)學試題集合Q和數(shù)學考試記錄集合T,其中Q包含每道試題的文本,T包含每場考試的試題和對應的得分率,目標是對數(shù)學試題建模,使得通過輸入試題特征到模型中可以得到試題的難度預測值.
表4給出了問題涉及到的符號和對應的描述:
Table 4 Related Symbols and Explanations表4 試題難度預測問題涉及的符號及解釋
本節(jié)介紹本文提出的數(shù)學試題難度預測模型的整體框架,整體流程如圖1,分成2個階段:訓練階段和預測階段.在訓練階段,根據(jù)將答題記錄中的試題文本進行表征后得到訓練特征,作為模型訓練的輸入,并從答題記錄獲取每一場考試中各道試題的得分率作為試題難度的標簽,考慮不同考試中試題得分率的不可比性,訓練時采用context相關的成對試題目標函數(shù);在預測階段,將待預測試題的文本經(jīng)同樣的表征方式得到預測特征,將其輸入訓練得到的模型,獲得難度的預測值.模型分3部分介紹:
1) 模型結構.C-MIDP,R-MIDP,H-MIDP這3個模型均為神經(jīng)網(wǎng)絡模型,其中C-MIDP以CNN網(wǎng)絡為基礎,R-MIDP以RNN網(wǎng)絡為基礎,H-MIDP為前兩者的融合.
2) 模型訓練.訓練時以試題文本的詞向量特征作為輸入,試題得分率作為標簽.考慮到不同考試中不同學生群體的得分率具有一定的不可比性,本模型采用context相關(context-dependent)的方式,將同一場考試中成對試題預測難度的差值與實際差值比較,計算目標函數(shù)值.
3) 預測.試題難度預測是context無關的,將預處理過的試題特征作為輸入,得到試題的絕對難度.
Fig. 1 Model framework圖1 模型框架圖
本文提出的3種模型接受試題特征作為輸入,輸出為試題的預測難度.試題特征通過對文本字符的詞向量拼接獲得,具體步驟:
將試題文本轉(zhuǎn)換成向量特征后,輸入模型進行語義理解.圖2是3種模型的結構圖,其中圖2(a)~(c)分別是C-MIDP模型、R-MIDP模型和H-MIDP模型.
Fig. 2 Model structures圖2 模型結構
2.3.1 C-MIDP模型
試題文本包含較豐富的語義,要使模型能夠不依賴Q矩陣等先驗知識,就必須能夠從文本中挖掘足夠的信息.相關研究表示,局部重要的詞句對于文本理解具有重要的意義[30].例如在理解試題時,我們只需理解其中最重要的知識概念描述(如公式、定義等)即可理解整個試題的語義.因此,本文利用CNN中的卷積-池化從局部到整體的方式挖掘試題文本中的主要信息[30].具體地,本文提出C-MIDP模型,它以CNN為基礎,使用的多層卷積與池化層可以從不同層次學習試題信息.例如C-MIDP可以以試題中的數(shù)字或運算符為基礎擴大范圍,提取由這些數(shù)字或運算符等組成公式信息;再進一步聯(lián)系公式的上下文獲取更大范圍的信息,逐步獲取整個試題的主要信息,這個過程也符合人真實的閱讀習慣.
(2)
(3)
2.3.2 R-MIDP模型
除此之外,文本的序列語義與邏輯信息對于理解試題也非常重要.例如公式中的一個數(shù)字本身可能不包含多少信息,但若與它前面的若干個字符聯(lián)系,可能就表現(xiàn)出重要的語義.基于此,本文提出R-MIDP模型,它以RNN為基礎,利用RNN中的Cell模塊保存歷史信息,學習到試題文本的序列語義或邏輯信息.具體地,R-MIDP模型是一個雙向LSTM的網(wǎng)絡結構,LSTM采用經(jīng)典的3門結構[31-32],在理解試題的過程中,可以從正向和反向2個方向?qū)W習試題語義邏輯,使語義更加完整.
it=σ(Wiiwt+bii+Whiyt-1+bhi),
(4)
ft=σ(Wifwt+bif+Whfyt-1+bhf),
(5)
gt=σ(Wigwt+big+Whgyt-1+bhg),
(6)
ot=σ(Wiowt+bio+Whoyt-1+bho),
(7)
ct=ft*ct-1+it*gt,
(8)
yt=ot*tanh(ct),
(9)
Hrp再經(jīng)過一層全連接層,最終輸出試題難度的預測值Pq.
2.3.3 H-MIDP模型
在通常的有監(jiān)督模型中,常規(guī)的訓練方法是以訓練數(shù)據(jù)的試題表征向量作為輸入,以試題得分率作為標簽,模型的損失函數(shù)(loss function):
(10)
其中,T為整個數(shù)學考試訓練集,Pq和Rq分別為試題q的預測難度和實際得分率.
這種方式在計算試題得分率時常以試題為單位進行,其訓練時其實是不區(qū)分不同學生群體或不同場考試的.但實際上,不同考試中由于學生群體的不同,得分率是具有一定不可比性的.例如假設A校和B校使用同一份試卷進行考試,A校的試題a得分率為0.8,B校的試題b得分率為0.7,不能簡單地認為試題b比試題a更難,因為A校學生的整體水平可能強于B校學生,而實際A校的試題b得分率為0.9,B校的試題a得分率0.6,因而判斷試題a的難于試題b更合理.
由此可知,試題得分率受到學生群體水平差異性的影響.為了能夠消除這種影響,本文認為,當考試學生群體處于相同的context范圍下,通過考試計算的試題得分率才具有可比性.此處,context可以定義為同一個班級、同一所學校、同一場考試等.例如,在同一場考試中,若試題a得分率低于試題b,即可認為a比b難.本文將在實驗部分中具體對此范圍進行實驗說明.
具體地,本文的3種模型采用context相關的訓練方式,模型的損失函數(shù):
(11)
使用這樣的模型損失函數(shù)可以消除不同學生群體的差異性,獲取其中的共性,使得訓練得到的模型能夠預測試題的真實難度(對于所有答題記錄涉及到的學生全體而言的難度,而不是對于其中某場考試的學生群體).
模型訓練完畢,進行試題難度的預測時,將需要預測的試題表征向量輸入訓練得到的模型中(C-MIDP或R-MIDP或H-MIDP),得到的模型輸出值即為試題難度的預測值.在實際應用情境下,如果收集的群體答題數(shù)據(jù)量充足且答題分布均勻,則可以認為模型的輸出值可以預測試題對于該群體的難度值(或得分率).
數(shù)據(jù)來自科大訊飛股份有限公司采集的國內(nèi)多個中學2014—2017年的考試試題和答題記錄,相關統(tǒng)計見表5.
Fig. 4 Scoring rates of 6 schools in a final exam圖4 6所學校在同場期末考試中的得分率
AttributeValueAmount of Schools1314Amount of Tests5185Average Amount of Items per Test18.33Amount of Different Items53027Amount of Logs57457353Amount of Students1035526
對試題文本數(shù)據(jù)預處理后統(tǒng)計每道題的特征長度(即分詞后有效詞項數(shù)目),得到其分布如圖3所示,圖3中橫坐標為特征長度,縱坐標為試題數(shù)量.由統(tǒng)計結果知特征長度大于600的不到總試題數(shù)的0.2%,因此實驗中取特征向量長度N=600,實際少于600的試題用零填充,多于600的試題截取前600個詞項作為試題特征.
Fig. 3 Distribution of item feature length圖3 試題特征長度分布
選取使用某一份試卷不同場考試的答題記錄,繪制不同學校的試題得分率折線圖如圖4所示,可以看到,不同學校在各個試題上的得分率雖有明顯差異,但試題之間的得分率相對差異卻相近.圖4中A校(最上方綠色折線)的試題Q10的得分率為0.3,B校(最下方橙色折線)的試題Q9的得分率為0.22,但不能簡單以此判斷試題Q10的難度低于Q9,因為A校的整體能力強于B校.實際上,A校的試題Q9的得分率為0.4,B校的試題Q10的得分率為0.08,可以看到不論是A校還是B校,試題Q9的得分率高于試題Q10的得分率,因此判斷試題Q9的難度低于Q10更合理.這正驗證了2.4節(jié)中的觀點.
3.2.1 皮爾森相關系數(shù)(Pearson correlation coeffi-cient, PCC)
PCC是教育學常用的評價指標,可以衡量每一場考試中試題實際難度與模型預測難度之間的相關性[33].實驗中PCC具體定義為
(12)
PCC取值在區(qū)間[-1,1],越大的絕對值意味著越高的線性相關性,且PCC>0表示正相關,PCC<0表示負相關.
3.2.2 一致性(degree of agreement, DOA)
DOA可以衡量一場考試中試題對之間難度預測值相對大小的準確性[34].其計算為
(13)
(14)
DOA取值范圍在區(qū)間[0,1],DOA越大表明預測的試題對之間相對難度大小關系越準確.
為驗證本文提出的模型效果,將與4種baseline預測方法進行對比:
1) logistic回歸[35].傳統(tǒng)的線性回歸模型,模型輸入特征為試題的詞袋特征,采用context無關的訓練方式.
2) 支持向量機(SVM)[36].SVM在線性和非線性回歸問題中都比較常見,是機器學習中重要的算法.對比模型采用非線性高斯核,輸入為試題的詞袋特征,并采用context無關的訓練方式.
3) 隨機森林(random forest)[37].隨機森林回歸模型是常用的非線性模型,在許多回歸任務上具有良好的表現(xiàn).模型輸入同樣采用試題的詞袋特征,且采用context無關的訓練方式.
4) 神經(jīng)網(wǎng)絡context無關訓練方式.本文的3種模型結構不變,但訓練方式改為context無關,即采用式(10)作為損失函數(shù),以試題的預測難度與實際得分率的差值平方和作為目標函數(shù).3種模型分別以CNN-I,RNN-I,Hybrid-I指代.
3.4.1 模型對比實驗
本節(jié)將比較C-MIDP,R-MIDP,H-MIDP這3種模型的實驗結果,以及分析與baseline模型實驗結果的對比.此處,C-MIDP,R-MIDP,H-MIDP這3種模型中的context定義為同一場考試范圍,即式(11)中的Tt表示第t場考試.實驗分別取數(shù)據(jù)集中考試數(shù)量的40%,30%,20%,10%作為測試集,同時刪除訓練集中在測試集出現(xiàn)的試題,這些重復試題若在訓練集中得到擬合,將不適合用作模型測試.注意到,考試可能是一個班級單獨的測試,也可能是整個年級統(tǒng)考,或者多所學校聯(lián)考,這里我們采取的劃分方式是:同一所學校同一天使用同一份試卷劃分為一場考試,作為計算試題得分率的context,在此基礎上訓練C-MIDP,R-MIDP,H-MIDP模型.最終得到各個模型在測試集上的 PCC與DOA指標的值如圖5所示.
Fig. 5 Experiment results of three models圖5 3種模型實驗結果
從圖5中實驗結果可知,C-MIDP,R-MIDP,H-MIDP模型都有良好的表現(xiàn),并且可以看到,在測試集比例為40%,30%,20%,10%情況下,H-MIDP的測試指標均高于C-MIDP和R-MIDP.
圖6是本文3種模型與對比模型實驗結果,從圖6中可以看出3項對比信息:
1) 在使用context無關的訓練方式前提下,logistic回歸效果最差,顯然線性回歸不能夠勝任試題難度預測任務;SVM回歸效果較logistic回歸更好;隨機森林回歸在3種非神經(jīng)網(wǎng)絡baseline模型中表現(xiàn)最好;CNN-I,RNN-I,Hybrid-I這3種神經(jīng)網(wǎng)絡模型的實驗結果明顯優(yōu)于前3種非神經(jīng)網(wǎng)絡模型,說明神經(jīng)網(wǎng)絡對此任務的建模能力更強.
2) 比較3種神經(jīng)網(wǎng)絡模型的context相關與context無關2種訓練方式的實驗結果,可以看到,盡管使用context無關訓練方式(CNN-I,RNN-I,Hybrid-I)已經(jīng)獲得良好的實驗結果,但使用context相關訓練方式后,模型效果有了進一步的提升,說明在試題難度預測這個任務當中,context相關的訓練方式更適合.
3) 隨著測試集比例的降低(即訓練數(shù)據(jù)的增加),3種模型的效果均提升.測試集的比例降到10%時,3種神經(jīng)網(wǎng)絡模型的PCC達到0.66以上,DOA達到0.74以上.在實際教育環(huán)境中,數(shù)據(jù)量足夠的情況下,能夠達到良好的預測效果.
3.4.2 context劃分方式對預測結果的影響
本節(jié)將討論不同的context劃分對于試題難度預測結果的影響.這里的context劃分等價于考試的劃分,例如在一場多校聯(lián)考中,可以將一個班級的記錄劃分為一場考試,也可以將一所學校的記錄劃分為一場考試,或者將各個學校的所有記錄共同作為一場考試.本節(jié)針對數(shù)據(jù)采用2種不同的劃分方式:1)將同一所學校同一天使用相同試卷劃分為一個context;2)將使用相同試卷的所有記錄劃分為一個context.依此進行實驗,研究context劃分方式對試題難度預測結果的影響.
圖7是2種劃分方式的在測試集上的PCC和DOA指標的直方圖.可以看到2種劃分方式的實驗結果有明顯差距,第1種劃分方式的實驗結果優(yōu)于第2種劃分方式,說明context的劃分方式對預測結果是有影響的.在本實驗數(shù)據(jù)集上,若將考試的范圍細化到學校層面,可以更好地區(qū)分來自不同學校學生群體的差異性,從而獲得更穩(wěn)定的試題難度.在實際應用中,模型的實際訓練與使用中需根據(jù)測試結果選擇合適的context劃分方式.
本節(jié)選取測試集比例為40%時測試集中的1場考試試題,使用C-MIDP,R-MIDP,H-MIDP模型進行難度預測,比較預測結果,以說明本文的3種模型的有效性.圖8是各模型預測結果折線圖,其中實際得分率是將數(shù)據(jù)集中所有使用該份試卷試題的答題記錄得分率取平均得到,以更準確反映試題實際難度.
Fig. 8 Comparison between score rates predicted by 3 models and ground truth on a test paper圖8 某試卷3種模型預測得分率與真實值比較
表6是評價指標PCC,DOA,RMSE值.可以看到H-MIDP的3種指標的值均優(yōu)于C-MIDP和R-MIDP,但C-MIDP和R-MIDP的評價值也在可接受范圍.觀察圖8,可以看到3種模型在大多數(shù)試題上的預測值能夠接近實際得分率,或者在試題相對難度關系上接近,其中H-MIDP的預測曲線與真實值最為接近,說明模型能夠通過context相關的訓練方式來預測試題絕對難度.
Table 6 Metrics Values of Models in Case Study表6 案例分析各模型評價指標值
為解決準確、高效地預測數(shù)學試題難度所面臨的難題,輔助中國特色教育考試國家題庫建設,本文提出了數(shù)據(jù)驅(qū)動的基于神經(jīng)網(wǎng)絡的難度預測模型.具體地,首先設計了基于卷積神經(jīng)網(wǎng)絡的C-MIDP模型和基于循環(huán)神經(jīng)網(wǎng)絡的R-MIDP模型學習試題文本的序列邏輯信息;進一步,結合2種模型的優(yōu)勢,提出混合H-MIDP模型.3種模型均直接對試題文本進行理解和語義表征,可保留試題描述的局部語義和語序信息;然后,為應對不同考試中學生群體具有不可比性的問題,在模型訓練時考慮答題記錄的上下文,采用context相關的訓練方式;最后,所提出的模型只需根據(jù)試題文本即可預測新試題難度屬性,無需人工標注先驗知識信息.本文在真實數(shù)據(jù)集上進行了大量實驗,實驗結果表明了本文所提出的模型具有良好的性能.
本文的模型具有進一步改良的空間和向其他學科擴展的可能性.在未來研究中,可以考慮新的模型結構對試題文本理解的影響,如Attention網(wǎng)絡、Memory網(wǎng)絡等.其次,探索更為準確和穩(wěn)定的context的劃分方式,以減少對試題難度預估結果的影響.我們還將考慮針對不同試題類型設計更為精準的預測模型.