宋慧媛,徐行健,孟繁軍
(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
計(jì)算機(jī)技術(shù)的快速發(fā)展對(duì)高校教學(xué)管理提出了新挑戰(zhàn)[1],在試題難度評(píng)估方面,傳統(tǒng)方法有兩類:一類是通過人工對(duì)試題進(jìn)行預(yù)估[2],但存在個(gè)人傾向較強(qiáng)、難以保證客觀性的不足;另一類是通過教育數(shù)據(jù)挖掘進(jìn)行試題評(píng)估[3],利用學(xué)生作答記錄對(duì)試題得分進(jìn)行建模進(jìn)而評(píng)估試題參數(shù)和學(xué)生能力。但學(xué)習(xí)者水平不同,依賴評(píng)估者的水平和對(duì)試題的認(rèn)知程度,容易造成先驗(yàn)知識(shí)的依賴[4]。深度學(xué)習(xí)與考試的深度融合,改善了試題質(zhì)量評(píng)估的方法,具有理論和實(shí)踐意義。
因此,本文提出基于深度神經(jīng)網(wǎng)絡(luò)模型,利用試題文本信息的同時(shí)結(jié)合考生作答記錄,建立試題文本信息和實(shí)際難度間的關(guān)聯(lián)性,進(jìn)而解決測(cè)試中試題難度參數(shù)的預(yù)估等問題。Huang 等[5]在標(biāo)準(zhǔn)考試中對(duì)英語閱讀理解題進(jìn)行難度預(yù)測(cè),通過給定段落和試題推斷試題正確答案,但無法直接應(yīng)用于其他類型試題如單項(xiàng)選擇題難度的預(yù)測(cè)。故本文以大學(xué)計(jì)算機(jī)基礎(chǔ)單項(xiàng)選擇題為例,提出一種基于題目關(guān)聯(lián)知識(shí)的試題難度預(yù)測(cè)模型,自動(dòng)預(yù)測(cè)選擇題的難度,并通過大學(xué)計(jì)算機(jī)基礎(chǔ)單項(xiàng)選擇試題難度預(yù)測(cè),驗(yàn)證該方法的準(zhǔn)確性和有效性。
經(jīng)典測(cè)量理論CTT[6]是教育心理測(cè)量學(xué)理論的分支,利用心理測(cè)試和統(tǒng)計(jì)方法來測(cè)試題目的難度或考生的能力。胡子璇等[7]研究了試題因素與相應(yīng)試題難度之間的關(guān)系,項(xiàng)目反應(yīng)理論IRT 利用數(shù)學(xué)模型對(duì)人和問題的潛在特征(難度、區(qū)分度等)進(jìn)行評(píng)估[8]。Rasch 是IRT 的一種概率模型[9],通過邏輯類函數(shù)和學(xué)生作答記錄等反饋信息來評(píng)估試題的難度,但這些模型的共同局限性在于過度依賴于評(píng)估者自身的認(rèn)知水平和對(duì)試題的認(rèn)知程度,使得預(yù)測(cè)結(jié)果的客觀性、準(zhǔn)確性精度較低。
目前已有眾多研究工作使用自然語言處理方法(NLP)來預(yù)測(cè)問題的難度[10]。Loukina 等[11]研究了基于多個(gè)文本的復(fù)雜性特征系統(tǒng),利用單詞的不熟悉性和較長(zhǎng)語句的平均頻率可以預(yù)測(cè)試題的難度。朱永強(qiáng)[12]利用文本挖掘方法分析文本詞法、語義特征等,但需要手工設(shè)計(jì)文本特征,只限于特定的一些模型結(jié)構(gòu)。佟威等[13]針對(duì)數(shù)學(xué)試題,利用題面分析、試題題干和選項(xiàng)進(jìn)行難度預(yù)測(cè)?;贑NN、RNN 的體系結(jié)果對(duì)文本信息進(jìn)行表示,通過對(duì)文檔、試題題干及選項(xiàng)的語義表示全連接進(jìn)而得到難度。在閱讀理解試題、數(shù)學(xué)試題中,問題的答案可從給定段落中推斷得出,意味著給定的段落對(duì)于難度預(yù)測(cè)的解決至關(guān)重要,但其難度預(yù)測(cè)模型都不可直接應(yīng)用于一般單項(xiàng)選擇題中。為解決這類模型的局限性,本文提出一種基于題目關(guān)聯(lián)知識(shí)的試題難度預(yù)測(cè)模型(MR-ABNN),對(duì)題目關(guān)聯(lián)知識(shí)信息文本摘要的抽取來豐富試題題干背景知識(shí),利用神經(jīng)網(wǎng)絡(luò)模型挖掘試題文本信息并建模,輸入試題特征到模型中可得到試題的難度預(yù)測(cè)值。
在所學(xué)科目中,計(jì)算機(jī)基礎(chǔ)試題形式較為簡(jiǎn)潔,設(shè)問方式也較為單一,最符合本文模型對(duì)試題形式的要求。表1 為一道計(jì)算機(jī)基礎(chǔ)試題文本實(shí)例,數(shù)據(jù)包括試題ID,題目信息、選項(xiàng)和答案。輸入到模型的數(shù)據(jù)需為真實(shí)有效的試題和考生作答記錄,試題可從隨堂測(cè)驗(yàn)、期末試題及月考中獲得。讓Q表示一組計(jì)算機(jī)基礎(chǔ)試題,每個(gè)Q∈Q 都有一個(gè)難度屬性P值,一個(gè)正確答案A和3 個(gè)干擾選項(xiàng)(C1,C2,C3)。問題定義在形式上,給定試題集Q,目標(biāo)是利用所有的問題Q∈Q 訓(xùn)練模型MR-ABNN,來預(yù)估試題的難度值。表2 為考生作答記錄實(shí)例,每條記錄代表每個(gè)考生在一場(chǎng)考試中對(duì)于某一道題的得分。傳統(tǒng)方法中試卷難度系數(shù)[14]用來表現(xiàn)試題的難易程度,難度系數(shù)越大,試題得分率越高,難度也就越小。
表1 計(jì)算機(jī)基礎(chǔ)試題文本實(shí)例Tab.1 Computer basic test text examples
表2 考生作答記錄實(shí)例Tab.2 Example of answer record of candidates
MR-ABNN 共包括三個(gè)模塊,如圖1 所示。首先是題目關(guān)聯(lián)知識(shí)的抽取模塊,利用抽取式自動(dòng)文本摘要抽取方法,通過對(duì)試題所屬各部分章節(jié)內(nèi)容進(jìn)行抽取,獲得與試題關(guān)聯(lián)的信息,豐富試題的上下文知識(shí);其次是基于神經(jīng)網(wǎng)絡(luò)的試題難度預(yù)測(cè)模塊,依據(jù)所獲得的試題、考生作答記錄信息,通過文本建模挖掘試題文本理解中蘊(yùn)含的局部重點(diǎn)詞句與試題難度的關(guān)聯(lián),進(jìn)行試題難度的預(yù)測(cè),同時(shí)以該題獲得的實(shí)際得分率作為對(duì)比標(biāo)簽輸入到該模型中訓(xùn)練;最后是測(cè)試模塊,經(jīng)訓(xùn)練后得到基于題目關(guān)聯(lián)知識(shí)點(diǎn)的試題難度預(yù)測(cè)模型,將未經(jīng)測(cè)試過的試題輸入到該模型中,驗(yàn)證其難度預(yù)測(cè)值的準(zhǔn)確性。
圖1 模型整體框架Fig.1 Overall framework of the model
2.3.1 題目關(guān)聯(lián)知識(shí)信息抽取 MR-ABNN 主要有兩個(gè)部分組成,第一部分是基于最大邊界相關(guān)度的抽取式文本摘要模塊,為豐富試題的上下文知識(shí),利用詞嵌入、句嵌入的方法將文本以向量表征的方式進(jìn)行表示,通過計(jì)算句子間相似度、關(guān)鍵詞與位置信息對(duì)句子重要性的影響,使句子按照得分高低排序,從而得到試題相關(guān)篇章內(nèi)容的高質(zhì)量摘要。
(1)數(shù)據(jù)預(yù)處理,指對(duì)試題所屬篇章內(nèi)容文本數(shù)據(jù)的處理。本文選取的是大學(xué)計(jì)算機(jī)基礎(chǔ)一的教材內(nèi)容數(shù)據(jù),需要進(jìn)行數(shù)據(jù)整理,包括對(duì)缺失值的處理和冗余信息的刪除,除去一些無用的符號(hào)、空格等,保存成.txt 格式。
(2)特征提取,主要包括三部分。首先,關(guān)鍵詞提取主要是利用TF-IDF 算法[15]提取得出,對(duì)文章中的詞做詞性標(biāo)注且取得TF-IDF 值并排序,值越高,作為關(guān)鍵詞的可能性越大;其次,句子的位置信息是指在段落中開頭或結(jié)尾的句子,作為總結(jié)性的語句可大體代表文章的總體文義。由于對(duì)試題所屬章節(jié)內(nèi)容進(jìn)行整合,沒有分段,故只考慮位置信息在段首還是段尾;最后,句子向量表示,提取句子表征,計(jì)算句子與文章的相似度值,來獲取更能表示文章主旨的語句。通過詞嵌入思想獲取單詞的詞向量,利用Word2vec 算法[16]訓(xùn)練詞向量,得到句子中詞語的向量表征,如公式(1)
其中:j表示文本中第j個(gè)語句,i為第j語句的第i個(gè)詞語;wji為第j個(gè)語句中第i個(gè)詞的詞向量,m為第j個(gè)語句的長(zhǎng)度。
(3)句子打分,首先對(duì)句子關(guān)鍵詞打分,關(guān)鍵詞在句子中出現(xiàn)頻率越高,句子在文檔中重要性越高,如公式(2)
其中:j為第j個(gè)語句,N(k)指第j個(gè)語句中關(guān)鍵詞的個(gè)數(shù);max[N(k)]為語句中包含關(guān)鍵詞數(shù)最多的關(guān)鍵詞數(shù)。
然后是對(duì)語句位置信息打分,考慮語句在段首還是段尾,如公式(3)
最后計(jì)算語句與篇章的相似度,相似度得分越高,該語句越能代表該段落的總體語義,如公式(4)
其中:Vj指語句的向量表示,由句子中詞向量取均值可得;為篇章除第j句后其他語句的詞向量的均值向量,計(jì)算二者余弦相似度S得到語句與篇章的相似度得分。獲得句子關(guān)鍵詞、語句位置信息及語句與篇章的相似度得分后,取其平均值得最終得分。
(4)關(guān)聯(lián)知識(shí)信息文本摘要抽取,得到句子總分之后,基于得分對(duì)篇章中全部語句進(jìn)行排序,得到每次循環(huán)的候選語句。為選取冗余性低、重要性高且全面、包含更多信息的語句,選取了最大邊界相關(guān)度算法(MMR)。在候選語句中每次選取句子時(shí)都計(jì)算其MMR 分?jǐn)?shù)[17],如公式(5)
其中:R(Vj)為MMR 得分;Cj為第j個(gè)語句的得分;S1為語句Vj和當(dāng)前摘要V' 的余弦相似度,相似度值越大,表示該語句與當(dāng)前摘要相似度越高;η為調(diào)節(jié)參數(shù)。
MMR 算法通過計(jì)算候選語句中每個(gè)語句的MMR 得分,按照得分從大到小排序,得分最高者加入當(dāng)前摘要中,更新當(dāng)前摘要的長(zhǎng)度,同時(shí)候選語句集進(jìn)行更新。最后判斷當(dāng)前摘要長(zhǎng)度如果大于設(shè)定的長(zhǎng)度,則得到最終關(guān)聯(lián)知識(shí)信息文本摘要。
2.3.2 基于神經(jīng)網(wǎng)絡(luò)的試題難度預(yù)測(cè) 第二部分是融合注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),該模型一共包括四層模型結(jié)構(gòu),有輸入層、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層、注意力層和預(yù)測(cè)層,如圖2 所示。
圖2 試題難度的模型結(jié)構(gòu)Fig.2 Model structure diagram of test difficulty
(1)輸入層,該神經(jīng)網(wǎng)絡(luò)的輸入是試題Qi的所有文本材料,包括文本摘要抽取得到的題目關(guān)聯(lián)知識(shí)文本Pai,問題Qi及選項(xiàng)Oi。Pai表示文本詞語的序列,即Pai={e0,e1,…,eN-1},N為詞語表征個(gè)數(shù)。同樣問題Qi及選項(xiàng)Oi也都利用word2vec 進(jìn)行預(yù)訓(xùn)練,得到每個(gè)詞語對(duì)應(yīng)的d0=200 維的詞向量。全部文本信息得到向量表征后輸入到融合注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中獲取語義理解。
(2)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層,由于RNN 存在長(zhǎng)距離依賴問題[18],需在RNN 中加入LSTM 單元,但RNN和LSTM 都只依據(jù)之前的時(shí)序信息預(yù)測(cè)下一時(shí)刻的輸出,為聯(lián)合上下文信息進(jìn)行準(zhǔn)確預(yù)測(cè),本文采用兩個(gè)LSTM 也就是Bi-LSTM,前向LSTM 網(wǎng)絡(luò)負(fù)責(zé)獲取前面時(shí)序信息,后向LSTM 負(fù)責(zé)獲取后向序列信息,從正向、反向兩方向?qū)W習(xí)試題語義邏輯,捕捉更多文本信息。
該層的輸入序列為Eemb={e0,e1,…,eN-1},首先將文本序列中的e0,e1,…,eN-1分別在t0,t1,t2,…,tn時(shí)刻逐次輸入Bi-LSTM 中,并且所有作為輸入信息的詞語都經(jīng)過向量化表示,其中wi,i=1,2,…,6 表示為權(quán)值。假如在待標(biāo)注序列的某個(gè)位置i,正向LSTM 得到隱層輸出為,反向LSTM 則得到,則可認(rèn)為獲取了位置i前的歷史信息獲取了位置i后的未來信息,最后隱層輸出為,其中⊕表示將兩個(gè)向量鏈接起來,將hi從輸出層中輸出。
(3)注意力層,從Bi-LSTM 層獲得語句的向量表示后,加入注意力機(jī)制計(jì)算問題的難度注意力表示。注意力權(quán)重表示句子對(duì)于決定試題難度的重要程度,得到篇章hP和hQ后,注意力層計(jì)算機(jī)出一個(gè)篇章單詞和一個(gè)試題單詞的成對(duì)匹配矩陣M,如公式(6)
當(dāng)給出段落的第i個(gè)單詞和問題的第j個(gè)單詞時(shí),注意力機(jī)制可對(duì)其進(jìn)行點(diǎn)積來得到匹配分?jǐn)?shù),通過對(duì)M中每列用softmax 函數(shù)獲取其概率分布,且每一列都表示單獨(dú)的篇章級(jí)注意力,A1(Pan)表示第n個(gè)單詞的篇章注意力,A2(Qn)表示第n個(gè)單詞的問題注意力,如公式(7)和(8)
在獲得試題對(duì)文本、文本對(duì)試題的注意力之后,計(jì)算二者的點(diǎn)積,將每個(gè)試題單詞的重要性程度可視化,輸出最終的文章級(jí)注意力向量A(Pai),用來衡量文章Pai中單詞en的重要性,如公式(9)
同理問題Qi、選項(xiàng)Oi的注意力權(quán)重也可以上述方式建模。通過加入注意力機(jī)制有助于計(jì)算與試題更相關(guān)的段落或選項(xiàng)中詞語的分?jǐn)?shù),有助于提升模型的準(zhǔn)確性。
(4)預(yù)測(cè)層,在這一層中,使用文章注意力向量Pai,選項(xiàng)注意力向量Oi和試題Qi,預(yù)估試題qi的難度,將以上三個(gè)向量進(jìn)行拼接,利用全連接層獲取難度表示θi,使用Sigmoid 函數(shù)預(yù)估試題難度,如公式(10)和(11)
其中w1,b1,w2,b2為網(wǎng)絡(luò)中可調(diào)整的參數(shù)。
本次實(shí)驗(yàn)使用Intel i5-10210U CPU@1.60 GHz 的實(shí)驗(yàn)環(huán)境,操作系統(tǒng)為Window7,利用Pycharm 中Anaconda3 與TensorFlow 框架。
實(shí)驗(yàn)中數(shù)據(jù)集為高校大學(xué)計(jì)算機(jī)基礎(chǔ)一的期末考試試題、隨堂測(cè)驗(yàn)試題和考生作答記錄,其中每條數(shù)據(jù)都包括試題關(guān)聯(lián)知識(shí)內(nèi)容、問題、選項(xiàng)(正確選項(xiàng)、錯(cuò)誤選項(xiàng))及試題實(shí)際難度。實(shí)驗(yàn)數(shù)據(jù)集共包括21 000 條答題記錄,由600 多名學(xué)生作答,有330 道不同試題。由于數(shù)據(jù)集在整理過程中受到人為因素或其他客觀因素的影響,為保證數(shù)據(jù)的合理性,避免對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響,需對(duì)原始數(shù)據(jù)集進(jìn)行清理,去除缺失值、冗余信息及具有干擾性的數(shù)據(jù),表3 為大學(xué)計(jì)算機(jī)基礎(chǔ)試題部分?jǐn)?shù)據(jù)集示例。
表3 大學(xué)計(jì)算機(jī)基礎(chǔ)試題部分?jǐn)?shù)據(jù)集示例Tab.3 Examples of some data sets of basic examination questions of university computer.
為驗(yàn)證本研究提出模型(MR-ABNN)的效果,選取下述幾種基線預(yù)測(cè)算法做對(duì)比。
(1)支持向量機(jī)(SVM)[19]:SVM 使用核函數(shù)向高維空間進(jìn)行映射,使用分類與回歸分析來分析數(shù)據(jù)的監(jiān)督學(xué)習(xí)模型,但對(duì)缺失數(shù)據(jù)、參數(shù)和核參數(shù)的選擇較為敏感。
(2)決策樹(DT)[20]:DT 是遞歸地選擇最優(yōu)特征,對(duì)應(yīng)于模型的局部最優(yōu),但適合高維數(shù)據(jù),信息增益偏向于更多數(shù)值的特征,易忽略屬性之間的相關(guān)性。
(3)邏輯回歸(LR)[21]:LR 建立代價(jià)函數(shù),通過優(yōu)化迭代求解出最優(yōu)的模型參數(shù),但在處理大量多類特征或變量時(shí)具有局限性。
(4)RNN+Attention(ARNN)[5]:ARNN 可從提取向量表征的角度挖掘文本材料,獲取段落的語義信息,但由于缺乏題目關(guān)聯(lián)知識(shí)無法直接應(yīng)用于單項(xiàng)選擇試題難度預(yù)測(cè)的應(yīng)用場(chǎng)景。
為衡量MR-ABNN 模型的性能,本文利用較為廣泛使用的均方根誤差(RMSE)[22]、皮爾遜相關(guān)系數(shù)(PCC)[23]和決定系數(shù)R2[24]來進(jìn)行評(píng)價(jià)。RMSE 的取值范圍在[0,+∞),數(shù)值越小意味著預(yù)測(cè)難度與實(shí)際難度的差值越小,說明預(yù)測(cè)準(zhǔn)確度越高。PCC 取值范圍為[-1,1],絕對(duì)值越大表明試題預(yù)測(cè)難度與實(shí)際難度線性相關(guān)性越高。R2的取值范圍為[0,1],數(shù)值越大表明預(yù)測(cè)難度與實(shí)際難度越接近。
為觀察模型在不同數(shù)據(jù)集大小的效果,隨機(jī)選取40%、60%、80% 到90% 的訓(xùn)練集進(jìn)行測(cè)試。同時(shí),為防止過擬合,確保試題為未經(jīng)過測(cè)驗(yàn)的新試題且測(cè)試集與訓(xùn)練集試題之間沒有重疊,MR-ABNN 模型的實(shí)驗(yàn)結(jié)果見表4。
表4 各模型在難度預(yù)測(cè)任務(wù)上的效果對(duì)比Tab.4 Comparison of effects of each model on difficulty prediction tasks
(1)SVM、DT 及LR 為三種機(jī)器學(xué)習(xí)模型,SVM 回歸效果最差,DT 和LR 模型回歸效果較SVM 更好,可知一般的回歸模型并不能很好地進(jìn)行試題難度預(yù)測(cè)任務(wù);ARNN、MRABNN 神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果明顯優(yōu)于前三種回歸模型,說明神經(jīng)網(wǎng)絡(luò)對(duì)試題難度預(yù)測(cè)可以更好地建模。
(2)ARNN 為神經(jīng)網(wǎng)絡(luò)模型,加入注意力機(jī)制的Bi-LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)不僅可以度量計(jì)算機(jī)基礎(chǔ)知識(shí)資料中知識(shí)點(diǎn)對(duì)試題的重要程度,提高模型對(duì)試題與其相關(guān)語句表征的關(guān)注程度,還解決了RNN 中長(zhǎng)序列依賴問題和梯度消失問題。同時(shí)基于題目關(guān)聯(lián)知識(shí)的試題難度預(yù)測(cè)模型MR-ABNN 在利用文本信息摘要抽取方法,獲取與問題關(guān)聯(lián)的文本信息來豐富題干的上下文知識(shí)后,與ARNN 的性能效果相比具體大幅度提升。
(3)ARNN、MR-ABNN 兩種神經(jīng)網(wǎng)絡(luò)模型效果隨訓(xùn)練數(shù)據(jù)量比例的增加得到提升。將訓(xùn)練數(shù)據(jù)量增加到60% 時(shí),MR-ABNN 的性能優(yōu)于其他方法,RMSE、PCC、R2值可達(dá)到0.19、0.67、0.46 以上;在訓(xùn)練集的比例達(dá)到90% 時(shí),MR-ABNN 模型的PCC、R2值達(dá)到最高,分別達(dá)到0.75、0.53 以上,RMSE 值達(dá)到最低0.14 左右。故可以得出,在實(shí)際大學(xué)計(jì)算機(jī)基礎(chǔ)一考試中,MR-ABNN 能夠以更強(qiáng)的能力捕獲更多的語義信息,且數(shù)據(jù)量足夠滿足模型要求時(shí),試題難度預(yù)測(cè)任務(wù)完成度可達(dá)到最優(yōu)。
本文提出一種基于題目關(guān)聯(lián)知識(shí)的試題難度預(yù)測(cè)模型MR-ABNN,用于考試中單項(xiàng)選擇題難度的自動(dòng)預(yù)測(cè)。模型MR-ABNN 首先構(gòu)建題目關(guān)聯(lián)文本信息摘要的抽取模型,用于豐富題干的上下文知識(shí),解決單項(xiàng)選擇題沒有背景知識(shí)支撐的問題,然后基于加入注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)試題難度的自動(dòng)評(píng)估。在真實(shí)測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型的優(yōu)越性和有效性。目前,只在計(jì)算機(jī)基礎(chǔ)選擇題考試中應(yīng)用MR-ABNN,如果其他科目或領(lǐng)域也有對(duì)應(yīng)的教材內(nèi)容和真實(shí)考試記錄,也可用該模型進(jìn)行試題難度的預(yù)測(cè)。在未來研究中還可考慮針對(duì)不同類型試題、不同學(xué)科設(shè)計(jì)精度更為準(zhǔn)確地難度自動(dòng)評(píng)估模型。