楊正清 殷全劍 張晗 劉明志
摘? ?要:測試是教育評價中一種廣泛使用的方法。隨著計算機及互聯(lián)網(wǎng)技術的迅速發(fā)展,計算機成為能力測驗的重要工具。文章設計了一個計算機自適應測試系統(tǒng)(CAT),選擇適合每個被試者能力水平的英語單詞題目,實現(xiàn)用盡量少的題目較為準確地評估出用戶的英語水平和詞匯量。
關鍵詞:計算機自適應測試;項目反應理論;能力估計;極大似然函數(shù)
隨著科技水平的提高,信息技術與多媒體技術等被引入測試領域,測試也出現(xiàn)了新的實現(xiàn)方式,即把計算機作為實施測試評價的工具,主要有兩種形式:基于計算機的測試(Computer-Based Testing ,CBT)和計算機自適應測試(Computer Adaptive Testing ,CAT)[1]。
CBT用計算機代替?zhèn)鹘y(tǒng)的紙筆作為測試載體,依據(jù)經(jīng)典測試理論,所有被試者作答完全一致的試題,數(shù)量相同、題目相同,沒有考慮不同被試者的能力差異。與CBT不同,CAT的思想是利用項目反應理論(Item Response Theory,IRT)對每個被試者選擇最適合的測試項目,記錄被試者在項目上的反應,達到對被試能力更加準確的估計[2]。理論分析與實踐經(jīng)驗均表明,當選擇的測試項目與被試者的能力水平最匹配時,被試者作答積極性最高,測試效果也最好[3]。
本文實現(xiàn)了一種基于項目反應理論自適應測試被試者的英語能力水平的方法。
1? ? IRT理論
項目反應理論的核心是用概率函數(shù)來描述項目作答結(jié)果如何受被試者能力水平和項目參數(shù)的影響[4],根據(jù)被試者每個項目的作答情況,經(jīng)過數(shù)學計算,估計被試者的能力水平和項目的參數(shù)。如圖1所示,橫軸表示被試者的能力水平,縱軸表示答對概率,能力值(θ)越高,該項目作答正確的概率(p)越大。
項目通常由以下3個參數(shù)進行描述:a表示區(qū)分度,一般為0~﹢3;b表示難度參數(shù),一般介于-3~﹢3;c表示猜測系數(shù),其理論值范圍介于0.0~1.0。根據(jù)模型中項目的參數(shù)個數(shù),可分為單參數(shù)模型、雙參數(shù)模型及三參數(shù)模型[5]。
單參數(shù)模型(1PLM):
雙參數(shù)模型(2PLM):
三參數(shù)模型(3PLM):
式中,D為常數(shù)1.7;e為自然對數(shù)之底;j為被試編號;θj為第j位被試者的能力值;i為項目編號;ai,bi,ci分別表示第i題的區(qū)分度參數(shù)、難度參數(shù)、猜測系數(shù);Pij(θj,ai,bi,ci)表示能力為θj的被試j答對第i題的概率。
本文考慮到實際用戶英語能力水平以及模型復雜度,采用單參數(shù)模式。英語單詞使用已有單詞難度算法[6]計算并經(jīng)過專業(yè)英語老師人工校驗后的2 w英語單詞作為詞庫。
2? ? 算法分析
實施CAT有6個關鍵部分,依次是確定模型、建立題庫、設置初始條件、能力估計方法、項目選擇方法和測試終止條件[7],如圖2所示。
2.1? 初始條件的設置
首先,粗略估計被試者的初始能力值。m表示在該過程中測試的題目數(shù)量,x表示該過程中被試答對的題目數(shù)量,θ0為被試者的初始能力值[8]:
2.2? 被試者的能力估計
準確估計被試者的能力水平是CAT順利進行的前提,因此,采用極大似然估計法估計被試者能力值[9]。
已知某被試者在測驗的m個題目上的作答得分數(shù)據(jù)是x1,x2,x3,…,xm,需要估計未知的被試者能力水平參數(shù)θ。該被試者測驗得分數(shù)據(jù)是{X1=x1,X2=x2,X3=x3,…,Xm=xm}這一結(jié)果的概率為。θ的合理估計值應使得這種得分模式與其他得分模式相比發(fā)生的概率最大。將這種得分模式的概率看作θ的函數(shù),記作L(θ):
稱L(θ)為似然函數(shù)(Likelihood Function,IF)。極大似然估計就是在參數(shù)θ的所有可能取值范圍內(nèi),求使得L(θ)最大的,將作為被試者能力水平參數(shù)θ的合理估計值。為了計算方便,對L(θ)取對數(shù),可以證明函數(shù)L(u|θ)和lnL(u|θ)單調(diào)相關,兩個函數(shù)在同樣的位置取得最大值。被試者對項目i的反應記作ui(答對為1,答錯為0)。那么對數(shù)似然函數(shù)表達式如下:
是以下微分方程的解:
該方程解析解不存在,只能用數(shù)值分析法求解。采用Newton-Raphson法[10],如圖3所示,迭代得解。
2.3? 測試項目的選擇
信息函數(shù)是刻畫測試項目對不同能力水平被試者的測試有效性的指標。測試項目的信息函數(shù)值越大,對被試者能力水平的估計越精確。對于某個測試項目的信息函數(shù)為:
其中,Pi(θ)為項目i的被試反應函數(shù),p'i(θ)為項目反應函數(shù)對θ的一階導函數(shù)。通過信息函數(shù)選擇包含信息量最大的題目,就是最符合被試者當前能力值的題目,避免了被試者回答太簡單或者太困難的題目。
2.4? 終止條件的確定
在測試終止方法上,考慮到測試效果以及用戶體驗,結(jié)合了下列5個條件:(1)達到測試題目數(shù)量。(2)達到測試時間。(3)連續(xù)兩個項目的能力估計值之差小于閾值。(4)連續(xù)答對或連續(xù)答錯題數(shù)達到閾值。(5)測試的最大信息量達到閾值[11]。
3? ? 結(jié)果分析
在一款英語在線教育產(chǎn)品中,使用了自適應測試作為對用戶英語水平和單詞量的評估。
理想情況下用戶能力估計如圖4所示,橫軸代表做題數(shù)量,縱軸代表能力值。黑線代表用戶的真實能力值(﹣1.2),在整個測試過程中是固定值。橙色的線代表用戶回答的題目難度,藍色線代表用戶的能力估值。由圖4可知答題過程中,題目難度在自適應調(diào)整,能力估計值也在修正,最終達到一個相對平穩(wěn)并且接近真實的能力值。
某用戶的實際答題記錄:該用戶從最簡單的題目開始答題,答題過程中間能力估值有過一段震蕩,隨后趨于平緩,接近用戶的真實能力估計,最終在20道題左右終止測試,并且得到了能力估值,如圖5所示。
另一位用戶的實際答題記錄:該用戶同樣從最簡單的題目開始答題,中間經(jīng)歷了更加劇烈的抖動,最后依然在20道題目左右趨于穩(wěn)定,經(jīng)過分析,出現(xiàn)劇烈抖動的原因是目前的模型只考慮了題目難度一個維度,而用戶在答題過程中存在猜測答案的情況,也是在后續(xù)的研究工作中需要考慮的,如圖6所示。
4? ? 結(jié)語
計算機自適應測試技術已經(jīng)成熟地應用于許多大型考試,如GRE,GMAT,TOFEL等。計算機自適應測試在保證準確性的前提下,可以減少測試長度、提高測試的效率,此外,還可以消除被試者作弊的可能性,所以自適應測試無疑是教育測試領域的研究熱點,具有重要意義。
本研究實現(xiàn)了一種通過自適應測試評估用戶英語詞匯能力水平以及詞匯量的方法。經(jīng)過測試和產(chǎn)品用戶反饋可以得到一個比較良好的評價結(jié)果,下一步將考慮使用更加復雜的多參數(shù)模型和更加快速和穩(wěn)定的能力評估算法。
[參考文獻]
[1]路鵬.計算機自適應測試若干關鍵技術研究[D].長春:東北師范大學,2012.
[2]WAINER H,MISLEVY R.Item response theory,item calibration and proficiency estimation[M].New Jersey:Lawrence Erlbaum Associates Publishers,1990.
[3]LORD F M.A broad-range tailored test of verbal ability[J].Applied Psychological Measurement,1977(1):95-100.
[4]HAMBLETON R K.Principles and selected applications of item response theory[M].New York:Educational Measurement,1989.
[5]BIRNBAUM A.Some latent trait models and their use in inferring an examinees mental ability[M].New York:Statistical Theories of Mental Test Scores Reading,1968.
[6]于建芳.大學英語六級詞匯自適應測試系統(tǒng)的研制[D].濟南:山東師范大學,2016.
[7]THISSEN D M,MISLEVY R J.Testing algorithms in H Wainer(Ed.)computerized adaptive testing:a primer[M].New Jersey:Lawrence Erlbaum Associates,2000.
[8]葉華喬.網(wǎng)絡環(huán)境下計算機自適應考試研究[D].武漢:華中師范大學,2005.
[9]羅照盛.項目反應理論基礎[M].北京:北京師范大學出版社,2012.
[10]BAKER F B.Item response theory:parameter estimation techniques[M].New York:Statistical Theories of Mental Test Scores Reading,1998.
[11]梁瑾麟.基于項目反應理論的計算機自適應測試系統(tǒng)研究[D].長沙:湖南大學,2010.