楊丹 劉漢明
摘要:本文在項目反應(yīng)理論的基礎(chǔ)上,提出了自適應(yīng)參數(shù)估計數(shù)學(xué)模型,并根據(jù)模型,設(shè)計并實現(xiàn)了基于原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫建設(shè)方法,解決了樣本采集異常困難、項目參數(shù)估計與等值問題,有效提高了題庫的容量與質(zhì)量。
關(guān)鍵詞:原始題植入;《現(xiàn)代教育技術(shù)》;CAT;題庫
中圖分類號:Tp311.56 文獻標識碼:A 論文編號:1674-2117(2016)20-0088-06
● 引言
師范生教育技術(shù)能力測評是對應(yīng)用能力的測評。計算機化考試(Computer-Based Testing,CBT)和傳統(tǒng)筆試均未初估被試能力,常常導(dǎo)致出現(xiàn)“高者低測,低者高測”的情況。計算機自適應(yīng)考試(Computerized Adaptive Test,CAT)能夠根據(jù)被試者的作答情況不斷地估計其能力,并選擇難度合適的項目施測,主動適應(yīng)考生實有水平,以達到“因人施測”的目的,這開拓了教育測量的新領(lǐng)地。近幾年,計算機自適應(yīng)考試逐漸被應(yīng)用于師范生教育技術(shù)能力測試。
題庫是影響自適應(yīng)測試信度和效度的重要因素,題庫的建設(shè)是CAT編制中最基礎(chǔ)也是工作量最大的工程。課程題庫是一個功能強大的平臺,可以實現(xiàn)課程、學(xué)習(xí)者、教師以及管理者的有機連接,發(fā)揮助學(xué)、助教、管理及評價功能。[1]一個優(yōu)秀的題庫不僅要提供測試的題目,還要提供必要的試題參數(shù),以確保自適應(yīng)優(yōu)質(zhì)試卷的生成。目前,研究[2][3][4]主要關(guān)注以項目反應(yīng)理論(Item Response Theory,IRT)為指導(dǎo)所做的項目分析、參數(shù)等值等工作,對《現(xiàn)代教育技術(shù)》CAT題庫的建設(shè)、擴充鮮有提及。題庫的重復(fù)使用,必然會使部分試題的曝光率升高,使其安全性受到威脅;且隨著時間的推移,題庫中的一些項目會因為存在缺陷、過時、過度曝光等問題需要用新題去替換或增補。[5]有研究指出,一個合適的自適應(yīng)考試的題庫容量必須在3000道以上,這樣產(chǎn)生的標準差和偏差較小。[6][7]為了達到足夠的題庫規(guī)模,研究[8]通過網(wǎng)絡(luò)征集試題和組織抽樣測試建立題庫,這雖然解決了試題源的問題,但存在試題曝光的風(fēng)險和樣本采集困難的問題。在試題參數(shù)處理上,張鴻嘗試使用經(jīng)典測量理論(Classical Test Theory,CTT)采集樣本,結(jié)合項目反應(yīng)理論的三參數(shù)模型,確定試題的3個質(zhì)量參數(shù)。[9]用CTT采集樣本解決了初始樣本的問題,但若要動態(tài)擴充題庫,仍存在再續(xù)樣本采集困難的問題。同時,CTT采集的樣本與IRT的三參數(shù)轉(zhuǎn)換,也存在等值的問題。因此,現(xiàn)有題庫建設(shè)仍存在以下不足:①初始試題建設(shè)容易,但動態(tài)擴充題庫困難;題庫量也不夠大,遠遠沒有達到自適應(yīng)考試需要的題目數(shù)量[10];②項目參數(shù)估計與等值的問題;③樣本采集異常困難。
● 原始題植入
1.原始題植入
原始題是沒有設(shè)置任何項目參數(shù)的試題。原始題植入是在被試者參加自適應(yīng)測試的過程中插入原始題供多名被試者作答(但不參與能力估值),以收集被試者對原始題的作答反應(yīng),并根據(jù)這些反應(yīng)對原始題進行項目參數(shù)估計。采用自適應(yīng)參數(shù)估計法(Adaptive Estimating Method,AEM)擴充題庫步驟主要有:①由命題專家命制一批原始題;②在CAT測試的同時植入原始題,獲得原始題的作答反應(yīng),估出項目參數(shù);③挑選出一批優(yōu)質(zhì)的原始題連同項目參數(shù)一并入庫,成為正式測試試題。采用AEM方法有如下優(yōu)點:一是無需單獨尋找被試者對新題進行測試,成本低,安全性好。參與CAT測試的師范生數(shù)量巨大,解決了樣本采集難的問題,而且原始題是在樣本毫不知情的狀態(tài)下植入,提高了試題的安全性。二是題庫擴充方便,不受新試題量的限制。三是原始題是在CAT測試時植入,基于項目參數(shù)不變性的特點使其參數(shù)無需再做等值。
2.原始題自適應(yīng)參數(shù)估計模型
項目反應(yīng)理論是一種新興的心理與教育測量理論,它突破了經(jīng)典測量理論的局限性,將被試者特質(zhì)水平與被試者在項目上的行為關(guān)聯(lián)起來,并將其參數(shù)化、模型化。[11]根據(jù)這一理論建立的考試模型稱為IRT模型,它以概率論來解釋被試者對試題的反應(yīng)與其潛在能力特質(zhì)之間的關(guān)系。單參數(shù)Logistic(One-Parameter Logistic Model,1PLM)和雙參數(shù)Logistic(2PLM)模型分別表示為、。其中D=1.7,參數(shù)為項目的難度參數(shù);i表示項目作答次數(shù);j表示項目數(shù);表示第j個項目第i次被作答時的作答反應(yīng);為第j個項目第i次被作答時對應(yīng)被試能力值; 表示能力為被試答對難度為的項目的概率;表示能力為被試答錯難度為的項目的概率。
自適應(yīng)參數(shù)估計方法[12]指在被試者參加自適應(yīng)測試的過程中插入一些新的原始試題,并收集被試者對新題的作答反應(yīng),再對這些原始試題作項目參數(shù)估計。自適應(yīng)參數(shù)估計模型是單參數(shù)和雙參數(shù)模型的組合:被試能力值已知,采用1PLM條件極大似然估計法(Conditional Maximum Likelihood Estimation,CMLE)估計項目難度參數(shù);將已估出的原始題的難度作為已知值,采用2PLM條件極大似然估計法估計原始題的項目區(qū)分度。
當被試能力值已知,采用條件極大似然估計分別對新項目的難度、區(qū)分度進行估計。由此可以得出似然函數(shù):
(1)
(2)
對式(1)(2)的對數(shù)似然函數(shù)分別求二階偏導(dǎo)數(shù)后,所得難度參數(shù)表達式是非線性方程,并使用Newton-Raphson迭代法求解,便可估出項目難度b和區(qū)分度a。
項目反應(yīng)理論與經(jīng)典測驗理論相比最大的優(yōu)點便是項目參數(shù)的不變性,所以估出的參數(shù)無需再做等值。
● 原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫建設(shè)
《現(xiàn)代教育技術(shù)》題庫是CAT系統(tǒng)中最基礎(chǔ),也最為關(guān)鍵的工程。其不僅需要提供大量且分布科學(xué)合理的測試試題,而且每道試題還需提供必要的項目參數(shù),以確保優(yōu)質(zhì)的自適應(yīng)測試試卷的生成。
1.試題開發(fā)
試題開發(fā)包括制定命題規(guī)劃和編制試題兩個階段。命題規(guī)劃是題庫建設(shè)的起點,也是關(guān)鍵點,對試題的規(guī)劃不科學(xué)或不全面, 均會影響題庫的質(zhì)量。教育部頒布的《中小學(xué)教師教育技術(shù)能力標準》(以下簡稱《標準》)[13]從意識與態(tài)度、知識與技能、應(yīng)用與創(chuàng)新和社會責(zé)任等方面解讀了中小學(xué)教師的教育技術(shù)能力要求??紤]到師范生與在職教師的異同點和實際教學(xué)環(huán)境,筆者以《標準》的4個維度為基準,考慮教學(xué)目標、學(xué)科特性、試題分布、題量和師范生的特點,制定命題規(guī)劃(如圖1)。
2.試測、參數(shù)估計
為了保證試題的質(zhì)量,試題編制好后需要對其進行質(zhì)量分析, 包括定性分析與定量分析兩個方面。[14]定性分析主要檢查試題與測試目標的一致性,包括試題是否符合命題規(guī)劃要求、測試內(nèi)容是否有意義、試題表述是否清晰等。定量分析主要檢查試題難度和區(qū)分度的合理性,采用聯(lián)合極大似然估計法[15]估計試題的區(qū)分度a和難度b,保留區(qū)分度合適的試題,淘汰區(qū)分度低的試題;檢查試題難度分布是否合理,如不合理則加以調(diào)整,以確保在測量各種特質(zhì)水平的被試者時都有足夠的試題。
3.試題組織方式
試題通常包括試題正文、選項、正確答案、試題參數(shù)等信息。在整理試題時,可以根據(jù)認知目標層次、內(nèi)容、難度、區(qū)分度等進行分區(qū)。為了便于CAT在施測時選題,本題庫根據(jù)區(qū)分度不同分區(qū)存儲。
4.題庫動態(tài)擴充
題庫的重復(fù)使用,必然會導(dǎo)致部分試題的曝光率升高,從而使試題的安全性降低,如區(qū)分度高的題目經(jīng)常會被使用。[16]為了有效降低試題的曝光率,不但要建立一個規(guī)模足夠大、分布合理的題庫,而且題庫內(nèi)容還要隨時更新,以確保試題內(nèi)容的效度和統(tǒng)計質(zhì)量,保障題庫的有效性和安全性。
(1)原始題開發(fā)
原始題的來源有三個:①由經(jīng)驗豐富的教師出題,可以確保試題行文通順和目標指向;②從網(wǎng)絡(luò)下載,依據(jù)命題規(guī)劃挑選修改;③依據(jù)命題規(guī)劃,以作業(yè)的形式布置學(xué)生出題,教師挑選修改,但不作為本班學(xué)生測試。值得注意的是,雖然第二個來源的試題來源廣泛,但容易曝光,存在安全隱患。第三個來源的作業(yè)形式用語親切、有趣,但行文不夠嚴謹,需要教師做適度修改。
(2)原始題植入算法
在對考生做CAT施測過程中,插入的原始題必須是在不被考生察覺的狀態(tài)下植入,且植入順序由系統(tǒng)隨機產(chǎn)生,同時其作答反應(yīng)不參與被試能力的估值。系統(tǒng)要求每道原始題作答150次,每個被試者作答6道原始題,且同一原始題不能被同一被試者重復(fù)作答。原始題庫中的原始題會隨機地呈現(xiàn)給被試者作答,當所有被試者都完成CAT測試以后,用極大似然估計法對原始題的項目參數(shù)進行估計。
在被試者完成6道真題(已經(jīng)設(shè)置好項目參數(shù)的用作估計被試能力的試題)的作答后,系統(tǒng)會每隔3道真題植入一道原始題。若被試者在完成25道真題之前信息量已大于25,則連續(xù)植入未被植入的原始題,算法如下頁圖2所示。
(3)原始題自適應(yīng)參數(shù)估計
被試能力值已知,設(shè)難度參數(shù)的初值=0,采用1PLM條件極大似然估計法估計原始題難度參數(shù)b。之后,將已經(jīng)估出的難度作為已知值,采用2PLM條件極大似然估計法估計原始題的項目區(qū)分度a。具體代碼如下:
void AEM(NriScoreType* Ns, ItemsPara* IP)
{
int i, Nb;
double a0, b0, sP, f1, f2, Z, r;
//估計b
b0 = 0.0;
for(Nb = 0; Nb < 100; Nb++) {//N-R迭代
f1 = f2 = 0.0;
for(i = 0; i < Ns->Seta.size(); i++) {
sP = 1.0 / (1.0 + exp((-1.0) * D * (Ns->Seta(i) - b0)));
f1 = f1 - D * (Ns->Score(i) - sP);
f2 = f2 - D * D * sP * (1.0 - sP);
}
if(f2 == 0.0) break; //如果f2為0,則迭代失敗,退出迭代
else b0 = b0 - f1 / f2;
if(fabs(f1 / f2) < 0.01) break; //迭代精度小于0.01則終止迭代
if(b0 > 3.0) b0 = 3.0; //限制b上限為3
if(b0 < -3.0) b0 = -3.0//限制b下限為-3
}
IP->b = b0;
//估計a
Z = GetZ(Ns);//計算Z
r = Z / b;
if(r < 0.0) r = 0.0;
if(r > 0.9486) r = 0.9486;
a0 = r / sqrt(1.0 - r * r);
for(Nb = 0; Nb < 100; Nb++) {//N-R迭代
f1 = f2 = 0.0;
for(i = 0; i < Ns->Seta.size(); i++) {
sP = 1.0 / (1.0 + exp((-1) * D * a0 * (Ns->Seta(i) - b)));
f1 = f1 + D * (Ns->Seta(i) - b) * (Ns->Score(i) - sP);
f2 = f2 + D * D * (Ns->Seta(i) - b) ^ 2.0 * sP * (1.0 - sP);
}
if(f2 == 0.0) break;//如果f2為0,則迭代失敗,退出迭代
else a0 = a0 - f1 / f2;
if(fabs(f1 / f2) < 0.01) break; //迭代精度小于0.01則終止迭代
if(a0 > 3.0) a0 = 3.0;//限制a上限為3
if(a0 < 0) a0 = 0.0; //限制a下限為0
}
IP->a= a0;
}
(4)優(yōu)質(zhì)原始題入庫
原始題的項目參數(shù)估計完成后,開始挑選優(yōu)質(zhì)試題入庫。首先,審查原始題的區(qū)分度,淘汰區(qū)分度低的原始題,保留區(qū)分度合適的原始題。其次,為了保證新題與舊題的融合,調(diào)整原始題難度分布至科學(xué)合理。原始題入庫后形成新的題庫。再次,審查題庫的區(qū)分度與難度的分布,并暫時屏蔽曝光率高的試題,以保證有足夠多且安全的試題量適合各種特質(zhì)水平的被試者施測。
● 模擬仿真
首先以標準正態(tài)分布模擬生成1000名被試者的能力真值~N(0,1),并產(chǎn)生編號和姓名等信息項后導(dǎo)入被試者信息表。然后模擬生成1000個區(qū)分度為a、難度為b的項目作為試題庫,并導(dǎo)入題庫信息表,項目區(qū)分度參數(shù)a和難度b的分布分別為對數(shù)標正態(tài)分布lna~N(0,1)和標準正態(tài)分布b~N(0,1),能力真值介于-3至3之間,b介于-3至3之間,a介于0.2至2.5之間。最后任意生成100個項目作為原始題并導(dǎo)入原始題信息表。
在原始題數(shù)為100、被試者為1000的情況下,令難度參數(shù)的初值=0,采用條件極大似然估計法估計項目難度參數(shù)。實驗獨立重復(fù)模擬30次,其結(jié)果如圖3所示。
在原始題數(shù)為100、被試者為1000的情況下,采用1PLM估計原始題難度,再把已經(jīng)估計原始題的難度作為已知值,采用CMLE方法估計原始題的項目區(qū)分度。實驗獨立重復(fù)模擬30次,其結(jié)果如圖4所示。
ABS、RMSD值越小,其估計準確度就越高。實驗結(jié)果表明,原始題的項目參數(shù)估計的精確度隨其植入次數(shù)的增加而增加。
● 結(jié)束語
師范生的教育技術(shù)能力測評CAT題庫建設(shè)還存在兩個突出的技術(shù)問題:項目參數(shù)估計和等值。原始題在被試者進行自適應(yīng)測試的過程中植入,解決了樣本采集異常困難的問題,并保證了試題的安全性。采用自適應(yīng)參數(shù)估計法對原始題進行參數(shù)估計,確保了項目參數(shù)的精度,并無需再做等值。隨時更新題庫的內(nèi)容,確保試題的內(nèi)容效度和統(tǒng)計質(zhì)量,保障題庫安全和測試公平,對自適應(yīng)測試發(fā)展具有重要意義。本題庫建設(shè)主要應(yīng)用于客觀題方面,并正在師范生的《現(xiàn)代教育技術(shù)》自適應(yīng)測試系統(tǒng)中應(yīng)用,效果良好,但如何做主觀題原始題的參數(shù)估計還有待進一步研究。
參考文獻:
[1]鄭紹紅.開放大學(xué)課程題庫建設(shè)研究[J].中國遠程教育研究,2014(1).
[2]陳仕品,張劍平.《現(xiàn)代教育技術(shù)》精品課程自適應(yīng)測試系統(tǒng)的設(shè)計[J].中國電化教育,2008(9):93-96.
[3]邱紅霞.基于Web的自適應(yīng)測試系統(tǒng)的設(shè)計與實現(xiàn)——以《現(xiàn)代教育技術(shù)》國家精品課程為例[D].金華:浙江師范大學(xué),2009.
[4]張倩倩.IRT在《現(xiàn)代教育技術(shù)》題庫構(gòu)建中的應(yīng)用[D].濟南:山東師范大學(xué),2011.
[5]毛秀珍,辛濤.認知診斷CAT中項目曝光控制方法的比較[J].心理學(xué)報,2013(6).
[6][10]田懷鳳,袁琰,王立,陳玉泉.機助自適應(yīng)考試(CAT)系統(tǒng)題庫的仿真研究[J].計算機仿真,2005(7):246-260.
[7]王建忠,張萍,等.考試系統(tǒng)中題庫量與試題量的關(guān)系研究[J].計算機應(yīng)用研究,2010(2):611-613.
[8]余勝泉,何克抗.網(wǎng)絡(luò)題庫系統(tǒng)的設(shè)計與實現(xiàn)[J].中國遠程教育,2000(9):53-57.
[9]張鴻.計算機自適應(yīng)題庫的建立[J].電子技術(shù)應(yīng)用,2009(8):152-154.
[11]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)[M].南昌:江西教育出版社,1998.
[12]游曉峰.CAT中原始題項目參數(shù)的估計[D].南昌:江西師范大學(xué),2008.
[13]特稿.中小學(xué)教師教育技術(shù)能力標準(試行)[J].中國電化教育研究,2005(2):5-9.
[14][16]劉麗平,王文杰,等.計算機自適應(yīng)考試(CAT)系統(tǒng)題庫的設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2006(3):10-12.
[15]Debevec P,YiZhou Yu,et al.Efficient Wiew-Dependent Image-based Renderiing with Perspective exture-Mapping[C].9th Eurographics Rendering Workshop,1998:105-106.
作者簡介:楊丹(1978—),女,江西樟樹人,講師,碩士,主要從事現(xiàn)代教育技術(shù)、教學(xué)設(shè)計研究;劉漢明(1970—),男,江西南康人,副教授,博士,主要從事軟件工程研究。
基金項目:江西省教學(xué)改革研究項目“基于原始題植入的《現(xiàn)代教育技術(shù)》CAT題庫系統(tǒng)研究”(項目編號:JXJG-12-11-17)階段性研究成果。