詹沛達 王立君 楊衛(wèi)敏
由于社會的進步和知識經(jīng)濟的不斷發(fā)展,考試作為衡量能力的一種手段已經(jīng)深入到社會的各個方面。隨著科學技術(shù)的進步,考試的方式也在發(fā)生著革命性的變化:從傳統(tǒng)的紙筆考試到計算機輔助考試,到具有自適應能力的計算機化自適應測驗(Computerized Adaptive Testing,CAT)考試,其實現(xiàn)方法由單機形式逐步向不受時間、地點的網(wǎng)絡(luò)考試發(fā)展。CAT是基于項目反應理論(Item Response Theory,IRT)、計算機技術(shù)和現(xiàn)代教育技術(shù)的一種測驗形式,它根據(jù)被試的在已作答項目上的表現(xiàn)自適應地從題庫或剩余題庫中選擇測驗項目施測。與傳統(tǒng)紙筆測驗相比,CAT的主要優(yōu)點在于使用較少的題目而達到對被試能力值更精準的估計(Weiss,1982)。
CAT包括六個基本組成部分:采用的項目反映模式、題庫、初始項目的選擇、參數(shù)估計方法、選題策略和測驗終止規(guī)則(Weiss&Kingsbury,1984)。其中,選題策略作為CAT的重要環(huán)節(jié)之一,它的好壞與測驗的信、效度,測驗安全性以及測量準確性直接相關(guān)。就CAT中最為經(jīng)典的最大Fisher信息量(Maximum Fisher Information,MFI,Lord,1977)策略而言,雖然其測驗效率高、能力估計準確,但由于沒有考慮題目的曝光控制問題,會導致題目調(diào)用很不均勻,影響了題庫的使用率,因此MFI很少單獨應用在實際的自適應測驗系統(tǒng)中。對此,前人也提出了一系列改進方法,主要包括S-H法(Sympson-Hetter method,S-H,Sympson&Hetter,1985)、漸進法(Progressive Method,PG,Revuelta& Ponsoda,1998)、比例法(Proportional Method,PP,Segall,2004)、a分 層 法(a-STRatified method,a-STR,Chang&Ying,1999)、b模塊化的a分層法(BAS,Chang,Qian,&Ying,2001)等。
其中,a-STR作為較為獨特且運用較廣的一種選題策略可以有效控制題目曝光率以提高測驗的安全性。針對a-STR存在的些許不足,前人也對其進行了一系列的改進,但仍有一些不足沒有得到改進,如(1)測驗是固定長度的,而通常情況下自適應測驗都是不定長的;(2)需要人為在測驗前確定分層數(shù)量,且分層數(shù)量固定不變,也沒有失效時間。鑒于這兩個問題,鹿士義和張堅(2011)提出了動態(tài)a分層方法(Dynamic a-Srtatified Method,DAS)。在DAS中隨著測驗的進行分層數(shù)逐漸減少,直到減到一個分層后方法失效,自動退化為如最大信息量法進行選題,其分層數(shù)減少的計算方法如下:
式中,Ns為當前分層數(shù),Nd為初始分層數(shù)量(原文為策略失效時的有效題目數(shù)),Na為已施測的題目數(shù),Nc為候選的題目數(shù),v為速度因子。鹿士義等(2011)認為,Ns會隨著Na的增加而減少,這也使得每層中的題數(shù)逐漸增加,從而候選的區(qū)分度較高的題目也逐漸增加,這樣也達到了區(qū)分度較高的題目被留在測驗后期階段施測的目的,與a-STR在效果上差不多。此外,DAS的整個測驗階段都在同一個分層中進行,因此無須設(shè)定測驗長度,這適應了自適應測驗的要求。
與a-STR不同,DAS不要求固定的階段選題策略,因此提供了一種有待驗證的、較好的思路:在測驗前期(分層法失效前)保留分層法的特色(提高區(qū)分度較小的題目的曝光率),又能在能力估計較精準的測驗后期(分層法失效后)使用效率更高的方法來進一步提高測驗的效率、減少測驗的長度。但通過分析鹿士義等(2011)文章中的結(jié)果,我們認為DAS在測驗效率、曝光率控制方面的表現(xiàn)均不突出,此外,其文中也沒有涉及動態(tài)分層法和非動態(tài)分層法在不定長測驗中的對比研究。因此本文針對DAS的上述問題,通過結(jié)合目前已有的研究提出了新的方法,以期對DAS進行更好地優(yōu)化,同時探究DAS不要求固定階段選題策略的思路是否有較好的表現(xiàn)。本文所結(jié)合的研究有:(1)曝光因子(exposure-control factor,ecf,程小楊,丁樹良,嚴深海,朱隆尹,2011);(2)最大信息量分層法(Maximum Information Stratification Method,MIS,Barrada,Mazyele,&Olea,2006)。此外,將動態(tài)分層法和非動態(tài)分層法在不定長測驗中進行了對比。
伯恩鮑姆(A.Birnbaum)給出了如下的三參數(shù)Logistic模型(3PLM)(漆書青,戴海崎,丁樹良,2002):
式中,θ為被試能力,D為常數(shù)(一般取值1.7),aj、bj、cj分別表示第 j個項目的區(qū)分度、難度和猜測度,Pj(θ)表示能力為θ的被試在第j個項目上正確作答的概率。
2.2.1 關(guān)于曝光因子(ecf)的簡介
針對CAT中使用MFI法選題會導致項目的使用不均勻,影響考試安全的缺點,程小楊等(2011)在MFI的基礎(chǔ)上引入一個項目j的控制曝光因子ecf:
式中,mj表示項目j被前m-1個考生調(diào)用的次數(shù),m表示前m-1個考生調(diào)用題庫中所有項目的平均次數(shù),即為題庫項目總數(shù)。ec(fj)會隨著mj的增大而增大。更具體的內(nèi)容可參見程小楊等(2011)的文章。
2.2.2 關(guān)于最大信息量分層策略(MIS)的簡介
Barrada,Mazyele和 Olea(2006)在分析 a-STR和BAS后,發(fā)現(xiàn)它們只慮了兩個題目參數(shù):題目區(qū)分度a和題目難度b,而對于3PLM特有的題目猜測度c參數(shù)并沒有考慮在內(nèi)。由于在3PLM中,將題庫按照區(qū)分度a排序與按題目最大信息量Ijmax排序得到的結(jié)果并不一致,與最大信息量Ijmax對應的能力值θjmax也不會與題目難度b相等。因此,在3PLM中a-STR策略和BAS策略并不會達到應有的效果(詹沛達,王立君,2012)。為了將題目猜測度c參數(shù)引入到分層法中,Barrada等人(2006)對a-STR和BAS進行了兩處重要的修改:一是使用題目最大信息量Ijmax代替區(qū)分度a;二是用題目信息函數(shù)達到最大值時對應的能力值θjmax代替難度b。
式中,aj是題目 j的區(qū)分度參數(shù),cj是題目 j的猜測度參數(shù)。
MIS的操作步驟與a-STR類似,具體可參看Barrada等人(2006)、詹沛達和王立君(2012)的文章。
為了能改善DAS在測驗效率和曝光率控制方面的變現(xiàn),依次將ecf和MIS引入DAS中,以期對DAS進行更好地優(yōu)化。
2.3.1 引入曝光因子的動態(tài)a分層法(DAS-ecf)
受程小楊等(2011)提出引入曝光因子的按a分層法的啟發(fā),對DAS加入ecf以形成新的選題策略,DAS-ecf,被試選擇項目j滿足以下公式;
分析公式(6),當mj越大,ecf(j)也越大,即該項目被調(diào)用的次數(shù)越多,則它在后面被選中的概率越小。如此達到更均勻地調(diào)用項目的目的。當然在實際施測過程中,為避免mj為0的情況,我們用mj+ε(ε為足夠小的正數(shù))來代替mj,用m+ε代替m(程小楊等,2011)。
2.3.2 引入曝光因子的最大信息量動態(tài)分層法(DMIS-ecf)
在考慮到DAS沒有考慮到c參數(shù)的同時,也希望能將DAS和MIS的優(yōu)點進行融合。首先,對MIS進行修改,形成類似于DAS的DMIS,即最大信息量動態(tài)分層法。之后,與DAS-ecf一樣,將ecf引入DMIS以形成DMIS-ecf,被試選擇項目j滿足以下公式:
與DAS-ecf中一樣,隨著項目被調(diào)用的次數(shù)的增加,其在后期被選中的概率減小。此外,同樣用mj+ε(ε為足夠小的正數(shù))來代替mj,m+ε代替 m。
本研究分為兩個實驗,且實驗一與實驗二的施測過程、評價指標均相同。
3.1.1 被試及題庫模擬
當被試能力真值和題目參數(shù)真值均未知時,要評價新的CAT選題策略對能力估計的影響需用Monte Carlo模擬實驗。本研究基于3PLM,采用Monte Carlo模擬方法,文中的模擬數(shù)據(jù)(包括題目參數(shù)、被試能力參數(shù))和CAT的施測程序均采用R version 2.15.0(64-bit)編寫運行。模擬數(shù)據(jù)結(jié)構(gòu)(陳平,丁樹良,林海菁,周婕,2006)如下:
(1)產(chǎn)生一批題目參數(shù),各參數(shù)分布情況分4種情況:
①區(qū)分度參數(shù)a服從對數(shù)正態(tài)分布,難度參數(shù)b服從標準正態(tài)分布,記為lna~N(0,1),b~N(0,1);②ln a~N(0,1),難度參數(shù)b服從均勻分布,記為b~U(3,3);③a~U(0.2,2.5),b~N(0,1);④a~U(0.2,2.5),b~U(3,3)。對于以上四種題庫分布,猜測概率參數(shù)c均服從α為5和β為17的貝塔分布,記為c~Beta(5,17),且a∈[0.2,2.5],b∈[-3,3]。每種情況均有800個項目。
(2)模擬的被試數(shù)量為1000人,能力參數(shù)θ服從標準正態(tài)分布,記為θ~N(0,1)。
3.1.2 實驗設(shè)計
在實驗一中,為方便與前人的研究進行對比,本文將MIS和a-STR的階段終止規(guī)則進行修改(見下文),使其適用于不定長CAT,并對其引入曝光因子形成MIS-ecf和a-STR-ecf。最后,通過Monte Carlo模擬方法,基于3.1.1中的4種題目參數(shù)分布情況對以下8種方法進行對比研究:
(1)a分層法(a-STR);
(2)動態(tài)a分層法(DAS);
(3)最大信息量分層法(MIS);
(4)最大信息量動態(tài)分層法(DMIS);
(5)引入曝光因子的a分層法(a-STR-ecf);
(6)引入曝光因子的MIS分層法(MIS-ecf);
(7)引入曝光因子的動態(tài)a分層法(DAS-ecf);
(8)引入曝光因子的最大信息量動態(tài)分層法(DMIS-ecf)。
實驗一為4×8交叉研究,共32個實驗,每個實驗均對1000名被試進行20次CAT模擬全過程。研究采用不定長CAT測驗,當測驗總信息量達到16(即測驗標準誤為0.25)時測驗停止。除動態(tài)分層法外,其余選題策略的分層數(shù)均分為4,每層200題,且在不定長CAT中,其余選題策略均需要知道階段終止規(guī)則以便進入下一階段或下一層選題。本文中是根據(jù)信息量的大小作為階段終止規(guī)則,各階段(層)累積測驗信息量(程小楊等,2011;陳平等,2006;戴海琦,陳德枝,丁樹良,鄧太萍,2006)的大小滿足如下公式:
如前所述,I總設(shè)定為16,總分層數(shù)T為4,k表示當前所在層數(shù)或階段數(shù)。
此外,對于所有的動態(tài)分層法,需要在測驗進行之前設(shè)定好初始分層數(shù)Nd和加速因子v。為了與其他分層策略第一層的題數(shù)保持一致,將Nd設(shè)定為4。且鹿士義等(2011)指出最好的速度因子是0.2,因此本文將所有動態(tài)分層法的v都設(shè)定為0.2。
與DAS一樣,DMIS-ecf也不要求固定的階段選題策略。為探究不同階段選題策略對DMIS-ecf的影響,我們在實驗二中設(shè)定了三種不同階段選題策略的方法:(1)全程采用難度匹配法(即實驗一中的DMIS-ecf),將其定義為DMIS-ecf1;(2)分層策略失效前采用BM法且分層策略失效后采用MFI法,將其定義為DMIS-ecf2;(3)全程采用MFI法,將其定義為DMIS-ecf3。
同樣,通過Monte Carlo模擬方法,基于3.1.1中的4種題目參數(shù)分布情況對這3種方法進行對比研究。
施測過程分為初始探測階段和正式測驗階段。在初始探測階段,我們采用從剩余題庫中隨機抽取試題給被試作答,直到作答題數(shù)不少于3且作答總分既不為0分也不為滿分時,結(jié)束初始探測階段。根據(jù)被試的作答得分向量,估計能力初值,進入正式測驗階段。在正式測驗階段,針對不同的選題策略,從剩余題庫中調(diào)用與被試當前能力值匹配的項目。被試作答完成后,根據(jù)作答得分向量估計被試當前能力值。直到測驗總信息量達到16時,測驗結(jié)束。
測驗過程中,通過以下方法模擬被試得分(陳平等,2006):根據(jù)被試能力真值θ和當前所選擇的項目j的參數(shù),由公式(1)計算被試在第j個項目上的答對概率Pj(θ),再產(chǎn)生一個隨機數(shù)r(0≤r≤1),若r≤Pj(θ),則該被試在第j個項目上得1分,否則得0分。此外,假設(shè)被試能力的先驗分布為標準正態(tài)分布,采用貝葉斯期望后驗估計法(EAP)估計被試能力。
選題策略的優(yōu)劣直接關(guān)系到CAT的質(zhì)量,當其他條件固定僅改變選題策略時,對CAT的評價實際上就是對選題策略的評價(陳平等,2006),故本文采用以下評價指標:
其中,N為被試總數(shù);θi為被試能力真值;θ?i為被試能力估計值;Q表示平均測驗長度;Qi表示被試i的測驗長度;M為題庫大??;infi表示被試i的測驗信息總量;Aj是第j題曝光率,其計算公式為Aj=第j題被使用的次數(shù)/N;s是題目曝光率的標準差。重疊率定義為任意兩個隨機選取的被試的重疊題目數(shù)的期望值除以考試的長度,對于大樣本,測驗重疊率近似值為OR。
以上5個指標中,前4個指標越小越好,ef指標越大越好。其中OR越小,表明該方法選題重疊率越低;ABS越小,說明估計的精度越高;Bias越小,則表明該方法越接近無偏;值越小說明曝光率越均勻;而ef越大,說明測驗效率越高。為了更直觀地反映測驗總體效果,我們將這些指標進行統(tǒng)一量綱再加權(quán)求和(由于各選題策略的Bias指標本身很小,但其微弱的變化都會對統(tǒng)一量綱產(chǎn)生較大的影響,因此本文并未將Bias指標列入統(tǒng)一量綱中。此外,各指標的權(quán)重均設(shè)為1)。關(guān)于統(tǒng)一量綱具體操作方法見程小楊等(2011)、陳平等(2006)、戴海琦等(2006)的文章。
從4個實驗數(shù)據(jù)(表1-5)顯示,幾種選題策略的總體效果(平均統(tǒng)一量綱)從大到小的順序為:MIS-ecf、 a-STR-ecf、 DMIS-ecf、 DAS-ecf、 MIS、a-STR、DAS、DMIS。引入ecf的方法在各個指標上均比未引入ecf的方法要優(yōu)秀。動態(tài)分層法均比相應的非動態(tài)分層法表現(xiàn)要差,這也可能與動態(tài)分層法Nd和v的設(shè)定有關(guān)。引入c參數(shù)的M簇(以MIS為基礎(chǔ))策略總體上比A簇(以a-STR為基礎(chǔ))策略好,但差異很小。
表1 ln a~N(0,1),b~N(0,1),c~Beta(5,17)時的實驗結(jié)果
表2 ln a~N(0,1),b~U(-3,3),c~Beta(5,17)時的實驗結(jié)果
表3 a~N(0.2,2.5),b~N(0,1),c~Beta(5,17)時的實驗結(jié)果
表4 a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)時的實驗結(jié)果
表5 各階段被試的平均測驗長度
從題目參數(shù)分布情況對評價指標的影響看,參數(shù)a的改變對8種選題策略的影響較大,而參數(shù)b的改變的影響較小。事實上,在模擬實驗中發(fā)現(xiàn),選題策略的好壞還與題庫有弱依賴關(guān)系。題庫1和題庫2中,MIS-ecf均優(yōu)于a-STR-ecf,題庫3和題庫4中,MIS-ecf卻劣于a-STR-ecf。但從總體上講,選題策略在4種題目參數(shù)分布情況下的優(yōu)劣順序基本沒有變化,這說明不同選題策略的優(yōu)劣主要是其自身所固有的。
從ABS指標看,8種方法的測驗精度基本一致。但有一點值得注意。
從Bias指標看,8種方法的Bias值均接近于0,因此它們基本都是無偏估計。
從ef指標看,當選題策略引入ecf后,由于其重復選擇優(yōu)質(zhì)題目的概率下降,因此降低了該策略的效率。但動態(tài)分層法在引入ecf后,測驗效率反而提高了。此外,M簇策略在ef指標上表現(xiàn)優(yōu)于A簇策略。
從測驗長度看,8種選題策略測驗長度差異不大。
程小楊等(2011)曾指出:在引入曝光因子的選題策略中,引入ecf(j)來控制項目的選擇,但由于題庫中相應的優(yōu)質(zhì)項目(a值較大的項目)有限,而隨著被試人數(shù)的增多,是否會使這些項目調(diào)用較頻繁,從而這些項目的ecf(j)值會變大,而使較晚參加測驗的被試只能選擇a值小一些的項目導致測驗長度增加,這一問題值得重視。為了考察是否存在此問題,我們分別記錄了前期、中期、后期的被試的測驗平均長度,具體見表5(題庫分布為ln a~N(0,1),b~N(0,1),c~Beta(5,17)),從表5可知,對于前期、中期、后期的被試的測驗平均長度相差并不大,并未引起較晚參加測驗的被試的長度增加。其他三個題庫下的實驗結(jié)果也基本一致,因篇幅所限,故省略。
在實驗二中探究了不同階段選題策略對DMIS-ecf的影響,其實驗結(jié)果如表6所示。單從測驗效率指標(ef和測驗長度)看,隨著MFI法使用比例的增加確實會提高選題策略的效率,但從測驗安全性指標(χ2和OR)看,MFI法使用比例的增加會導致安全性降低。從本研究的統(tǒng)一量綱看,DMIS-ecf1明顯優(yōu)于另外兩個選題策略。雖然動態(tài)分層法不要求固定的階段選題策略,但如果對測驗沒有特殊的要求(如題量和測驗時間的限制),一般應全程采用難度匹配法作為階段選題策略。
表6 不同階段選題策略的DMIS-ecf的表現(xiàn)
本文基于3PLM模型對DAS引入曝光因子ecf和最大信息量分層策略MIS,形成了幾種新的選題策略,其中DMIS-ecf在各個評價指標上表現(xiàn)都良好,對DAS起到了明顯的優(yōu)化和提升,達到了本研究的目的。但從實驗一的結(jié)果可以看出,MIS-ecf和a-STR-ecf在各評價指標上都要優(yōu)DMIS-ecf,也即動態(tài)分層法在本研究中并未體現(xiàn)出其優(yōu)勢,這可能是動態(tài)分層發(fā)本身的缺陷,也可能和本研究對其初始參數(shù)的設(shè)定有關(guān),這在今后的研究中還有待做進一步的確定。此外,對于DMIS-ecf,如果測驗對題量和測驗時間沒有特殊要求,應全程采用難度匹配法作為階段選題策略。
實驗數(shù)據(jù)顯示,M簇策略在測驗效率上優(yōu)于A簇策略,而在安全性劣于A簇策略,但總體差異很小,因此可針對不同的測驗要求酌情選擇。但從觀念上講,M簇策略考慮到了3PLM獨有的猜測度c參數(shù),這是值得提倡的。
引入曝光因子ecf的選題策略會使項目的調(diào)用更加均勻、曝光率指標明顯降低,當然測驗長度有一定增加,而能力估計準確性相差不大,這為提高CAT的安全性提供了一條途徑(程小楊等,2011)。
當然本研究仍有一些問題值得今后做進一步的工作:(1)動態(tài)分層法初始參數(shù)的設(shè)定對DMIS-ecf的影響;(2)本研究中的MFI策略值比同類研究中值都大,且測驗長度較短,這可能與模擬測驗程序的編制水平或使用不同的模擬軟件有關(guān),今后還有待進一步提升和確定;(3)本文的重疊率指標(OR)采用了近似值,總體上反映了各被試間的曝光率的平均值,也即在一定程度上并不能完全反映出兩兩被試之間的重疊率;(4)在實驗中,MFI在統(tǒng)一量綱分數(shù)較低,其中一個主要原因是其值過大;此外統(tǒng)一量綱并沒有考慮Bias,是因為Bias微乎其微的變化也會對統(tǒng)一量綱產(chǎn)生較大影響,所以如何找尋一種能夠即不受較大相對差的影響,也不受較小相對差的影響的綜合評價方法也有待做進一步的研究。
[1]陳平,丁樹良,林海菁,周婕.等級反應模型下計算機化自適應測驗選題策略[J].心理學報,2006,38(3):461-467.
[2]程小楊,丁樹良,嚴深海,朱隆尹.引入曝光因子的計算機化自適應測驗的選題策略[J].心理學報,2011,43(2):203-212.
[3]戴海琦,陳德枝,丁樹良,鄧太萍.多級評分題計算機自適應測驗選題策略比較[J].心理學報,2006,38(5):778-783.
[4]鹿士義,張堅.題目曝光控制的動態(tài)a分層法[J].中國考試,2011(9):3-9.
[5]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學原理[M].北京:高等教育出版社.2002.
[6]詹沛達,王立君.CAT分層選題策略新探——最大信息量組塊分層策略[J].中國考試,2012(6):10-14.
[7]Barrada,J.R.,Mazuela,P.,&Olea,J.Maximum information stratification method for controlling item exposure in computerized adaptivetesting.Psicothema,2006(18):156-159.
[8]Chang,H.H.,&Ying,Z.a-stratified multistage computerized adaptive testing.Applied Psychological Measurement,1999,23(3):211.
[9]Chang,H.H.,Qian,J.,&Ying,Z.a-Stratified multistage computerized adaptive testing with b blocking.Applied Psychological Measurement,2001,25(4):333.
[10]Hambleton,R.K.,&Swaminathan,H.Item response theory:Principlesand applications.Hing-ham,MA:Kluwer.1985.
[11]Lord,F(xiàn).M.A Broad-range tailored test of verbal ability.Applied Psychological Measurement,1977(1):95-100.
[12]Revuelta,J.,&Ponsoda,V.A comparison of item exposure control methods in computerized adaptive testing.Journal of Educational Measurement,1998(35):311-327.
[13]Segall,D.O.A sharing item response theory model for computerized adaptive testing.Journal of Educational and Behavioral Statistics,2004(29):439-460.
[14]Sympson,J.B.,&Hetter,R.D.Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27thannual meetingof the Military Testing Association(pp.973–977).San Diego,CA:Navy Personnel Researchand Development Center.1985.
[15]Weiss,D.J.Improving measurement quality and efficiency with adaptive testing.Applied Psychological Measurement,1982,6(4):473.
[16]Weiss,D.J.,&Kingsbury,G.Application of computerized adaptive testing to educational problems.Journal of Educational Measurement,1984,21(4):361-375.