閆成海 杜文久 宋乃慶 張 健
(1.西安文理學院數(shù)學與計算機工程學院,西安710065;2.西南大學數(shù)學與統(tǒng)計學院,重慶400715;3.重慶市教育考試院,重慶401147)
高考對試題命題和質(zhì)量的評價至關重要。目前,試卷的制定和評價主要是基于經(jīng)典測量理論(Classical Test Theory,CTT)和項目反應理論(Item Response Theory,IRT)。CTT利用桑代克(E.L.Thorndike)“凡物之存在必有其數(shù)量”和麥柯爾(W.A.McCall)“凡有數(shù)量的東西都可以被測量”作為理論依據(jù)①。根據(jù)學生的考試分數(shù)進行直接評價,也稱為真分數(shù)理論。CTT理論試卷評價方法簡單、運算方便,易于掌握,是我們目前廣泛熟悉和應用的測量理論。它對試卷的評價主要是依靠試題的難度、區(qū)分度、效度和信度進行。除了難度是一個比例之外,其余三個指標都是依靠相關性概念來對試卷進行評價分析。CTT理論依靠樣本,樣本不同對同一份試題的評價也就會產(chǎn)生差別。IRT也稱潛在特質(zhì)理論,起源于20世紀三四十年代的心理測量研究?;谝欢僭O,用一個數(shù)學函數(shù)去刻畫被試在項目上可觀察的作答表現(xiàn)(得分)與其不可觀察的特質(zhì)水平(能力)之間的關系,利用這個函數(shù)關系,可以對被試在項目上的作答反應進行預測,同時也可以利用被試在項目上的作答反應對被試的能力進行估計。可以說,模型與假設是整個IRT的核心和基礎。目前比較常用的數(shù)學模型是二參數(shù)邏輯斯蒂模型、三參數(shù)邏輯斯蒂模型、Rasch模型和等級評分模型②。
IRT已成為一種新的現(xiàn)代心理與教育測量理論,如SAT、PISA等考試,都是基于IRT的應用。我國現(xiàn)在大學英語四、六級考試也開始運用IRT進行等值研究③。王曉華④、沈南山⑤、趙守盈⑥等人分別就IRT在教育考試命題質(zhì)量、學業(yè)測試、標準化考試等方面進行了研究。但是這些研究都還不涉及實際的普通高考。為此,本文以某地區(qū)高考數(shù)學數(shù)據(jù)為例,從項目參數(shù)、評價方式和試卷估計精度對CTT與IRT進行比較分析,以期能為IRT應用于高考數(shù)學考試提供一種探索性模式。
在這次的高考中,數(shù)學試卷包含了填空題、選擇題、解答題共3個大題,其中填空題包含5個小題,選擇題包含10個小題,解答題包含6個小題,共有21個小題。有十多萬被試參加了當年的考試,數(shù)據(jù)處理采用了IRTP軟件和EXCEL進行處理,結(jié)果如表1所示。
在用IRT分析測驗數(shù)據(jù)時,首先需針對不同的項目選擇不同的模型。填空題選用二參數(shù)邏輯斯蒂模型,選擇題選用三參數(shù)邏輯斯蒂模型,并且c參數(shù)取為0.25,解答題選用等級評分模型。試題解答是需要設置步驟的,并根據(jù)參考答案的給分步驟,也相應設置了節(jié)點(得分點),全卷一共有40個節(jié)點。在CTT中,對選擇題和填空題的項目難度定義為被試在項目上的正確反應比例,解答題的難度定義為被試在項目上的平均分比項目總分,項目難度的取值范圍在0~1之間,難度值越大,項目反而越簡單,也就是說項目的難易程度與難度指數(shù)的大小是反序的。項目區(qū)分度則定義為被試在測驗中獲得的總分與項目分數(shù)之間的相關系數(shù),由此得到的區(qū)分度也叫內(nèi)部一致性系數(shù)。
表1 IRT與CTT項目指標分布圖
在CTT下的難度與區(qū)分度參數(shù)分布如表2。從表2可知,在該次考試中,信度系數(shù)為0.84。難度指數(shù)小于0.3的試題有3題,位于0.3至0.7之間的試題有10題,大于0.7的試題有8題。區(qū)分度指數(shù)除了有兩個題小于0.3以外,其余的值均大于0.3。因此,從CTT的觀點來看,該次考試的難度中等偏易,質(zhì)量較好。
表2 難度與區(qū)分度參數(shù)分布表
在IRT下的難度與區(qū)分度參數(shù)的分布如表3。從表3看到,項目難度或類別難度參數(shù)b在-2以下的有1個,位于-2~2內(nèi)的項目參數(shù)或類別參數(shù)有36個,大于2的類別難度或項目難度參數(shù)有3個。項目或類別區(qū)分度參數(shù)a小于0.5的有1個,0.5~2的項目有24個,2以上的項目有15個。
表3 項目難度與區(qū)分度參數(shù)分布
在IRT中,難度參數(shù)b的取值范圍為一切實數(shù),一般要求b參數(shù)位于-2~2之間⑦,b參數(shù)過大與過小的項目都不利于對被試的能力參數(shù)進行有效估計。在本次考試中,有36個項目或類別b參數(shù)位于-2~2之間,因此從IRT角度看,這36個項目(或類別)的b參數(shù)是合適的,但是項目21有3個類別b參數(shù)都大于200。從IRT角度看,這樣的試題是過難的。因為無論是高能力的被試或者是低能力的被試都無法對這樣的試題做出正確反應,因此這樣的試題不能對被試的能力進行有效的鑒別。另外有一道選擇題的難度參數(shù)為-9.9,它意味著幾乎所有的被試都能對該試題做出正確反應,這樣的試題仍然不能對被試的能力進行有效鑒別。在IRT中,a參數(shù)在理論上可以取一切正實數(shù),但是為了對試題(類別)參數(shù)及被試的能力參數(shù)進行有效估計,一般要求a參數(shù)位于0.5~2之間⑧,過大或者過小的a參數(shù)都會對參數(shù)的估計精度帶來不利影響。然而在表3中看到,有一個試題的a參數(shù)小于0.5,有15個試題或者類別a參數(shù)大于2,因此從IRT角度看,這些試題的a參數(shù)是不理想的。特別是第21題有3個類別a參數(shù)的估計值大于100。第1題的a參數(shù)只有0.18,這樣的試題對被試的能力估計幾乎沒有任何貢獻。當然這樣的結(jié)果可能與這套試題是基于CTT制定有關。
從表1中可知,當CTT中項目難度值相同時,它所對應的IRT中的難度參數(shù)值有些差別不大,如第2題和第4題,這是兩個選擇題,在各節(jié)點的難度參數(shù)都為0.89。它各節(jié)點所對應的IRI難度參數(shù)分別為-1.22和-1.11。有些題目差別就大一些,如20題第2節(jié)點和第4個節(jié)點,CTT難度參數(shù)為0.42,IRT難度參數(shù)卻分別為-0.02和0.95。這就是說,對于相同的試卷,CTT項目難度參數(shù)相同時它在IRT中的難度參數(shù)并非一致。
CTT與IRT難度參數(shù)比較如圖1所示,橫坐標是試題數(shù)目,3表示第3題,16.4表示第16題的第4個節(jié)點,縱坐標表示取值。由于IRT里面的21題第3步以后的題目難度區(qū)分度值太大,故在對比圖里面沒有畫出。
從圖1中可以看出,CTT的難度參數(shù)和IRT的難度參數(shù)大體相似,但在某些項目上存在差異??梢园l(fā)現(xiàn),CTT和IRT的項目難度曲線走勢(即高低變化)大致相近,但IRT的變化更加鮮明一些、敏感一些,更容易觀測各個項目的特征屬性。⑨
圖1 CTT與IRT難度參數(shù)對比圖
從表1可以看出,當CTT中項目區(qū)分度參數(shù)值相同時,它所對應的IRT中項目區(qū)分度參數(shù)值差別不大,如第2題和第3題。這是兩個選擇題,在CTT下的區(qū)分度參數(shù)都為0.52,在IRT下的區(qū)分度參數(shù)分別為1.30和1.48。有些題目差別就大一些,如第20題第3、4節(jié)點,CTT區(qū)分度參數(shù)為0.75,IRT卻分別為2.71和3.55。在CTT下區(qū)分度參數(shù)值為0.75,這是一個尚可的值,在IRT下的值為2.71和3.55,卻是一個較差的值。這就說,對于相同的試卷,CTT項目區(qū)分度參數(shù)相同時它在IRT中的區(qū)分度參數(shù)并非一致。
CTT與IRT區(qū)分度參數(shù)的比較如圖2所示。從圖2可以看出,區(qū)分度參數(shù)具有難度參數(shù)同樣的特征,IRT區(qū)分度參數(shù)更容易觀測各個項目的特征屬性。
圖2 CTT與IRT區(qū)分度參數(shù)對比圖
當CTT中區(qū)分度與難度參數(shù)一致時,它所對應的IRT中區(qū)分度與難度參數(shù)值差別不大,如第3題和第11題,在CTT中區(qū)分度與難度參數(shù)值一致,分別為0.52和0.92,在IRT中所對應的區(qū)分度與難度參數(shù)卻是不同的,第3題區(qū)分度和難度參數(shù)分別為1.48和-1.38,第11題區(qū)分度與難度參數(shù)分別為1.28和-1.64。有些題差別就大一些,如20題第2和第3節(jié)點,在CTT中區(qū)分度與難度參數(shù)為0.75和0.42,在IRT中區(qū)分度與難度參數(shù)卻分別為1.82、-0.02和2.71、0.50。
綜上可知,CTT參數(shù)在反映試題的難度和區(qū)分能力上有些粗糙,IRT參數(shù)比CTT參數(shù)更精確的反映試題參數(shù)問題。
在CTT中對試題的評價主要是基于難度和區(qū)分度。IRT的試題評價不僅僅是難度和區(qū)分度這兩個指標,重要的是引入項目信息函數(shù)這個概念。例如第11題的項目信息函數(shù)圖如圖3。
圖3 第11題項目信息函數(shù)
圖4 第11題項目特征曲線
從圖3可知,第11題的項目信息函數(shù)值在0.5附近,它所提供的信息一般。在θ=-1.6時,達到峰值,對于能力 -1.6的被試提供了最大的信息。在能力大于和小于的被試提供了較少的信息,這個題目適合低水平能力的被試。它的IRT難度與區(qū)分度參數(shù)分別為-1.64和1.28,項目特征曲線如圖4,也是被試得0分和1分的概率圖。IRT對題目的評價主要是看該試題與這個能力段的被試是否匹配。在CTT下第11題的難度是0.92,區(qū)分度是0.52。它的難度不好,但區(qū)分度較好。再比如,第12題的項目信息函數(shù)如圖5。
圖5 第12題項目信息函數(shù)
圖6 第12題項目特征曲線
從圖5可知,第12題的項目信息函數(shù)值遠遠大于0.5,它提供的項目信息很好。在(-0.5,0.5)提供了較多的信息,對在這個能力區(qū)間的被試提供了較大的信息,尤其對于能力0.2附近的被試提供了最大的信息量,對于能力大于1.5和能力小于-1.5的被試提供的信息較差。它的IRT區(qū)分度與難度參數(shù)分別為1.75和0.03,項目特征曲線如圖6。CTT難度與區(qū)分度參數(shù)分別為0.54和0.62,說明CTT下試題區(qū)分度較好。從上可知,CTT是絕對的,IRT對試題進行評價更精細、更客觀,而且是相對的。
在CTT中以學生的測驗分數(shù)代替學生的能力,所有被試的數(shù)學成績分布如圖7所示。
圖7 測驗分數(shù)分布
從圖7可知,被試的測驗分數(shù)分布呈現(xiàn)明顯偏態(tài)分布,其峰值位于90分至105分之間,高分數(shù)段的被試所占比例較多,低分數(shù)段被試所占比較小。這說明當年高考數(shù)學試題偏易,這與難度指數(shù)的分布情況是一致的。
在IRT中主要用能力參數(shù)描述被試的學業(yè)成就,由于人們對能力參數(shù)不習慣,為此可以將能力參數(shù)轉(zhuǎn)換為人們熟悉的“分數(shù)”。設
通過上述轉(zhuǎn)換,X的取值范圍為0~150,與測驗分數(shù)的取值范圍一致。由于X是由能力參數(shù)轉(zhuǎn)換得到的,因此我們稱X為能力分數(shù)。能力分數(shù)估計量是相合估計。就是說,如果某一被試的能力分數(shù)真值為 X0,是被試的能力分數(shù)估計值,那么,當試題樣本容量n→∞ 時,將依概率收斂于真值X0。測驗分數(shù)不具有這樣的性質(zhì)。因為在CTT中,總分是固定的,當試題增加時,每一題的得分就要重新劃定,這時測驗分數(shù)的意義已經(jīng)不是原來意義上的分數(shù)了。只有在同一個測驗中重復做無窮多次,被試的測驗分數(shù)才是相合的。然而在實踐中,這是很難做到的。由于能力參數(shù)具有不變性,因此由能力參數(shù)轉(zhuǎn)換而得到的能力分數(shù)也同樣具有不變性這一性質(zhì)。換句話說,被試在測驗中即可參加A卷測驗,也可參加B卷測驗,除去抽樣誤差外,將獲得相同的能力估計。
圖8 能力分數(shù)分布
所有被試的數(shù)學能力分數(shù)分布如圖8所示。從圖8可以看出,被試的能力分數(shù)分布與測驗分數(shù)分布存在較大差異,能力分數(shù)分布呈現(xiàn)明顯的正態(tài)分布特征,其峰指出現(xiàn)在75~90分之間,占被試總數(shù)的30.3%。能力分數(shù)位于105~120分與120~135分之間的被試分別占總數(shù)的5.5%和1%,測驗分數(shù)占比分別為20.3%和13.8%的比例均有較大幅度降低。位于135~150分之間的被試也由3.2%降低到0.6%。這表明在IRT框架下,去掉了一些虛假的高分,使分數(shù)的分布更趨于合理。
在CTT中,對測驗精度主要用信度和測驗標準誤來進行刻畫。該次數(shù)學考試的信度系數(shù)為0.84,測驗的標準誤12.52,學生測驗分數(shù)與真實分數(shù)之間的平均誤差是12.52。信度是一個籠統(tǒng)的、粗略的指標,它只是大致的描述了被試的測驗分數(shù)與真實分數(shù)之間的平均誤差。
在IRT中,刻畫試卷信度是利用測驗信息函數(shù)這個概念,整體評價。試卷的測驗信息函數(shù)如圖9所示。
圖9 測驗信息函數(shù)
從圖9中可以看出,在區(qū)間(-1,1)內(nèi),測驗信息函數(shù)值均大于25,該測驗提供了較大的信息量,而在這之外則提供了較少的信息量,說明這是一次不錯的測驗。從圖9可以看出,該圖呈雙峰型,在能力值-0.8和0.9附近,該項目的信息量分別達到了兩個不同的峰值。而在(-0.5,0.4)之間存在一個凹區(qū)間,因此在這個區(qū)間提供的信息量較少。
在IRT中,刻畫測驗誤差的方法則是置信區(qū)間,IRT能力分數(shù)估計95%的置信區(qū)間為,其中I(θ)是測驗信息函數(shù)⑩。
該次測驗能力分數(shù)估計值95%的置信區(qū)間如圖10所示,其中,橫坐標為能力分數(shù)的估計值,縱坐標表示能力分數(shù)真值,下曲線表示置信區(qū)間的左端點曲線,上曲線表示置信區(qū)間的右端點曲線。比如假設某被試的能力分數(shù)估計值為75分,那么在95%的意義下,該被試的真實分數(shù)約位于64~85分之間。
圖10 能力分數(shù)置信區(qū)間
從圖10看到,在該次考試中,對能力分數(shù)位于45~105分的被試的估計精度較高,其估計誤差略為11分左右,而對能力分數(shù)估計值位于45~105分以外的被試,其估計誤差較大。特別是對能力分數(shù)估計值大于130和小于30分的被試,其估計誤差大于30分,這樣大的估計誤差實際上已經(jīng)沒有多大的意義。這一結(jié)果說明,在同一次測驗中,對于不同能力的被試,其能力分數(shù)的估計誤差也不相同。
通過上面的數(shù)據(jù)分析看到,IRT克服了CTT中的許多缺點,主要表現(xiàn)在以下4個方面:
1.在IRT框架下,它的項目參數(shù)比CTT框架下的參數(shù)值更具有精確性。
2.能力分數(shù)分布優(yōu)于測驗分數(shù)分布。這表明在IRT框架下,去掉了一些虛假的高分,使分數(shù)的分布更趨于合理。
3.IRT比CTT有更好的估計精度。IRT定義了CTT中沒有的項目信息函數(shù)和測驗信息函數(shù),它是一個具體地、動態(tài)地刻畫項目和測驗性能的綜合指標。它指出了每個項目在不同能力水平處提供的信息量的大小,IRT拋開了平行形式的信度觀念,直接面向測量標準誤,用信息函數(shù)來計算估計精度。
4.IRT提出試題編制信息量最大原則。IRT提出了測驗編制的指導原則,以項目難度與考生能力水平匹配的原則,即信息量最大原則,在實際編制測驗時以信息量為指導的原則。
然而,也不能忽視IRT存在的一些不足。目前,在IRT下能力是基于單維性假設。實際上,被試的能力不止一種,IRT也從單維研究走向多維?,多維能力參數(shù)估計還處于研究之中。應用也需要一定的軟件支撐。對項目研究也有一些偏差,個別項目上CTT參數(shù)較好,IRT參數(shù)值卻比較差,這些都還需要繼續(xù)研究。
總之,雖然IRT目前存在著一些缺陷,但是在教育考試中尤其是高考數(shù)學考試中使用IRT進行測驗的編制、報告被試的能力水平和項目性能的解釋在理論上比CTT更嚴格、更完備,在實踐中也更有效、更公平。
注 釋:
①朱德全、宋乃慶:《教育統(tǒng)計與測評技術》,重慶:西南師大出版社,2008年第67頁。
②⑩杜文久:《高等項目反應理論》,重慶:西南師大出版社,2007年第71-88、153-156頁。
③陳謹、何靜等:《英語標準化考試評價中IRT與CTT的比較研究》,《數(shù)學的實踐與認識》2011年第20期。
④王曉華、文劍冰:《項目反應理論在教育考試命題質(zhì)量評價中的應用》,《教育科學》2010年第3期。
⑤沈南山:《基于IRT模型的數(shù)學學業(yè)成就水平測試分析》,《安徽師范大學學報》(社科版)2012年第1期。
⑥趙守盈、石艷梅等:《項目反應理論在大規(guī)模選拔性考試試題質(zhì)量評價中的應用》,《教育學報》2013年第1期。
⑦ Lord,F(xiàn).M.Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates,1980.
⑧ Hambleton,R.K.Swaminathan,H.Item Response Theory:Principles and Applications.Kluwer-Nijhoff Publishing,1985.
⑨何穗、吳慧萍:《基于教育測量理論的中學數(shù)學試卷質(zhì)量評價研究》,《教育測量與評價》(理論版)2012年第8期。
?丁樹良、羅芬等:《項目反應理論新進展專題研究》,北京:北京師范大學出版社,2012年第109頁。