王天劍,彭中梅
(1. 貴州財經(jīng)大學(xué) 外國語學(xué)院,貴州 貴陽 550004;2. 貴州財經(jīng)大學(xué) 圖書館,貴州 貴陽 550004)
概化理論和EduG在教育測量研究中的應(yīng)用
——以試題難易度分析為例
王天劍1,彭中梅2
(1. 貴州財經(jīng)大學(xué) 外國語學(xué)院,貴州 貴陽 550004;2. 貴州財經(jīng)大學(xué) 圖書館,貴州 貴陽 550004)
概化理論是一種重要的現(xiàn)代教育和心理測量理論。它整合了方差分析與傳統(tǒng)的真分?jǐn)?shù)理論,形成一種新的測量信度評價技術(shù)。為了掌握概化分析技術(shù),討論了概化分析中的基本概念,并以一個試題難易度測量程序研究為例,介紹了利用軟件EduG進(jìn)行概化分析的基本程序和方法。
概化理論;EduG;教育測量
概化理論(Generalizability Theory, GT)是評價行為測量信度(reliability)的理論[1]。它整合了經(jīng)典測量理論(Classical Test Theory)與方差分析技術(shù)(Analysis of Variance),形成一種現(xiàn)代測量評價理論[2-4]。依據(jù)經(jīng)典測量理論,觀測分?jǐn)?shù)是真分?jǐn)?shù)與隨機(jī)誤差之和(X = T + E)。真分?jǐn)?shù)是測量特質(zhì)的真值,隨機(jī)誤差是測量中的所有偏差[4]。隨機(jī)誤差源于哪些因素?為探索這一問題,概化理論整合了方差分析的概念,將隨機(jī)誤差區(qū)分為不同的來源成分,估算各自所占權(quán)重,并計算信度系數(shù),反映測量的精準(zhǔn)度[5]?;诟呕治?,研究者不僅能評價既有測量程序之優(yōu)劣,也可以探索測量程序優(yōu)化之方案。概化理論在國外教育與心理測量中極受重視。美國心理學(xué)協(xié)會、教育研究協(xié)會和教育測量委員會聯(lián)合頒布的《教育和心理測量標(biāo)準(zhǔn)》(Standards for Education and Psychology Testing,AERA,2002)明確要求,在建立觀察和測量程序的信度與效度時,需依據(jù)概化理論[6]。根據(jù)對2000-2014年間8種SSCI期刊的綜述,邱均平等指出,美國教育評價理論研究的三個熱點中含有概話理論(其余兩個是項目反應(yīng)理論和經(jīng)典測量理論)[7]。
學(xué)校的一般測試都屬于教育測量范疇。近年來,國內(nèi)已有學(xué)者開始借助概化理論進(jìn)行相關(guān)研究。徐鷹等使用概化理論,考查了高考英語聽說模擬測試和CET作文評分程序的信度[8-9];關(guān)丹丹從概化分析視角,研究了閱讀理解測試的信度[10];基于概話理論,溫紅博等檢查了義務(wù)教育階段學(xué)生識字量測試的信度[11]。這些研究披露了測量程序中存在的各種缺陷,對于改進(jìn)測量設(shè)計具有重要參考價值。
教育測量貫穿教學(xué)的始末。從平時測試、期末測試、升學(xué)測試,到各種競賽測試等,無不需要采用具有較高信度和效度的測量程序。利用概化理論對測量數(shù)據(jù)進(jìn)行分析,對于提高測量信度具有重要意義。鑒于國內(nèi)關(guān)于概化理論應(yīng)用方法和操作入門的研究尚且有限,本文在描述概化分析基本程序的基礎(chǔ)上,以試題難易度分析為例,簡要介紹利用工具軟件EduG進(jìn)行概化分析的步驟(EduG系瑞士教育專家Jean Cardinet指導(dǎo)下開發(fā)的概化分析免費軟件,可從如下網(wǎng)頁下載:http://www.irdp.ch/ edumetrie/englishprogram.htm)。
1.1 確定觀察設(shè)計與估計設(shè)計
概化分析涉及的變量(測量的對象以及構(gòu)成測量條件的因素)統(tǒng)稱側(cè)面(facets)。觀察設(shè)計是指側(cè)面之間的結(jié)構(gòu)關(guān)系,主要包括交叉關(guān)系、套嵌關(guān)系及其各種組合派生的復(fù)雜關(guān)系。交叉關(guān)系是指每一個側(cè)面的每個水平,與其他任一側(cè)面的每個水平均存在接觸。套嵌關(guān)系是指一個側(cè)面的不同水平僅與另一個側(cè)面的一個水平結(jié)合。當(dāng)有三個或者更多側(cè)面時,會存在復(fù)雜的交叉套嵌關(guān)系,如先交叉后套嵌,先套嵌后交叉,或者層層疊加套嵌。例如測量中的被試為10名學(xué)生(S),評分者為2名教師(R),這時學(xué)生和教師就是兩個側(cè)面,其水平分別為10和2。倘若每個學(xué)生均需要接受每個評分員評分,即S和R的各個水平均有結(jié)合,則兩側(cè)面構(gòu)成交叉關(guān)系(表示為S×R,或者SR)。這樣可以產(chǎn)生10 × 2 = 20個數(shù)據(jù)。倘若5名學(xué)生接受一名評分員評分,其余5名學(xué)生接受另外一名評分員評分,即S的5個水平與R的一個水平結(jié)合,S的其余5個水平與R的另一水平結(jié)合,這時兩個側(cè)面存在套嵌關(guān)系,S套嵌于R之內(nèi)(表示為S:R)。這樣可以產(chǎn)生1× 5 + 1×5 = 10 個數(shù)據(jù)。如果再介入一個試題側(cè)面I,則會存在SRI(三側(cè)面完全交叉),S:RI (RI交叉,S套嵌于RI),SR:I (SR交叉,SR套嵌于I),或者S:R:I (S套嵌于R,R進(jìn)一步套嵌于I) 等復(fù)雜關(guān)系。
估計設(shè)計是指規(guī)定各個側(cè)面是以多少個水平估計多大的總體(Universe)。它包括三種類型:(1)側(cè)面總體固定,總體的各個水平全部出現(xiàn)在研究中;(2)側(cè)面總體固定,以隨機(jī)方式抽取的總體的部分水平出現(xiàn)在研究中;(3)側(cè)面總體無限大(INFINITE,或者INF),以隨機(jī)方式抽取的總體的部分水平出現(xiàn)在研究中。不同的估計設(shè)計研究結(jié)果具有不同的概化程度。第一種類型的研究結(jié)果僅適用于研究中涉及的側(cè)面的特定水平,這類模型叫做固定模型;第二種和第三種類型的研究結(jié)果在理論上可以概化到總體的所有水平中,這兩類統(tǒng)稱隨機(jī)模型。一個研究程序中可以同時容納不同類型的設(shè)計成分,這樣的模型叫做混合模型。
1.2 確定測量設(shè)計
測量設(shè)計是指確定哪些側(cè)面是區(qū)別側(cè)面(Differentiation Facet),哪些是工具側(cè)面(Instrumentation Facet),測量性質(zhì)是相對的,還是絕對的。區(qū)別側(cè)面是測量的對象,工具側(cè)面是構(gòu)成測量條件的因素。在教育研究中,一般情況下區(qū)別側(cè)面就是學(xué)生,我們傾向于關(guān)注學(xué)生的測試結(jié)果是否穩(wěn)定可靠。其他因素大多屬于工具側(cè)面,它們是為學(xué)生的測試服務(wù)的。但是基于研究興趣,我們也完全可以將區(qū)別側(cè)面和工具側(cè)面調(diào)換位置。例如,在一個由學(xué)生(S)、評分者(R)和試題(I)組成的交叉設(shè)計(SRI)中,如果旨在考查學(xué)生的成績是否可靠,則區(qū)別側(cè)面為學(xué)生,其余因素構(gòu)成工具側(cè)面(表示為S/QR);如果旨在檢查學(xué)生在不同試題上得分高低的穩(wěn)定性,則區(qū)別側(cè)面是試題,評分員和學(xué)生變成工具側(cè)面(Q/ SR);如果旨在檢查不同評分員給分差別是否穩(wěn)定,則評分員成為區(qū)別側(cè)面,學(xué)生和試題構(gòu)成工具側(cè)面(R/SQ)。
為了將學(xué)生(或其他研究對象)排名進(jìn)行的測量叫做相對測量,為了考查學(xué)生(或其他研究對象)是否達(dá)到既定標(biāo)準(zhǔn)的測量叫做絕對測量。例如競賽、拔尖、擇優(yōu)之類的測試均為相對測量,目標(biāo)測試、掌握性測試、過級測試、畢業(yè)測試等一般均視為絕對測量。之所以確定測量的性質(zhì)是相對的還是絕對的,目的在于選擇對應(yīng)的信度系數(shù)計算方法,并對結(jié)果做出正確的解釋。
借助軟件進(jìn)行概化研究非常簡便?,F(xiàn)以一組試題難易度分析為例,展示利用軟件EduG進(jìn)行概化分析的方法。
2.1 問題描述
現(xiàn)有從題庫中隨機(jī)抽取的10道英語語法題,為了確定其相對難易度,校方進(jìn)行了一項測試研究。受試者為80名初三學(xué)生,其中40名隨機(jī)抽自普通班,40名隨機(jī)抽自重點班。為了控制試題的順序效應(yīng),10道試以兩種版本(A卷和B卷)呈現(xiàn),其間唯一的差別是隨機(jī)排列順序不同。重點班和普通班各有一半(20名)學(xué)生做A卷,一半學(xué)生做B卷。每道題做對計1分,做錯記0分。每道題的難易度以通過率為考查指標(biāo),通過率越高越容易。例如,80名受試者中,有70名作對的題目,難易度為:70 / 80 = 0.875。由于每個學(xué)生都要完成10道題,80個學(xué)生可產(chǎn)生800個原始數(shù)據(jù)。試根據(jù)這些數(shù)據(jù),利用概化理論回答如下研究問題:
1)哪些因素對試題得分影響較大?
2)這種測量程序是否能準(zhǔn)確估計不同試題的難易度?
3)重點班與普通班在10道題上的平均得分是否類似?
4)試題呈現(xiàn)順序?qū)﹄y易度有影響嗎?
5)試題的難易度順序在重點班與普通班之間是否有別?
如上問題中,最核心的是測量程序能否準(zhǔn)確估計不同試題的難易度,其他屬于附帶性問題。
2.2 問題分析
2.2.1 觀察設(shè)計
本例共有四個側(cè)面:班級(Class或C),試卷版本(Version或V),試題(Question或Q)和學(xué)生(Student或S)。試題同班級、版本和學(xué)生等三個側(cè)面構(gòu)成交叉關(guān)系,因為同樣的試題被包含在不同的版本中,提供給每個班級的每個學(xué)生;班級同版本也構(gòu)成交叉關(guān)系,因為每個班級都要接觸不同版本的試卷;學(xué)生套嵌于班級和版本內(nèi)(Student within Class and Version,S:CV),因為班級和版本交叉后構(gòu)成四種條件:重點班-A卷,重點班-B卷,普通班-A卷,普通班-B卷,每種條件內(nèi)“套嵌”20名學(xué)生。整個測量的觀察設(shè)計為:(S:CV)Q,即班級和版本交叉,學(xué)生套嵌于班級和版本的交叉單元內(nèi),學(xué)生、班級和版本同試題構(gòu)成交叉關(guān)系。
2.2.2 估計設(shè)計
本例中班級為固定側(cè)面,水平為2,全域為2,因為研究者面對的班級類型僅有兩個水平:重點班和普通班,且兩個水平均進(jìn)入了測量程序。試卷版本水平為2,全域為無限,因為兩個版本僅代表兩種試題排列順序,實際上10道試題通過不同的排列組合,可以組成大量(1010)的可能版本,由于數(shù)量過大,版本全域可視為無限。試題的水平為10,全域為無限,因為10道試題僅為樣本,它們?nèi)∽灶}庫,而題庫可視為一個無限總體。學(xué)生盡管有80名,但套嵌于每個“班級-版本”單元內(nèi)的水平數(shù)為20。因為學(xué)生是從無限總體中抽取的,其全域為無限。表1呈現(xiàn)的是觀察和估計設(shè)計結(jié)構(gòu)。
表1 觀察和估計設(shè)計表(INF = Infinite)
2.2.3 測量設(shè)計
本例著重考查測量程序?qū)υ囶}難易度測量的準(zhǔn)確度,因此試題是區(qū)別側(cè)面(即研究對象),班級、版本和學(xué)生為工具側(cè)面(測量的條件因素),這種關(guān)系可以表示為Q/CVS。由于研究者關(guān)注的焦點是程序?qū)υ囶}難易度測量的準(zhǔn)確度(各道題測出的通過率是否準(zhǔn)確可靠),測量是絕對的(解釋結(jié)果時,需要觀察絕對指標(biāo))。
2.3 輸入程序指令
為了利用EduG進(jìn)行概化分析,需打開軟件,并在界面中按如下方式填寫指令(見圖1)。
圖1 概化分析指令界面
完成如上指令的具體步驟包括:
1)確定文件名稱與保存位置。運行軟件,依次點擊File和New,在彈出的界面中填寫文件的存儲名稱和位置(本例名稱取“Analysis of question difficulty”,保存位置為F盤)。
2)打開文件,在界面中填寫相關(guān)指令。
ⅰ在Title后填寫文件的標(biāo)題(這是分析報告中使用的標(biāo)題,本例仍然用“Analysis of question difficulty”;
ⅱ在Number of facets后選4,表示分析涉及四個側(cè)面;
ⅲ參照表1,在Observation and estimation designs之下填寫各側(cè)面的英文名稱(EduG不能準(zhǔn)確識別漢字),名稱的字母代碼(C,V,S:CV,Q)。填寫各側(cè)面的水平(2,2,20,10),各側(cè)面的全域容量(無限表示為INF);
ⅳ在Measurement design 后填寫測量設(shè)計代碼(Q/CVS);
ⅴ在Reports下勾選RTF(表示輸出的結(jié)果以Word表格形式呈現(xiàn));
ⅵ其他選項保持默認(rèn)值①。
ⅶ插入數(shù)據(jù)。點擊Insert data,選擇scores,即彈出數(shù)據(jù)錄入界面(圖2)②。第一列表示的是班級序號,第二列是版本序號,第三列是學(xué)生序號,第四列是問題序號。前四列是軟件根據(jù)觀察設(shè)計自動生成的,第五列(Data)是需要我們錄入數(shù)據(jù)的位置。原始分?jǐn)?shù)共計800個,可以依次錄入表中(從重點班內(nèi),做A卷的第一個學(xué)生,在第一道題上的得分開始,循序錄入)。
2.4 查看結(jié)果
錄入如上程序指令和數(shù)據(jù)后,點擊Compute,即可查看結(jié)果。如下部分將結(jié)合研究問題呈現(xiàn)相關(guān)結(jié)果。
1)哪些因素對試題得分影響較大?
表2是輸出的方差分析結(jié)果。各列依次表示對試題總分變異具有潛在影響的因素(側(cè)面及其交互)、平方和、自由度、均方、隨機(jī)效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機(jī)效果模型方差成分的標(biāo)準(zhǔn)誤。根據(jù)表2第一列和第八列可知,有四個因素對試題總分變異影響較重:
SQ:CV(學(xué)生、試題的交互作用)為61.6%;Q(試題)為17.0%;S:CV(學(xué)生)為 13.6 %;C(班級)為6.6%。
學(xué)生和試題的交互作用意味著,不同學(xué)生在不同問題上得分或失分的傾向存在反差。需要注意的是,未知因素和隨機(jī)因素的影響與SQ的交互作用是混合在一起的,所以其分量較大(61.6%)。試題和學(xué)生對總分變異的影響居中(分別為17.0%和13.6%),班級類型的影響較低(6.6%)。需要注意的是,當(dāng)方差成分接近零時,在計算中會出現(xiàn)負(fù)值(理論上的無效值),這些數(shù)值在后續(xù)處理中視為0。表2中的V、CVQ的方差成分均屬此類情況。
2)這種測量程序是否能準(zhǔn)確估計不同試題的難易度?
表3呈現(xiàn)的是概化研究表(G-Study Table)。其中第一列是研究對象,即區(qū)別側(cè)面(本例是指試題),第二列是區(qū)別側(cè)面的方差(相當(dāng)于經(jīng)典測量中真分?jǐn)?shù)解釋的變異,這里可理解為 “試題可以解釋的得分變異”),第三列是潛在的誤差來源,第四、五列為相對誤差方差及其百分比,第六、七列為絕對誤差方差及其百分比(注意:由于班級C為固定側(cè)面,不存在隨機(jī)抽樣誤差,故該側(cè)面及其交互作用對測量誤差的影響為零)。各列數(shù)據(jù)是進(jìn)一步計算概化系數(shù)(相當(dāng)于信度系數(shù))的基礎(chǔ)。當(dāng)系數(shù)大于或等于0.80時,一般認(rèn)為測量結(jié)果準(zhǔn)確度比較理想[12-13]。
由于本例屬于絕對測量,需要根據(jù)絕對概化系數(shù)( Coef_G absolute)判斷測量的準(zhǔn)確度。這里Coef_G absolute = 0.94 > 0.80,表明測量結(jié)果可靠準(zhǔn)確,即程序能夠準(zhǔn)確估計不同試題的難易度或者通過率。這里的0.94也意味著,使用該程序測量試題難易度,誤差造成的影響僅有6%(誤差可解釋總分變異的6%)。
表2 方差分析表
表3 概化研究表
3)重點班與普通班在十道題上的平均得分是否類似?試題呈現(xiàn)順序?qū)﹄y易度是否有影響嗎?
回答這兩個問題,需要觀察有關(guān)方差分析結(jié)果和均分。方差分析結(jié)果(表2)顯示,班級(C)的均方(MS)為 14.31,對試題總分變異的影響權(quán)重為6.6%,版本(V)的均方為0.10,對試題總分變異的影響權(quán)重為0。據(jù)此可以初步推斷,班級側(cè)面對試題得分有一定影響,但試題呈現(xiàn)順序?qū)υ囶}得分(難易度)影響不顯著。
不同班級和版本的均分(Mean)差別是否顯著?為了獲取均分,需在EduG軟件指令界面中,點擊Mean,在彈出界面中選擇C(班級),或者選擇V(版本),然后點擊Compute,即可獲得重點班、普通班、A卷和B卷的平均分(見表4)。過率為39 %)。A卷和B卷的平均分差別不明顯:A卷的均分約為0.51(通過率約51 %),B卷的均分約0.54(通過率約54 %)。
綜合上述方差分析和均分結(jié)果可以推論:班級側(cè)面對試題得分有一定影響,重點班的均分明顯高于普通班;不同的呈現(xiàn)順序?qū)υ囶}得分(難易度或者通過率)影響不明顯。
表4 不同班級或版本均分
概化理論是將方差分析與傳統(tǒng)的真分?jǐn)?shù)理論整合發(fā)展而來的信度理論,它是現(xiàn)代教育和心理測量的重要理論之一。利用概化理論,我們可以對考試中的不同因素(如試題、受試者、評分者、考試條件等)進(jìn)行研究,了解不同因素對測量結(jié)果和測量準(zhǔn)確度的影響,評價測量程序的可靠度和測量結(jié)果的穩(wěn)定性。本文簡要討論了概化分析中的觀察設(shè)計、估計設(shè)計、測量設(shè)計等基本概念,并以試題難易度測量程序研究為例,介紹了利用軟件EduG進(jìn)行概化分析的步驟,以及對輸出結(jié)果的解釋方法。囿于篇幅,只能涉及部分功能和用法,希望有助于概化分析技術(shù)的推廣。
平均分是指每人每題平均得分。由于做對一題得1分,做錯得0分,每人每題的平均分介于0~1之間。全部做錯均分為0,通過率為0 %;全部做對均分為1,通過率為100 %。根據(jù)表4可知,重點班和普通班在十道題上均分差別明顯:重點班均分約0.66(通過率約66 %),普通班均分為0.39(通
注釋:
① Number of decimals 表示結(jié)果中小數(shù)位數(shù);Decimal separator 表示小數(shù)的分隔符號;Estimate of Phi用于絕對測量;Optimization和G-Facets analysis用于優(yōu)化設(shè)計研究。如關(guān)心均值,需點擊Mean并勾選相應(yīng)側(cè)面。
② 如有現(xiàn)成的原始數(shù)據(jù)(或平方和),點擊Import file with raw data(或Import sums of squares);如需瀏覽或編輯既有數(shù)據(jù),點擊Brows/Edit data;導(dǎo)出數(shù)據(jù)點擊Export data;刪除數(shù)據(jù)點擊Delete data。
[1] Shavelson R.J., Webb N.M. Generalizability theory: A primer [M]. California: Sage Publications Inc., 1991: 1-55.
[2] Cronbach, L. J., Rajaratnam, N., & Gleser, G. C.. Theory of generalizability: A liberalization of reliability theory[J]. British Journal of Mathematical and Statistical Psychology, 1963(2):137-163.
[3] Cronbach, L. J., Gleser, G. C., Nanda, H., et al. The dependability of behavioral measurements: Theory of generalizability for scores and profiles[M]. New York:Wiley, 1972:7-43.
[4] Brennan, R. L.. Generalizability theory[M]. New York:Springer, 2001:3-14.
[5] Cardinet, J., Johnson, S., Pini, G.. Applying generalizability theory using Edug[M]. New York, NY: Taylor & Francis Group, 2010:6-20.
[6] American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME). Standards for education and psychology testing[M]. Washington,DC:American Psychological Association, 2002:15-17.
[7] 邱均平,歐玉芳. 美國教育評價研究的知識基礎(chǔ)與熱點[J]. 中國地質(zhì)大學(xué)學(xué)報(社會科學(xué)版),2016(3):142-149.
[8] 徐鷹,曾用強. 基于概化理論和多層面 Rasch模型的計算機(jī)化英語聽說考試評分研究[J]. 電化教育研究,2015(3): 89-95.
[9] 徐鷹. 概化理論和多層面R asch模型在CET- 4作文評分中的應(yīng)用研究[J]. 西安外國語大學(xué)學(xué)報,2016(1):91-95.
[10]關(guān)丹丹. 閱讀理解測試的信度研究: 來自概化分析的視角[J]. 心理學(xué)探新,2016(1):70-74.
[11]溫紅博,等. 基于概化理論的識字量測驗測試用字?jǐn)?shù)研究. 語言文字應(yīng)用,2016(1):74-84.
[12]靳雪蓮,滕金生,楊德山. 網(wǎng)絡(luò)論壇公共事務(wù)討論語言的修辭特征和成因[J].重慶郵電大學(xué)學(xué)報( 社會科學(xué)版),2014(5):117-123.
[13]翟洪昌,徐小霞,俞園. 房產(chǎn)銷售人員職業(yè)錨類型與工作滿意度的關(guān)系研究[J]. 文山學(xué)院學(xué)報,2013(3):72-77.
The Application of Generalizability Theroy and EduG to Measurement in Education: Illustrated with a Study of Test Item Dif fi culty
WANG Tianjian1, PENG Zhongmei2
(1. School of Foreign Languages, Guizhou University of Finance and Economics, Guiyang 550004, China; 2. Library, Guizhou University of Finance and Economics, Guiyang 550004, China)
Being one of the most important modern measurement theories in education and psychology, generalizability theory combines ANOVA and traditional True-Score theory, and develops a new technique for the evaluation of reliability. To help readers grasp the skill of generalizability analysis, this paper discusses the fundamental concepts in it, and employs an example of test item dif fi culty study to illustrate the basic steps involved in generalizability analysis with the software EduG.
generalizability theory; EduG; application
G449
A
1674-9200(2016)06-0088-06
(責(zé)任編輯 楊愛民)
2016-03-10
貴州省科學(xué)技術(shù)廳、貴州財經(jīng)大學(xué)軟科學(xué)研究聯(lián)合基金資助項目“貴州省軟件產(chǎn)業(yè)進(jìn)入國際市場的終端用戶許可協(xié)議設(shè)計研究”(黔科合LH字〔2014〕7262)。
王天劍,男,河南南陽人,貴州財經(jīng)大學(xué)外國語學(xué)院教授,博士,碩士生導(dǎo)師,主要從事教育測量學(xué)研究;彭中梅,女,河南南陽人,貴州財經(jīng)大學(xué)圖書館館員,主要從事圖書資料管理研究。