基于多元概化理論的中小學(xué)教師資格考試質(zhì)量分析
——以《綜合素質(zhì)》（中學(xué)）科目為例 *

2019-04-28 09:27:36楊宏博

心理與行為研究 2019年2期

楊宏博趙軒

(教育部考試中心，北京 100084)

1 問(wèn)題提出

教師資格考試是衡量教師資格制度現(xiàn)代化和科學(xué)化的重要指標(biāo)，是國(guó)家進(jìn)行教師資格制度改革實(shí)踐的突破口。2011年起，中小學(xué)教師資格考試作為落實(shí)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要（2010-2020年）》的改革項(xiàng)目，開(kāi)始在浙江、湖北試點(diǎn)。2013年8月，教育部發(fā)布《中小學(xué)教師資格考試暫行辦法》，該辦法指出，中小學(xué)教師資格考試是“評(píng)價(jià)申請(qǐng)教師資格人員是否具備從事教師職業(yè)所必需的教育教學(xué)基本素質(zhì)和能力的考試?？荚嚢üP試和面試兩部分。筆試合格后參加面試，筆試和面試都合格者，才能申請(qǐng)認(rèn)定教師資格證書”（教育部, 2013）。截至2017年上半年，考試已經(jīng)拓展到全國(guó)28個(gè)?。ㄊ?、自治區(qū)），累計(jì)筆試考生規(guī)模達(dá)到623萬(wàn)、面試考生規(guī)模達(dá)到246萬(wàn)（教育部考試中心, 2017）。

隨著中小學(xué)教師資格考試的快速發(fā)展，檢驗(yàn)教師資格考試改革的有效性，檢測(cè)考試評(píng)價(jià)本身的科學(xué)性和公平性，建立科學(xué)有效的考試質(zhì)量評(píng)價(jià)方式成為重要的研究課題。教師資格考試旨在區(qū)分申請(qǐng)人從事教師職業(yè)的基本能力和素養(yǎng)是否符合國(guó)家標(biāo)準(zhǔn)，對(duì)測(cè)試的測(cè)量精度有較高的要求。中小學(xué)教師資格考試包括幼兒園、小學(xué)和中學(xué)三個(gè)類別，分筆試和面試兩部分。其中《綜合素質(zhì)》（中學(xué)）是申請(qǐng)中學(xué)類別教師資格的筆試公共科目，是歷次考試考生人數(shù)最多的科目，2017年上半年考試人數(shù)達(dá)到28萬(wàn)?！毒C合素質(zhì)》（中學(xué)）是主要考查申請(qǐng)人是否具備先進(jìn)教育理念、良好法律意識(shí)和職業(yè)道德、具備從事教師職業(yè)的文化素養(yǎng)和閱讀理解、語(yǔ)言表達(dá)等能力。從測(cè)量的角度來(lái)探究這個(gè)科目的科學(xué)性、考試內(nèi)容的合理性，考察其測(cè)量信度是否具有典型的參考價(jià)值。

經(jīng)典測(cè)量理論（classical test theory，CTT）是常見(jiàn)的用于大規(guī)模測(cè)驗(yàn)統(tǒng)計(jì)分析的測(cè)量方法，可用于分析題目的難度、區(qū)分度和測(cè)驗(yàn)的信度。自2011年中小學(xué)教師資格考試首次開(kāi)考以來(lái)，一直采用經(jīng)典測(cè)量理論的測(cè)量方法監(jiān)測(cè)題目的質(zhì)量（教育部考試中心，2012-2017）。CTT的優(yōu)點(diǎn)在于能簡(jiǎn)便的對(duì)每道題目的質(zhì)量進(jìn)行評(píng)估，但它對(duì)測(cè)試整體情況的評(píng)估卻不夠理想。盡管CTT中的信度可以評(píng)估測(cè)驗(yàn)的整體可靠性，但此時(shí)的信度指標(biāo)僅僅是一個(gè)“粗值”，并未將不同來(lái)源的誤差（如評(píng)分者、被測(cè)者、題目等）加以區(qū)分（羅杰, 戴曉陽(yáng), 2016）。

概化理論（generalizability theory, GT）是在經(jīng)典測(cè)量理論基礎(chǔ)之上發(fā)展起來(lái)的現(xiàn)代測(cè)量理論（Brennan, 2001a）。它從宏觀角度出發(fā)，立足于測(cè)驗(yàn)的外部效度，采取數(shù)學(xué)建模和統(tǒng)計(jì)調(diào)整的方法，綜合分析各種變異來(lái)源（陳維, 趙守盈, 2016）。它重點(diǎn)探討考生能力水平與考試題目之間的實(shí)質(zhì)性關(guān)系，能夠達(dá)到區(qū)分考生、評(píng)估應(yīng)考者真實(shí)水平的目的，并較好地控制測(cè)評(píng)誤差。概化理論的基本原理是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想，分析影響測(cè)驗(yàn)分?jǐn)?shù)差異的各項(xiàng)因素（如考生個(gè)體水平的差異、題目難度等），并運(yùn)用方差分析的技術(shù)，分別估計(jì)各項(xiàng)因素對(duì)分?jǐn)?shù)總變異的貢獻(xiàn)（以方差分量作為指標(biāo)）（陳維, 盧聰, 楊曉曉, 張進(jìn)輔, 2016; 黎光明, 張敏強(qiáng), 2017）。根據(jù)不同研究目的的需要，分別考察研究目標(biāo)在分?jǐn)?shù)總變異中所占的比重。測(cè)量信度的概念在概化理論中用概化系數(shù)或可靠性系數(shù)來(lái)代替（羅照盛, 郭小軍, 2014; 楊志明, 張雷, 2003）。

概化理論用方差分析的方法來(lái)全面估計(jì)出各種方差成分的相對(duì)大小，并可直接比較其大?。徊粌H能估計(jì)出主效應(yīng)，也能估計(jì)出交互作用效應(yīng)，并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中，理論估出各方差成分相對(duì)大小的過(guò)程，稱為概化理論的G研究（楊志明, 張雷, 2003）。在G研究的基礎(chǔ)上，可通過(guò)實(shí)驗(yàn)性研究，進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概化系數(shù)的變化狀況，如試題容量變化對(duì)于概化系數(shù)的影響，從而尋找最佳能夠控制誤差的方法，作出最佳的設(shè)計(jì)決策，為改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供有價(jià)值的信息。這一階段稱為概化理論的D研究（劉遠(yuǎn)我, 張厚粲, 1998）。

多元概化理論（multivariate generalizability theory, MGT）在概化理論的基礎(chǔ)上，深入研究測(cè)量目標(biāo)具有多個(gè)全域分?jǐn)?shù)等方面的問(wèn)題（如總測(cè)驗(yàn)可以分解為多個(gè)不同維度的分測(cè)驗(yàn)）。主要可應(yīng)用于測(cè)試多門學(xué)科或多種能力的綜合測(cè)驗(yàn)（楊志明, 張雷, 2003）。近些年來(lái)，基于這一理論的研究設(shè)計(jì)應(yīng)用于高考、研究生考試、高等教育自學(xué)考試等大規(guī)模測(cè)驗(yàn)，拓展了標(biāo)準(zhǔn)化常模參照測(cè)驗(yàn)或標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度檢驗(yàn)方式（白娟, 2014; 陳維, 何壯, 趙守盈, 2016; 關(guān)丹丹, 任子朝, 2009; 田霖,韋小滿, 王橋影, 趙曉茫, 2013）。《綜合素質(zhì)》（中學(xué)）是考查考生多種基本素養(yǎng)和能力的綜合性測(cè)試，根據(jù)其考試目標(biāo)，可以將其分解為多個(gè)分測(cè)驗(yàn)，因此對(duì)其測(cè)驗(yàn)信度進(jìn)行研究適宜采用多元概化理論的原理和方法（Brennan, 2001b）。

2 研究方法

2.1 研究目的

本研究旨在通過(guò)多元概化模型分析中小學(xué)教師資格考試《綜合素質(zhì)》（中學(xué)）試卷，探討各模塊及全卷的測(cè)量精度（信度），考查內(nèi)容模塊樣本容量變化對(duì)考試信度（概化系數(shù)）的影響，分析各模塊對(duì)總測(cè)驗(yàn)的貢獻(xiàn)率，為試卷優(yōu)化、提高命題質(zhì)量提出合理化建議。

2.2 研究樣本

全國(guó)參加2017年上半年中小學(xué)教師資格考試《綜合素質(zhì)》（中學(xué)）科目的考生人數(shù)為282 050人（教育部考試中心, 2017）。為避免評(píng)分者因素對(duì)樣本數(shù)據(jù)產(chǎn)生影響，本研究抽取由同一批評(píng)分者批閱的2 379份試卷，該2 379名考生為全體考生中系統(tǒng)隨機(jī)選取得到。剔除總分為零分的試卷7份，最終確認(rèn)有效試卷2 372份。

2.3 測(cè)量工具

《綜合素質(zhì)》（中學(xué)）是中小學(xué)教師資格考試申請(qǐng)中學(xué)學(xué)段教師資格的必考科目，考試采用教育部考試中心組織命制的試卷，包括職業(yè)理念、教育法律法規(guī)、教師職業(yè)道德規(guī)范、文化素養(yǎng)、基本能力五個(gè)內(nèi)容模塊。題型為單項(xiàng)選擇題、材料分析題、寫作題，考查申請(qǐng)人的理解能力、分析能力、綜合能力、表達(dá)應(yīng)用能力。鑒于寫作題分值較高，為保證得分的可靠性，閱卷時(shí)采用雙評(píng)模式。為具體考量其誤差，將寫作題單獨(dú)作為一個(gè)測(cè)量分項(xiàng)。在具體的模型設(shè)計(jì)中，將寫作成績(jī)視作兩次評(píng)分成績(jī)的合成。試卷總題量為33道，全卷滿分150分。對(duì)試卷測(cè)量?jī)?nèi)容的具體描述如表 1所示。

表1內(nèi)容源自《綜合素質(zhì)》（中學(xué)）的大綱、命題組提供的2017年上半年的試卷結(jié)構(gòu)表?！毒C合素質(zhì)》（中學(xué)）考試大綱對(duì)考試的內(nèi)容及其分值比例的規(guī)定為: 職業(yè)理念13%、教育法律法規(guī)13%、教師職業(yè)道德規(guī)范13%、文化素養(yǎng)13%、基本能力48%。通過(guò)對(duì)比可見(jiàn)，2017年上半年的試卷各內(nèi)容分值比例較好地符合了考試大綱的要求。

2.4 測(cè)量設(shè)計(jì)

本研究將《綜合素質(zhì)》（中學(xué)）考試的內(nèi)容按照模塊分類，設(shè)計(jì)為六內(nèi)容因子的單面交叉設(shè)計(jì)（p×i多元概化模型, 其中p代表考生, i代表試題）。運(yùn)用多元概化模型，完成G研究和D研究的數(shù)據(jù)統(tǒng)計(jì)與分析。

2.5 數(shù)據(jù)分析工具

本研究采用Brennan開(kāi)發(fā)的mGENOVA軟件完成多元概化理論的計(jì)算（Brennan，2001c）。

表 1 《綜合素質(zhì)》（中學(xué)）試卷測(cè)量?jī)?nèi)容描述

3 研究結(jié)果

3.1 六因子模型的G研究

根據(jù)理論模型，可編寫一個(gè)涉及六個(gè)分測(cè)驗(yàn)的mGENOVA程序，分別對(duì)整個(gè)試卷及六個(gè)模塊進(jìn)行G研究，以估計(jì)整個(gè)測(cè)驗(yàn)和各個(gè)模塊的測(cè)量信度。同時(shí)，利用有關(guān)信息評(píng)價(jià)各個(gè)模塊對(duì)總測(cè)驗(yàn)的貢獻(xiàn)程度。G研究采用p×i六因子隨機(jī)單面交叉設(shè)計(jì)，可以得到各效應(yīng)在六個(gè)因子上的方差和協(xié)方差變量估計(jì)矩陣，如表 2所示。其中V1表示“職業(yè)理念”模塊，V2表示“教育法律法規(guī)”模塊，V3表示“教師職業(yè)道德規(guī)范”模塊，V4表示“文化素養(yǎng)”模塊，V5表示“基本能力”模塊，V6表示“寫作能力”模塊。

由表 2可知，V2和V4與其他因子的協(xié)方差分量較小，這說(shuō)明考生在“教育法律法規(guī)”和“文化素養(yǎng)”模塊中的得分高低順序與他們?cè)谄渌K中的順序不太一致，即這兩個(gè)模塊中的題目在區(qū)分考生能力方面功能較弱。在效應(yīng)p上，因子V6的方差分量最大，因子V2、V3的方差分量較低，表明在本次考試中，“寫作能力”模塊對(duì)考生的區(qū)分能力較強(qiáng)，而“教育法律法規(guī)”“教師職業(yè)道德規(guī)范”模塊對(duì)考生的區(qū)分能力相對(duì)較弱。

3.2 六因子模型的D研究

3.2.1 各因子全域分?jǐn)?shù)估計(jì)精度

D研究采用p×i六因子隨機(jī)單面交叉設(shè)計(jì)，基于G研究估計(jì)的方差與協(xié)方差矩陣，進(jìn)一步估計(jì)出考生在六個(gè)因子上的全域分?jǐn)?shù)及相應(yīng)誤差項(xiàng)的方差分量，進(jìn)而估計(jì)概化系數(shù)與可靠性指數(shù)，如表 3所示。

表 2 各效應(yīng)在六因子的方差與協(xié)方差分量估計(jì)

由表 3可知，六因子中全域分?jǐn)?shù)方差分量從高到低依次為“寫作能力”“基本能力”“文化素養(yǎng)”“職業(yè)理念”“教育法律法規(guī)”“教師職業(yè)道德規(guī)范”?？紤]到各分量誤差方差的因素，測(cè)量信度最高的因子是V6（可靠性指數(shù)為0.806）。結(jié)果表明本次考試中，“寫作能力”模塊的測(cè)量信度較高。

表 3 六因子全域分?jǐn)?shù)各項(xiàng)指標(biāo)的估計(jì)

3.2.2 全域合成分?jǐn)?shù)的測(cè)量精度

本研究按照各測(cè)量分項(xiàng)試題量所占比例來(lái)確定權(quán)系數(shù)b，V1至V6六個(gè)因子的權(quán)系數(shù)分別是：0.147、0.235、0.147、0.265、0.147、0.059。對(duì)六因子全域分?jǐn)?shù)進(jìn)行合成，可以得到全域總分的方差為0.090，全域合成分?jǐn)?shù)相對(duì)誤差方差為0.037，全域合成分?jǐn)?shù)絕對(duì)誤差方差為0.106，進(jìn)而可計(jì)算出全域合成分?jǐn)?shù)的概化系數(shù)為0.707，可靠性系數(shù)為0.458。

可見(jiàn)，全域合成分?jǐn)?shù)的概化系數(shù)較高。而六因子未進(jìn)行全域分?jǐn)?shù)合成時(shí)，各因子全域分?jǐn)?shù)的概化系數(shù)及可靠性系數(shù)均較低，在全域分?jǐn)?shù)合成總分后測(cè)量精度顯著提高（除V6外），因此對(duì)六個(gè)分測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合成是合理的。

3.2.3 各因子對(duì)總方差的貢獻(xiàn)比例

為了考查六個(gè)模塊對(duì)試卷總分方差的實(shí)際影響程度，可使用mGENOVA程序同時(shí)估計(jì)出各模塊對(duì)考試總分方差的實(shí)際貢獻(xiàn)率（比例），如表 4所示。

表 4 各模塊方差貢獻(xiàn)比例與試卷賦分比例的比較

由表 4可知，因子V6對(duì)總體方差的貢獻(xiàn)比例較試卷賦分比例高，其它因子對(duì)總體方差貢獻(xiàn)的比例較試卷賦分比例略低。總體而言，各分測(cè)驗(yàn)基本達(dá)到考試的預(yù)期測(cè)量目的。

3.2.4 各因子樣本容量對(duì)測(cè)量信度的影響

為了改善測(cè)驗(yàn)方法，進(jìn)一步改進(jìn)測(cè)量信度，本研究考察了各因子樣本容量變化對(duì)各分測(cè)驗(yàn)自身及試卷總分測(cè)量信度（采用總分概化系數(shù)作為信度指標(biāo)）的影響情況，如表 5所示。

由表 5可知，當(dāng)各因子樣本容量為2倍模式時(shí)，全域總分的概化系數(shù)可增至0.828；當(dāng)各因子樣本容量為3倍模式時(shí)，全域總分的概化系數(shù)可增至0.878。

表 5 各因子樣本容量與可靠性指數(shù)的變化關(guān)系

由于V1、V2、V3、V4、V5因子的全域分?jǐn)?shù)誤差方差相對(duì)較小，因此，提升這幾部分的題量對(duì)整卷的概化系數(shù)的影響并不顯著。而V6因子容量提升至2倍時(shí)，全域總分的概化系數(shù)可增至0.841，提升至3倍時(shí)，全域總分的概化系數(shù)可增至0.897。可見(jiàn)其對(duì)測(cè)量信度影響顯著。

根據(jù)總分概化系數(shù)的變化情況，可以繪制出六個(gè)因子樣本容量與概化系數(shù)的變化關(guān)系圖，更加直觀地反映出樣本容量對(duì)各因子及整卷測(cè)量信度的影響，如圖 1所示。

由圖 1 可以看出，相對(duì)于V1～V5模塊，V6樣本容量的增加對(duì)試卷的測(cè)量信度影響是最大的。為進(jìn)一步考察V2、V3、V4、V5模塊的樣本容量增加對(duì)試卷的信度影響，可將圖 1的局部放大為圖 2。

由圖 2可以看出，在V1、V3、V5樣本容量增加的情況下，這三個(gè)模塊的測(cè)量精度（可靠性指數(shù)）也逐漸增加。在V2樣本容量增加的情況下，這個(gè)模塊的測(cè)量精度（可靠性指數(shù)）在逐漸降低。在V4樣本容量增加的情況下，這個(gè)模塊的測(cè)量精度（可靠性指數(shù)）降低至一定程度后，呈現(xiàn)緩慢回升的趨勢(shì)。

4 討論

多元概化理論的引入，為探索教師資格考試的質(zhì)量評(píng)價(jià)方式提供了更多的可能性。從研究結(jié)果給我們的啟示來(lái)看，多元概化理論克服了經(jīng)典測(cè)量理論的缺陷，提供了有效提高信度的方案，但是仍然不能解決所有的測(cè)量誤差控制問(wèn)題（安哲鋒, 駱?lè)? 張厚粲, 2008）。一方面，對(duì)于試卷結(jié)構(gòu)的調(diào)整，受限于考試時(shí)間的限定、考試大綱對(duì)模塊分布的確定性要求，但是它提供了在現(xiàn)有模塊結(jié)構(gòu)內(nèi)部的精細(xì)化調(diào)整方案，而這一結(jié)論以及后續(xù)研究的結(jié)果將對(duì)修訂考試大綱、調(diào)整試卷結(jié)構(gòu)和分值有重要的參考意義。另一方面，運(yùn)用多元概化理論進(jìn)行試卷結(jié)構(gòu)分析，各模塊之間的分值差異以及題型的差異也會(huì)對(duì)結(jié)果產(chǎn)生影響。在統(tǒng)一題型和各模塊分值相當(dāng)?shù)那闆r下，其結(jié)論更有針對(duì)性。因此，多元概化理論對(duì)于研究中小學(xué)教師資格考試的質(zhì)量評(píng)價(jià)有重要的意義，與經(jīng)典測(cè)量理論的測(cè)量結(jié)論相結(jié)合，可以得到更為準(zhǔn)確的試題單題質(zhì)量和試卷整體質(zhì)量改進(jìn)方案。

中小學(xué)教師資格考試改革試點(diǎn)項(xiàng)目實(shí)施至今，已成為教師教育相關(guān)領(lǐng)域研究關(guān)注的重點(diǎn)?；谡鎸?shí)數(shù)據(jù)的實(shí)證化研究是今后考試項(xiàng)目可持續(xù)化發(fā)展的依據(jù)和支撐。以本文為例，上述研究的結(jié)論，可以應(yīng)用于針對(duì)《中小學(xué)教師資格考試筆試大綱（試行）》頒布實(shí)施后修訂的政策建議。這一研究方法可進(jìn)一步拓展至教師資格考試的其他筆試科目，結(jié)合其他測(cè)量理論進(jìn)行分析和研究，形成質(zhì)量評(píng)價(jià)文本，供考試政策決策部門參考，以不斷提升考試的科學(xué)化水平，維護(hù)考試的公信力。

5 結(jié)論

本研究采用六因子多元概化模型，對(duì)2017年上半年《綜合素質(zhì)》（中學(xué)）試卷進(jìn)行分析，可以得到以下結(jié)論：

（1）本次考試所使用的試卷質(zhì)量不錯(cuò)。試卷總體測(cè)量信度較好，可靠性指數(shù)達(dá)到中等水平；分測(cè)驗(yàn)對(duì)全域總分方差的貢獻(xiàn)比例與命制試卷的賦分意圖基本一致。

（2）試卷的現(xiàn)有試題數(shù)量是比較適宜的。綜合考慮考試性質(zhì)、試卷長(zhǎng)度、作答時(shí)間限制等因素，通過(guò)增加寫作題的題量以提高測(cè)量信度的方案在實(shí)際操作中不太可能實(shí)現(xiàn)，在120分鐘考試時(shí)間內(nèi)，保持現(xiàn)有的試題數(shù)量是比較合適的。

（3）可通過(guò)題型題量的調(diào)整來(lái)達(dá)到更高的測(cè)量信度。對(duì)于《綜合素質(zhì)》（中學(xué)）可靠性指數(shù)較低的模塊，可以采取減少客觀題數(shù)量，增加主觀題數(shù)量的方式來(lái)提高信度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多元概化理論的中小學(xué)教師資格考試質(zhì)量分析——以《綜合素質(zhì)》（中學(xué)）科目為例 *