国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多元概化理論的中小學(xué)教師資格考試質(zhì)量分析
——以《綜合素質(zhì)》(中學(xué))科目為例 *

2019-04-28 09:27:36楊宏博
心理與行為研究 2019年2期
關(guān)鍵詞:概化教師資格測(cè)驗(yàn)

楊宏博 趙 軒

(教育部考試中心,北京 100084)

1 問(wèn)題提出

教師資格考試是衡量教師資格制度現(xiàn)代化和科學(xué)化的重要指標(biāo),是國(guó)家進(jìn)行教師資格制度改革實(shí)踐的突破口。2011年起,中小學(xué)教師資格考試作為落實(shí)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》的改革項(xiàng)目,開(kāi)始在浙江、湖北試點(diǎn)。2013年8月,教育部發(fā)布《中小學(xué)教師資格考試暫行辦法》,該辦法指出,中小學(xué)教師資格考試是“評(píng)價(jià)申請(qǐng)教師資格人員是否具備從事教師職業(yè)所必需的教育教學(xué)基本素質(zhì)和能力的考試??荚嚢üP試和面試兩部分。筆試合格后參加面試,筆試和面試都合格者,才能申請(qǐng)認(rèn)定教師資格證書”(教育部, 2013)。截至2017年上半年,考試已經(jīng)拓展到全國(guó)28個(gè)?。ㄊ?、自治區(qū)),累計(jì)筆試考生規(guī)模達(dá)到623萬(wàn)、面試考生規(guī)模達(dá)到246萬(wàn)(教育部考試中心, 2017)。

隨著中小學(xué)教師資格考試的快速發(fā)展,檢驗(yàn)教師資格考試改革的有效性,檢測(cè)考試評(píng)價(jià)本身的科學(xué)性和公平性,建立科學(xué)有效的考試質(zhì)量評(píng)價(jià)方式成為重要的研究課題。教師資格考試旨在區(qū)分申請(qǐng)人從事教師職業(yè)的基本能力和素養(yǎng)是否符合國(guó)家標(biāo)準(zhǔn),對(duì)測(cè)試的測(cè)量精度有較高的要求。中小學(xué)教師資格考試包括幼兒園、小學(xué)和中學(xué)三個(gè)類別,分筆試和面試兩部分。其中《綜合素質(zhì)》(中學(xué))是申請(qǐng)中學(xué)類別教師資格的筆試公共科目,是歷次考試考生人數(shù)最多的科目,2017年上半年考試人數(shù)達(dá)到28萬(wàn)?!毒C合素質(zhì)》(中學(xué))是主要考查申請(qǐng)人是否具備先進(jìn)教育理念、良好法律意識(shí)和職業(yè)道德、具備從事教師職業(yè)的文化素養(yǎng)和閱讀理解、語(yǔ)言表達(dá)等能力。從測(cè)量的角度來(lái)探究這個(gè)科目的科學(xué)性、考試內(nèi)容的合理性,考察其測(cè)量信度是否具有典型的參考價(jià)值。

經(jīng)典測(cè)量理論(classical test theory,CTT)是常見(jiàn)的用于大規(guī)模測(cè)驗(yàn)統(tǒng)計(jì)分析的測(cè)量方法,可用于分析題目的難度、區(qū)分度和測(cè)驗(yàn)的信度。自2011年中小學(xué)教師資格考試首次開(kāi)考以來(lái),一直采用經(jīng)典測(cè)量理論的測(cè)量方法監(jiān)測(cè)題目的質(zhì)量(教育部考試中心,2012-2017)。CTT的優(yōu)點(diǎn)在于能簡(jiǎn)便的對(duì)每道題目的質(zhì)量進(jìn)行評(píng)估,但它對(duì)測(cè)試整體情況的評(píng)估卻不夠理想。盡管CTT中的信度可以評(píng)估測(cè)驗(yàn)的整體可靠性,但此時(shí)的信度指標(biāo)僅僅是一個(gè)“粗值”,并未將不同來(lái)源的誤差(如評(píng)分者、被測(cè)者、題目等)加以區(qū)分(羅杰, 戴曉陽(yáng), 2016)。

概化理論(generalizability theory, GT)是在經(jīng)典測(cè)量理論基礎(chǔ)之上發(fā)展起來(lái)的現(xiàn)代測(cè)量理論(Brennan, 2001a)。它從宏觀角度出發(fā),立足于測(cè)驗(yàn)的外部效度,采取數(shù)學(xué)建模和統(tǒng)計(jì)調(diào)整的方法,綜合分析各種變異來(lái)源(陳維, 趙守盈, 2016)。它重點(diǎn)探討考生能力水平與考試題目之間的實(shí)質(zhì)性關(guān)系,能夠達(dá)到區(qū)分考生、評(píng)估應(yīng)考者真實(shí)水平的目的,并較好地控制測(cè)評(píng)誤差。概化理論的基本原理是運(yùn)用實(shí)驗(yàn)設(shè)計(jì)的思想,分析影響測(cè)驗(yàn)分?jǐn)?shù)差異的各項(xiàng)因素(如考生個(gè)體水平的差異、題目難度等),并運(yùn)用方差分析的技術(shù),分別估計(jì)各項(xiàng)因素對(duì)分?jǐn)?shù)總變異的貢獻(xiàn)(以方差分量作為指標(biāo))(陳維, 盧聰, 楊曉曉, 張進(jìn)輔, 2016; 黎光明, 張敏強(qiáng), 2017)。根據(jù)不同研究目的的需要,分別考察研究目標(biāo)在分?jǐn)?shù)總變異中所占的比重。測(cè)量信度的概念在概化理論中用概化系數(shù)或可靠性系數(shù)來(lái)代替(羅照盛, 郭小軍, 2014; 楊志明, 張雷, 2003)。

概化理論用方差分析的方法來(lái)全面估計(jì)出各種方差成分的相對(duì)大小,并可直接比較其大?。徊粌H能估計(jì)出主效應(yīng),也能估計(jì)出交互作用效應(yīng),并能對(duì)各估計(jì)值的大小進(jìn)行直接比較。在概化理論中,理論估出各方差成分相對(duì)大小的過(guò)程,稱為概化理論的G研究(楊志明, 張雷, 2003)。在G研究的基礎(chǔ)上,可通過(guò)實(shí)驗(yàn)性研究,進(jìn)一步考察不同測(cè)驗(yàn)設(shè)計(jì)條件下的概化系數(shù)的變化狀況,如試題容量變化對(duì)于概化系數(shù)的影響,從而尋找最佳能夠控制誤差的方法,作出最佳的設(shè)計(jì)決策,為改進(jìn)測(cè)驗(yàn)的內(nèi)容、方式方法提供有價(jià)值的信息。這一階段稱為概化理論的D研究(劉遠(yuǎn)我, 張厚粲, 1998)。

多元概化理論(multivariate generalizability theory, MGT)在概化理論的基礎(chǔ)上,深入研究測(cè)量目標(biāo)具有多個(gè)全域分?jǐn)?shù)等方面的問(wèn)題(如總測(cè)驗(yàn)可以分解為多個(gè)不同維度的分測(cè)驗(yàn))。主要可應(yīng)用于測(cè)試多門學(xué)科或多種能力的綜合測(cè)驗(yàn)(楊志明, 張雷, 2003)。近些年來(lái),基于這一理論的研究設(shè)計(jì)應(yīng)用于高考、研究生考試、高等教育自學(xué)考試等大規(guī)模測(cè)驗(yàn),拓展了標(biāo)準(zhǔn)化常模參照測(cè)驗(yàn)或標(biāo)準(zhǔn)參照測(cè)驗(yàn)的信度檢驗(yàn)方式(白娟, 2014; 陳維, 何壯, 趙守盈, 2016; 關(guān)丹丹, 任子朝, 2009; 田霖,韋小滿, 王橋影, 趙曉茫, 2013)。《綜合素質(zhì)》(中學(xué))是考查考生多種基本素養(yǎng)和能力的綜合性測(cè)試,根據(jù)其考試目標(biāo),可以將其分解為多個(gè)分測(cè)驗(yàn),因此對(duì)其測(cè)驗(yàn)信度進(jìn)行研究適宜采用多元概化理論的原理和方法(Brennan, 2001b)。

2 研究方法

2.1 研究目的

本研究旨在通過(guò)多元概化模型分析中小學(xué)教師資格考試《綜合素質(zhì)》(中學(xué))試卷,探討各模塊及全卷的測(cè)量精度(信度),考查內(nèi)容模塊樣本容量變化對(duì)考試信度(概化系數(shù))的影響,分析各模塊對(duì)總測(cè)驗(yàn)的貢獻(xiàn)率,為試卷優(yōu)化、提高命題質(zhì)量提出合理化建議。

2.2 研究樣本

全國(guó)參加2017年上半年中小學(xué)教師資格考試《綜合素質(zhì)》(中學(xué))科目的考生人數(shù)為282 050人(教育部考試中心, 2017)。為避免評(píng)分者因素對(duì)樣本數(shù)據(jù)產(chǎn)生影響,本研究抽取由同一批評(píng)分者批閱的2 379份試卷,該2 379名考生為全體考生中系統(tǒng)隨機(jī)選取得到。剔除總分為零分的試卷7份,最終確認(rèn)有效試卷2 372份。

2.3 測(cè)量工具

《綜合素質(zhì)》(中學(xué))是中小學(xué)教師資格考試申請(qǐng)中學(xué)學(xué)段教師資格的必考科目,考試采用教育部考試中心組織命制的試卷,包括職業(yè)理念、教育法律法規(guī)、教師職業(yè)道德規(guī)范、文化素養(yǎng)、基本能力五個(gè)內(nèi)容模塊。題型為單項(xiàng)選擇題、材料分析題、寫作題,考查申請(qǐng)人的理解能力、分析能力、綜合能力、表達(dá)應(yīng)用能力。鑒于寫作題分值較高,為保證得分的可靠性,閱卷時(shí)采用雙評(píng)模式。為具體考量其誤差,將寫作題單獨(dú)作為一個(gè)測(cè)量分項(xiàng)。在具體的模型設(shè)計(jì)中,將寫作成績(jī)視作兩次評(píng)分成績(jī)的合成。試卷總題量為33道,全卷滿分150分。對(duì)試卷測(cè)量?jī)?nèi)容的具體描述如表 1所示。

表1內(nèi)容源自《綜合素質(zhì)》(中學(xué))的大綱、命題組提供的2017年上半年的試卷結(jié)構(gòu)表?!毒C合素質(zhì)》(中學(xué))考試大綱對(duì)考試的內(nèi)容及其分值比例的規(guī)定為: 職業(yè)理念13%、教育法律法規(guī)13%、教師職業(yè)道德規(guī)范13%、文化素養(yǎng)13%、基本能力48%。通過(guò)對(duì)比可見(jiàn),2017年上半年的試卷各內(nèi)容分值比例較好地符合了考試大綱的要求。

2.4 測(cè)量設(shè)計(jì)

本研究將《綜合素質(zhì)》(中學(xué))考試的內(nèi)容按照模塊分類,設(shè)計(jì)為六內(nèi)容因子的單面交叉設(shè)計(jì)(p×i多元概化模型, 其中p代表考生, i代表試題)。運(yùn)用多元概化模型,完成G研究和D研究的數(shù)據(jù)統(tǒng)計(jì)與分析。

2.5 數(shù)據(jù)分析工具

本研究采用Brennan開(kāi)發(fā)的mGENOVA軟件完成多元概化理論的計(jì)算(Brennan,2001c)。

表 1 《綜合素質(zhì)》(中學(xué))試卷測(cè)量?jī)?nèi)容描述

3 研究結(jié)果

3.1 六因子模型的G研究

根據(jù)理論模型,可編寫一個(gè)涉及六個(gè)分測(cè)驗(yàn)的mGENOVA程序,分別對(duì)整個(gè)試卷及六個(gè)模塊進(jìn)行G研究,以估計(jì)整個(gè)測(cè)驗(yàn)和各個(gè)模塊的測(cè)量信度。同時(shí),利用有關(guān)信息評(píng)價(jià)各個(gè)模塊對(duì)總測(cè)驗(yàn)的貢獻(xiàn)程度。G研究采用p×i六因子隨機(jī)單面交叉設(shè)計(jì),可以得到各效應(yīng)在六個(gè)因子上的方差和協(xié)方差變量估計(jì)矩陣,如表 2所示。其中V1表示“職業(yè)理念”模塊,V2表示“教育法律法規(guī)”模塊,V3表示“教師職業(yè)道德規(guī)范”模塊,V4表示“文化素養(yǎng)”模塊,V5表示“基本能力”模塊,V6表示“寫作能力”模塊。

由表 2可知,V2和V4與其他因子的協(xié)方差分量較小,這說(shuō)明考生在“教育法律法規(guī)”和“文化素養(yǎng)”模塊中的得分高低順序與他們?cè)谄渌K中的順序不太一致,即這兩個(gè)模塊中的題目在區(qū)分考生能力方面功能較弱。在效應(yīng)p上,因子V6的方差分量最大,因子V2、V3的方差分量較低,表明在本次考試中,“寫作能力”模塊對(duì)考生的區(qū)分能力較強(qiáng),而“教育法律法規(guī)”“教師職業(yè)道德規(guī)范”模塊對(duì)考生的區(qū)分能力相對(duì)較弱。

3.2 六因子模型的D研究

3.2.1 各因子全域分?jǐn)?shù)估計(jì)精度

D研究采用p×i六因子隨機(jī)單面交叉設(shè)計(jì),基于G研究估計(jì)的方差與協(xié)方差矩陣,進(jìn)一步估計(jì)出考生在六個(gè)因子上的全域分?jǐn)?shù)及相應(yīng)誤差項(xiàng)的方差分量,進(jìn)而估計(jì)概化系數(shù)與可靠性指數(shù),如表 3所示。

表 2 各效應(yīng)在六因子的方差與協(xié)方差分量估計(jì)

由表 3可知,六因子中全域分?jǐn)?shù)方差分量從高到低依次為“寫作能力”“基本能力”“文化素養(yǎng)”“職業(yè)理念”“教育法律法規(guī)”“教師職業(yè)道德規(guī)范”??紤]到各分量誤差方差的因素,測(cè)量信度最高的因子是V6(可靠性指數(shù)為0.806)。結(jié)果表明本次考試中,“寫作能力”模塊的測(cè)量信度較高。

表 3 六因子全域分?jǐn)?shù)各項(xiàng)指標(biāo)的估計(jì)

3.2.2 全域合成分?jǐn)?shù)的測(cè)量精度

本研究按照各測(cè)量分項(xiàng)試題量所占比例來(lái)確定權(quán)系數(shù)b,V1至V6六個(gè)因子的權(quán)系數(shù)分別是:0.147、0.235、0.147、0.265、0.147、0.059。對(duì)六因子全域分?jǐn)?shù)進(jìn)行合成,可以得到全域總分的方差為0.090,全域合成分?jǐn)?shù)相對(duì)誤差方差為0.037,全域合成分?jǐn)?shù)絕對(duì)誤差方差為0.106,進(jìn)而可計(jì)算出全域合成分?jǐn)?shù)的概化系數(shù)為0.707,可靠性系數(shù)為0.458。

可見(jiàn),全域合成分?jǐn)?shù)的概化系數(shù)較高。而六因子未進(jìn)行全域分?jǐn)?shù)合成時(shí),各因子全域分?jǐn)?shù)的概化系數(shù)及可靠性系數(shù)均較低,在全域分?jǐn)?shù)合成總分后測(cè)量精度顯著提高(除V6外),因此對(duì)六個(gè)分測(cè)驗(yàn)的分?jǐn)?shù)進(jìn)行合成是合理的。

3.2.3 各因子對(duì)總方差的貢獻(xiàn)比例

為了考查六個(gè)模塊對(duì)試卷總分方差的實(shí)際影響程度,可使用mGENOVA程序同時(shí)估計(jì)出各模塊對(duì)考試總分方差的實(shí)際貢獻(xiàn)率(比例),如表 4所示。

表 4 各模塊方差貢獻(xiàn)比例與試卷賦分比例的比較

由表 4可知,因子V6對(duì)總體方差的貢獻(xiàn)比例較試卷賦分比例高,其它因子對(duì)總體方差貢獻(xiàn)的比例較試卷賦分比例略低。總體而言,各分測(cè)驗(yàn)基本達(dá)到考試的預(yù)期測(cè)量目的。

3.2.4 各因子樣本容量對(duì)測(cè)量信度的影響

為了改善測(cè)驗(yàn)方法,進(jìn)一步改進(jìn)測(cè)量信度,本研究考察了各因子樣本容量變化對(duì)各分測(cè)驗(yàn)自身及試卷總分測(cè)量信度(采用總分概化系數(shù)作為信度指標(biāo))的影響情況,如表 5所示。

由表 5可知,當(dāng)各因子樣本容量為2倍模式時(shí),全域總分的概化系數(shù)可增至0.828;當(dāng)各因子樣本容量為3倍模式時(shí),全域總分的概化系數(shù)可增至0.878。

表 5 各因子樣本容量與可靠性指數(shù)的變化關(guān)系

由于V1、V2、V3、V4、V5因子的全域分?jǐn)?shù)誤差方差相對(duì)較小,因此,提升這幾部分的題量對(duì)整卷的概化系數(shù)的影響并不顯著。而V6因子容量提升至2倍時(shí),全域總分的概化系數(shù)可增至0.841,提升至3倍時(shí),全域總分的概化系數(shù)可增至0.897。可見(jiàn)其對(duì)測(cè)量信度影響顯著。

根據(jù)總分概化系數(shù)的變化情況,可以繪制出六個(gè)因子樣本容量與概化系數(shù)的變化關(guān)系圖,更加直觀地反映出樣本容量對(duì)各因子及整卷測(cè)量信度的影響,如圖 1所示。

由圖 1 可以看出,相對(duì)于V1~V5模塊,V6樣本容量的增加對(duì)試卷的測(cè)量信度影響是最大的。為進(jìn)一步考察V2、V3、V4、V5模塊的樣本容量增加對(duì)試卷的信度影響,可將圖 1的局部放大為圖 2。

由圖 2可以看出,在V1、V3、V5樣本容量增加的情況下,這三個(gè)模塊的測(cè)量精度( 可靠性指數(shù)) 也逐漸增加。在V2樣本容量增加的情況下,這個(gè)模塊的測(cè)量精度(可靠性指數(shù))在逐漸降低。在V4樣本容量增加的情況下,這個(gè)模塊的測(cè)量精度(可靠性指數(shù))降低至一定程度后,呈現(xiàn)緩慢回升的趨勢(shì)。

4 討論

多元概化理論的引入,為探索教師資格考試的質(zhì)量評(píng)價(jià)方式提供了更多的可能性。從研究結(jié)果給我們的啟示來(lái)看,多元概化理論克服了經(jīng)典測(cè)量理論的缺陷,提供了有效提高信度的方案,但是仍然不能解決所有的測(cè)量誤差控制問(wèn)題(安哲鋒, 駱?lè)? 張厚粲, 2008)。一方面,對(duì)于試卷結(jié)構(gòu)的調(diào)整,受限于考試時(shí)間的限定、考試大綱對(duì)模塊分布的確定性要求,但是它提供了在現(xiàn)有模塊結(jié)構(gòu)內(nèi)部的精細(xì)化調(diào)整方案,而這一結(jié)論以及后續(xù)研究的結(jié)果將對(duì)修訂考試大綱、調(diào)整試卷結(jié)構(gòu)和分值有重要的參考意義。另一方面,運(yùn)用多元概化理論進(jìn)行試卷結(jié)構(gòu)分析,各模塊之間的分值差異以及題型的差異也會(huì)對(duì)結(jié)果產(chǎn)生影響。在統(tǒng)一題型和各模塊分值相當(dāng)?shù)那闆r下,其結(jié)論更有針對(duì)性。因此,多元概化理論對(duì)于研究中小學(xué)教師資格考試的質(zhì)量評(píng)價(jià)有重要的意義,與經(jīng)典測(cè)量理論的測(cè)量結(jié)論相結(jié)合,可以得到更為準(zhǔn)確的試題單題質(zhì)量和試卷整體質(zhì)量改進(jìn)方案。

中小學(xué)教師資格考試改革試點(diǎn)項(xiàng)目實(shí)施至今,已成為教師教育相關(guān)領(lǐng)域研究關(guān)注的重點(diǎn)?;谡鎸?shí)數(shù)據(jù)的實(shí)證化研究是今后考試項(xiàng)目可持續(xù)化發(fā)展的依據(jù)和支撐。以本文為例,上述研究的結(jié)論,可以應(yīng)用于針對(duì)《中小學(xué)教師資格考試筆試大綱(試行)》頒布實(shí)施后修訂的政策建議。這一研究方法可進(jìn)一步拓展至教師資格考試的其他筆試科目,結(jié)合其他測(cè)量理論進(jìn)行分析和研究,形成質(zhì)量評(píng)價(jià)文本,供考試政策決策部門參考,以不斷提升考試的科學(xué)化水平,維護(hù)考試的公信力。

5 結(jié)論

本研究采用六因子多元概化模型,對(duì)2017年上半年《綜合素質(zhì)》(中學(xué))試卷進(jìn)行分析,可以得到以下結(jié)論:

(1)本次考試所使用的試卷質(zhì)量不錯(cuò)。試卷總體測(cè)量信度較好,可靠性指數(shù)達(dá)到中等水平;分測(cè)驗(yàn)對(duì)全域總分方差的貢獻(xiàn)比例與命制試卷的賦分意圖基本一致。

(2)試卷的現(xiàn)有試題數(shù)量是比較適宜的。綜合考慮考試性質(zhì)、試卷長(zhǎng)度、作答時(shí)間限制等因素,通過(guò)增加寫作題的題量以提高測(cè)量信度的方案在實(shí)際操作中不太可能實(shí)現(xiàn),在120分鐘考試時(shí)間內(nèi),保持現(xiàn)有的試題數(shù)量是比較合適的。

(3)可通過(guò)題型題量的調(diào)整來(lái)達(dá)到更高的測(cè)量信度。對(duì)于《綜合素質(zhì)》(中學(xué))可靠性指數(shù)較低的模塊,可以采取減少客觀題數(shù)量,增加主觀題數(shù)量的方式來(lái)提高信度。

猜你喜歡
概化教師資格測(cè)驗(yàn)
湖南省2021年教師資格認(rèn)定時(shí)間確定
中小學(xué)教師資格考試在即
《新年大測(cè)驗(yàn)》大揭榜
基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計(jì)算結(jié)果對(duì)比分析
陜西:中小學(xué)教師資格考試與認(rèn)定分離
教育(2017年1期)2017-02-09 14:55:29
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
結(jié)構(gòu)化面試中多源變異的概化分析
你知道嗎?
教師資格將打破終身制 明年起教師資格全國(guó)統(tǒng)考,實(shí)行定期注冊(cè)制度
攔污柵條概化試驗(yàn)
武穴市| 依安县| 荔浦县| 隆安县| 苍南县| 宝山区| 自治县| 密云县| 梅州市| 长春市| 耒阳市| 晋宁县| 临夏市| 图木舒克市| 曲松县| 邢台县| 焉耆| 汾阳市| 蓬莱市| 大悟县| 抚远县| 舞钢市| 万载县| 白城市| 社旗县| 大悟县| 东乌珠穆沁旗| 清水河县| 焉耆| 墨竹工卡县| 元阳县| 吉林市| 太康县| 西昌市| 宁蒗| 新乡市| 呈贡县| 马尔康县| 桑日县| 天柱县| 舞钢市|