初中學業(yè)水平考試中固定分數(shù)法標準設定的信度分析——以中考數(shù)學為例

2018-07-11 06:33:56卜文娟溫紅博劉先偉

數(shù)學教育學報 2018年3期

卜文娟，溫紅博，劉先偉

卜文娟，溫紅博，劉先偉

（北京師范大學中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，北京 100875）

綜合應用現(xiàn)代測量理論，分析中國初中學業(yè)水平考試中固定分數(shù)法標準設定的信度．分別從中國東中西部地區(qū)3個區(qū)縣隨機抽取3?000名初三學生為被試，對被試的數(shù)學學業(yè)水平考試數(shù)據(jù)進行分析．采用的信度指標包括經(jīng)典測量理論的決策一致性系數(shù)（）、概化理論的等級線決策信度(λ)和項目反應理論的信息量(θ)．研究結(jié)果顯示，固定分數(shù)法標準設定下，決策信度接近0.7；等級線決策信度大于0.7，大部分在0.8左右；分界點的信息量大部分低于16．這些結(jié)果表明，中考采用固定分數(shù)法進行標準設定的質(zhì)量一般，對于學業(yè)水平考試這種高利害性考試來說需要進一步提高．

學業(yè)水平考試；標準設定；固定分數(shù)法；信度

1 問題提出

在新課程改革背景下，中考制度進行了改革，初中畢業(yè)考試與高中招生考試合二為一形成初中學業(yè)水平考試（以下統(tǒng)稱“中考”），考試結(jié)果既是決定學生能否畢業(yè)的主要因素，也是高中階段學校招生的重要依據(jù)之一[9]．改革后的中考具有標準參照測驗的性質(zhì)．考試結(jié)果以等級形式呈現(xiàn)，將原始分轉(zhuǎn)化為等級分的過程中涉及等級劃定，也叫標準設定．標準設定是指在測驗分數(shù)分布中劃出一系列分界分數(shù)，將考生分為兩類或者更多有序類別[2-3]．中考標準設定的結(jié)果與學生的畢業(yè)與升學等人生重要轉(zhuǎn)折點息息相關(guān)，對考生具有深遠影響，因而標準設定的質(zhì)量至關(guān)重要且廣受關(guān)注．

目前，中國已有的關(guān)于中考標準設定質(zhì)量的研究成果主要集中在中考標準設定的重要性、現(xiàn)有中考標準設定質(zhì)量存在的問題及改進措施等．但這些研究大多采用質(zhì)性的思辨性研究進行理論層面的探討．而標準設定是一個復雜的需要綜合多種因素的心理測量過程，在鼓勵使用等級成績的同時應該加強對標準設定的研究和指導[4]．因此，如何科學運用現(xiàn)代測量理論和技術(shù)，檢驗并加強中考標準設定的質(zhì)量，為中考考試質(zhì)量的提升提供科學指導，顯得尤為重要和迫切．

從測量理論上講，無論采用什么方法，標準設定的結(jié)果必須經(jīng)過實踐的檢驗，測試機構(gòu)有責任提供證據(jù)證明標準設定的質(zhì)量[3，5]．標準設定質(zhì)量的重要指標就是分界分數(shù)的信度，分界分數(shù)的信度也受到了研究者的廣泛關(guān)注[6-8]．中國中考改革強調(diào)務必保證中考測試工具的信度，以避免中考結(jié)果出現(xiàn)較大誤差[9]．中考作為一個標準參照測驗，按照測量學的要求需要報告標準設定的信度以證實其等級劃定結(jié)果的質(zhì)量．關(guān)于標準參照測驗的信度分析，現(xiàn)代測量理論基于自身的理論框架提出了不同的信度觀，為解決這個問題提供有效的方法和指標．從經(jīng)典測量理論（Classical Testing Theory，以下簡稱CTT）的觀點來看，研究者提出了標準參照測驗的信度指標：決策一致性和決策準確性，決策一致性（DC）指考生在兩次平行測驗中被一致歸類的程度，其常用指標是和系數(shù)[10-11]．決策準確性（DA）根據(jù)考生在考試中得到的觀察分數(shù)所作的分類決定和根據(jù)真分數(shù)所做決定的一致性，常用的指標也是和系數(shù)[10-12]．概化理論（Generalizability Theory，簡稱GT）針對不同的等級分數(shù)線，提出了相應的等級線決策信度(λ)估計方法，以此估計各個能力水平點的測量信度[13-14]．等級線的決策信度是用來描述依據(jù)不同的表現(xiàn)類別的臨界分數(shù)對被試進行分類的可靠性和穩(wěn)定性．信息函數(shù)則是項目反應理論（Item Response Theory，簡稱IRT）中用以刻畫測驗或試題有效性的工具，它是直接反映測驗分數(shù)對學生能力估計精度的指標[15-16]．作為一種判斷被試合格與不合格的標準參照測驗，重要的是要在分界分數(shù)及其附近有精確的估計及高區(qū)分的能力，而這些都反映在測驗在劃界分數(shù)點的信息量，因此可根據(jù)測驗在劃界分數(shù)點上的信息量來評價標準參照測驗[17-18]．

等級劃定的結(jié)果受到其選擇的方法的影響．實踐中，中國中考標準設定常用的一種方法是固定分數(shù)法，即按照固定分數(shù)來劃分[19-21]，而等級數(shù)目和等級標準則由各地根據(jù)考試結(jié)果和當?shù)貙嶋H情況確定[22]，因而各地有所差異．中國大部分地區(qū)采用的等級數(shù)目為4、5、6級，按照固定分數(shù)線的劃分，以百分制計算，4級劃分通常采用60分、70分和90分3個分界分數(shù)將被試分為4個等級；5級劃分是采用60、70、80、90分為分界分數(shù)將成績劃分為5級；6級劃分則是采用50、60、70、80、90分5個分界分數(shù)劃分為6級．而目前中考采用固定分數(shù)進行等級劃分可能會存在多種不足，進而影響中考標準設定的質(zhì)量．然而目前缺乏相關(guān)的研究對中考標準設定的信度進行分析．因此，應用現(xiàn)代測量理論對中國中考標準設定的信度進行分析以提供其質(zhì)量論證顯得十分必要．

此外，數(shù)學作為促進學生全面發(fā)展教育的重要組成部分，在培養(yǎng)人的思維能力和創(chuàng)新能力方面的不可替代的作用．義務教育階段的數(shù)學課程是培養(yǎng)公民素質(zhì)的基礎(chǔ)課程，在各學段的學業(yè)水平考試中占據(jù)重要地位，此外根據(jù)調(diào)查結(jié)果顯示，數(shù)學是各地中考的必考科目[23]，因而擬以中考數(shù)學為研究對象進行分析．

綜上，以中考數(shù)學為研究對象，綜合應用CTT、GT和IRT分析中考現(xiàn)有固定分數(shù)法標準設定的決策一致性、等級線決策信度和分界分數(shù)的信息量，對中考標準設定的信度進行探討．

2 研究方法

2.1 研究被試

鑒于中國中考由各地市統(tǒng)一組織進行的現(xiàn)狀，采用分層隨機抽樣．首先從中國東部、中部、西部地區(qū)各選一個地市，然后從所選擇的地市中隨機抽取3?000名被試作為分析對象．

2.2 研究工具

將所抽取的3個地區(qū)的試卷分別記做A試卷、B試卷、C試卷．3個試卷結(jié)構(gòu)如表1所示，其中部分解答題中包含兩個或兩個以上的小題，表中總題量統(tǒng)計是按照卷面的小題題目數(shù)量進行統(tǒng)計．

表1 試卷結(jié)構(gòu)

2.3 數(shù)據(jù)收集與處理

由于中國大部分地區(qū)采用的等級數(shù)目為4、5、6級，因此，分別探討采用固定分數(shù)線將被試分為4、5、6個等級進行標準設定時測驗的決策一致性、等級線決策信度和分界分數(shù)的信息量．

采用Livingston和Lewis[11]提出了的LL方法分別估計測驗決策一致性和決策準確性的和系數(shù)．研究者建議對大規(guī)模測驗的分類一致性的高于0.7，系數(shù)高于0.6[11，24]．

從GT測量設計的角度來看，A、B、C三套試卷的所有被試均需要作答對應測驗的所有題目，測驗均為隨機單面交叉設計（×）．概化研究包括G研究和D研究，G研究分析各變異來源，D研究考察不同測量條件下測驗信度變化．有研究者建議基于GT的信度指標需要達到0.80[25]，對于高利害性的大規(guī)?？荚嚨母呕哦戎笜诉_到0.85才能滿足需求，理想情況下決策信度達到0.90則說明決策信度質(zhì)量非常好[26-28]．

研究采用SPSS 20.0對數(shù)據(jù)進行管理，使用BB-CLASS[31]進行決策一致性分析．使用GENOVA軟件[32]進行GT分析．使用Conquest 2.0[33]和江西師大統(tǒng)計與測量研究開發(fā)中心自主研制的“現(xiàn)代教育與心理測量通用分析系統(tǒng)（ANOTE）”進行IRT分析．

3 研究結(jié)果

3.1 經(jīng)典測量理論分析結(jié)果

首先對測驗題目的質(zhì)量進行分析，包括題目的難度和區(qū)分度，并分析測驗的內(nèi)部一致性系數(shù)，在此基礎(chǔ)上計算各測驗的決策一致性和決策準確性．

3.1.1 題目的難度和區(qū)分度

難度指標采用的是項目通過率，區(qū)分度指標采用的是題總相關(guān)．分析結(jié)果表明，A測驗總體難度為0.74，題目的難度范圍為0.15~0.99；題目的區(qū)分度均大于0.2，大部分題目區(qū)分度大于0.4．B測驗總體難度為0.81，題目的難度范圍為0.11~0.99；題目的區(qū)分度均大于0.2，大部分題目區(qū)分度大于0.4．C測驗總體難度0.72，題目的難度范圍為0.15~0.98；題目的區(qū)分度均大于0.2，大部分題目區(qū)分度大于0.4，題目區(qū)分度良好．

3.1.2 決策一致性

A、B、C三個測驗的內(nèi)部一致性系數(shù)（系數(shù)）分別為0.848、0.873、0.824，表明測驗信度較高．然后使用BB-CLASS軟件，計算分類一致性和分類準確性．采用不同等級數(shù)目等級劃分時，A、B、C三個測驗的決策一致性和決策準確性如表2所示．

由表2可知，采用6級分類時，測驗的決策一致性和決策準確性的值均低于0.7，值低于0.6．采用5級分類，3個測驗的決策一致性的值高于0.7，值高于0.6，而決策準確性的值接近0.7，值接近0.6．采用4級分類時，3個測驗的決策一致性和決策準確性系數(shù)均較高．

3.2 概化理論分析結(jié)果

GT的分析包括G研究和D研究．由于只有D研究能夠提供信度信息，所以在此只呈現(xiàn)D研究結(jié)果．

在G研究的基礎(chǔ)上進行D研究，首先計算測驗的概化系數(shù)和可靠性指數(shù)，A、B、C的概化系數(shù)分別為0.86、0.85、0.82，可靠性指數(shù)分別為0.78、0.74、0.74．接著計算A、B、C測驗在不同等級劃分時的決策信度，6級分類時各分界點50分、60分、70分、80分、90分對應的等級線決策信度為(50)、(60)、(70)、(80)、(90)，5級分類對應的等級線決策信度為(60)、(70)、(80)、(90)，4級分類對應的等級線決策信度為(60)、(70)、(90)，具體結(jié)果如表3所示．由研究結(jié)果可知，首先，3個測驗在不同等級劃分情況下分界分數(shù)決策信度均大于0.7，從總體上來講可以接受，但部分等級線的決策信度在0.80以下．其次，相對而言，低分段的決策信度較高，高分段的決策信度次之，但中等水平的決策信度較差．最后，不同地區(qū)的等級線決策信度存在差別，A、B兩個地區(qū)決策信度總體優(yōu)于C測驗，其原因可能在于測驗工具的質(zhì)量存在差異，C測驗的內(nèi)部一致性系數(shù)和概化系數(shù)均低于A、B兩個測驗．

表2 各測驗固定分數(shù)法的決策一致性

表3 測驗各分界點對應的等級線決策信度

D研究所采用的測量結(jié)構(gòu)和測量模式與G研究相同，進一步考察題目側(cè)面的樣本容量對測驗各等級線的決策信度的影響[26]．研究以各測驗現(xiàn)有題目數(shù)量為基準（A測驗的現(xiàn)有題目數(shù)為35題，B、C兩測驗題目數(shù)為36題），每種條件增加或減少25%的題目，測試題目數(shù)量從18~72，每個測驗共有7種條件．研究結(jié)果分別如下表4、表5、表6所示，研究結(jié)果顯示，隨著測試題目數(shù)量的增加，各分界分數(shù)的等級線決策信度均持續(xù)提高，但增加到一定程度后決策信度的提升隨著題目數(shù)量的增加而減緩．由表可知一般測驗題目達到45，測驗的等級線決策信度可以達到0.80；題目數(shù)量增加一倍，測驗各等級線的決策信度可以達到0.85．

表4 A測驗題目數(shù)量與等級線決策信度的影響

表5 B測驗題目數(shù)量與等級線決策信度的影響

表6 C測驗題目數(shù)量與等級線決策信度的影響

3.3 項目反應理論分析結(jié)果

研究首先檢驗測驗的單維性，分析測驗是否滿足IRT的前提假設[34]，在此基礎(chǔ)上進一步分析題目的質(zhì)量和測驗信息量．

3.3.1 單維性檢驗

使用SPSS20.0對各測驗進行因素分析，數(shù)據(jù)結(jié)果表明3個試卷的第一特征根與第二特征根比值均大于3，可以認為測驗符合IRT的單維性假設[34-35]．

3.3.2 題目質(zhì)量分析

研究采用IRT的單參模型對3個測驗的題目難度、區(qū)分度和擬合指數(shù)進行估計．研究結(jié)果顯示A、B、C測驗的題目難度分布合理，且所有題目擬合指數(shù)（MNSQ）擬合良好[36]．測驗題目區(qū)分度均大于0.2，大部分題目大于0.4．總的來說，3個測驗的題目擬合良好，區(qū)分度較高．

3.3.3 測驗信息量

表7 測驗各分界點對應的信息量

4 討論與結(jié)論

4.1 討論

4.1.1 中考標準設定的信度

綜合應用現(xiàn)代測量理論對中國中考標準設定的信度進行分析．通過探索和對比不同測量理論框架下的信度指標，以期為判斷學業(yè)考試等級設定的質(zhì)量提供科學的理論支持，進而為初中學業(yè)水平考試的實施和改革提供參考和建議．

從CTT的分析結(jié)果來看，不同的標準設定等級數(shù)目下，測驗的決策信度存在較大的差異，采用6級分類時，測驗的決策信度較差，未能達到大規(guī)?？荚嚨囊?；而采用5級分類時，測驗基本達到了大規(guī)模測驗的要求，采用4級分類時測驗能夠?qū)Ρ辉囘M行較好的分類，滿足高利害考試的要求．綜合來看，測驗的決策信度受到分界分數(shù)數(shù)目的影響，分界分數(shù)越少，分類一致性越高，與已有研究結(jié)論一致[37-38]．分界分數(shù)附近的考生越多，就更容易在兩次劃分中被分到不同的種類中，因此分界分數(shù)越多，分類一致性越低．此外，由研究結(jié)果可知，測驗的決策準確性略低于決策一致性，測驗的測量準確性還需進一步提高．

概化分析表明，測驗的各分界分數(shù)的等級線決策信度大于0.70，大部分分界分數(shù)的決策信度在0.80以上，可以認為學業(yè)水平考試的各等級線對被試進行分類時具有較高的穩(wěn)定性和可靠性．而從各等級線決策信度的比較結(jié)果來看，低分端分界點和高分段的等級線決策信度高于均值附近分界點的決策信度，由此可知現(xiàn)有中考對于兩端的被試分類的可靠性和穩(wěn)定性較高，尤其是低分段的決策信度相對最高．而這一結(jié)果可能與中考考試設計有關(guān)，目前中考數(shù)學的考試設計要求容易題、中檔題和稍難題的比例大致確定為7:2:1[39-40]，由此可知大部分題目集中于較低水平的學生，因此對低分段學生的能力水平測量更加準確．為了使各決策線信度均達到0.80，更符合高利害考試的要求[26]，D研究結(jié)果表明題目數(shù)量需要適當增加到約45題，如果想要使測驗各等級線的決策信度達到0.85，滿足大規(guī)模測試的要求，題目數(shù)量需要增加一倍．可以看出，隨著題目數(shù)量增加，測驗信度的提升效果逐漸減小，因此，需要結(jié)合考試成本等因素綜合考慮題目的合理數(shù)量．

從IRT的角度去分析各分界點的信度時，其分界點的信息量均低于16，特別是高分段的分界點信息量甚至低于8，遠不能滿足高利害測驗的測驗精度要求[29]．由IRT的結(jié)果可知，目前中考對分界分數(shù)附近的被試的能力水平測量的準確性不高，尤其是高分段學生能力水平的測量精度．這可能是由于目前的中考測驗中難題的數(shù)量較少，很難對高水平能力的學生進行準確的測量．

值得注意的是，研究結(jié)果中GT和IRT的信度指標的變化趨勢不盡相同，等級線決策信度呈現(xiàn)一個U型的變化趨勢，而信息量則是倒U型，對此Brennan[41]指出是由于原始分與IRT能力值的非線性轉(zhuǎn)化造成的，其中GT和IRT對于高分段學生的判斷結(jié)果似乎是矛盾的，但這一點也不難理解．等級線決策信度反映的是分數(shù)線對被試進行劃分的可靠性和穩(wěn)定性，而信息量反映的是分界點對被試的測量準確性．因此，這一結(jié)果可以解釋為目前的中考測驗對高水平學生的分類一致性較高，但由于測驗中符合高水平學生能力的難題數(shù)量較少，很難準確地測量高水平學生的能力，從而導致高分段的分界點信息量較低．

4.1.2 對中考命題的建議

研究結(jié)合中國中考標準設定的現(xiàn)狀，綜合研究結(jié)果，對中考命題及改革提出如下建議．

（1）中考標準設定需要借鑒國內(nèi)外先進測評項目的經(jīng)驗，完善課程標準，建立合適的表現(xiàn)標準，詳細描述各等級學生所需要具備的知識和技能．標準設定的標準不僅包括內(nèi)容標準，還包括表現(xiàn)標準．內(nèi)容標準規(guī)定學生應該掌握什么，表現(xiàn)標準是指期望被試達到的與內(nèi)容標準對應的測驗表現(xiàn)水平．與國際大型測評項目相比，中國中考表現(xiàn)標準缺失，從而導致標準設定的結(jié)果指向不明確，解釋效力不足．因此，借鑒已有研究成果，建立中考各等級的表現(xiàn)標準顯得緊急而且重要．

（2）中考標準設定的方法需要各地區(qū)結(jié)合實際情況和可用資源綜合衡量選擇．各地區(qū)進行標準設定時，需要盡可能的基于測量學的指導，采用合理的方法進行標準設定，如采用專家判斷法（如Bookmark或者Angoff法）和客觀的標準設定方法（如聚類分析法）相結(jié)合，建立較為穩(wěn)定的等級標準，使標準設定的結(jié)果更可靠、有效．

（3）中考標準設定的等級數(shù)目方面，研究結(jié)果與大量已有研究得到一致的結(jié)論：等級數(shù)目越少，分類的一致性越高．因此，建議在能夠滿足實踐需求的前提下，盡可能地減少等級數(shù)目，可以考慮采用3級或者4級進行等級劃分，不宜采用過多等級．

（4）關(guān)于中考題目數(shù)量方面，現(xiàn)有的中考題目數(shù)量（36題）基本能夠滿足考試需求，根據(jù)GT的研究結(jié)果，適當增加題目數(shù)量至45題，能夠使各等級線的決策信度均達到大規(guī)模測量的基本要求（0.8以上）．增加題目數(shù)量時，可以考慮適當增加有一定難度的題目，以進一步提高現(xiàn)有中考對高水平被試的測量準確性．

（5）關(guān)于中考的題目難度分布方面，現(xiàn)有的中考采用的偏態(tài)分布不利于對能力分布兩端的學生的測量．建議題目難度采用多峰分布，具體根據(jù)各地區(qū)劃定的等級數(shù)量，針對對應的能力分界點設計對應的難度的題目，使各能力分界點附近均有足夠的題目數(shù)量，加強對各能力分界點附近學生的測量精度，從而進一步提高等級劃定的質(zhì)量．

4.1.3 研究的不足與展望

首先，研究的樣本選擇存在不足．研究選擇了3個地區(qū)的數(shù)學試卷進行分析，標準設定的等級數(shù)目僅包含了4、5、6三種常見的等級劃定，在未來的研究中需要進一步豐富研究樣本，選擇更多地區(qū)，更多科目的中考試卷進行分析，進一步驗證研究結(jié)論．

此外，研究計算信息量時，采用的是單參數(shù)模型，估計方法是極大似然估計．IRT的模型和估計方法對參數(shù)估計結(jié)果會產(chǎn)生一定的影響，其它的模型和估計方法產(chǎn)生的結(jié)果需要進一步的研究來驗證．

其次，研究在進行信度分析時，關(guān)于決策一致性的分析僅從CTT的角度進行計算，在未來研究中可以結(jié)合其它理論探討更適合中考決策一致性的計算方法．

4.2 結(jié)論

目前中考采用固定分數(shù)法進行標準設定的質(zhì)量一般，雖然基本能夠?qū)W生的能力水平進行較好地分類，但對于一些能力分界點附近的考生的測量精度還需要進一步地提高以滿足大規(guī)模測驗的要求．

[1] 教育部關(guān)于基礎(chǔ)教育課程改革實驗區(qū)初中畢業(yè)考試與普通高中招生制度改革的指導意見[J]．中華人民共和國教育部公報，2005（4）：38-41．

[2] 李珍，辛濤，陳平．標準設定：步驟、方法與評價指標[J]．考試研究，2010（2）：83-95．

[3] HAMBLETON R K, PITONIAK M J. Setting performance standards [M] // BRENNAN R L. Educational measurement. 4th ed. Washington, DC: American Council on Education, 2006: 433–470.

[4] 馬嘉賓，張珊珊，涂端午．從國際視角看我國中考改革[J]．中小學管理，2014（1）：21-24．

[5] AERA, APA, NCME. Standards for educational and psychological testing [M]. Washington, DC: Author, 1999: 35-36.

[6] GREEN D R, TRIMBLE C S, LEWIS D M. Interpreting the results of three different standard-setting procedures [J]. Educational Measurement: Issues and Practice, 2003, 22 (1): 22–32.

[7] KANE M. Validating the performance standards associated with passing scores [J]. Review of Educational Research, 1994, 64 (3): 425–461.

[8] PETERSON C H, SCHULZ E M, ENGELHARD G. Reliability and validity of bookmark-based methods for standard setting: comparisons to angoff-based methods in the national assessment of educational progress [J]. Educationl Measurement Issues & Practice, 2011, 30 (2): 3–14.

[9] 教育部“初中畢業(yè)和高中招生考試制度改革”項目組．解析初中畢業(yè)生學業(yè)考試改革[J]．中小學管理，2004（6）：5-7．

[10] 韓寧．評價考試質(zhì)量的新指標：決策一致性和決策準確性[J]．中國考試（研究版），2008（6）：3-6．

[11] ?LIVINGSTON S A, LEWIS C. Estimating the consistency and accuracy of classifications based on test scores [J]. Journal of Educational Measurement, 1995 (32): 179–197.

[12] ?HANSON B A, BRENNAN R L. An investigation of classification consistency indexes estimated under alternative strong true score models [J]. Journal of Educational Measurement, 1990 (27): 345–359.

[13] ?BRENNAN R L. Generalizability theory [M]. NewYork: Springer-Verlag, 2001: 221-240.

[14] 楊志明，張雷．改進普通話測試的概化理論分析[J]．湖南師范大學教育科學學報，2003（1）：76-82．

[15] 羅照盛．項目反應理論[M]．北京：北京師范大學出版社，2012：4-43．

[16] ?FISCHER G H, MOLENAAR I W. Rasch models: foundations, recent developments and applications [M]. New York: Springer-Verlag, 1995: 77-132.

[17] 涂冬波，蔡艷．信息函數(shù)在標準參照測驗中的應用研究[J]．江西師范大學學報（自然科學版），2005（2）：167-172．

[18] 熊建華，丁樹良，漆書青，等．用測驗信息量分析試卷質(zhì)量[J]．江西師范大學學報（自然科學版），2002（3）：225-228．

[19] 肖永琴．目前中考理化學科評價體系的調(diào)查與分析[J]．福建基礎(chǔ)教育研究，2011（5）：106-109．

[20] 張雨強，魏夢其．初中畢業(yè)生學業(yè)考試的市域比較研究[J]．教育參考，2015（5）：28-34，53．

[21] 李建平．解析初中畢業(yè)學業(yè)考試改革新思路[N]．中國教育報，2005-04-04（01）．

[22] 教育部辦公廳關(guān)于印發(fā)《國家基礎(chǔ)教育課程改革實驗區(qū)2004年初中畢業(yè)考試與普通高中招生制度改革的指導意見》的通知[J]．中華人民共和國教育部公報，2004（Z1）：70-73．

[23] 王燁暉，韋小滿．初中畢業(yè)生學業(yè)考試的現(xiàn)狀調(diào)查[J]．中國考試，2014（2）：43-47．

[24] ?SUBKOVIAK M J. Decision-consistency approaches [M] // BERK R A. Criterion referenced measurement. Baltimore: Johns Hopkins University Press, 1980: 129-185.

[25] 黎光明，張敏強，張文怡．人事測評中的概化理論應用[J]．心理科學進展，2013，21（1）：166-174．

[26] 楊志明．標準參照測驗及其等級線信度的概化理論分析[J]．心理學探新，2003（3）：52-56．

[27] 王曉華，文劍冰．多元概化理論在高等教育達標性考試中的應用[J]．心理科學，2010，33（5）：1?223-1?226．

[28] 陸一萍．HSK高等考試信度的多元概化理論研究[J]．中國考試，2011（5）：20-23．

[29] 漆書青，周駿，張青華，等．用信息函數(shù)法對標準參照測驗作質(zhì)量分析[J]．心理與行為研究，2003，1（1）：34-39．

[30] 漆書青，戴海崎．項目反應理論及其應用研究[M]．南昌：江西高校出版社，1992：324-330．

[31] BRENNAN R L. Manual for BB-class: a computer program that uses the beta-binomial model for classification consistency and accuracy [J]. Casma Research Report, 2004 (9): 1–22.

[32] ?CRICK J E, BRENNAN R L. Manual for GENOVA: a generalized analysis of variance system [J]. Iowa City, IA: American Testing System, 1983: 1–102.

[33] ?WU M L, ADAMS R L, WILSON M R, et al. Manual for ACER conquest version 2.0, Australia [M]. ACER PRESS, 2007: 11–30.

[34] ?SLOCUM S L. Assessing unidimensionality of psychological scales: using individual and integrative criteria from factor analysis [J]. Social Indicators Research, 2005, 102 (3): 443–461.

[35] ?HAMBLETON R K, SWAMINATHAN H. Item response theory: principles and applications [M]. Boston: Klumer Nijhoff Publishing, 1985: 16–22.

[36] ?WRIGHT B D, LINACRE J M. Reasonable mean-square fit values [J]. Rasch Measurement Transactions, 1994 (8): 370.

[37] 陳平，李珍，辛濤，等．標準參照測驗決策一致性指標研究的總結(jié)與展望[J]．心理發(fā)展與教育，2011，27（2）：210-215．

[38] 杜佳萱，陳平，辛濤．基于IRT的決策一致性系數(shù)在大規(guī)模教育測量中的應用[J]．北京師范大學學報（自然科學版），2015（6）：643-648．

[39] 徐遠征．對普通高中學業(yè)水平考試命題技術(shù)的初步探討[J]．課程·教材·教法，2013，33（2）：104-108．

[40] 周彩鶯，沈啟正，季芳．普通高中學業(yè)水平考試命題研究（二）——難度控制技術(shù)探究[J]．教育測量與評價（理論版），2013（10）：35-38．

[41] BRENNAN R L. Raw-score conditional standard errors of measurement in generalizability theory [J]. Applied Psychological Measurement, 1998 (22): 307–331.

Reliability of Current Standard Setting Method of Fixed Score in Academic Level Examination for Secondary School

BU Wen-juan, WEN Hong-bo, LIU Xian-wei

(Collaborative Innovation Center of Assessment toward Basic Education Quality at Beijing Normal University, Beijing 100875, China)

The main purposes of this study were to examine the reliability of current standard setting method of Fixed Score in academic level examination for Secondary School. Using stratified random sampling design to select three counties from the East, Middle, and West of China respectively, 3?000 students of each county are chosen. The data from the Academic Level Examination for Secondary School was used. A comprehensive application of modern measurement theory to analyze the reliability indicators of standard setting, including Decision Consistency Index (Kappa) in Classical Testing Theory (CTT), Cut–score Dependability(λ)in Generalizability Theory (GT), and the amount of information index(θ)from Item Response Theory. The results showed that: (i) the Decision Consistency Index of current Entrance Examination for Secondary School approaching 0.7; (ii)(λ)of the cut-scores was greater than 0.7, mostly beyond 0.8; (iii)(θ)were less than 16 regardless of methods to Fix Score or Fix Ratio. All these results suggested that the quality of existing tests’ standards setting method of Fixed Score was barely satisfactory, and it should be improved for high-stakes examinations.

academic level examination; standard setting; fixed score method; reliability

2018–01–03

北京師范大學研究生院精品課程建設項目——研究生培養(yǎng)—方法課群教學團隊建設—SPSS數(shù)（1601121A2）

卜文娟（1993—），女，陜西商洛人，碩士生，主要從事學業(yè)質(zhì)量測評研究．溫紅博為本文通訊作者．

G632

1004–9894（2018）03–0039–06

卜文娟，溫紅博，劉先偉．初中學業(yè)水平考試中固定分數(shù)法標準設定的信度分析——以中考數(shù)學為例[J]．數(shù)學教育學報，2018，27（3）：39-44．

[責任編校：周學智]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

初中學業(yè)水平考試中固定分數(shù)法標準設定的信度分析——以中考數(shù)學為例

1 問題提出

2 研究方法

2.1 研究被試

2.2 研究工具

2.3 數(shù)據(jù)收集與處理

3 研究結(jié)果

3.1 經(jīng)典測量理論分析結(jié)果

3.2 概化理論分析結(jié)果

3.3 項目反應理論分析結(jié)果

4 討論與結(jié)論

4.1 討論

4.2 結(jié)論