美國NAEP 2019數(shù)學(xué)能力評價體系研究

2021-03-05 04:15徐柱柱

比較教育學(xué)報 2021年1期

徐柱柱

當(dāng)今世界，擁有數(shù)學(xué)能力或數(shù)學(xué)素養(yǎng)已成為現(xiàn)代公民的基本素質(zhì)。盡管不同國家、不同文化對其都有不同的理解，但如何對數(shù)學(xué)能力進行評價始終是世界教育迫切要解決的問題，而厘清數(shù)學(xué)能力評價的內(nèi)涵并構(gòu)建相應(yīng)的測評體系，則是其中的關(guān)鍵所在。從最初的文獻來看，國外數(shù)學(xué)能力的評價也就是在基本讀寫基礎(chǔ)上考察學(xué)生對運算等基本技能的掌握，而當(dāng)時國內(nèi)的數(shù)學(xué)教育評價領(lǐng)域也重點關(guān)注學(xué)生在運算、推理和空間等三大形式化能力上的表現(xiàn)。①孔企平. 西方數(shù)學(xué)教育中“numeracy”理論初探[J]. 全球教育展望, 2001(4): 6, 56-59.隨著各國對數(shù)學(xué)學(xué)科能力的重視，其評估內(nèi)容和范圍也在不斷深化。使用數(shù)學(xué)作為日常生活的溝通方式，懂得欣賞和理解用數(shù)學(xué)語言進行表達，這些再也不只是知識與技能上的要求。運用數(shù)學(xué)思維和數(shù)學(xué)技能來解決現(xiàn)實問題以滿足日常生活的需求成為全球普遍的共識。而為了成功地實現(xiàn)數(shù)學(xué)問題解決，未來的學(xué)習(xí)者不得不利用各種知識、經(jīng)驗和背景，在跨學(xué)科和跨能力的理解中達到精熟程度。②徐柱柱, 綦春霞. 初中生數(shù)學(xué)問題解決能力及影響因素的調(diào)查研究--以河北省S市八年級學(xué)生為例[J]. 教育測量與評價, 2018(7): 41-46.③張舒, 曹一鳴, 王寬明. 國際視野下問題解決在數(shù)學(xué)課程發(fā)展中的爭鳴與走勢[J]. 比較教育學(xué)報, 2020(1): 10-22.總體上，國內(nèi)外對數(shù)學(xué)能力的測評大都是通過學(xué)科內(nèi)容、認(rèn)知要求、表現(xiàn)水平與問題情境等方面加以描述。④曹一鳴, 劉曉婷, 郭衎. 數(shù)學(xué)學(xué)科能力及其表現(xiàn)研究[J]. 教育學(xué)報, 2016, 12(4): 73-78.其中，數(shù)學(xué)內(nèi)容領(lǐng)域幾乎統(tǒng)一于知識與技能兩大方面，但認(rèn)知和情境方面的考慮則不盡相同，從早期的布魯姆教育目標(biāo)分類到“知識與認(rèn)知”二維結(jié)構(gòu)的修正，再到與數(shù)學(xué)學(xué)科的緊密結(jié)合，認(rèn)知水平劃分存在明顯的不同，并且影響數(shù)學(xué)能力的環(huán)境和背景要素也在不同能力框架中不同程度地加以運用。⑤徐柱柱, 張迪, 綦春霞. 初中生數(shù)學(xué)學(xué)科素養(yǎng)測評的實證研究--以北京市T區(qū)八年級為例[J]. 教育測量與評價, 2019(1):53-58, 61.⑥陳月蘭. 2015版韓國義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)特征分析與啟發(fā)--從能力的視角[J]. 外國中小學(xué)教育, 2019(8): 73-79.然而到目前為止，學(xué)術(shù)界關(guān)于數(shù)學(xué)能力的評價仍不夠統(tǒng)一和細(xì)致，因此未來教育領(lǐng)域開展系統(tǒng)科學(xué)的數(shù)學(xué)能力評價更加需要汲取各國教育測評的優(yōu)秀經(jīng)驗，尤其是要學(xué)習(xí)和仿效國內(nèi)外相對成熟的能力評價體系，進而研發(fā)出適合本土特點的數(shù)學(xué)能力評價框架。作為美國唯一具有代表性的基礎(chǔ)教育評價體系，NAEP數(shù)學(xué)能力評價對我國開展基于課程標(biāo)準(zhǔn)的數(shù)學(xué)教育評價極具參考價值。并且，相較于以往的多次測評，NAEP 2019數(shù)學(xué)能力評價體系在測評要素的更新、測評工具的平衡以及測評結(jié)果的解釋等方面都進行了細(xì)致的調(diào)整和完善，從而使其測評體系更加完整，也為我國實施基礎(chǔ)教育質(zhì)量監(jiān)測帶來許多重要的啟示。

一、美國NAEP數(shù)學(xué)能力評價體系簡介

（一）NAEP數(shù)學(xué)評價體系發(fā)展沿革

自美國建國初期，教育實權(quán)就一直掌握在各州政府手中。然而在二戰(zhàn)以后，面對日益復(fù)雜的國內(nèi)外形勢，聯(lián)邦政府開始干預(yù)教育，并試圖統(tǒng)籌全國學(xué)生的學(xué)業(yè)評價。于是，在1963年，時任肯尼迪總統(tǒng)教育專員的凱普爾（Francis C. Keppel）、聯(lián)合國內(nèi)教育評價專家泰勒（Ralph W. Tyler）以及卡內(nèi)基基金會主席共同促成了全美教育進展評價（National Assessment of Educational Progress，簡稱“NAEP”）項目的誕生，并于1969年實施了第一次全國性的評價。⑦周紅. 美國國家教育進展評估(NAEP)體系的產(chǎn)生與發(fā)展[J]. 外國教育研究, 2005(2): 77-80.在NAEP發(fā)展初期，項目構(gòu)成上僅有國家層面的學(xué)科評價，直到2001年聯(lián)邦政府才開始強制要求各州必須承諾參加兩年一次的數(shù)學(xué)和閱讀科目的州層面評價。并且自此以后，國家與州一級的學(xué)科評價得以整合，NAEP成為美國唯一長期的且具有全國代表性的教育評價體系，并被多個國家借鑒和效仿。①陳晨, 潘蘇東. 美國全國教育進展評價體系的發(fā)展歷程: 40年回顧[J]. 外國中小學(xué)教育, 2009(12): 14-18.

1969年以來，NAEP項目逐漸確立起以國家和州層面的主評價、長期趨勢評價以及輔助性專題研究為代表的能力評價體系。主評價是為了檢測全國及各州學(xué)生在幾大核心學(xué)科（如閱讀、數(shù)學(xué)、科學(xué)、寫作、美國史、經(jīng)濟學(xué)、公民學(xué)、地理和藝術(shù)）相關(guān)知識和技能方面的掌握程度。其中，4年級和8年級每2年施測一次，而12年級則每4年進行一次；②羅文蔚. 美國教育質(zhì)量評價體系的構(gòu)成及啟示[J]. 教學(xué)與管理(中學(xué)版), 2017(3): 82-84.長期趨勢評價旨在為學(xué)生學(xué)業(yè)的長遠(yuǎn)發(fā)展提供有效的變化趨勢信息，并且每4年對9歲、13歲和17歲學(xué)生的數(shù)學(xué)、閱讀、科學(xué)和寫作等學(xué)科表現(xiàn)進行一次系統(tǒng)評估；而輔助性專題研究則重點關(guān)注特定學(xué)生群體的學(xué)業(yè)成就，如口語閱讀研究、中學(xué)畢業(yè)成績單研究、特許學(xué)校試驗性研究、印第安教育研究和私立學(xué)校成績研究等。③蘇紅. 美國基礎(chǔ)教育學(xué)業(yè)質(zhì)量評價: 體系、機制與啟示[J]. 世界教育信息, 2012(5): 40-43.

作為NAEP評價長期必測的科目，數(shù)學(xué)學(xué)科評價旨在收集和報告國家、州和地方等各級學(xué)生的學(xué)業(yè)表現(xiàn)信息，并為公民、課程專家和教育政策制定者提供有關(guān)學(xué)生對數(shù)學(xué)學(xué)科性質(zhì)的理解以及學(xué)校教育因素與其數(shù)學(xué)能力關(guān)系等方面的資料。④周紅. 美國國家教育進展評估體系述評[J]. 全球教育展望, 2004(8): 66-69.四十多年來，NAEP數(shù)學(xué)評價在內(nèi)容目標(biāo)和認(rèn)知要求上進行了多次調(diào)整，從而使其評價框架更加完善，數(shù)學(xué)能力評估也更加科學(xué)。⑤NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.2019年，全美多達50個州、哥倫比亞特區(qū)、國防部學(xué)院以及27個大城市管轄的8 280所學(xué)校的296 900名4年級和8年級學(xué)生參與了測試。

（二）NAEP 2019數(shù)學(xué)能力評價目的

在NAEP 2019數(shù)學(xué)能力評價中，測試的主要目的是為獲取當(dāng)前學(xué)生學(xué)業(yè)發(fā)展的綜合信息，如了解學(xué)生在數(shù)學(xué)學(xué)科領(lǐng)域應(yīng)該“知道什么”以及“可以做什么”、在一段時間內(nèi)其數(shù)學(xué)學(xué)業(yè)成績的變化趨勢、數(shù)學(xué)知識學(xué)習(xí)方面的薄弱點以及家庭、社會等背景變量對他們學(xué)業(yè)表現(xiàn)的影響等。通過觀察和分析學(xué)生在數(shù)學(xué)問題解決過程中運用數(shù)學(xué)能力的相關(guān)信息，來系統(tǒng)評估他們對數(shù)學(xué)知識和技能的掌握程度。此外，NAEP數(shù)學(xué)評估還重點關(guān)注某些特定群體（如女性、少數(shù)民族和家庭經(jīng)濟地位較低的學(xué)生）的數(shù)學(xué)學(xué)習(xí)特征，以便獲得全國學(xué)生數(shù)學(xué)學(xué)業(yè)成就的整體表現(xiàn)。⑥方曉東, 李新翠. 美全國教育進展評估述評[J]. 比較教育研究, 2009(2): 58-62.

（三）NAEP 2019數(shù)學(xué)能力評價結(jié)果匯報與解釋

從學(xué)生歷次NAEP數(shù)學(xué)能力評價的表現(xiàn)來看，都主要以量尺分?jǐn)?shù)和成就水平兩大指標(biāo)來衡量學(xué)生數(shù)學(xué)學(xué)業(yè)成就的整體表現(xiàn)。其中，量尺分?jǐn)?shù)是先采用項目反應(yīng)理論模型估計出學(xué)生能力參數(shù)，然后經(jīng)線性轉(zhuǎn)換后獲得測驗的標(biāo)準(zhǔn)分?jǐn)?shù)，該分?jǐn)?shù)值可以表示學(xué)生在數(shù)學(xué)能力評估中的成就表現(xiàn)，同時其結(jié)果也能在不同州、地區(qū)以及學(xué)校之間進行橫向比較；而成就水平則是為了描述學(xué)生在了解、理解和應(yīng)用數(shù)學(xué)知識和技能方面的精熟度水平，總體上可劃分基礎(chǔ)水平、熟練水平和高級水平這三個等級。①周達. 國際大規(guī)模測試數(shù)學(xué)學(xué)業(yè)水平描述框架之比較及啟示[J]. 教育測量與評價, 2017 (4): 23-27.另外，在數(shù)學(xué)能力評價結(jié)果的解釋上，NAEP 2019指出對學(xué)業(yè)成就表現(xiàn)的預(yù)測不應(yīng)被簡單理解為各測試變量之間的因果效應(yīng)，還要綜合考慮人口和教育系統(tǒng)因素（如教學(xué)趨勢、學(xué)齡人口變化、社會需求和期望）的干預(yù)作用以及其他未測變量的潛在影響。②王燁暉, 張岳, 楊濤等. 義務(wù)教育數(shù)學(xué)相關(guān)因素監(jiān)測工具研發(fā)的探索與思考[J]. 數(shù)學(xué)教育學(xué)報, 2018, 27(5): 8-12.

二、美國NAEP 2019數(shù)學(xué)能力評價框架微觀探析

（一）NAEP數(shù)學(xué)能力評價框架的歷史變遷

每一次NAEP學(xué)科評價都是基于一個特定的組織框架，以系統(tǒng)指導(dǎo)評估流程的展開和評估內(nèi)容的確定。通常情況下，該組織框架的形成會經(jīng)歷一系列研發(fā)設(shè)計與調(diào)整過程，從而保障學(xué)科評價內(nèi)容及時地適應(yīng)教育目標(biāo)和課程的變化。對于數(shù)學(xué)學(xué)科而言，學(xué)業(yè)表現(xiàn)最終需要通過刻畫出學(xué)生成功解決數(shù)學(xué)問題時所運用的數(shù)學(xué)能力來加以表征。因此，NAEP數(shù)學(xué)評價的關(guān)鍵在于構(gòu)建反映當(dāng)前教學(xué)實踐和課程改革的數(shù)學(xué)能力評價框架。一方面，需界定好數(shù)學(xué)能力概念中的核心元素和范圍，并且盡可能從不同維度去研制相關(guān)題目來覆蓋這些元素；另一方面，還應(yīng)根據(jù)既定的數(shù)學(xué)能力框架和數(shù)學(xué)課程標(biāo)準(zhǔn)的相關(guān)要求，選定好學(xué)生在應(yīng)對課內(nèi)外各種復(fù)雜問題時所需的特定數(shù)學(xué)知識和數(shù)學(xué)技能。迄今為止，NAEP數(shù)學(xué)能力評價框架共進行了兩次重要的調(diào)整和變化。

第一次調(diào)整是在1990年至2003年（1990年、1992年、1996年、2000年和2003年）期間，受全美數(shù)學(xué)教師理事會（NCTM）制定的《學(xué)校數(shù)學(xué)課程與評價標(biāo)準(zhǔn)》的影響，國家評估管理委員會（NAGB）逐步確立了早期的數(shù)學(xué)能力評價框架，并從內(nèi)容領(lǐng)域、認(rèn)知要求和能力要素等三個方面加以描述。③全美數(shù)學(xué)教師理事會制訂, 蔡金法等譯. 美國學(xué)校數(shù)學(xué)教育的原則和標(biāo)準(zhǔn)[M]. 北京: 人民教育出版社, 2004: 29-62.其中，內(nèi)容領(lǐng)域包括“數(shù)感、屬性和操作、測量、幾何與空間意識、數(shù)據(jù)分析及統(tǒng)計與概率、代數(shù)與函數(shù)”等5個部分，認(rèn)知要求覆蓋了“概念理解、程序性知識和問題解決”這3個方面，而能力要素則包含了“推理、聯(lián)系和信息交流”等3個部分。④張迪, 王瑞霖, 杜宵豐. NAEP2013數(shù)學(xué)測評分析框架及試題特點分析[J]. 教育測量與評價, 2018(3): 51-56, 64.

第二次調(diào)整是在2005年，由于原有的數(shù)學(xué)能力評價框架開始受到學(xué)者質(zhì)疑，于是新的框架在不同年級開始相繼實施。自2005年開始，國家評估管理委員會逐步完善原先的框架，并確定從內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩個方面對學(xué)生的數(shù)學(xué)能力表現(xiàn)加以系統(tǒng)描述。其中，在原有的內(nèi)容維度基礎(chǔ)上，4年級和8年級框架的內(nèi)容領(lǐng)域變更為“數(shù)與運算、代數(shù)、幾何、統(tǒng)計與概率以及測量”這5個板塊，而在12年級該維度的“測量”與“幾何”合并成一塊；數(shù)學(xué)復(fù)雜性則是整合了原先的認(rèn)知要求和能力要素兩大維度，并形成了低、中、高三個復(fù)雜性水平，①NAEP. Mathematics Framework for the 2013 National Assessment of Educational Progress[EB/OL]. (2013-12-18)[2020-08-25].http://www.nagb.org/publications/frameworks/math-2013-framework.pdf.其中每個水平都會涉及“概念理解、程序操作、推理和問題解決”。由于2005年數(shù)學(xué)能力評價框架體系相對完備，故一直到2019年，4年級和8年級測評框架的相關(guān)內(nèi)容都未作大的改變。但是，近年來學(xué)者逐漸意識到高中課程改革對學(xué)生適應(yīng)未來中學(xué)后教育的重要意義，因此后期的數(shù)學(xué)能力評價框架的局部變化主要體現(xiàn)在12年級的評估上。并且，在2009年和2019年，國家評估管理委員會分別對12年級數(shù)學(xué)能力評價的內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩個維度進行了略微調(diào)整，如更新的數(shù)學(xué)內(nèi)容的掌握目標(biāo)以及數(shù)學(xué)復(fù)雜性的分類標(biāo)準(zhǔn)和相關(guān)描述（見圖1）。

（二）NAEP 2019數(shù)學(xué)能力評價框架的測評要素分析

國內(nèi)外大規(guī)模數(shù)學(xué)測評經(jīng)驗表明，構(gòu)建能力評價框架的關(guān)鍵在于確定數(shù)學(xué)能力及相關(guān)元素的概念和范圍，然后基于能力框架中各測評要素設(shè)計相對有效的評價工具。②張奠宙, 鮑建生, 徐斌艷. 數(shù)學(xué)教育研究導(dǎo)引(二)[M]. 南京: 江蘇教育出版社, 2013: 448-452.如前文所述，NAEP 2019數(shù)學(xué)能力的評價依舊是從內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩大維度（測評要素）進行操作的（見表1）。其中，4年級和8年級框架的內(nèi)容領(lǐng)域為“數(shù)與運算、測量、幾何、統(tǒng)計與概率以及代數(shù)”等5個部分，而12年級框架的內(nèi)容領(lǐng)域為“數(shù)與運算、幾何、代數(shù)及統(tǒng)計與概率”等4個部分，并且不同年級考察的數(shù)學(xué)內(nèi)容的分布比例也各有差異；而數(shù)學(xué)復(fù)雜性維度則主要包括低、中、高三個水平，其中低復(fù)雜性水平是指學(xué)生在問題解決時只需要識別與回憶某些數(shù)學(xué)知識即可，中等復(fù)雜性水平需要學(xué)生在問題解決時能將各內(nèi)容領(lǐng)域中的數(shù)學(xué)概念和推導(dǎo)過程結(jié)合到一起，而高復(fù)雜性水平則要求學(xué)生在問題解決過程中能夠進行完整推理和系統(tǒng)證明。此外，不同年級內(nèi)容領(lǐng)域的掌握目標(biāo)和各水平數(shù)學(xué)復(fù)雜性的描述也略有不同。例如，對于“數(shù)與運算”領(lǐng)域的數(shù)感知識點來說，低復(fù)雜性水平的掌握目標(biāo)要求4年級學(xué)生能夠標(biāo)志整數(shù)的位數(shù)，而8年級學(xué)生需要學(xué)會通過位值來描述整數(shù)和小數(shù)，但在同等復(fù)雜性水平下，相關(guān)內(nèi)容的掌握目標(biāo)則對12年級學(xué)生不作要求。①NAEP.Mathematics Framework for the 2019 National Assessment of Educational Progress[EB/OL]. (2019-10-30)[2020-08-25].https://www.nagb.gov/content/nagb/assets/documents/publications/frameworks/mathematics/2019-math-framework.pdf.

表1 NAEP 2019數(shù)學(xué)能力評價框架的測評要素

（三）基于NAEP 2019數(shù)學(xué)能力評價框架的試題編制

為了全面細(xì)致地刻畫學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn)，NAEP 2019數(shù)學(xué)能力評估使用了較為均衡的試題編制結(jié)構(gòu)，以確保測試題在不同背景、年級、內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性以及題目類型上保持相對均勻。具體來看，首先將不同年級的內(nèi)容領(lǐng)域按照課程目標(biāo)要求確定好各數(shù)學(xué)模塊（如數(shù)與運算、測量、幾何、統(tǒng)計與概率以及代數(shù)）考察比例；然后根據(jù)對所有測試題難度的預(yù)估制定出各數(shù)學(xué)復(fù)雜性水平題目的時間分配方案，其中低、中、高水平題目測試時間比例依次為25%、50%和25%（仍見表1）；接下來將學(xué)生在選擇題和主觀題上的測試時間比例設(shè)定為50%和50%；最后還要充分考慮到不同背景（如純數(shù)學(xué)背景和現(xiàn)實背景）測試題內(nèi)容分布的均衡性。

此外，更為重要的是，NAEP 2019數(shù)學(xué)能力評價的核心仍然是題目的編制和題型分配（見表2）。自1992年測試以來，NAEP數(shù)學(xué)評估一直沿用選擇題（Multiple Choice）、簡短式主觀題（Short Constructed Response）和拓展式主觀題（Extended Constructed-Response）3種類型。并且，從2017年至2019年，項目組開始將各類型題目逐步過渡到數(shù)字平臺。其中，選擇題是讓被試參與者從既定備選答案中選出正確答案的題目。4年級的題目答案為4個選項，而8年級和12年級的題目有5個選項。由于整體覆蓋面較廣，故通過該題型可以很快確定學(xué)生是否已掌握某些數(shù)學(xué)知識和技能；主觀題是指那些能更好地考查學(xué)生具體情況或個性的試題。在NAEP 2019數(shù)學(xué)評價中，簡短式主觀題和拓展式主觀題都是為了更加細(xì)致地了解學(xué)生對于特定領(lǐng)域數(shù)學(xué)知識和內(nèi)容的理解和掌握情況，并且還可以考察他們的識別與回憶能力以及對數(shù)學(xué)問題本質(zhì)的認(rèn)識，從而有助于學(xué)生清晰表達問題解決的思路。①NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.

表2 NAEP 2019數(shù)學(xué)能力評價試題編制的考察要點

三、美國NAEP 2019數(shù)學(xué)能力評價過程分析

（一）NAEP 2019數(shù)學(xué)能力測試評分標(biāo)準(zhǔn)解讀

測試題的評分標(biāo)準(zhǔn)一般是由命題專家團隊結(jié)合命題原則并根據(jù)經(jīng)驗制定，然后參照學(xué)生的具體作答進行編碼?？傮w來看，目前主要有雙位編碼評分法和SOLO分類評分法。SOLO分類評價法是一種以等級描述為基本特征的質(zhì)性評價方法，當(dāng)中涉及的各種等級分別代表了考生對于某項特定知識的掌握程度，從而根據(jù)他們的作答情況，評分者便可以參照上述分類標(biāo)準(zhǔn)就考生對知識內(nèi)容的掌握程度進行評判；而雙位編碼評分法不僅要確定好計分等級，還要預(yù)估出每個等級可能存在的種類并且歸納出其基本特征，從而兼顧答案的多樣性和考生能力水平的差異性。②許世紅. 兩類教育測評的碰撞與啟示--參加PISA2015試測數(shù)學(xué)閱卷編碼的思考[J]. 廣東教育(綜合版), 2015(3): 31-35.具體而言，雙位編碼評分法和SOLO分類評分法都是先將選擇題和大部分封閉式解答題采用0、1兩級計分，而開放式解答題則使用多級計分方式（如0、1、2等），然后結(jié)合具體的評分標(biāo)準(zhǔn)進行編碼。因此，兩種評分體系本質(zhì)上具有內(nèi)在一致性。③羅蘭英. “雙位編碼”評分與SOLO評分方法的比較研究--以初中物理開放題評分為例[D]. 桂林: 廣西師范大學(xué),2015: 27-34.

此外，為了適應(yīng)大規(guī)模測試的需要，NAEP對于學(xué)生數(shù)學(xué)學(xué)業(yè)表現(xiàn)結(jié)果的處理也是基于項目反應(yīng)理論，即將試題難度與考生數(shù)學(xué)能力的高低建立在同一個量尺上。與PISA和TIMSS不同，NAEP 2019試題的評分原則采用的是SOLO分類法，即使用評分量規(guī)（Scoring Rubric）對學(xué)生的原始作答進行評分，先將學(xué)生的作答與相應(yīng)的評分量規(guī)進行比較，然后根據(jù)學(xué)生答案中所包含的得分點由高到低分為3個層次，分別賦予“滿分”“部分正確”和“零分”。①李貴安, 何嘉歡, 徐小紅. NAEP科學(xué)能力測評對我國物理學(xué)科能力測評的啟示[J]. 教育測量與評價, 2015(5): 30-35.其中，“滿分”表示被試者已理解題目內(nèi)涵并作答正確，但不意味著其作答已接近完美；“部分正確”表示被試者不完全理解問題且作答呈現(xiàn)出部分問題解決步驟；而“零分”表示被試者并沒有理解題目，但不意味著整個作答過程完全錯誤。當(dāng)然，這種類別還包含空白作答的情形。下面將通過幾個具體的例子分別對選擇題、簡短式主觀題和拓展式主觀題等3種題型的評分標(biāo)準(zhǔn)予以說明：

例1：下列哪個直角三角形（見圖2）不可能是由30°、60°和90°構(gòu)成的三角形？（選擇題）

圖2 選擇題：例1中的選項

由題意可知，本題主要是考察學(xué)生能否識別幾何圖形中的數(shù)量關(guān)系，即“在直角三角形中，30°角所對的直角邊等于斜邊的一半”（評分標(biāo)準(zhǔn)見表3）。

表3 例1具體的評分標(biāo)準(zhǔn)

例2：校園內(nèi)現(xiàn)僅停放了自行車和貨車，如圖3所示。在星期二時，校園內(nèi)的車輪印總數(shù)為24，那么當(dāng)天可能有__輛自行車和__貨車經(jīng)過（簡短式主觀題）？

圖3 簡短式主觀題：校園內(nèi)停放的車輛

由題意可知，該題主要是考察學(xué)生在現(xiàn)實情境下如何利用二元一次方程知識進行數(shù)學(xué)推理與運算（評分標(biāo)準(zhǔn)見表4）。

表4 例2具體的評分標(biāo)準(zhǔn)

例3：上圖中的房間地板要鋪設(shè)瓷磚（見圖4），而通常一盒瓷磚會覆蓋25平方英尺的面積。請先用尺子測量面積，然后確定需購買多少盒瓷磚才能鋪滿整塊地板（拓展式主觀題）？

圖4 拓展式主觀題：例3中的房間地板

由題意可知，本題主要是考察學(xué)生能否在生活情境中識別幾何圖形的性質(zhì)并且進行相關(guān)計算（評分標(biāo)準(zhǔn)見表5）。

表5 例3具體的評分標(biāo)準(zhǔn)

（二）NAEP 2019數(shù)學(xué)能力評價樣題分析

數(shù)學(xué)測試題是NAEP數(shù)學(xué)評價最為重要的測評工具之一，它主要按照先前制定好的數(shù)學(xué)能力測評框架來命制題目。具體地說，從內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性、問題情境以及題目類型等多方面去考察學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn)，也就是說需要通過題目的命制來覆蓋這些要素。下面將借助對幾道典型樣題的細(xì)致分析來重點說明NAEP 2019數(shù)學(xué)能力評價的過程。

樣題1、音樂廳里面目前有30人，而自助餐廳里現(xiàn)有74人，請問自助餐廳里現(xiàn)在比音樂廳里面多__人？（）

A.40 B.44 C.54 D.104

樣題1命題意圖：通過依托現(xiàn)實生活背景來認(rèn)識整數(shù)的加減法運算。

內(nèi)容領(lǐng)域：數(shù)與運算

數(shù)學(xué)復(fù)雜性：低水平

問題情境：現(xiàn)實情境

題目類型：選擇題

此題主要考查4年級學(xué)生在現(xiàn)實生活情境下是否掌握整數(shù)的四則運算。而為了成功地解決問題，學(xué)生首先要理解上述兩個數(shù)字代表的意義，然后結(jié)合題目要求找出74和30之間的差異，最后再進行減法運算。顯然，在數(shù)學(xué)復(fù)雜性上屬于低水平層次。只要學(xué)生能夠理解題意，那么很快就能得出結(jié)論，即“44=74-30”。具體來看，有80%的學(xué)生選擇了正確選項B，仍有20%的學(xué)生選擇了其他錯誤答案，說明少部分學(xué)生還不能在具體的情境中識別整數(shù)的性質(zhì)。

樣題2、今日氣象部門報道，一龍卷風(fēng)中心位于西偏南75°的位置，下面請

使用量角器在圖5中從P處繪制龍卷風(fēng)的方向？（）

圖5 樣題2中龍卷風(fēng)的方向

樣題2命題意圖：通過依托現(xiàn)實科學(xué)背景來認(rèn)識測量學(xué)中的坐標(biāo)方位角。

內(nèi)容領(lǐng)域：測量

數(shù)學(xué)復(fù)雜性：中等水平

問題情境：現(xiàn)實情境

題目類型：簡短式主觀題

此題主要考查8年級學(xué)生在現(xiàn)實科學(xué)情境下是否掌握坐標(biāo)方位角的概念并進行相關(guān)繪圖操作。為了成功地解決這一問題，學(xué)生首先要理解西偏南75°的概念，然后借助圖中的指南針來確定龍卷風(fēng)的精確方向，最后再進行繪圖操作?？傮w來說，該題在數(shù)學(xué)復(fù)雜性上屬于中等水平。只要學(xué)生能夠理解“西”為主方位，而“南75°”為偏向，那么就能很快定位龍卷風(fēng)的方向，即方向在從P點處與指南針坐標(biāo)系的橫軸成75°夾角的位置。具體來看，只有21%的學(xué)生繪圖過程完全正確，還有47%的學(xué)生繪圖過程部分正確，說明仍有不少學(xué)生還不能完全理解方位角概念。

樣題3、如圖6所示，若該圖形的12條邊的邊長都相等。（1）∠ACG是__度；（2）請證明：任意連接圖中三個頂點所形成的內(nèi)角都不可能為50°。

圖6 樣題3中幾何圖形

第（2）小問命題意圖：①由于此處主要是就高數(shù)學(xué)復(fù)雜性水平的題目展開說明，故該題僅對樣題3的第（2）小問進行分析。通過依托純數(shù)學(xué)背景來考察學(xué)生的幾何推理能力。

內(nèi)容領(lǐng)域：幾何

數(shù)學(xué)復(fù)雜性：高水平

問題情境：純數(shù)學(xué)情境

題目類型：拓展式主觀題

此題主要考查12年級學(xué)生在純數(shù)學(xué)情境下是否掌握圓中內(nèi)切角的性質(zhì)并進行相關(guān)幾何推理。關(guān)于這道題的解決，學(xué)生首先要理解正十二邊形的概念，然后借助內(nèi)切角的性質(zhì)來進行運算和幾何推理。在數(shù)學(xué)復(fù)雜性上，該題屬于高水平層次。因為學(xué)生只有在綜合理解內(nèi)切角的概念和性質(zhì)后，才能厘清上述幾何圖形中的數(shù)量關(guān)系，即確定正十二邊形中任意連接三個頂點所形成的內(nèi)切角的度數(shù)必然為15°的倍數(shù)，故題中的結(jié)論得到了證明。具體來看，多數(shù)學(xué)生在解決該題的過程中存在概念理解錯誤，并且還有不少學(xué)生在推理和計算中出現(xiàn)失誤。

四、NAEP 2019數(shù)學(xué)能力評價對我國基礎(chǔ)教育質(zhì)量監(jiān)測的啟示

大規(guī)模教育評價已成為國內(nèi)外教育研究與實踐領(lǐng)域廣泛關(guān)注的主題。尤其是對數(shù)學(xué)教育來說，科學(xué)規(guī)范的測評研究更有待學(xué)術(shù)界積極嘗試。但長期以來，我國基礎(chǔ)教育領(lǐng)域缺乏系統(tǒng)的、基于課程標(biāo)準(zhǔn)的數(shù)學(xué)能力測評，一些研究更多的是考察學(xué)生在某些數(shù)學(xué)領(lǐng)域能力的外在表現(xiàn)，并且很少會執(zhí)行一系列嚴(yán)謹(jǐn)、復(fù)雜的測試流程來進行深入挖掘。還有些研究雖然也關(guān)注到了不同群體、不同背景學(xué)生的數(shù)學(xué)表現(xiàn)，但也只是通過標(biāo)準(zhǔn)化測試所獲得的原始分?jǐn)?shù)來衡量學(xué)生的數(shù)學(xué)能力，從而無法克服樣本的依賴性問題。相形之下，NAEP 2019數(shù)學(xué)能力評價體系始終堅持立足于美國本土數(shù)學(xué)課程標(biāo)準(zhǔn)和國際課程改革趨勢，使用項目反應(yīng)理論等現(xiàn)代測試手段來保障整個測評工具的質(zhì)量和實現(xiàn)學(xué)生能力特質(zhì)的獲取，并且在評價框架完善上更加注重測評要素的優(yōu)化、測試工具結(jié)構(gòu)的調(diào)整和測試結(jié)果的系統(tǒng)解釋。有鑒于此，未來我國開展基礎(chǔ)教育質(zhì)量監(jiān)測可以從數(shù)學(xué)能力測評框架的系統(tǒng)構(gòu)建、數(shù)學(xué)能力測評工具的質(zhì)量保障以及關(guān)注學(xué)生數(shù)學(xué)能力表現(xiàn)的分析和解釋等方面加以合理借鑒。

（一）注重數(shù)學(xué)能力測評框架的系統(tǒng)構(gòu)建

事實上，測評框架合理性不僅需要科學(xué)的測量方法，還要依靠嚴(yán)謹(jǐn)?shù)难芯吭O(shè)計和評價維度的系統(tǒng)構(gòu)建。國外大規(guī)模教育測評經(jīng)驗也表明，設(shè)計能力評價框架的關(guān)鍵在于根據(jù)既有文獻確定能力概念中的核心要素和內(nèi)容范圍，并且盡可能從不同角度或維度去研發(fā)相關(guān)題目來覆蓋這些要素，以便能夠全面刻畫出學(xué)生成功解決數(shù)學(xué)問題過程中所運用的數(shù)學(xué)能力。當(dāng)前，為了使測評任務(wù)的實施更具有操作性，NAEP 2019數(shù)學(xué)能力評價項目組構(gòu)建了相對穩(wěn)定可靠的測評框架，進而相應(yīng)地研發(fā)測試工具。具體而言，首先根據(jù)已有相關(guān)文獻和數(shù)學(xué)課程標(biāo)準(zhǔn)對數(shù)學(xué)能力進行概念界定，然后厘清其內(nèi)涵、并確定相關(guān)維度以及相應(yīng)的行為表現(xiàn)特征。如2005以前，項目組結(jié)合《學(xué)校數(shù)學(xué)課程與評價標(biāo)準(zhǔn)》中對數(shù)學(xué)知識和技能的掌握要求，確定了數(shù)學(xué)能力評價的三大維度，即內(nèi)容領(lǐng)域、認(rèn)知要求和能力要素。2005以后，考慮到認(rèn)知要求和能力要素可能存在的交互關(guān)系以及各年級數(shù)學(xué)內(nèi)容掌握要求的差異狀況，項目組開始將原先的三大測評要素（維度）修訂為內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性兩個方面，并且在12年級將內(nèi)容領(lǐng)域中的“測量”與“幾何”合并成“幾何”一類。上述數(shù)學(xué)能力評價體系的構(gòu)建過程表明測評框架的形成并非簡單地根據(jù)文獻梳理，進而模仿其他測評項目所得，而是在制定測評框架的過程中，善于結(jié)合國內(nèi)外評價經(jīng)驗、學(xué)科專家意見以及適應(yīng)數(shù)學(xué)課程標(biāo)準(zhǔn)的即時變化，從而適當(dāng)?shù)卣{(diào)整和完善原有的測評要素，進而能夠形成科學(xué)穩(wěn)定的測評框架。

（二）重視數(shù)學(xué)能力測評工具的質(zhì)量保障

數(shù)學(xué)能力測評一般都涉及兩個關(guān)鍵問題，即評什么和怎么評的問題。而如何評價直接指向的是測評工具的研發(fā)，測評工具的科學(xué)性、可信性、有效性直接決定了收集到的數(shù)據(jù)能否反映測評對象的真實水平。①張麗. 研發(fā)測評工具是評價過程的關(guān)鍵一環(huán)[J]. 湖北教育(綜合資訊), 2016(6): 68-69.因此，整個測評工具的質(zhì)量保障是教育測評過程中的重中之重。①Stacey K, Turner R. Assessing Mathematical Literacy [M]. Berlin:Springer International Publishing, 2015: 127-143.和其他代表性國際教育測評項目一樣，NAEP 2019數(shù)學(xué)評價主要采用的也是學(xué)業(yè)成就測驗等工具，并輔之以數(shù)字測試環(huán)境。另外，所有評價或測評，實際都需要綜合利用質(zhì)的資料和量的資料來進行價值判斷，從而確保測評工具具有良好的信效度。作為大規(guī)模的教育調(diào)查工具，NAEP 2019數(shù)學(xué)能力評價執(zhí)行了一系列嚴(yán)謹(jǐn)規(guī)范的測試流程。在框架搭建初期，項目組梳理了國內(nèi)外數(shù)學(xué)能力研究的經(jīng)典文獻，并結(jié)合已有數(shù)學(xué)測評經(jīng)驗構(gòu)建理想模型，然后根據(jù)數(shù)學(xué)課程標(biāo)準(zhǔn)的相關(guān)要求以及數(shù)學(xué)學(xué)科專家的意見逐步完善理想模型；在試題編制階段，NAEP數(shù)學(xué)測試項目組嚴(yán)格按照能力框架中各測評要素要求設(shè)計評價工具，并且在試題背景、測試年級、內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性以及題目類型等方面保持相對均勻；在制定評分標(biāo)準(zhǔn)階段，組織命題專家團隊結(jié)合命題原則以及預(yù)測試結(jié)果制定并調(diào)整評分細(xì)則，然后參照學(xué)生的具體作答進行編碼。具體地說，采用SOLO分類法對學(xué)生的原始作答進行打分，先將學(xué)生的原始作答與相應(yīng)的評分標(biāo)準(zhǔn)進行比較，然后根據(jù)學(xué)生答案中所包含的得分點進行等級和作答類型劃分，從而準(zhǔn)確了解考生對各類數(shù)學(xué)知識的掌握程度。特別需要說明的是，項目組在正式施測之前還會根據(jù)專家意見并結(jié)合前期部分試題測試的結(jié)果重新組卷。以上的這些評價措施，最終保證了整個測評工具的質(zhì)量。

（三）關(guān)注對學(xué)生數(shù)學(xué)能力表現(xiàn)的分析和解釋

大規(guī)模數(shù)學(xué)測評研究表明，要想全面細(xì)致地刻畫出學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn)和學(xué)業(yè)成就狀況，需要構(gòu)建量尺分?jǐn)?shù)并對數(shù)學(xué)能力測試結(jié)果進行分層描述。與PISA和TIMSS類似，NAEP 2019學(xué)生數(shù)學(xué)能力評價的表現(xiàn)主要通過量尺分?jǐn)?shù)和成就水平兩個維度來衡量。其中，量尺分?jǐn)?shù)的形成是以項目反應(yīng)理論為基礎(chǔ)，通過構(gòu)建統(tǒng)計模型估計出所有測試學(xué)生的學(xué)業(yè)或能力特質(zhì)以及測評試題的難度，并將學(xué)生學(xué)業(yè)或能力特質(zhì)和試題難度置于同一尺度上，從而一定程度上克服了測試過程對試題和學(xué)生群體的依賴性問題，也為學(xué)生的實際表現(xiàn)特征與他們在測評內(nèi)容上的學(xué)業(yè)或能力之間的聯(lián)系奠定了基礎(chǔ)；②王鼎, 李寶敏. 綜合素質(zhì)評價中量尺構(gòu)建及結(jié)果解釋再思考--基于PISA測評及TIMSS測評的啟示[J]. 教育發(fā)展研究,2017(2): 63-69.而成就水平或精熟度水平量尺旨在獲取整體數(shù)學(xué)學(xué)業(yè)或能力的基準(zhǔn)以及不同基準(zhǔn)上學(xué)生在內(nèi)容領(lǐng)域及數(shù)學(xué)復(fù)雜性上的實際表現(xiàn)。具體而言，首先通過學(xué)生群體在量尺分?jǐn)?shù)上由高到低的排列，并且根據(jù)各部分?jǐn)?shù)學(xué)知識的重要性以及認(rèn)知層面的相關(guān)要求（如測試考察比例）來獲取基準(zhǔn)點，進而采用量尺錨定的方法獲取學(xué)生在內(nèi)容領(lǐng)域或數(shù)學(xué)復(fù)雜性方面的表現(xiàn)特征。上述估計方法可將連續(xù)的量尺分?jǐn)?shù)劃分為不同分?jǐn)?shù)段，并對不同分?jǐn)?shù)段上的學(xué)生群體特征進行詳細(xì)描述。一方面，便于不同地區(qū)間在不同群體上再次進行分析比較，從而獲取對本地區(qū)數(shù)學(xué)教育有用的信息；另一方面，對高分段和低分段學(xué)生的學(xué)業(yè)表現(xiàn)進行分析，將有助于調(diào)整當(dāng)前數(shù)學(xué)教學(xué)的進度和策略安排。③王鼎. 國際大規(guī)模數(shù)學(xué)測評研究--基于對TIMSS和PISA數(shù)學(xué)測評的分析[D]. 上海: 上海師范大學(xué), 2016: 163-164.此外，在數(shù)學(xué)學(xué)業(yè)成就或數(shù)學(xué)能力表現(xiàn)影響因素的分析上，NAEP 2019指出對數(shù)學(xué)學(xué)業(yè)表現(xiàn)的因果分析不應(yīng)被理解為簡單的回歸預(yù)測，還要將人口和教育系統(tǒng)因素以及其他未測量變量納入分析范圍，從而獲取學(xué)生出現(xiàn)當(dāng)前數(shù)學(xué)學(xué)科測試結(jié)果的系統(tǒng)解釋。①Maxwell, J. A. The Importance of Qualitative Research for Causal Explanation in Education[J]. Qualitative Inquiry, 2012, 18(8):649-655.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡