徐柱柱
當(dāng)今世界,擁有數(shù)學(xué)能力或數(shù)學(xué)素養(yǎng)已成為現(xiàn)代公民的基本素質(zhì)。盡管不同國家、不同文化對其都有不同的理解,但如何對數(shù)學(xué)能力進行評價始終是世界教育迫切要解決的問題,而厘清數(shù)學(xué)能力評價的內(nèi)涵并構(gòu)建相應(yīng)的測評體系,則是其中的關(guān)鍵所在。從最初的文獻來看,國外數(shù)學(xué)能力的評價也就是在基本讀寫基礎(chǔ)上考察學(xué)生對運算等基本技能的掌握,而當(dāng)時國內(nèi)的數(shù)學(xué)教育評價領(lǐng)域也重點關(guān)注學(xué)生在運算、推理和空間等三大形式化能力上的表現(xiàn)。①孔企平. 西方數(shù)學(xué)教育中“numeracy”理論初探[J]. 全球教育展望, 2001(4): 6, 56-59.隨著各國對數(shù)學(xué)學(xué)科能力的重視,其評估內(nèi)容和范圍也在不斷深化。使用數(shù)學(xué)作為日常生活的溝通方式,懂得欣賞和理解用數(shù)學(xué)語言進行表達,這些再也不只是知識與技能上的要求。運用數(shù)學(xué)思維和數(shù)學(xué)技能來解決現(xiàn)實問題以滿足日常生活的需求成為全球普遍的共識。而為了成功地實現(xiàn)數(shù)學(xué)問題解決,未來的學(xué)習(xí)者不得不利用各種知識、經(jīng)驗和背景,在跨學(xué)科和跨能力的理解中達到精熟程度。②徐柱柱, 綦春霞. 初中生數(shù)學(xué)問題解決能力及影響因素的調(diào)查研究--以河北省S市八年級學(xué)生為例[J]. 教育測量與評價, 2018(7): 41-46.③張舒, 曹一鳴, 王寬明. 國際視野下問題解決在數(shù)學(xué)課程發(fā)展中的爭鳴與走勢[J]. 比較教育學(xué)報, 2020(1): 10-22.總體上,國內(nèi)外對數(shù)學(xué)能力的測評大都是通過學(xué)科內(nèi)容、認(rèn)知要求、表現(xiàn)水平與問題情境等方面加以描述。④曹一鳴, 劉曉婷, 郭衎. 數(shù)學(xué)學(xué)科能力及其表現(xiàn)研究[J]. 教育學(xué)報, 2016, 12(4): 73-78.其中,數(shù)學(xué)內(nèi)容領(lǐng)域幾乎統(tǒng)一于知識與技能兩大方面,但認(rèn)知和情境方面的考慮則不盡相同,從早期的布魯姆教育目標(biāo)分類到“知識與認(rèn)知”二維結(jié)構(gòu)的修正,再到與數(shù)學(xué)學(xué)科的緊密結(jié)合,認(rèn)知水平劃分存在明顯的不同,并且影響數(shù)學(xué)能力的環(huán)境和背景要素也在不同能力框架中不同程度地加以運用。⑤徐柱柱, 張迪, 綦春霞. 初中生數(shù)學(xué)學(xué)科素養(yǎng)測評的實證研究--以北京市T區(qū)八年級為例[J]. 教育測量與評價, 2019(1):53-58, 61.⑥陳月蘭. 2015版韓國義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)特征分析與啟發(fā)--從能力的視角[J]. 外國中小學(xué)教育, 2019(8): 73-79.然而到目前為止,學(xué)術(shù)界關(guān)于數(shù)學(xué)能力的評價仍不夠統(tǒng)一和細(xì)致,因此未來教育領(lǐng)域開展系統(tǒng)科學(xué)的數(shù)學(xué)能力評價更加需要汲取各國教育測評的優(yōu)秀經(jīng)驗,尤其是要學(xué)習(xí)和仿效國內(nèi)外相對成熟的能力評價體系,進而研發(fā)出適合本土特點的數(shù)學(xué)能力評價框架。作為美國唯一具有代表性的基礎(chǔ)教育評價體系,NAEP數(shù)學(xué)能力評價對我國開展基于課程標(biāo)準(zhǔn)的數(shù)學(xué)教育評價極具參考價值。并且,相較于以往的多次測評,NAEP 2019數(shù)學(xué)能力評價體系在測評要素的更新、測評工具的平衡以及測評結(jié)果的解釋等方面都進行了細(xì)致的調(diào)整和完善,從而使其測評體系更加完整,也為我國實施基礎(chǔ)教育質(zhì)量監(jiān)測帶來許多重要的啟示。
自美國建國初期,教育實權(quán)就一直掌握在各州政府手中。然而在二戰(zhàn)以后,面對日益復(fù)雜的國內(nèi)外形勢,聯(lián)邦政府開始干預(yù)教育,并試圖統(tǒng)籌全國學(xué)生的學(xué)業(yè)評價。于是,在1963年,時任肯尼迪總統(tǒng)教育專員的凱普爾(Francis C. Keppel)、聯(lián)合國內(nèi)教育評價專家泰勒(Ralph W. Tyler)以及卡內(nèi)基基金會主席共同促成了全美教育進展評價(National Assessment of Educational Progress,簡稱“NAEP”)項目的誕生,并于1969年實施了第一次全國性的評價。⑦周紅. 美國國家教育進展評估(NAEP)體系的產(chǎn)生與發(fā)展[J]. 外國教育研究, 2005(2): 77-80.在NAEP發(fā)展初期,項目構(gòu)成上僅有國家層面的學(xué)科評價,直到2001年聯(lián)邦政府才開始強制要求各州必須承諾參加兩年一次的數(shù)學(xué)和閱讀科目的州層面評價。并且自此以后,國家與州一級的學(xué)科評價得以整合,NAEP成為美國唯一長期的且具有全國代表性的教育評價體系,并被多個國家借鑒和效仿。①陳晨, 潘蘇東. 美國全國教育進展評價體系的發(fā)展歷程: 40年回顧[J]. 外國中小學(xué)教育, 2009(12): 14-18.
1969年以來,NAEP項目逐漸確立起以國家和州層面的主評價、長期趨勢評價以及輔助性專題研究為代表的能力評價體系。主評價是為了檢測全國及各州學(xué)生在幾大核心學(xué)科(如閱讀、數(shù)學(xué)、科學(xué)、寫作、美國史、經(jīng)濟學(xué)、公民學(xué)、地理和藝術(shù))相關(guān)知識和技能方面的掌握程度。其中,4年級和8年級每2年施測一次,而12年級則每4年進行一次;②羅文蔚. 美國教育質(zhì)量評價體系的構(gòu)成及啟示[J]. 教學(xué)與管理(中學(xué)版), 2017(3): 82-84.長期趨勢評價旨在為學(xué)生學(xué)業(yè)的長遠(yuǎn)發(fā)展提供有效的變化趨勢信息,并且每4年對9歲、13歲和17歲學(xué)生的數(shù)學(xué)、閱讀、科學(xué)和寫作等學(xué)科表現(xiàn)進行一次系統(tǒng)評估;而輔助性專題研究則重點關(guān)注特定學(xué)生群體的學(xué)業(yè)成就,如口語閱讀研究、中學(xué)畢業(yè)成績單研究、特許學(xué)校試驗性研究、印第安教育研究和私立學(xué)校成績研究等。③蘇紅. 美國基礎(chǔ)教育學(xué)業(yè)質(zhì)量評價: 體系、機制與啟示[J]. 世界教育信息, 2012(5): 40-43.
作為NAEP評價長期必測的科目,數(shù)學(xué)學(xué)科評價旨在收集和報告國家、州和地方等各級學(xué)生的學(xué)業(yè)表現(xiàn)信息,并為公民、課程專家和教育政策制定者提供有關(guān)學(xué)生對數(shù)學(xué)學(xué)科性質(zhì)的理解以及學(xué)校教育因素與其數(shù)學(xué)能力關(guān)系等方面的資料。④周紅. 美國國家教育進展評估體系述評[J]. 全球教育展望, 2004(8): 66-69.四十多年來,NAEP數(shù)學(xué)評價在內(nèi)容目標(biāo)和認(rèn)知要求上進行了多次調(diào)整,從而使其評價框架更加完善,數(shù)學(xué)能力評估也更加科學(xué)。⑤NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.2019年,全美多達50個州、哥倫比亞特區(qū)、國防部學(xué)院以及27個大城市管轄的8 280所學(xué)校的296 900名4年級和8年級學(xué)生參與了測試。
在NAEP 2019數(shù)學(xué)能力評價中,測試的主要目的是為獲取當(dāng)前學(xué)生學(xué)業(yè)發(fā)展的綜合信息,如了解學(xué)生在數(shù)學(xué)學(xué)科領(lǐng)域應(yīng)該“知道什么”以及“可以做什么”、在一段時間內(nèi)其數(shù)學(xué)學(xué)業(yè)成績的變化趨勢、數(shù)學(xué)知識學(xué)習(xí)方面的薄弱點以及家庭、社會等背景變量對他們學(xué)業(yè)表現(xiàn)的影響等。通過觀察和分析學(xué)生在數(shù)學(xué)問題解決過程中運用數(shù)學(xué)能力的相關(guān)信息,來系統(tǒng)評估他們對數(shù)學(xué)知識和技能的掌握程度。此外,NAEP數(shù)學(xué)評估還重點關(guān)注某些特定群體(如女性、少數(shù)民族和家庭經(jīng)濟地位較低的學(xué)生)的數(shù)學(xué)學(xué)習(xí)特征,以便獲得全國學(xué)生數(shù)學(xué)學(xué)業(yè)成就的整體表現(xiàn)。⑥方曉東, 李新翠. 美全國教育進展評估述評[J]. 比較教育研究, 2009(2): 58-62.
從學(xué)生歷次NAEP數(shù)學(xué)能力評價的表現(xiàn)來看,都主要以量尺分?jǐn)?shù)和成就水平兩大指標(biāo)來衡量學(xué)生數(shù)學(xué)學(xué)業(yè)成就的整體表現(xiàn)。其中,量尺分?jǐn)?shù)是先采用項目反應(yīng)理論模型估計出學(xué)生能力參數(shù),然后經(jīng)線性轉(zhuǎn)換后獲得測驗的標(biāo)準(zhǔn)分?jǐn)?shù),該分?jǐn)?shù)值可以表示學(xué)生在數(shù)學(xué)能力評估中的成就表現(xiàn),同時其結(jié)果也能在不同州、地區(qū)以及學(xué)校之間進行橫向比較;而成就水平則是為了描述學(xué)生在了解、理解和應(yīng)用數(shù)學(xué)知識和技能方面的精熟度水平,總體上可劃分基礎(chǔ)水平、熟練水平和高級水平這三個等級。①周達. 國際大規(guī)模測試數(shù)學(xué)學(xué)業(yè)水平描述框架之比較及啟示[J]. 教育測量與評價, 2017 (4): 23-27.另外,在數(shù)學(xué)能力評價結(jié)果的解釋上,NAEP 2019指出對學(xué)業(yè)成就表現(xiàn)的預(yù)測不應(yīng)被簡單理解為各測試變量之間的因果效應(yīng),還要綜合考慮人口和教育系統(tǒng)因素(如教學(xué)趨勢、學(xué)齡人口變化、社會需求和期望)的干預(yù)作用以及其他未測變量的潛在影響。②王燁暉, 張岳, 楊濤等. 義務(wù)教育數(shù)學(xué)相關(guān)因素監(jiān)測工具研發(fā)的探索與思考[J]. 數(shù)學(xué)教育學(xué)報, 2018, 27(5): 8-12.
每一次NAEP學(xué)科評價都是基于一個特定的組織框架,以系統(tǒng)指導(dǎo)評估流程的展開和評估內(nèi)容的確定。通常情況下,該組織框架的形成會經(jīng)歷一系列研發(fā)設(shè)計與調(diào)整過程,從而保障學(xué)科評價內(nèi)容及時地適應(yīng)教育目標(biāo)和課程的變化。對于數(shù)學(xué)學(xué)科而言,學(xué)業(yè)表現(xiàn)最終需要通過刻畫出學(xué)生成功解決數(shù)學(xué)問題時所運用的數(shù)學(xué)能力來加以表征。因此,NAEP數(shù)學(xué)評價的關(guān)鍵在于構(gòu)建反映當(dāng)前教學(xué)實踐和課程改革的數(shù)學(xué)能力評價框架。一方面,需界定好數(shù)學(xué)能力概念中的核心元素和范圍,并且盡可能從不同維度去研制相關(guān)題目來覆蓋這些元素;另一方面,還應(yīng)根據(jù)既定的數(shù)學(xué)能力框架和數(shù)學(xué)課程標(biāo)準(zhǔn)的相關(guān)要求,選定好學(xué)生在應(yīng)對課內(nèi)外各種復(fù)雜問題時所需的特定數(shù)學(xué)知識和數(shù)學(xué)技能。迄今為止,NAEP數(shù)學(xué)能力評價框架共進行了兩次重要的調(diào)整和變化。
第一次調(diào)整是在1990年至2003年(1990年、1992年、1996年、2000年和2003年)期間,受全美數(shù)學(xué)教師理事會(NCTM)制定的《學(xué)校數(shù)學(xué)課程與評價標(biāo)準(zhǔn)》的影響,國家評估管理委員會(NAGB)逐步確立了早期的數(shù)學(xué)能力評價框架,并從內(nèi)容領(lǐng)域、認(rèn)知要求和能力要素等三個方面加以描述。③全美數(shù)學(xué)教師理事會制訂, 蔡金法等譯. 美國學(xué)校數(shù)學(xué)教育的原則和標(biāo)準(zhǔn)[M]. 北京: 人民教育出版社, 2004: 29-62.其中,內(nèi)容領(lǐng)域包括“數(shù)感、屬性和操作、測量、幾何與空間意識、數(shù)據(jù)分析及統(tǒng)計與概率、代數(shù)與函數(shù)”等5個部分,認(rèn)知要求覆蓋了“概念理解、程序性知識和問題解決”這3個方面,而能力要素則包含了“推理、聯(lián)系和信息交流”等3個部分。④張迪, 王瑞霖, 杜宵豐. NAEP2013數(shù)學(xué)測評分析框架及試題特點分析[J]. 教育測量與評價, 2018(3): 51-56, 64.
第二次調(diào)整是在2005年,由于原有的數(shù)學(xué)能力評價框架開始受到學(xué)者質(zhì)疑,于是新的框架在不同年級開始相繼實施。自2005年開始,國家評估管理委員會逐步完善原先的框架,并確定從內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩個方面對學(xué)生的數(shù)學(xué)能力表現(xiàn)加以系統(tǒng)描述。其中,在原有的內(nèi)容維度基礎(chǔ)上,4年級和8年級框架的內(nèi)容領(lǐng)域變更為“數(shù)與運算、代數(shù)、幾何、統(tǒng)計與概率以及測量”這5個板塊,而在12年級該維度的“測量”與“幾何”合并成一塊;數(shù)學(xué)復(fù)雜性則是整合了原先的認(rèn)知要求和能力要素兩大維度,并形成了低、中、高三個復(fù)雜性水平,①NAEP. Mathematics Framework for the 2013 National Assessment of Educational Progress[EB/OL]. (2013-12-18)[2020-08-25].http://www.nagb.org/publications/frameworks/math-2013-framework.pdf.其中每個水平都會涉及“概念理解、程序操作、推理和問題解決”。由于2005年數(shù)學(xué)能力評價框架體系相對完備,故一直到2019年,4年級和8年級測評框架的相關(guān)內(nèi)容都未作大的改變。但是,近年來學(xué)者逐漸意識到高中課程改革對學(xué)生適應(yīng)未來中學(xué)后教育的重要意義,因此后期的數(shù)學(xué)能力評價框架的局部變化主要體現(xiàn)在12年級的評估上。并且,在2009年和2019年,國家評估管理委員會分別對12年級數(shù)學(xué)能力評價的內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩個維度進行了略微調(diào)整,如更新的數(shù)學(xué)內(nèi)容的掌握目標(biāo)以及數(shù)學(xué)復(fù)雜性的分類標(biāo)準(zhǔn)和相關(guān)描述(見圖1)。
國內(nèi)外大規(guī)模數(shù)學(xué)測評經(jīng)驗表明,構(gòu)建能力評價框架的關(guān)鍵在于確定數(shù)學(xué)能力及相關(guān)元素的概念和范圍,然后基于能力框架中各測評要素設(shè)計相對有效的評價工具。②張奠宙, 鮑建生, 徐斌艷. 數(shù)學(xué)教育研究導(dǎo)引(二)[M]. 南京: 江蘇教育出版社, 2013: 448-452.如前文所述,NAEP 2019數(shù)學(xué)能力的評價依舊是從內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性這兩大維度(測評要素)進行操作的(見表1)。其中,4年級和8年級框架的內(nèi)容領(lǐng)域為“數(shù)與運算、測量、幾何、統(tǒng)計與概率以及代數(shù)”等5個部分,而12年級框架的內(nèi)容領(lǐng)域為“數(shù)與運算、幾何、代數(shù)及統(tǒng)計與概率”等4個部分,并且不同年級考察的數(shù)學(xué)內(nèi)容的分布比例也各有差異;而數(shù)學(xué)復(fù)雜性維度則主要包括低、中、高三個水平,其中低復(fù)雜性水平是指學(xué)生在問題解決時只需要識別與回憶某些數(shù)學(xué)知識即可,中等復(fù)雜性水平需要學(xué)生在問題解決時能將各內(nèi)容領(lǐng)域中的數(shù)學(xué)概念和推導(dǎo)過程結(jié)合到一起,而高復(fù)雜性水平則要求學(xué)生在問題解決過程中能夠進行完整推理和系統(tǒng)證明。此外,不同年級內(nèi)容領(lǐng)域的掌握目標(biāo)和各水平數(shù)學(xué)復(fù)雜性的描述也略有不同。例如,對于“數(shù)與運算”領(lǐng)域的數(shù)感知識點來說,低復(fù)雜性水平的掌握目標(biāo)要求4年級學(xué)生能夠標(biāo)志整數(shù)的位數(shù),而8年級學(xué)生需要學(xué)會通過位值來描述整數(shù)和小數(shù),但在同等復(fù)雜性水平下,相關(guān)內(nèi)容的掌握目標(biāo)則對12年級學(xué)生不作要求。①NAEP.Mathematics Framework for the 2019 National Assessment of Educational Progress[EB/OL]. (2019-10-30)[2020-08-25].https://www.nagb.gov/content/nagb/assets/documents/publications/frameworks/mathematics/2019-math-framework.pdf.
表1 NAEP 2019數(shù)學(xué)能力評價框架的測評要素
為了全面細(xì)致地刻畫學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn),NAEP 2019數(shù)學(xué)能力評估使用了較為均衡的試題編制結(jié)構(gòu),以確保測試題在不同背景、年級、內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性以及題目類型上保持相對均勻。具體來看,首先將不同年級的內(nèi)容領(lǐng)域按照課程目標(biāo)要求確定好各數(shù)學(xué)模塊(如數(shù)與運算、測量、幾何、統(tǒng)計與概率以及代數(shù))考察比例;然后根據(jù)對所有測試題難度的預(yù)估制定出各數(shù)學(xué)復(fù)雜性水平題目的時間分配方案,其中低、中、高水平題目測試時間比例依次為25%、50%和25%(仍見表1);接下來將學(xué)生在選擇題和主觀題上的測試時間比例設(shè)定為50%和50%;最后還要充分考慮到不同背景(如純數(shù)學(xué)背景和現(xiàn)實背景)測試題內(nèi)容分布的均衡性。
此外,更為重要的是,NAEP 2019數(shù)學(xué)能力評價的核心仍然是題目的編制和題型分配(見表2)。自1992年測試以來,NAEP數(shù)學(xué)評估一直沿用選擇題(Multiple Choice)、簡短式主觀題(Short Constructed Response)和拓展式主觀題(Extended Constructed-Response)3種類型。并且,從2017年至2019年,項目組開始將各類型題目逐步過渡到數(shù)字平臺。其中,選擇題是讓被試參與者從既定備選答案中選出正確答案的題目。4年級的題目答案為4個選項,而8年級和12年級的題目有5個選項。由于整體覆蓋面較廣,故通過該題型可以很快確定學(xué)生是否已掌握某些數(shù)學(xué)知識和技能;主觀題是指那些能更好地考查學(xué)生具體情況或個性的試題。在NAEP 2019數(shù)學(xué)評價中,簡短式主觀題和拓展式主觀題都是為了更加細(xì)致地了解學(xué)生對于特定領(lǐng)域數(shù)學(xué)知識和內(nèi)容的理解和掌握情況,并且還可以考察他們的識別與回憶能力以及對數(shù)學(xué)問題本質(zhì)的認(rèn)識,從而有助于學(xué)生清晰表達問題解決的思路。①NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.
表2 NAEP 2019數(shù)學(xué)能力評價試題編制的考察要點
測試題的評分標(biāo)準(zhǔn)一般是由命題專家團隊結(jié)合命題原則并根據(jù)經(jīng)驗制定,然后參照學(xué)生的具體作答進行編碼??傮w來看,目前主要有雙位編碼評分法和SOLO分類評分法。SOLO分類評價法是一種以等級描述為基本特征的質(zhì)性評價方法,當(dāng)中涉及的各種等級分別代表了考生對于某項特定知識的掌握程度,從而根據(jù)他們的作答情況,評分者便可以參照上述分類標(biāo)準(zhǔn)就考生對知識內(nèi)容的掌握程度進行評判;而雙位編碼評分法不僅要確定好計分等級,還要預(yù)估出每個等級可能存在的種類并且歸納出其基本特征,從而兼顧答案的多樣性和考生能力水平的差異性。②許世紅. 兩類教育測評的碰撞與啟示--參加PISA2015試測數(shù)學(xué)閱卷編碼的思考[J]. 廣東教育(綜合版), 2015(3): 31-35.具體而言,雙位編碼評分法和SOLO分類評分法都是先將選擇題和大部分封閉式解答題采用0、1兩級計分,而開放式解答題則使用多級計分方式(如0、1、2等),然后結(jié)合具體的評分標(biāo)準(zhǔn)進行編碼。因此,兩種評分體系本質(zhì)上具有內(nèi)在一致性。③羅蘭英. “雙位編碼”評分與SOLO評分方法的比較研究--以初中物理開放題評分為例[D]. 桂林: 廣西師范大學(xué),2015: 27-34.
此外,為了適應(yīng)大規(guī)模測試的需要,NAEP對于學(xué)生數(shù)學(xué)學(xué)業(yè)表現(xiàn)結(jié)果的處理也是基于項目反應(yīng)理論,即將試題難度與考生數(shù)學(xué)能力的高低建立在同一個量尺上。與PISA和TIMSS不同,NAEP 2019試題的評分原則采用的是SOLO分類法,即使用評分量規(guī)(Scoring Rubric)對學(xué)生的原始作答進行評分,先將學(xué)生的作答與相應(yīng)的評分量規(guī)進行比較,然后根據(jù)學(xué)生答案中所包含的得分點由高到低分為3個層次,分別賦予“滿分”“部分正確”和“零分”。①李貴安, 何嘉歡, 徐小紅. NAEP科學(xué)能力測評對我國物理學(xué)科能力測評的啟示[J]. 教育測量與評價, 2015(5): 30-35.其中,“滿分”表示被試者已理解題目內(nèi)涵并作答正確,但不意味著其作答已接近完美;“部分正確”表示被試者不完全理解問題且作答呈現(xiàn)出部分問題解決步驟;而“零分”表示被試者并沒有理解題目,但不意味著整個作答過程完全錯誤。當(dāng)然,這種類別還包含空白作答的情形。下面將通過幾個具體的例子分別對選擇題、簡短式主觀題和拓展式主觀題等3種題型的評分標(biāo)準(zhǔn)予以說明:
例1:下列哪個直角三角形(見圖2)不可能是由30°、60°和90°構(gòu)成的三角形?(選擇題)
圖2 選擇題:例1中的選項
由題意可知,本題主要是考察學(xué)生能否識別幾何圖形中的數(shù)量關(guān)系,即“在直角三角形中,30°角所對的直角邊等于斜邊的一半”(評分標(biāo)準(zhǔn)見表3)。
表3 例1具體的評分標(biāo)準(zhǔn)
例2:校園內(nèi)現(xiàn)僅停放了自行車和貨車,如圖3所示。在星期二時,校園內(nèi)的車輪印總數(shù)為24,那么當(dāng)天可能有__輛自行車和__貨車經(jīng)過(簡短式主觀題)?
圖3 簡短式主觀題:校園內(nèi)停放的車輛
由題意可知,該題主要是考察學(xué)生在現(xiàn)實情境下如何利用二元一次方程知識進行數(shù)學(xué)推理與運算(評分標(biāo)準(zhǔn)見表4)。
表4 例2具體的評分標(biāo)準(zhǔn)
例3:上圖中的房間地板要鋪設(shè)瓷磚(見圖4),而通常一盒瓷磚會覆蓋25平方英尺的面積。請先用尺子測量面積,然后確定需購買多少盒瓷磚才能鋪滿整塊地板(拓展式主觀題)?
圖4 拓展式主觀題:例3中的房間地板
由題意可知,本題主要是考察學(xué)生能否在生活情境中識別幾何圖形的性質(zhì)并且進行相關(guān)計算(評分標(biāo)準(zhǔn)見表5)。
表5 例3具體的評分標(biāo)準(zhǔn)
數(shù)學(xué)測試題是NAEP數(shù)學(xué)評價最為重要的測評工具之一,它主要按照先前制定好的數(shù)學(xué)能力測評框架來命制題目。具體地說,從內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性、問題情境以及題目類型等多方面去考察學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn),也就是說需要通過題目的命制來覆蓋這些要素。下面將借助對幾道典型樣題的細(xì)致分析來重點說明NAEP 2019數(shù)學(xué)能力評價的過程。
樣題1、音樂廳里面目前有30人,而自助餐廳里現(xiàn)有74人,請問自助餐廳里現(xiàn)在比音樂廳里面多__人?( )
A.40 B.44 C.54 D.104
樣題1命題意圖:通過依托現(xiàn)實生活背景來認(rèn)識整數(shù)的加減法運算。
內(nèi)容領(lǐng)域:數(shù)與運算
數(shù)學(xué)復(fù)雜性:低水平
問題情境:現(xiàn)實情境
題目類型:選擇題
此題主要考查4年級學(xué)生在現(xiàn)實生活情境下是否掌握整數(shù)的四則運算。而為了成功地解決問題,學(xué)生首先要理解上述兩個數(shù)字代表的意義,然后結(jié)合題目要求找出74和30之間的差異,最后再進行減法運算。顯然,在數(shù)學(xué)復(fù)雜性上屬于低水平層次。只要學(xué)生能夠理解題意,那么很快就能得出結(jié)論,即“44=74-30”。具體來看,有80%的學(xué)生選擇了正確選項B,仍有20%的學(xué)生選擇了其他錯誤答案,說明少部分學(xué)生還不能在具體的情境中識別整數(shù)的性質(zhì)。
樣題2、今日氣象部門報道,一龍卷風(fēng)中心位于西偏南75°的位置,下面請
使用量角器在圖5中從P處繪制龍卷風(fēng)的方向?( )
圖5 樣題2中龍卷風(fēng)的方向
樣題2命題意圖:通過依托現(xiàn)實科學(xué)背景來認(rèn)識測量學(xué)中的坐標(biāo)方位角。
內(nèi)容領(lǐng)域:測量
數(shù)學(xué)復(fù)雜性:中等水平
問題情境:現(xiàn)實情境
題目類型:簡短式主觀題
此題主要考查8年級學(xué)生在現(xiàn)實科學(xué)情境下是否掌握坐標(biāo)方位角的概念并進行相關(guān)繪圖操作。為了成功地解決這一問題,學(xué)生首先要理解西偏南75°的概念,然后借助圖中的指南針來確定龍卷風(fēng)的精確方向,最后再進行繪圖操作??傮w來說,該題在數(shù)學(xué)復(fù)雜性上屬于中等水平。只要學(xué)生能夠理解“西”為主方位,而“南75°”為偏向,那么就能很快定位龍卷風(fēng)的方向,即方向在從P點處與指南針坐標(biāo)系的橫軸成75°夾角的位置。具體來看,只有21%的學(xué)生繪圖過程完全正確,還有47%的學(xué)生繪圖過程部分正確,說明仍有不少學(xué)生還不能完全理解方位角概念。
樣題3、如圖6所示,若該圖形的12條邊的邊長都相等。(1)∠ACG是__度;(2)請證明:任意連接圖中三個頂點所形成的內(nèi)角都不可能為50°。
圖6 樣題3中幾何圖形
第(2)小問命題意圖:①由于此處主要是就高數(shù)學(xué)復(fù)雜性水平的題目展開說明,故該題僅對樣題3的第(2)小問進行分析。通過依托純數(shù)學(xué)背景來考察學(xué)生的幾何推理能力。
內(nèi)容領(lǐng)域:幾何
數(shù)學(xué)復(fù)雜性:高水平
問題情境:純數(shù)學(xué)情境
題目類型:拓展式主觀題
此題主要考查12年級學(xué)生在純數(shù)學(xué)情境下是否掌握圓中內(nèi)切角的性質(zhì)并進行相關(guān)幾何推理。關(guān)于這道題的解決,學(xué)生首先要理解正十二邊形的概念,然后借助內(nèi)切角的性質(zhì)來進行運算和幾何推理。在數(shù)學(xué)復(fù)雜性上,該題屬于高水平層次。因為學(xué)生只有在綜合理解內(nèi)切角的概念和性質(zhì)后,才能厘清上述幾何圖形中的數(shù)量關(guān)系,即確定正十二邊形中任意連接三個頂點所形成的內(nèi)切角的度數(shù)必然為15°的倍數(shù),故題中的結(jié)論得到了證明。具體來看,多數(shù)學(xué)生在解決該題的過程中存在概念理解錯誤,并且還有不少學(xué)生在推理和計算中出現(xiàn)失誤。
大規(guī)模教育評價已成為國內(nèi)外教育研究與實踐領(lǐng)域廣泛關(guān)注的主題。尤其是對數(shù)學(xué)教育來說,科學(xué)規(guī)范的測評研究更有待學(xué)術(shù)界積極嘗試。但長期以來,我國基礎(chǔ)教育領(lǐng)域缺乏系統(tǒng)的、基于課程標(biāo)準(zhǔn)的數(shù)學(xué)能力測評,一些研究更多的是考察學(xué)生在某些數(shù)學(xué)領(lǐng)域能力的外在表現(xiàn),并且很少會執(zhí)行一系列嚴(yán)謹(jǐn)、復(fù)雜的測試流程來進行深入挖掘。還有些研究雖然也關(guān)注到了不同群體、不同背景學(xué)生的數(shù)學(xué)表現(xiàn),但也只是通過標(biāo)準(zhǔn)化測試所獲得的原始分?jǐn)?shù)來衡量學(xué)生的數(shù)學(xué)能力,從而無法克服樣本的依賴性問題。相形之下,NAEP 2019數(shù)學(xué)能力評價體系始終堅持立足于美國本土數(shù)學(xué)課程標(biāo)準(zhǔn)和國際課程改革趨勢,使用項目反應(yīng)理論等現(xiàn)代測試手段來保障整個測評工具的質(zhì)量和實現(xiàn)學(xué)生能力特質(zhì)的獲取,并且在評價框架完善上更加注重測評要素的優(yōu)化、測試工具結(jié)構(gòu)的調(diào)整和測試結(jié)果的系統(tǒng)解釋。有鑒于此,未來我國開展基礎(chǔ)教育質(zhì)量監(jiān)測可以從數(shù)學(xué)能力測評框架的系統(tǒng)構(gòu)建、數(shù)學(xué)能力測評工具的質(zhì)量保障以及關(guān)注學(xué)生數(shù)學(xué)能力表現(xiàn)的分析和解釋等方面加以合理借鑒。
事實上,測評框架合理性不僅需要科學(xué)的測量方法,還要依靠嚴(yán)謹(jǐn)?shù)难芯吭O(shè)計和評價維度的系統(tǒng)構(gòu)建。國外大規(guī)模教育測評經(jīng)驗也表明,設(shè)計能力評價框架的關(guān)鍵在于根據(jù)既有文獻確定能力概念中的核心要素和內(nèi)容范圍,并且盡可能從不同角度或維度去研發(fā)相關(guān)題目來覆蓋這些要素,以便能夠全面刻畫出學(xué)生成功解決數(shù)學(xué)問題過程中所運用的數(shù)學(xué)能力。當(dāng)前,為了使測評任務(wù)的實施更具有操作性,NAEP 2019數(shù)學(xué)能力評價項目組構(gòu)建了相對穩(wěn)定可靠的測評框架,進而相應(yīng)地研發(fā)測試工具。具體而言,首先根據(jù)已有相關(guān)文獻和數(shù)學(xué)課程標(biāo)準(zhǔn)對數(shù)學(xué)能力進行概念界定,然后厘清其內(nèi)涵、并確定相關(guān)維度以及相應(yīng)的行為表現(xiàn)特征。如2005以前,項目組結(jié)合《學(xué)校數(shù)學(xué)課程與評價標(biāo)準(zhǔn)》中對數(shù)學(xué)知識和技能的掌握要求,確定了數(shù)學(xué)能力評價的三大維度,即內(nèi)容領(lǐng)域、認(rèn)知要求和能力要素。2005以后,考慮到認(rèn)知要求和能力要素可能存在的交互關(guān)系以及各年級數(shù)學(xué)內(nèi)容掌握要求的差異狀況,項目組開始將原先的三大測評要素(維度)修訂為內(nèi)容領(lǐng)域和數(shù)學(xué)復(fù)雜性兩個方面,并且在12年級將內(nèi)容領(lǐng)域中的“測量”與“幾何”合并成“幾何”一類。上述數(shù)學(xué)能力評價體系的構(gòu)建過程表明測評框架的形成并非簡單地根據(jù)文獻梳理,進而模仿其他測評項目所得,而是在制定測評框架的過程中,善于結(jié)合國內(nèi)外評價經(jīng)驗、學(xué)科專家意見以及適應(yīng)數(shù)學(xué)課程標(biāo)準(zhǔn)的即時變化,從而適當(dāng)?shù)卣{(diào)整和完善原有的測評要素,進而能夠形成科學(xué)穩(wěn)定的測評框架。
數(shù)學(xué)能力測評一般都涉及兩個關(guān)鍵問題,即評什么和怎么評的問題。而如何評價直接指向的是測評工具的研發(fā),測評工具的科學(xué)性、可信性、有效性直接決定了收集到的數(shù)據(jù)能否反映測評對象的真實水平。①張麗. 研發(fā)測評工具是評價過程的關(guān)鍵一環(huán)[J]. 湖北教育(綜合資訊), 2016(6): 68-69.因此,整個測評工具的質(zhì)量保障是教育測評過程中的重中之重。①Stacey K, Turner R. Assessing Mathematical Literacy [M]. Berlin:Springer International Publishing, 2015: 127-143.和其他代表性國際教育測評項目一樣,NAEP 2019數(shù)學(xué)評價主要采用的也是學(xué)業(yè)成就測驗等工具,并輔之以數(shù)字測試環(huán)境。另外,所有評價或測評,實際都需要綜合利用質(zhì)的資料和量的資料來進行價值判斷,從而確保測評工具具有良好的信效度。作為大規(guī)模的教育調(diào)查工具,NAEP 2019數(shù)學(xué)能力評價執(zhí)行了一系列嚴(yán)謹(jǐn)規(guī)范的測試流程。在框架搭建初期,項目組梳理了國內(nèi)外數(shù)學(xué)能力研究的經(jīng)典文獻,并結(jié)合已有數(shù)學(xué)測評經(jīng)驗構(gòu)建理想模型,然后根據(jù)數(shù)學(xué)課程標(biāo)準(zhǔn)的相關(guān)要求以及數(shù)學(xué)學(xué)科專家的意見逐步完善理想模型;在試題編制階段,NAEP數(shù)學(xué)測試項目組嚴(yán)格按照能力框架中各測評要素要求設(shè)計評價工具,并且在試題背景、測試年級、內(nèi)容領(lǐng)域、數(shù)學(xué)復(fù)雜性以及題目類型等方面保持相對均勻;在制定評分標(biāo)準(zhǔn)階段,組織命題專家團隊結(jié)合命題原則以及預(yù)測試結(jié)果制定并調(diào)整評分細(xì)則,然后參照學(xué)生的具體作答進行編碼。具體地說,采用SOLO分類法對學(xué)生的原始作答進行打分,先將學(xué)生的原始作答與相應(yīng)的評分標(biāo)準(zhǔn)進行比較,然后根據(jù)學(xué)生答案中所包含的得分點進行等級和作答類型劃分,從而準(zhǔn)確了解考生對各類數(shù)學(xué)知識的掌握程度。特別需要說明的是,項目組在正式施測之前還會根據(jù)專家意見并結(jié)合前期部分試題測試的結(jié)果重新組卷。以上的這些評價措施,最終保證了整個測評工具的質(zhì)量。
大規(guī)模數(shù)學(xué)測評研究表明,要想全面細(xì)致地刻畫出學(xué)生在數(shù)學(xué)問題解決過程中的能力表現(xiàn)和學(xué)業(yè)成就狀況,需要構(gòu)建量尺分?jǐn)?shù)并對數(shù)學(xué)能力測試結(jié)果進行分層描述。與PISA和TIMSS類似,NAEP 2019學(xué)生數(shù)學(xué)能力評價的表現(xiàn)主要通過量尺分?jǐn)?shù)和成就水平兩個維度來衡量。其中,量尺分?jǐn)?shù)的形成是以項目反應(yīng)理論為基礎(chǔ),通過構(gòu)建統(tǒng)計模型估計出所有測試學(xué)生的學(xué)業(yè)或能力特質(zhì)以及測評試題的難度,并將學(xué)生學(xué)業(yè)或能力特質(zhì)和試題難度置于同一尺度上,從而一定程度上克服了測試過程對試題和學(xué)生群體的依賴性問題,也為學(xué)生的實際表現(xiàn)特征與他們在測評內(nèi)容上的學(xué)業(yè)或能力之間的聯(lián)系奠定了基礎(chǔ);②王鼎, 李寶敏. 綜合素質(zhì)評價中量尺構(gòu)建及結(jié)果解釋再思考--基于PISA測評及TIMSS測評的啟示[J]. 教育發(fā)展研究,2017(2): 63-69.而成就水平或精熟度水平量尺旨在獲取整體數(shù)學(xué)學(xué)業(yè)或能力的基準(zhǔn)以及不同基準(zhǔn)上學(xué)生在內(nèi)容領(lǐng)域及數(shù)學(xué)復(fù)雜性上的實際表現(xiàn)。具體而言,首先通過學(xué)生群體在量尺分?jǐn)?shù)上由高到低的排列,并且根據(jù)各部分?jǐn)?shù)學(xué)知識的重要性以及認(rèn)知層面的相關(guān)要求(如測試考察比例)來獲取基準(zhǔn)點,進而采用量尺錨定的方法獲取學(xué)生在內(nèi)容領(lǐng)域或數(shù)學(xué)復(fù)雜性方面的表現(xiàn)特征。上述估計方法可將連續(xù)的量尺分?jǐn)?shù)劃分為不同分?jǐn)?shù)段,并對不同分?jǐn)?shù)段上的學(xué)生群體特征進行詳細(xì)描述。一方面,便于不同地區(qū)間在不同群體上再次進行分析比較,從而獲取對本地區(qū)數(shù)學(xué)教育有用的信息;另一方面,對高分段和低分段學(xué)生的學(xué)業(yè)表現(xiàn)進行分析,將有助于調(diào)整當(dāng)前數(shù)學(xué)教學(xué)的進度和策略安排。③王鼎. 國際大規(guī)模數(shù)學(xué)測評研究--基于對TIMSS和PISA數(shù)學(xué)測評的分析[D]. 上海: 上海師范大學(xué), 2016: 163-164.此外,在數(shù)學(xué)學(xué)業(yè)成就或數(shù)學(xué)能力表現(xiàn)影響因素的分析上,NAEP 2019指出對數(shù)學(xué)學(xué)業(yè)表現(xiàn)的因果分析不應(yīng)被理解為簡單的回歸預(yù)測,還要將人口和教育系統(tǒng)因素以及其他未測量變量納入分析范圍,從而獲取學(xué)生出現(xiàn)當(dāng)前數(shù)學(xué)學(xué)科測試結(jié)果的系統(tǒng)解釋。①Maxwell, J. A. The Importance of Qualitative Research for Causal Explanation in Education[J]. Qualitative Inquiry, 2012, 18(8):649-655.