關(guān)于數(shù)學(xué)學(xué)科教育質(zhì)量監(jiān)測試題的評價

2013-01-31 09:49:41梅松竹

中國考試 2013年2期

梅松竹冷平

隨著義務(wù)教育的全面普及和深入發(fā)展，教育質(zhì)量日益成為全民關(guān)注的焦點，教育監(jiān)測與評價也因此成為教育研究的熱點。在基礎(chǔ)教育質(zhì)量監(jiān)測體系中，學(xué)業(yè)成就評價是教育監(jiān)測不可或缺的手段與方式，它能反映出教育政策和教學(xué)措施的成敗。學(xué)業(yè)成就評價的效果如何在很大程度上又取決于學(xué)業(yè)評價試題質(zhì)量的優(yōu)劣。因此，客觀、公正、科學(xué)地評價基礎(chǔ)教育質(zhì)量監(jiān)測試題成為基礎(chǔ)教育質(zhì)量監(jiān)測的核心環(huán)節(jié)之一，也是教育質(zhì)量監(jiān)測得以順利實施的重要保障。

1 教育質(zhì)量監(jiān)測試題的評價背景

2007年，教育部成立了基礎(chǔ)教育質(zhì)量監(jiān)測中心，并開發(fā)了教育質(zhì)量監(jiān)測試題庫和相關(guān)背景問卷，用來測評我國基礎(chǔ)教育水平，分析影響教育質(zhì)量的因素，為教育政策的制定和實施提供決策依據(jù)。由于基礎(chǔ)教育質(zhì)量監(jiān)測意在考查學(xué)生的知識水平和學(xué)科能力，并不需要甄別、選拔和排序，因此，它不同于高利害選拔性考試，而是一種基于標(biāo)準(zhǔn)（standards-based）的“學(xué)業(yè)成就評價”。這里的“標(biāo)準(zhǔn)”一般是指課程標(biāo)準(zhǔn)、評價標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn)。學(xué)業(yè)成就評價，通常是指以國家課程標(biāo)準(zhǔn)為依據(jù)，以學(xué)業(yè)評價標(biāo)準(zhǔn)為準(zhǔn)則，以學(xué)科內(nèi)容為目標(biāo)，運用質(zhì)性和量化的方法，測評學(xué)生在一定時期內(nèi)的知識、能力和情感的發(fā)展水平，并進(jìn)行價值判斷的過程。當(dāng)今，國際上比較著名的數(shù)學(xué)學(xué)業(yè)成就評價項目有全國教育進(jìn)展評價（NAEP），國際數(shù)學(xué)和科學(xué)教育研究（TIMSS）和國際學(xué)生評價項目（PISA）等。這些學(xué)業(yè)成就評價項目都是基于標(biāo)準(zhǔn)的考試，這也是我國基礎(chǔ)教育質(zhì)量監(jiān)測所采用的評價方式。

自從我國成立了基礎(chǔ)教育質(zhì)量監(jiān)測中心以來，教育監(jiān)測的范圍逐年擴大，但監(jiān)測的效果如何，監(jiān)測試題能否有效地測評出學(xué)生當(dāng)前學(xué)業(yè)成就水平，這些都非常值得我們深入研究。因此，對于教育質(zhì)量監(jiān)測試題本身的評價就顯得尤為迫切且意義重大，事關(guān)監(jiān)測結(jié)果的科學(xué)性、準(zhǔn)確性和權(quán)威性，是學(xué)業(yè)成就評價不可或缺的重要組成部分。當(dāng)今，我國對于試題質(zhì)量的評價基本上側(cè)重于測評之后的統(tǒng)計分析，關(guān)于測評之前的評價多來自經(jīng)驗和主觀判斷，系統(tǒng)的學(xué)業(yè)成就評價試題的評價指標(biāo)體系尚未真正建立起來。因此，基于基礎(chǔ)教育質(zhì)量監(jiān)測的科學(xué)性要求，以及我國考試改革的發(fā)展性訴求，著力探索基礎(chǔ)教育質(zhì)量監(jiān)測試題的評價具有深遠(yuǎn)的意義。

2 數(shù)學(xué)學(xué)科教育質(zhì)量監(jiān)測試題的評價

從測量與評價的角度來看，數(shù)學(xué)學(xué)科教育質(zhì)量監(jiān)測試題的質(zhì)量評價可以從質(zhì)性判斷和量化測評兩個角度加以考慮。質(zhì)性評價是檢驗對象在標(biāo)識量表和順序量表上的表征，量化評價還可以檢驗對象在等距量表和比率量表上的符合程度[1]。也就是說，試題質(zhì)性評價側(cè)重于試題的目的與功能、價值與理念、結(jié)構(gòu)與外在形式等特征，試題量化評價則采用描述統(tǒng)計量、一致性分析和題目屬性函數(shù)等方式來判斷試題的質(zhì)量。下面將以基礎(chǔ)教育質(zhì)量監(jiān)測數(shù)學(xué)試題（Quality Monitoring Mathemaitics Items，QMMI）為例，分析影響試題質(zhì)量的相關(guān)指標(biāo)和因素。

2.1 試題的質(zhì)性評價

為了客觀地評價試題質(zhì)量，首先要從宏觀上對試卷進(jìn)行定性的評價，以期獲得對于試題的整體感受。

2.1.1 試題的測量結(jié)構(gòu)、目的和功能

試題的測量結(jié)構(gòu)是指測量載體的“意愿指向”與內(nèi)部構(gòu)造。學(xué)業(yè)成就評價試題測量的本質(zhì)在于激勵與診斷并舉，甄別與改進(jìn)共生[2]。QMMI試題遵循此原則，基于數(shù)學(xué)課程標(biāo)準(zhǔn)和學(xué)業(yè)評價標(biāo)準(zhǔn)，在全國范圍內(nèi)進(jìn)行水平性測評，其篩選、選拔功能將被弱化，測量結(jié)構(gòu)也不囿于“知識立意”，更多地轉(zhuǎn)向“能力立意”和“應(yīng)用立意”，重點考查學(xué)生應(yīng)用所學(xué)的數(shù)學(xué)知識解決實際問題的能力，這是QMMI試題質(zhì)量標(biāo)準(zhǔn)的首要法則。

試題的測量目的是測量效用的客觀需求與測試者主觀期望的綜合，體現(xiàn)在諸多的核心測量目標(biāo)之中?？荚嚋y量的根本目的是根據(jù)有限的觀察樣本對考生個人或考生所屬群體做出一般的、抽象的結(jié)論，即對考試結(jié)果做出理論解釋，并使用考試結(jié)果對考生群體做出決策[3]。為達(dá)到此測量目的，需選擇恰當(dāng)?shù)闹R領(lǐng)域和認(rèn)知要求。一份高質(zhì)量的QMMI試題必然緊緊圍繞數(shù)學(xué)核心內(nèi)容展開測量，如幾何題目圍繞空間觀念、幾何直觀、活動經(jīng)驗展開，代數(shù)題目關(guān)注基本運算、符號意識、代數(shù)推理，概率題目則側(cè)重于隨機觀念和數(shù)據(jù)分析。

QMMI試題作為評價性文本，其基本功能是改進(jìn)和指導(dǎo)教學(xué)，促進(jìn)學(xué)生的發(fā)展，具體體現(xiàn)在診斷、激勵、導(dǎo)向、教導(dǎo)等方面。QMMI試題可以用來診斷學(xué)情，激勵學(xué)生提高學(xué)習(xí)效率，引導(dǎo)考試回歸理性，避免應(yīng)試教育的惡性競爭，將教師的教學(xué)方式導(dǎo)向更加科學(xué)、時代性和個性化的境界，這是所有學(xué)業(yè)成就評價試題不可推卸的責(zé)任，也是我國考試改革努力的方向。因此，對QMMI試題進(jìn)行評價時，應(yīng)以全樣本考試數(shù)據(jù)統(tǒng)計分析為基礎(chǔ)，利用考試數(shù)據(jù)分析學(xué)生內(nèi)在心智特質(zhì)的差異性，促進(jìn)考試正確發(fā)揮檢測、診斷和指導(dǎo)教學(xué)的作用[4]。

2.1.2 試題體現(xiàn)的價值與理念

QMMI試題作為國家層面上的大范圍測試文本，必須體現(xiàn)國家的政治意志和核心價值觀，同時又要反映出當(dāng)今的主流教育觀、評價觀和新課改理念。優(yōu)秀的QMMI試題應(yīng)該展現(xiàn)現(xiàn)代社會陽光的、積極的精神面貌，體現(xiàn)高尚的人生觀與價值觀，培養(yǎng)公民意識和環(huán)境意識；同時要反映人本主義的價值傾向，尊重學(xué)生、關(guān)注不同群體，提倡個性化教育、全面發(fā)展、可持續(xù)發(fā)展的教育理念；還要敢于突破常規(guī)，將創(chuàng)新教育、素質(zhì)教育、現(xiàn)代數(shù)學(xué)思想等內(nèi)化在試題之中。

3 試題的結(jié)構(gòu)與外在形式

試題的組織結(jié)構(gòu)和外在形式是試題質(zhì)量的顯性質(zhì)量標(biāo)準(zhǔn)。高水平的QMMI試題，其組織結(jié)構(gòu)必然層次分明，難易有序，且有一定梯度，能反映出數(shù)學(xué)學(xué)科的知識特點和認(rèn)知層次，如開放題的設(shè)計層層設(shè)問，步步遞進(jìn)?？疾榈膬?nèi)容應(yīng)是真實情境的再現(xiàn)，既體現(xiàn)數(shù)學(xué)與學(xué)生生活、科技或其他學(xué)科的密切聯(lián)系，又體現(xiàn)從真實情境到數(shù)學(xué)的數(shù)學(xué)化過程。試題情境材料的選擇要與學(xué)生學(xué)習(xí)經(jīng)歷過的材料有類似性或全新，應(yīng)該有教育意義，必須考慮測量的認(rèn)知目標(biāo)，又要具備相應(yīng)學(xué)科特征，應(yīng)選用對所有學(xué)生來說是公平的材料，呈現(xiàn)方式多樣化，應(yīng)該用清晰、明確的語言表述[5]。試題的設(shè)問應(yīng)該明確，無關(guān)信息稀少，所要考查的知識點、能力類型和素養(yǎng)類型清晰明了，且與學(xué)生的認(rèn)知水平和心理發(fā)展水平相適應(yīng)，試題考查的區(qū)分點與學(xué)生在相應(yīng)內(nèi)容上的學(xué)習(xí)困難點和易犯錯誤類型基本吻合。

試題的外在形式是直接影響試題最終效果的重要因素，對于QMMI試題而言，豐富多彩的題型，恰當(dāng)適宜的題量，明確簡潔的表述，圖文并茂的呈現(xiàn)方式都是優(yōu)質(zhì)試題的重要特征。不同的題型具有不同的功能，QMMI試題采用客觀題和主觀題并重的方式，可以同時測評出“選擇-反應(yīng)”和“建構(gòu)-反應(yīng)”水平。不同題型的設(shè)計亦有講究，如選擇題的題干指向明確，與備選項構(gòu)成邏輯關(guān)系，備選項的長度、結(jié)構(gòu)、語言表達(dá)基本一致，干擾項起到真正的干擾作用[6]。QMMI試題的性質(zhì)決定了試題不是快速應(yīng)答類型，因而一份好的QMMI試題，題量須適中。測驗題目的數(shù)量取決于測量目的、所使用的測量題目和評價任務(wù)的類型、學(xué)生的年齡、保證有效測驗的信度水平[7]。試題的文字表述須采用通順、規(guī)范的數(shù)學(xué)語言，語言表達(dá)力求準(zhǔn)確、簡練、科學(xué)，不存在閱讀障礙或者理解歧義。試題的呈現(xiàn)載體應(yīng)突破“純文字化”的格局，將情境分析、數(shù)學(xué)閱讀、圖表、新聞報道等形式有機地融入其中。試題版面布局須合理，排版有序，美觀大方，具有一定的可讀性，同時又體現(xiàn)出對特定群體的人文關(guān)懷。試題的配套測試資料必須完備，數(shù)學(xué)課程標(biāo)準(zhǔn)、學(xué)業(yè)評價標(biāo)準(zhǔn)、細(xì)目表和試題操作手冊一應(yīng)俱全。評分標(biāo)準(zhǔn)要盡量詳細(xì)、準(zhǔn)確，具有可操作性。

3.1 試題的量化評價

由于質(zhì)性評價具有一定的主觀性和不確定性，為了更加準(zhǔn)確、客觀地刻畫數(shù)學(xué)學(xué)業(yè)成就評價試題的質(zhì)量，還需要從微觀角度對試題進(jìn)行量化分析。

3.1.1 主要描述統(tǒng)計量

在試題測評、批改之后，可以對被測群體的測量成績進(jìn)行描述統(tǒng)計，使用SPSS統(tǒng)計軟件即可實現(xiàn)。常見的描述統(tǒng)計量有均值、最值、極差、標(biāo)準(zhǔn)差、眾數(shù)、中位數(shù)、峰值分布及百分比等。均值和眾數(shù)、中位數(shù)反映了被測對象的總體水平，極差和標(biāo)準(zhǔn)差反映了得分的離散程度，峰值反映了得分的集中趨勢。優(yōu)秀的QMMI試題具有水平性測量的特征，所以被測的成績分布應(yīng)該呈負(fù)偏態(tài)分布，峰值應(yīng)控制在總分的80%左右，峰度也不宜過高，否則測驗分?jǐn)?shù)的離散程度將減小。

3.1.2 效度、信度、區(qū)分度、難度

效度是判斷實證證據(jù)或理論原理在多大程度上支持由考試分?jǐn)?shù)或另一些評價結(jié)果作出的推斷或采取的行為是準(zhǔn)確的、適當(dāng)?shù)腫8]。由于QMMI試題側(cè)重于考查學(xué)生應(yīng)用基礎(chǔ)知識和基本技能解決現(xiàn)實問題的能力，因此，試題需要對測量內(nèi)容進(jìn)行有效覆蓋，試題取樣須具備典型性和代表性，與數(shù)學(xué)課程標(biāo)準(zhǔn)和學(xué)業(yè)評價標(biāo)準(zhǔn)相一致。只有抽樣充分，使用了恰當(dāng)?shù)娜蝿?wù)類型，表述清晰、提示恰當(dāng)、難度適中，時間充裕，評分公正才能保證測試的效度[9]。關(guān)于QMMI試題的效度檢驗需要收集內(nèi)容方面的證據(jù)和內(nèi)部結(jié)構(gòu)方面的證據(jù)。內(nèi)容方面的證據(jù)是判斷考試是否是相關(guān)學(xué)科內(nèi)容領(lǐng)域的合適樣本，檢驗考試是否測量了所要測量的目標(biāo)，考試內(nèi)容是否覆蓋了足夠的學(xué)科領(lǐng)域或概化的領(lǐng)域。內(nèi)部結(jié)構(gòu)方面的證據(jù)是考試結(jié)果解釋和使用的基礎(chǔ)，以及根據(jù)考生的考試結(jié)果，判斷多大程度上能夠?qū)⒖忌男袨楸憩F(xiàn)歸因于考生的測量目標(biāo)[10]。

信度反映了測量結(jié)果的穩(wěn)定程度?？疾樾哦鹊耐緩桨ù_認(rèn)誤差的主要來源，歸納這些誤差大小的統(tǒng)計數(shù)據(jù)并描述其所針對的考生群體[11]。為了達(dá)到測驗功能的一致性，試題必須是同質(zhì)性的，優(yōu)秀的QMMI試題信度通常在0.9以上，PISA數(shù)學(xué)試題的信度還要更高[12]。信度檢驗方法通常有測驗與再測驗方法、等值復(fù)本相關(guān)法、等值復(fù)本再測法、內(nèi)部一致性法[13]。

難度是一個相對概念，是相對于被測的難易程度，通常用得分率或極端分組法來計算試題難度。測驗難度影響測驗的鑒別能力，對于好的QMMI試題而言，平均難度應(yīng)控制在0.75～0.85，容易題、中度題和較難題的比例約為6∶3∶1[14]。

區(qū)分度反映了試題對于被測實際水平的區(qū)分程度，可采用極端分組法或相關(guān)法來計算難度。過難或過易的試題區(qū)分度都很小，難度在0.5附近的試題，區(qū)分度往往最大。高質(zhì)量的QMMI試題的區(qū)分度應(yīng)該在0.4～0.6為宜，由于QMMI試題的特性，我們無須盲目追求試題的高區(qū)分度。

3.1.3 一致性分析

由于數(shù)學(xué)學(xué)業(yè)成就評價試題是基于標(biāo)準(zhǔn)的測評，因而學(xué)業(yè)評價標(biāo)準(zhǔn)中的知識維度和認(rèn)知維度要求是否試題保持一致，還需要進(jìn)一步的一致性分析。一致性是基于標(biāo)準(zhǔn)的評價的核心，是衡量基于標(biāo)準(zhǔn)的評價的執(zhí)行程度的依據(jù)，是實現(xiàn)基于標(biāo)準(zhǔn)的評價的價值追求的重要手段[15]。當(dāng)前，比較成熟的一致性分析模型有美國學(xué)者韋伯（Norman L.Webb）的“學(xué)業(yè)評價與課標(biāo)一致性”研究，他從知識的種類、深度、廣度和分布平衡性四個維度進(jìn)行一致性分析[16]。通常，我們可以對照QMMI試題的雙向細(xì)目表，采用相關(guān)系數(shù)矩陣法來進(jìn)行一致性分析，檢驗試題在內(nèi)容維度和認(rèn)知維度上的符合程度。

3.1.4 試題屬性

試題屬性參量除了描述統(tǒng)計量外，還包括題目特征曲線（itemcharacteristic curve）和題目信息函數(shù)（iteminformation function）[17]。題目特征曲線刻畫了學(xué)科能力與正確回答概率的關(guān)系。根據(jù)特征曲線的形態(tài)和位置，確定試題是否合格或有質(zhì)量缺陷，確定試題的難度和區(qū)分能力，確定試題對什么樣的考生子群體具有區(qū)分能力[18]。題目信息函數(shù)則反映出該題目對不同能力水平考生的敏感性。考生能力水平與試題難度之差的值越小，試題提供的信息量越大；試題的區(qū)分度參數(shù)越大，提供的信息量越大；試題的猜測度參數(shù)越小，提供的信息量越大[19]。另外，我們還可以對QMMI試題進(jìn)行敏感性分析，以峰值為準(zhǔn)線，分析被測成績的變化百分比引起作答正確率的變化百分比，以此來探討后者對于前者的敏感程度。試題屬性折射出學(xué)業(yè)成就評價的人本主義色彩，也為個體的學(xué)業(yè)成就歸因和認(rèn)知診斷找到科學(xué)的依據(jù)。

關(guān)于數(shù)學(xué)學(xué)業(yè)成就評價試題的評價是一個系統(tǒng)的工程，我們不能滿足于粗糙的、模糊的、主觀的、隨意的評價，而要基于科學(xué)的教育理論和評價技術(shù)，在質(zhì)性和量化兩方面進(jìn)行全面的、精確的、客觀的、理性的評價。只有這樣，才能扭轉(zhuǎn)我國基礎(chǔ)教育階段試題編制與評價的不利局面，促進(jìn)基礎(chǔ)教育質(zhì)量監(jiān)測的有效運行，推動我國教育事業(yè)的健康發(fā)展和全民素質(zhì)的普遍提高。

[1]劉五駒.實用教育評價理論與技術(shù)[M].蘇州:蘇州大學(xué)出版社.2008，12：72.

[2]孔凡哲.論數(shù)學(xué)試題的質(zhì)量標(biāo)準(zhǔn)[J].中學(xué)數(shù)學(xué)教學(xué)參考，2008（3）:41.

[3]雷新勇.基于標(biāo)準(zhǔn)的教育考試—命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評價[M].上海：上?？萍汲霭嫔?2011，4:13.

[4][5]臧鐵軍.考試評價分析與診斷基礎(chǔ)與務(wù)實[M].北京：首都師范大學(xué)出版社.2011.7:15，49-50.

[6]付慧宇.高考試卷質(zhì)量評價體系初探[J].天津師范大學(xué)學(xué)報（基礎(chǔ)教育版），2011，12（2）：71.

[7][美]Rorbert L.Linn＆ Norman E.Gronlund，著.國家基礎(chǔ)教育課程改革“促進(jìn)教師發(fā)展與學(xué)生成長的評價研究”項目組，譯.教學(xué)中的測驗與評價[M].北京：中國輕工業(yè)出版社.2003，1：79.

[8]KaneM.T.Validation.In:R.L.Brennan（ed.）.Educational Measurement（4th Ed.）[M].Praeger:American Council on Education，2006，21.

[9][13][美]Norman E.Gronlund，C.Ketth Waugh，著，楊濤，邊玉芳，譯.學(xué)業(yè)成就評測（第9版）[M].北京：教育科學(xué)出版社.2011，12：48，58.

[10][18][19]雷新勇.大規(guī)模教育考試命題與評價[M].上海：華東師范大學(xué)出版社.2006.4:283-293，247，76.

[11][美]美國教育研究協(xié)會，美國心理學(xué)協(xié)會，全美教育測量協(xié)會，主編.燕娓琴，謝小慶，譯.教育與心理測試標(biāo)準(zhǔn)[M].沈陽：沈陽出版社.2003，12:42.

[12]OECD.PISA 2009 Results:What Students Know and Can Do[EB/OL]http://dx.doi.org/10.1787/9789264091450-en，2010-10-4.

[14]沈南山，等.數(shù)學(xué)學(xué)業(yè)成就評價測查試題編制研究[J].教育研究，2009（9）:60.

[15]崔允漷，王少非，夏雪梅.基于標(biāo)準(zhǔn)的學(xué)生學(xué)業(yè)成就評價[M].上海：華東師范大學(xué)出版社.2008，9:110.

[16]Norman L.Webb.Alignment of Science and Mathematics Standards and Assessments in Four States[Z].Washington DC:Council of Chief State School Officers，1999:11.