梅松竹 冷 平
隨著義務(wù)教育的全面普及和深入發(fā)展,教育質(zhì)量日益成為全民關(guān)注的焦點,教育監(jiān)測與評價也因此成為教育研究的熱點。在基礎(chǔ)教育質(zhì)量監(jiān)測體系中,學(xué)業(yè)成就評價是教育監(jiān)測不可或缺的手段與方式,它能反映出教育政策和教學(xué)措施的成敗。學(xué)業(yè)成就評價的效果如何在很大程度上又取決于學(xué)業(yè)評價試題質(zhì)量的優(yōu)劣。因此,客觀、公正、科學(xué)地評價基礎(chǔ)教育質(zhì)量監(jiān)測試題成為基礎(chǔ)教育質(zhì)量監(jiān)測的核心環(huán)節(jié)之一,也是教育質(zhì)量監(jiān)測得以順利實施的重要保障。
2007年,教育部成立了基礎(chǔ)教育質(zhì)量監(jiān)測中心,并開發(fā)了教育質(zhì)量監(jiān)測試題庫和相關(guān)背景問卷,用來測評我國基礎(chǔ)教育水平,分析影響教育質(zhì)量的因素,為教育政策的制定和實施提供決策依據(jù)。由于基礎(chǔ)教育質(zhì)量監(jiān)測意在考查學(xué)生的知識水平和學(xué)科能力,并不需要甄別、選拔和排序,因此,它不同于高利害選拔性考試,而是一種基于標(biāo)準(zhǔn)(standards-based)的“學(xué)業(yè)成就評價”。這里的“標(biāo)準(zhǔn)”一般是指課程標(biāo)準(zhǔn)、評價標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn)。學(xué)業(yè)成就評價,通常是指以國家課程標(biāo)準(zhǔn)為依據(jù),以學(xué)業(yè)評價標(biāo)準(zhǔn)為準(zhǔn)則,以學(xué)科內(nèi)容為目標(biāo),運用質(zhì)性和量化的方法,測評學(xué)生在一定時期內(nèi)的知識、能力和情感的發(fā)展水平,并進(jìn)行價值判斷的過程。當(dāng)今,國際上比較著名的數(shù)學(xué)學(xué)業(yè)成就評價項目有全國教育進(jìn)展評價(NAEP),國際數(shù)學(xué)和科學(xué)教育研究(TIMSS)和國際學(xué)生評價項目(PISA)等。這些學(xué)業(yè)成就評價項目都是基于標(biāo)準(zhǔn)的考試,這也是我國基礎(chǔ)教育質(zhì)量監(jiān)測所采用的評價方式。
自從我國成立了基礎(chǔ)教育質(zhì)量監(jiān)測中心以來,教育監(jiān)測的范圍逐年擴大,但監(jiān)測的效果如何,監(jiān)測試題能否有效地測評出學(xué)生當(dāng)前學(xué)業(yè)成就水平,這些都非常值得我們深入研究。因此,對于教育質(zhì)量監(jiān)測試題本身的評價就顯得尤為迫切且意義重大,事關(guān)監(jiān)測結(jié)果的科學(xué)性、準(zhǔn)確性和權(quán)威性,是學(xué)業(yè)成就評價不可或缺的重要組成部分。當(dāng)今,我國對于試題質(zhì)量的評價基本上側(cè)重于測評之后的統(tǒng)計分析,關(guān)于測評之前的評價多來自經(jīng)驗和主觀判斷,系統(tǒng)的學(xué)業(yè)成就評價試題的評價指標(biāo)體系尚未真正建立起來。因此,基于基礎(chǔ)教育質(zhì)量監(jiān)測的科學(xué)性要求,以及我國考試改革的發(fā)展性訴求,著力探索基礎(chǔ)教育質(zhì)量監(jiān)測試題的評價具有深遠(yuǎn)的意義。
從測量與評價的角度來看,數(shù)學(xué)學(xué)科教育質(zhì)量監(jiān)測試題的質(zhì)量評價可以從質(zhì)性判斷和量化測評兩個角度加以考慮。質(zhì)性評價是檢驗對象在標(biāo)識量表和順序量表上的表征,量化評價還可以檢驗對象在等距量表和比率量表上的符合程度[1]。也就是說,試題質(zhì)性評價側(cè)重于試題的目的與功能、價值與理念、結(jié)構(gòu)與外在形式等特征,試題量化評價則采用描述統(tǒng)計量、一致性分析和題目屬性函數(shù)等方式來判斷試題的質(zhì)量。下面將以基礎(chǔ)教育質(zhì)量監(jiān)測數(shù)學(xué)試題(Quality Monitoring Mathemaitics Items,QMMI)為例,分析影響試題質(zhì)量的相關(guān)指標(biāo)和因素。
為了客觀地評價試題質(zhì)量,首先要從宏觀上對試卷進(jìn)行定性的評價,以期獲得對于試題的整體感受。
2.1.1 試題的測量結(jié)構(gòu)、目的和功能
試題的測量結(jié)構(gòu)是指測量載體的“意愿指向”與內(nèi)部構(gòu)造。學(xué)業(yè)成就評價試題測量的本質(zhì)在于激勵與診斷并舉,甄別與改進(jìn)共生[2]。QMMI試題遵循此原則,基于數(shù)學(xué)課程標(biāo)準(zhǔn)和學(xué)業(yè)評價標(biāo)準(zhǔn),在全國范圍內(nèi)進(jìn)行水平性測評,其篩選、選拔功能將被弱化,測量結(jié)構(gòu)也不囿于“知識立意”,更多地轉(zhuǎn)向“能力立意”和“應(yīng)用立意”,重點考查學(xué)生應(yīng)用所學(xué)的數(shù)學(xué)知識解決實際問題的能力,這是QMMI試題質(zhì)量標(biāo)準(zhǔn)的首要法則。
試題的測量目的是測量效用的客觀需求與測試者主觀期望的綜合,體現(xiàn)在諸多的核心測量目標(biāo)之中??荚嚋y量的根本目的是根據(jù)有限的觀察樣本對考生個人或考生所屬群體做出一般的、抽象的結(jié)論,即對考試結(jié)果做出理論解釋,并使用考試結(jié)果對考生群體做出決策[3]。為達(dá)到此測量目的,需選擇恰當(dāng)?shù)闹R領(lǐng)域和認(rèn)知要求。一份高質(zhì)量的QMMI試題必然緊緊圍繞數(shù)學(xué)核心內(nèi)容展開測量,如幾何題目圍繞空間觀念、幾何直觀、活動經(jīng)驗展開,代數(shù)題目關(guān)注基本運算、符號意識、代數(shù)推理,概率題目則側(cè)重于隨機觀念和數(shù)據(jù)分析。
QMMI試題作為評價性文本,其基本功能是改進(jìn)和指導(dǎo)教學(xué),促進(jìn)學(xué)生的發(fā)展,具體體現(xiàn)在診斷、激勵、導(dǎo)向、教導(dǎo)等方面。QMMI試題可以用來診斷學(xué)情,激勵學(xué)生提高學(xué)習(xí)效率,引導(dǎo)考試回歸理性,避免應(yīng)試教育的惡性競爭,將教師的教學(xué)方式導(dǎo)向更加科學(xué)、時代性和個性化的境界,這是所有學(xué)業(yè)成就評價試題不可推卸的責(zé)任,也是我國考試改革努力的方向。因此,對QMMI試題進(jìn)行評價時,應(yīng)以全樣本考試數(shù)據(jù)統(tǒng)計分析為基礎(chǔ),利用考試數(shù)據(jù)分析學(xué)生內(nèi)在心智特質(zhì)的差異性,促進(jìn)考試正確發(fā)揮檢測、診斷和指導(dǎo)教學(xué)的作用[4]。
2.1.2 試題體現(xiàn)的價值與理念
QMMI試題作為國家層面上的大范圍測試文本,必須體現(xiàn)國家的政治意志和核心價值觀,同時又要反映出當(dāng)今的主流教育觀、評價觀和新課改理念。優(yōu)秀的QMMI試題應(yīng)該展現(xiàn)現(xiàn)代社會陽光的、積極的精神面貌,體現(xiàn)高尚的人生觀與價值觀,培養(yǎng)公民意識和環(huán)境意識;同時要反映人本主義的價值傾向,尊重學(xué)生、關(guān)注不同群體,提倡個性化教育、全面發(fā)展、可持續(xù)發(fā)展的教育理念;還要敢于突破常規(guī),將創(chuàng)新教育、素質(zhì)教育、現(xiàn)代數(shù)學(xué)思想等內(nèi)化在試題之中。
試題的組織結(jié)構(gòu)和外在形式是試題質(zhì)量的顯性質(zhì)量標(biāo)準(zhǔn)。高水平的QMMI試題,其組織結(jié)構(gòu)必然層次分明,難易有序,且有一定梯度,能反映出數(shù)學(xué)學(xué)科的知識特點和認(rèn)知層次,如開放題的設(shè)計層層設(shè)問,步步遞進(jìn)??疾榈膬?nèi)容應(yīng)是真實情境的再現(xiàn),既體現(xiàn)數(shù)學(xué)與學(xué)生生活、科技或其他學(xué)科的密切聯(lián)系,又體現(xiàn)從真實情境到數(shù)學(xué)的數(shù)學(xué)化過程。試題情境材料的選擇要與學(xué)生學(xué)習(xí)經(jīng)歷過的材料有類似性或全新,應(yīng)該有教育意義,必須考慮測量的認(rèn)知目標(biāo),又要具備相應(yīng)學(xué)科特征,應(yīng)選用對所有學(xué)生來說是公平的材料,呈現(xiàn)方式多樣化,應(yīng)該用清晰、明確的語言表述[5]。試題的設(shè)問應(yīng)該明確,無關(guān)信息稀少,所要考查的知識點、能力類型和素養(yǎng)類型清晰明了,且與學(xué)生的認(rèn)知水平和心理發(fā)展水平相適應(yīng),試題考查的區(qū)分點與學(xué)生在相應(yīng)內(nèi)容上的學(xué)習(xí)困難點和易犯錯誤類型基本吻合。
試題的外在形式是直接影響試題最終效果的重要因素,對于QMMI試題而言,豐富多彩的題型,恰當(dāng)適宜的題量,明確簡潔的表述,圖文并茂的呈現(xiàn)方式都是優(yōu)質(zhì)試題的重要特征。不同的題型具有不同的功能,QMMI試題采用客觀題和主觀題并重的方式,可以同時測評出“選擇-反應(yīng)”和“建構(gòu)-反應(yīng)”水平。不同題型的設(shè)計亦有講究,如選擇題的題干指向明確,與備選項構(gòu)成邏輯關(guān)系,備選項的長度、結(jié)構(gòu)、語言表達(dá)基本一致,干擾項起到真正的干擾作用[6]。QMMI試題的性質(zhì)決定了試題不是快速應(yīng)答類型,因而一份好的QMMI試題,題量須適中。測驗題目的數(shù)量取決于測量目的、所使用的測量題目和評價任務(wù)的類型、學(xué)生的年齡、保證有效測驗的信度水平[7]。試題的文字表述須采用通順、規(guī)范的數(shù)學(xué)語言,語言表達(dá)力求準(zhǔn)確、簡練、科學(xué),不存在閱讀障礙或者理解歧義。試題的呈現(xiàn)載體應(yīng)突破“純文字化”的格局,將情境分析、數(shù)學(xué)閱讀、圖表、新聞報道等形式有機地融入其中。試題版面布局須合理,排版有序,美觀大方,具有一定的可讀性,同時又體現(xiàn)出對特定群體的人文關(guān)懷。試題的配套測試資料必須完備,數(shù)學(xué)課程標(biāo)準(zhǔn)、學(xué)業(yè)評價標(biāo)準(zhǔn)、細(xì)目表和試題操作手冊一應(yīng)俱全。評分標(biāo)準(zhǔn)要盡量詳細(xì)、準(zhǔn)確,具有可操作性。
由于質(zhì)性評價具有一定的主觀性和不確定性,為了更加準(zhǔn)確、客觀地刻畫數(shù)學(xué)學(xué)業(yè)成就評價試題的質(zhì)量,還需要從微觀角度對試題進(jìn)行量化分析。
3.1.1 主要描述統(tǒng)計量
在試題測評、批改之后,可以對被測群體的測量成績進(jìn)行描述統(tǒng)計,使用SPSS統(tǒng)計軟件即可實現(xiàn)。常見的描述統(tǒng)計量有均值、最值、極差、標(biāo)準(zhǔn)差、眾數(shù)、中位數(shù)、峰值分布及百分比等。均值和眾數(shù)、中位數(shù)反映了被測對象的總體水平,極差和標(biāo)準(zhǔn)差反映了得分的離散程度,峰值反映了得分的集中趨勢。優(yōu)秀的QMMI試題具有水平性測量的特征,所以被測的成績分布應(yīng)該呈負(fù)偏態(tài)分布,峰值應(yīng)控制在總分的80%左右,峰度也不宜過高,否則測驗分?jǐn)?shù)的離散程度將減小。
3.1.2 效度、信度、區(qū)分度、難度
效度是判斷實證證據(jù)或理論原理在多大程度上支持由考試分?jǐn)?shù)或另一些評價結(jié)果作出的推斷或采取的行為是準(zhǔn)確的、適當(dāng)?shù)腫8]。由于QMMI試題側(cè)重于考查學(xué)生應(yīng)用基礎(chǔ)知識和基本技能解決現(xiàn)實問題的能力,因此,試題需要對測量內(nèi)容進(jìn)行有效覆蓋,試題取樣須具備典型性和代表性,與數(shù)學(xué)課程標(biāo)準(zhǔn)和學(xué)業(yè)評價標(biāo)準(zhǔn)相一致。只有抽樣充分,使用了恰當(dāng)?shù)娜蝿?wù)類型,表述清晰、提示恰當(dāng)、難度適中,時間充裕,評分公正才能保證測試的效度[9]。關(guān)于QMMI試題的效度檢驗需要收集內(nèi)容方面的證據(jù)和內(nèi)部結(jié)構(gòu)方面的證據(jù)。內(nèi)容方面的證據(jù)是判斷考試是否是相關(guān)學(xué)科內(nèi)容領(lǐng)域的合適樣本,檢驗考試是否測量了所要測量的目標(biāo),考試內(nèi)容是否覆蓋了足夠的學(xué)科領(lǐng)域或概化的領(lǐng)域。內(nèi)部結(jié)構(gòu)方面的證據(jù)是考試結(jié)果解釋和使用的基礎(chǔ),以及根據(jù)考生的考試結(jié)果,判斷多大程度上能夠?qū)⒖忌男袨楸憩F(xiàn)歸因于考生的測量目標(biāo)[10]。
信度反映了測量結(jié)果的穩(wěn)定程度??疾樾哦鹊耐緩桨ù_認(rèn)誤差的主要來源,歸納這些誤差大小的統(tǒng)計數(shù)據(jù)并描述其所針對的考生群體[11]。為了達(dá)到測驗功能的一致性,試題必須是同質(zhì)性的,優(yōu)秀的QMMI試題信度通常在0.9以上,PISA數(shù)學(xué)試題的信度還要更高[12]。信度檢驗方法通常有測驗與再測驗方法、等值復(fù)本相關(guān)法、等值復(fù)本再測法、內(nèi)部一致性法[13]。
難度是一個相對概念,是相對于被測的難易程度,通常用得分率或極端分組法來計算試題難度。測驗難度影響測驗的鑒別能力,對于好的QMMI試題而言,平均難度應(yīng)控制在0.75~0.85,容易題、中度題和較難題的比例約為6∶3∶1[14]。
區(qū)分度反映了試題對于被測實際水平的區(qū)分程度,可采用極端分組法或相關(guān)法來計算難度。過難或過易的試題區(qū)分度都很小,難度在0.5附近的試題,區(qū)分度往往最大。高質(zhì)量的QMMI試題的區(qū)分度應(yīng)該在0.4~0.6為宜,由于QMMI試題的特性,我們無須盲目追求試題的高區(qū)分度。
3.1.3 一致性分析
由于數(shù)學(xué)學(xué)業(yè)成就評價試題是基于標(biāo)準(zhǔn)的測評,因而學(xué)業(yè)評價標(biāo)準(zhǔn)中的知識維度和認(rèn)知維度要求是否試題保持一致,還需要進(jìn)一步的一致性分析。一致性是基于標(biāo)準(zhǔn)的評價的核心,是衡量基于標(biāo)準(zhǔn)的評價的執(zhí)行程度的依據(jù),是實現(xiàn)基于標(biāo)準(zhǔn)的評價的價值追求的重要手段[15]。當(dāng)前,比較成熟的一致性分析模型有美國學(xué)者韋伯(Norman L.Webb)的“學(xué)業(yè)評價與課標(biāo)一致性”研究,他從知識的種類、深度、廣度和分布平衡性四個維度進(jìn)行一致性分析[16]。通常,我們可以對照QMMI試題的雙向細(xì)目表,采用相關(guān)系數(shù)矩陣法來進(jìn)行一致性分析,檢驗試題在內(nèi)容維度和認(rèn)知維度上的符合程度。
3.1.4 試題屬性
試題屬性參量除了描述統(tǒng)計量外,還包括題目特征曲線(itemcharacteristic curve)和題目信息函數(shù)(iteminformation function)[17]。題目特征曲線刻畫了學(xué)科能力與正確回答概率的關(guān)系。根據(jù)特征曲線的形態(tài)和位置,確定試題是否合格或有質(zhì)量缺陷,確定試題的難度和區(qū)分能力,確定試題對什么樣的考生子群體具有區(qū)分能力[18]。題目信息函數(shù)則反映出該題目對不同能力水平考生的敏感性。考生能力水平與試題難度之差的值越小,試題提供的信息量越大;試題的區(qū)分度參數(shù)越大,提供的信息量越大;試題的猜測度參數(shù)越小,提供的信息量越大[19]。另外,我們還可以對QMMI試題進(jìn)行敏感性分析,以峰值為準(zhǔn)線,分析被測成績的變化百分比引起作答正確率的變化百分比,以此來探討后者對于前者的敏感程度。試題屬性折射出學(xué)業(yè)成就評價的人本主義色彩,也為個體的學(xué)業(yè)成就歸因和認(rèn)知診斷找到科學(xué)的依據(jù)。
關(guān)于數(shù)學(xué)學(xué)業(yè)成就評價試題的評價是一個系統(tǒng)的工程,我們不能滿足于粗糙的、模糊的、主觀的、隨意的評價,而要基于科學(xué)的教育理論和評價技術(shù),在質(zhì)性和量化兩方面進(jìn)行全面的、精確的、客觀的、理性的評價。只有這樣,才能扭轉(zhuǎn)我國基礎(chǔ)教育階段試題編制與評價的不利局面,促進(jìn)基礎(chǔ)教育質(zhì)量監(jiān)測的有效運行,推動我國教育事業(yè)的健康發(fā)展和全民素質(zhì)的普遍提高。
[1]劉五駒.實用教育評價理論與技術(shù)[M].蘇州:蘇州大學(xué)出版社.2008,12:72.
[2]孔凡哲.論數(shù)學(xué)試題的質(zhì)量標(biāo)準(zhǔn)[J].中學(xué)數(shù)學(xué)教學(xué)參考,2008(3):41.
[3]雷新勇.基于標(biāo)準(zhǔn)的教育考試—命題、標(biāo)準(zhǔn)設(shè)置和學(xué)業(yè)評價[M].上海:上??萍汲霭嫔?2011,4:13.
[4][5]臧鐵軍.考試評價分析與診斷基礎(chǔ)與務(wù)實[M].北京:首都師范大學(xué)出版社.2011.7:15,49-50.
[6]付慧宇.高考試卷質(zhì)量評價體系初探[J].天津師范大學(xué)學(xué)報(基礎(chǔ)教育版),2011,12(2):71.
[7][美]Rorbert L.Linn& Norman E.Gronlund,著.國家基礎(chǔ)教育課程改革“促進(jìn)教師發(fā)展與學(xué)生成長的評價研究”項目組,譯.教學(xué)中的測驗與評價[M].北京:中國輕工業(yè)出版社.2003,1:79.
[8]KaneM.T.Validation.In:R.L.Brennan(ed.).Educational Measurement(4th Ed.)[M].Praeger:American Council on Education,2006,21.
[9][13][美]Norman E.Gronlund,C.Ketth Waugh,著,楊濤,邊玉芳,譯.學(xué)業(yè)成就評測(第9版)[M].北京:教育科學(xué)出版社.2011,12:48,58.
[10][18][19]雷新勇.大規(guī)模教育考試命題與評價[M].上海:華東師范大學(xué)出版社.2006.4:283-293,247,76.
[11][美]美國教育研究協(xié)會,美國心理學(xué)協(xié)會,全美教育測量協(xié)會,主編.燕娓琴,謝小慶,譯.教育與心理測試標(biāo)準(zhǔn)[M].沈陽:沈陽出版社.2003,12:42.
[12]OECD.PISA 2009 Results:What Students Know and Can Do[EB/OL]http://dx.doi.org/10.1787/9789264091450-en,2010-10-4.
[14]沈南山,等.數(shù)學(xué)學(xué)業(yè)成就評價測查試題編制研究[J].教育研究,2009(9):60.
[15]崔允漷,王少非,夏雪梅.基于標(biāo)準(zhǔn)的學(xué)生學(xué)業(yè)成就評價[M].上海:華東師范大學(xué)出版社.2008,9:110.
[16]Norman L.Webb.Alignment of Science and Mathematics Standards and Assessments in Four States[Z].Washington DC:Council of Chief State School Officers,1999:11.
[17]辛濤.新課程背景下的學(xué)業(yè)評價:測量理論的價值[J].北京師范大學(xué)學(xué)報(社會科學(xué)版),2006(1):59.