周九詩 鮑建生
近年來,隨著基礎教育改革不斷發(fā)展,教育評價研究領域成果不斷完善,教育過程質量的重要性得到普遍關注。教學評價理念已由單一診斷功能,逐步向改善性和導向功能轉變。如何科學系統(tǒng)評價教師教學質量,利用評價過程和結果促進教師專業(yè)發(fā)展、提升教師教學質量是新一代教學質量評估系統(tǒng)的根本訴求。2019年6月,中共中央辦公廳、國務院辦公廳印發(fā)了《關于深化教育教學改革全面提高義務教育質量的意見》,明確提出健全教育教學質量評價監(jiān)測體系的要求。
國際上對課堂教學質量的評估始于Hiller、Fisher和Kaess在1969年所做的研究,之后課堂教學評價體系一直處于不斷探索和發(fā)展的過程。自20世紀80年代,我國教育測量學和統(tǒng)計學開始逐漸恢復和發(fā)展,中小學開始出現各種課堂教學評價量表,以期對課堂教學質量、教師教學水平作出公正、客觀、科學的評估。①安桂清, 李樹培.課堂教學評價: 描述取向[J].教育發(fā)展研究, 2011(02): 48-52.但長期以來,我國尚未形成一套完善的教學質量評價標準,依然存在評估工具操作性不強、指標結構層次混亂,無法深刻準確反映課堂教學活動本質等問題。
我國現有的教學質量評估系統(tǒng)多數不具有學科特色,如陳佑清和陶濤從教學目標、教學內容、教學方法、教學手段和教學效果五個維度評價教師課堂教學的評價指標體系,其中每個維度又分為2至5個要素。②陳佑清, 陶濤.“以學評教”的課堂教學評價指標設計[J].課程?教材?教法, 2016, 36(01):45-52.孫亞玲從教學目標、教學活動、教學能力、教學反饋和教學組織與管理五個方面評價課堂教學質量。③孫亞玲.課堂教學有效性標準研究[M].北京: 教育科學出版社, 2008:150.周建華認為高效的課堂評價指標有六個維度,分別為教師素質、教學過程、教學目標、學習環(huán)境、教學方法和學生發(fā)展。④周建華.中學高效課堂評價標準實證研究??以數學教師和數學課堂為例[J].課程?教材?教法, 2013, 33(08): 47-52.類似的評估框架看似覆蓋了課堂教學的方方面面,卻沒有抓住有意義教學的本質特點,導致評價工具看似學科普遍性很高,適用范圍很廣,實則難以把握學科特有的育人價值和核心能力培養(yǎng),削減了評估結果的專業(yè)化價值。西方教學評價框架更關注課堂中的師生互動,側重于教師的指導性和學生的主體性,如Danielson(2013)團隊開發(fā)的教學評價框架(A Framework for Teaching,簡稱FfT)中課堂教學評價部分包括教學環(huán)境和教學指導兩部分,教學環(huán)境評估教師能否布置適于學生學習的物理環(huán)境、創(chuàng)建積極融洽的學習文化、良好掌控課堂節(jié)奏和合理應對學生表現,教學指導主要評估教師的提問和組織討論技巧,形成性測試的科學運用和師生交流互動的掌握情況。⑤Danielson Group. The Framework for teaching[EB/OL].[2020-10-12]. https://danielsongroup.org/framework/.
美國在課堂教學質量評價方面一直走在國際研究前列,美國匹茲堡大學開發(fā)研制的教學質量評估系統(tǒng)(Instructional Quality Assessment,簡稱IQA)適用多個州和地區(qū),涵蓋多個學科領域,針對不同學科都有與之相對應的評價內容和評估標準。IQA評估系統(tǒng)具有良好信效度、較強可操作性,研究表明IQA評估結果與學生學業(yè)成就呈正相關。⑥Boston, M. D., Colby, G. Identifying meaningful aspects of mathematics instruction[R]. Paper presented at the annual meeting of the American Education Research Association, New Orleans, 2011: 18-27.美國中等數學教學機構項目(The Middle School Mathematics and the Institutional Setting of Teaching,簡稱MIST)采用IQA為研究工具,調查4座城市共計114節(jié)數學課,發(fā)現課堂教學質量與教師教齡、課程標準使用時間、教師專業(yè)發(fā)展支持均呈正相關。⑦Melissa D. Boston, Anne Garrison Wilhelm. Middle School Mathematics Instruction in Instructionally Focused Urban Districts[J].Urban Education, 2017(52): 829-861.不少研究者以IQA作為教師專業(yè)發(fā)展監(jiān)控框架,通過IQA指標判斷教師專業(yè)技能變化趨勢,以此評估教師專業(yè)培訓效果。①Boston, M. D., Smith, M. S. A ‘task-centric approach’to professional development: Enhancing and sustaining mathematics teachers’ ability to implement cognitively challenging mathematical tasks[J].ZDM: International Journal of Mathematics Teacher Education, 2011(43): 965-977.②Candela, A. G. Mathematics teachers’ perspectives on professional development around implementing high cognitive demand tasks. In: C. Martin, D. Polly (Eds.). Handbook of research on teacher education and professional development[M].Hershey, PA:IGI Global, 2017:538-560.③Sztajn, P., Wilson, P. H., Edgington, C., Confrey, J. Learning trajectories and key instructional practices. L.R. Wiest, T.d.Lamberg (Eds). Proceedings of the 33rd annual meeting for the North American Chapter for the Psychology of Mathematics Education[M]. Reno: Nevada, 2011: 434-442.坎德爾(Candela)和波士頓(Boston)等人的研究均表明,IQA框架本身可用于指導教師專業(yè)發(fā)展,教師在理解IQA評價理念、評價內容和評價標準后,通過相應的實踐培訓,教學能力得到顯著提升。④Candela, A. G. Using the Instructional Quality Assessment observation tool in a professional development capacity. M.B.Wood,E.E.Turner, M Civil, J.A.Eli (Eds). Proceedings of the 38th annual meeting for the North American Chapter for the Psychology of Mathematics Education[M].Tucson: AZ, 2016: 418.⑤Melissa D. Boston, Amber G. Candela. The Instructional Quality Assessment as a tool for reflecting on instructional practice[J].ZDM: International Journal of Mathematics Teacher Education, 2018(50):427-444.本文詳細介紹IQA的研發(fā)基礎、系統(tǒng)結構和特點,探討教學質量評估系統(tǒng)對我國課堂教學研究和教師專業(yè)發(fā)展的借鑒意義。
20世紀80年代初,美國國家卓越教育委員會(National Committee on Excellence in Education)頒布《國家危機》(A Nation at Risk)法案,強調制定學生學業(yè)成就和教師教學質量評價標準的迫切性和重要性,正式拉開美國基于標準(Standards-based)的教育改革運動序幕。隨后,美國聯邦政府出臺的《美國教育:2000年目標》(Goals 2000:Educate America)、《不讓一個孩子掉隊》(No Child Left Behind)法案中均明確指出,教師教學質量是學生能力發(fā)展和知識獲得的關鍵因素,需要進一步加強和完善教師專業(yè)發(fā)展和教學質量評價工作。奧巴馬政府十分關注教師教學效能,制定了《力爭上游》(Race To The Top,簡稱RTTP)、《教師激勵基金》(Teacher Incentive Fund,簡稱TIF)等一系列以教師教學評價為主體的政策法案,鼓勵高校和科研機構研制開發(fā)教學質量評估系統(tǒng),并對各州教師評價和教師專業(yè)發(fā)展項目提供大量財政撥款。美國國家研究協(xié)會 (National Research Council,簡稱NRC)認為,不能僅通過某一段時間內學生學業(yè)成就上的變化考察教師的教學質量,一些有效的教學指導可能無法體現在標準化測試中,效能高的教師能夠對學生學習能力的提升產生深遠影響。⑥National Research Council. Incentives and test-based accountability in public education [M].Washington, DC: National Academies Press, 2011: 58-60.與此同時,以學生學業(yè)成就為導向的教學質量評估模式,由于無法直接解釋和改進教學中的不足,開始受到教育界的廣泛質疑,⑦Pianta, R. C., Hamre, B. K. Conceptualization, measurement, and improvement of classroom processes: Standardized observations can leverage capacity. Educational Researcher[J], 2009(38):109–119.以課堂觀察為基礎的評估系統(tǒng)成為評價教師教學質量和提高教師專業(yè)能力發(fā)展的重要方式,①Stein, M. K., Matsumura, L. C. Measuring instruction for teacher learning[M]. CA: Sage, 2008: 179-205.IQA在這個大背景下快速發(fā)展。
IQA研發(fā)者在研制系統(tǒng)框架時,以美國國家研究協(xié)會最新發(fā)布的研究報告《人如何學習:大腦、思維、經歷和學?!罚℉ow People Learn: Brain, Mind, Experience, and School)為準則,②Bransford, J. D., Brown L., Cocking, R. R., (Eds). How people learn: Brain, mind, experience, and school[R]. Washington, DC:The National Academics Press, 2000: 1-374.并參考前沿的教育教學理論,提出“四個中心”研制基礎,分別是“學習者中心(Learner-Centered)”“知識中心(Knowledge-Centered)”“任務中心(Assessment-Centered)”和“共同體中心(Community-Centered)”。學習者中心指教師清楚了解學生已有認知,幫助學生架構新舊知識間的聯系,有意識地將元認知教學融入課程,培養(yǎng)學生自我監(jiān)控和自我決策能力。知識中心要求教師深入全面理解所教學科的內容知識,在教學過程中提供足夠實例幫助學生掌握學科核心概念和解決復雜問題。任務中心指教師需要幫助學生明確教學目標,讓學生清楚知道自己應該掌握和能夠習得的內容,布置的任務和作業(yè)不能僅停留“識記”層面,要注重考查學生問題理解和解決能力,任務設計滿足學生高認知水平要求。共同體中心要求教師在教學過程中營造學生積極探討和思考的學習氛圍,建立互幫互助、共同進步的學生學習共同體,學生在共同體中充分表達、傾聽、交流想法意見,鍛煉協(xié)同合作與交流能力。在“四個中心”理論基礎上,IQA梳理總結前人的課堂觀察和教學評估工具,形成評估系統(tǒng)框架和評估要點。IQA主要借鑒由美國匹茲堡大學主持的一項國家層面的教育改革項目“定量理解:提高學生學業(yè)成就和推理能力(Quantitative Understanding: Amplifying Student Achievement and Reasoning,簡稱QUASAR)”。③Melissa Boston. Assessing Instructional Quality in Mathematics[J].The Elementary School Journal, 2012 (01):76-104.QUASAR可以被認為是當時最有實證基礎的評價體系,具有學科針對性,采用以量化為主的方式記錄分析課堂活動,分維度評估課堂教學質量,④Johansson S, Myrberg E. Teacher specialization and student perceived instructional quality: what are the relationships to student reading achievement?[J]. Educational Assessment, Evaluation and Accountability, 2019 (04): 28-41.但仍存在兩方面的不足:(1)QUASAR側重于對任務本身設計與實施的評估,沒有充分體現學習共同體的形成和發(fā)展;(2)QUASAR的教學觀偏向以教師為中心的課堂,缺少學生自我監(jiān)控、決策等能夠體現學生自主能動性的評估指標。因此,IQA研究者刪除QUASAR中理念陳舊的觀測點,補充有關學生自主能動性和學習共同體的條目,形成IQA課堂觀察評估工具。同時,IQA還增加師生訪談和教學資料的收集,作為教師課堂觀察的補充材料,共同作用評估教師教學質量。
IQA教學質量評估框架主要用于評估者現場聽課和對教師提交資料的評價。不同于教學視頻錄像可供研究者多次反復觀看,現場聽課具有較強的信息及時性,需要評估者快速準確捕捉評估要點,因此IQA具有較少的評估維度和子維度,且每個子維度的水平區(qū)分十分清晰,便于打分者快速作出恰當判斷,提高工具的信效度。IQA評估要點分為三個維度:任務認知需求(Cognitive Demand of Task)、解釋性話語(Accountable Talk)和教師期望(Teacher Expectations),每個維度包含2–5個子維度作為評分要點。表1①Overview of the Instructional Quality Assessment[EB/OL]. [2020-06-12]. http://d-scholarship.pitt.edu/26 209/.以數學學科為例,列出IQA的評估維度、子維度和各個子維度的評估要點,包括對現場課堂教學和教師提交材料的評估,其中解釋性話語維度只用于評估教師現場課堂教學。
表1 IQA評估維度及現場課堂教學和教師提交材料評估要點
IQA以量化評分方式為主,結合質性評分依據,通過多種教學質量相關材料的收集,采用課堂觀察、問卷、訪談和作品分析的方法,確保評估者能夠準確、高效地進行教學質量評價。評估任務主要包括三項:教師教學現場觀察、師生訪談和教師提交資料。其中教師訪談發(fā)生在課后,學生訪談發(fā)生在課堂進行中,訪談的目的是幫助評估者更好理解課堂活動,這部分內容將作為依據補充,使評估者能夠更為合理地對現場教學進行評估。
任務一:教學現場觀察。每位評估者需要觀察參評教師連續(xù)兩節(jié)課(每節(jié)課約45分鐘)的現場教學。參評教師在每節(jié)課被觀察之前,需要完成一份問卷,簡要描述教學目標、教學活動和班里學生情況,幫助評估者對教學任務設計進行初步判斷。在正式觀察過程中,評估者利用IQA現場教學評估框架對全部的10個要點進行打分。每個觀測點分為四個水平,由低到高分別對應1-4分:水平1為最低水平,表示在該子維度教學表現最不符合評分標準,水平2表示教學在該子維度表現基本合格,水平3表示該子維度教學表現良好,水平4代表在該子維度上教學應該呈現的理想狀態(tài)。如果課堂中某個子維度觀測點未出現或無法判斷,則用N/A(Not Applicable)表示“不適用”或N/K(Not Known)表示“不確定”。評估者除了對教學質量量化打分外,還需要在觀測要點旁邊簡要記錄打分依據。
任務二:師生訪談。教師訪談:評估者在課后馬上對教師作一個簡短訪談,主要是獲取教學設計和實施的背景信息,了解教師出于何種原因設計教學目標和教學過程,教學設計和實施間是否存在差異,存在差異的原因是什么。以此幫助評估者更深入了解教師的課堂教學,給出最為合理正確的評估分數。學生訪談:評估者在上課過程中(一般在學生處理教師布置的教學任務時)對學生進行3-5分鐘的訪談,主要考察學生學習管控能力和是否清楚了解教師所布置的任務中對學生完成情況的期望水平。訪談問題包括“你覺得你現在完成的任務還能夠進一步完善么”“如果我是班里新來的一個學生,你能告訴我如何順利解決老師提出的這個問題么”等。師生訪談結束后,評估者給出教師現場教學的最終得分。
任務三:教師提交資料。每位被評估教師提供4份學生作業(yè),其中兩份是教師認為對學生有特殊挑戰(zhàn)性的(Especially Challenging)作業(yè),另外兩份為學生近期完成的作業(yè)。教師將每份作業(yè)裝訂成冊,并撰寫封面,封面包括留該份作業(yè)的目的和評分標準,作業(yè)對今后的教學有什么幫助,學生完成該作業(yè)過程中能夠獲得怎樣的自我學習審視機會,對學生自我決策能力和思維發(fā)展有怎樣的提高。教師還需要提供學生作業(yè)中低、中、高三個不同水平的典型案例各兩份。評估者采用IQA教師提交材料維度框架對此打分,評估子維度為現場教學評價框架10個子維度中的5個,評估要點的具體內容表述與現場教學版相比稍有不同。
IQA教學質量評估系統(tǒng)在使用過程中需要遵循四個原則:(1)評估不僅考核教師教學質量,還要以提高教師教學能力為根本目的;(2)評價要緊密圍繞“四個中心”,設計能夠滿足學生認知需求的教學任務,并有效實施,關注學生思維能力的發(fā)展,培養(yǎng)學生合作交流和批判創(chuàng)新能力;(3)被評估教師能夠通過評估框架、評估過程與結果清楚了解自身教學存在的優(yōu)勢和不足,明確提升的目標與方向;(4)評估工具需要具備良好的信效度。
IQA教學評估系統(tǒng)具有一定的主觀性,為了保證評估效果的合理性,研究者設置如下保障機制:多種方法相結合的數據收集方式、系統(tǒng)的評分者培訓模式、標準化的評估體系和詳細的評分示例。其中第一種效果保障機制已在前文論述,此處主要介紹后三個方面。
1. 評分者的選擇與培訓
IQA的評分者可以是中小學一線教師、教研員、教學督導或大學教師,但要求對所評估學科的本體性知識有一定了解,除此之外對評分者教學年限、職稱、學歷、培訓經驗等并無嚴格要求。IQA評分者要參加為期4天左右的資格培訓,具體培訓流程如下:首先,培訓專家組織評分者學習IQA開發(fā)背景和評估理念,了解IQA評估框架、維度與相應評估要點;接著,培訓專家通過課堂和作業(yè)實例分析各評估要點的得分表現,對水平接近 (如水平3和水平4)的實例進行重點分析,解讀異同;之后,評分者分以小組為單位觀看教學視頻,分析教師提交的資料,在組內討論其得分表現,小組成員討論后存在異議的地方征詢培訓專家意見,直至組內所有成員意見達成一致;最后,以個人為單位單獨對教學視頻和文本材料打分,同一組材料由3人或以上進行評估,對于組內評分不一致的維度,若集體討論后仍無法說服對方,則須由培訓專家一起參與討論。在此過程中,受訓者的評分依據由最初的模糊變得逐步清晰,如一位評分者在培訓之初評估“教師引導”時,給出的依據既不清晰又缺乏自信,“呃,教師應該是在學生討論前說了些什么……來引導學生討論,就在教師讀完課文的時候”,而在培訓快結束時,該評分者可以給出十分具體有說服力的評分依據:“教師一直鼓勵并追問學生‘你是怎么想的?能給我們一個具體例子來說明你的理解么?’以此來引導學生表達論述自己的觀點。 ”①Amy C. Crosson, Melissa Boston, Allison Levison, Lindsay Clare Matsumura, Lauren B. Resnick, and Mikyung Kim Wolf.Beyond Summative Evaluation: The Instructional Quality Assessment as a Professional Development Tool[R]. Annual Meeting of the American Educational Research Association Meeting, San Diego, CA, 2004: 11-12.評分者在反復實例操練討論過程中熟悉評分標準,掌握區(qū)分評估要點中不同水平的行為表現,在獲得培訓專家認可后,正式擁有IQA評分資格。
2. 標準化的評估體系
為了最大限度提高IQA的信度和效度,IQA使用手冊中詳細描述每個評估要點概念,多數評估要點的不同水平表現都有數字化指標加以區(qū)分,幫助評估者快速準確判斷教學質量在某個子維度所處的相應水平,具有較強的可操作性和客觀性。以“解釋性話語”維度中的觀察要點“學生反饋”為例,其四個水平的標準如下:
水平4(4分):班里有3個或以上的學生能夠解釋和論證自己的觀點,且具有較強的邏輯性。
水平3(3分):班里有1-2個學生能夠解釋和論證自己的觀點,且具有較強的邏輯性。
水平2(2分):學生嘗試解釋和論證自己的觀點,但表述不恰當且邏輯性不強。
水平1(1分):學生只能給出某些想法,但無法解釋論證自己的觀點。
3. 詳細的評分示例
為了便于評分者準確理解和使用評分標準,IQA手冊中詳細列舉了不同水平的表現行為,用實例描述的方式具體解釋每個評分要點不同水平間的區(qū)別。以數學學科“任務需求”維度中的觀察要點“任務潛能”為例,其四個水平的詳細示例如下:
水平4(4分):設計的任務能夠幫助學生理解和探索數學概念、程序和關系的本質,譬如做數學(Doing Mathematics)和程序間建立聯系(Procedures with Connections)。做數學指運用復雜的非算術思想解決非常規(guī)問題,程序間建立聯系指將一般方法應用于具體問題解決。任務中有能明確促進學生理解和思考的表述或指示,如要求學生解釋為什么選用某個方法解題;圖形找規(guī)律并證明規(guī)律一般化;用數學語言建立并證明表征、策略與數學概念或程序間的聯系等。
水平3(3分):設計的任務能夠引發(fā)學生深層次思考,形成建立數學概念、程序間聯系的意識,然而該潛在任務沒有達到水平4是由于:任務中沒有明確促進學生理解或思考的表述或指示;任務雖然要求學生做數學或建立數學程序間的聯系,但是任務中的數學內容不適合所教學生的學情(如對學生而言太簡單或者太困難的題目都無法促進學生高認知水平發(fā)展);要求學生找圖形規(guī)律,但并未要求學生證明或推廣規(guī)律至一般化;要求學生用多種策略或表征解決問題,但并未明確要求學生建立所用策略或表征間的聯系;只要求學生猜想推測,并未要求學生給出數學解釋或理由。
水平2(2分):潛在任務中沒有要求學生建立數學概念或數學解題思想間的聯系,任務僅聚焦于正確答案的獲得(如解決常規(guī)問題、重復練習計算等),而非學生數學思想的形成與發(fā)展,或者任務中的數學內容低于學生現階段能力要求兩個年級以上。
水平1(1分):潛在任務幾乎無法促進學生對于數學概念、公式、規(guī)則和性質的識記和理解。任務不要求學生建立概念、公式、規(guī)則和性質間的聯系。
例如題目:下圖中每個圖形均由邊長為1的正六邊形拼成,計算前四個圖形的周長,不畫圖推斷第5個圖形和第10個圖形的周長。
分析:該任務要求學生根據圖形找規(guī)律,依舊停留在對學生具體形象思維的要求階段,并未要求學生證明或推廣規(guī)律至一般化,也未要求學生給出數學解釋或理由,因此處于“任務潛能”指標的水平3。若題目要求學生給出第N個圖形的周長,并給以證明,加強對學生抽象思維的培養(yǎng)和拓展,則此任務在“任務潛能”方面能達到水平4。
IQA采用科學嚴格的評分者培訓流程和標準化的評估體系,并詳細列舉不同水平的行為表現和相近水平的區(qū)別,使評分者充分理解其評估維度與要點,保證教學質量評估過程中的可信度和有效性。已有研究表明,IQA在使用過程中具有良好的內部一致性,能夠反映被測評教師教學的水平。①Lindsay Clare Matsumura, Sharon Cadman Slater, Mikyung Kim Wolf, Amy Crosson, Allison Levison, Maureen Peterson,Lauren Resnick. Using the Instructional Quality Assessment Toolkit to Investigate the Quality of Reading Comprehension Assignments and Student Work[R]. National Center for Research on Evaluation, Standards, and Student Testing (CRESST), Los Angeles, CA.2006: 1-57.②Anne Garrison Wilhelm, Sungyeun Kim. Generalizing From Observations of Mathematics Teachers’ Instructional Practice Using the Instructional Quality Assessment[J]. Journal for Research in Mathematics Education, 2015, 46(3): 270-279.
美國IQA教學質量評估系統(tǒng)以“四個中心”為基礎,從任務認知需求、解釋性話語和教師期望三個維度(包括10個觀測點)出發(fā)評價教師教學質量,聚焦影響教學質量的關鍵屬性。教學發(fā)生場所為課堂,包括教師講授、師生互動、生生互動等多種行為表現,具有復雜的情境性和社會性,包羅要素繁雜。IQA評估框架注重教學實質,剔除形式化的教學表現(如是否使用多媒體技術、是否組織小組活動)為評估切入點,弱化無法直接體現學生思維發(fā)展和知識獲得的觀測點,以學生產出為導向,聚焦少數起決定因素的關鍵評估要點?!吧俣钡脑u估要點能夠幫助評估者更為準確掌握評價標準,在稍縱即逝的課堂教學活動中快速判斷教學水平,提高評估工具的信效度。同時,也能夠幫助教師更好理解教學意義,提升學生能力發(fā)展水平。
美國IQA教學評估是一個“分科化”的評價系統(tǒng),它針對不同學科分別研制相應的評分標準,每個學科教學質量的評估都擁有其獨有的“學科性”特質,使評估能夠更為準確、科學地反映不同學科教師在各自學科的教學情況。IQA評分者要求具有一定的相關學科背景知識,經過嚴格的培訓和資格認定后才能正式成為IQA評估者。IQA手冊含有豐富詳細的評估實例,用于描述每個水平的表現形式和觀測依據、解釋相近水平的差異特征。在IQA正式投入使用前,共有124名學科專家對評估框架的合理性和有效性進行審核;超過200名教師作為預研究對象,研究結果顯示IQA具有良好的評分者內部一致性,并且能夠真實客觀反映所評估學科的教學質量。③Brian Junker, Yanna Weisberg, Lindsay Clare Matsumura, Amy Crosson, Mikyung Kim Wolf, Allison Levison, Lauren Resnick.Overview of the Instructional Quality Assessment[R]. The Regents of the University of California, 2006: 14-29.專業(yè)化的評估工具和科學嚴謹的使用流程保證了評分系統(tǒng)的信效度,加強了評價效果的科學性與權威性。
評估系統(tǒng)將課堂觀察、訪談、問卷和作品分析等方法相結合,利用“三角互證”的思想搜集評估證據,力求保證評估信息的全面真實性。研究表明,教師在被隨機抽取的某一節(jié)課中的表現,往往難以全方位展現其真正的教學水平,被評估的課越多,教師的教學表現越趨于穩(wěn)定,但若增加其他相關資料加以輔助評估,則可在一定程度上降低評估的課時數。①Clare, L., Aschbacher, P. Exploring the technical quality of using assignments and student work as indicators of classroom practice[J]. Educational Assessment, 2001 (07): 39-59.IQA評估參評教師的連續(xù)兩節(jié)課,同時通過問卷、師生訪談等方式更好了解教學目標、教學任務和教學效果,幫助評估者快速準確掌握教學活動目的與表現,了解更為真實的課堂。教師提交的學生作業(yè)能夠進一步反映學生的思維發(fā)展和知識獲得,是對教學效果的深層次檢驗。教師提交學生作業(yè)低、中、高三個不同水平的典型案例各兩份,能夠反映教師自身對任務所能達到的不同認知需求的理解,了解教師所認為的高水平思維表現。多元化的評估方式,多角度的證據累積,能夠提高教學質量評估的真實度與可靠性。
IQA評估系統(tǒng)研發(fā)的初衷便是為了解決教育評價界中存在的工具單一診斷性目的,而面向評估系統(tǒng)帶來的改善性和導向性功能。IQA使用原則中要求評估不僅是對教師教學質量的考核,應主要基于提高教師教學能力的發(fā)展性目的,被評估教師能夠通過評估框架、評估過程與結果清楚了解自身教學存在的優(yōu)勢和不足,明確提升的目標與方向。教師可通過IQA評估要點了解優(yōu)秀課堂教學的行為表現,利用豐富的不同維度水平的實例學習,尋找自身教學中存在的差距,例如一位語文教師在提問學生回答時總會說 “你的答案是什么”,在學生給出答案后便不再追問,在學習IQA評估手冊后,他發(fā)現可以利用進一步的追問如 “你為什么這么說”或“關于這個問題還能夠多說一些你的想法么”等,來鼓勵學生充分闡釋答案背后的想法與思考,鍛煉學生科學化與邏輯性思維。IQA能夠幫助教師明確教學手段和策略,使有效的教學方式成為一種有意識的教學行為。研究表明,IQA評估系統(tǒng)在幫助教師自我測評,提升專業(yè)能力發(fā)展方面效果顯著。②Dole, J. A. Professional development in reading comprehension instruction. A.P. Sweet, C.E. Snow (Eds.), Rethinking reading comprehension[M]. New York: Guilford Press, 2003: 145-150.
當然,任何評估系統(tǒng)都會存在自身的局限性,IQA評估系統(tǒng)在擁有上述優(yōu)勢的同時,也存在一些不足,主要體現在:(1)IQA采用課堂教學現場觀察方式進行評估,與視頻錄像相比,雖然前者能夠大幅降低設備費用、后期分析成本、保護被評測教師隱私等,但無法用于某些教學片段的反復推敲,較為依賴評估者對關鍵信息的捕捉能力;(2)目前已有版本適用科目有限,IQA具有學科針對性,不同學科的系統(tǒng)維度和評估要點具有一致性,但是一些評估要點的水平描述會體現其學科屬性,IQA評估學科的廣泛性還需進一步拓展;(3)IQA采用與學生學習表現直接相關的維度作為評估指標,精要的評估指標提高了該工具的信度和可操作性,但是難以對教學細節(jié)做到準確的呈現與刻畫,如教師語言是否存在科學性錯誤、教師板書呈現是否合理、教師提問是否清晰明確等;(4)IQA需要研究者觀察參評被評估教師連續(xù)至少兩節(jié)課(每節(jié)課約45分鐘)的現場教學,再結合訪談、問卷、作品分析等多元化相關資料,呈現被評估教師教學質量的具體分析報告。這導致該評估工具難以適用于教學時長較短(一般介于15-45分鐘)的教師技能大賽,在一定程度下限制了IQA評估工具的實際推廣度。
教學質量評估應聚焦于能夠反映教學實質的維度和指標,剔除形式化非本質的行為觀測。評估要點“少而精”的優(yōu)勢在于,一方面幫助評估者快速精準把握課堂教學質量,提高評估信效度;另一方面幫助被評測教師有針對性地了解自身教學表現,理解“什么是一堂好課”的本質,將評估要點貫穿于教學設計、教學實施和反思之中。心理學研究表明,繁瑣復雜的評估指標不利于人類記憶和使用,會在一定程度上降低其推廣性和使用成效。①Alan H. Schoenfeld, Robert Floden, Fady El Chidiac, Dennis Gillingham, Heather Fink, Sihua Hu, Alyssa Sayavedra, Anna Weltman, Anna Zarkh. On Classroom Observations[J]. Journal for STEM Education Research, 2018, (01): 34-59.目前我國的教學評估系統(tǒng)正處于快速發(fā)展中,評估指標依然存在如下問題:一是評價維度基本是對教學過程要素的分解,將“教學目標”“教學內容”“教學方法”“教學過程”等評價指標簡單羅列,看似覆蓋了課堂教學的方方面面,但是卻沒有抓住有意義教學的本質特點,不能很好揭示各個指標間的內在聯系,難以體現教學的整體效果;二是評價子維度過多且繁雜,有的評估系統(tǒng)甚至包含50個以上評估要點,②陳佑清, 陶濤.“以學評教”的課堂教學評價指標設計[J].課程?教材?教法, 2016, 36(01): 45-52.③郝志軍. 中小學課堂教學評價的反思與建構[J].教育研究, 2015(02): 110-115.容易造成評分者脫離評分具體指標,依靠原有經驗打分,失去評分指標體系的意義和價值。我國可以借鑒IQA教學質量評估系統(tǒng)的指標設計,縮減精華評估指標,抓住教學本質,突出教學有效性,提高評估系統(tǒng)的可操作性和應用價值。
不同學科的優(yōu)質課堂教學存在一定共性,如鼓勵激發(fā)學生深層次思考,培養(yǎng)學生表達交流能力等,但也都具有其學科的獨特屬性和核心素養(yǎng),如數學能夠鍛煉學生運算能力,語文則需要培養(yǎng)學生的文化傳承與理解。分科化的評估工具能夠更為精準地把握所評估學科的教學質量,通過對評估要點不同水平的具體學科表現描述,使評估具有更強的專業(yè)性和可操作性。我國現有的教學質量評估系統(tǒng)多數不具有學科特色,④韓繼偉, 張曉霞. 美國教師教育專業(yè)認證及啟示[J].數學教育學報, 2018, 27(02): 3-9.這就使得評價工具看似學科普遍性很高,適用范圍很廣,實則難以把握學科特有育人價值和核心能力培養(yǎng),削減評估結果的專業(yè)化價值。除此之外,我國教學水平評價者存在學科專業(yè)化程度不高的現象。正如沒有人能夠教自己不熟悉的知識一樣,也沒有人能評價自己不了解的學科。①黃曉, 孫麗偉. 小學科學教學設計的規(guī)范化和學科化[J]. 全球教育展望, 2014(04): 111-120.因此,需要具有所評學科專業(yè)背景的人員,在經過嚴格的評估培訓、對學科知識有深層次把握后,方可合理使用分科化的評估工具,保障評估結果的專業(yè)性和權威性。
我國目前對課堂教學質量的評估方式主要有以下四種:以學生學業(yè)成就為導向的結果性評價、教師教學能力水平紙筆測試、學生對教師教學評價的問卷測量和課堂教學觀察。②趙軒. 基于多元化理論的中小學教師資格考試數學學科試卷質量分析[J]. 數學教育學報, 2018, 27(02): 38-40.學業(yè)成就的結果性評價無法反映教學發(fā)生的真實過程,難以對教師教學提供有效反饋和指導,且容易讓教師為了提高學生分數而采用“應試”教學,不利于學生素養(yǎng)的全面發(fā)展;教學能力水平紙筆測試則更多考察知識點和結論性內容,教師對學科內容的熟練掌握和教學理論的清晰解讀,與其課堂教學實施能力有時并不具有一致性。課堂教學考察的是教師在實際情境中,對學科內容知識、教學法知識、學習者知識等的綜合運用能力,無法脫離真實教學場景的存在;單一學生視角的問卷測評,由于受限于學生自身知識水平、學習經驗和主觀感受等因素,難以保證對教師教學水平的真實呈現。以課堂觀察為基礎進行教學評估,輔以專業(yè)的評估團隊,采用多元化的評價方法,才能保證教師教學水平的真實展現,維持評價的內在價值??梢钥紤]借鑒IQA的評估模式,以課堂觀察為主體,同時采用訪談、問卷、作品分析等多元化的方式,從不同角度搜集評估證據,幫助評估者了解更為真實的課堂行為,包括行為背后的原因、行為效果等,結合評估框架對教師教學表現給出準確合理判斷。
美國IQA教學質量評估系統(tǒng)著重于提升教師課堂教學實踐能力的發(fā)展性評價。近年來,教育測評的評估理念逐漸由“對學習的評價(Assessment of Learning)”,轉變?yōu)?“促進學習的評價(Assessment for Learning)”③Assessment Reform Group. Assessment for Learning: 10 Principles-research-based Principles to Guide Classroom Practice[EB/OL]. [2020-02-18]. http://k1.ioe.ac.uk/tlrp/arg/CIE3.和“評價即學習(Assessment is Learning)”。④Alonso-Tapia, Jesus, Garrido-Hernansaiz, Helena. Assessment for Learning: Assessment of Non-Written Sources Understanding[J].Electronic Journal of Research in Educational Psychology, 2017, 15(01): 168-182.教學評價不再僅是教師評比、晉升的手段,研究者普遍意識到其改善發(fā)展性功能,使之成為教師專業(yè)成長的必要助力。⑤鐘啟泉. 課堂評價的挑戰(zhàn)[J].全球教育展望, 2012(01): 10-16.課堂教學評價標準構建的合理性標準在于對課堂教學實踐具有很強的解釋力和指導力。⑥裴娣娜. 論我國課堂教學質量評價觀的重要轉換[J].教育研究, 2018(01): 17-29.我國在開發(fā)研制教學質量評估系統(tǒng)時應始終貫穿“以評促教,評價即學習”的理念,將提高教師專業(yè)發(fā)展作為評價的首要目標。首先,評價指標要去形式化,注重教學質量本質,加強對教師專業(yè)發(fā)展的導向性;其次,評估要點的不同水平要包含豐富詳細的實例,在幫助教師利用評估系統(tǒng)進行合理自評的同時,指明更高水平的行為表現,作為教師教學改進方向和指導依據;最后,參評教師要在評估者的幫助下理解評估理念與目的,避免“作秀式”課堂,充分利用評價過程剖析自身教學上的優(yōu)勢與不足,進行深度教學反思,提升教師專業(yè)發(fā)展。