劉鐵川 王閃閃 尤晨晨
〔摘要〕由于傳統(tǒng)的教師評價方法忽略了學生的起點及背景因素對學習成果的影響,增值評價引起了國內外教育工作者的廣泛重視。然而,在研究和實踐中增值評價方法的局限也日益明顯,尤其美國統(tǒng)計協(xié)會關于增值評價使用的聲明引起了普遍關注。本文結合近年來國內外增值評價研究的最新觀點,分析了使用增值評價模型評價教師效能時的優(yōu)勢與不足,并給出了實踐應用時的一些建議。
〔關鍵詞〕教師效能;增值評價;高利害;問責制
〔中圖分類號〕G451.1 〔文獻標識碼〕A 〔文章編號〕1671-2684(2018)07-0011-05
一、引言
傳統(tǒng)教師評價方式極少考慮學生基線水平,過分依賴于平均分、優(yōu)秀率、及格率、排名、上線率等單一的、終結性的指標。然而,很多影響學生最終學業(yè)成就的因素不受教師或學??刂疲缂彝ケ尘?、社會經濟地位等。因此,傳統(tǒng)的教師評價方式極易挫傷教師的教學積極性,誤導教師忽略學習基礎差的學生,造成學校之間搶奪生源等惡劣影響。
事實上學生成績是學生個人、學校、教育政策系統(tǒng)等多個層次上的多種因素相互作用的結果。增值評價模型(Value-Added Models,VAM)可準確區(qū)分不同層面、不同因素對學生學業(yè)發(fā)展所起的作用,并得出各個因素所做的貢獻[1],因此在近年來的教育效能研究中引起廣泛重視。目前增值性評價的主要統(tǒng)計方法有概要統(tǒng)計模型(描述統(tǒng)計分析)、多元線性回歸分析(將學生或學校層面的各種影響因素納入到統(tǒng)計模型中加以分析)和多水平分析模型(通常將學生水平作為第一層,學校水平作為第二層)。雖然統(tǒng)計方法不同,但基本思路都是:增值=輸出值-輸入值。這里的輸入和輸出指的都是標準化測試成績,對所有的學校和學生使用相同的程序,再使用復雜的統(tǒng)計模型得出教師的增值分數。VAM中納入了更多的影響學業(yè)成就的因素,使用較復雜的量化模型來分析教師對學生的標準化測驗成績,因此比其他評價方式得到的結果更具客觀性和權威性[2]。
英美國家率先引入增值評價模型來評價教師效能,由威廉·桑德斯(William L.Sanders)教授及其團隊創(chuàng)立的田納西州增值評價系統(tǒng)(Ten-nessee Value-Added Assessment System,TVAAS)是最早的也是目前發(fā)展比較完善、應用廣泛的增值評價系統(tǒng)。緊隨美國之后,1967年的“普洛登報告”使教育公平問題受到高度重視,這是英國增值評價的起點。國際上關于教師增值性評價在廣度和深度上進行了大量的模型理論探討和實證研究,在合理利用其優(yōu)勢的同時也在逐步完善和修正它的不足之處,而且越來越重視它在教師評價中的地位。在“力爭上游”(Race to the Top)教改計劃“再投資法案”(Reinvestment Act)“教師獎勵基金”(Teacher Incentive Fund)等政策的支持下,更多的學校把VAM納入到教師評價框架中。經濟合作與發(fā)展組織(OECD)主導的教育系統(tǒng)國際指標項目(INES)也考慮將“增值”評價方法納入到國際教育指標系統(tǒng),以增強國際間學校效能的比較指標的效度,并于2008 年出版了專題報告《測量學習成果的改進:評價學校增值的最佳實踐》,擬在成員國范圍內推廣教育增值評價方法。
國內關于教師增值性評價的研究起步較晚,進展緩慢,理論研究不多,大多是對國外教師增值性評價研究現(xiàn)狀的述評[3]。我國2001年起陸續(xù)有學者研究田納西增值評價體系、增值在國外的應用及對我國的啟示等。2009年后,相關的實證研究增多,從大量相關研究中足以看出我國學者對增值評價的研究熱情和增值評價在我國應用的趨勢。比較有代表性的有王家美等人以江西省上饒市30所高級中學語文學科的評估為例做的增值評估的實證研究[4];熊志權和楊煌(2016)以珠海市香洲區(qū)4年的實踐為例,進行了增值評價的背景意義、實踐效果以及研究困惑的研究;彭湃就教育效能實證研究的前沿方法進行了系統(tǒng)的研究[5]。
增值評價方法的發(fā)展,尤其是評價教師效能的使用,已經在教育領域引起了廣泛的關注并且成為了研究熱點。邊玉芳稱增值評價為一種綠色升學率理念下的發(fā)展性學校評價模式。2000年我國香港特區(qū)政府開始以增值評價法為基礎建立香港學校增值資料系統(tǒng)(School Value Added Information System,SVAIS),每年為學校的發(fā)展提供年度研究報告。劉娟等人指出,基于增值評價的理念開展學校效能評價,對于推進綠色評價模式發(fā)展,科學、客觀地評價學校教育教學成效具有重要意義[6]。VAM的優(yōu)勢得到了普遍認同,然而其用于高利害決策時的局限很多教育工作者并未有深刻認識。
二、應用增值評價面臨的問題
本研究主要圍繞美國統(tǒng)計協(xié)會(ASA)聲明的內容進行展開論述,通過介紹國內外VAM的最新研究現(xiàn)狀,細致分析其存在的局限,并給出教師效能評價中使用VAM時的一些建議,期待能引起相應教育研究與實踐工作者的重視。
ASA聲明內容主要體現(xiàn)在以下幾個方面。
(1)ASA支持用以提升教育質量的數據、統(tǒng)計模型和實驗設計的明智使用。
(2)VAMs是復雜的統(tǒng)計模型,需要高水平的統(tǒng)計專業(yè)人員來發(fā)展這個模型和解釋他們的結果。
(3)使用VAMs估計方法應附有精確的方法、假設的討論及模型局限性,尤其是將VAMs使用在相關性特別高的高利害目的中時。
(4)應該在質量改進方面看待VAMs。VAMs能夠把歸因于該評估系統(tǒng)的效應同歸因于個別教師、教師資格教育或者學校的效應區(qū)分出來。大部分的VAM研究發(fā)現(xiàn)在測驗分數中教師占這些變異的1%~14%,而在系統(tǒng)水平條件下教學質量有很大提升空間。如果僅通過他們的VAMs分數排名,教師可能意外地降低教學質量。
(一)增值評價的誤差分析
1.使用時達不到理想條件
VAM的典型做法是使用回歸模型的形式預測來自不同背景(包括先前的測驗分數)的學生的標準測驗得分或者增長,在模型中包括教過這個學生的教師。如果一名教師的學生相對于其他有相似起點的學生有更高的成就增長,那么該教師就有一個高的增值得分。
在理想條件下,VAM所使用的測試內容應該在廣度和深度上完整測量學生成就。然而,在實踐中沒有測驗滿足這個嚴格的標準。增值評價最終能否改善或者破壞教師評價效果取決于VAM指標能否精確識別個別教師對學生學習的影響并因此提供教師效能的可靠測量。在技術和實施方面,VAM能夠做到這一點必須滿足幾個條件。
(1)反映出學生成績的測驗能夠很好地測量學生的學習,學生的實際成就沿著一個垂直量表,能夠全面表現(xiàn)出測量相等時間間隔的可能成就。
(2)校內或校際間學生隨機分配給教師,即分配給一名教師的學生群體的學習條件及特征和分配給其他教師的沒有本質區(qū)別。
(3)用來測量增長的這段時期教師是惟一影響學生學習的因素。
當然,這樣的假設不成立,測量學習增長的誤差的程度和把他們歸因于一個特定教師的程度取決于他們多大程度上違反了這些條件以及統(tǒng)計方法多大程度上能夠補救這些問題。一個學生一段時期給定一個科目的學生成績除了和個別教師有關外,還和很多因素都有關系:學校因素,例如班級規(guī)模、所選課程、教學時間、可用的專家、導師、書籍、計算機、實驗室和其他資源;之前的教師和學校,其他現(xiàn)在的教師之間專業(yè)學習和協(xié)同計劃的機會;同伴文化和成績;家庭因素,例如父母協(xié)助家庭作業(yè)、保障飲食和住宿的能力、身體或者精神上的支持或虐待等;個體學生需要、健康和出勤率。鑒于所有這些對學習影響的因素,教師在學生成就變化中只占很小的比例也不足為奇了,一般估計低于10%。
2.模型調整不足引起的誤差
ASA指出從班級差異水平計算VAM分數,在回歸模型中通過背景變量是無法解釋的。這些班級差異水平可能是來自不包括在模型中的其他因素(例如,班級規(guī)模、教授特殊需求學生或者有接受課外輔導的學生)。作為教師貢獻的一種測量,VAM分數的效度取決于采用的特定的回歸模型多大程度上能夠調整那些產生系統(tǒng)影響的其他因素、偏差和教師的VAM分數。例如,天才學生或者在測驗分數中表現(xiàn)收益更少的殘疾人,如果模型不能準確地考慮到他們的情況,可能導致有偏差的VAM分數。
即使使用連續(xù)幾年的數據計算并且在最好的條件下建模,VAM分數本身還是有很大的標準誤,從而使排名不穩(wěn)定。一方面結合連續(xù)幾年的VAM可以減少VAM得分的標準誤。另一方面,當一個模型系統(tǒng)地低估那些工作在特定的環(huán)境或者服務特定類型學生的教師效能時,多年的數據對引起的問題并不起作用,因為系統(tǒng)低估將會出現(xiàn)在每一年的數據中。
3.隨機誤差
隨機誤差意味著增值測量隨時間的不同而產生的不穩(wěn)定性。例如,假期前的分數不能預測學生假期后的分數(假期是否學習)。如果VAM偏差很大或者不可靠,可能導致錯誤的人事決策和資源分配,可能阻止有教師擇業(yè)意向的人進入這個行業(yè)。盡管從統(tǒng)計學家的觀點來看VAM測量有可接受的屬性,對從業(yè)人員而言其復雜的計算和固有的變化性能夠降低表面效度。以Corcoran 為代表的悲觀主義論認為,VAM測量缺乏透明度并且不精確,所以關于VAM測量顯著提高教學效能和專業(yè)質量的潛能顯然是被夸大了。信度是指研究的方法、條件和結果的可重復性、可驗證性。一些偶然誤差,例如標準化考試測量誤差、學生考試期間生病、某一年分配給教師的生源差別大等可以解釋教師增值的不穩(wěn)定。研究發(fā)現(xiàn),學校增值在不同學科間一致性程度較低,基于同一屆學生計算的學校增值在不同年份中缺乏穩(wěn)定性。
(二)問責制下的增值評價
1.濫用的后果
Margaret Wu在針對把學生的測驗分數和教師問責聯(lián)系起來這種現(xiàn)象明確指出了統(tǒng)計濫用的后果。他指出教師問責制不能通過學生測驗分數來建立,因為推斷是猜想而不是證據,而且推斷總是有誤差的。即使控制了學生的社會經濟地位,仍然有學校控制之外的其他因素。對于一個有學習困難的學生,即使它的誤差很小,但是用于評價教師也是無效的,因為與教師表現(xiàn)關系不大。單獨使用統(tǒng)計推斷不能用作任何高利害決策,因為測量得到的是團體效應而不是個體效應,且統(tǒng)計推斷并不意味著采用大量的例子,而是在缺乏其他證據的時候來提供支持的證據。
2.用于決策還是篩選
VAM可能是表現(xiàn)得相對有用的指標,能夠分離出非常高或非常低表現(xiàn)的教師。校長可以充分利用這種信息作為一個早期預警信號或者在極端情況下作為解雇的理由。然而對大量教師來說,VAM作為工作績效指標的使用又是另外一件事情。鑒于VAM固有的不穩(wěn)定性,在高利害系統(tǒng)使用VAM需要保守的設計,比如懲罰和獎勵只針對那些明顯非常高或非常低的表現(xiàn),以及統(tǒng)計一個不確定性的可接受的低水平。一個滿足這些保守標準的VAM系統(tǒng)最后只用在極端的案例中,而對大部分的教師只能提供很小的反饋。這就引出一個問題:除了能夠識別出最差的教師外,VAM還能為校長和其他教育工作者做什么[7]?
三、質量改進和增值模型
(一)加強公眾對增值評價的統(tǒng)計數據的了解
對于VAM分數是怎么來的,為什么能夠用來評價教師對學生成績增長的貢獻,我們要讓被評價的教師理解這種評價方式。可以通過開發(fā)和改進用于教育的統(tǒng)計模型,在設計實驗和解釋統(tǒng)計結果中提供指導,應用專業(yè)知識幫助指導存在不確定性時的判斷。VAM是復雜的統(tǒng)計模型,需要高水平的統(tǒng)計專業(yè)知識,尤其是當VAM成為高利害問責制的一部分時需要使用良好的統(tǒng)計實踐進行解釋,包括模型假設,模型與數據的吻合程度如何,模型各方面估計的靈敏性以及報告估計精度的方法,如置信區(qū)間或標準誤等。當然不能完全單純依賴于統(tǒng)計數據,VAM分數在統(tǒng)計特性上足夠良好不代表就是完美的,我們也要結合使用其他工具。
(二)結合使用其他評價工具
增值使用的一個重大轉變是作為一個“篩選過程”。增值測量可以用來最初識別表現(xiàn)有問題的教師,但是最后決定表現(xiàn)則應該是基于收集的其他信息(例如課堂觀察)。篩選方法能夠避免數據缺失問題和解決教育者對增值測量的其他擔憂,比如增值可以作為防止無度和可提高信度的制衡系統(tǒng)的一部分[8]。教師增值可能不能完全考慮學生追蹤數據(學生轉入和轉出班級),這樣結果就更不穩(wěn)定。因此可以把教師作為教師團隊中的一員來評價,即合作教學的增值評價方法,因其包含更多的學生信息而避免了數據追蹤問題,能夠減少系統(tǒng)和隨機誤差,還可促進每一個團隊內的教師之間的合作和協(xié)調。另外還可以結合使用學校校長觀察和同行評議[9],或者選擇能得到及時的反饋信息從而有助于提高教學質量的課堂觀察。
(三)增值評價學校等級和學生層次的應用建議
大部分的增值研究關注小學,對中學和高中教師有一定的挑戰(zhàn)性[10],因為在小學階段都是同一名教師參與學生大部分的學習時間,因此,更容易把閱讀和數學成績歸因于該教師。蒂莫西·羅杰斯通過研究指出,中學教育中應用到的增值測量技術與用來測量高等教育增值的比較增值法(CVA)類似,并且高等教育增值測量需要更加復雜的技術。張文靜等人用增值法做了教師變量對小學四年級數學成績的影響的研究[11];杜屏和楊中超基于我國西部五省農村初級中學學校效能調研數據的實證分析,在分析學校效能差異基礎上進一步提出了學校是通過學校生源質量、教育教學水平、辦學基本條件共同作用的[12];呂菲(2014)和杜慶(2015)對增值評價法在高職教師專業(yè)發(fā)展中的應用做了一個理論的分析;谷明非(2014)對本科生學業(yè)成績增值評價的可行性分析中發(fā)現(xiàn),將增值評價應用于本科生學業(yè)成績評價的可行性比中小學評價的可行性小得多。當在學校間比較標準測驗的學生表現(xiàn)時要考慮到學習內容,增值的概念在高等教育研究者和學校間存在頗多爭議,盡管學校對學生學習有重大責任,但是也受學校控制之外的學生動機、學業(yè)投入、大學準備度和職業(yè)抱負的影響。當增值排名的結果對學校有一個深遠的影響時,我們提醒利益相關者謹慎解釋增值分數以及學生學習和學校效能之間的關系[13]。
國內許多學校班級之間存在明顯的分層現(xiàn)象,如普通班、重點班、特優(yōu)班等,那么增值性評價是否同樣適用?標準化考試中的“天花板效應”即高分群體增值不明顯,這就可能引導教師更關注那些低分群體。這也有助于生源較差的學校找到自信,只是如何對高起點的學校進行增值評價又成了一個問題。
(四)妥善解釋增值分數結果
原則上每一名教師每一年有一個真實的增值分數,但是我們從未看過“真”分數,而是在合理分數范圍內的單一估計。合理增值分數的范圍——置信區(qū)間——能使得許多教師的分數區(qū)間或者排名大大重疊。因此,我們不能輕易識別許多教師真實的增值分數。當基于增值對教師進行分類時可能出現(xiàn)兩種解釋性的錯誤:對在某種百分比之上但是卻被錯誤地歸類為之下的教師的“假識別”(false identifications);對實際上在某種百分比之下但是被錯誤歸類為之上的“假非識別(false non-identifications)”。錯誤識別教師為閾值之下對教師是有風險的,但是不能識別真正的無效教師對學生是有風險的。通過以下程序可以鑒定真實的增值分數對分類的潛在錯誤的貢獻有多不確定。首先,指定你愿意忍受的錯誤程度,你希望識別的教師群體;然后確定誤識別的分數;最后,指定這一年和下一年增值分數之間的相關[14]。大多數現(xiàn)實世界中的設置,不確定的程度將導致相當大的教師錯誤分類比例。
我們需要進一步了解包括增值測量技術性能的大量信息,比如這些測量如何應用于實踐,包括學生對教師的分配、更激勵性的數據收集的目標和結合其他測量等。是否和怎樣使用VAM取決于實際情況,如政策靈活性和選擇的反響、信息的相關性、測驗知識和技巧的重要性以及VAM的花費、系統(tǒng)計算增值和收集其他信息的能力等[15]。
四、總結
我們不能集中關注VAM的已知缺陷而認可其他教師評價的方法,沒有評價工具是完美的,每一種評價體系都是各種不完美的測量組合而成。對于教師表現(xiàn)的測量,挑戰(zhàn)在于如何提取并結合從其他工具得到的信息[16]。我國學者胡詠梅也看到了美國教師評價的新趨勢,對相對評價、增值評價與課堂觀察評價的融合進行了分析[17]。盡管結合多種測量工具會使測驗結果信效度更高,但是考慮到涉及的方法越多,程序越繁瑣,因此,應當謹慎選擇測評工具。因為要分離出影響學生學業(yè)成績的教師層面的因素并且原始分數要轉化為標準測驗分數才具有可比性,所以本土化教育增值評價的研究趨勢涉及兩個方面的統(tǒng)計技術,一是多層線性模型,二是等值技術。
最后,增值評價在我國不管用于高利害目的還是低風險目的,都沒有相應的法律條文明確它的使用。教育研究者對VAM的重視,教育和評估項目信效度的法律義務需要教育決策者進行進一步研究。與此同時,社會科學工作者也應該拿出更多關于VAM信效度和它的潛在使用的有說服力的證據。對于公共決策者,實施高利害決策的建議是不成熟的。不管它在法律上是否是站得住腳的,VAM作為一個工具對教育改革都有相當大的局限性[18]??傊覀兊淖罱K目的不是評價,而是要提高教學質量。
參考文獻
[1]邊玉芳,王燁暉. 增值評價:學校辦學質量評估的一種有效途徑[J]. 教育學報,2013(1):43-48.
[2]American Statistical Association. ASA statement on using value-added models for educational assessment[M]. Alexandria:VA,2014.
[3]邊玉芳,孫麗萍. 教師增值性評價的進展及在我國應用的建議[J]. 教師教育研究,2015(1):014.
[4]王家美,戴海琦,周延.教育增值評估的實證研究——以江西省上饒市 30 所高級中學語文學科的評估為例[J]. 中國考試,2009(9):3-9.
[5]彭湃,胡詠梅. 學校增值的一致性與穩(wěn)定性——基于多水平追蹤數據的實證研究[J]. 教育研究,2015, 36(7):73-80.
[6]劉娟,高振華,盧志舟,馬春環(huán),李鵬,增值評價在學校效能評價中的應用[J].教育測量與評價,2015(10):18-22.
[7]Corcoran S,Goldhaber D.Value added and its uses:Where you stand depends on where you sit[J]. Education,2013, 8(3):418-434.
[8]Harris D N,Herrington C D. Editors Introduction:The Use of Teacher Value-Added Measures in Schools New Evidence,Unanswered Questions,and Future Prospects[J]. Educational Researcher,2015, 44(2):71-76.
[9]Harris D N. Clear away the smoke and mirrors of value-added[J]. Phi Delta Kappan,2010, 91(8):66-69.
[10]Harris D,Anderson A.Does value-added work better in elementary than in secondary grades?[M]Washington,DC:Carnegie Knowledge Network,2013.
[11]張文靜,辛濤,康春花.教師變量對小學四年級數學成績的影響:一個增值性研究[J]. 教育學報,2010(2):69-76.
[12]杜屏,楊中超.農村初級中學學校效能的增值性評價——基于我國西部五省調研數據的實證分析[J]. 北京師范大學學報:社會科學版,2011(6):91-97.
[13]Liu O L. Value-added assessment in higher education:A comparison of two methods[J]. Higher Education,2011, 61(4):445-461.
[14]Raudenbush S W,Jean M. How should educators interpret value-added scores?What We Know Series:Value-Added Methods and Applications. Knowledge Brief 1[J]. Carnegie Foundation for the Advancement of Teaching,2012.
[15]Loeb S. How can value-added measures be used for teacher improvement?What We Know Series:Value-Added Methods and Applications. Knowledge Brief 13[J]. Carnegie Foundation for the Advancement of Teaching,2013.
[16]Ballou D,Springer M G. Using Student Test Scores to Measure Teacher Performance Some Problems in the Design and Implementation of Evaluation Systems[J]. Educational Researcher,2015, 44(2):77-86.
[17]胡詠梅,施世珊. 相對評價,增值評價與課堂觀察評價的融合——美國教師評價的新趨勢[J]. 比較教育研究,2014(8):008.
[18]Pullin D. Legal Issues in the Use of Student Test Scores and Value-added Models(VAM)to Determine Educational Quality[J]. education policy analysis archives,2013, 21(6):06.
(作者單位:1.贛南師范大學教育科學學院,贛州,341000;2.南昌大學體育與教育學院,南昌,330000)