邊玉芳,孫麗萍
(北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點(diǎn)實(shí)驗(yàn)室,北京 100875)
百年大計(jì),教育為本;教育大計(jì),教師為本。教師是教育教學(xué)的實(shí)施者,是教育活動(dòng)的直接參與者,對(duì)學(xué)生的發(fā)展有非常重要的影響。科學(xué)有效的教師評(píng)價(jià)可合理引導(dǎo)教師工作方向,提高教師工作積極性、工作滿意度和職業(yè)幸福感,從而間接促進(jìn)學(xué)生發(fā)展和教育質(zhì)量提升。建立科學(xué)合理的教師評(píng)價(jià)體系無論對(duì)于教師群體本身還是學(xué)生、乃至整個(gè)國家教育質(zhì)量都至關(guān)重要。
《國務(wù)院關(guān)于加強(qiáng)教師隊(duì)伍建設(shè)的意見》要求“健全教師考核評(píng)價(jià)制度……嚴(yán)禁簡(jiǎn)單用升學(xué)率和考試成績(jī)?cè)u(píng)價(jià)中小學(xué)教師”。我國傳統(tǒng)一般以升學(xué)率或平均分對(duì)教師進(jìn)行評(píng)價(jià),這種評(píng)價(jià)方式存在很多弊端。首先,這種評(píng)價(jià)方式是不公平的。若教師所教的學(xué)生入學(xué)成績(jī)較好、能力較強(qiáng),即使教師的教學(xué)工作不是很突出,也能取得相對(duì)高的升學(xué)率;而若教師所教學(xué)生能力水平較差,即使教師本身的教學(xué)工作很出色,學(xué)生雖然取得了進(jìn)步但可能仍然無法達(dá)到升學(xué)率的要求。由此,教師評(píng)價(jià)往往不能起到引導(dǎo)教師改進(jìn)教學(xué)的作用,反而使得學(xué)校千方百計(jì)爭(zhēng)取好學(xué)生、教師想方設(shè)法進(jìn)入好學(xué)校,加劇了生源大戰(zhàn)和師資分布不均問題。其次,這種評(píng)價(jià)方式也是不準(zhǔn)確的。學(xué)生的學(xué)業(yè)成績(jī)受到諸多因素的影響,如學(xué)生自身能力水平、家庭環(huán)境、班級(jí)環(huán)境、甚至社區(qū)環(huán)境等,升學(xué)率、平均分是這些影響因素共同作用的結(jié)果,無法準(zhǔn)確衡量教師的單獨(dú)貢獻(xiàn)??梢?,傳統(tǒng)教師評(píng)價(jià)模式相對(duì)片面、有失公允,也不夠準(zhǔn)確,無法科學(xué)評(píng)估教師的教學(xué)質(zhì)量。
在英美等國家,一種有別于傳統(tǒng)教育評(píng)價(jià)的評(píng)價(jià)模式—— “增值性評(píng)價(jià)”(value-added evaluation)受到很多研究者和教育實(shí)踐者的關(guān)注,教師增值性評(píng)價(jià)的理念開始被一些國家和地區(qū)應(yīng)用到教師評(píng)價(jià)中。
增值性評(píng)價(jià)最早起源于經(jīng)濟(jì)學(xué)中增值(valueadded)的概念,它要求在評(píng)估“產(chǎn)出”(output)時(shí)考慮“投入”(input)的多少,降低成本、提高收益,追求增值最大化。
教師增值性評(píng)價(jià)是基于一個(gè)特殊指標(biāo)——教師效能(teacher effect),對(duì)教師進(jìn)行評(píng)價(jià)的一種評(píng)價(jià)模式。所謂“教師效能”是指在對(duì)教師進(jìn)行評(píng)估時(shí),通過追蹤教師所教學(xué)生在一段時(shí)間內(nèi)學(xué)業(yè)成績(jī)的變化,運(yùn)用科學(xué)的統(tǒng)計(jì)模型和分析方法排除對(duì)學(xué)生成績(jī)有影響但不受教師控制的因素(如學(xué)生的人口學(xué)因素、原有成績(jī)水平、家庭背景等),來分析教師因素所帶來的學(xué)生學(xué)業(yè)成績(jī)的變化,即教師對(duì)學(xué)生成績(jī)?cè)鲋档?“凈效應(yīng)”。[1-3]
教師增值性評(píng)價(jià)與傳統(tǒng)教師評(píng)價(jià)的區(qū)別主要在于兩點(diǎn):一是“增值”,即關(guān)注學(xué)生成績(jī)的進(jìn)步,而不僅僅關(guān)注學(xué)生的最終成績(jī);二是“凈效應(yīng)”,即將教師的貢獻(xiàn)與其他影響學(xué)生學(xué)業(yè)成績(jī)的因素區(qū)分開,對(duì)教師單純的貢獻(xiàn)加以評(píng)價(jià)。這兩點(diǎn)正是教師增值性評(píng)價(jià)的優(yōu)勢(shì)所在,保證了評(píng)價(jià)的公平性和科學(xué)性。
教師增值性評(píng)價(jià)內(nèi)涵的特殊性決定了教師增值性評(píng)價(jià)相比于傳統(tǒng)教師評(píng)價(jià)的優(yōu)越性,具體來說,主要體現(xiàn)在以下幾個(gè)方面。
1.促進(jìn)教師評(píng)價(jià)的公平性
從理論上講,若要對(duì)教師進(jìn)行絕對(duì)公平的評(píng)價(jià),需將所有學(xué)生隨機(jī)分配,保證每個(gè)教師所教學(xué)生的能力是完全一樣的,并且所有學(xué)生沒有接受家長輔導(dǎo)、課外學(xué)習(xí)等其他非教學(xué)因素的影響,此時(shí)學(xué)生的學(xué)業(yè)成績(jī)完全是教師教學(xué)的結(jié)果,代表了教師真實(shí)的教學(xué)水平。在這種理想情況下,通過學(xué)生的平均分、升學(xué)率等對(duì)教師進(jìn)行評(píng)價(jià)才是公平的。而實(shí)際上,學(xué)生不可能完全隨機(jī)分配,由于學(xué)生擇校、智力能力差異等原因,不可避免地存在生源質(zhì)量差異的問題;且家庭條件、父母教育觀念等的差異會(huì)使得學(xué)生在學(xué)校學(xué)習(xí)之外獲得不同的學(xué)習(xí)、教育機(jī)會(huì)。所以,學(xué)生的學(xué)業(yè)成績(jī)是教師、學(xué)生自身、家庭、社會(huì)等諸多因素綜合作用的結(jié)果,基于此對(duì)教師進(jìn)行評(píng)價(jià)是不準(zhǔn)確的,也是不公平的。
教師增值性評(píng)價(jià)考慮到學(xué)生的起始能力水平的差異,基于學(xué)生成績(jī)的進(jìn)步對(duì)教師進(jìn)行評(píng)價(jià),這就在一定程度上解決了學(xué)生非隨機(jī)分配的問題,弱化生源質(zhì)量差異帶來的影響。同時(shí),在模型設(shè)計(jì)合理的情況下,可以將家庭、社會(huì)等因素的影響加以排除,分離出教師對(duì)學(xué)生學(xué)業(yè)進(jìn)步的單獨(dú)貢獻(xiàn),獲得教師的“凈效應(yīng)”。
綜上可見,教師增值性評(píng)價(jià)在促進(jìn)師評(píng)價(jià)的公平性方面有著傳統(tǒng)教師評(píng)價(jià)所無法比擬的優(yōu)越性。
2.引導(dǎo)教師關(guān)注所有學(xué)生
升學(xué)率、合格率等指標(biāo)關(guān)注的是學(xué)生的最終學(xué)業(yè)成績(jī),不考慮學(xué)生最初能力水平的差異,采取“一刀切”的統(tǒng)一劃線方式。在這種評(píng)價(jià)模式下,教師容易將教學(xué)關(guān)注點(diǎn)放在成績(jī)中等及以上的學(xué)生身上,因?yàn)檫@部分學(xué)生更容易取得升學(xué)的資格或達(dá)到合格的標(biāo)準(zhǔn),而忽視對(duì)后進(jìn)生的輔導(dǎo)和幫助。
教師增值性評(píng)價(jià)基于學(xué)生成績(jī)的增值來對(duì)教師進(jìn)行考評(píng),不設(shè)置統(tǒng)一的劃線標(biāo)準(zhǔn),不關(guān)心學(xué)生的起始能力水平如何,只關(guān)注學(xué)生經(jīng)過教師教學(xué)之后的進(jìn)步情況。這就給教師一個(gè)更為科學(xué)的引導(dǎo)——關(guān)注所有學(xué)生,因?yàn)椴粌H好學(xué)生可以取得進(jìn)步,后進(jìn)生經(jīng)過有效教學(xué)也可以取得進(jìn)步,甚至進(jìn)步空間更大。
可見,教師增值性評(píng)價(jià)在引導(dǎo)教師關(guān)注所有學(xué)生、激勵(lì)教師根據(jù)不同學(xué)生的需求采取相應(yīng)的教學(xué)措施、促進(jìn)每個(gè)學(xué)生的進(jìn)步等方面具有傳統(tǒng)教師評(píng)價(jià)所不具備的優(yōu)勢(shì)。
3.有利于學(xué)校教師隊(duì)伍建設(shè)和教師自身專業(yè)化發(fā)展
教師增值性評(píng)價(jià)基于教師效能對(duì)教師進(jìn)行評(píng)價(jià),通過統(tǒng)計(jì)分析可獲得每一個(gè)教師的效能值,進(jìn)而對(duì)不同教師的效能值加以比較,區(qū)分出高效能教師與低效能教師,這在實(shí)踐上具有重要價(jià)值。對(duì)學(xué)校而言,通過探討高、低效能教師的特征差異,可幫助學(xué)校在教師招聘中有針對(duì)性地選擇有潛能的高效能教師,同時(shí)學(xué)??筛嗅槍?duì)性、更有效地開展教師培訓(xùn),對(duì)已入職的教師進(jìn)行專業(yè)培訓(xùn),提高所有教師的效能,建設(shè)一只高水平的教師隊(duì)伍。對(duì)教師自身而言,可幫助教師以高效能教師為學(xué)習(xí)對(duì)象,督促教師進(jìn)行自我反思、自我改進(jìn),幫助教師明確個(gè)人專業(yè)發(fā)展需要,制定未來發(fā)展目標(biāo),促進(jìn)教師自身的專業(yè)化發(fā)展。
4.緩和生源大戰(zhàn),促進(jìn)區(qū)域內(nèi)師資合理分布和區(qū)域教育質(zhì)量均衡發(fā)展
教師評(píng)價(jià)的根本目的,簡(jiǎn)單說來就是通過科學(xué)評(píng)估教師工作業(yè)績(jī),讓教師明確自己工作的利弊得失,進(jìn)而有針對(duì)性地進(jìn)行教學(xué)改進(jìn),從而更好地發(fā)揮教書育人的作用。然而,在以升學(xué)率、平均分為指標(biāo)的教師評(píng)價(jià)模式下,搶得好生源往往就意味著評(píng)價(jià)的勝出。為了在最后的評(píng)估中占據(jù)優(yōu)勢(shì),學(xué)校之間甚至教師之間展開激烈的生源大戰(zhàn),教師評(píng)價(jià)的改進(jìn)目的被忽視。不寧唯是,傳統(tǒng)的平均分、升學(xué)率評(píng)價(jià)模式還會(huì)導(dǎo)致師資分布不均衡。在同等教學(xué)的情況下,生源質(zhì)量較好的學(xué)校往往升學(xué)率更高,故好學(xué)校的教師在評(píng)價(jià)中更占優(yōu)勢(shì),教師在應(yīng)聘時(shí)會(huì)更傾向于選擇生源質(zhì)量好的學(xué)校,于是好學(xué)校師資質(zhì)量更優(yōu)、數(shù)量更多,而師資質(zhì)量和數(shù)量的差異又進(jìn)一步拉大了學(xué)校間的升學(xué)率差異,升學(xué)率差異加大又帶來新一輪師資不均衡,形成惡性循環(huán)。
相比之下,教師增值性評(píng)價(jià)關(guān)注學(xué)生的進(jìn)步情況,生源質(zhì)量與教師評(píng)價(jià)結(jié)果并無直接關(guān)系。無論生源好壞,只要教師用心教學(xué)、采取科學(xué)有效的教學(xué)方法,就能使學(xué)生取得進(jìn)步,進(jìn)而在評(píng)價(jià)中取得好成績(jī)。這就在一定程度上緩和了生源大戰(zhàn),促進(jìn)了區(qū)域內(nèi)師資的合理分布,師資合理分布又在一定程度上促進(jìn)了區(qū)域教育質(zhì)量的均衡發(fā)展。
1.國際研究現(xiàn)狀
國際上關(guān)于教師增值性評(píng)價(jià)的研究可歸納為三個(gè)方面:一是對(duì)教師增值性評(píng)價(jià)純理論的探討,主要是模型研究,目的是實(shí)現(xiàn)對(duì)教師效能更準(zhǔn)確、有效的估計(jì),為應(yīng)用奠定理論基礎(chǔ);二是對(duì)教師增值性評(píng)價(jià)價(jià)值的探討,一般是實(shí)證研究,目的是通過實(shí)證數(shù)據(jù)證明教師增值性評(píng)價(jià)在應(yīng)用上的價(jià)值及可行性;三是教師增值性評(píng)價(jià)的應(yīng)用實(shí)踐,為教師增值性評(píng)價(jià)的廣泛應(yīng)用提供經(jīng)驗(yàn)。實(shí)際上,這三方面正是教師增值性評(píng)價(jià)從理論到實(shí)踐的發(fā)展步驟,只有這三步都走好,教師增值性評(píng)價(jià)才能真正地應(yīng)用于教師評(píng)價(jià)的實(shí)踐中。
(1)理論模型
教師增值性評(píng)價(jià)依賴于一類特定的模型——增值模型(Value-Added Models),理論研究主要是對(duì)模型的探索。早期主要的增值模型有:獲得分?jǐn)?shù)模型(Gain Score Model)、協(xié)變量校正模型(Covariate Adjustment Model)、田納西模型(Tennessee Value-Added Assessment Model)、交叉分類模型(Cross-classified Model)等。這幾種模型是比較成熟的、認(rèn)可度較高的模型,且有些模型已被一些地區(qū)應(yīng)用于評(píng)價(jià)中,如達(dá)拉斯市采用協(xié)變量校正模型對(duì)學(xué)校效能加以評(píng)估、[4]田納西州建立了基于田納西模型的教育增值評(píng)價(jià)系統(tǒng)。[5]
近年來,隨著增值性評(píng)價(jià)實(shí)證研究的增多,模型不能很好地?cái)M合真實(shí)數(shù)據(jù)成為研究中的一個(gè)突出問題,經(jīng)典模型開始受到越來越多的攻擊和批判,探索更優(yōu)、更擬合真實(shí)數(shù)據(jù)、估計(jì)結(jié)果更精準(zhǔn)的新模型成為一些研究者的關(guān)注重點(diǎn)。在典型模型的基礎(chǔ)上,出現(xiàn)了很多模型變式,[6-8]教師效能在模型中從一個(gè)單維的值發(fā)展到多維的幾個(gè)值,從一年效能發(fā)展到可實(shí)現(xiàn)對(duì)教師連續(xù)幾年效能值的估計(jì),[8,9]模型估計(jì)方法也從早期的最小二乘估計(jì)發(fā)展到貝葉斯估計(jì)。[10]總之,模型越來越靈活,越來越能處理真實(shí)、復(fù)雜的數(shù)據(jù)。
但這些新模型作為新的嘗試和探索,還尚未像經(jīng)典模型那樣得到廣泛認(rèn)可,各個(gè)新模型的優(yōu)劣也大多是百家之言、各執(zhí)一詞。由此,對(duì)不同模型之間關(guān)系的探討成為研究的熱點(diǎn)之一,不同的研究者得出了不同的研究結(jié)論。有研究發(fā)現(xiàn)采用不同模型對(duì)估計(jì)結(jié)果的影響不大,模型選擇、控制變量的選擇對(duì)教師效能估計(jì)結(jié)果的影響很小。[11,12]但也有研究者持相反意見,認(rèn)為教師效能估計(jì)結(jié)果對(duì)模型非常敏感,采用不同模型可能導(dǎo)致不同的估計(jì)結(jié)果,但并未證明哪種模型更優(yōu)。[7,13]
(2)價(jià)值探討
早期教師增值性評(píng)價(jià)研究證明了教師對(duì)學(xué)生學(xué)業(yè)表現(xiàn)的重要影響。Sanders 等人通過一系列研究,指出教師是影響學(xué)生學(xué)習(xí)最重要的因素,[2,3,14]此后很多研究者均使用增值方法證明了教師在促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步方面的作用。[15-19]早期的這些研究推動(dòng)了美國一些州教育評(píng)價(jià)體系的改革,拉開了教師增值性評(píng)價(jià)的應(yīng)用序幕。
探討高效能教師的特征曾一度甚至仍是當(dāng)前的研究熱點(diǎn)之一,為教師增值性評(píng)價(jià)如何指導(dǎo)雇傭、報(bào)償?shù)葘?shí)踐工作提供了一定的啟發(fā)。有研究表明,教齡高的教師能有效提高學(xué)生的閱讀成績(jī),十年的教學(xué)經(jīng)驗(yàn)可相應(yīng)提高學(xué)生詞匯和閱讀理解成績(jī)大約0.15 和0.18 個(gè)標(biāo)準(zhǔn)差,這提示學(xué)校在師資配置時(shí),應(yīng)分配教齡高的教師進(jìn)行閱讀教學(xué)。[20]還有研究者通過對(duì)10000 名澳大利亞教師的教師效能探討也發(fā)現(xiàn)類似的結(jié)論,高效能的教師擁有更多教學(xué)經(jīng)驗(yàn),且在閱讀表現(xiàn)高效能的教師往往是女教師。[21]一項(xiàng)對(duì)芝加哥公立高中教師效能的研究發(fā)現(xiàn),擁有碩士學(xué)歷的教師比擁有博士學(xué)歷的教師效能更高,這提示學(xué)校在招聘新教師時(shí)或許可以多考慮碩士學(xué)歷的教師。[22]
近年來,關(guān)于教師增值性評(píng)價(jià)的有效性研究成為一個(gè)研究熱點(diǎn),這是對(duì)教師增值性評(píng)價(jià)能否用于評(píng)價(jià)實(shí)踐的直接探討。研究者分為明顯的兩派。反對(duì)派認(rèn)為,教師效能估計(jì)存在偏差,教師增值性評(píng)價(jià)研究還有很多問題尚未解決,不應(yīng)將其應(yīng)用于教師評(píng)價(jià)及相關(guān)的教師雇傭、教師工資制定等政策中。[23,24]而支持派認(rèn)為雖然教師效能估計(jì)存在一定的偏差,但這種偏差并不大,總體上教師增值性評(píng)價(jià)的結(jié)果是可信的,相較于其他教師評(píng)價(jià)指標(biāo)而言,教師增值性評(píng)價(jià)更為科學(xué)、合理。[25,26]研究者使用實(shí)證數(shù)據(jù)證明了教師增值性評(píng)價(jià)結(jié)果的可信性,支持美國弗羅里達(dá)州基于教師增值性評(píng)價(jià)的教師解聘政策。[27]
(3)應(yīng)用實(shí)例
在應(yīng)用實(shí)踐方面,最早將教師增值性評(píng)價(jià)應(yīng)用于教師評(píng)價(jià)實(shí)踐的是美國。美國一些地區(qū)包括田納西州、達(dá)拉斯市等都開始使用教師增值性評(píng)價(jià)對(duì)教師進(jìn)行評(píng)估,并把評(píng)估結(jié)果應(yīng)用于教師工資制定、促進(jìn)教師專業(yè)化發(fā)展等方面。
田納西州增值評(píng)價(jià)系統(tǒng)(the Tennessee Value-Added Assessment System,TVAAS)是發(fā)展最早也是目前最完善的教育增值評(píng)價(jià)體系。早在20世紀(jì)90年代,TVAAS 就開始對(duì)學(xué)校及地區(qū)進(jìn)行評(píng)估,其中也會(huì)涉及教師評(píng)價(jià),但僅僅是簡(jiǎn)單地報(bào)告教師效能值,尚未真正應(yīng)用于教師評(píng)價(jià)。后來,隨著TVAAS 的進(jìn)一步完善,田納西州通過新的教師評(píng)價(jià)立法,建立了新的教師評(píng)價(jià)體系,并于2011-2012 學(xué)年投入使用。新教師評(píng)價(jià)體系規(guī)定,田納西州每年對(duì)每個(gè)教師都要進(jìn)行評(píng)估,評(píng)估包括三個(gè)方面——班級(jí)觀察、學(xué)生學(xué)業(yè)表現(xiàn)以及教師增值分,其中,教師增值分?jǐn)?shù)占到教師評(píng)估總分的35%?;谠u(píng)估分?jǐn)?shù)將教師分類(五類——顯著低于期望值、低于期望值、符合期望值、高于期望值、顯著高于期望值),并提供詳細(xì)的用于指導(dǎo)改進(jìn)的反饋報(bào)告,評(píng)估結(jié)果可用于人事決策。[28]
達(dá)拉斯增值問責(zé)體系(the Dallas Value-Added Accountability System,DVAAS)建立于1992年。在發(fā)展早期,DVAAS 使用教師效能指數(shù)(Teacher Effectiveness Indices)界定高效能教師及需要幫助的低效能教師,雖然該指數(shù)僅用于學(xué)校對(duì)本校教師的內(nèi)部評(píng)價(jià),并不用于全市范圍的教師評(píng)估及相關(guān)決策,但推動(dòng)了基于教師效能對(duì)教師進(jìn)行評(píng)價(jià)的應(yīng)用實(shí)踐。[4]今年達(dá)拉斯市宣布將在 2014-2015 學(xué)年啟動(dòng)教師卓越計(jì)劃(Teacher Excellence Initiative),更好地推動(dòng)教師專業(yè)化發(fā)展,并計(jì)劃在2015-2016學(xué)年啟動(dòng)新的教師工資系統(tǒng),教師工資不再基于傳統(tǒng)的教齡等指標(biāo),而是更多地與教師表現(xiàn)掛鉤。[29]
田納西州和達(dá)拉斯市是增值性評(píng)價(jià)開始較早的地區(qū),也是教師增值性評(píng)價(jià)發(fā)展較快的地區(qū)。除此之外,目前紐約、休斯頓、芝加哥、洛杉磯、華盛頓、俄亥俄、科羅拉多、弗羅里達(dá)等地區(qū)都開始將教師增值性評(píng)價(jià)應(yīng)用于教師評(píng)價(jià)之中。
2.國內(nèi)研究現(xiàn)狀
國內(nèi)關(guān)于教師增值性評(píng)價(jià)的研究進(jìn)展較緩慢,理論研究不多,大多是對(duì)國外教師增值性評(píng)價(jià)研究現(xiàn)狀的述評(píng)。周燕、邊玉芳對(duì)美國教師增值性評(píng)價(jià)的起源、發(fā)展、實(shí)施效果及爭(zhēng)議進(jìn)行了論述。[30]徐士強(qiáng)和周燕等人分別對(duì)美國田納西州教育增值評(píng)價(jià)體系及對(duì)我國的啟示進(jìn)行了述評(píng)。[31,32]鄧森碧、邊玉芳基于模型選擇對(duì)教師增值性評(píng)價(jià)結(jié)果的重要意義以及主要增值模型進(jìn)行了比較,為實(shí)際應(yīng)用中增值模型的選擇提供了一定的依據(jù)。[33]國內(nèi)也有研究者使用實(shí)證數(shù)據(jù)進(jìn)行了相關(guān)研究。張文靜、辛濤使用增值模型對(duì)房山區(qū)小學(xué)四年級(jí)學(xué)生進(jìn)行了研究,探討了對(duì)學(xué)生數(shù)學(xué)成績(jī)有顯著影響和無顯著影響的教師特征變量。[34]凡細(xì)珍、任杰使用增值模型對(duì)新疆雙語教學(xué)小學(xué)五年級(jí)漢語學(xué)科進(jìn)行了增值性評(píng)價(jià),報(bào)告了漢語教師在漢語全卷、聽力和閱讀上的增值分。[35]
雖然相比于平均分、升學(xué)率等絕對(duì)指標(biāo),教師增值性評(píng)價(jià)更能體現(xiàn)公平性、科學(xué)性,但教師增值性評(píng)價(jià)還有一些尚存爭(zhēng)議之處,使得教師增值性的實(shí)踐應(yīng)用面臨挑戰(zhàn)和質(zhì)疑。
1.評(píng)價(jià)指標(biāo)是否有效且可信
教師增值性評(píng)價(jià)研究的一個(gè)爭(zhēng)議焦點(diǎn)是評(píng)價(jià)指標(biāo)是否有效且可信,即基于增值模型的教師效能值是否真實(shí)代表了教師對(duì)學(xué)生學(xué)業(yè)進(jìn)步的貢獻(xiàn)。
有研究者從理論的角度出發(fā),認(rèn)為雖然增值模型號(hào)稱可區(qū)分出教師的單獨(dú)貢獻(xiàn),但學(xué)校教育作為一個(gè)系統(tǒng)工程,是所有教育資源整合、共同發(fā)揮作用的結(jié)果,學(xué)生學(xué)業(yè)的進(jìn)步到底是歸于教師還是歸于學(xué)校、這二者之間如何區(qū)分是無法完全劃分清楚的,因此建議決策者在使用教師效能指標(biāo)對(duì)教師進(jìn)行評(píng)價(jià)時(shí)應(yīng)慎重考慮這個(gè)問題。[36]
此外,教師效能這個(gè)評(píng)價(jià)指標(biāo)本身的一些統(tǒng)計(jì)特性也存在爭(zhēng)議。有研究者通過實(shí)證研究證明教師效能是對(duì)教師貢獻(xiàn)的無偏估計(jì),可以真實(shí)代表教師對(duì)學(xué)生學(xué)業(yè)進(jìn)步的作用,[37]認(rèn)為采用教師效能對(duì)教師進(jìn)行評(píng)價(jià)可促進(jìn)學(xué)生學(xué)業(yè)的進(jìn)步,并指出華盛頓、洛杉磯等一些地區(qū)的學(xué)校都開始使用教師增值性評(píng)價(jià)。[38]但反對(duì)者認(rèn)為教師效能這個(gè)指標(biāo)存在偏差,在應(yīng)用中應(yīng)慎重,[23,24]采用不同模型將導(dǎo)致對(duì)教師效能的高估或者低估。[39]有研究者對(duì)斯坦福數(shù)學(xué)評(píng)定測(cè)驗(yàn)(the Stanford 9 mathematics assessment)的兩個(gè)維度程序(procedures)和問題解決(problem-solving)分別賦予不同的權(quán)重,得到構(gòu)念不同的多組測(cè)驗(yàn),發(fā)現(xiàn)教師效能在不同構(gòu)念的測(cè)驗(yàn)之間存在一定差異。[11]另有研究者對(duì)同一批學(xué)生在同一時(shí)間、同一學(xué)科進(jìn)行測(cè)驗(yàn)也得到類似的結(jié)論,發(fā)現(xiàn)采用不同的測(cè)驗(yàn)會(huì)導(dǎo)致同一個(gè)教師的效能值發(fā)生改變。[40]反對(duì)者認(rèn)為既然采用不同測(cè)驗(yàn)、不同模型將導(dǎo)致不同的教師效能估計(jì)結(jié)果,那么教師效能這個(gè)評(píng)價(jià)指標(biāo)是否可信便值得懷疑。
2.評(píng)價(jià)結(jié)果是否被公眾認(rèn)可
由于教師效能的估計(jì)基于復(fù)雜的統(tǒng)計(jì)模型,它不像平均分、升學(xué)率那樣簡(jiǎn)單、清楚、明了,教師效能的含義是什么、如何得來的、是否可信,這對(duì)公眾來說是很難理解的。以獲得分?jǐn)?shù)模型為例,教師效能是教師層的殘差,為什么教師層殘差代表教師效能,為什么這個(gè)殘差大就代表教師是高效能的、殘差值小就代表教師是低效能的,公眾不得而知,所以公眾對(duì)這種評(píng)價(jià)方法不容易建立信任感。因此,如何增加教師效能對(duì)公眾的透明度、使得評(píng)價(jià)結(jié)果更易于公眾理解和接受,是教師增值性評(píng)價(jià)應(yīng)用的一個(gè)重要問題。但有研究者認(rèn)為這個(gè)問題是可以解決的,從項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)的發(fā)展來看,IRT 在發(fā)展初期也遇到了類似的問題,人們不理解這個(gè)能力θ 是如何得出的、代表什么意義,但隨著理論的發(fā)展,雖然θ 的獲得對(duì)公眾來說仍是“黑箱”,但是,越來越多的人開始認(rèn)可IRT 對(duì)考生能力估計(jì)的準(zhǔn)確性,IRT 在實(shí)際中尤其是大規(guī)模測(cè)驗(yàn)中的應(yīng)用越來越多。[39]或許,教師效能在未來會(huì)像IRT 一樣推廣起來,但在現(xiàn)階段,評(píng)價(jià)結(jié)果的透明度問題仍是教師增值性評(píng)價(jià)應(yīng)用于實(shí)踐的一個(gè)阻礙。
3.基于學(xué)業(yè)測(cè)驗(yàn)的評(píng)價(jià)方式是否有利于學(xué)生的全面發(fā)展
教師增值性評(píng)價(jià)是基于學(xué)生的學(xué)業(yè)成績(jī)進(jìn)行的評(píng)價(jià),學(xué)業(yè)測(cè)驗(yàn)的測(cè)驗(yàn)構(gòu)念(construct)問題引起了一些研究者的關(guān)注。[6,19,41]有研究者認(rèn)為,為提高估計(jì)精度,在測(cè)驗(yàn)設(shè)計(jì)時(shí)應(yīng)偏重客觀題,但一些學(xué)科如歷史、語文等采用客觀題可能無法測(cè)得學(xué)生在該學(xué)科的關(guān)鍵能力,這就帶來了一定的問題。[40]還有研究者指出,為提高估計(jì)精度、確保不同年級(jí)的測(cè)驗(yàn)成績(jī)可比(垂直等值),在測(cè)驗(yàn)設(shè)計(jì)時(shí)應(yīng)側(cè)重在同一個(gè)垂直量尺上的內(nèi)容即在年級(jí)間連續(xù)教授的內(nèi)容,[41]同樣地,這些內(nèi)容可能并不能有效考察學(xué)生的關(guān)鍵能力。也就是說,為保證模型估計(jì)結(jié)果的準(zhǔn)確性,教師增值性評(píng)價(jià)勢(shì)必會(huì)犧牲測(cè)驗(yàn)內(nèi)容的合理性和有效性。倘若測(cè)驗(yàn)測(cè)的并非學(xué)生需要掌握的重點(diǎn)知識(shí)和需要培養(yǎng)的關(guān)鍵能力,那以此評(píng)價(jià)教師又有何價(jià)值?
退一步講,即使測(cè)驗(yàn)構(gòu)念合理,測(cè)驗(yàn)可有效考察學(xué)生的學(xué)業(yè)表現(xiàn),但是,對(duì)學(xué)生來說,除了掌握知識(shí)和技能,更重要的是發(fā)展各方面的能力。教育的目標(biāo)不僅僅是讓學(xué)生獲得一個(gè)好成績(jī),教育的最終目標(biāo)是培養(yǎng)一個(gè)全方位發(fā)展的人才。而學(xué)業(yè)測(cè)驗(yàn)僅能測(cè)查學(xué)生的學(xué)業(yè)水平,許多對(duì)學(xué)生個(gè)人發(fā)展非常重要的、學(xué)校教育應(yīng)重視培養(yǎng)的能力無法通過學(xué)業(yè)測(cè)驗(yàn)來測(cè)得,[39]如學(xué)生的領(lǐng)導(dǎo)力、人際交往能力、團(tuán)隊(duì)合作精神等。因此,有研究者質(zhì)疑:基于學(xué)業(yè)測(cè)驗(yàn)的教師增值性評(píng)價(jià)真的有利于促進(jìn)學(xué)生的全面發(fā)展還是僅僅能幫助學(xué)生提高學(xué)業(yè)成績(jī)?在這個(gè)問題上,也許將學(xué)業(yè)測(cè)驗(yàn)擴(kuò)展到其他能力測(cè)驗(yàn)會(huì)是一條解決之路,但在現(xiàn)階段可能尚無法給出滿意的回答。
雖然教師增值性評(píng)價(jià)無論在理論研究還是實(shí)際應(yīng)用中都存在一些問題,但毋庸置疑,相比于傳統(tǒng)教師評(píng)價(jià),教師增值性評(píng)價(jià)更加科學(xué)、公平、合理。教師增值性評(píng)價(jià)正受到越來越多研究者及政策制定者的關(guān)注。美國一些地區(qū)(如田納西、俄亥俄、科羅拉多、弗羅里達(dá)等)及英國、荷蘭等已開始嘗試將增值性評(píng)價(jià)應(yīng)用于教師評(píng)價(jià)中,并逐漸與教師雇傭、報(bào)償、晉升、分配等政策法規(guī)相掛鉤。
在我國,教師評(píng)價(jià)尤其是中小學(xué)教師評(píng)價(jià)以升學(xué)率、平均分等指標(biāo)為主,既缺乏公平合理性,又易帶來生源大戰(zhàn)、師資分布不均等問題,受到越來越多的質(zhì)疑和批判。為解決我國當(dāng)前教師評(píng)價(jià)存在的固有問題,建議將教師增值性評(píng)價(jià)引入到我國教師評(píng)價(jià)體系中去,這是解決傳統(tǒng)教師評(píng)價(jià)弊端的一個(gè)重要途徑,也是我國未來教師評(píng)價(jià)發(fā)展的有效之路。
目前我國國內(nèi)教師增值性評(píng)價(jià)研究進(jìn)展相對(duì)緩慢,這直接制約了教師增值性評(píng)價(jià)在我國的應(yīng)用。為推動(dòng)教師增值性評(píng)價(jià)在實(shí)踐中的應(yīng)用,應(yīng)切實(shí)加強(qiáng)相關(guān)研究,為教師增值性評(píng)價(jià)應(yīng)用奠定基礎(chǔ)。
首先,應(yīng)加強(qiáng)教師增值性評(píng)價(jià)的理論研究,包括前面所講到的模型問題、估計(jì)偏差問題等,還有如何設(shè)計(jì)內(nèi)容上符合中國課標(biāo)要求、性質(zhì)上滿足增值模型需要的學(xué)生學(xué)業(yè)測(cè)驗(yàn),以及對(duì)我國學(xué)生學(xué)業(yè)成績(jī)影響較大的學(xué)生自身、教師、家庭等諸多因素有哪些,如何在模型中加入這些影響因素,都是值得探討、解決的問題。
除了理論研究,實(shí)踐探索也是必不可少的。由于目前我國教師增值性評(píng)價(jià)的應(yīng)用經(jīng)驗(yàn)尚屬空白,建議首先在條件允許的地區(qū)(如北京、上海)進(jìn)行小范圍應(yīng)用嘗試,探索、總結(jié)出我國區(qū)域?qū)嵤┙處熢鲋敌栽u(píng)價(jià)的實(shí)踐經(jīng)驗(yàn)。在小范圍試驗(yàn)成熟的條件下,可進(jìn)一步推廣應(yīng)用,進(jìn)而在全國范圍內(nèi)實(shí)施教師增值性評(píng)價(jià),并在此基礎(chǔ)上推動(dòng)我國教師評(píng)價(jià)體系改革。
實(shí)施教師增值性評(píng)價(jià)對(duì)技術(shù)的要求較高,建議借助大學(xué)、研究所等專業(yè)研究機(jī)構(gòu)的力量,加速推動(dòng)教師增值性評(píng)價(jià)的應(yīng)用實(shí)踐。
應(yīng)用教師增值性評(píng)價(jià)的技術(shù)難點(diǎn)主要有以下幾個(gè)方面。首先,增值性評(píng)價(jià)依賴于多次測(cè)驗(yàn)成績(jī)的有效測(cè)量。Young 指出,大多數(shù)增值性評(píng)價(jià)需要一個(gè)垂直化的分?jǐn)?shù)量尺,以便將學(xué)生在連續(xù)幾個(gè)學(xué)年的成績(jī)加以比較,故用于增值性評(píng)價(jià)的測(cè)驗(yàn)需要經(jīng)過很好的垂直等值設(shè)計(jì)。如何進(jìn)行垂直等值、如何在垂直等值的基礎(chǔ)上合理設(shè)計(jì)測(cè)驗(yàn)是一個(gè)主要的技術(shù)難題。[42]其次,增值性評(píng)價(jià)需將學(xué)生自身、家庭因素等其他環(huán)境因素與教師區(qū)分開來,那么在對(duì)環(huán)境因素的考察中,考察哪些因素、如何設(shè)計(jì)測(cè)評(píng)工具也是相對(duì)專業(yè)且難操作的問題。此外,像增值模型選擇、模型構(gòu)建、模型估計(jì)、結(jié)果分析等都對(duì)技術(shù)的要求較高。
因此,建議各地區(qū)在實(shí)施教師增值性評(píng)價(jià)時(shí)與大學(xué)或其他科研機(jī)構(gòu)建立合作關(guān)系,借助專業(yè)機(jī)構(gòu)的力量完成教師增值性評(píng)價(jià)的前期設(shè)計(jì)與后期結(jié)果分析等相關(guān)工作。當(dāng)然,合作一段時(shí)間以后,在各地區(qū)已具備獨(dú)立實(shí)施條件和能力的情況下,各地區(qū)可逐步脫離科研機(jī)構(gòu)的幫助,獨(dú)立實(shí)施教師增值性評(píng)價(jià)。
教師增值性評(píng)價(jià)還有一些問題需要澄清和解決,在現(xiàn)階段,教師評(píng)價(jià)尚不能完全背離傳統(tǒng)的評(píng)價(jià)模式而完全采用教師增值性評(píng)價(jià)。
關(guān)于教師增值性評(píng)價(jià)的應(yīng)用,目前一個(gè)比較統(tǒng)一的觀點(diǎn)是,將教師增值性評(píng)價(jià)作為教師評(píng)價(jià)的指標(biāo)之一,納入到教師評(píng)價(jià)體系中去。美國俄亥俄州在學(xué)校評(píng)價(jià)中采用了這種方式,評(píng)價(jià)指標(biāo)包括畢業(yè)率、出勤率、NCLB(No Child Left Behind)年度進(jìn)步情況、基于所有學(xué)科測(cè)驗(yàn)的學(xué)業(yè)表現(xiàn)指數(shù),以及學(xué)校效能值。[43]
建議我國各地區(qū)在實(shí)施教師增值性評(píng)價(jià)時(shí),把教師增值性評(píng)價(jià)引入到當(dāng)前教師評(píng)價(jià)體系中去,將教師效能與其他教師評(píng)價(jià)指標(biāo)結(jié)合起來,取長補(bǔ)短,建立更為科學(xué)、合理、公平的教師評(píng)價(jià)體系。
對(duì)于一些已經(jīng)具備實(shí)施教師增值性評(píng)價(jià)的地區(qū),應(yīng)在教師評(píng)價(jià)中積極引入教師效能指標(biāo),探索包含教師增值性評(píng)價(jià)的教師評(píng)價(jià)新模式,合理確定教師增值性評(píng)價(jià)在教師評(píng)價(jià)中的權(quán)重,為其他地區(qū)工作提供借鑒和指導(dǎo)。而對(duì)那些尚不具備實(shí)施條件的地區(qū),可將教師增值性評(píng)價(jià)列入發(fā)展目標(biāo),借鑒其他地區(qū)的工作經(jīng)驗(yàn),逐步推進(jìn),慢慢摸索本地區(qū)的教師評(píng)價(jià)模式。
[1]Rivkin S.G.,E.A.Hanushek,and J.F.Kain.Teachers,schools, and academic achievement[J].Econometrica,2005,73(2):417-458.
[2]University of Tennessee Value-Added Research and Assessment Center.Cumulative and residual effects of teachers on future student academic achievement[R].Knoxville,TN,1996.
[3]Sanders W.L.,S.P.Wright,and S.P.Horn.Teacher and classroom context effects on student achievement:Implications for teacher evaluation[J].Journal of Personnel Evaluation in Education,1997,11(1):57-67.
[4]Jason Millman.Grading teachers,grading schools:Is student achievement a valid evaluation measure[M].Corwin Press Inc,1997.
[5]Sanders,W.L.and S.P.Horn.The Tennessee valueadded assessment system(TVAAS):Mixed-model methodology in educational assessment[J].Journal of Personnel Evaluation in Education,1994,8(3):299-311.
[6]Martineau J.A.Distorting value added:The use of longitudinal,vertically scaled student achievement data for growth-based,value-added accountability[J].Journal of Educational and Behavioral Statistics,2006,31(1):35-62.
[7]Sass T.R.,A.Semykina,and D.N.Harris.Valueadded models and the measurement of teacher productivity[J].Economics of Education Review,2014,38:9-23.
[8]Mariano L.T.,D.F.McCaffrey,and J.Lockwood.A model for teacher effects from longitudinal data without assuming vertical scaling[J].Journal of Educational and Behavioral Statistics,2010,35(3):253-279.
[9]McCaffrey D.F.,et al.Models for value-added modeling of teacher effects[J].Journal of Educational and Behavioral Statistics,2004,29(1):67-101.
[10]Lockwood J.,et al.Bayesian methods for scalable multivariate value-added assessment[J].Journal of Educational and Behavioral Statistics,2007,32(2):125-150.
[11]Lockwood J.,et al.The Sensitivity of Value-Added Teacher Effect Estimates to Different Mathematics A-chievement Measures[J].Journal of Educational Measurement,2007,44(1):47-67.
[12]Kersting N.B.,M.-K.Chen,and J.W.Stigler.Value-added teacher estimates as part of teacher evaluations:Exploring the effects of data and model specifications on the stability of teacher value-added scores[J].Education Policy Analysis Archives,2013,21:7.
[13]Newton X.A.,et al.Value-Added Modeling of Teacher Effectiveness:An Exploration of Stability across Models and Contexts[J].Education Policy Analysis Archives,2010,18(23):23.
[14]Sanders W.L.and S.P.Horn.Research findings from the Tennessee Value-Added Assessment System(TVAAS)database:Implications for educational evaluation and research[J].Journal of Personnel Evaluation in Education,1998,12(3):247-256.
[15]Rowan B.,R.Correnti,and R.Miller.What Large-Scale Survey Research Tells Us About Teacher Effects on Student Achievement:Insights from the Prospects Study of Elementary Schools[J].The Teachers College Record,2002,104(8):1525-1567.
[16]Rothstein J.Teacher quality in educational production:Tracking,decay,and student achievement[J].The Quarterly Journal of Economics,2010,125(1):175-214.
[17]Lefgren L.and D.Sims.Using subject test scores efficiently to predict teacher value-added[J].Educational Evaluation and Policy Analysis,2012,34(1):109-121.
[18]Mendro R.,et al.An application of multiple linear regression in determining longitudinal teacher effectiveness.in Annual Meeting of the AERA,San Diego,CA.1998.
[19]McCaffrey D.F.,et al.Evaluating Value-Added Models for Teacher Accountability[M].California :RAND Corporation,2003.
[20]Rockoff J.E.The impact of individual teachers on student achievement:Evidence from panel data[J].The American Economic Review,2004,94(2):247-252.
[21]Leigh A.Estimating teacher effectiveness from two-year changes in students’test scores[J].Economics of Education Review,2010,29(3):480-488.
[22]Aaronson D.,L.Barrow,and W.Sander.Teachers and student achievement in the Chicago public high schools[J].Journal of Labor Economics,2007,25(1):95-135.
[23]Rothstein J.Student sorting and bias in value-added estimation:Selection on observables and unobservables[J].Education,2009,4(4):537-571.
[24]National Bureau of Economic Research.Teacher quality in educational production:Tracking,decay,and student achievement[R].North Carolina,2008.
[25]Center for Education Data & Research.Assessing the“Rothstein Falsification Test”Does it Really Show Teacher Value-Added Models Are Biased?[R].Seattle,2012.
[26]Koedel C.and J.R.Betts.Does student sorting invalidate value-added models of teacher effectiveness?An extended analysis of the Rothstein critique[J].Education Finance and Policy,2011,6(1):18-42.
[27]Winters M.A.and J.M.Cowen.Who would stay,who would be dismissed?An empirical consideration of valueadded teacher retention policies[J].Educational Researcher,2013,20:1-8.
[28]Tennessee Department of Education.Teacher Evaluation in Tennessee:A Report on Year 1 Implementation 2012[R].Tennessee,2012
[29]TAWNELL D.HOBBS.Proposed Dallas ISD teacher evaluation system based on merit[N].The Dallas Morning News,2014-5-19.
[30]周燕,邊玉芳.美國教師效能增值評(píng)價(jià)研究與應(yīng)用進(jìn)展[J].全球教育展望,2011,40(10):72-78.
[31]徐士強(qiáng),趙風(fēng)波.美國田納西州教育增值評(píng)價(jià)模式及其論爭(zhēng)[J].全球教育展望,2009,(9):52-55.
[32]周燕,邊玉芳.美國 TVAAS 的解讀及其對(duì)我國教育評(píng)價(jià)的啟示[J].全球教育展望,2012,(3):11.
[33]鄧森碧,邊玉芳.教師效能增值模型的研究與應(yīng)用[J].教育學(xué)報(bào),2012,(4):113-121.
[34]張文靜,辛濤,康春花.教師變量對(duì)小學(xué)四年級(jí)數(shù)學(xué)成績(jī)的影響:一個(gè)增值性研究[J].教育學(xué)報(bào),2010,(2):69-76.
[35]凡細(xì)珍,任杰.增值理念下的新疆雙語教學(xué)質(zhì)量評(píng)價(jià)——對(duì)小學(xué)五年級(jí)漢語學(xué)科的實(shí)證研究.中國考試,2013,(10):17-23.
[36]Corcoran S.P.Can Teachers Be Evaluated by Their Students'Test Scores?Should They Be?The Use of Value-Added Measures of Teacher Effectiveness in Policy and Practice.Education Policy for Action Series[M].Annenberg Institute for School Reform at Brown University(NJ1),2010.
[37]National Bureau of Economic Research.Measuring the impacts of teachers I:Evaluating bias in teacher value-added estimates[R].North Carolina,2013.
[38]Gordon R.J.,T.J.Kane,and D.Staiger.Identifying effective teachers using performance on the job[M].Washington,DC:Brookings Institution,2006.
[39][43]Chudowsky N.,H.I.Braun,and J.A.Koenig.Getting value out of value-added:Report of a workshop[M].Washington,DC:National Academy Press,2010.
[40]Corcoran S.P.,J.L.Jennings,and A.A.Beveridge.Teacher Effectiveness on High-and Low-Stakes Tests.Society for Research on Educational Effectiveness[M].2011.
[41]Schmidt W.H.,R.T.Houang,and C.C.McKnight.Value-added research:Right idea but wrong solution.Value added models in education:Theory and applications[M].2005:145-164.
[42]Young M.J.Vertical scales.In S.M.Downing and T.M.Haladyna(Eds.)[H].Handbook of test development.Lawrence Erlbaum Associates Publishers,2006.