雷萬鵬 馬紅梅 黃華明
(1. 華中師范大學(xué) 教育學(xué)院/湖北省基礎(chǔ)教育研究中心,武漢 430079;2. 韶關(guān)學(xué)院 教育學(xué)部,韶關(guān) 512005)
教學(xué)質(zhì)量高的教師具有巨大的經(jīng)濟價值(Chetty,F(xiàn)riedman and Rockoff,2014;Hanushek,2011),優(yōu)秀師資分布不均會引起教育不公平等問題(Hanushek and Rivkin,2012;Rothstein,2010)。因此,讓教師“下得去、留得住、教得好”是全球教育政策與實踐領(lǐng)域共同關(guān)注的議題。國內(nèi)關(guān)于教師勞動力市場的研究比較充分地討論了如何讓教師“下得去、留得住”的問題,但較少涉及教師是否“教得好”的問題,這可能與我國教育教學(xué)實踐長期采用升學(xué)率、優(yōu)秀率或班級均分等簡單方式認(rèn)定教師教學(xué)質(zhì)量的做法有關(guān)。在教師勞動力市場改革日益深入的背景下,如何科學(xué)評價教師是否“教得好”這一問題的重要性已逐步凸顯,基于學(xué)生成績殘差分解方法的教師教學(xué)質(zhì)量評估有助于科學(xué)評價教師教學(xué)質(zhì)量差異,對此議題的研究具有重要的理論意義和應(yīng)用價值。
很多學(xué)者討論了利用教學(xué)績效獎勵的方法激勵教師提升教學(xué)質(zhì)量的可能性(Cowan and Goldhaber,2018;Duflo,Dupas and Kremer,2011,2015;Pham,Nguyen and Springer,2020;Shifrer,Turley and Heard,2017;薛海平和王蓉,2016),但開展這項工作的前提是知道如何區(qū)分不同教學(xué)質(zhì)量的教師,或者讓教師知曉哪些指標(biāo)可得到教學(xué)績效評價體系的認(rèn)可(Mu?oz,Prather and Stronge,2011)?,F(xiàn)實生活中人們往往將學(xué)生成績與教師教學(xué)績效進行關(guān)聯(lián),但根據(jù)學(xué)生成績可構(gòu)造出若干不同含義的指標(biāo),若用不同指標(biāo)考核教師時,會引發(fā)教師采取不同的教學(xué)行為策略(Chang et al.,2020;Loyalka et al.,2019;常芳等,2018)。如我國常用班級均分和優(yōu)秀率等指標(biāo)評價教師教學(xué)水平,但該方法可能導(dǎo)致教師選擇性忽視那些基礎(chǔ)較差的學(xué)生而造成教學(xué)過程不公平問題(雷萬鵬和馬紅梅,2019)。
1980 年代以來,學(xué)術(shù)界嘗試各種方法探尋高效教師的特征,即具備哪些特征的教師能更好地促進學(xué)生成長(Hanushek and Rivkin,2012;Nagler,Piopiunik and West,2020),但至今人們尚未就“優(yōu)秀教師具備哪些特征”達成共識。例如,教師受教育水平、工作經(jīng)驗、是否持證上崗等教師質(zhì)量指標(biāo)對學(xué)生成績的影響都不穩(wěn)健。出現(xiàn)這種情況的原因主要在于,一方面,學(xué)生學(xué)業(yè)發(fā)展過程中存在很多教師無法控制的因素,如學(xué)生素養(yǎng)和性情、班級風(fēng)氣和氛圍以及學(xué)校辦學(xué)環(huán)境等;另一方面,教育背景、工作年限、資格認(rèn)證等教師質(zhì)量指標(biāo)的個體間差異不夠大,從而不容易得到統(tǒng)計上顯著的結(jié)果。有鑒于此,學(xué)生成績殘差分解的思想被引入教學(xué)評價領(lǐng)域,用于評估教師教學(xué)績效或?qū)W校效能等問題(Goldhaber,Brewer and Anderson,1999)。
利用學(xué)生成績殘差鑒定教師教學(xué)質(zhì)量的基本思路是,在教育生產(chǎn)函數(shù)分析框架下,在控制影響學(xué)生成績的個體特征、教師資歷特征、班級特征和學(xué)校特征等因素后,學(xué)生成績預(yù)測值與班級均分的差值是由教師教學(xué)效應(yīng)所致。換言之,剔除上述可觀測特征對學(xué)生成績的影響后,學(xué)生成績的預(yù)測值與其所在班級成績均值的殘差部分是教師教學(xué)對每個學(xué)生的學(xué)業(yè)成績產(chǎn)生的影響,有學(xué)者稱之為“教師效能”。從學(xué)生個體層面看,若學(xué)生成績預(yù)測值相對于班級均值的差值為正,則教師對該生的培養(yǎng)超出預(yù)期表現(xiàn)水平,屬于“正增值”情形,反之亦然。從班級層面看,如果全班所有學(xué)生成績相對于班級均值的殘差之和大于零,那么這個班的任課教師可被視為“有效教師”;而殘差之和為負(fù)的班級經(jīng)歷了“無效教學(xué)”①,后文“模型界定”部分將闡述這種教師效能評估技術(shù)的原理。
只要在班級層面對所有學(xué)生實施整群抽樣,且學(xué)生相關(guān)科目的成績可以與任課教師實現(xiàn)精確匹配,用學(xué)生成績殘差分解的方法評估教師教學(xué)質(zhì)量就具備了現(xiàn)實可行性,該思路和方法也被進一步應(yīng)用到學(xué)校效能評估領(lǐng)域。利用學(xué)生成績殘差鑒定教師教學(xué)質(zhì)量的關(guān)鍵步驟是先獲得學(xué)生成績的預(yù)測值,而普通線性回歸和多層線性分析(hierarchical linear model,HLM)都可完成這個步驟,但教育領(lǐng)域?qū)W者常采用更直觀的HLM。如,Mu?oz,Prather 和Stronge(2011)基于肯塔州杰弗遜縣81 所公立學(xué)校的5700 多名在2003 年參加四年級州統(tǒng)考的學(xué)生,以及230 多名任課教師的信息,利用HLM 和增值評估方法對學(xué)生成績進行預(yù)測,他們發(fā)現(xiàn)基于學(xué)生成績殘差分解技術(shù)得到的教師教學(xué)質(zhì)量的年度相關(guān)系數(shù)均大于0.5。Subedi,Reese 和Powell(2015)基于佛羅里達州棕櫚灘縣薄弱高中1004 個學(xué)生及其所在班級的53 名任課教師的分析發(fā)現(xiàn),學(xué)生成績績點方差的12%?15%可由教師的影響來解釋。
需要指出的是,利用學(xué)生成績殘差分解技術(shù)評估教師教學(xué)質(zhì)量的可靠性可能存在科目間差異。例如,Milanowski(2004)利用辛辛那提地區(qū)212 名公立學(xué)校教師所教3?8 年級學(xué)生的信息,綜合使用增值模型和HLM 預(yù)測學(xué)生成績,同時基于學(xué)生殘差得到教師教學(xué)質(zhì)量,他們以此為依據(jù)評估了俄亥俄州政府新引進的教師評價指標(biāo)體系的效度②,結(jié)果顯示,數(shù)學(xué)教師在兩種評估方法中的相關(guān)系數(shù)高達0.43;但閱讀和科學(xué)兩個科目在兩種方法間的一致性更低,分別為0.32 和0.27。
利用學(xué)生成績殘差分解技術(shù)分析教師教學(xué)質(zhì)量的本土研究并不多見。梁文艷和杜育紅(2011)基于西部地區(qū)123 所農(nóng)村小學(xué)和3326 名學(xué)生在2006—2008 年的追蹤信息,評估了語文和數(shù)學(xué)兩個學(xué)科的教師教學(xué)質(zhì)量。研究發(fā)現(xiàn),農(nóng)村小學(xué)教師教學(xué)質(zhì)量的邊際效應(yīng)約為0.8 個標(biāo)準(zhǔn)差,且基于殘差分解技術(shù)與利用班級均分這兩種方法對教師教學(xué)質(zhì)量進行排名,其重合度僅為4%?8%。本文在上述研究的基礎(chǔ)上補充了東部和中部地區(qū)樣本,也增加了中學(xué)階段的樣本,以進一步拓展該領(lǐng)域的研究,提供更多基于中國本土經(jīng)驗的證據(jù)。盡管學(xué)生成績殘差分解法被廣泛地應(yīng)用于教師教學(xué)績效評價研究(Leckie and Goldstein,2015),但它也存在一定缺陷(Goldstein,2014;Goldstein and Spiegelhalter,1996)。一方面,基于學(xué)生成績殘差分解方法評估教師教學(xué)質(zhì)量時對模型設(shè)定的要求較高,當(dāng)影響學(xué)生學(xué)業(yè)發(fā)展的重要變量存在遺漏或這些變量的測量誤差較大時,它們都將進入殘差項,從而影響分析結(jié)果的精準(zhǔn)性;另一方面,與其他教師評價指標(biāo)一樣,基于學(xué)生成績殘差分解技術(shù)構(gòu)造的教學(xué)質(zhì)量指標(biāo)一旦與教師利益掛鉤,教師也可能根據(jù)評價規(guī)則調(diào)整其教學(xué)行為策略。
本研究所用數(shù)據(jù)由課題組以多階段整群抽樣方法在湖北省和廣東省22 區(qū)縣采集而得,此項調(diào)研共收集了645 名教師和4000 多名學(xué)生的信息。班級是最后階段的抽樣單位,最基本的抽樣元素包括2233 名小學(xué)5 年級學(xué)生和1965 名初中8 年級學(xué)生。被抽樣班級的所有學(xué)生均參與問卷答題和紙筆測試,而班級的部分任課教師參與了教師問卷的填寫。筆者根據(jù)教師在“您現(xiàn)在任教的主要學(xué)科”選項中的答題情況確定教師的主授科目。語文、數(shù)學(xué)和英語三科教師樣本分別為181 人、153 人和159 人③,并根據(jù)學(xué)校名稱和班級代碼將教師數(shù)據(jù)與學(xué)生數(shù)據(jù)進行匹配④,這個匹配過程損失了大量樣本,僅有237 名教師可與他們所教班級的學(xué)生匹配,各學(xué)科約三分之一被訪教師進入最終分析流程。能與學(xué)生所在班級匹配的語文教師、數(shù)學(xué)教師和英語教師分別是75 人、70 人和69 人,而在所有變量上均提供了有效信息的語文教師、數(shù)學(xué)教師和英語教師人數(shù)分別是67,67 和42。
課題組對入樣班級的所有學(xué)生進行了語文、數(shù)學(xué)和英語三個科目的現(xiàn)場測試⑤。語文成績、數(shù)學(xué)成績、英語成績?nèi)齻€測試科目的卷面滿分為100。由于參加考試的學(xué)生分別就讀于小學(xué)5 年級和初中8 年級且試卷內(nèi)容截然不同,原始分?jǐn)?shù)不可比性。筆者先按學(xué)段將各科成績標(biāo)準(zhǔn)化為均值為0 和標(biāo)準(zhǔn)差為1 的Z 分?jǐn)?shù),然后按照計分習(xí)慣將其二次平移為均值是70、標(biāo)準(zhǔn)差是10 的分?jǐn)?shù)。語文、數(shù)學(xué)和英語三個科目最終用于分析的二次標(biāo)準(zhǔn)化成績分別用C、M和E表示。由于存在缺失值以及師生匹配過程中的樣本損失,有效樣本的均值和標(biāo)準(zhǔn)差與二次標(biāo)準(zhǔn)化的分?jǐn)?shù)略有區(qū)別。
公式1 所示,第c個班級的第i個學(xué)生的第j門課程成績首先與他自己個人特征有關(guān),學(xué)生個人特征向量(X)包括性別、所在學(xué)段、父母受教育年限和職業(yè)類別、父母是否陪讀、父母工作地點變動情況及學(xué)生是否隨遷外出或留守、每天的零花錢等。筆者利用不作為結(jié)果變量的其他兩個科目考試成績(Aj′,Aj″)作為學(xué)生學(xué)業(yè)基礎(chǔ)的代理變量,以消除不隨學(xué)科而變的學(xué)生個體不可觀測特征,這種方法也被稱之為“截面增值模型”(Hanushek,Piopiunik and Wiederhold,2019)。
由公式1 可知,學(xué)生的成績圍繞班級均值β0c在ε范圍內(nèi)隨機波動。剔除學(xué)生個體特征(X)和其他科目成績(Aj'和Aj'')的影響后,班級成績的條件均值β0c是學(xué)生個人成績的最佳期望值,而班級成績的條件均值是任課教師資歷特征(T)和學(xué)校特征(S)共同作用的結(jié)果。如公式2 所示,在控制教師受教育年限、工作經(jīng)驗、職稱等級(未評級、初級、中級、高級)、身份類型(公辦教師、特崗教師、代課教師或其他途徑)、學(xué)校區(qū)位(農(nóng)村、鄉(xiāng)鎮(zhèn)或城區(qū))及其聘用新教師的最低學(xué)歷標(biāo)準(zhǔn)等因素的影響后,班級平均成績圍繞總體均值γ00上下波動,波動幅度是班級層面的誤差項u0c。
HLM 通常始于不加入任何解釋變量的零模型,即單因素方差分析。零模型將被解釋變量的總方差分解為組間方差(第二層方差u0c2)與組內(nèi)方差(第一層方差ε2)。表1 第I 組結(jié)果顯示,由零模型得到的ICC 值介于0.34?0.57 間,班級層面的成績方差占比約為34%?57%,符合兩水平HLM 建模要求。由于有效分析樣本中不存在一名教師教授多個班級的情況,班級層面的方差也可被視為教師層面的方差。因此,上述結(jié)果也體現(xiàn)了教師對學(xué)生成績的重要作用。
將所有控制變量均帶入公式3 得到表1 第Ⅱ組結(jié)果。第(4)?(6)列結(jié)果顯示,剔除若干控制變量的影響后,語文教師和數(shù)學(xué)教師的教學(xué)質(zhì)量差異顯著,分別占學(xué)生成績總差異的14%和21%,相對而言,英語教師教學(xué)質(zhì)量導(dǎo)致的學(xué)生成績差異比例相對較?。?%)。如前所述,ICC/(1?ICC)刻畫了教師教學(xué)對全班學(xué)生成績的整體影響,表1 第(4)?(6)列的輔助統(tǒng)計量ICC/(1?ICC)表明,其他條件都相同的兩個班級由教師教學(xué)質(zhì)量差異所致的學(xué)業(yè)成績差異介于0.07?0.27 個標(biāo)準(zhǔn)差間。其中,學(xué)生的數(shù)學(xué)成績受教師教學(xué)質(zhì)量影響最大,“教得好”的數(shù)學(xué)教師可將全班學(xué)生數(shù)學(xué)成績整體提升0.27 個標(biāo)準(zhǔn)差;而英語教師教學(xué)質(zhì)量對學(xué)生成績差異的影響最小,教學(xué)質(zhì)量高的英語教師僅能將全班學(xué)生成績整體提升0.07 個標(biāo)準(zhǔn)差。上述結(jié)果與Goldhaber,Brewer 和Anderson(1999)利用美國教育追蹤調(diào)查數(shù)據(jù)(National Educational Longitudinal Study,1988)的分析結(jié)果大致相同。究其原因可能是,學(xué)生在數(shù)學(xué)科目上的可塑性更強,只要教師教會了學(xué)生基本思維方法并舉一反三地練習(xí),提高數(shù)學(xué)成績相對容易,但語文和英語等語言學(xué)科需要長期積累,教師在短期內(nèi)提高學(xué)生成績的難度較大(Chetty,F(xiàn)riedman and Rockoff,2014;雷萬鵬和馬紅梅,2019)⑥。上述研究結(jié)果的啟示是,數(shù)學(xué)教師可更充分地利用相互觀摩和合作的方式提高教學(xué)技能與質(zhì)量,從而更高效地促進學(xué)生數(shù)學(xué)成績的提升。
表1 基于HLM 的學(xué)生成績方差分解
筆者結(jié)合表1 中的教師教學(xué)邊際效應(yīng)量做了推算。如果將教學(xué)質(zhì)量最差的教師替換為平均水平的教師,語文、數(shù)學(xué)和英語成績最低的班級均分將分別提高4.7 分、4.5 分和6.9 分,約相當(dāng)于0.5?0.7 個標(biāo)準(zhǔn)差。而如果讓一名教學(xué)質(zhì)量處于平均水平的教師教成績最好的班級,全班學(xué)生的語文、數(shù)學(xué)和英語三科成績將分別降低3.3 分、10.5 分和9.2 分;換言之,成績最好的班級若被安排給教學(xué)質(zhì)量處于平均水平的教師任教,全班學(xué)生的三科成績將集體下滑0.3?1 個標(biāo)準(zhǔn)差。這與Borman 和Kimball(2005)得到的教師教學(xué)質(zhì)量效應(yīng)量置換分析結(jié)果大致相同⑦。筆者根據(jù)表1 第(4)?(6)列結(jié)果簡要描述教師教學(xué)質(zhì)量的分布特征,得到以下兩個結(jié)論。
第一,如表2 第三行結(jié)果所示,三個科目中均有近50%學(xué)生的預(yù)期成績低于班級均值,但數(shù)學(xué)教師可使56.9%的學(xué)生的預(yù)期成績超過班級均值。而且,由于成績預(yù)期值低于班級均值的那部分學(xué)生的負(fù)殘差和總體上大于成績預(yù)期值高于班級均值的那部分學(xué)生的正殘差之和,因此,語文教師、數(shù)學(xué)教師和英語教師對學(xué)生個人層面的學(xué)業(yè)增值貢獻均值均為負(fù),分別是?0.346、?0.026 和?1.097,且標(biāo)準(zhǔn)差均大于5。這表明,同樣的教學(xué)質(zhì)量對不同學(xué)生的學(xué)業(yè)增值影響差異較大。
第二,如表2 最后一行結(jié)果顯示,經(jīng)過收縮因子調(diào)整的班級層面成績殘差值之和為正的語文、數(shù)學(xué)和英語教師比例分別是38.5%、53.8%和44.6%。換言之,語文和英語科目的教師實現(xiàn)有效教學(xué)的難度更大,而超過一半的數(shù)學(xué)教師均做到了有效教學(xué)。這也可以從表2 倒數(shù)第二行的結(jié)果得到證實,數(shù)學(xué)教師對整個班級的平均影響是0.023 個標(biāo)準(zhǔn)差,但語文和英語科目的教師教學(xué)質(zhì)量指數(shù)均為負(fù)數(shù)。
表2 教師教學(xué)質(zhì)量的分布特征
基于湖北和廣東兩省的調(diào)研數(shù)據(jù),本研究利用HLM 方法預(yù)測學(xué)生成績,通過學(xué)生成績預(yù)測值與班級均值間的殘差構(gòu)造教師教學(xué)質(zhì)量指標(biāo)。我們將學(xué)生成績預(yù)測值與班級均值之間的殘差視為由教師教學(xué)給學(xué)生學(xué)業(yè)增值帶來的凈效應(yīng),以此為基礎(chǔ)探討語文、數(shù)學(xué)和英語三門課程任課教師的教學(xué)質(zhì)量效應(yīng)量及其差異。本文對識別高效優(yōu)質(zhì)教師和推動教師評價改革、改進教學(xué)過程公平等方面具有現(xiàn)實意義和應(yīng)用價值。
本研究的主要結(jié)論是:第一,教師教學(xué)質(zhì)量對學(xué)生學(xué)業(yè)增值影響較大,教師之間教學(xué)質(zhì)量差異也較大。在控制了學(xué)生背景特征、教師資歷特征和學(xué)校特征等因素后,教師的教學(xué)質(zhì)量每相差一個單位,學(xué)生成績分別變動0.3?0.5 個標(biāo)準(zhǔn)差。其中,數(shù)學(xué)教師教學(xué)質(zhì)量的邊際效應(yīng)量最大,約0.5 個標(biāo)準(zhǔn)差;而英語教師和語文教師的邊際效應(yīng)分別為0.3 個標(biāo)準(zhǔn)差和0.4 個標(biāo)準(zhǔn)差。若教學(xué)質(zhì)量最低的教師均能達到平均水平,全班學(xué)生三科成績可提高0.5?0.7 個標(biāo)準(zhǔn)差;若將教學(xué)質(zhì)量最好的教師替換為平均水平的教師,全班成績將整體下滑0.3?1 個標(biāo)準(zhǔn)差。第二,同一教師對不同學(xué)生的學(xué)業(yè)發(fā)展的貢獻差異較大。由于成績預(yù)期值低于班級均值的學(xué)生的負(fù)殘差和整體上多于成績預(yù)期值高于班級均值的學(xué)生的正殘差和,教師教學(xué)質(zhì)量的均值較低且變異系數(shù)大。
本文有兩個尚待改進之處:一是科學(xué)地評價教師教學(xué)質(zhì)量有賴于扎實的基礎(chǔ)數(shù)據(jù)建設(shè)工作作為支撐,今后可利用追蹤調(diào)查的方式建設(shè)多期數(shù)據(jù),基于多期數(shù)據(jù)的增值評估方法可提高研究結(jié)果的精確性。二是利用學(xué)生成績殘差分解技術(shù)評估教師教學(xué)質(zhì)量的方法的便捷性和可操作性不足,一線教育教學(xué)工作者較難掌握,未來還需要探索更簡潔實用的方法,以更好地服務(wù)于教師績效評價實踐工作。
(黃華明為本文通訊作者)
華東師范大學(xué)學(xué)報(教育科學(xué)版)2021年7期