張厚粲
(北京師范大學,北京 100875)
教育測量學:高考科學化的技術保障
張厚粲
(北京師范大學,北京 100875)
高考在教育領域發(fā)揮著“指揮棒”的作用。將心理統(tǒng)計測量技術用于高考研究,為提高高考試題質量提供了科學依據(jù),使高考能夠對考生作出客觀、全面的評價。教育和心理測驗的發(fā)展趨勢不僅是預測考生今后在大學的學習成績,還要關注考生的學習發(fā)展。
恢復高考;高考改革;測驗技術;高校招生
從1977年恢復高考以來,高考已經走過了40年。40年來,高考一直是全社會關注的焦點,在教育領域發(fā)揮著“指揮棒”的作用?;赝?0年來我們走過的路,或許可以對今天的高考改革有所啟發(fā)。
1979年,我首次給北京師范大學心理專業(yè)“文化大革命”后招收的第一個班——78級同學開設了《心理統(tǒng)計》課程。1980年,我又邀請出生于中國臺灣、畢業(yè)于美國明尼蘇達大學心理系的林安玲老師給78級同學開設了《心理測驗》課程。同學們通過學習認識到,借助于心理教育測量學理論和統(tǒng)計學技術,可以對考試的多方面特質,包括難度、題目區(qū)分度、信度、效度、公平性等進行檢驗,從而可以改進和提高考試的質量,加強考試的科學化程度。考慮到高考在當時具有非常重要的意義,在我的鼓勵和指導下,心理專業(yè)78級的同學嘗試將心理統(tǒng)計測量技術用于高考研究,對高考試卷的質量進行了第一次統(tǒng)計檢驗。
我們研究小組將最初的研究結果撰寫成《對高考試題的統(tǒng)計分析》一文,發(fā)表在《北京師范大學學報(社會科學版)》1981年第5期。在這篇文章中,我們提出,高考選拔測驗的工具是試卷,試題的好壞對高考質量有重要的影響。好的試題具有良好的區(qū)分、鑒別能力,它可以把學習好的和學習較差的學生準確地區(qū)分開來,以備擇優(yōu)錄取。如果試卷質量不夠理想,就不能把最好的學生選拔出來。提高試卷質量是做好高考工作的保證,僅僅憑借個人的經驗進行高考命題,不足以保證高考試題和試卷的質量;20世紀以來,對學習成績的評定已成為一門專門的學科——“心理和教育測量學”,只有基于心理和教育測量原理進行試題和試卷的統(tǒng)計分析,才可以彌補個人經驗的不足,從而使高考對考生作出更客觀、更全面的評價[1]。
在對取樣問題進行分析討論之后,我們對取自1979年和1980年高考試卷的兩個樣本進行了統(tǒng)計分析,分析的內容包括難度、區(qū)分度、信度。與此同時,我們還通過北京師范大學教務處取得數(shù)學、物理、化學等系的學生高考入學成績和在校成績,計算高考的效度系數(shù)。
效度研究發(fā)現(xiàn),只有數(shù)學高考成績可以較好地預測大學學習成績,而政治、語文等科目鮮有預測能力。信度研究發(fā)現(xiàn),1979年物理試卷的α系數(shù)達到0.957,1979年數(shù)學試卷的α系數(shù)達到0.869,1980年化學試卷的α系數(shù)達到0.856,信度比較理想。但是,其他許多科目試卷的信度并不理想。通過區(qū)分度分析,各個科目的試卷中都發(fā)現(xiàn)了一些區(qū)分度較好的題目,也發(fā)現(xiàn)了一些區(qū)分度較差的題目。這些結果,可以為改進高考命題工作提供實證依據(jù)。難度分析發(fā)現(xiàn),1979年和1980年高考試卷均存在一些過難或過易的試題。正是這些難度不當?shù)脑囶},降低了考試的區(qū)分度。
在這篇文章中,我們結合研究成果比較系統(tǒng)地介紹了效度、信度、難度、區(qū)分度等心理測量學的基本概念,介紹了心理測量學的基本原理。
研究結論認為,高考試題中盡管某個學科試卷和一部分試題具有較好的質量,但仍然存在許多質量不高的試題和試卷,試題的質量很不穩(wěn)定。造成這種參差不齊現(xiàn)象的最主要原因是依舊沿用經驗式命題方法。一個人的經驗再豐富,也難免帶有一定的局限性。再好的售貨員不用尺或秤,而僅憑經驗賣布賣糖是會出錯的。同樣,再有經驗的教師僅憑經驗來編制測驗也并不可靠,很難保證試題質量。因此,我們認為,應更多地采用客觀性選擇題。有人擔心選擇題雖然會提高測驗的信度,但由于選擇題不能考查學生綜合運用知識的能力,因此又會降低效度。我們認為,一個試題能否考查綜合運用能力,不在于其形式是選擇題還是論述題,而在于其內容,良好的選擇題同樣可以考查這種能力,更何況一份試卷可以包含多種題型。為了不斷提高試題的質量,應該大力開展教育和心理測量學研究,應盡快成立專門的常設研究機構,負責研究教育測量問題,同時也要培養(yǎng)我國的教育測量技術隊伍。
在實證研究的基礎之上,我們建議在高考中更多地采用客觀性選擇題。雖然論述題能夠較好地考查學生組織材料能力和創(chuàng)造能力,但評分過程難以克服主觀因素的影響,評分者信度不高,很難反映學生的真實水平。研究發(fā)現(xiàn),1983年高考同一份語文卷不同省份間評分差距高達33分,同一省內評分差距高達23分,其中作文差異最大,滿分45分的作文,評分差距高達27分。
在這篇文章中,我們還對根據(jù)雙向細目表編制試卷、對試題進行統(tǒng)計分析、題庫建設、常模建設等方面提出了具體的建議。
結合實證研究結果,我們提出在高考的總分計算中以標準分取代原始分的建議。我們以1984年高考成績?yōu)槔齺碚f明采用標準分計算總分的必要性。1984年高考的數(shù)學考試,題目出得活,對知識的覆蓋面寬,著重考査學生靈活思考、綜合運用已有知識的能力。試卷分析結果表明,對于高分考生具有很好的題目區(qū)分度,適合當時全國高考錄取率很低的實際情況。但是,試題過難,在全國19個省、市、自治區(qū)中,及格率最高的省份為23.1%,最低的省份只有0.73%,總平均及格率為10.8%,因此,在高考總分中,數(shù)學成績所占比重很小,對于大學錄取的影響微乎其微。相反,語文、政治等容易得分的科目在大學錄取中反而發(fā)揮了較大的作用。
在教育部有關司局的支持下,尤其是得到當時負責招生處工作的楊學為同志的大力支持與協(xié)助,我們又進行了一系列的后續(xù)研究,對高考試卷進行了更加深入的統(tǒng)計分析。
在效度研究方面,我們從全國6個大區(qū)各種水平、各種類型的16所高等院校抽取了24個教學班為樣本,以大學一年級的各科學習成績總分作為效標,對1978年、1979年兩個年度的高考進行了效度分析。樣本包含清華大學、同濟大學、四川大學、蘭州大學等。結果,在24個相關系數(shù)中只有5個達到了顯著性水平,不及總數(shù)的21%。其中出現(xiàn)了6個負相關,占總數(shù)的25%。這一結果表明,高考總分并不能有效地預測學生考入大學后的學習成績。
我們分別從北京的市重點中學、區(qū)重點中學和普通中學中取樣,按文理科分別計算了高考成績與中學各科成績的相關。結果,除政治科外,其他各科的相關系數(shù)都達到顯著水平,即高考成績與中學成績之間表現(xiàn)出了很大的一致性。另外,我們請班主任和主要任課教師在高考前填寫《中學生學習能力評定量表》,對每位學生從4個方面進行等級評定,內容包括思維能力、記憶力、一般學習品質和社會活動能力,評定內容包含“高考錄取可能性”一項。高考成績公布后,我們發(fā)現(xiàn)中學教師評定的預測效度極好,高考總分與評定總分的相關為0.76,高考總分與錄取可能性評定的相關為0.99。這一結果表明,中學教師對學生的了解是比較準確的。我們建議,不斷完善評定量表,使中學教師在幫助高校選拔人才中發(fā)揮應有的作用,從而克服一次高考定終身的簡單化的弊病。
在預測大學學習表現(xiàn)方面,高考的哪些科目預測效度較好?哪些科目預測效度較差?對此,我們進行了實證效度研究。我們用多元回歸的方法,以清華大學、北京工業(yè)大學、北京中醫(yī)學院等7所大學某些專業(yè)的83級學生為樣本,以他們在大學一年級的各科學習總成績作為效標(Y),以高考的各科分數(shù)建立對Y的多元回歸方程,并比較各個偏回歸系數(shù)。我們?yōu)椴煌瑢I(yè)建立了可以對不同高考科目分數(shù)加權的回歸方程。從這個回歸方程中可以看出,不同高考科目對不同專業(yè)的大學學習成績的預測效度不同。我們發(fā)現(xiàn),對于每個專業(yè),都有3~4科高考成績具有較好的預測效度。例如,對于計算機專業(yè)的學生,外語、數(shù)學和物理3科的預測效度明顯高于語文、政治、化學、生物4科。對于醫(yī)學專業(yè)的學生,數(shù)學、物理、化學、生物4科的預測效度明顯高于政治、語文、外語3科。在7科中,以高考化學成績的預測效度最高,明顯高于其他6科。我們還發(fā)現(xiàn),政治和語文兩科對各個專業(yè)的預測效度都很差,與大學學習成績的相關系數(shù)極低,政治成績甚至出現(xiàn)與大學學習成績的負相關。據(jù)此,我們建議高考根據(jù)測試的不同要求分兩次進行。一次是以檢査中學知識和一般學習能力為目的的中學畢業(yè)統(tǒng)考,考試科目可以較全;另一次是選拔性考試,目的是為培養(yǎng)某一專業(yè)方向的高級人才選拔優(yōu)秀中學畢業(yè)生,內容只包括與專業(yè)學習關系密切的3~4個科目。我們建議將語文和政治兩科的考查問題放到中學畢業(yè)時的資格考試。
考試不僅僅具有選拔功能,更重要的是可以為學生、教師和家長提供改進學習的反饋信息,可以借助“大數(shù)據(jù)”來改進學習。早在20世紀80年代初,我就指出,教育和心理測驗的發(fā)展趨勢是從關注預測轉向關注學生發(fā)展。
在1983年第4期的《教育研究》中,我發(fā)表了《智力概念的演變和智力測驗發(fā)展的新趨勢》[2]一文。我在文中指出:“心理測驗當前正在從強調診斷和預測轉向強調發(fā)展和提高人們的智力水平。這是心理測驗發(fā)展的一個更為重要的方面?!蔽乙昧松4耍≧.L.Thorndike)1975年在《比奈測驗七十年以后》一文中的一段文字:“從使教育對所有兒童和青年最大限度地發(fā)揮作用這一目的出發(fā),我們必須認真面對這樣一個由來已久而又一直未受到重視的問題——因材施教,即為發(fā)展每個人的能力提供最為有效的措施。一個對學習能力的良好測量還并不等于最佳的教育措施。”另外還引用了比奈1908年在談及自己的研究目的時一段文字:“對兒童正常發(fā)展的深刻了解,不只是非常有趣,而且將有助于進行真正適合兒童能力的教學?!蔽以谖恼轮兄赋?,心理測驗的目的應確定為“提高教學質量、促進智力發(fā)展”。這種轉變反映出,隨著社會和科學的發(fā)展,心理測驗作為一門科學也發(fā)展到了更高級的階段。
精心編制的測驗可以幫助學生發(fā)現(xiàn)學習中的系統(tǒng)性錯誤。在這篇文章中,我結合幾個小學生學習四則運算過程的具體案例,說明精心編制的測驗可以把復雜的技能分解為構成它的一些基本思維、操作過程和基本能力要素,可以根據(jù)特定的錯誤類型確認出學生的系統(tǒng)性錯誤,即不僅指出錯誤的數(shù)量,也指出錯誤的性質和根源。這種診斷性方法在教學上的重要意義是顯而易見的。這是心理測驗的一個重要的發(fā)展方向。
回望40年前我們關于高考改革和考試科學化所做的研究和所提出的建議,我發(fā)現(xiàn),一些建議已經實現(xiàn):(1)對試題進行統(tǒng)計分析,對試題和試卷質量進行定量化評價;(2)按照“考試藍圖”設計試卷,命制試題;(3)將標準參照的高中學業(yè)水平考試與選拔性的競爭考試分開;(4)減少高考科目,根據(jù)大學不同專業(yè)的需要,按照大學的要求,由考生自己選考若干科目;(5)更多地采用客觀性試題;(6)由高中教師對學生進行綜合評價。
受制于種種制約條件,一些建議尚未實現(xiàn):(1)讓高中教師在高校招生中發(fā)揮作用,獲得更大的發(fā)言權;(2)為了保證考試質量進行考前預測;(3)建立跨年度常模,使高考發(fā)揮教育發(fā)展監(jiān)測的作用。
我們關于高考總分采用標準分的建議,在20世紀90年代曾經被全國許多省份采用。進入21世紀之后,又出現(xiàn)了回潮和反復,凸顯了改革道路的艱難和曲折。
2013年11月12日,十八屆三中全會通過的《中共中央關于全面深化改革若干重大問題的決定》(以下簡稱《決定》)第42條明確闡明:“推進考試招生制度改革,探索招生和考試相對分離、學生考試多次選擇、學校依法自主招生、專業(yè)機構組織實施、政府宏觀管理、社會參與監(jiān)督的運行機制,從根本上解決一考定終身的弊端。”[3]《決定》明確發(fā)出了高考制度改革的信號,為教育改革指明了方向,今天需要下決心加以落實。
2014年9月4日頒布的《國務院關于深化考試招生制度改革的實施意見》中明確指出:改革招生錄取機制,探索基于統(tǒng)一高考和高中學業(yè)水平考試成績、參考綜合素質評價的多元錄取機制[4]。這是當前和今后一個時期指導考試招生制度改革的綱領性文件,標志著新一輪考試招生制度改革全面啟動。
我固然為自己40年前基于實證研究結果提出的改革建議得到認同、在提高國家文化教育水平、促進社會發(fā)展和民族復興方面起到積極作用而感到欣慰,但我也知道,從“寫入文件”到真正實施之間,仍有雄關漫道需要跨越。因此,為了將《決定》和《實施意見》變?yōu)楝F(xiàn)實,我們還需要繼續(xù)奮斗。盡管我今年已經90歲了,但我仍然愿意和大家一道繼續(xù)推進大學招生制度的改革。
[1]心理系測驗研究小組.對高考試題的統(tǒng)計分析[J].北京師范大學學報(社會科學版),1981(5).
[2]張厚粲.智力概念的演變和智力測驗發(fā)展的新趨勢[J].教育研究,1983(4).
[3]中共中央:十八屆三中全會關于全面深化改革若干重大問題的決定[EB/OL].(2013-11-12)[2013-11-15].http://news.xinhuanet.com/politics/2013-11/15/c_118164235.htm.
[4]國務院.關于深化考試招生制度改革的實施意見[EB/OL].(2014-09-03)[2014-09-08].http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/moe_1778/201409/174543.html.
Educational Measurement as Significant Technical Support:Looking Back on College Entrance Examination over the 40 Years
ZHANG Houcan
(Beijing Normal University,Beijing 100875,China)
College Entrance Examination plays the role of“baton”in the field of education.The application of psychological statistical measurement techniques to the study of College Entrance Examination provides a scientific basis for improving the quality of College Entrance Examination so that College Entrance Examination can make an objective and comprehensive evaluation of the examinees.The development trend of education and psychological testing is not only to predict examinees’future academic achievement in college,but also to help them during their learning and development processes.
Resumption of the College Entrance Examination;College Entrance Examination Reform;Measurement Techniques;College Admission
G405
A
1005-8427(2017)08-0004-4
10.19360/j.cnki.11-3303/g4.2017.08.002
張厚粲(1927—),女,北京師范大學心理學院,心理學家,教授。
(責任編輯:周黎明)