陳寧
Toulmin推斷模型在考試效度論證中的應用
陳寧
Stephen E.Toulmin是20世紀下半葉最有影響的哲學家之一。他創(chuàng)立的實用推斷模型已被應用于眾多領域,包括教育和心理測量。在介紹Toulmin推斷模型的基礎上,本文著重闡釋了基于推斷的效度論證及Toulmin模型在效度論證中的應用(以新托福的效度論證為范例)。最后,為推動相關工作在我國的開展,文章提出了3點建議:(1)重視考試的效度論證;(2)積極嘗試運用Toulmin模型開展考試效度研究;(3)以效度論證推動考試改革。
Toulmin推斷模型;效度論證
Stephen E.Toulmin(1922—2009)是 20世紀下半葉最有影響的哲學家之一。1958年,他提出了實用推斷的主張,并據(jù)此創(chuàng)立了“六要素推斷法”,即Toulmin推斷模型(以下簡稱“Toulmin模型”)(Toul?min,1958)。半個多世紀以來,Toulmin模型在眾多領域得到了卓有成效的應用,顯示了廣闊的應用前景。20世紀90年代,Kane(1992)把該模型引入教育和心理測量中的效度論證,為效度論證提供了一個較為科學的思路和框架。
實用推斷源于與形式邏輯截然不同的兩個基本觀點:
形式邏輯中的三段論武斷地認為,前提本身毋庸置疑,不需要證明,而Toulmin認為,很多時候,導出結論的理據(jù)本身并非不言而喻,同樣需要證據(jù)來支持。
形式邏輯認為,推斷是通過推理導出新的觀點,而實用推斷認為,推斷是在推理過程中驗證和篩選既有觀點,或者說,首先要給出一個感興趣的觀點,然后提供該觀點正確的理由。
由此可見,傳統(tǒng)的形式邏輯是絕對主義的純理論推斷。相比之下,實用推斷反映現(xiàn)實,更能滿足實際需要,是Toulmin模型的理論基礎。
基于實用推斷的主張,Toulmin認為,推斷是由素材(grounds)、依據(jù)(warrant)、聲明(claim)、支撐(backing)、限定(qualifier)及反駁(rebuttal)6個要素組成的。這6個要素以及它們之間的內(nèi)在關系構成了Toulmin模型,如圖1所示。
圖1 Toulmin推斷模型
推斷即由素材推導出聲明,推導遵循依據(jù)。素材、聲明和依據(jù)是Toulmin模型中的三個基本要素。
支撐支持依據(jù)或證明依據(jù)成立。在獲得充分的證據(jù)之前,依據(jù)只是一種假設。
表明聲明強度的詞語被稱為限定,如“或許”、“可能”、“大多”、“一般情況下”等。
有的情況下,依據(jù)不成立,進而推斷也不成立。這種情況被稱為“反駁”。
在有些推斷中,支撐、限定或反駁不是那么顯著或重要,被稱為Toulmin模型中的備擇要素。
例1:他多年工作在教學第一線。憑經(jīng)驗,他認為,一般情況下,高考數(shù)學成績好的學生大學數(shù)學也會學得較好。
上面這段話包含著一個推斷。“大學數(shù)學也會學得較好”是推斷的結論,即聲明。這一結論的基礎是相關學生“高考數(shù)學成績好”,此所謂素材。由“高考數(shù)學成績好”推導出“大學數(shù)學也會學得較好”是“憑經(jīng)驗”,此所謂依據(jù)。
說他有經(jīng)驗,證據(jù)或支撐是“他多年工作在教學第一線”?!耙话闱闆r下”是對聲明的限定;與此同時,它所隱含的“特殊情況”則會使結論不成立,此所謂反駁。
例2:(全模型回歸方程和逐步型回歸方程)都是在0.99水平下顯著,表明X與Y之間的線性關系是極顯著的,即大學變量與高考變量的線性相關關系極為顯著……因此,利用高考成績和回歸方程可以較好地預測大學一、二年級的學習成績。
上面這段話選自一個關于大學學習成績與高考成績關系的實證研究(高晶、陸仲偉,1994)。這段話包含著一個推斷:高考成績X是素材,大學一、二年級的學習成績Y是聲明,聯(lián)結二者的依據(jù)是表明它們存在顯著的線性相關關系的兩個回歸方程。
依據(jù)的支撐是用多元統(tǒng)計中的回歸分析進行的實證研究。“較好地”是對聲明的限定。方差分析表明,大學成績變量與高考成績變量的線性相關關系極為顯著,但個別情況下仍可能顯著偏離這種線性相關關系,此謂反駁。
實際上,Toulmin模型凸顯了推斷的證明功能及推斷者的責任:提出聲明的同時,推斷者有責任說明聲明的來龍去脈,并在聲明受到挑戰(zhàn)時進行辯護,也就是說,要“把它做好,并證明它是站得住腳的”(Toulmin,1958),而這正是考試效度論證要做的。
要理解基于推斷的考試效度論證,首先要準確理解教育評價中的兩個重要概念——效度和效度論證。
關于效度和效度論證,《教育與心理測量標準》(APA,AERA,&NCME,1999)開宗明義:
效度指的是證據(jù)和理論支持測驗的意向性用途所必然要求的測驗分數(shù)解釋的程度。因此,開發(fā)和評估測驗時,效度是最根本的考量。效度論證過程涉及累積證據(jù),為的是給意向性分數(shù)解釋提供一個合理、科學的基礎。評估的是意向性用途所要求的測驗分數(shù)解釋,而非測驗本身。
這段話清楚地表達了以下幾層含義:第一,效度直指測驗結果的解釋和使用。第二,效度不是一個測驗的靜態(tài)屬性,而是關于測驗成績解釋和使用的合理性的動態(tài)觀點。第三,一個測驗質量如何,關鍵是看成績解釋和使用在多大程度上是合理和有效的。第四,歸根結底,效度論證就是要論證解釋和使用測驗結果的合理性。第五,為效度論證,要累積證據(jù)。效度論證的過程就是開發(fā)、收集、使用相關證據(jù)的過程。
可是,“效度是簡單的,效度論證會是困難的”(Kane,2009),實踐中,如何為效度論證累積證據(jù),累積哪些,累積多少,是必須面對的現(xiàn)實問題,而基于推斷的效度論證為較好地解決這些問題提供了一個科學的框架。
基于推斷的考試效度論證的基本構想是:為了論證測驗分數(shù)的意向性解釋和用途的合理性,就要分析分數(shù)的意向性解釋和用途所包含的支持性推斷,進而論證推斷的合理性。為論證推斷的合理性,就要開發(fā)、收集相關理論和實證證據(jù)——既包括支持性的,又包括反駁性的。最終,把推斷及相關證據(jù)整合成一個連貫的、令人信服的整體,就是效度論證?!巴ㄟ^把效度論證的努力聚焦于解釋和用途中所固有的推斷和假設,效度論證者可避免兩個極端:一個是使用一些方便但有限的證據(jù)來源來證明一個雄心勃勃的解釋和用途的合理性,另一個是承擔一個不堪重負的要求——收集每一種可能的證據(jù)。”(Kane,2009)
效度被定義為對測驗分數(shù)的意向性解釋和用途的評估。從這個意義上講,不管是在種類還是數(shù)量上,效度論證所需要的證據(jù)和推斷都取決于測驗分數(shù)的意向性解釋和用途。如果分數(shù)的意向性解釋簡單直接,基本停留在對被觀察表現(xiàn)的直接歸納上,效度論證所需要的推斷和證據(jù)就很少,甚至根本不需要什么推斷和證據(jù)。反之,分數(shù)的意向性解釋超越被觀察表現(xiàn)越遠,效度論證所需要的推斷和證據(jù)就越多(Kane,2009)。譬如,如果語文老師報告學生能夠認讀一千個特定的漢字,這個結果就可能被如數(shù)接受。如果該結果被用來證明學生的語文學得好,我們可能首先要問:語文學得好的標準是什么?為什么這些特定的漢字適合用作這個年齡和性別的學生甚至是學生總體的語文水平的量尺?可是,如果這些漢字的認讀情況被用來證明學生的數(shù)學性向,我們就會置之不理??傊?,在效度論證中,瞄準分數(shù)的意向性解釋是至關重要的。
一般說來,大規(guī)模標準化測驗分數(shù)的意向性解釋和用途要包含若干個推斷。各推斷按一定次序逐級遞進。也就是說,每一個推斷的成立都是后一推斷得以推進的基礎。宣稱一個意向性解釋和用途有效,就意味著該論證是連貫的,所包含的推斷和假設都被證明是成立的(Kane,2006)。相反,任何一個推斷不成立,后續(xù)推斷都不可能成立,進而分數(shù)的意向性解釋和用途就是不合理的、無效的。
新托??荚嚕ㄓ址Q“托福網(wǎng)考”,英文簡稱TOEFL-iBT)是應用Toulmin模型開展效度論證的典范,下面作簡要介紹。欲了解細節(jié)者,請閱讀Chapelle,Enright&Jamieson(2008)。
如圖2所示,指向分數(shù)解釋(學術英語水平的證明)和使用(以英語為教學媒介的大學遴選國際學生的依據(jù)之一)的新托??荚嚨男Ф日撟C依次跨越領域描述(domain description)、評估(evaluation)、概化(generalization)、解釋(explanation)、類推(extrapo?lation)和使用(utilization)6級推斷。
領域描述指的是,在分析目標領域(北美高等教育環(huán)境中的英語語言運用)(素材)的基礎上,確定測驗領域(聽、說、讀、寫各語言技能及代表性任務),以準確獲取分數(shù)解釋的對象——考生在題目上的可觀察表現(xiàn)(observable performance)(聲明)。該推斷的依據(jù)是,相關的可觀察表現(xiàn)反映了目標領域的代表性情景中所需要的知識、技能和能力。
三項工作構成對依據(jù)的支撐:(1)應用語言學專家辨明了學術領域的典型任務;(2)應用語言學專家辨明了學術任務所要求的語言能力;(3)制定了題目模板(task shells)
評估要得出的結論是,相關的觀察表現(xiàn)(ob?served performance)(素材)被賦予了精確的觀察分數(shù)(observed score)(聲明),其依據(jù)是,觀察表現(xiàn)得到合理評估,觀察分數(shù)反映了目標語言能力。
三項工作構成了對依據(jù)的支撐:(1)專家們制定了評分標準;(2)專家們制定了題目作答模式;(3)對題目、各分項技能測驗及相關分數(shù)進行了實證分析。
概化連接的是精確的觀察分數(shù)(素材)與一致的預期分數(shù)(expected socre)(聲明)。該推斷成立的依據(jù)是,觀察分數(shù)是平行題目、試卷上及不同評分人間預期分數(shù)的準確估計。
五項工作構成了對依據(jù)的支撐:(1)實證研究表明,題目數(shù)量是合適的;(2)實證研究表明,題目結構是合理的;(3)選定了最佳評分策略;(4)制定了標定和等值方案。
解釋要得出的結論是,預期分數(shù)(素材)準確反映了目標構念(target construct)(聲明),其依據(jù)是,預期分數(shù)的取得歸因于目標構念。新托福的目標構念是學術英語水平。
四項研究結果構成對依據(jù)的支撐:(1)對題目作答過程和結果的研究表明,試題的設計是合理的;(2)與其他考試的相關度及因素結構(factor structure與期望相符;(3))考試成績與英語學習的關系與期望相符。
類推連接的是目標構念(素材)和目標分數(shù)(target score)(聲明)。該推斷的依據(jù)是對學術英語水平的評價反映了現(xiàn)實中語言運用的質量。
依據(jù)的支撐是:研究顯示,考試成績與課業(yè)安置情況、學生自評及教師評判是正相關的。
使用連接的是目標分數(shù)(素材)與考試使用(聲明)。也就是說,該推斷的結論是:考試分數(shù)反映了考生間差異,這些差異使得高等教育機構能夠確定合格分數(shù),并在各自確定的合格分數(shù)的基礎上做出相關決定(錄取及課程建議)。這也是整個新托福效度論證的結論。該推斷的依據(jù)是:從托??荚嚝@得的有關英語運用質量的估值對協(xié)助錄取、課業(yè)安置以及指導英語教學是有用的。
三項工作構成了依據(jù)的支撐:(1)制作材料并面向社會舉行了信息發(fā)布會,仍需更多支撐。(2)制作材料并面向考試使用者舉行了信息發(fā)布會,以幫助他們確定合格線,仍需更多支撐。(3)第一階段的反撥研究已經(jīng)完成,仍需更多的反撥研究。
新托福的開發(fā)大致經(jīng)歷了理論探究、制定框架、設計試題、設計分項技能測驗、設計完整考試、考試定稿、最后分析7個階段。各階段任務不同,但均圍繞這6個推斷逐步深入地推進考試開發(fā)和效度論證。
實際上,在新托福的效度論證中,各級推斷的聲明隱含著明確的限定,即總體上,各推斷基于研究而得出的結論令人信服。盡管如此,對其中所隱含的不確定性,我們?nèi)匀灰幸粋€清醒的認識。
圖2 新托福的效度論證
任何研究都有一個一般的假設,即不受無關因素干擾,或者說“其他條件均等”,而現(xiàn)實世界的紛繁復雜足以讓這些“其他”足夠不相等,進而構成例外(Kane,2009)。新托福的效度論證包含大量的理論和實證研究,無關因素的干擾及相應的例外自然是存在的,只是這些干擾和例外不具備顯著意義罷了。
本文所介紹的新托福的效度論證是在考試開發(fā)過程中完成的,這決定了其局限性。實考數(shù)據(jù)將更為豐富和真實,將確認、充實或修訂先前的論證。正如Chapelle(2008)所指出的,在新托福效度論證的最高級推斷——使用中,要確信考試成績得到了切實合理的解釋和使用,仍需更多的支撐——仍需做更多的宣傳,仍需獲取更多的反饋,仍需做更多的反撥研究。
在效度的定義上,從測驗本身延伸至測驗的使用(包括使用的后果),不僅是測量研究者視野的拓展,更是測驗開發(fā)者責任的擔當。效度論證既是考試質量的求證,也是考試質量的說明。正因為如此,Chapelle(2008)提出,不僅要有面向專業(yè)人士或業(yè)內(nèi)人士的專業(yè)版的效度論證報告,還要有面向諸如考生、家長等非專業(yè)人士的大眾版的效度論證報告。只有這樣,才能更好地保障公眾的權益。
由于缺乏科學的框架作指導,在證據(jù)獲取上,傳統(tǒng)的效度論證很容易產(chǎn)生隨意性——選擇易于取得的,放棄難于取得的;選擇支持意向性結論的,放棄挑戰(zhàn)意向性結論的。這樣的效度論證主觀、片面,很難服人。新托??荚嚦晒肨oulmin模型開展基于推斷的效度論證,論證過程科學、嚴謹,值得借鑒和學習。
從本質上講,考試改革都是某種形式的效度論證驅動的結果。
托??荚嚦煽兪谴髮W環(huán)境中英語運用水平的證明,因此成為英語國家的大學錄取國際學生時的依據(jù)之一。自20世紀60年代誕生至今,托福考試一直引領著測量實踐的潮流。然而,就是這樣一個考試,它也是在應對挑戰(zhàn)中不斷地進行修訂、革新。由于僅考查聽、讀不足以全面反映考生的英語應用水平,1979年,ETS推出了考查寫的TWE(Test of Written English)考試。1986年,ETS又推出了考查說的TSE(Test of Spoken English)考試。聽說讀寫都已涵蓋,但考試的內(nèi)容和形式仍不足以充分反映大學校園英語使用的實際,加之面對更具交際性的劍橋雅思(IELTS)考試的競爭,這才有了新托福項目,才有今天集聽說讀寫于一身、更具交際性、更能反映考生學術語言水平的新托福。
反觀國內(nèi)歷次考試改革,又何嘗不是潛在的效度論證驅動的結果。以高考為例,全國統(tǒng)一高考制度的確立為社會大眾提供了一條統(tǒng)一的進步通道,但在舊托福清一色選擇題的影響下,加之要解決命題的隨意性、評分的主觀性和昂貴的考試成本等一系列問題,20世紀80年代中期,我國掀起了一波標準化考試的浪潮。一時間,選擇題似乎成了無所不能、無所不包的萬能題型??墒牵^分倚重選擇題所帶來的弊端很快顯現(xiàn);人們反思,要考查求異思維和創(chuàng)新能力,除了主觀題別無選擇。于是,從20世紀90年代起,主觀題的分量逐漸增加,主客觀題的比例漸趨合理,科目內(nèi)及科目間綜合運用能力的考查成為高考的重要內(nèi)容之一。
毫無疑問,高考內(nèi)容和形式的改革為人才選拔提供了更加科學的依據(jù),可問題是,它仍然是唯一的依據(jù):對大學而言,千校一卷;對學生而言,命懸一線;對考試本身而言,它僅服務選拔。一句話,單一的考試承載了過多的功能和超重的使命。一方面,一次考試,準確是相對的,誤差是絕對的,卻還被過度使用——考試成績本只能證明學生的學習成績和學習能力,卻無形中被當作所有能力的化身;另一方面,考試僅用于選拔,效能較低。正因為這些問題,才有《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020)》中“分類考試、綜合評價、多元錄取”的高考改革思路,也才有用多元評價改造單一考試的宏偉構想。
[1]American Educational Research Association,American Psycholog?ical Association,&National Council on Measurement in Educa?tion.Standards for educational and psychological testing.Wash?ington,DC:American Psychological Association.1999.
[2]Chapelle,C.,Enright,M.,&Jamieson,J.Building a validity argu?ment for the Test of English as a Foreign Language.New York:Routledge.2008.
[3]Chapelle,C.A.,Enright,M.K.&Jamieson,J.M.Test score inter?pretation and use.In C.A.,Chapelle,M.K.Enright&J.M.Jamie?son,(Eds.),Building a validity argument for the Test of English as a Foreign Language(pp.1-25).New York:Routledge.2008.
[4]Chapelle,C.A.The TOEFL validity argument.In C.A.,Chapelle,M.K.Enright&J.M.Jamieson,(Eds.),Building a validity argu?ment for the Test of English as a Foreign Language(pp.1-25).New York:Routledge.2008.
[5]Kane,M.An argument-based approach to validity.Psychological Bulletin,1992:112,527-535.
[6]Kane,M.Validation.In R.Brennan(Ed.),Educational measure?ment(4thed.,pp.17-64).Washington,DC:American Council on Education and National Council on Measurement in Education.2006.
[7]Kane,M.Validating the interpretations and uses of test score.In R.W.Lissitz(Ed.)The concept of validity(pp.39-64).Charlotte,NC:Information Age Publishing,Inc.2009.
[8]Kunnan,A.Fairness and ethics in language assessment:Course readings:TESL 567A.Los Angeles:California State University.2003.
[9]Toulmin,S.E.The uses of argument.Cambridge:Cambridge Uni?versity Press.1958.
[10]http://www.philosophyol.com/pol/html/25/n-10325.html.
[11]高晶,陸仲偉.高考成績與大學學習成績的回歸分析[J].丹東師專學報,1994(1).
Toulmin’s Argument Model and Its Application in Test Validation
CHEN Ning
Being one of the most influential philosophers of the latter half of the 20th century,Stephen E.Toulmin created the practical argument model,also known as Toulmin’s model,which has been used in multiple areas,including educational and psychological measurement.Based on an introduction of the model,the article focuses on an explanation of an argument-based approach to validation and exemplified application of the approach with New TOEFL.In the end,with an aim to improve the practice of test validation in China,suggestions are made in terms of a)placing more importance in test validation,b)trying using Toulmin’s model in test validation,and c)promoting assessment reforms through test validation.
Toulmin’s Argument Model;Test Validation
G405
A
1005-8427(2012)04-0015-7
教育部考試中心