TEM-4閱讀理解測試內(nèi)容效度分析

2013-11-13 08:52:58劉凌

湖北工業(yè)大學(xué)學(xué)報 2013年3期

劉凌

(1 湖北工業(yè)大學(xué)外國語學(xué)院，湖北武漢 430068； 2 華中師范大學(xué)外國語學(xué)院，湖北武漢 430072)

效度的高低是衡量語言測試最重要的指標(biāo)，或者說是語言測試的基本出發(fā)點，一項效度很低的語言測試是沒有意義的[1]。英語專業(yè)四級考試(Test for English Major-band 4，簡稱TEM-4)，作為國內(nèi)唯一英語語言文學(xué)專業(yè)學(xué)生基礎(chǔ)階段的大規(guī)模標(biāo)準(zhǔn)化語言測試，其效度倍受關(guān)注。廣大學(xué)者對其中占分比例較大的閱讀理解的內(nèi)容效度尤為關(guān)注，相關(guān)研究持續(xù)不斷。Arthur Hughes[2]曾經(jīng)從正反兩方面提出內(nèi)容效度的重要性：測試的內(nèi)容效度越高，越能精確測量想要測的語言能力；內(nèi)容效度低的測試會帶來負(fù)面的反撥效應(yīng)，測試中應(yīng)該要測而未被測量的內(nèi)容將有可能被教師和學(xué)生忽略。

縱觀已開展的研究，研究者的研究方法和角度基本相同。即，選擇連續(xù)幾年的測試真題，分別從選材、閱讀速度、閱讀難度、出題角度等方面與教學(xué)大綱進(jìn)行逐一對比，評估其內(nèi)容效度高低[3]。這種研究方式主要基于成就考試的性質(zhì)和內(nèi)容效度的定義。本文將沿襲一貫的研究方法，對2009至2012年的TEM-4閱讀測試部分進(jìn)行內(nèi)容效度分析，并從測試的反撥作用及內(nèi)容效度和構(gòu)念效度的關(guān)系兩方面進(jìn)行評價和提出進(jìn)一步完善的建議。

2005年起實施的新版《高校英語專業(yè)四級考試大綱》[4](以下簡稱新《考綱》)明確英語專業(yè)四級考試的性質(zhì)是“標(biāo)準(zhǔn)參考性教學(xué)檢查類考試”，目的是“全面檢查已完成英語專業(yè)基礎(chǔ)階段課程的學(xué)生是否達(dá)到了《大綱》所規(guī)定的各項英語專業(yè)技能要求”。因此，英語專業(yè)四級考試是成就測試，是基于教學(xué)大綱(syllabus-based)內(nèi)容上的考試，相比基于語言理論(theory-based)的水平考試，其突出特點是與教學(xué)大綱的密切聯(lián)系。

內(nèi)容效度( content validity)屬于內(nèi)在效度，即測試本身的效度。它指的是測量工具內(nèi)容上(包括材料、題材、題目)的代表性(representativeness)或所選內(nèi)容樣本的充分性(sampling adequacy)[5]。本研究根據(jù)Bachman和Palmer[6]提出的考試任務(wù)特點框架，從語篇輸入特征和預(yù)期回答特征上考查TEM-4閱讀測試內(nèi)容上的代表性和所選內(nèi)容樣本的充分性。語篇輸入包括體裁、題材、文章長度、文章閱讀速度和篇章難度；預(yù)期回答特征包括閱讀能力的考查，題項的設(shè)計。分析中選擇新《考綱》進(jìn)行逐一比較，因為新考綱在測試要求上與《高等學(xué)校英語專業(yè)英語教學(xué)大綱》[7]中對閱讀理解四級水平的規(guī)定完全一致，并在選材原則和測試形式上作出較《大綱》更為明確的規(guī)定。

1 選材是否符合測試要求

據(jù)新《考綱》，TEM-4閱讀理解材料的選擇應(yīng)符合以下原則：1) 題材廣泛，包括社會、科技、文化、經(jīng)濟(jì)、日常知識、人物傳記等。2) 體裁多樣，包括記敘文、描寫文、說明文、議論文、廣告、說明書、圖表等。從表1可看出，閱讀文章的選材范圍廣泛，從日常知識的打電話，修電腦，付小費，大掃除，到社會熱點，如經(jīng)濟(jì)大蕭條，大學(xué)生畢業(yè)就失業(yè)等現(xiàn)象；從地理奇觀納斯卡線到歷史奇觀開羅的圖坦卡蒙法老金雕像，從科技，如解讀工程師的貢獻(xiàn)，提煉優(yōu)秀科技人員的思維行動方式到人文，如畢業(yè)演說，飲食文化，日式相親，還包括人物傳記，哈靈頓。不僅如此，專四的閱讀測試在選材上秉承一貫宗旨：“所選文章雖是大眾熱門話題，但通常，作者的觀點，探討的角度與大眾觀點，傳統(tǒng)角度不同”[8]具體說來就是突出一個“變”字。首先表現(xiàn)在話題不變但切入點變化；如，關(guān)于手機(jī)，不再是它的通話便捷，短信編輯或者是娛樂功能，而是將其用作回避社交的功能；小費問題，著眼的不是常見的餐廳酒店的小費，而是付給從事物業(yè)的人員的假日小費；雖然談的是常見的“如何表達(dá)謝謝”，但卻出人意料地談到用“thank you”表達(dá)謝意從使用頻率上來說只排第20位；關(guān)注的是美國近期熱點“經(jīng)濟(jì)大蕭條”，但沒從鋪天蓋地的敘述“大蕭條”帶來的負(fù)面影響的材料中選取文章，而是另辟蹊徑地選取“大蕭條”所帶給人們在生活和工作方式上的正面影響；其次，有些文章本身就凸顯“變化”，如：2011年的TEXT A 閱讀模式的改變；TEXT C 日本人相親方式的改變；2012年的TEXT C 60年前后大學(xué)畢業(yè)就業(yè)情況的變化。這樣的選材原則既保證泛而不偏，與英語專業(yè)學(xué)生基礎(chǔ)階段的閱讀水平相符，又可避免受試者僅憑其背景圖示來選擇答案；并從擴(kuò)大視野，開闊角度，培養(yǎng)批判性閱讀習(xí)慣方面起到良好的反撥作用。需要指出的是雖然各題材的比例不是絕對均衡(社會、科技、文化、經(jīng)濟(jì)、日常知識、人物傳記的比例是：2∶3∶6∶1∶3∶1)，但符合各類題材在現(xiàn)實閱讀中出現(xiàn)的比例，而且充分考慮到基礎(chǔ)階段英語專業(yè)學(xué)生的閱讀能力與水平。與專四考試相比，專八考試和全國研究生入學(xué)考試中社論所占的比例較大。

從表1還可以看出，閱讀文章在體裁的多樣性上不斷改進(jìn)：首先“加大了記敘文的比重，由2001-2004年的6.25%增至2005-2008年的25%”[8]，2009-2012年在繼續(xù)保持25%的記敘文的比重上，試題編撰者有意識地選取夾敘夾議的文章，一定程度上彌補議論文選材的不足。描寫文則延續(xù)了頒布新大綱之后2005-2008年四年描寫文所占的比重6.25%[8]。描寫文、記敘文、說明文、議論文在專四閱讀測試中的比例為：1∶4∶8∶3，逐漸接近現(xiàn)實生活中實際閱讀情形。不足之處在于廣告、說明書、圖表一類實用體裁的文章繼2005年取消Skimming & Scanning部分考題后完全缺失。這一定程度上影響了內(nèi)容效度，并且這些實用文體在日常生活中隨處可見，如果在專四考試的閱讀中能占據(jù)一定比例，勢必會提高學(xué)生對此類體裁文章的關(guān)注度，提醒他們隨時留意生活中的英文廣告，說明書和圖表。其結(jié)果一方面可以不自覺地提高學(xué)生的英文輸入，另一方面也豐富了學(xué)習(xí)者的閱讀體裁，有利于培養(yǎng)學(xué)生針對不同文體采取不同閱讀策略的閱讀能力，促使他們成為一個靈活應(yīng)對各種文體的具備策略意識的讀者。

2 閱讀速度是否達(dá)到測試要求

新《考綱》[4]對閱讀速度是這樣規(guī)定的：“閱讀材料共長1800個單詞左右。每篇材料后有若干道題。學(xué)生應(yīng)根據(jù)所讀材料內(nèi)容，從每道題的四個選項中選出一個最佳的答案。共20道題?！备鶕?jù)表2統(tǒng)計，2009-2012年的閱讀材料的長度除2010年外，均在1800詞左右，符合大綱要求，但2010年和2011年兩年的材料長度及題目字?jǐn)?shù)有較大差異，總字?jǐn)?shù)相差超過400詞，幾乎相當(dāng)一篇文章的長度，極大地影響不同年度考生的公平性。另外，需要補充說明的是，雖然考綱要求“閱讀速度為每分鐘120個單詞”，“考試時間為25分鐘”，在研究中不宜用120詞乘以25分鐘共計3000詞作為衡量閱讀材料長度的標(biāo)準(zhǔn)，因為這25分鐘的考試時間既包括閱讀材料也包括答題及填涂答題卡的時間。

表1 2009-2012年TEM-4閱讀理解材料題材體裁一覽表

表2 2009-2012年TEM-4閱讀材料字?jǐn)?shù)一覽表

3 閱讀能力的考查是否符合測試要求

閱讀能力在閱讀過程中通過不同的閱讀技能加以體現(xiàn)。鄒申和楊任明[9]把Heaton于1978年提出的14項閱讀技能分為三類：基本語法詞匯概念，語法詞匯運用技能和篇章理解技能?！犊季V》[4]對TEM-4閱讀理解的測試要求是：“……能掌握所讀材料的主旨大意，了解說明主旨大意的事實和細(xì)節(jié)；既理解字面意思，又能根據(jù)所讀材料進(jìn)行判斷和推理；既能理解個別句子的意義，也理解上下文的邏輯關(guān)系?！辈浑y看出，專四閱讀技能測試要求集中在篇章理解技能。具體分析如下：

表3的統(tǒng)計結(jié)果顯示近四年試題考點的覆蓋量達(dá)到《考綱》要求，試題的分布總體比例符合真實閱讀情況下主旨，細(xì)節(jié)，態(tài)度，推理等的實際比例，但其中2011年的“事實和細(xì)節(jié)”題型與“判斷、推理和引申”題型比例失調(diào)，這一定程度上會影響不同年度考生的公平性。

表3 2009-2012年TEM-4閱讀理解試題考點一覽表

近四年試題繼續(xù)延續(xù)新《考綱》實施以來，保證每年的考題都涉及主旨大意和作者態(tài)度觀點的題型，從表格上看09年沒有作者態(tài)度觀點題，主要是因為09年有3篇文章均是以第一人稱的角度，夾敘夾議。故筆者在分類時，把涉及文中“我”的態(tài)度題目均歸入細(xì)節(jié)推斷題。此外，繼2008年設(shè)計兩道有關(guān)文章結(jié)構(gòu)與上下銜接的問題[8]，近四年試題已經(jīng)固定下這一題型，每年都設(shè)計1至2道結(jié)構(gòu)題，滿足了大綱“理解上下文的邏輯關(guān)系”的要求。

以上兩點的改進(jìn)，顯示專四閱讀測試在考查角度把握上的日趨成熟。這無疑加強了專四閱讀測試的正面的反撥效應(yīng)，促使學(xué)生提高篇章意識，更好的理解銜接手段的作用，形成觀點與材料緊密聯(lián)系的整體閱讀觀，改變學(xué)生單一使用bottom-up model的閱讀模式，逐步引導(dǎo)學(xué)生形成綜合的閱讀模式，即：bottom-up model和 top-down model綜合使用。

4 題項的設(shè)計是否符合測試要求

依據(jù)《考綱》規(guī)定，專四閱讀理解部分的測試形式一直采用信度較高的多項選擇題。比較市面上權(quán)威參考書所提供的答案發(fā)現(xiàn)，近4年的考題設(shè)計更趨于嚴(yán)謹(jǐn)，僅有2道題目出現(xiàn)不同的參考答案。但筆者仔細(xì)考查試題，發(fā)現(xiàn)仍有完善的空間。一是“作者態(tài)度題”的干擾項設(shè)計。近4年共有6道“作者態(tài)度題”，其中2010年第90題，2011年第83題和2012年第93題的干擾項設(shè)計科學(xué)，但2010年第85題和2012年的第92題，第100題這三題都有unclear, not clear, indifferent作為干擾項，然而，這樣的干擾項對考生實際無法起到干擾作用。

閱讀測試的文章均來自公開出版發(fā)行的刊物，這些文章的作者并不以被選中考題為寫作目的，而是因為對所撰寫的話題關(guān)注，感興趣；因此，作者對所寫話題抱有明確態(tài)度，不可能持漠不關(guān)心(indifferent)和不清楚(unclear, not clear)的態(tài)度。事實上，筆者研究了多種國內(nèi)全國性標(biāo)準(zhǔn)化測試的閱讀真題，沒有以上述選項作為正確項的題目。正因如此，上述干擾項很容易被考生在思考“作者態(tài)度”題時，第一時間排除掉，增大猜測幾率。同樣的問題還出現(xiàn)在09年第90題，這是道風(fēng)格題(What is the tone of the passage?)題目中也有unclear這樣的干擾項。一篇能夠被公開發(fā)表的文章質(zhì)量上是有保障的，這樣的文章一定有較鮮明的風(fēng)格特點，所以，unclear這樣的干擾項形同虛設(shè)。二是在題干的編寫上，應(yīng)該把選項中重合的部分并入題干[9]。建議2009年第81題的題干改為：“According to the passage, when one is , most weight be imposed on hip-joints. ”建議2010年第92題的題干改為：“‘But graduation speeches are less about the message than the messenger′ is explained in the paragraph.”建議2011年第81題的題干改為：“According to the passage, paragraph briefly reviews the historical challenges for reading. ”建議2009年第96題把選項中的he并入題干，第97題把選項中的didn′t并入題干，第100題把選項中的Ed并入題干，2011年第88題把選項中的Because并入題干；2012年的第88題可以仿照2009年的第99題改為“Which of the following statements is CORRECT about Cindy?”

5 建議和結(jié)語

綜合以上分析，近四年的TEM-4閱讀理解測試的內(nèi)容效度有進(jìn)一步的提高，試題命制更科學(xué)，更嚴(yán)謹(jǐn)，更規(guī)范，更好地發(fā)揮其正面的反撥作用。具體表現(xiàn)在選材廣泛：既緊密聯(lián)系生活，又角度新穎；體裁多樣：通過增加夾敘夾議文章的方式增加了文體形式。各類題材及體裁之間的比例分配均充分考慮真實閱讀情形和考生的閱讀水平。閱讀能力的考查方面對作者的觀點和態(tài)度、主旨大意及邏輯結(jié)構(gòu)的穩(wěn)定涉及彌補了此前考題在“理解上下文的邏輯關(guān)系”上考查方面的不足。

但TEM-4閱讀理解測試仍有完善的空間：首先，在體裁多樣性上，新《考綱》在舊《考綱》的基礎(chǔ)上，特別增加了描寫文，廣告、說明書、圖表等體裁方面的要求。這要求試題命制者考慮如何將原有放在Skimming & Scanning中考查的內(nèi)容有機(jī)地融入改版后的閱讀材料中。其次，篇章的長度仍然欠穩(wěn)定。更主要的是，題項的設(shè)計既存在技術(shù)上的問題(如上文所分析)，也存在構(gòu)念效度的問題。閱讀考試全部采用多項選擇題，保證測試信度的同時，不可避免的忽視了大量真正語言輸入和交際能力的檢測[10]。內(nèi)容效度是做為整體概念的構(gòu)念效度框架下的一個組成部分。內(nèi)容效度的局限性在于只關(guān)注測試而不關(guān)注考生，所以，即便是基于大綱的成就測試也必須進(jìn)行構(gòu)念效度的整體分析，否則，即便內(nèi)容效度很高的測試，其測試結(jié)果也不足以作為考生能力的評價指標(biāo)[3]。李俊和葛俊麗[11]通過實驗驗證，多項選擇題答案的唯一性掩蓋了該測試題型的主觀性，即出題者在出題過程中將主觀意識加入到試題中，而且這種主觀意識的體現(xiàn)影響了閱讀試卷的效度。當(dāng)然，試題組可以通過反復(fù)前測中的難易度、區(qū)分度和選擇項分析，進(jìn)一步提高多項選擇題的客觀性。即便如此，多項選擇題型還存在除無法避免的猜測幾率外另一個問題，即測試者無法了解考生做出選擇的原因，既有可能因為錯誤的原因選出正確的答案，也可能因為正確的原因選出錯誤的答案[12]。所以，雖然多項選擇題在評卷上能極大的避免主觀因素帶來的誤差，但如果這種測試形式無法滿足閱讀理解能力測試的構(gòu)念效度，建議盡量使TEM-4的測試方式或任務(wù)貼近真實閱讀活動，有選擇地增加一些諸如關(guān)鍵詞問答(short-answer question)、信息轉(zhuǎn)換(information transfer)、填空題(blank-filling)、匹配(matching)等。事實上，近年來，國內(nèi)的全國英語研究生入學(xué)考試，全國英語等級考試(PETS)和國際的雅思(IELTS)考試都有很好的嘗試。大綱與測試之間的關(guān)系是一種互動關(guān)系；充分利用并且利用好這種互動關(guān)系，對我們不斷改進(jìn)教學(xué)與測試大有裨益[13]。

本研究的局限性在于回避了“篇章難度”這個方面的考查，原因是《考綱》中規(guī)定的“中等”是個模糊表述，雖然國外許多語言學(xué)家和心理學(xué)家都提出了量化計算閱讀材料易讀度公式，如SMOG系數(shù)、Fry估量法、Flesh公式等，但易讀度公式的測算僅從平均詞數(shù)和音節(jié)的角度進(jìn)行，并不能絕對說明問題，因為具體一篇文章的難度還受到其他一些重要因素的制約，比如題材、體裁、詞匯、專業(yè)背景知識、母語/非母語、語法結(jié)構(gòu)等等[10]。國內(nèi)相關(guān)研究中用相同易讀度公式考查相同測試的難度值也不一致，如侯艷萍[10]和徐晶[3]；陳柳青[14]和陶加輝&鄔小琴[15]?！犊季V》還進(jìn)一步規(guī)定專四閱讀的選材難度為“能讀懂難度相當(dāng)于美國Newsweek的國際新聞報道。能讀懂難度相當(dāng)于Sons and Lovers 的文學(xué)原著。”對于前者，試題編撰者只需從Newsweek或與之相當(dāng)難度的Time，U.S News & World Report等選材即可；而對于后者，筆者建議利用美國的一些閱讀評級網(wǎng)站[16]。如，用藍(lán)思(Lexile)評級可查到Sons and Lovers的閱讀分值為1200L，試題編撰者可以選用藍(lán)思分級閱讀分值為1200L左右的文學(xué)原著，這樣，就能較好地滿足考綱對閱讀材料難度的要求。

客觀而言，要在有限的時間、有限的材料里做到面面俱到絕非易事。英語專業(yè)四級考試自1990年開始實施至今，不斷更新理念，完善試題，極大地推動英語專業(yè)教學(xué)的改革創(chuàng)新，真正實現(xiàn)TEM-4實施的教育目的和社會價值。

[參考文獻(xiàn)]

[1] 劉潤清，韓寶成. 語言測試和它的方法[M]. 修訂版. 北京:外語教學(xué)與研究出版社, 2004：206.

[2] Arthur H.Testing for Language Teachers[M].北京:外語教學(xué)與研究出版社,2000：22-28.

[3] 徐晶. 英語專業(yè)四級考試閱讀理解內(nèi)容效度研究[J]. 湖北經(jīng)濟(jì)學(xué)院學(xué)報(人文社會科學(xué)版), 2013, 10(1)：208-210.

[4] 高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員會英語組. 高校英語專業(yè)四級考試大綱(新版) [Z]. 北京:外語教學(xué)與研究出版社;上海:上海外語教育出版社, 2004.

[5] Kerlinger F N. Foundations of behavioral research[M].New York: Holt, Rinehart and Winston, 1973: 458.

[6] Bachman L F, Palmer A S. Language testing in practice[M].Oxford: Oxford University Press,1996：56-72.

[7] 高等學(xué)校外語專業(yè)教學(xué)指導(dǎo)委員會英語組. 英語教學(xué)大綱[Z]. 北京:外語教學(xué)與研究出版社;上海:上海外語教育出版社, 2000.

[8] 劉凌.TEM-4閱讀理解測試內(nèi)容效度分析[J]. 安徽工業(yè)大學(xué)學(xué)報(社會科學(xué)版), 2008, 25(6)：115-117.

[9] 鄒申,楊仍明.簡明英語測試教程[M].北京:高等教育出版社, 2005：86.

[10] 侯艷萍. 近七年英語專業(yè)四級閱讀理解內(nèi)容效度評估[J]. 河北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2012, 37(4)：142-147.

[11] 李俊,葛俊麗.論英語閱讀測試的內(nèi)容效度問題[J]. 浙江工業(yè)大學(xué)學(xué)報(社會科學(xué)), 2002, 30(6)：603-609.

[12] Alderson J. C.Assessing Reading[M].北京:外語教學(xué)與研究出版社, 2011：212.

[13] 鄒申. 語言教學(xué)大綱與語言測試的銜接——TEM8的設(shè)計與實施[J]. 外語界, 2003,(6)：71-78.

[14] 陳柳青. 閱讀理解內(nèi)容效度分析[J]. 延安職業(yè)技術(shù)學(xué)院學(xué)報, 2010, 24(2)：65-67.

[15] 陶加輝,鄔小琴. 大學(xué)英語新四級閱讀理解內(nèi)容效度研究[J]. 教育與考試, 2010 (2)：32-36.